【不正经总结】Cloudflare宕机事件 

链接

Cloudflare – Post Mortem on Cloudflare Control Plane and Analytics Outage

YAO点分析

Flexential 机房:

  1. 门控把关,帮你保护数据安全(物理)

Flexential 的门禁系统没有备用电池供电,因此处于离线状态。

  1. 弱小无助又可怜的无人陪伴儿童技术人员

第三,现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。

  1. 电!我的电!就在这里发电!BOOM

当 Flexential 尝试为 Cloudflare 的电路提供备用电源时,发现断路器出现故障。我们不知道断路器是否由于接地故障或其他电涌而发生故障,或者是否之前就已经坏了,只是在断电后才发现。

CF:

  1. 如果说,我高可用了,但是我高可用的依赖的东西没有高可用……

处理日志和为我们的分析提供支持的两个关键服务——Kafka 和 ClickHouse——仅在 PDX-04 中可用,但有依赖于它们的服务在高可用性集群中运行。

  1. 不是DDoS,胜似DDoS

失败的 API 调用淹没了我们的服务。我们实施了速率限制来控制请求量。

  1. 无助,弱小可怜,眼泪汪汪

这要求他们采购新的断路器,因为坏断路器比他们设施中现有的断路器还要多。

我们有许多问题需要 Flexential 的解答。

发表评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理