链接
Cloudflare – Post Mortem on Cloudflare Control Plane and Analytics Outage
YAO点分析
Flexential 机房:
- 门控把关,帮你保护数据安全(物理)
Flexential 的门禁系统没有备用电池供电,因此处于离线状态。
- 弱小无助又可怜的无人陪伴
儿童技术人员
第三,现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。
- 电!我的电!就在这里发电!BOOM
当 Flexential 尝试为 Cloudflare 的电路提供备用电源时,发现断路器出现故障。我们不知道断路器是否由于接地故障或其他电涌而发生故障,或者是否之前就已经坏了,只是在断电后才发现。
CF:
- 如果说,我高可用了,但是我高可用的依赖的东西没有高可用……
处理日志和为我们的分析提供支持的两个关键服务——Kafka 和 ClickHouse——仅在 PDX-04 中可用,但有依赖于它们的服务在高可用性集群中运行。
- 不是DDoS,胜似DDoS
失败的 API 调用淹没了我们的服务。我们实施了速率限制来控制请求量。
- 无助,弱小可怜,眼泪汪汪
这要求他们采购新的断路器,因为坏断路器比他们设施中现有的断路器还要多。
我们有许多问题需要 Flexential 的解答。