广发彩票_广发彩票平台_广发彩票代理-注册登录

上周四,6月14日,亚马逊在美国东部的数据中心失败,影响了许多AWS云服务和知名网站,如Heroku和Quora。 16日,Amaozn宣布进行事故分析。事故是由公共电网故障引起的,并引发了一系列连锁故障。 :

问题的原因是电缆故障影响高压配电系统。

6月14日大约20:44,电缆出现故障,进而影响了高压配电系统。为可用区域供电的两个公共变电站发生故障,这反过来又导致整个供电区域的电力供应不足。但是这种情况可以解决。亚马逊已启动备份生成器,以确保成功传输所有EC2实例和EBS存储。

然而,在20:53,备用发电机由于其风扇过热而断电。因此,使用备用发电机(具有完全独立的配电电路以实现额外发电)的计划也失败了。更不幸的是,在这个特定的备用配电电路中,断路器被错误配置为以低功率阈值打开,使得当负载传递到电路时,发生错误并且断路器断开。

在20:57,当断路器断开时,实例和存储器失去主要或次要备用电源。受此客户影响的实例和卷在多个可用区中运行,并且只能在此环境中运行以进行恢复。

15日10:19,更换并安装发电机风扇,发电机开始供电。电源逐渐恢复后,受影响的实例和存储也开始恢复。

在10:50,大多数情况已恢复正常。但是,对于EBS存储(包括引导块),当电源不足时存在数据丢失,即存储可能不一致。这不是潜在的不一致,因为即使I/O暂停存储,EBS也会直接在线报告损坏状态。用户只能通过验证存储的一致性来恢复它。

最后,在16日凌晨1点05分,超过99%的受影响存储得到了解决。

一般而言,与EBS相关的EC2 API的丢失集中在20:57-22:40。具体而言,在此期间,可变系统调用(例如创建,删除)失败,这直接影响客户发布新的EBS支持的EC2实例。 EC2和EBS API在多个可用的复制数据存储中实现。 EBS数据存储用于存储诸如元数据之类的资源的卷快照。由于此时主要EBS数据存储器功耗下降,因此系统无法将数据存储的副本放在另一个可用区中。一般来说,为了保护数据存储,系统会自动翻转到只读模式,直到电源恢复可以启动可用区域,然后尽快返回到一致状态,并返回数据存储读写模式,以便成功启用变量EBS调用。但在这次事件中,这种保护方案并没有奏效。

在未来,亚马逊将实施变更以确保快速数据存储。完全冗余的电源用于高压配电系统以及所有操作实例和存储。此外,亚马逊已完成对所有备用配电的审核。在审计中,亚马逊还发现了另一个有问题的断路器。此时,亚马逊表示已确定所有断路器均已正确配置,并将定期进行测试和审核。

最后,亚马逊向在这次事件中遭受损失的公司道歉。