2024 7 18 日(美国太平洋时间)独立网络安全公司 CrowdStrike 的一次软件更新导致全球多个 IT 系统出现故障。虽然这并非微软自身的技术问题,但考虑到这次事件已经影响了公司的生态系统,我们希望在此介绍一下过去一段时间内,微软与 CrowdStrike 以及其他公司一同采取了哪些措施进行及时修复以及为客户提供的支持服务。


自事件开始以来,我们一直与客户、CrowdStrike 和外部开发者保持着持续的沟通,以收集信息并尽快找到解决方案。我们深知此次事件给众多企业和个人的日常生活造成了负面的影响。我们希望能够通过为用户提供技术指导和支持的方式,尽快将中断的系统安全地恢复正常状态。具体采取的措施包括:


迅速与 CrowdStrike 合作,并通过自动化的方式开发解决方案。CrowdStrike 推荐了一个替代方案来解决此问题,同时发布公开声明Windows 消息中心同步发布了在 Windows 终端上解决此问题的操作方式指南。


数百名微软工程师及技术专家直接与客户合作,以恢复服务。


与包括谷歌云平台(GCP)和亚马逊网络服务(AWS)在内的其他云计算供应商和相关方合作,分享各自在行业中看到的影响和情况,在及时告知 CrowdStrike 的同时,与客户们保持积极的沟通。


通过 Azure 状态仪表盘(Azure Status Dashboard)让用户及时了解事件的最新进展。


微软正在夜以继日地工作,提供持续更新和支持。此外,CrowdStrike 还帮助我们开发了一个可扩展的解决方案,帮助微软智能云 Azure 基础架构加速修复 CrowdStrike 的错误更新。我们还与 AWS GCP 合作,共同研究更高效的解决方案。


软件更新偶尔会引发服务干扰,但像此次 CrowdStrike 更新引发的重大事件并不常见。根据目前的估算,CrowdStrike 更新事故影响了 850 万台 Windows 设备,该数字不到所有 Windows 设备总量的 1%。尽管比例很小,但对经济和社会运转带来了巨大影响。这反映出有许多关键服务的企业正在使用 CrowdStrike


此次事件印证了在微软广泛的生态系统下,从全球云服务提供商、软件平台,到安全服务提供商供及其他软件供应商,再到我们的客户,彼此之间相互关联。这也提醒着身处科技生态下的我们,利用现有机制、优先考虑安全部署和灾备是至关重要的。正如过去两天中我们所看到的,唯有紧密协作,齐心协力,才能更高效地吸取经验、恢复服务并继续前进。感谢所有相关方的合作与协同,我们将继续更新此次事件的相关经验和未来计划。