腾讯云发布关于客户“前沿数控”数据完整性受损的技术复盘

近日,腾讯云客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致该客户的文件系统元数据损坏,我们对客户业务所受影响表示诚挚歉意。同时,我们也对此次故障过程进行了深入的技术复盘。复盘发现,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

腾讯云发布关于客户“前沿数控”数据完整性受损的技术复盘

故障过程复盘

当天上午11:57,运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;

在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;

在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;

到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。

故障原因复盘

本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。

数据搬迁过程中的违规操作主要如下两点:

第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验

第二是正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收

因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响,腾讯云对此再次表示最诚恳的歉意。

沟通过程

8月2日,腾讯云向“前沿数控”接口人伍先生说明情况并表达歉意,同时安排专人积极与接口人沟通,制定136469元“赔偿+补偿”方案,遭拒。

8月6日,“前沿数控技术”通过网媒渠道爆出此事;

随即,腾讯云官方微信发布了《关于用户“前沿数控”数据完整性受损及腾讯云补偿措施的说明》。

“前沿数控技术”表示:

从7月20日20:00起,平台已全部停运,活跃用户在网站停运的情况下逐渐流失,平台信任度将降至冰点,后续再恢复活跃度面临几何级的极大挑战,广告主在平台的广告投入已不能正常展示,面临退款赔偿及老客户丢失,公司融资计划也被中止。一家快速发展的创业公司瞬间回到“只能依靠微信公众号”的初期,企业陷入生存危机!

与此同时,他们对腾讯云“99.9999999%数据可靠性,搭载了云硬盘三副本存储策略”非常存疑,认为有夸大之嫌。

腾讯云则表示,硬盘静默错误是在极小概率下被触发,他们随即对固件版本有bug的硬盘全部进行下线处理。腾讯云的赔偿方案如下:

赔偿部分:“前沿数控”在平台上(自2017年12月份开户至今)产生的实际消耗共计3569元,依据腾讯云相关服务协议、规则和行业惯例,腾讯云将按照赔偿条款中的上限以现金形式全额返还这笔费用;

补偿部分:本着帮助用户迅速恢复业务的目的,腾讯云承诺为“前沿数控”提供132900元现金或云资源的额外补偿。

据腾讯云称:

不过,‘前沿数控’基于自身评估就此次故障对腾讯云提出了高达11016000元的索赔要求。毫无疑问,这远远高于我们能够提供的方案。这也是此次双方目前未能达成一致的主要原因之一。

查看 腾讯云 故障的相关文章

转载本站原创文章请注明:文章转自 挨踢路,链接: https://itlu.net./articles/2509.html

评论列表(17条)

  1. 突然想黑一波企鹅,居然不是赔偿132900Q币。

    另外也很好奇,居然这么信任企鹅云,不搞异地备份?

    1. 这黑得漂亮~腾讯云的服务器,主要也是在深圳。。。
      对我说有3个备份,违规操作全没了,这也是够可以的,信任危机……

  2. 回复青山青山

    这企业也真是的,自己不备份

    1. 这次责任是腾讯云的运维人员违规操作造成。跟个人是否备份没多大关系,再说那么大的数据量,如果自己有备份服务器,还需要腾讯云干什么?

  3. Gitlab当时丢数据,6个备份方案,6个违规操作,全灭。但是最后还是把数据救到了当天,只丢了几个小时(6个备份方案有7个
    数据备份这事其实不算个啥新闻,我还没见过哪个公司会异地多活定时备份,都是放在一个桶里的。

    1. 是的,真的没见过,所以才会炒热,才会是新闻。
      其实我大胆假设,国内不少公司有备份也是放一起的

      1. 磁盘快照和磁盘应该不是放在一起的(虽然可能在同一台物理设备上),其实这事挺神奇的,能丢数据,但还只丢他一家公司的数据,怎么做到的。

        1. 一些是恢复了,主要是丢失这一家的。

          1. 看这文章下边的评论,有点心凉

  4. 这个创业公司估计凉了,异地备份的重要性...才赔那点钱都不够给员工散伙费吧?
    我博客的数据都是每发布一篇文章就备份一次然后下载到本地。

    1. 你的备份是手工的吗?

      1. 是的,下载了一个PHP整站打包文件..博客有类似打包数据的插件但年久失修已经不能用了。

        1. 厉害了我的哥

  5. “运维人员收到仓库Ⅰ空间使用率过高告警”????
    这是不是说明腾讯云超售了硬盘啊

    1. 超售这不是行业内公开的秘密吗

  6. 前两天腾讯云用户回访问我体验,我就提了这事,腾讯云客服还很认真的给我讲了这个事的来龙去脉,结果就是已经帮助这俩公司重新上线业务了。

    1. 称职的客服啊

添加评论

您好,#请填信息# 确定

打赏请博主喝水
LOADING