关于Azure云服务异常的通告
事件总结:北京时间2016/4/16 11:45到15:10,使用中国东部和中国北部服务的用户在打开管理门户网站(https://manage.windowsazure.cn)时可能会遇到问题。用户也可能无法连接这些区域内的虚拟机,Redis缓存以及媒体服务。使用流分析服务的用户可能会看到正在创建的工作流和已存在的工作流停止执行。使用SQL数据库的用户可能无法创建,删除或者导入导出数据库。使用Azure活动目录的用户可能无法执行服务管理操作。使用服务总线的用户可能看不到日志,并且不能读取服务总线资源。
初步调查原因:由于负载均衡的程序问题,计算集群的负载均衡节点被移除,导致中国北部数据中心的计算集群的所有服务失去连接。
恢复:工程师将软件负载均衡的节点进行了故障转移,恢复了所有的服务。
相较于2014年11月的全球性服务中断事件而言,微软云Azure中国区的本次故障造成的影响还真的是小巫见大巫了。本次故障持续了3个多小时,部分华东和华北用户在打开管理门户时出现问题,有些还无法连接到这些区域的虚拟机和网站,虽然当天下午三时许全部服务已经恢复正常,却仍在用户群里产生了不良影响,抱怨者甚多,经济损失尚无准确统计数据,Azure的品牌声誉再次受损是确定无疑了。
在这里,小编请问一下大家,作为用户,你觉得云服务故障的中断时间多久你才觉得合理?作为商家,你能接受的云服务恢复时间目标(RTO)又是多久呢?
我们以Azure的现有客户PPTV亚洲电视网为例。(PPTV亚洲电视网依托 Windows Azure 平台成功在全球地区提供了一站式的亚洲电视网平台,帮助客户构建1080P 高清网络电视点播、直播服务。)对于个人用户而言,云服务的中断也许只是你暂时不能收看喜欢的PPTV节目,忍一下也无妨。但对于微软和PPTV来说,云服务中断的这三个小时意味着什么呢?相信Azure灵活的按量计费系统(Azure的按量计费方式,收费可以精确到运行小时和存储 GB 等单位。)可以给出准确的经济损失数值,却无法计算对各自品牌带来的声誉损失。
如何让云服务在出现故障后瞬时恢复?
在容灾备份行业耕耘多年的和力记易公司新推出的数易云备系统是让云服务瞬时回复的首选。数易云备是一款针对各种主流虚拟化软件进行容灾备份的系统,适用于各种私有云以及公有云中虚拟机的备份和管理。无需在虚拟机上安装程序,数易云备就可以针对虚拟机进行全量、增量或差异备份,不仅可以将已经备份的数据与新变化的数据合成而生成新的备份,节省存储空间,还可以在传输层对网络连接及备份出来的虚拟机文件进行加密,保障数据的传输安全和备份文件的安全,最重要的是,数易云备可以将虚拟机备份点基于nfs、nas或san进行挂载恢复,从而瞬间恢复某个虚拟机的运行。
曾经有句很流行的话叫“时间就是金钱”。在信息化时代,不论是个人还是商家,想必对这句话都更加深有感触。先进技术的发展在推动社会进步的同时,加快了我们的工作生活节奏,在节约资源和时间的同时,无形当中提高了我们对服务的要求,我们不只关注质量,我们同样关心获得或享有服务的时间。
云计算、云服务、云时代,弹指间“樯橹灰飞烟灭”的神马都是浮云,打个响指的功夫就足够数易云备让云服务瞬时恢复了,快来一起打个响指,赶紧赞起来。