免费实用的宝藏网站 - 广州大学城网点亮大学生活!
 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
广州大学城网业务调整

[日常用品] 支付宝故障引发争议,支付宝称网络故障已修复 不影响资金 [复制链接] qrcode

查看: 1477 | 回复: 0

砍吧街
发表于: 2015-5-29 11:21:57 | 显示全部楼层

5月27日下战书5点,拥有将近3亿活跃用户的支付宝泛起了大面积访问故障,全国多省市支付宝用户泛起手机和电脑支付宝无法登陆、余额错误等题目。对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。
支付宝CTO程立表示,支付宝在系统上采用了异地双活的架构,即杭州和外地两处机房同时为用户提供服务,系统会将全国所有用户的需求分流到两处机房。
支付宝方面表示,支付宝有完善的技术和措施保护用户的资金安全,用户的资金安全不会受到任何影响。如果有头像、交易信息不同步等情况也会恢复同步。
程立表示,这次的结果仍然不能让内部满意。“我们的目标是要做到让用户无感知。”他透露,目前相关技术改造还在推进当中。随着改造的完成,未来,即使再次出现某地机房光纤被挖断的情况,也能保证不会对用户带来任何影响


在蚂蚁金服发给《财经》的官方回应中称,泛起这一题目的原因在于市政施工导致杭州市某地光缆被挖断,影响了支付宝一个主要机房的正常运转。当天晚上19时左右,即在事故发生大约两个多小时以后,支付宝服务才恢复正常。


蚂蚁金服称,无法精确统计在故障时间段内使用支付宝的详细用户数目。


拥有超过4万亿年交易总额的支付宝是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。故障发生后,用户普遍担心账户资金安全题目,亦有用户反应泛起账户余额不同步的现象。


蚂蚁金服对此回应,支付宝有完善的技术和措施保护用户的资金安全,支付宝中的任何一个交易,同时都会有多份记实,数据可靠性极高。假如有用户泛起交易不同步的情况,后续都会得到妥善解决。


这份蚂蚁金服发给《财经》的官方回应还指出,支付宝异地多活的系统架构在此次意外中施展了巨大作用:一方面,没有因光缆被挖断而影响全部用户;另一方面,紧急将故障机房的流量切换至了其他机房。在当晚7点支付宝服务恢复时,被挖断的光缆还没有修复


蚂蚁金服一位高管向《财经》记者表示,大流量网站实时切换涉及资金时有难度,需要安全地将用户的数据,尤其是资金数据也切换到其它机房,所以切换操纵需要花费较多的时间。“技术上可以做到更快恢复,之所以较慢是为了确保不丢数据。”


蚂蚁金服对于这次事故的内部总结是,数据校验较多,怕丢数据,所以花了较多时间。内部以为这是一次安全但不够漂亮的灾备实战,就比如跳水,起跳不错,空中动作也还行,但入水压水花不够好。


《财经》记者了解,支付宝采用异地双活的系统架构,的确有多个机房。正由于如斯,本次支付宝杭州机房网络间断,只影响了一个机房,其它机房的业务不受影响。


但这依然受到外界质疑。质疑焦点有二:一是恢复时间竟然长达两个小时;二是毕竟是出于资金安全考虑而主动放缓速度仍是支付宝应急预案泛起漏洞?


一位国有大型银行内部人士向《财经》记者表示,假如在银行的支付系统发生大面积瘫痪超过2个小时,已经属于重大安全事故,很有可能要向国务院汇报存案。


他向《财经》记者夸大,传统金融机构发生这样波及全国范围的安全题目几率微乎其微,原因在于银行涉及用户资金的重要系统灾备方案十分完备,一般是“两地三中央”云备份方案,保证“同城灾备结合异地灾备”,目的在于防止重大灾害或战役等极端情况。


上述国有大型银行内部人士以为,正由于此,假如银行系统泛起支付宝因光缆被挖断而导致一个数据中央停摆的情况,用户流量和系统会向同城或异地其他数据中央切换。“就算不会是即时切换,也不会花费太长时间,同城可能会更快,就是用户根本感慨感染不到延迟。”


这一说法得到多位接受《财经》记者采访的电信技术人士的支持。中国电信的一位技术高层人士分析,服务故障切换机制应该是自动的,根据一定的事先设置的策略,无需人为干涉干与,人工可以在服务切换后,再重新定义流量疏浚沟通方式。


该人士称,支付宝多中央制的网络架构设计,不同于普通用户接入光缆宽带服务,不可能只是用一个区域性的小机房,一根光缆被挖断了就断服务了。支付宝机房服务的路由应该非常多,不可能只接一家运营商,即便只是一家,肯定也是多路由接入。“数据路由就像供电,来自不同的变压器和能原地。”


一位曾在汤森路透工作的阿里巴巴程序员亦向《财经》记者表示,汤森路透号称世界最大金融网络,处理全球实时金融数据,要求不能宕机,哪怕天然劫难或战役。他们机房这样建的:两条不同电信公司的光缆和不同电力公司的电缆分别从机房的两个方向进入,统一个机房的所有系统实时双备份,并建设两个不同城市(巴黎、日内瓦)机房同时实时处理相同的数据。


某大型国企网络运维职员称,从技术角度看,支付宝此次事故可能是内部应用模块出了题目,未经严格验证的应用被同一进级后,被意外触发到未知状态,会导致此类题目。


上述运维职员还表示,经他观察,支付宝DBA(数据治理职员)紧急恢复了RPO=10days的完整数据(RPO,Recovery Point Objective,复原点目标,是指当服务恢复后,恢复得来的数据所对应时间点,理想的状态是RPO=0,故障泛起立刻恢复,但需要极大投入),并不停地进行分段增量数据恢复,历时约2小时余,这就是应用模块的题目。

上述中国电信技术人士则分析以为,泛起这种题目的可能性是,支付宝多个数据中央之间的自动流量切换机制泛起题目,只能人工参与。还可能是其他三种原因:一是很有可能是支付宝遭到了攻击;二是支付宝的路由配置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也泛起过这个题目。号称最提高前辈最安全的阿里云系统对自家业务并没支撑好。


就以上相关题目,《财经》记者询问了蚂蚁金服方面,蚂蚁金服回应称,详细的技术分析正在加紧进行,但得出结论判定还需要一段时间。


微妙的是,在蚂蚁金服更早的一份媒体回应中称,之所以花费较长时间,是在流量向支付宝位于深圳的数据中央迁移的时候,切换系统也受到了光纤断裂的影响,所以切换上花费了一些时间。这与“技术上他们可以做到更快恢复,之所以较慢是为了确保不丢数据”这一说法并不一致。


另有行业人士评价,此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待进步,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行不乱性并不如斯前所宣称那样完善。在支付宝发生大面积瘫痪事故之后,互联网企业的运维职员建立微信群对此展开了讨论。


跟着云计算和大数据的逐步普及,以及人们在互联网应用越来越重的资产托付,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信、IT领域高达99.999%的“5个9”安全级别靠拢。


蚂蚁金服表示,支付宝将不断晋升灾备切换速度,但愿未来这样的切换能让用户无感知或者最小化感知。


对于此次事故带来的详细损失额度,蚂蚁金服表示,暂时无法统计。



文章由:白菜价 http://www.kanbajie.com/ 整理!转载请保留!
跳转到指定楼层
快速回复 返回顶部 返回列表