【摘要】截至2018年底,某行基于HDS VSP存储复制技术搭建的两地三中心容灾系统已经运行了八年,性能出现瓶颈,切换需要人工干预,不能达到同级银行所需的RPO和RTO,使得存储架构改造迫在眉睫。基于此,该行针对老旧设备存在的问题、未来业务发展需要和提供更好的服务、提升该行核心竞争力等多方面进行了分析和总结,经过对存储技术架构的多维度对比后,最终选定了华为的同城双活+异地远程复制的两地三中心存储容灾保护方案。本文着重阐述了存储组网设计、故障域设计、网络层设计和应用层设计等。经过近十个月的努力,最终在不影响业务的情况下,该行完成了异构存储的在线迁移,保证了新系统的顺利上线。

【作者】zzouh(社区ID),目前就职某商业银行负责基础架构设计及运维工作,擅长服务器、存储,虚拟化等领域。

一、项目背景

2011年初实施完成基于HDS VSP高端存储搭建的3DC方案承载核心业务系统,由生产中心通过DWDM链路同步复制到同城灾备中心、SDH线路异步复制到异地灾备中心构成。核心业务数据量约58TB,主机采用约45台Power物理机承载,主要包括:核心数据库和业务系统(存贷款、支付系统、账务)等。通过阵列复制技术进行容灾,RTO

两地两中心定位_两地三中心_两地中心点刘诗诗

1、痛点1

现网存储采用SSD和SAS进行分级,同时承载核心业务和部分A类业务,存储时延抖动较大,高峰期时延超过10ms,读时延最高到15ms,且时延经常出现来回波动,造成业务时常卡顿。

2、痛点2

业务连续性方面,现网存储容灾架构满足千亿级银行对于RTO、RPO的基本要求,但是生产存储存在单点故障,切换需要人工干预,且年度容灾演练复杂度高,现网存储架构无法满足未来银行对于数据中心“双活”模式的演进。

3、痛点3

TCO高,核心存储使用HDS早期VSP产品,设备老旧,即将过保,后期运维成本高,且扩容难度大。

二、需求分析和总结

1、旧核心设备面临问题

2、未来业务发展需要

3、核心系统改造势在必行

三、技术选型

1、存储改造——技术架构对比

两地中心点刘诗诗_两地两中心定位_两地三中心

从上表可以看出,存储容灾具备较强优势。首先,通用性强,适用于数据库及其他类型用;其次,配置简单,对主机资源占用少;另外,方案成熟度高,延展性强。

2、存储选型原则

对于存储选型方面,需要高可靠,即业务连续性支持,架构级高可用和设备级高可靠;高性能,即高带宽、低时延的架构,满足不同应用系统的性能要求以及支持业务快速上线;易管理和维护,必须具备自动化部署和配置、数字化管理和容灾架构管理;良好的可扩展和可演进性,必须满足未来3~5年的规划,支持向“双活”数据中心演进。因此,最终该行确定使用高端全闪存进行核心系统存储改造。

3、最终选型——同城双活+异地复制两地三中心容灾方案

两地三中心_两地中心点刘诗诗_两地两中心定位

基于对主存储性能保证的考虑,该行最终选用同城双活+异地远程复制的两地三中心存储容灾保护方案。它的优势在于:

1)高端全闪存满足核心系统对于性能的要求(低于1ms的稳定时延),且满足未来3~5年的业务扩展需求及新业务快速上线的需求;

2)高端全闪存“四坏三”架构提升单存储可靠性;

3)同城双活方案RPO=0、RTO≈0,高标准满足监管要求;

4)基于A-A架构的双活,两端存储都支持数据读写,减少了年度容灾演练步骤,大幅缩短演练变更操作时间和步骤;

5)后期平滑演进“四副本”等容灾方案,创新方案能力领先。

四、两地三中心容灾方案设计

4.1 方案架构图

4.1.1 级联组网

两地中心点刘诗诗_两地三中心_两地两中心定位

▲两地三中心方案架构逻辑组网(级联)

在级联组网方式中,生产中心与同城灾备中心之间采用同步数据复制技术,而同城灾备中心与异地灾备中心之间采用远程异步数据复制技术。这种方式中,生产中心与同城灾备中心之间有着密切的关系,如果中间的线路或同城灾备中心的存储设备有任何故障时,整个数据复制过程将停止。

同时,当同城容灾中心出现故障时,生产中心和远程容灾中心将失去联系,即生产中心的数据不能及时复制到异地灾备中心,造成生产数据没有容灾保护,容灾中心建设失去意义。因此这种级联容灾架构的容灾防护和适应能力较差。

4.1.2 并联组网

两地两中心定位_两地中心点刘诗诗_两地三中心

▲两地三中心方案架构逻辑组网(并联)

在并联组网方式中,生产中心与同城灾备中心之间采用同步数据复制技术,生产中心与异地灾备中心之间采用异步数据复制技术。

这种方式中,生产中心与同城灾备中心之间是相对独立的关系,如果中间的线路或同城灾备中心的存储设备有任何故障时,异步数据复制不会受到任何影响,数据异步复制正常进行。当数据复制线路或同城灾备中心的存储设备故障排除后,生产中心会将所有更新的数据复制到同城灾备中心。反之异步数据复制链路和远程中心出现故障,同城同步容灾也不会受到影响。提供了较好的数据保护架构。

4.1.3 双活+异步复制组网

两地三中心_两地中心点刘诗诗_两地两中心定位

▲两地三中心方案架构逻辑组网(同机房双活+异步复制)

在同机房双活+异步复制组网方式中,生产中心采用两台存储,存储之间数据完全同步,生产中心与异地灾备中心之间采用异步数据复制技术。

这种方式中,生产中心任意一台存储出故障,不会影响生产系统的正常运行。但生产中心整个中心出故障后,需要承担丢失部分数据的损失。

两地两中心定位_两地中心点刘诗诗_两地三中心

▲两地三中心方案架构逻辑组网(跨数据中心双活+异步复制)

在跨数据中心双活+异步复制组网方式中,生产中心和同城灾备中心的存储是双活的,存储之间数据完全同步,同城灾备中心与异地灾备中心之间采用异步数据复制技术。

这种方式中,生产中心存储出故障,不会影响生产系统的正常运行。它集合了并联组网和同机房双活的优点,同时去除了他们的缺点。

4.1.4 选择说明

两地三中心为用户提供了灵活的组网方式,用户可根据现有网络情况和对容灾备份RPO及RTO的要求来初步选择组网方式。不同组网方式应用场景对比如下表所示。

两地中心点刘诗诗_两地两中心定位_两地三中心

▲两地三中心不同组网应用场景对比

除此之外,还有以下几个因素需要考虑:

4.2 故障域设计

故障域概念上指具备相同的故障源统称故障域。故障源包括如:电力故障,制冷系统,网关等风、火、水、电、网络源。SAN双活数据中心方案为了确保用户业务连续性,需要根据业务提供相应的基础设施双活和冗余能力。除应用层集群部署防止应用层单点故障业务中断外,还需要考虑的内容主要涉及以下几个方面:

设计原则

同机房数据中心部署

双活在同一个数据中心内部署时,由于故障域无法隔离,只能提供设备级或者机架级的可靠性。

为了提供更高的业务连续性,需要注意的有:

跨数据中心部署

对于跨数据中心双活容灾场景,双活数据中心通常包括两个数据中心,及第三方站点。两个数据中心部署生产业务和双活存储,第三方站点存放仲裁设备。在设计方案时,需要设置三个故障域,即每个站点存在自己的故障域,避免因一个站点出现电力,网关等故障而影响整个系统可靠性。

其中规划要点在于故障源的识别,常见的有:

4.3 网络层设计

目标:规划三个数据中心容灾网络及其服务器及应用、存储阵列关系。

城域网要求:(同步远程复制,双活)

容灾网络距离:

传输延迟:

网络真实带宽:>业务的峰值读写IO带宽。

广域网要求:(异步远程复制)

容灾网络距离:无限制。

传输延迟:

网络真实带宽:>业务的平均写IO带宽。

管理工作站:

管理工作站需要三中心间通信。

网络距离要求:无限制。

通信网络带宽要求:10Mb/s。

应用、管理、两地三中心业务、仲裁网络IP规划原则:

4.4 应用层设计

4.4.1 数据库

两地中心点刘诗诗_两地两中心定位_两地三中心

▲Oracle RAC两地三中心部署要求

此图为两地三中心级联组网图,对于并联组网,只需要将图中的同城灾备中心设置为生产中心,将图中的生产中心设置为同城灾备中心。

4.4.2 设计原则

应用层设计原则如下:

4.4.3 多路径设计

必须配套华为UltraPath多路径。

主机部署华为多路径Ultrapath,存在两种工作模式,可以根据实际场景设置。

负载均衡模式

优选访问模式

4.4.4 存储层设计

双活解决方案中,针对两台存储的要求如下:

两地中心点刘诗诗_两地两中心定位_两地三中心

设计原则:

约束与限制:

两个数据中心存储IP网络要对称建设,但不建议要配置为完全相同。

4.5 系统RTO/RPO建议

通过对客户业务系统容灾分析,识别业务系统的风险等级,输出系统容灾RTO/RPO需求,如下表:

两地中心点刘诗诗_两地三中心_两地两中心定位

五、项目实施-数据迁移方案

在数据迁移方面,基于存储异构虚拟化的数据迁移方案是本次改造方案比较有难度和风险的部分。

两地三中心_两地中心点刘诗诗_两地两中心定位

由华为 OceanStor 18500F V5 异构接管HDS VSP存储资源(LUN),启动HDS VSP到华为 OceanStor 18500F V5 的数据迁移任务。迁移完成后,HDS VSP下线。

该方案的优势在于:

六、本次项目小结

本次华为3DC容灾架构存储改造项目,从2018年底立项到2019年10月新系统上线,历时近一年时间,感触颇深:

存储改造项目中,首先是前期调研,对于升级改造后所要达到的容量、性能,容灾所要达到的RPO、RTO等一定要有明确目标。例如,要求一定满足该行5年间的业务,以防短期内重复进行升级所带来的的再次投入,要让参与项目的所有人都明白这次项目的性质,在既定时间内所要达到的目标。

其次,项目实施中严格按照项目进度表进行、每一阶段的工作都要尽量向前赶,避免意外事件的发生而引起项目延误。因为该项目比较大,各个生产系统要分批、分阶段进行割接,每次割接前都要制定详细的割接方案(详细的标准是什么,要具体到每个命令行),每个参与割接人员的职责(确保双人复核)、制定回退方案、割接后24小时内高业务量对系统冲击的应急预案等。

最后,该行为该项目定下六大原则:1、要遵从业务连续性规划;2、实施科技发展战略;3、必须满足客平滑升级需求;4、技术风险平衡;5、依据监管要求,做到合规;6、参照同业经验,最好是从最佳实践中汲取宝贵经验。

原题:某银行核心系统存储升级改造架构方案设计实践

限时特惠:本站每日持续更新海内外内部创业教程,一年会员只需88元,全站资源免费下载点击查看详情
站长微信:nnxmw123