助力数据中心转型:实现优化的五大步骤 数据中心架构师指南
导语
面对当今日新月异的技术发展,确保数据中心与时俱进已经不仅仅是一种理想的战略举措,更是企业的一项要务。
继续使用老旧的基础设施来运行日益复杂的数据密集型工作负载,会阻碍生产力和性能的提升。随着数据中心效率的降低和维护成本的攀升,企业用户可能无法访问和使用生成式 AI 等新兴功能,而这些功能正迅速成为保持竞争力的关键需求。
重构数据中心的基础看似是一项艰巨任务。架构师往往面临核心系统现代化的挑战,同时还要满足不断增长的工作负载需求。然而,不必因数据中心现代化的复杂性望而却步。通过深思熟虑并采取系统化的措施,您可以将整个过程分解为易于管理的几个阶段,从而在不影响日常运营的情况下,为未来发展奠定坚实基础。
本电子书介绍了五个切实可行的步骤,旨在助您优化数据中心,提高可扩展性,更好地应对未来需求。
1. 制定符合业务目标的 IT 战略:优先实施能带来更高商业价值和投资回报率 (ROI) 的计划。
2. 审查基础设施:识别差距和依赖关系,寻找优化机会。
3. 选择合适的策略:从淘汰过时系统到利用软件即服务 (SaaS),选择更合适的优化方式。
4. 尽早解决障碍:降低技术债务、预算限制和利益相关者抵制等风险。
5. 致力于持续优化:定期评估、调整并记录经验总结。
第 1 步 明确业务目标和计划
数据中心的优化工作应当紧密契合整体业务目标和优先事项,因此首先要明确这些目标和事项及其对数据中心和 IT 基础设施所提出的要求。这也有助于确定需要优先进行优化的对象和领域。
确定业务优先事项对 IT 基础设施的需求
您的业务所涉及的各种工作负载和应用对数据中心的需求组合各不相同。这些需求可能取决于多种因素,例如:
- 性能目标:例如,金融服务公司可能会优先考虑缩短交易处理时间,而零售公司可能会着力于提高其电子商务平台的速度和可靠性。与此同时,医疗服务提供商则可能会致力于提高系统正常运行时间,以确保为患者提供无缝的护理服务。
- 可扩展性目标:如果业务战略是实现大幅增长,例如进军新的市场或地区,那么,在不影响核心服务性能的前提下,具备规模扩展的能力也非常重要。或者,如果您的业务运营遵循周期性模式,存在高峰期和低峰期,则可能需要进行季节性的规模增减。
- 安全要求:企业需要满足各种安全要求,例如零售业中保护客户支付信息的要求、医疗行业中的《健康保险携带和责任法案》(HIPAA) 合规性要求,或是欧洲多个行业中的《通用数据保护条例》(GDPR) 合规性要求。
- 可持续发展目标:优先采用高效节能的基础设施和技术,以减少数据中心碳足迹。制定符合企业可持续发展目标的优化措施,例如尽可能降低功耗、采用可再生能源以及实现净零排放目标。
尽管每一项考虑因素都是重要的优先事项,但其重要性的衡量会根据企业和机构的具体情况而有所不同。可以采用加权评分系统,根据业务影响、紧迫性和成本对计划进行评估。例如,根据预期 ROI、与战略目标的一致性以及资源需求,对每项计划进行评分。
将这些分数相加,可以客观地对项目进行排序,并确定其优先级。
管理相互冲突的业务目标
- 促进利益相关者合作:不同的利益相关者通常持有不同甚至对立的观点。应当促进定期沟通并使用协作平台,以增强各团队和业务职能部门之间的透明度和一致性。
- 情景规划:制定应急计划,以应对意料之外的优先级变化。例如,一家正在进行重大应用迁移的公司可以制定后备计划,如果在部署过程中出现重大问题,可暂时恢复使用传统系统,从而尽可能减少停机时间。
第 2 步 评估当前 IT 基础设施
一旦从业务角度明确了需优先考虑的工作负载或平台,即可开始规划数据中心优化的领域和方式,以便更好地支持这些工作负载。为此,您可以对当前的 IT 基础设施进行审查。
开展有效的技术审查
1. 清点资产:记录应用、工作负载和支持性基础设施,包括应用所有者、使用指标和支持生命周期等详细元数据。这样就能清楚地区分关键任务型资产和可能会被停用的资产。此外,还可以利用供应商设定的里程碑来推动技术升级。例如,对于许多企业而言,Microsoft SQL Server 2012 和 Microsoft Windows Server 2012 的支持服务终止正是一种契机,可以在迁移到更新的软件版本时升级硬件。
2. 评估依赖关系:明确数据流、集成性和互操作性要求。这不仅需要映射直接关联,还需要映射间接依赖关系,如共享数据库或中间件服务,以避免因发生变更而导致下游操作中断。
3. 审查安全措施:审查当前的策略和政策,包括端点保护和数据加密协议。除了检查是否符合现有法规外,还需进行渗透测试以识别漏洞,评估您的事件响应计划,并评估威胁监控系统的有效性。您需要考虑使用 AI 等新技术将从哪些方面对您的现有安全策略产生何种影响,以及哪些方面可能需要采取额外的保护措施。
4. 明确工作负载布局策略:不同工作负载需采用不同的架构,以实现更优的表现。您需要考虑是否需要性能出色且经过优化的计算内核,来支持不同应用负载或是按照内核数收取许可费的软件(许多主流企业级应用都是如此)。或者,您可能需要大量计算内核来实现扩展,以支持 Web 和微服务等应用。您可能同时具有这两种需求,并且还需要一种通用架构,以使虚拟机管理程序实现更合理的工作负载部署。
5. 考虑数据引力:大型数据集往往会吸引应用和服务,使得数据传输更具挑战性,成本更加高昂。在 IT 基础设施规划中,尤其是在多云环境中,了解数据引力非常重要,有助于优化性能、降低成本,并确保更有效的数据管理。
6. 避免过度配置:电源管理和配置在数据中心规划中至关重要,有助于确保运行效率、可扩展性和可持续性,尤其是在使用 GPU 的情况下,因为 GPU 功耗非常高。将应用需求与计算资源进行合理匹配,可以使对内核性能要求不高的应用在功耗较低的内核上运行。
7. 遵循混合云策略:由于数据和应用必然分布在多个云和本地环境中,因此必须制定明确的策略和政策来为决策过程提供指导并确保一致性。策略应涵盖的关键领域包括:数据放置、工作负载分配、治理政策和容灾方案。
第 3 步 确定合适的推进方式
确立战略目标并完成技术审查后,现在您可以着手为数据中心的优化方式制定合理决策。您可以考虑以下优化策略:
- 淘汰:停用不再服务于战略目标的过时系统。例如,维护成本高、商业价值低的传统应用可以被淘汰,以便腾出资源用于更具战略意义的投资。
- 重新托管:将现有应用迁移到云基础设施,而不涉及重大变更。采用这种直接迁移 (lift-and-shift) 的方法可以快速提升基础设施的灵活性,同时保持应用逻辑的完整性。
- 重构平台:可以稍作修改,优化新平台的性能。例如,通过更新数据库软件或调整应用配置以充分利用现代化硬件,可以快速提高性能。
- 重构:通过重构应用,充分利用现代化框架和工具。这可能涉及将单体应用分解为微服务,以提高可扩展性和敏捷性。
- 替换:过渡到 SaaS 解决方案,可以提高可扩展性并减少管理开销。用 SaaS 平台替换定制化解决方案,往往能减轻维护负担,加快功能更新。
决策制定标准
选择合适的策略需要评估多个关键因素。您可以采用以下标准来指导您的决策过程:
- 商业价值:评估每种方案的 ROI。考虑每种策略对于目标的实现有何作用,例如整合工作负载并降低运营成本、提高关键工作负载的性能、提升客户满意度或支持增长。
- 技术复杂性:考虑实施方案所需的资源。评估采用每种方案所需的技术技能、时间和成本,并将其与预期收益进行权衡。在避免增加不必要的复杂性或成本的前提下,寻找功能优化的机会。例如,在可能的情况下,使用现有的 x86 架构运行初步的 AI 推理工作负载,以降低总体拥有成本 (TCO)。
- 前瞻性:您的选择应当符合长期战略目标。确保您选择的方法能使您的企业或机构具备可扩展性,符合未来的法规要求,并具备采用新兴技术的能力。
第 4 步 识别并解决潜在障碍
您需要从一开始就找出可能阻碍进程的障碍。及早解决这些问题可以尽可能减少延误,使未来的实施过程更加顺利。
值得注意的常见障碍
- 技术债务:首先对传统资产进行编目,并评估它们与数据中心更新计划的兼容性。例如,确保关键任务型资产(如核心银行平台或病历系统)能够集成您的企业或机构希望使用的 AI 助手等创新工具。如果无法集成,您可能需要考虑先将这些传统系统迁移到云端,或开展其他准备工作。
- 预算限制:财务规划不当会导致项目进程迅速脱轨。应当制定明确的 ROI 模型,根据预期业务成果规划投资。首先要确定关键性能指标,如运营成本节省、系统正常运行时间增加或工作负载能效提升。然后,预测这些效益在一定时期内的情况,将其与实施成本进行比较,并以清晰、可视化的形式(如成本效益分析图)展示结果。
- 利益相关者抵制:缺乏关键利益相关者的支持可能会导致进展缓慢。尽早启动并持续开展沟通非常重要,有助于在优先事项上达成一致。识别受计划影响的所有个人和群体(如 IT 经理、财务主管和终端用户),从而尽早明确关键利益相关者。使用利益相关者分析工具,根据他们在项目中的影响力和利益,合理安排与其沟通的优先级。
发现潜在障碍
除了普遍存在的挑战外,您还可能会发现一些不太容易预测的障碍。每个企业或机构都有其各自的优先事项、文化考虑因素和特殊性,因此需要在项目开始之前,投入时间来了解这些因素。您可以采用以下方法:
- 开展利益相关者访谈,以了解您提出的计划对企业内各群体有何不同影响。尽早在企业或机构内全面收集意见,这有助于避免日后出现意外,同时也可以建立信任和参与度。
- 执行依赖关系映射,识别可能受变更影响的相互关联的系统。例如,一家零售企业希望更新库存管理系统,那么其 POS 系统也需要更新,这样两者才能继续无缝协作。
- 在全面部署之前,利用概念验证试点来发现技术或流程问题。
第 5 步 积极学习和调整,实现持续优化
优化数据中心应当是一项持续的举措。随着业务需求的变化和技术的演进,必须不断监控和评估这些发展对技术堆栈以及运行方式的影响。
建立有效的反馈循环
- 设定明确指标:跟踪工作负载性能、成本节省和安全合规性等关键性能指标 (KPI)。对每个指标设定具体的阈值,以提供明确的成功基准,并利用仪表板等工具进行实时跟踪。
- 定期审查:按季度进行评估,根据 KPI 衡量进展情况。审查应包括跨职能团队,以全面评估现代化策略,并确保其符合业务目标。
- 迭代调整:利用从监控中获得的洞察对策略进行微调。例如,如果监控发现在峰值负载下,工作负载性能存在瓶颈,就可以重新分配或扩展资源以优化处理能力,从而提高性能稳定性和用户满意度。根据性能数据和优先级变化,调整项目计划、时间线或资源分配。
实现成功扩展
- 从具有高影响力的小型项目开始,进行方法验证。重点关注能快速取得成效的工作负载或应用,为更大规模的项目营造势头并增强利益相关者的信心。
- 记录最佳实践并创建可重复使用的模板。收集详细的经验总结,建立可应用于未来项目的标准操作程序。
- 利用英特尔的合作伙伴生态系统来扩展功能:我们广泛的技术合作伙伴生态系统可提供深厚的专业知识、先进的工具及丰富的资源,能够在您的数据中心优化进程中的每个阶段持续提供支持。
结论
使用过时的基础设施会使您的企业或机构逐渐陷入劣势地位。这意味着运营效率下降,成本上涨,同时利用 AI 等技术也将变得愈发困难。
您需要立即行动,因为优化数据中心不仅是一种明智之选,更是一项战略要务。英特尔® 至强® 处理器专为满足当今数据中心架构师的需求而设计。今日迈出的第一步,将会使您的企业在未来数字优先的经济环境中蓬勃发展。
