当前大数据与人工智能等技术正驱动着数字经济快速发展,这对数据信息的硬件承载者数据中心的需求和要求越来越高。随着服务器芯片不断升级迭代、高性能芯片需求不断增加、服务器密集化程度越来越高,服务器的散热问题已经成为计算机技术发展的瓶颈之一。风冷技术已经成熟应用于芯片散热方面,但有研究表明风冷的散热极限仅为50[1],且为提高散热能力而提高风速所带来的噪音问题和能耗问题也日趋严重。由于空气作为冷却工质的传热性能较差,而液体的比热远远大于空气,为了解决数据中心高效散热问题,液冷解决方案应运而生。
本文将从常规风冷散热技术下的数据中心冷却系统引入,与大家聊聊近年来数据中心高效节能技术路线中的高频词——液冷技术。
1. 数据中心冷却系统技术介绍
数据中心中的电子信息设备运行过程中消耗的电能绝大部分都转换为废热,若机柜内的这部分热量无法及时转移到周围环境中,机柜内芯片和其他部件的运行温度将急剧升高。对于典型通用计算服务器,各元件中CPU的功耗占比最大,散热需求也相对最大,当机柜服务器内的芯片温度升高至80℃以上,无法保证芯片稳定运行。因此,数据中心需源源不断提供与服务器散热需求相匹配的冷量。当前,绝大多数的数据中心仍然采用风冷散热技术冷却芯片。
1.1 风冷散热技术下的数据中心冷却系统
大多数风冷服务器包含以下主要硬件构件:CPU、内存、主板、网卡、存储设备、电源和冷却系统(风扇+导流组件)等。服务器内部通过风扇的布局、风道的设计、CPU散热片的布置等热设计来满足其安全稳定运行的散热需求。
机架服务器内部结构图[2]
对于采用风冷散热服务器的数据中心,为保证数据中心IT 设备的正常运行,需通过数据中心冷却系统的设计和布置,将IT设备持续运行产生的热量通过机房内的空气和空调设备管路中的媒介(水,空气或其他冷媒)排至室外环境,从而稳定机房内空气的温度和湿度两个重要指标在合理安全的范围内。我国目前现行规范《数据中心设计规范》(GB50174-2017)对于数据中心推荐的环境参数如下表所示。
由于风冷散热技术下的数据中心冷却系统和电子信息设备仅通过环境中的空气实现换热过程,IT设备和空调设备的冷却系统设计和日常运维可以很方便地实现解耦,因此较长时间里,风冷散热成为主流技术路线,风冷服务器和与之适配的数据中心冷却系统各自不断进行系统和设备部件的迭代升级,不断提升IT硬件能效和数据中心冷却系统效率。
数据中心冷却系统可根据热量转移阶段分为制冷冷源单元、冷量传输单元、末端散热单元,不同数据中心根据当地气候条件、电子信息设备类型、机柜功率密度等因素选择不同的制冷单元方案。目前常见的数据中心制冷冷源单元根据与外界环境和末端机房的热交换媒介主要分为水冷冷水机组、风冷冷水机组、风冷直膨式空调机组、间接蒸发冷却机组等;冷量传输单元对应可采用冷冻水管路、制冷剂冷媒管路、风管等;末端散热单元可采用房间级精密空调、模块级列间空调、机柜级背板空调等。
常用水冷冷冻水机组系统示意图[3]
为直观表示和对比不同数据中心的能效利用情况,一般采用数据中心电能利用效率(PUE)指标。数据中心电能利用效率(PUE)定义为数据中心总耗电量与信息设备耗电量的比值,该数值越接近1,表示数据中心能效能级越高。GB 40879-2021《数据中心能效限定值及能效等级》中将数据中心能效等级分为3级。PUE每减少0.1,若按照0.7元/千瓦时的电费单价计算,每10MW的IT设备容量的数据中心每年运行产生的电费可节省610.3万元。
以采用传统的水冷冷水机组系统数据中心为例,下图展示各环节能耗占比情况[4],制冷系统能耗占IT负载的36%,其中冷水机组的能耗又占整个制冷系统的50%左右。为实现数据中心冷却系统的高效节能运行,最直接有效的办法是最大化利用室外环境的免费制冷,减少冷水机组的运行时间。此外,还可以通过对冷却系统精细化设计、水泵变频、节能空调设备选型、施工工艺优化、运维策略动态调整等方法降低数据中心冷却系统的能耗。但以上的优化过程涉及的环节和因素较多,将每一环节的节能效果发挥到极致难度很大,对于运营团队的能力要求较高。
典型数据中心设备能耗结构[4]
B站在新一代智慧节能数据中心项目中,考虑华东地区气候情况及B站业务负载特点,冷却主系统采用安全稳定、技术较为成熟的水冷冷水机组系统技术,部分区域制冷采用间接蒸发冷却系统、高效磁悬浮氟泵系统,在相同气候条件下全方位、全生命周期对比不同制冷系统的优缺点。目前冷水机组系统、间接蒸发冷却系统、高效磁悬浮氟泵系统均已正式交付,数据中心的能耗水平将达能效2级。
1.2 液冷散热技术下的数据中心冷却系统
1.2.1什么是液冷数据中心
数据中心液冷技术是使用流动液体将计算机内部元器件产生的热量传递到计算机外,以保证计算机工作在安全温度范围内的一种冷却方法。液冷技术并不是一项新技术,19世纪后便已出现各种形式的液冷应用,例如用于绝缘、冷却超高压变压器、汽车冷却发动机等,但其大规模部署在企业级数据中心的解决方案和案例并不常见。目前,数据中心液冷解决方案根据电子信息设备与冷却液是否直接接触分为接触式液冷技术和非接触式液冷技术,接触式液冷技术主要分为浸没式和喷淋式液冷,非接触式液冷技术主要为冷板式液冷。
数据中心液冷系统架构示意图
1.2.2 液冷数据中心的机会与挑战
数据中心液冷技术作为一项革新性技术,既能实现数据中心的极简设计和极致能效,又契合了服务器芯片未来高功率的趋势,在国家*策对于数据中心严苛的低能耗要求背景下,同时得到IT侧和数据中心侧的共同关注和支持。
对于IT设备,液冷技术很好地解决高功率芯片的散热问题,同时带来芯片表面温度的大幅优化,降低风扇的功耗,从而提升单位功耗下算力。
对于数据中心,液冷冷却技术由于冷却液的进液温度设计可以相对较高(45℃以上),数据中心的冷源系统设计可取消冷机设计,从而实现全国范围内全年利用自然冷源,大部分区域的数据中心可实现PUE低至1.15以下。同时,数据中心的峰值PUE的降低提升了数据中心IT产出,从而直接降低数据中心TCO成本。
此外随着液冷技术的不断升级和不同专业技术融合的不断加深,数据中心的节能手段从以前的单纯提高空调系统设备能效转向IT设备与制冷设备联合优化调控,通过AI技术进一步实现数据中心全局范围的能效最优。
但液冷技术涉及多专业领域的协同和融合,在真正规模化应用道路上仍面临诸多困难和挑战,需要业内各方从标准制定、技术攻关、成本降低、运营实践等方面推动新技术的切实落地和良性发展。
2.B站的液冷数据中心实践
随着AI等业务的快速发展,同时面对数据中心持续的节能降耗要求,我们基于B站业务快速发展的需求,一直在新型绿色智慧型数据中心技术创新方面进行着积极地探索和思考。考虑芯片技术的快速迭代升级,新型绿色智慧型数据中心技术不仅需匹配未来2~3代IT设备功率需求,还需考虑大规模部署的安全可靠性。B站正按照“小步快走”的方式弹性快速地部署绿色智慧型数据中心技术,为公司的降本增效持续发力,为实现国家的节能减碳持续贡献力量。
前期我们介绍了创新机房一期项目规划间接蒸发冷却包间和风液混合冷却包间[5],其中风液混合冷却包间的风系统采用高效磁悬浮氟泵系统,液冷系统采用冷板式液冷技术。预期满载工况下,间接蒸发冷却包间年平均PUE将低至1.23,风液混合包间年平均PUE将低至1.13。
冷板式液冷机房的规划设计、施工工艺、测试方案、上架部署与传统的风冷技术架构有相似之处,但同时也有很多特殊关注点。设计阶段需考虑风液比、流阻、冷却液的稳定兼容性、漏液预防监控、快速接头选型、控制逻辑、设备管路的备份冗余功能等方面;施工阶段需重点关注管路质量、冲洗镀膜等内容。冷板式液冷机房的测试验证与风冷技术架构有很大的不同,需通过布置特殊定制的液冷假负载,设计不同的测试场景综合验证系统的制冷能力、冷量分配均匀性、系统稳定可靠性等内容。冷板式液冷服务器的上架部署需考虑服务器快速接头的布局、冷板散热和流阻特性,确定上架策略和冷却系统运行参数。
目前B站一期的冷板液冷机房已完成施工、测试和交付,冷板式液冷服务器的POC及灰度测试达30余项内容,为后续液冷服务器的正式交付业务使用奠定重要基础。
B站定制化液冷机房现场测试
同时,B站一直重视行业内绿色数据中心技术的交流和合作。
B站深度参与编写的《电子信息设备用液冷冷板技术规范》已于2023年3月15日正式生效[6]。
2023年3月17日,由CDCC和益企研究院共同主办的2023中国数据中心液冷技术峰会在北京举行,会上B站与行业各方共同启动《数据中心液冷系统技术规程》的编制[7],为更好促进液冷技术落地贡献B站力量。
3.结束语
面对数据中心散热和能耗问题,通过使用液冷技术实现数据中心的绿色低碳发展已成为业内共同的探索方向,B站作为技术创新者和实践者,正稳步推进液冷技术的落地,同时不断对行业标准和规范进行输出,与行业内各方加强合作交流,共同推动新型节能技术在数据中心行业的发展。
参考:
[1]诸凯, 刘泽宽, 何为,等. 数据中心服务器CPU水冷散热器的优化设计[J]. 制冷学报, 2019(2):7。
[2]金超强. 基于服务器功耗模型的数据中心能耗研究。
[3]微信公众号: 数据中心运维管理. 图说数据中心空调系统原理和架构。
[4]侯晓雯,李程贵. 空调系统节能方案在数据中心中的应用[J]. 通信电源技术, 2020, 37(12):5。
[6]关于发布《服务器及存储设备用液冷装置技术规范 第1部分:冷板》等四项团体标准的公告:https://www.cesa.cn/tb/detail?id=276。
微信扫一扫