“产学研用”赛场,郑州大学实验室将采用云海“起跑”
北京2021年9月22日 /美通社/ — 起跑!如今,这个词在很多领域被赋予新内涵。这次,我们将它的解释权交给郑州大学电气工程学院某研究院大数据与人工智能实验室。
实验室的新课题 — “1+1+1>3”
加强产学研的有效结合,提高科技成果的市场转化率,一直是科技创新与市场化运作中最关键的一环。然而科技成果的转化,一端连接着高校院所,另一端连接着企业,要形成1+1+1>3的效果并非易事,如何让科技成果转化之路越走越畅通,是教育界与企业界都必须面对的核心问题。
正如实验室老师所言:“一直以来,将教学、科研以及咨询等工作做到更高质量且更有价值,都是我们持续追求的,过程中有成绩也有不少困惑,例如产学研用如何高效联动、科技转化怎样加速落地,确实长期困扰我们。” 当下实验室站在“产学研用”的起跑线上,许多难题亟待解决。
其一,成也开源,困也开源。为满足在校师生以及科研人员在原有环境中的实践和研发习惯,并匹配多行业应用开发体系,实验室必须以开源技术为基础构建云平台。那么,如何在实验室硬件基础设施之上,将KVM、OpenStack、Kubernetes、Hadoop等开源技术架构统一集成起来,为师生提供完整的云基础设施解决方案,无疑是整个实验平台建设的第一大难题。
其二,数智多元能力难聚合。“上云用数赋智”是数字经济的新动能,更是科研创新的主要抓手。大数据与人工智能的不同技术体系对实验平台能力要求非常复杂,需要的算力资源既有通用架构下CPU和GPU的并行计算能力,又有专用神经网络处理器(NPU)和张量处理器(TPU)等,如何把虚拟机、容器、裸机、大数据计算、AI计算等复杂能力聚合起来,按需取用,对实验平台的资源聚合、调度能力提出了极高要求。
其三,相对滞后的运维运营能力。作为国内领先的计算机科学实验室,技术和架构的升级必然紧跟前沿科技的发展,可以预见,实验室将面对更加复杂的运维和运营难题。因此提供跨平台和技术统一运维保障的能力与接口,提高运维管理效率,避免多平台、多技术线运维带来的学习成本、使用成本和管理成本的提升,将是“起跑”之后改变“频率”的关键。
因此,先实现开源基础架构的全面融合、云数智多元算力的高效聚合、运维与运营深度统合,然后把这三方面的目标“合而为一”,建设一套以云数智高度融合为目标的资源共享平台势在必行。
三位一体 — 架构、数智、运维
工欲善其事,必先利其器。为更好解决实验室在科研创新与业务应用方面的诸多问题,研究院最终选择了深谙融合之道的浪潮云海云数智融合智能解决方案。
先看内核,浪潮云海解决方案采用了成功支撑超过30万个服务器节点的云海OS,将开源、开放技术和敏捷的产品化过程有机结合,推动各个行业基础设施的智能化升级,全面支撑从传统核心应用到大数据、深度学习、边缘计算等创新应用的各类场景,这也是改变实验室“起步”技术的核心。而核聚变产生的能量是巨大的,这为基础架构、数智能力、运维运营“三位一体”目标的实现,提供了澎湃动力。
- 基础架构合一
在传统的高校实验室场景中,虚拟化、容器,大数据,人工智能等科研实验常用的技术架构都需要独立建设,而云海云数智融合智能解决方案却可以利用一体化平台底座,为校内师生提供了多元化资源,解决了过去基础实践平台因架构割裂带来的获取资源不便捷、实验科研流程繁琐、资源利用率低以及运维难度大等诸多问题。 - 数智能力合一
在云计算与大数据成熟的沃土上诞生的AI可谓是天选之子,但是AI 的技术需求和大数据处理模式有很大差异,尤其是在计算密集性层面,与传统的大数据处理和分析应用有着本质的不同。例如,深度学习模型在训练时需要依赖GPU 或者 FPGA 等硬件资源的算力支撑,而大数据的存、取、用、管则是以 CPU 为主,这就使得整体计算资源在管理和分配上也存在一定不同。
浪潮云海云数智融合智能解决方案将具备大数据处理和人工智能计算深度融合能力的浪潮InsightHD纳入其中,在大数据平台上提供CPU/GPU的一站式数据预处理到模型训练推理能力,满足人工智能处理所需要的多种深度学习框架,例如TensorFlow、PyTorch、Keras等,并提供大量的优化的分布式算法。方案落地后,通过数据对比发现,图像推理方面的效率可提升87%、资源利用率提升95%以上、计算性能提高50%,开发效率提升40%。 - 运维运营合一
云数智融合平台深度整合了云计算、大数据与AI资源池,整体资源利用率相比传统烟囱模式提高70%,建设投资降低50%。方案落地后,最终呈现给实验室用户则是云数智一体化服务目录,有效达成了资源的集中化管理,实现多维视角下的运维运营融合。
运营视角,在可融合的软硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度以及数据在池化资源的灵动流转。运维视角,凭借一站式健康检查、资源预测分析、可视化日志分析等智能化运维功能来释放运维压力。用户视角,可以通过统一化门户界面,科研人员可按需申请各类资源,线上流程审批来解决资源发放和管控管控问题,彻底解决服务器申请、环境部署、工具安装等很多前置操作,将重心放在最擅长的课题研究领域。
“起跑”极为重要,“步频”决定成败
随着本次科研平台的正式上线运行,郑州大学电气工程学院某研究院大数据与人工智能实验室不断加速从传统教学实践向基于大数据、人工智能的新型产学研用深度融合的教学实践升级,并成为河南高校首个云数智一体化实验室平台,为其他高校的教科研升级树立了典型样板。
“该平台面向本院相关专业师生,用来提供满足应用需求的软件开发新方法和新技术的训练,打造特色人才培养基地和科研成果转化基地以及高端智库,全面促进产学研用的深度融合与协同创新。”院领导表示。
写在最后:对于郑州大学实验室,甚至是更多正在着力探索数智科研实践的高校实验室来说,浪潮云海无疑是更换起跑方式、提升步频的最佳选择。