源启算力加速平台-源启基础运行支撑平台-中电金信

行业背景

随着大模型的发展和快速落地，企业算力需求高速增长，传统模式无法满足大模型场景下的AI基础设施需求，GenAI落地亟须新范式。

产品简介

中电金信算力加速平台依托软硬件协同优化，实现异构算力高效承载AI任务运行，在保障性能的同时降低使用门槛，帮助客户降本增效、加速算力向业务价值转化，构建资源即服务的新型算力模式。

应用场景

异构算力运营
对不同类型、不同厂家的异构算力设备进行统一管理和调度，提供服务化算力和模型能力，帮助企业打破设备孤岛，助力AI业务创新和智能化转型。
大模型训练和推理
通过分布式并行框架和软硬结合调度，加速模型训练和推理；通过在离线混部和Serverless GPU，降低算力成本。

功能特色

该系统主要面向 AI 训练与推理场景，提供异构 GPU 资源的统一纳管、智能调度、运行优化及运营管理能力，帮助企业实现跨地域、多云、多架构算力资源的统一管理与高效利用，提升 AI 业务运行效率并降低整体算力运营成本。

我们的优势

典型案例查看更多案例

某银行算力池管理平台项目

留言咨询查看详情

某高校异构算力及大模型统一纳管项目

留言咨询查看详情

版本记录

版本

发布时间

操作

版本：v2.0 Release Note

发布时间：2026年06月22日

操作：查看详情

2年

新功能

1. 新增适配百度昆仑芯、海光DCU等国产卡，并支持国产卡虚拟化切分。

2. 支持整卡预留，有效避免GPU切分导致的整卡无法调度。

3. 简化配额计算，通过原生Key实现配额控制，便于外部系统对接。

4. 算力资产运营模块升级，新增支持租赁管理、运营报表等功能。

5. 支持模型推理评测，支持基于多种预设场景创建评测任务和评估推理性能。

6. AI网关切换Higress，支持更加完善的AI网关特性。

7. 新增卡间拓扑感知调度，多卡调度优先卡间通信速率更高的设备。

8. 虚拟化切分支持自由设置GPU核心和显存数量，满足细粒度切分需求。

9. 新增镜像预热，消除镜像预加载瓶颈，显著提升启动速度。

10. 支持GitOps，提供AI场景下镜像同步和模型同步等功能。

11. 支持创建应用路由时上传安全证书。

12. 支持通过底座统一纳管 OCP 集群。

13. 支持通过Grafana JSON文件创建自定义监控页面。

14. 产品内置的Kubernetes版本已更新至1.34.7。

15. 提供管理员重置普通用户密码功能。

16. 提供菜单管理，支持按需显示或隐藏菜单。

17. 支持中英文切换，满足国际化需求。

优化

1. 容器快照增加耗时统计，便于发现异常备份。

2. 资源池支持指定作业类型，可创建训练/推理专属资源池。

3. 优化系统组件默认资源配置，提升资源利用效率与系统稳定性。

4. 告警页面优化，提供 Pod 启动异常、重启次数过多等情况告警。

5. 网络链路拓扑优化，提升页面加载速度。

6. 网络策略优化，提供更友好的交互体验。

7. 日志查询定时和实时刷新样式优化，提升用户交互体验。

8. 资源池支持时长限制与事件通知，更精细化控制资源使用和感知状态变化。

安全漏洞

1. CVE-2024-24790：The various Is methods (IsPrivate, IsLoopback, etc) did not work as expected for IPv4-mapped IPv6 addresses, returning false for addresses which would return true in their traditional IPv4 forms.

2. CVE-2025-22874：Due to how policy validation was implemented, passing VerifyOptions.KeyUsages containing ExtKeyUsageAny unintentionally disables policy validation.

3. CVE-2023-45288：An attacker may cause an HTTP/2 endpoint to read arbitrary amounts of header data by sending an excessive number of CONTINUATION frames.

4. CVE-2024-24786：The protojson.Unmarshal function can enter an infinite loop when unmarshaling certain forms of invalid JSON.

5. CVE-2021-29923：Go before 1.17 does not properly consider extraneous zero characters at the beginning of an IP address octet, which (in some situations) allows attackers to bypass access control that is based on IP addresses, because of unexpected octal interpretation.

6. CVE-2025-68121：During session resumption in crypto/tls, if the underlying Config has its ClientCAs or RootCAs fields mutated between the initial handshake and the resumed handshake, the resumed handshake may succeed when it should have failed.

7. CVE-2025-60876：BusyBox wget thru 1.3.7 accepted raw CR (0x0D)/LF (0x0A) and other C0 control bytes in the HTTP request-target (path/query), allowing the request line to be split and attacker-controlled headers to be injected.

版本：v1.2 Release Notes

发布时间：2026年04月03日

操作：查看详情

2年

新功能

1. 国产卡适配，新增阿里PPU和天数卡适配。

2. 推理服务支持TP、PP、DP、EP模型并行策略，加速模型推理。

3. 设备管理支持多resourcekey，兼容国产卡虚拟化模式资源调度。

4. 平台角色增加只读角色，满足安全管控与数据审计需求。

优化

1. 容器实例、推理服务增加资源池workload事件，便于查看因资源池资源不足导致的调度失败问题。

2. 容器实例增加init容器日志，便于查看初始化容器错误。

3. 推理服务增加虚拟化模式。

4. 优化推理服务列表的副本数等信息展示。

5. 优化部分集群面板和项目概览统计数据。

6. 告警页面优化，提供 Pod 启动异常、重启次数过多等情况告警。

版本：v1.1.6 Release Notes

发布时间：2025年12月26日

操作：查看详情

2年

新功能

1. 支持算力评估，允许用户根据模型参数、请求参数进行算力评估，并返回模型性能指标，帮助用户选择最合适的模型和算力卡。

2. 支持资产管理，用户可录入智算服务信息、查看资产概览视图；支持资产借用管理。

3. 支持 NV 卡的 MIG 虚拟化模式，可在单节点上使用整卡、vGPU混合虚拟化模式。

4. 支持边缘算力接入，可在边缘部署推理服务，边缘设备可使用边缘的模型服务。

5. 支持云边服务互访，通过云边消息组件传输数据。

6. 支持通过导入 Grafana 的 URL 生成自定义监控面板。

优化

1. GPU 虚拟化功能优化

安全漏洞

1. CVE-2024-5321：A security issue was discovered in Kubernetes clusters with Windows nodes where BUILTIN\Users may be able to read container logs and NT AUTHORITY\Authenticated Users may be able to modify container logs.

2. CVE-2024-3177：A security issue was discovered in Kubernetes where users may be able to launch containers that bypass the mountable secrets policy enforced by the ServiceAccount admission plugin when using containers, init containers, and ephemeral containers with the envFrom field populated.

3. CVE-2023-45288：An attacker may cause an HTTP/2 endpoint to read arbitrary amounts of header data by sending an excessive number of CONTINUATION frames. Maintaining HPACK state requires parsing and processing all HEADERS and CONTINUATION frames on a connection.

4. CVE-2024-24786：The protojson.Unmarshal function can enter an infinite loop when unmarshaling certain forms of invalid JSON. This condition can occur when unmarshaling into a message which contains a google.protobuf.Any value, or when the UnmarshalOptions.DiscardUnknown option is set.

版本：v1.1.5 Release Notes

发布时间：2025年11月17日

操作：查看详情

2年

新功能

1. 支持拓扑感知调度，可实现跨节点（交换机、机架）及节点内NUMA亲和调度，优化通信带宽利用率。

2. 支持拓扑分析功能，可直观查看数据中心及设备内部拓扑，实时监控 CPU、内存、GPU、NVLink 及IB网络瓶颈。

3. 支持负载均衡调度，根据节点实时负载评分进行任务调度，替换默认按分配量调度策略。

4. 支持故障自动隔离和自愈，自动隔离故障GPU并重新调度任务容器。

5. 支持集群弹性伸缩，当集群GPU负载小于设定阈值时，自动关闭空闲设备以节约能耗，当集群负载大于阈值时，自动开启已关闭设备。

6. 支持英伟达GPU超分，可对GPU显存进行超分，运行更大参数的模型。

7. 高速网络适配，新增支持华为 RoCE 网络。

8. 新增服务账户管理与授权功能，通过为第三方系统颁发专属Token，可安全可控地访问项目内资源与API，满足自动化运维与工作流集成需求。例如通过服务账户调用RayJob接口，以提交模型训练等任务。

9. 支持事件告警，集群出现异常事件时，可触发告警通知。

10. 增强GPU监控，自定义监控面板新增支持GPU相关指标。

11. 新增资源目录，提供统一的Kubernetes资源管理能力。

优化

1. 运营面板优化，兼容vGPU统计

2. 主机实例支持IB网络

3. Hami组件升级到2.6.1版本

版本：v1.1.3 Release Notes

发布时间：2025年09月04日

操作：查看详情

2年

新功能

1. 支持容器化IB网络方案，可在容器/主机实例和推理服务中使用IB网络。

2. 支持共享文件存储（NAS）接入，支持存储卷管理、文件管理等。

3. 支持向量数据库Milvus的高可用集群部署、运维和使用。

4. 支持管理员快速排查算力集群异常情况，例如网络拥塞、节点失联、显卡失效、资源耗尽等。

5. 支持节点维度GPU监控，支持GPU使用率、显存、温度、功率等指标。

6. 容器实例支持用户自定义启动命令和环境变量，便于用户调整模型参数。

7. 新增英伟达A30加速卡适配。

8. 支持自定义监控功能，允许用户自定义监控仪表盘。

9. 日志查询支持正则、关键字、精确等更多匹配方式，并优化页面布局。

10. 支持日志告警能力，可基于日志匹配触发告警通知。

优化

1. 支持GPU虚拟化情况下的用量统计。

2. 容器、主机实例不返回密码，提供更好的安全性。

3. 前端优化，组件样式统一及分辨率适配。

4. 租户管理优化，优化管理员筛选、项目管理菜单可见性等问题。

5. 运营面板支持GPU虚拟化后更小粒度的用量统计。

6. 支持对日志与监控告警进行灵活参数配置，满足个性化运维管理需求。

版本：v1.1.2 Release Notes

发布时间：2025年07月17日

操作：查看详情

2年

新功能

1. 新增GPU虚拟化能力，支持英伟达GPU虚拟化，支持基于虚拟化规格创建容器实例、主机实例和推理服务。

2. 支持高级算力调度能力，支持紧凑、分散、组调度等调度策略，支持基于优先级的资源抢占。

3. 支持高级QoS服务质量等级，支持在离线混部、CPU独占等高级特性。

4. 支持通过配置文件修改VLLM参数以调整模型性能，支持修改上下文长度、hf-override、并行参数等。

5. 支持项目监控，可查看项目维度网络收发和磁盘读写速率。

6. 支持自定义监控，用户可将Grafana面板导入平台管理，方便统一运维。

7. 支持自定义告警策略，支持配置内置指标规则或输入PromQL自定义规则，并支持告警消息查询。

8. 支持持久化日志查询，可通过关键字、时间、工作负载、容器组、容器等条件检索日志，支持精确和模糊查询。

9. 支持持久化事件查询，可通过关键字、时间、资源类型、资源名称等查询，支持精确和模糊查询。

10. 集群节点支持GPU监控，可查看节点GPU使用率、显存、功率、温度等指标。

11. 新增平台巡检功能，支持巡检结果展示和报告下载，便于了解平台健康状况。

12. 新增节点运维功能，支持可视化节点扩缩容，及主动驱逐节点上所有Pod的功能，提升节点运维效率。

13. 新增系统租户与系统项目的适配，支持平台的系统租户管理平台所有的系统级项目，提升平台运维效率。

优化

1. 容器/主机实例、推理服务增加Pod实例列表，提高运维效率。

2. 实时日志优化，增加日志查询、全屏和下载功能，方便用户查找和查看详细日志。

3. 模型体验改为用户Token鉴权，提高接口安全性。

4. 外部推理服务简化示例代码配置，用户只需修改Body，无需修改URL和Model参数。

5. 系统租户项目适配，所有系统项目都属于系统租户。

6. 前端性能优化，提高首次访问速度。

7. 分区资源池易用性优化，支持按CPU通用分区、智算分区和其他分区分类配置。

8. 运维中心架构优化，改造成单独子应用，与平台解耦，实现可插拔的开箱即用能力。

9. 设备管理优化，支持扫描和管理GPU虚拟化相关资源。

10. 节点详情优化，增加GPU设备型号列表展示及 GPU 指标监控信息。

11. 前端性能优化，实现热更新预加载并开启浏览器缓存系统，提高前端访问性能。

版本：v1.1.1 Release Notes

发布时间：2025年06月18日

操作：查看详情

2年

新功能

1. 新增私有模型管理功能，允许用户上传、管理并部署私有模型。

2. 支持接入平台外部署的模型服务，并发布到模型广场供其他部门调用。

3. 支持通过API KEY进行模型体验，并进行调用量统计。

4. 支持模型部署时自定义模型调用代码，帮助用户正确调用私有、嵌入、重排序等模型。

5. 新增设备管理功能，支持注册不同厂商的算力设备，实现自动识别和调度。

6. 已创建资源池支持调整CPU、内存、显卡等资源配额。

7. 支持订单管理，支持查询全局或项目内实例订单，并支持卡时计量。

8. 支持平台审计，可对平台操作进行审计并支持审计记录查询。

优化

1. 日志导出功能优化，支持导出文件压缩，同时可导出日志上下文信息。

2. 资源池配置管理优化，可自动获取并生成各个集群节点GPU型号及计算资源等对应的配置，实现资源的灵活分配，提升运行效率。

3. License功能增强，添加集群时增加License授权判断。

版本：v1.1 Release Notes

发布时间：2025年05月12日

操作：查看详情

2年

新功能

1. 新增运营面板，统计集群各分区、资源池的算力使用情况，便于管理员调整资源规划。

2. 新增AI网关，模型服务通过统一网关发布，增强API调用安全，并支持服务限流和模型调用次数统计。

3. 支持模型体验功能，通过控制台界面调用模型服务并支持调整参数，快速体验和验证模型能力。

4. 支持 NFS 共享存储，满足跨节点的数据共享需求，可用于分布式任务等。

5. 支持AI网关对接外部模型服务，实现已有模型服务的安全调用、调用统计和服务限流。

优化

1. 支持新建实例选择项目授权的资源池，并前置校验资源池库存，保证实例正常启动。

2. 本地存储升级为 LVM 存储，解决多实例带宽相互影响问题，提供更好的本地存储体验。

3. 路由配置优化，提供更友好的交互体验。

4. 推理服务运维能力增强，支持Ray集群、vLLM监控和实时事件查看。

5. 推理服务增加模型名称、hf-overrides配置和上下文长度等高级配置。

6. 容器快照交互优化，以可视化方式展示备份进度，备份进度更清晰。

版本：v1.0 Release Note

发布时间：2025年04月07日

操作：查看详情

2年

新功能

1. 平台支持异构GPU统一纳管，支持非国产（NVIDIA）和国产（华为昇腾、沐曦）系列GPU。

2. 支持容器和KVM虚拟化两种算力供给方式，提供近似 GPU 服务器的使用体验。

3. 提供便捷的云端工具，支持文件上传、SSH 连接、服务访问和终端工具等。

4. 支持开箱即用的运维组件，可查看实时监控、日志和事件，帮助用户快速定位网络和设备故障。

5. 内置算力实例规格套餐，可直接创建使用，规范资源申请和使用。

6. 支持本地存储，可为实例分配指定大小的存储空间，并支持文件上传。

7. 支持镜像仓库，官方内置主流AI镜像并支持管理用户上传的私有镜像，支持容器和主机（KVM）镜像管理。

8. 支持概览和快速开始功能，提供算力资源状态、用量统计和新手引导。

9. 支持租户和项目隔离，支持细粒度的多级权限分配管理。

10. 模型广场内置多种常用开源模型，支持模型检索和体验，帮助用户快速选型基础模型。

11. 内置模型支持一键部署私有推理服务，可通过API调用使用。

12. 支持模型推理服务启动、停止和删除等生命周期管理。

13. 推理模型支持常规模式和Serverless模式部署，支持根据请求量进行资源扩缩容。

14. 模型部署类型支持生成式 Transformer 模型、多模态模型、嵌入模型等。

15. 支持分区管理和资源池管理，可对资源进行逻辑分组与池化调度。

16. 提供平台License信息的查看与更新功能。

推荐产品

搜索

源启算力加速平台

新功能

优化

安全漏洞

新功能

优化

新功能

优化

安全漏洞

新功能

优化

新功能

优化

新功能

优化

新功能

优化

新功能

优化

新功能

中电金信鲸Bot RPA是一款面向金融行业客户的机器人流程自动化的开发平台。