FreeVM上采用R9700 GPU实现MiniMax2.5部署

发布时间：2026-03-31 14:45 分类：社区新闻

江苏极元信息技术有限公司（以下简称“江苏极元”）今日宣布，在其自主研发的超融合平台 FreeVM 上，通过 GPU 直通（GPU Passthrough）技术，成功完成了国产大模型 MiniMax2.5 的本地部署。实测单会话推理速度达到 30.7 token/s。

核心硬件配置：

组件	型号/规格	关键参数
GPU	4×Radeon PRO R9700 32GB	128GB 总显存，支持 PCIe 5.0 x16
CPU	双路 AMD EPYC（512 线程）	单颗128核心，256 线程
内存	1,152 GB DDR5 ECC	传输速率 4800 MT/s，提供超宽带宽
存储	NVMe SSD 高速阵列	读取>7 GB/s，写入>5 GB/s
网络	10 GbE Ethernet	低延迟互联，满足节点协同需求

这套硬件组合在 FreeVM 超融合平台上实现了 GPU 直通，确保虚拟化环境下依旧能够直接调用显卡资源，最大化性能释放。

FreeVM 超融合平台亮点

• 全栈虚拟化：将计算、存储、网络功能统一管理，支持容器、VM 混合部署。

• GPU 直通优化：突破传统虚拟化的资源调度瓶颈，确保 AI 推理任务独占显卡算力。

• 弹性伸缩：根据业务负载动态调配 CPU、GPU 与内存资源，实现资源利用率最大化。

• 安全合规：本地部署模式满足数据主权要求，适用于政务、金融、医疗等高敏感行业。

性能实测：30.7 token/s 单会话输出

在 MiniMax2.5本地推理测试中，FreeVM 平台搭配四张 Radeon PRO R9700 32GB GPU，实现了 30.7 token/s 的单会话输出速率。
“我们通过硬件层面的极致组合和软件层面的深度优化，突破了国产大模型在本地化部署的性能瓶颈。30.7 token/s 的成绩证明，FreeVM 已成为企业级 AI 推理的可信平台。”

应用场景与价值

• 企业级 AI 助手：在保证数据安全的前提下，提供毫秒级响应的对话机器人。

• 行业垂直模型：金融风控、医疗影像分析、法律文本审查等场景均可实现本地高效推理。

• 边缘计算：结合 FreeVM 的虚拟化特性，可在数据中心、分支机构或云边协同环境中灵活部署。

• 成本优化：相比传统云端推理，本地部署可显著降低长期算力租赁费用，提升 ROI。

关于江苏极元信息技术有限公司

江苏极元信息技术有限公司成立于 2018 年，是一家专注于超融合基础设施、AI 计算平台及云原生解决方案的企业。公司总部位于南京，拥有一支研究云计算与网络安全的研发团队，已为金融、制造、政府、教育等多个行业提供众多成功案例。