FreeVM上采用R9700 GPU实现MiniMax2.5部署
江苏极元信息技术有限公司(以下简称“江苏极元”)今日宣布,在其自主研发的超融合平台 FreeVM 上,通过 GPU 直通(GPU Passthrough)技术,成功完成了国产大模型 MiniMax2.5 的本地部署。实测单会话推理速度达到 30.7 token/s。

核心硬件配置:
组件 | 型号/规格 | 关键参数 |
GPU | 4×Radeon PRO R9700 32GB | 128GB 总显存,支持 PCIe 5.0 x16 |
CPU | 双路 AMD EPYC(512 线程) | 单颗128核心,256 线程 |
内存 | 1,152 GB DDR5 ECC | 传输速率 4800 MT/s,提供超宽带宽 |
存储 | NVMe SSD 高速阵列 | 读取>7 GB/s,写入>5 GB/s |
网络 | 10 GbE Ethernet | 低延迟互联,满足节点协同需求 |
这套硬件组合在 FreeVM 超融合平台上实现了 GPU 直通,确保虚拟化环境下依旧能够直接调用显卡资源,最大化性能释放。
FreeVM 超融合平台亮点
• 全栈虚拟化:将计算、存储、网络功能统一管理,支持容器、VM 混合部署。
• GPU 直通优化:突破传统虚拟化的资源调度瓶颈,确保 AI 推理任务独占显卡算力。
• 弹性伸缩:根据业务负载动态调配 CPU、GPU 与内存资源,实现资源利用率最大化。
• 安全合规:本地部署模式满足数据主权要求,适用于政务、金融、医疗等高敏感行业。

性能实测:30.7 token/s 单会话输出
在 MiniMax2.5本地推理测试中,FreeVM 平台搭配四张 Radeon PRO R9700 32GB GPU,实现了 30.7 token/s 的单会话输出速率。
“我们通过硬件层面的极致组合和软件层面的深度优化,突破了国产大模型在本地化部署的性能瓶颈。30.7 token/s 的成绩证明,FreeVM 已成为企业级 AI 推理的可信平台。”



应用场景与价值
• 企业级 AI 助手:在保证数据安全的前提下,提供毫秒级响应的对话机器人。
• 行业垂直模型:金融风控、医疗影像分析、法律文本审查等场景均可实现本地高效推理。
• 边缘计算:结合 FreeVM 的虚拟化特性,可在数据中心、分支机构或云边协同环境中灵活部署。
• 成本优化:相比传统云端推理,本地部署可显著降低长期算力租赁费用,提升 ROI。
关于江苏极元信息技术有限公司
江苏极元信息技术有限公司成立于 2018 年,是一家专注于超融合基础设施、AI 计算平台及云原生解决方案的企业。公司总部位于南京,拥有一支研究云计算与网络安全的研发团队,已为金融、制造、政府、教育等多个行业提供众多成功案例。