返回顶部

产品新闻

NVIDIA Dynamo Snapshot 重磅上线,K8s AI 推理冷启动迈入秒级时代

日期:2026-06-12 点击:     关键词:NVIDIA,Dynamo,Snapshot,重磅,上线,K8s,推理,冷,启动,

2026-06-12
  近日,NVIDIA 推出 Dynamo Snapshot 技术方案,依托容器与 GPU 状态快照能力,成功将 Kubernetes 环境下 AI 推理服务冷启动耗时从分钟级大幅压缩至秒级,显著提升 AI 集群弹性能力与运行效率。 传统 K8s 部署大模型推理服务时,镜像拉取、模型加载、CUDA 环境初始化等流程繁琐,冷启动往往耗时数分钟,不仅造成 GPU 资源闲置,也难以应对业务流量突发波动。
  Dynamo Snapshot 融合 CRIU 进程检查点、cuda-checkpoint GPU 状态快照、GPU 内存服务等核心技术,预先完成推理环境全量初始化并生成快照。新增实例可直接基于快照快速恢复运行,跳过冗长初始化步骤。实测中,百亿参数大模型推理服务启动速度最高提升 21 倍,最优启动时长控制在 5 秒以内。
  该方案还通过 KV 缓存优化、高速内存映射等能力,大幅缩减快照体积与 I/O 开销,适配主流大模型推理框架。目前支持 x86 架构集群、单 GPU 推理场景,兼容主流推理引擎,对驱动版本有明确要求,后续还将持续迭代,拓展多 GPU、更多推理框架适配能力。 借助 Dynamo Snapshot,企业 AI 推理集群可实现秒级弹性扩缩,有效提升 GPU 资源利用率、保障业务 SLA,为实时对话、内容生成、高峰流量场景下的大规模 AI 落地提供强劲技术支撑。
400-0806-056