使用 NVIDIA Dynamo 安装
本指南分步说明如何将 vLLM Semantic Router 与 NVIDIA Dynamo 集成。
关于 NVIDIA Dynamo
NVIDIA Dynamo 是面向大语言模型推理的高性能分布式推理平台。Dynamo 通过智能路由与缓存机制,帮助优化 GPU 利用率并降低推理延迟。
主要特性
- 分离式服务(Disaggregated Serving):Prefill 与 Decode 工作进程分离,更好利用 GPU
- KV 感知路由:将请求路由到具备相关 KV 缓存的工作进程,优化前缀缓存
- 动态扩缩容:Planner 组件按负载自动扩缩
- 多级 KV 缓存:GPU HBM → 系统内存 → NVMe,分层管理缓存
- 工作进程协调:etcd 与 NATS 用于分布式注册与消息队列
- 后端无关:支持 vLLM、SGLang、TensorRT-LLM 等后端
集成收益
将 vLLM Semantic Router 与 NVIDIA Dynamo 结合可获得:
- 双层智能:Semantic Router 在请求层做模型选择与分类;Dynamo 在基础设施层优化工作进程选择与 KV 缓存复用
- 智能模型选择:Semantic Router 理解内容并路由到合适模型;Dynamo 的 KV 感知路由器选择最优工作进程
- 双层缓存:语义缓存(请求级,Milvus)与 KV 缓存(token 级,Dynamo 管理)叠加,降低延迟
- 安全增强:PII 与越狱检测在请求到达推理工作进程前过滤
- 分离式架构:Prefill/Decode 分离与 KV 感知路由,降低延迟、提高吞吐
架构
本部署采用 分离式路由器部署 模式并 启用 KV 缓存,Prefill 与 Decode 工作进程分离以更好利用 GPU。
┌─────────────────────────────────────────────────────────────────┐
│ CLIENT │
│ curl -X POST http://localhost:8080/v1/chat/completions │
│ -d '{"model": "MoM", "messages": [...]}' │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ ENVOY GATEWAY │
│ • Routes traffic, applies ExtProc filter │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ SEMANTIC ROUTER (ExtProc Filter) │
│ • Classifies query → selects category (e.g., "math") │
│ • Selects model → rewrites request │
│ • Injects domain-specific system prompt │
│ • PII/Jailbreak detection │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────┐
│ DYNAMO FRONTEND (KV-Aware Routing) │
│ • Receives enriched request with selected model │