
DeepEP通信库新版APP
软件简介
DeepEP通信库是一款专门为MoE(Mixture of Experts)模型设计的训练与推理通信库,针对分布式系统进行了优化,支持多种通信协议,以提高专家之间的数据交换与通信效率。该库提供低延迟和高吞吐量的数据传输,适用于实时数据处理、微服务架构等多个应用场景。
DeepEP通信库实际性能展示
在H800设备上进行的测试中,采用常规内核,每台设备通过CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽为50 GB/s)进行连接,并遵循DeepSeek-V3/R1的预训练配置(每批次4096个Tokens,7168个隐藏单元,前4组,前8个专家,FP8格式进行调度,BF16格式进行合并)。
测试低延迟内核时,每台H800同样连接到CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽约50 GB/s),并且采用DeepSeek-V3/R1的标准生产环境配置(每批次128个Tokens,7168个隐藏单元,前8个专家,FP8格式调度,BF16格式合并)。
DeepEP通信库最新动态
上周,DeepSeek宣布了本周为开源周(OpenSourceWeek),并将在此期间陆续开源五个软件库。今天,DeepSeek正式将DeepEP开源。DeepEP是一个高效且优化的EP(Expert Parallelism)通信库,专门用于MoE模型的训练和推理,支持全对全的高效通信,能够处理包括FP8在内的低精度计算,满足现代高性能计算的需求。
DeepEP还针对NVLink到RDMA的非对称带宽转发进行了深度优化,不仅能提供高吞吐量,而且支持SM(Streaming Multiprocessors)数量的控制,以确保在训练和推理过程中都能保持高效的吞吐量。
在DeepEP宣布开源后的20分钟内,GitHub上便获得了超过1000个Star收藏。
DeepEP通信库介绍
DeepEP是开源的FP8技术驱动库,首次为MoE模型提供了一个开源的EP通信库,具备高效优化的全对全通信能力,支持通过NVLink与RDMA实现节点内外的高效通信,适用于训练中的高吞吐量内核和推理解码的低延迟内核,原生支持FP8调度,并提供灵活的GPU资源管理,支持计算与通信的重叠。
DeepEP通信库的优势
优化且高效的全对全通信
支持节点内和节点间(intranode and internode)通过NVLink与RDMA进行通信
专为训练和推理设计的高吞吐量内核
低延迟内核,专门用于推理解码
原生支持FP8调度
灵活的GPU资源管理,支持计算与通信重叠