股票之声

 找回密码
 注册

QQ登录

只需一步,快速开始

股票之声 首页 行业分析 查看内容

软件与服务行业 :DEEPSEEK开源DEEPGEMM库 矩阵计算新变革

2025-2-28 11:20| 发布者: 神童股手| 查看: 91| 评论: 0

摘要:   事件描述   2025 年2 月25 日,DeepSeek 开源了DeepEP 代码库。DeepEP 是首个用于混合专家(MoE)模型训练和推理的开源专家并行 (EP)通信库。专家并行
  事件描述

      2025 年2 月25 日,DeepSeek 开源了DeepEP 代码库。DeepEP 是首个用于混合专家(MoE)模型训练和推理的开源专家并行 (EP)通信库。专家并行是分布式训练的一种方式,将MoE 中的不同专家分配到不同的计算设备上。专家并行利用 MoE 的稀疏激活特性,使模型规模能够随设备数量线性扩展,而不会相应地增加计算成本。

      事件评论

      专家并行的难点在于专家之间的通信效率,DeepEP 代码库重点解决了这一问题。通过优化的通信方案,DeepEP 显著降低了专家之间数据交换的开销,提升了模型并行处理能力和训练推理效率。在MoE 架构中,两个关键操作是分发(dispatch)和合并(combine)。

      1)分发:根据门控网络的决策,将输入token 路由到相应的专家;2)合并:收集各专家处理后的结果,并根据权重进行合并这两个操作需要设备间的全对全(all-to-all)通信模式,即每个设备需要向其他所有设备发送和接收数据。DeepEP 大幅优化了这一过程,减少了通信瓶颈。

      DeepEP 代码库通过多种途径提升了GPU 之间的信息传递效率,优化了不同GPU 之间的分工协作:

      1)不同的GPU 节点内和节点间均支持NVLink 和RDMA。DeepEP 可以充分利用InfiniBand 和NVLink 带宽,优化显存利用率,无需使用昂贵的张量并行即可训练DeepSeek-V3。

      2)发布用于训练和推理预填充的高吞吐量内核以及用于推理解码的低延迟内核。高吞吐量内核适用于训练中的数据批量处理阶段,能够显著提升训练速度;低延迟内核针对推理解码阶段,低延迟的计算能够让生成结果更快。

      3)高效的MOE 全员沟通。通过高效且优化的All-to-All 通信机制,支持节点内部和节点之间的通信,加快信息传递效率。

      4)灵活的GPU 资源控制,实现计算-通信重叠。在训练过程中,GPU 可以在等待通信完成的同时,继续处理其他计算任务,不占用流处理器资源,从而避免浪费时间。

      新一轮技术供给革命,国内AI 产业迎来价值重估。DeepSeek 带来AI 平权,有望大幅度提升应用端落地速度,并扩容AI 算力需求。建议关注:1)中国推理算力产业链,重点推荐国内AI 芯片领军寒武纪;2)云服务厂商,重点关注与DeepSeek 合作的相关云厂商;3)IDC,重点关注与腾讯、阿里、字节等大厂合作的IDC;4)AI 应用相关标的,重点关注AI+政务、AI+金融、AI+医疗、AI+教育等方向。

      风险提示

      1、AI 技术发展不及预期;

      2、下游应用需求不及预期。

鲜花

握手

雷人

路过

鸡蛋
【2024年5月31日最新敬告:文明发帖】

Archiver|手机版|小黑屋|股票之声 ( 京ICP备09051785号 )

GMT+8, 2025-4-30 21:14 , Processed in 0.057062 second(s), 7 queries , MemCache On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

返回顶部