DeepSeek-V3

输入:¥2/ M Tokens;输出:¥8/ M Tokens

立即体验
网站截图
发布时期:2024-12-26
属地:北京市
模型名称:求索对话DeepSeek Chat
备案单位:北京深度求索人工智能基础技术研究有限公司
备案号:Beijing-DeepseekChat-202404280016
备案时间:2024/5/13

DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。