DeepSeek-R1 的模型参数规模和上下文长度是多少?
日期: 2025-03-12 阅读: 142
DeepSeek-R1 的模型参数规模和上下文长度如下:
1. 模型参数规模:DeepSeek-R1 的满血版模型参数规模为 6710亿参数。这是一个混合专家模型(MoE),在每次推理时仅激活 370亿参数。
2. 上下文长度:DeepSeek-R1 的输入上下文长度为 128K tokens。这一长度是通过 YaRN 技术从基础的 4K 上下文长度扩展而来。
如果需要处理更长的文本序列,DeepSeek-R1-Zero 的上下文窗口可以扩展到 8192 tokens。
1. 模型参数规模:DeepSeek-R1 的满血版模型参数规模为 6710亿参数。这是一个混合专家模型(MoE),在每次推理时仅激活 370亿参数。
2. 上下文长度:DeepSeek-R1 的输入上下文长度为 128K tokens。这一长度是通过 YaRN 技术从基础的 4K 上下文长度扩展而来。
如果需要处理更长的文本序列,DeepSeek-R1-Zero 的上下文窗口可以扩展到 8192 tokens。