DeepSeek-R1 的模型参数规模和上下文长度是多少？

日期: 2025-03-12 阅读: 204

DeepSeek-R1 的模型参数规模和上下文长度如下：
1. 模型参数规模：DeepSeek-R1 的满血版模型参数规模为 6710亿参数。这是一个混合专家模型（MoE），在每次推理时仅激活 370亿参数。

2. 上下文长度：DeepSeek-R1 的输入上下文长度为 128K tokens。这一长度是通过 YaRN 技术从基础的 4K 上下文长度扩展而来。

如果需要处理更长的文本序列，DeepSeek-R1-Zero 的上下文窗口可以扩展到 8192 tokens。

上一个知识：DeepSeek-R1 是否开源？如果是，在哪里可以获取？

下一个知识：DeepSeek-R1 是否有经过蒸馏的小型模型版本？这些版本的性能如何？