每日精选AI研究论文及翻译
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个经过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地展现出许多强大和有趣的推理行为。然而,它面临着诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上实现了与OpenAI-o1-1217可比的性能。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的六个密集模型(1.5B、7B、8B、14B、32B、70B)从DeepSeek-R1中提炼而来。
使用下一个标记预测的语言模型预训练已被证明对扩展计算效果显著,但受可用训练数据量的限制。扩展强化学习(RL)开启了人工智能持续改进的新维度,承诺大型语言模型(LLMs)可以通过学习探索奖励来扩展其训练数据。然而,先前发表的工作并未取得竞争性结果。鉴此,我们报告了Kimi k1.5的训练实践,这是我们最新的多模态LLM,使用RL进行训练,包括其RL训练技术、多模态数据配方和基础设施优化。长上下文扩展和改进的策略优化方法是我们方法的关键要素,建立了一个简单而有效的RL框架,无需依赖于更复杂的技术,如蒙特卡洛树搜索、价值函数和过程奖励模型。值得注意的是,我们的系统在多个基准测试和模态下实现了最先进的推理性能,例如在AIME上达到了77.5,在MATH 500上达到了96.2,在Codeforces上达到了94th百分位,在MathVista上达到了74.9,与OpenAI的o1相匹配。此外,我们提出了有效的长2短方法,利用长-CoT技术改进短-CoT模型,产生了最先进的短-CoT推理结果,例如在AIME上达到了60.8,在MATH500上达到了94.6,在LiveCodeBench上达到了47.3,远远超过现有的短-CoT模型,如GPT-4o和Claude Sonnet 3.5,差距高达+550%。
在本文中,我们提出了VideoLLaMA3,这是一个更先进的用于图像和视频理解的多模态基础模型。VideoLLaMA3的核心设计理念是以视觉为中心。所谓“以视觉为中心”有两层含义:视觉为中心的训练范式和视觉为中心的框架设计。我们视觉为中心的训练范式的关键洞察是,高质量的图像文本数据对于图像和视频理解至关重要。我们不再准备大规模的视频文本数据集,而是专注于构建大规模且高质量的图像文本数据集。VideoLLaMA3包括四个训练阶段:1)视觉为中心的对齐阶段,用于热身视觉编码器和投影仪;2)视觉语言预训练阶段,通过大规模图像文本数据(包括场景图像、文档、图表)以及纯文本数据,联合调整视觉编码器、投影仪和LLM;3)多任务微调阶段,结合图像文本SFT数据用于下游任务和视频文本数据以建立视频理解的基础;4)视频为中心的微调,进一步提升模型在视频理解方面的能力。至于框架设计,为了更好地捕捉图像中的细粒度细节,预训练的视觉编码器被调整为将不同尺寸的图像编码为具有相应数量的视觉标记,而不是固定数量的标记。对于视频输入,我们根据它们的相似性减少视觉标记的数量,以使视频的表示更加精确和紧凑。受益于视觉为中心的设计,VideoLLaMA3在图像和视频理解基准测试中取得了引人注目的表现。
虚拟电影制作需要复杂的决策过程,包括剧本写作、虚拟摄影术以及精确的演员定位和动作。受最近自然语言处理代理社会中自动决策的进展启发,本文介绍了FilmAgent,这是一个基于LLM的多代理协作框架,用于在我们构建的3D虚拟空间中实现电影自动化的端到端流程。FilmAgent模拟了各种工作人员角色,包括导演、编剧、演员和摄影师,并涵盖了电影制作工作流程的关键阶段:(1)创意开发将头脑风暴的想法转化为结构化的故事大纲;(2)剧本写作详细描述了每个场景的对话和角色动作;(3)摄影术确定了每个镜头的摄像机设置。一组代理通过迭代反馈和修订进行协作,从而验证中间剧本并减少幻觉。我们对15个想法和4个关键方面的生成视频进行评估。人类评估显示,FilmAgent在所有方面都优于所有基准线,并平均得分为3.98(满分5分),表明了电影制作中多代理协作的可行性。进一步分析显示,尽管使用较不先进的GPT-4o模型,FilmAgent超越了单一代理o1,显示了良好协调的多代理系统的优势。最后,我们讨论了OpenAI的文本到视频模型Sora和我们的FilmAgent在电影制作中的互补优势和劣势。
大型语言模型(LLMs)展示了令人印象深刻的性能,但缺乏快速适应人类偏好而无需重新训练的灵活性。在这项工作中,我们引入了测试时偏好优化(TPO)框架,该框架在推理过程中将LLM的输出与人类偏好对齐,无需更新模型参数。TPO不依赖纯数值奖励,而是将奖励信号转化为文本评论,并将其用作文本奖励,以迭代方式完善其响应。在涵盖指令遵循、偏好对齐、安全性和数学等基准测试上的评估显示,TPO逐渐改善了与人类偏好的对齐。值得注意的是,在经过几个TPO步骤后,最初未对齐的Llama-3.1-70B-SFT模型可以超越对齐的对应模型Llama-3.1-70B-Instruct。此外,TPO在推理过程中与搜索宽度和深度的扩展效率高。通过案例研究,我们阐明了TPO如何利用LLM解释和执行奖励信号的内在能力。我们的研究结果将TPO确立为测试时偏好优化的实用、轻量级替代方案,实现了即时对齐。我们的代码可在https://github.com/yafuly/TPO 上公开获取。
混合专家(MoE)模型主要使用路由器将令牌分配给特定的专家模块,仅激活部分参数,通常优于密集模型。我们认为,路由器决策与专家执行之间的分离是一个关键但被忽视的问题,导致专家选择次优和学习效果不佳。为了解决这个问题,我们提出了专家自治(AoE),这是一种新颖的MoE范式,其中专家自主选择自己来处理输入。AoE基于这样一个观点,即专家意识到自己有效处理令牌的能力,这种意识体现在其内部激活的规模中。在AoE中,路由器被移除;相反,专家预先计算输入的内部激活,并根据其激活范数进行排名。只有排名靠前的专家继续进行前向传递,而其他专家则中止。通过低秩权重因子分解,预先计算激活的开销得以减少。这种自我评估然后与伙伴比较的方法确保了改进的专家选择和有效的学习。我们对拥有7亿至40亿参数的语言模型进行了预训练,表明AoE在效率上优于传统的MoE模型。
最近,长推理的LLMs,比如OpenAI的O1,采用类似于人类思考复杂问题的扩展推理过程。这种推理范式显著增强了模型的问题解决能力,并取得了令人期待的结果。然而,长推理过程导致推理时间大幅增加。一个紧迫的挑战是降低长推理LLMs的推理开销,同时确保准确性。在本文中,我们通过实验证明,长推理模型在根据问题难度和推理冗余性有效分配记号预算方面存在困难。为了解决这个问题,我们提出了长度协调微调(O1-Pruner),旨在最小化推理开销同时保持准确性。这种有效的微调方法首先通过预采样估计LLM的基准性能,然后使用RL风格的微调来鼓励模型在准确性约束下生成更短的推理过程。这使得模型能够在减少冗余的同时保持准确性实现高效推理。对各种数学推理基准的实验表明,O1-Pruner不仅显著降低了推理开销,还实现了更高的准确性,为这一挑战提供了一种新颖且有前景的解决方案。我们的代码即将发布在https://github.com/StarDewXXX/O1-Pruner。
最佳-N(BoN)抽样是大型语言模型(LLMs)测试时间缩放的常见策略,依赖奖励模型从多个生成中选择最佳候选解决方案。然而,传统奖励模型通常分配任意和不一致的分数,限制了它们的有效性。为了解决这个问题,我们提出了一种配对奖励模型(Pairwise RM),结合淘汰赛用于BoN抽样。Pairwise RM不是分配绝对分数,而是在给定一个数学问题时同时评估两个候选解决方案的正确性。这种方法消除了任意评分的需要,并通过并行比较实现了解决方案的交叉验证。在淘汰赛中,Pairwise RM在候选解决方案之间进行成对比较,并迭代性地淘汰错误的解决方案。我们构建了一个包含443K个成对比较的大规模数据集\ourdataset,这些数据来自NumiaMath,并使用gemini-1.5-flash进行注释,然后通过监督微调训练Pairwise RM。在MATH-500和奥林匹克基准上的实验表明,相对于传统的判别奖励模型,取得了显著的改进。在前50%具有挑战性的问题上实现了40%至60%的相对改进。
在计算机视觉中,多视角三维重建仍然是一个核心挑战,特别是在需要准确和可扩展的表示跨多个视角的应用中。当前领先的方法如DUSt3R采用了一种基本的成对方法,处理图像对并需要昂贵的全局对齐过程来从多个视角重建。在这项工作中,我们提出了快速三维重建(Fast3R),这是对DUSt3R的一种新颖的多视角泛化方法,通过并行处理多个视角实现了高效和可扩展的三维重建。Fast3R的基于Transformer的架构可以在单次前向传递中处理N张图像,避免了迭代对齐的需要。通过对相机姿态估计和三维重建进行大量实验,Fast3R展现出最先进的性能,显著提高了推断速度并减少了误差累积。这些结果确立了Fast3R作为多视角应用的一个强大选择,提供了增强的可扩展性,同时不会影响重建的准确性。
大型语言模型(LLMs)正在改变人工智能,演变成能够自主规划和执行任务的系统。LLMs的主要应用之一是对话式人工智能系统,这些系统必须处理多轮对话,集成特定领域的API,并遵守严格的策略约束。然而,评估这些代理的工作仍然是一个重大挑战,因为传统方法无法捕捉现实世界互动的复杂性和变化性。我们介绍了IntellAgent,这是一个可扩展的、开源的多代理框架,旨在全面评估对话式人工智能系统。IntellAgent通过结合基于策略驱动的图建模、真实事件生成和交互式用户代理模拟,自动化创建多样化的合成基准。这种创新方法提供了细粒度诊断,解决了静态和手动策划的基准测试的粗粒度指标的局限性。IntellAgent代表了对评估对话式人工智能的范式转变。通过模拟真实的、多策略情景,跨不同复杂性水平,IntellAgent捕捉了代理能力和策略约束的微妙相互作用。与传统方法不同,它采用基于图的策略模型来表示策略互动的关系、可能性和复杂性,从而实现高度详细的诊断。IntellAgent还识别了关键的性能差距,提供了针对性优化的可操作见解。其模块化、开源的设计支持新领域、策略和API的无缝集成,促进了可重现性和社区合作。我们的研究结果表明,IntellAgent作为一个有效的框架,通过解决研究和部署之间的挑战,推动了对话式人工智能的发展。该框架可在https://github.com/plurai-ai/intellagent获得。