每日精选AI研究论文及翻译
挑战当前普遍认为小模型天生缺乏强大推理能力的共识,本报告推出VibeThinker-1.5B——一个基于"频谱-信号原则"(SSP)开发的15亿参数稠密模型。该模型对通过扩大参数规模提升能力的主流方法(如DeepSeek R1的6710亿参数、Kimi k2的万亿级参数)提出了质疑。SSP框架首先采用两阶段多样性探索蒸馏法进行监督微调,生成广谱解决方案,再通过最大熵引导策略优化进行强化学习以放大正确信号。在总训练成本仅7800美元的情况下,VibeThinker-1.5B展现出优于Magistral Medium、Claude Opus 4等闭源模型的推理能力,并与GPT OSS-20B Medium等开源模型性能相当。值得注意的是,它在三项数学基准测试中超越了参数规模400倍以上的DeepSeek R1:AIME24(80.3分 vs 79.8分)、AIME25(74.4分 vs 70.0分)和HMMT25(50.4分 vs 41.7分)。相较于其基础模型(三项得分分别为6.7、4.3和0.6),这是质的飞跃。在LiveCodeBench V6测试中,它以51.1分的成绩超越Magistral Medium的50.3分及其基础模型的0分。这些发现证明小模型同样能实现与大模型相媲美的推理能力,大幅降低训练与推理成本,从而推动先进AI研究的普惠化发展。
构建可靠的计算机使用智能体需要实现精准的语义关联:将自然语言指令与正确的屏幕元素准确对应。尽管网络和移动交互领域已存在大规模数据集,但针对桌面环境的高质量资源仍然有限。为填补这一空白,我们推出了GroundCUA——一个基于专家演示构建的大规模桌面语义关联数据集。该数据集涵盖12个类别下的87种应用程序,包含5.6万张屏幕截图,每个屏幕元素均经过人工精细标注,总计超过356万条人工核验的注释。基于这些演示数据,我们生成了涵盖广泛真实任务场景的多样化指令,为模型训练提供高质量数据支撑。 利用GroundCUA数据集,我们开发了能够将指令映射至目标UI元素的GroundNext系列模型。在30亿和70亿参数规模下,通过监督微调,GroundNext在五项基准测试中均达到最先进水平,且所需训练数据不足先前工作的十分之一。强化学习后训练进一步提升了模型性能,在OSWorld基准测试中以o3作为规划器的智能体场景中,GroundNext取得了与使用更多数据训练的模型相当或更优的结果。这些成果证明了由专家驱动的高质量数据集对推进通用计算机使用智能体发展的关键作用。
大型语言模型(LLM)在对话系统中通过生成类人回复取得了显著成功。然而,当需要兼顾个性化或特定知识时,其表现仍存在不足。在实际应用场景中,依赖用户发现错误并请求重新生成回复并不现实。解决该问题的一种方法是在返回回复前对其进行优化。现有方法主要聚焦于单一LLM内部的回复优化,但难以兼顾有效对话所需的多样化维度。本研究提出通过多智能体框架优化回复,每个智能体被分配特定角色以处理不同维度。我们重点关注对话质量的三个关键维度:事实性、个性化与连贯性。每个智能体负责审查并优化其中一个维度,其反馈意见最终被整合以提升整体回复质量。为增强智能体间的协作,我们引入了动态通信策略。该方法并非遵循固定的智能体执行顺序,而是根据每个查询的具体需求自适应地选择并协调最相关的智能体。我们在具有挑战性的对话数据集上验证了该框架,结果表明本方法显著优于相关基线模型,尤其在涉及知识或用户画像的任务中表现突出。
掩码扩散模型在语言生成等多项任务中已展现出卓越性能。然而,由于其迭代优化机制,推理过程常受限于缓慢且固定的采样速度。为解决此问题,我们提出基于KL自适应稳定性采样(KLASS)的快速高效采样方法,该方法利用词元级KL散度识别稳定高置信度的预测结果。通过在不增加模型训练成本的前提下实现单次迭代中多词元并行解掩,本方法在保持生成质量的同时显著提升生成速度。在推理基准测试中,KLASS相比标准贪婪解码实现了最高2.78倍的实际加速,且性能表现更优,在基于扩散的采样器中达到领先水平。我们进一步在文本、图像及分子生成等多领域验证KLASS的有效性,证明其可作为跨模型的通用采样器广泛应用。
大型语言模型显著推动了多语言机器翻译(MMT)的发展,但广泛的语言覆盖范围、稳定的翻译质量以及英语中心化偏差仍是亟待解决的挑战。为应对这些挑战,我们推出LMT——一套以中英双语为核心的大规模多语言翻译模型,覆盖60种语言及234个翻译方向。在研发过程中,我们发现了一种被长期忽视的方向性退化现象:对称多向微调数据过度侧重反向翻译(X→英/中),导致过多多对一映射并降低翻译质量。为此提出战略性降采样策略,通过简单而有效的方法缓解此类退化。此外,我们设计出并行多语言提示技术(PMP),利用类型学相关的辅助语言增强跨语言迁移能力。通过严格的数据筛选与精细化适配策略,LMT在同等语言覆盖规模的模型中实现最优性能,其中40亿参数模型(LMT-60-4B)以显著优势超越参数规模更大的Aya-101-13B和NLLB-54B模型。我们发布四个参数规模版本(6亿/17亿/40亿/80亿)的LMT模型,旨在为包容性、可扩展的高质量MMT研究提供强力基线\href{https://github.com/NiuTrans/LMT}{https://github.com/NiuTrans/LMT}}。
带有可验证奖励的强化学习(RLVR)能可靠提升大语言模型的推理性能,但其似乎仅修改了极少部分参数。我们重新审视这一悖论,发现稀疏性只是模型条件化优化偏差的表象:对于固定预训练模型,参数更新始终集中于偏好区域,且该现象在不同实验运行间高度一致,对数据集和RL训练方案的改变也保持稳定。我们通过"三闸门理论"机制化解释这一动态:闸门I(KL锚点)施加KL约束的更新;闸门II(模型几何)将更新步长导向偏离主方向的高斯曲率子空间以保持频谱稳定;闸门III(精度掩码)将非偏好区域的微观更新隐藏,使偏离主方向的偏差呈现为稀疏性。我们验证该理论并首次实现RLVR学习动态的参数级刻画:RLVR在权重空间中沿非主方向学习,通过最小化频谱偏移、减少主空间旋转以及对齐非主方向更新获得增益。相比之下,监督微调(SFT)以主权重为目标,扭曲频谱特征,其效果甚至落后于RLVR。 这些发现共同构成了RLVR训练动态的首个参数空间阐释,揭示了参数演化过程中的清晰规律。关键的是,我们证明RL处于与SFT截然不同的优化范式,因此直接套用SFT时代的参数高效微调(PEFT)方法存在缺陷——我们对先进稀疏微调及LoRA变体的案例研究证实了这一点。本研究有望为理解RLVR的白盒机制指明方向,推动设计几何感知的RLVR原生学习算法,而非简单移植SFT时代的启发式方法。
大型语言模型(LLMs)与大型多模态模型(LMMs)的性能高度依赖于其预训练数据的质量与规模。近期研究表明,在自然文档中图像与文本交错编排的多模态模型训练效果,在广泛基准测试中优于仅使用图文对训练的模型。这类模型通过先进的预训练技术实现了语义对齐、图像序列一致性和文本连贯性。然而对于阿拉伯语而言,由于缺乏能保持文档结构的高质量多模态数据集,相关研究进展受到限制。本文提出Wasm处理流程,通过对Common Crawl数据集进行加工,构建了首个提供Markdown格式输出的阿拉伯语多模态数据集。与现有仅关注文本提取的阿拉伯语语料库不同,我们的方法在保持网页内容结构完整性的同时,兼顾纯文本与多模态预训练场景的灵活性。我们通过详尽的对比分析,将本数据处理流程与现有主流数据集构建方法进行对比,既揭示了过滤策略的共性特征,也论证了特定设计决策的合理性。为支持后续研究,我们公开发布了具有代表性的数据集样本及完整的阿拉伯语多模态处理流程。
基于可验证奖励的强化学习(RLVR)显著提升了多模态大语言模型(MLLMs)的视频理解能力。然而,MLLMs的快速发展正逐渐超越现有视频数据集的复杂度,而人工标注高质量新数据的成本依然居高不下。本研究探讨了一个关键问题:能否利用视频内蕴的丰富信息自生成高质量、可验证的训练数据?为此,我们引入了三项自监督前置任务:异常定位、目标计数和时间拼图。通过构建视频内在理解基准(VIUBench)验证任务难度,发现当前最先进的MLLMs在这些任务上表现欠佳。基于这些前置任务,我们开发了VideoSSR-30K数据集并提出VideoSSR——一种面向RLVR的新型视频自监督强化学习框架。在涵盖四大视频领域(通用视频问答、长视频问答、时间定位和复杂推理)的17个基准测试中,大量实验表明VideoSSR能持续提升模型性能,平均改进幅度超5%。这些成果确立了VideoSSR作为推动MLLMs实现更先进视频理解的强效基础框架。代码已开源:https://github.com/lcqysl/VideoSSR。
大语言模型在长上下文推理方面存在根本性挑战:许多文档长度超出其有限上下文窗口,而即使对适配文本的处理性能也会随序列长度增加而下降,这要求必须通过外部记忆框架进行增强。当前解决方案已从基于语义嵌入的检索,演进为采用更复杂的结构化知识图谱表征以提升意义建构和关联性,但这些方法主要适用于基于事实的检索,无法构建时空锚定的叙事表征以追踪贯穿事件实体的演变。为弥补这一缺陷,我们提出生成式语义工作空间——一种受神经科学启发的生成式记忆框架,能构建演化情境的结构化可解释表征,使大语言模型能够对动态角色、行为及时空语境进行推理。该框架包含将输入观察映射为中间语义结构的操作器,以及将这些结构整合至持久化工作空间并确保时空与逻辑一致性的协调器。在包含10万至100万标记量级语料库的Episodic Memory Benchmark测试中,GSW相较现有基于检索增强生成的基线模型性能提升最高达20%。此外,GSW具有高效性,相比次优的标记效率基线可减少51%的查询时上下文标记,显著降低推理时间成本。更广泛而言,GSW为赋予大语言模型类人情景记忆提供了具体蓝图,为构建具备长程推理能力的智能体开辟了新路径。
当前大型语言模型(LLM)的查询处理主要依赖集中式云基础设施中的前沿模型。快速增长的需求使该模式面临压力,云服务商难以同步扩展基础设施。两项技术进展促使我们重新思考这一范式:小型语言模型(≤200亿活跃参数)已在多项任务中达到与前沿模型相当的性能,而本地加速器(如苹果M4 Max)能以交互级延迟运行这些模型。这引出一个关键问题:本地推理能否有效分流集中式基础设施的负载?解答该问题需评估本地模型能否准确响应真实场景查询,以及能否在功耗受限设备(如笔记本电脑)上实现足够高效的运行。我们提出"每瓦智能"(IPW)指标——即任务准确率与单位功耗的比值,用于评估不同模型-加速器组合的本地推理能力与效率。通过对20余个前沿本地模型、8种加速器及100万条真实单轮对话与推理查询(代表典型LLM流量)的大规模实证研究,我们测量了每条查询的准确率、能耗、延迟和功耗。分析揭示三大发现:首先,本地模型能准确响应88.7%的单轮对话与推理查询,准确率因领域而异;其次,2023至2025年间,IPW提升5.3倍,本地查询覆盖率从23.2%增至71.3%;最后,运行相同模型时,本地加速器的IPW至少比云加速器低1.4倍,显示巨大优化空间。这些证明本地推理可有效分流集中式基础设施负载,而IPW是追踪该转型进程的关键指标。我们开源IPW测评工具链,以系统化推进每瓦智能基准测试。
在现代序列决策系统中,构建最优候选动作空间对高效推理至关重要。然而现有方法要么依赖缺乏可扩展性的人工定义动作空间,要么使用非结构化空间导致穷举搜索在计算上不可行。本文提出名为DynaAct的新型框架,通过自动构建紧凑动作空间来增强复杂问题解决场景中的序列推理能力。我们的方法首先利用大语言模型从涵盖多样化复杂推理问题的语料库中提取通用模式,以此估计完整动作空间的代理表示。随后构建一个子模函数,综合评估候选动作对当前状态的效用性及其多样性,并采用贪心算法选择最优候选集。在六个多样化标准基准上的大量实验表明,本方法在保持高效推理且不引入显著延迟的同时,显著提升了整体性能。代码实现已发布于https://github.com/zhaoxlpku/DynaAct。
背景:大型语言模型的出现可能引发软件开发领域的革命(例如流程自动化、劳动力转型)。尽管已有研究开始探讨LLM对软件开发的潜在影响,但仍需通过实证研究来平衡其正向与负向效应。目标:从开发者视角探究LLM如何影响软件开发及应对策略。方法:在2024年10月至2025年9月期间,通过三轮数据收集与分析对22名软件从业者进行访谈,采用社会技术扎根理论(STGT)严格解析访谈数据。结果:我们识别出在个人、团队、组织和社会层面使用LLM的益处(如维持开发流程、优化开发者心智模型、激发创业精神)与弊端(如对开发者个性的负面影响及声誉损害),并总结了LLM落地的最佳实践。结论:关键揭示了软件从业者、团队及组织在应用LLM时面临的权衡。本研究结论尤其有助于软件团队负责人和IT管理者评估LLM在其特定场景下的适用性。
对齐技术虽显著提升了大语言模型(LLM)的输出质量,却以牺牲多样性为代价,导致多次生成的内容高度趋同。我们提出基座-对齐模型协同框架(BACo),该推理阶段令牌级模型协作框架通过动态结合基座LLM与其对齐版本,以优化多样性与质量。受前人研究(Fei等,2025)启发,BACo采用路由策略,根据下一令牌预测的不确定性及预测内容的语义角色,逐令牌判定解码来源模型。现有提升多样性的方法(如重训练、提示工程、多采样等)虽能改善多样性,但往往导致质量下降或需要高昂的解码/训练后成本。相比之下,BACo在单次推理中即可实现高质量与高多样性的统一,同时具备强可控性。我们在三类开放生成任务中系统评估了多种路由策略,涵盖13项多样性与质量指标。实验表明BACo持续优于最先进的推理阶段基线方法:采用最优路由策略时,其多样性与质量综合提升率达21.3%。人工评估结果亦验证了上述改进。研究表明,基座模型与对齐模型的协同机制能有效优化并控制生成内容的多样性与质量。
时序搜索旨在根据给定查询从数万帧视频中识别最小相关帧集合,为精准的长视频理解奠定基础。现有研究尝试逐步缩小搜索范围,但这些方法通常依赖人工设计的搜索流程,缺乏对最优搜索策略进行端到端优化的能力。本文提出TimeSearch-R框架,将时序搜索重构为文本-视频交错思考过程,通过强化学习将视频片段搜索无缝集成到推理流程中。然而,将群体相对策略优化(GRPO)等强化学习训练方法应用于视频推理时,会导致无监督的中间搜索决策,进而引发视频内容探索不足与逻辑推理不一致的问题。为解决此问题,我们提出带完备性自验证的GRPO(GRPO-CSV),通过收集交错推理过程中搜索到的视频帧,并利用同一策略模型验证已搜索帧的充分性,从而提升视频推理的完备性。此外,我们专门构建了适用于GRPO-CSV的SFT冷启动和强化学习训练的数据集,通过筛选时序关联性弱的样本来增强任务难度,提升时序搜索能力。大量实验表明,TimeSearch-R在Haystack-LVBench、Haystack-Ego4D等时序搜索基准,以及VideoMME、MLVU等长视频理解基准上均取得显著提升。特别值得注意的是,TimeSearch-R在LongVideoBench上创造了最新纪录,较基础模型Qwen2.5-VL提升4.1%,较先进视频推理模型Video-R1提升2.0%。代码已开源:https://github.com/Time-Search/TimeSearch-R。
硬负样本对于训练高效检索模型至关重要。硬负样本挖掘通常依赖于使用基于余弦距离等相似性度量的交叉编码器或静态嵌入模型对文档进行排序。在生物医学和科学领域,由于难以区分源文档与硬负样本文档,硬负样本挖掘变得尤为困难。然而,被引文献天然与源文档具有上下文关联性却非重复内容,这使其成为理想的硬负样本。本研究提出BiCA:基于引文感知硬负样本的生物医学稠密检索方法,通过利用20,000篇PubMed文献中的引文链接进行硬负样本挖掘,以改进领域专用的小型稠密检索器。我们使用这些引文指导的负样本对GTE_small和GTE_Base模型进行微调,在BEIR基准的域内和域外任务中通过nDCG@10指标观察到零样本稠密检索性能的持续提升,并在LoTTE的长尾主题任务中通过Success@5指标超越基线。我们的研究结果揭示了利用文档链接结构生成高信息量负样本的潜力,仅需少量微调即可实现最先进的性能,为高数据效率的领域适应提供了可行路径。