每日精選AI研究論文及翻譯
本報告提出的VibeThinker-1.5B(15億參數稠密模型)挑戰了「小模型必然缺乏強健推理能力」的主流共識,該模型透過我們的光譜至信號原則(SSP)開發而成。此舉質疑了當前依賴擴大模型參數來提升能力的主流做法(如DeepSeek R1的6710億參數和Kimi k2的逾萬億參數)。SSP框架首先採用兩階段多樣性探索蒸餾法(SFT)生成廣泛的解決方案光譜,再通過最大熵引導策略優化(RL)強化正確信號。僅耗費7,800美元總訓練成本,VibeThinker-1.5B不僅在推理能力上超越閉源模型Magistral Medium和Claude Opus 4,更與開源模型GPT OSS-20B Medium表現相當。值得注意的是,它在三項數學基準測試中超越參數量達400倍的DeepSeek R1:AIME24(80.3對79.8)、AIME25(74.4對70.0)及HMMT25(50.4對41.7),相較其基礎模型(分別為6.7、4.3和0.6)實現質變提升。在LiveCodeBench V6測評中,其51.1分的成績優於Magistral Medium的50.3分,而基礎模型得分為0.0。這些發現證明小模型能實現與大模型相媲美的推理能力,大幅降低訓練與推論成本,從而推動先進AI研究的普惠化發展。
建構可靠的電腦使用代理程式需要基礎定位能力:精準地將自然語言指令與正確的螢幕元素建立關聯。儘管現有大量針對網頁和行動裝置互動的資料集,但針對桌面環境的高品質資源仍相當有限。為填補此缺口,我們推出GroundCUA——一個基於專家真人示範建構的大規模桌面基礎定位資料集。該資料集涵蓋12大類別的87種應用程式,包含5.6萬張螢幕截圖,每張截圖上的所有介面元素均經過人工細緻標註,總計超過356萬筆經人工驗證的註解。我們從這些示範中生成多樣化指令,涵蓋各類真實場景任務,為模型訓練提供高品質資料。運用GroundCUA資料集,我們開發出能將指令映射至目標UI元素的GroundNext模型系列。無論是30億參數還是70億參數版本,GroundNext在五項基準測試中僅需不到先前研究十分之一的訓練資料量,即可透過監督式微調達到最先進成果。強化學習後續訓練進一步提升模型表現,當在OSWorld基準測試中以o3作為規劃器的代理情境中評估時,GroundNext達成與使用更大量資料訓練的模型相當或更優異的成果。這些結果證明了由專家驅動的高品質資料集對於推進通用型電腦使用代理程式發展的關鍵作用。
大型語言模型(LLMs)在對話系統中展現出卓越成效,能夠生成類人回應。然而,當需要考量個人化或特定知識時,此類模型仍存在不足。在實際應用場景中,依賴用戶自行偵測錯誤並要求重新生成回應並不現實。解決此問題的一種方法是在回傳給用戶前對回應進行優化。現有方法多聚焦於單一大型語言模型內部的回應優化,但難以兼顧有效對話所需的多重面向。本研究提出透過多智能體框架進行回應優化,每個智能體分別負責特定面向的審核與改進。我們聚焦於對話品質的三個關鍵面向:事實性、個人化與連貫性。各智能體專責審核並優化其中一項面向,其回饋意見將被整合以提升整體回應品質。為強化智能體間的協作,我們引入動態通訊策略。有別於固定順序的智能體調用模式,本方法能根據每個查詢的具體需求,自適應地選擇並協調最相關的智能體。我們在具挑戰性的對話資料集上驗證此框架,結果顯示本方法顯著優於相關基線模型,尤其在涉及知識、用戶畫像或兩者兼具的任務中表現突出。
遮罩擴散模型在語言生成等多項任務中已展現出競爭力。然而,由於其迭代優化特性,推論過程常受制於緩慢且固定的採樣速度。為解決此問題,我們提出「KL自適應穩定性採樣」(KLASS),這是一種利用詞元級KL散度識別穩定高置信度預測的快速有效採樣方法。該方法無需額外模型訓練,即可在每次迭代中同時解鎖多個詞元,在保持生成質量的同時顯著加速生成過程。在推理基準測試中,KLASS相比標準貪婪解碼實現了最高2.78倍的實時加速,且性能有所提升,在基於擴散的採樣器中達到最先進水平。我們進一步在文本、圖像及分子生成等多領域驗證KLASS的有效性,證明其作為跨模型通用採樣器的廣泛適用性。
大型語言模型顯著推進了多語言機器翻譯(MMT)的發展,然而廣泛的語言覆蓋範圍、一致的翻譯品質以及以英語為中心的偏差仍是待解決的挑戰。為應對這些挑戰,我們推出LMT——一套以中英雙語為核心的大規模多語言翻譯模型,涵蓋60種語言及234個翻譯方向。在開發過程中,我們發現了先前被忽略的「方向性退化」現象:對稱多向微調數據過度側重反向翻譯(X→英/中),導致過多的多對一映射並降低翻譯品質。為此提出「策略性降採樣」這一簡潔有效的方法來緩解此類退化。此外,我們設計了平行多語言提示(PMP)機制,利用類型學相關的輔助語言增強跨語言遷移能力。通過嚴格的數據篩選與優化的適應策略,LMT在同等語言覆蓋規模的模型中實現了最優性能,其中40億參數模型(LMT-60-4B)更以顯著優勢超越參數規模更大的Aya-101-13B和NLLB-54B模型。我們發布四種規模的LMT模型(6億/17億/40億/80億)以促進未來研究,並為實現包容性、可擴展且高品質的MMT提供強力基準\href{https://github.com/NiuTrans/LMT}{https://github.com/NiuTrans/LMT}。
具備可驗證獎勵的強化學習(RLVR)能可靠提升大型語言模型的推理性能,但似乎僅修改了極少部分參數。我們重新審視這一悖論,發現稀疏性實際上是模型條件化優化偏差的表象:對於固定預訓練模型,參數更新始終集中於偏好區域,且該現象在不同實驗運行間高度一致,對數據集和RL訓練方案的變化也保持不變。我們通過「三門理論」機理性地解釋這種動態:門I(KL錨點)施加KL約束的更新;門II(模型幾何)將更新步長引導至偏離主方向、落入低曲率且保持譜結構的子空間;門III(精度調控)將非偏好區域的微觀更新隱藏,使偏離主方向的偏差呈現為稀疏性。我們驗證了該理論,並首次實現RLVR學習動態的參數層級表徵:RLVR在權重空間中沿非主方向學習,通過最小化譜漂移、減少主空間旋轉以及實現非主方向更新對齊來獲得增益。相比之下,監督微調(SFT)針對主權重進行更新,扭曲譜結構,其效果甚至遜於RLVR。 這些發現共同構建了首個從參數空間解讀RLVR訓練動態的框架,揭示了參數演化過程中的清晰規律。關鍵在於,我們證明RL運作於有別於SFT的優化機制,因此直接套用SFT時代的參數高效微調(PEFT)方法存在缺陷——我們對先進稀疏微調及LoRA變體的案例研究證實了這一點。本研究旨在為實現RLVR的白盒化理解鋪路,推動設計幾何感知、原生適配RLVR的學習算法,而非簡單復用SFT時代的啟發式方法。
大型語言模型(LLM)與大型多模態模型(LMM)的效能,很大程度上取決於其預訓練資料集的品質與規模。近期研究表明,在自然交錯排列圖文文件的資料上訓練的多模態模型,於各類基準測試中均優於僅使用圖文配對資料訓練的模型。這類模型能借助先進的預訓練技術,強化語義對齊、圖像序列一致性及文本連貫性。然而在阿拉伯語領域,由於缺乏能保留文件結構的高品質多模態資料集,相關進展一直受限。本文提出名為 Wasm 的處理流程,透過處理 Common Crawl 資料集來創建一個獨特提供 Markdown 輸出的阿拉伯語多模態資料集。有別於現有僅專注於文字提取的阿拉伯語語料庫,我們的方法在保持網頁內容結構完整性的同時,還能兼顧純文字與多模態預訓練場景的靈活性。我們針對現有主流資料集的處理流程進行全面比較分析,闡明過濾策略的共性,並論證我們特定設計選擇的合理性。為推動後續研究,我們公開釋出具有代表性的資料集樣本及完整的阿拉伯語多模態處理流程。
具可驗證獎勵的強化學習(RLVR)已顯著提升了多模態大型語言模型(MLLMs)的影片理解能力。然而,MLLMs的快速發展正超越現有影片資料集的複雜度,而人工標註高品質新資料的成本依然高昂。本研究探討一個關鍵問題:能否利用影片內在的豐富資訊,自我生成高品質且可驗證的訓練資料?為此,我們引入三項自監督預訓練任務:異常定位、物件計數與時序拼圖。我們建構了影片內在理解基準(VIUBench)以驗證這些任務的難度,結果顯示當前最先進的MLLMs在此類任務上表現明顯不足。基於這些預訓練任務,我們開發了VideoSSR-30K資料集,並提出VideoSSR——一種用於RLVR的新型影片自監督強化學習框架。在涵蓋四大影片領域(通用影片問答、長影片問答、時間定位與複雜推理)的17個基準測試中,廣泛實驗表明VideoSSR能持續提升模型性能,平均改進幅度超過5%。這些成果確立了VideoSSR作為開發更先進MLLMs影片理解能力的強效基礎框架。程式碼已公開於:https://github.com/lcqysl/VideoSSR。
大型语言模型(LLM)在长上下文推理方面面临根本性挑战:许多文档长度超过其有限上下文窗口,而对适配文本的处理性能会随序列长度增加而下降,这要求必须通过外部记忆框架进行增强。当前解决方案已从基于语义嵌入的检索,发展为采用更复杂的结构化知识图谱表征以提升语义理解与关联性,但这些方法仅适用于基于事实的检索,无法构建时空锚定的叙事表征以追踪事件流中的实体。为弥补这一缺陷,我们提出生成式语义工作空间(GSW)——一种受神经科学启发的生成式记忆框架,能构建演化情境的结构化可解释表征,使LLM能够对动态角色、行为及时空语境进行推理。该框架包含操作器(将输入观察映射为中间语义结构)与协调器(将这些结构整合至保持时空逻辑一致性的持久化工作空间)。在包含10万至100万标记语料库的《情景记忆基准测试》(EpBench)中,GSW相较基于检索增强生成(RAG)的基线模型性能提升高达20%。此外,GSW具备高效性,相比次优的标记效率基线模型,其查询时上下文标记数量减少51%,显著降低推理时间成本。更广泛而言,GSW为LLM赋予类人情景记忆提供了具体实现路径,为构建能进行长程推理的更智能体奠定基础。
当前大型语言模型(LLM)的查询处理主要依赖集中式云基础设施中的前沿模型。快速增长的算力需求使该模式面临巨大压力,云服务商难以同步扩展基础设施。两项技术突破促使我们重新审视这一范式:小型语言模型(≤200亿活跃参数)已在多项任务中达到与前沿模型相当的性能,而本地加速器(如苹果M4 Max)能以交互级延迟运行这些模型。这引出一个关键问题:本地推理能否有效分流集中式基础设施的算力需求?解答该问题需从两方面衡量:本地模型能否准确响应真实场景的查询指令,以及能否在功耗受限设备(如笔记本电脑)上实现足够高效的运行。我们提出"智能每瓦特(IPW)"指标——即任务准确率与单位功耗的比值,用于评估不同模型-加速器组合的本地推理能力与能效。通过对20余个前沿本地模型、8类加速器及100万条真实单轮对话与推理查询(代表主流LLM流量)的大规模实证研究,我们测量了每项查询的准确率、能耗、延迟与功耗。研究发现有三:首先,本地模型能准确处理87.7%的单轮对话与推理查询,准确率因领域而异;其次,2023至2025年间,IPW指标提升5.3倍,本地查询覆盖率从23.2%升至71.3%;最后,运行相同模型时,本地加速器的IPW较云加速器至少降低1.4倍,显示巨大优化空间。这些发现证明本地推理能有效分流集中式算力需求,而IPW可作为追踪该转型进程的关键指标。我们同步开源IPW测评工具链,用于系统化的智能每瓦特基准测试。
在现代序列决策系统中,构建最优候选动作空间对高效推理至关重要。然而现有方法要么依赖缺乏可扩展性的人工定义动作空间,要么使用非结构化空间导致穷举搜索在计算上不可行。本文提出名为DynaAct的新型框架,通过自动构建紧凑动作空间来增强复杂问题解决场景中的序列推理能力。我们的方法首先利用大语言模型从涵盖多样化复杂推理问题的语料库中提取通用模式草图,以此估计完整动作空间的代理表示。随后构建一个子模函数,综合评估候选动作对当前状态的效用性及其多样性,并采用贪心算法选择最优候选集。在六个多样化标准基准上的大量实验表明,本方法在保持高效推理且不引入显著延迟的同时,显著提升了整体性能。实现代码已发布于https://github.com/zhaoxlpku/DynaAct。
背景:大型语言模型的出现可能引发软件开发领域的革命(例如流程自动化、劳动力转型)。尽管已有研究开始探讨LLM对软件开发的实际影响,但仍需通过实证研究来权衡使用LLM带来的正向与反向效应。目的:从开发者视角探究LLM如何影响软件开发及如何管理这种影响。方法:在2024年10月至2025年9月期间,我们通过三轮数据收集与分析,对22位软件从业者进行访谈,并采用社会技术扎根理论对访谈内容进行系统性分析。结果:我们识别出在个体、团队、组织和社会层面使用LLM的益处(如维持开发流程顺畅、提升开发者心智模型、促进创业精神)与弊端(如对开发者个性的负面影响及声誉损害),同时总结了LLM应用的最佳实践。结论:我们重点揭示了软件从业者、团队及组织在使用LLM时面临的权衡关系。本研究结论尤其有助于软件团队负责人和IT管理者评估LLM在其特定情境下的适用性。
對齊技術在提升大型語言模型(LLMs)輸出質量的同時,卻以多樣性喪失為代價,導致多次生成結果高度相似。我們提出基礎對齊模型協作框架(BACo),這是一種推理階段的詞元級模型協作框架,通過動態結合基礎LLM與其對齊版本來優化多樣性與質量。受前人研究(Fei et al., 2025)啟發,BACo採用路由策略,根據下一詞元預測的不確定性及預測內容的語義角色,逐詞元決策解碼來源模型。現有的多樣性提升方法(如重訓練、提示工程、多重採樣)雖能改善多樣性,但往往犧牲質量或需耗費大量解碼/訓練成本。相比之下,BACo僅需單次推理即可事後兼顧高多樣性與高質量,並具備強可控性。我們在三大開放式生成任務中驗證了多種路由策略,基於涵蓋多樣性與質量的13項指標,BACo持續超越現有推理階段基準方法。採用最佳路由策略時,BACo實現了多樣性與質量21.3%的綜合提升,人類評估亦印證此改進。結果表明基礎模型與對齊模型的協作能有效優化並控制多樣性與質量。
时序搜索旨在根据给定查询从数万帧中识别最小相关帧集合,为精准的长视频理解奠定基础。现有研究尝试逐步缩小搜索空间,但这些方法通常依赖人工设计的搜索流程,缺乏对最优搜索策略进行端到端优化的能力。本文提出TimeSearch-R模型,将时序搜索重新定义为交错式文本-视频思维,通过强化学习将视频片段搜索无缝整合到推理过程中。然而,将群体相对策略优化等强化学习训练方法应用于视频推理时,可能导致无监督的中间搜索决策,进而引发视频内容探索不足与逻辑推理不一致的问题。为解决这些缺陷,我们提出带完整性自验证的GRPO方法(GRPO-CSV),该方法从交错推理过程中收集已搜索视频帧,并利用同一策略模型验证已搜索帧的充分性,从而提升视频推理的完整性。此外,我们专门构建了适用于GRPO-CSV的SFT冷启动和强化学习训练的数据集,通过筛选时序依赖性弱的样本以增强任务难度,提升时序搜索能力。大量实验表明,TimeSearch-R在Haystack-LVBench和Haystack-Ego4D等时序搜索基准,以及VideoMME和MLVU等长视频理解基准上均取得显著提升。值得注意的是,TimeSearch-R在LongVideoBench上创造了最新最优结果,较基础模型Qwen2.5-VL提升4.1%,较先进视频推理模型Video-R1提升2.0%。代码已开源于https://github.com/Time-Search/TimeSearch-R。
硬負樣本對於訓練有效的檢索模型至關重要。硬負樣本挖掘通常依賴於使用基於餘弦距離等相似性度量的交叉編碼器或靜態嵌入模型對文檔進行排序。在生物醫學和科學領域,由於難以區分源文檔與硬負樣本文檔,硬負樣本挖掘變得具有挑戰性。然而,被引文獻天然與源文檔具有上下文相關性卻非重複內容,這使其成為理想的硬負樣本。本研究提出BiCA:具備引文感知硬負樣本的生物醫學密集檢索方法,通過利用20,000篇PubMed文獻中的引文鏈接進行硬負樣本挖掘,以改進領域專用的小型密集檢索器。我們使用這些引文指導的負樣本對GTE_small和GTE_Base模型進行微調,在BEIR數據集的域內和域外任務中通過nDCG@10指標觀察到零樣本密集檢索的持續提升,並在LoTTE數據集的長尾主題上通過Success@5指標超越基線。我們的研究結果凸顯了利用文檔鏈接結構生成高信息量負樣本的潛力,僅需極少微調即可實現最先進的性能,為實現高數據效率的領域自適應開闢了新途徑。