每日精選AI研究論文及翻譯
大型推理模型(LRMs)已展現出卓越的推理能力,但其常存在過度思考(在簡單問題上耗費冗餘計算步驟)與思考不足(未能充分探索潛在推理路徑)的問題。這些缺陷導致效率低下與潛在誤差,限制了在資源受限環境中的實際部署。現有緩解過度思考的方法(如抑制反思關鍵詞或調整推理長度)可能意外引發思考不足,影響準確性。為此,我們提出ReBalance——一種無需訓練的框架,通過平衡思考實現高效推理。該框架以置信度作為推理動態的連續指標,通過高方差識別過度思考,並通過持續過度自信檢測思考不足。通過將小規模數據集的隱藏狀態聚合為推理模式原型,我們計算引導向量來調整LRMs的推理軌跡。動態控制函數根據實時置信度調節該向量的強度與方向,在過度思考時剪除冗餘,在思考不足時促進探索。我們在0.5B至32B的四個模型上,針對數學推理、通用問答及代碼生成等九個基準任務進行廣泛實驗,結果表明ReBalance能有效降低輸出冗餘並提升準確率,為LRMs的高效魯棒部署提供了一種通用、免訓練且即插即用的策略。代碼已開源於:https://github.com/yu-lin-li/ReBalance。
大型語言模型(LLM)代理在處理複雜任務時的應用日益廣泛,然而已部署的代理往往保持靜態,無法隨使用者需求演進而調整。這導致持續服務需求與能力更新必要性之間產生矛盾——後者旨在適應不斷變化的任務分佈。在如OpenClaw這類橫跨20多個頻道處理多元工作負載的平台上,現有方法要么未經知識提煉直接儲存原始軌跡,要么維持靜態技能庫,要么需要中斷服務進行模型重訓練。我們提出MetaClaw:一個持續元學習框架,能同步演化基礎LLM策略與可複用行為技能庫。該框架採用兩種互補機制:技能驅動的快速適應透過LLM演化器分析失敗軌跡以合成新技能,實現零停機時間的即時效能提升;機會主義策略優化則透過雲端LoRA微調及流程獎勵模型強化學習(RL-PRM)進行梯度更新,由監控系統閒置狀態與行事曆資料的機會主義元學習排程器(OMLS)在使用者非活躍時段觸發。這兩種機制形成良性循環:優化後的策略產生更佳軌跡供技能合成,而更豐富的技能又為策略優化提供更高品質資料。為防止資料污染,版本控制機制會隔離支援集與查詢集資料。基於代理架構設計的MetaClaw無需本地GPU即可擴展至生產級LLM規模。在MetaClaw-Bench與AutoResearchClaw的實驗顯示,技能驅動適應使準確率相對提升最高達32%。完整流程將Kimi-K2.5的準確率從21.4%提升至40.6%,並使綜合魯棒性提高18.3%。程式碼已開源於:https://github.com/aiming-lab/MetaClaw。
儘管多模態大語言模型在各類影片任務中的應用已取得進展,但影片事件預測領域仍相對缺乏探索。該任務要求模型對影片進行細粒度的時序建模,並建立影片與未來事件間的邏輯關聯,而當前多模態大語言模型在此方面仍存在不足。本研究首先對主流多模態大語言模型在影片事件預測任務上的表現進行系統性評估,揭示了其預測不準確的根源:包括缺乏對未來事件的邏輯推理能力,以及對視覺資訊利用不足等問題。為應對這些挑戰,我們提出事件鏈範式,通過構建時序事件鏈隱式引導多模態大語言模型聚焦視覺內容與影片-未來事件間的邏輯關聯,並結合多種訓練機制激發模型的推理能力。在公開基準測試上的實驗結果表明,我們的方法優於當前領先的開源與商業多模態大語言模型,為影片事件預測任務樹立了新標竿。程式碼與模型即將開源發布。
影片擴散模型正從生成短暫的合理片段,邁向能實現世界模擬的階段,這類模型必須在攝影機運動、場景重訪與互動干預下保持一致性。然而空間記憶仍是關鍵瓶頸:顯式3D結構雖能提升基於重投影的一致性,卻難以描繪運動物體;而隱式記憶即使具備正確姿態,仍常產生不準確的攝影機運動。我們提出馬賽克記憶(MosaicMem),一種混合式空間記憶架構,能將圖塊提升至3D空間實現可靠定位與定向檢索,同時利用模型原生條件機制維持提示跟隨生成能力。MosaicMem透過圖塊組合介面,在查詢視角中合成空間對齊的圖塊,既保留應持續存在的內容,又允許模型對需演變的區域進行修補。結合PRoPE攝影機條件技術與兩種新型記憶對齊方法,實驗顯示相較隱式記憶有更優的姿態遵循性,且比顯式基線模型具備更強的動態建模能力。MosaicMem進一步實現了分鐘級導航、基於記憶的場景編輯,以及自回歸滾動生成功能。
後訓練對齊旨在最佳化語言模型以符合人類偏好信號,但此目標並不等同於模擬觀察到的人類行為。我們在超過10,000筆真人決策數據中,比較了120組基礎模型與對齊模型在多重回合策略遊戲(包括議價、說服、談判及重複矩陣博弈)中的表現。結果顯示,基礎模型在預測人類選擇時以近10:1的優勢持續優於其對齊版本,且此現象在不同模型家族、提示框架與遊戲配置中均保持穩健。然而,當人類行為更可能遵循規範性預測時,此模式出現反轉:對齊模型在所有12種單回合教科書式遊戲及非策略性彩票選擇任務中全面佔優,甚至在多重回合遊戲的初始回合(尚未形成互動歷史時)亦表現更佳。這種邊界條件模式表明,對齊過程會誘發規範性偏差:當人類行為較能被規範性解法捕捉時,對齊能提升預測力;但在多重回合策略情境中,當行為受互惠、報復、歷史依賴適應等描述性動態影響時,對齊反而削弱預測能力。這些結果揭示了在「為人類使用最佳化模型」與「將模型作為人類行為代理」之間存在根本性取捨。
強化學習(RL)已成為訓練基於大型語言模型的智慧體的重要範式,但其樣本效率低下的問題依然存在。這不僅源於稀疏的結果回饋,更因智慧體無法跨情境利用過往經驗。雖然為智慧體注入歷史經驗是極具潛力的解決方案,現有方法卻存在關鍵缺陷:從歷史中萃取的經驗要麼被靜態儲存,要麼未能與持續優化的行動主體協同演化,導致經驗與行動主體進化能力間逐漸產生錯位,削弱了經驗在訓練過程中的效用。受神經科學中互補學習系統的啟發,我們提出「互補式強化學習」,實現經驗萃取器與策略行動主體在RL優化迴圈中的無縫協同演化。具體而言,行動主體透過稀疏的結果回饋進行優化,而經驗萃取器則根據其提煉的經驗是否顯著促進行動主體成功來調整自身,從而使經驗管理策略與行動主體成長能力保持同步進化。實證研究表明,互補式強化學習在單任務情境下較未學習經驗的結果導向型智慧體基準線性能提升10%,並在多任務環境中展現出強大的擴展性。這些成果確立了互補式強化學習作為高效經驗驅動型智慧體學習的新範式。
人工智慧能否在戰爭軌跡尚未歷史性明朗前進行推演?此能力分析之難在於回顧性地緣政治預測深受訓練數據洩漏的干擾。為應對此挑戰,我們針對2026年中東衝突早期階段展開時序錨定的案例研究——該衝突發生於當前前沿模型的訓練數據截止日期之後。我們構建了11個關鍵時間節點、42個節點專屬可驗證問題及5個總體探索性問題,要求模型僅基於各時間點公開可得資訊進行推理。此設計大幅緩解了訓練數據洩漏疑慮,創造出適合研究模型如何在「戰爭迷霧」中分析危機演變的環境,並據我們所知,首次實現對大型語言模型在持續性地緣衝突中推理能力的時序錨定分析。我們的研究揭示三項主要發現:首先,當前頂尖大型語言模型常展現驚人的戰略現實主義傾向,能超越表面修辭而觸及深層結構性動因;其次,此能力存在領域不均性——模型在經濟與後勤結構化情境中的表現優於政治模糊的多方博弈環境;最後,模型敘事會隨時間演變,從早期預期快速遏制逐漸轉向對區域僵局與消耗性降級的系統性解釋。由於本研究中衝突在撰寫時仍在持續,本成果可作為模型在地緣危機演進過程中推理能力的檔案快照,為未來研究提供免受事後回溯偏見影響的基礎。
基於預訓練影片生成骨幹網絡初始化的世界行動模型(WAM)在機器人策略學習領域展現出巨大潛力。然而,現有方法存在兩個制約效能與部署的關鍵瓶頸:首先,聯合推理未來視覺動態與對應行動會導致顯著的推論開銷;其次,聯合建模常使視覺表徵與運動表徵相互糾纏,導致運動預測精度過度依賴未來影片預測的品質。為解決這些問題,我們提出GigaWorld-Policy——一種以行動為核心的WAM模型,其既能學習二維像素-行動動態關係,又可實現高效行動解碼,並支持可選的影片生成功能。具體而言,我們將策略訓練框架拆分為兩個耦合組件:模型根據當前觀測預測未來行動序列,同時基於預測行動與相同觀測生成未來影片。該策略同時接受行動預測與影片生成的監督,既提供更豐富的學習信號,又通過視覺動態約束激勵物理合理的行動生成。憑藉能阻止未來影片標記影響行動標記的因果設計,顯式未來影片生成在推論階段成為可選功能,從而實現部署期間更快速的行動預測。為支撐此範式,我們構建大規模多樣化機器人數據集,預訓練以行動為核心的影片生成模型,並將其作為機器人策略學習的骨幹網絡。真實機器人平台實驗表明,GigaWorld-Policy的運行速度比領先的WAM基線模型Motus快9倍,同時將任務成功率提升7%。此外,相較於pi-0.5模型,GigaWorld-Policy在RoboTwin 2.0環境中的性能提升達95%。
分词技术是多模态生成建模中的基础方法,尤其在近期成为三维生成领域重要解决方案的自回归模型中具有关键作用。然而,三维形状的最优分词仍是悬而未决的难题。当前最先进方法主要依赖最初为渲染和压缩设计的几何细节层次结构,这类空间层次结构往往存在分词效率低下且缺乏自回归建模所需语义一致性的问题。我们提出语义层次分词法(LoST),该方法依据语义显著度对分词进行排序,使得早期前缀能解码出具备主体语义的完整合理形状,而后续分词则用于细化实例特有的几何与语义细节。为训练LoST,我们引入关系间距对齐(RIDA)这一新型三维语义对齐损失函数,通过对齐三维形状潜空间与语义DINO特征空间的关系结构实现语义对齐。实验表明,LoST在重建任务中达到最优水平,在几何与语义重建指标上均大幅超越基于细节层次的现有三维形状分词器。此外,LoST仅需先前自回归模型0.1%-10%的分词量,即可实现高效高质量的自回归三维生成,并支持语义检索等下游任务。
視覺-語言-動作(VLA)模型近期已成為機器人操作領域中極具前景的研究範式,其動作預測的可靠性關鍵取決於對語言指令條件下視覺觀測的準確解析與整合。儘管現有研究試圖增強VLA模型的視覺能力,但多數方法將大型語言模型(LLM)骨幹視為黑箱,難以揭示視覺資訊如何被融入動作生成的過程。為此,我們對多種VLA模型在不同動作生成範式下進行系統性分析,發現模型在生成動作時對視覺標記的敏感度會隨網絡層數加深而遞減。基於此觀察,我們提出DeepVision-VLA模型,其建構於視覺-語言混合變換器(VL-MoT)框架之上。該框架實現視覺基礎模型與VLA骨幹間的共享注意力機制,將來自視覺專家的多層級視覺特徵注入VLA骨幹的深層網絡,從而強化精確與複雜操作所需的視覺表徵。此外,我們引入動作引導視覺修剪(AGVP)機制,利用淺層注意力篩除無關視覺標記並保留任務相關內容,以最小計算開銷強化操作所需的關鍵視覺線索。DeepVision-VLA在模擬與真實場景任務中分別以9.0%和7.5%的優勢超越現有最佳方法,為視覺增強型VLA模型的設計提供了新思路。
大型语言模型(LLMs)日益将用户偏好存储于持久记忆中以实现跨交互的个性化服务。然而,在受社会与制度规范约束的第三方沟通场景中,部分用户偏好的应用可能失当。我们提出BenchPreS评估框架,用以检验基于记忆的用户偏好在不同沟通情境中是否得到恰当应用或合理抑制。通过误用率(MR)与恰当应用率(AAR)两项互补指标,研究发现即使是前沿LLMs也难以实现情境敏感的偏好应用。偏好遵循能力更强的模型表现出更高的过度应用倾向,而推理能力与提示词防御策略均未能完全解决该问题。这些结果表明,当前LLMs将个性化偏好视为全局强制规则,而非依情境而变的规范性信号。
多模态大语言模型(MLLMs)通常采用多阶段训练模式,其中基于视频的监督微调(Video-SFT)是提升视觉理解能力的关键步骤。然而,该方法对视觉能力细粒度演进的影响——尤其是空间与时间理解之间的平衡机制——仍缺乏深入认知。本文系统研究了Video-SFT如何重塑MLLMs的视觉能力。在不同模型架构、参数规模和帧采样设置下,我们观察到一致规律:Video-SFT能稳定提升视频任务性能,但在静态图像基准测试中往往收效甚微甚至出现性能衰退。进一步研究表明,这种权衡与时间预算密切相关:增加采样帧数通常能提升视频性能,但无法稳定改善静态图像表现。基于此发现,我们提出一种指令感知的混合帧策略,通过自适应分配帧数量部分缓解图像-视频性能权衡。实验结果表明,Video-SFT并非MLLMs的通用解决方案,在联合图像-视频训练中保持空间理解能力仍是核心挑战。
视觉语言模型(VLM)领域近期涌现出增强具身化空间认知能力的研究趋势。尽管取得了一定进展,但现有评估方法在范式设计和覆盖范围上存在局限,阻碍了模型的快速迭代开发。为突破这些限制,我们提出ESPIRE——面向具身空间推理的诊断性基准框架。该框架通过构建模拟世界为VLM提供物理基础环境,并在以空间推理为核心任务的机器人场景中进行评估,从而缩小评估与实际部署之间的差距。为适配机器人任务特性,我们将每项任务解构为定位与执行两个阶段,并将其统一构建为生成式问题,这与依赖干扰项且忽略执行环节的主流判别式评估(如视觉问答)形成鲜明对比。这种解构方式还能实现从被动空间推理到行动推理的细粒度分析。我们在指令层级和环境层级对ESPIRE进行系统化设计,确保其全面覆盖各类空间推理场景。基于该基准,我们对多款前沿VLM进行诊断评估,并深入解析其空间推理行为模式。
我们推出V-JEPA 2.1系列自监督模型,该模型能同时学习图像与视频的密集高质量视觉表征,并保持强大的全局场景理解能力。该方法融合了四大核心要素:首先,密集预测损失采用基于掩码的学习目标,使可见与掩码标记共同参与训练信号生成,强化空间与时间维度的显式关联;其次,深度自监督机制将自监督目标分层应用于编码器的多个中间层,提升表征质量;第三,多模态分词器实现图像与视频的统一训练;最后,模型通过模型容量与训练数据的有效扩展获得性能提升。这些设计共同造就了空间结构清晰、语义连贯且时间一致性强的视觉表征。 实证研究表明,V-JEPA 2.1在多项挑战性基准测试中实现突破性表现:在Ego4D短期物体交互预测任务中达到7.71 mAP,在EPIC-KITCHENS高层动作预测任务中取得40.8的Recall@5,真实机器人抓取成功率较V-JEPA-2 AC提升20个百分点。该模型还在机器人导航(TartanDrive数据集5.687 ATE)、深度估计(NYUv2数据集线性探测0.307 RMSE)及全局识别(Something-Something-V2数据集77.7分)任务中展现卓越性能。这些成果表明V-JEPA 2.1在密集视觉理解与世界建模领域显著推动了技术前沿的发展。
我们提出StereoWorld——一种相机条件化的立体世界模型,该模型通过联合学习外观与双目几何特征,实现端到端的立体视频生成。与单目RGB或RGBD方法不同,StereoWorld仅基于RGB模态运行,同时直接从视差中构建几何基础。为实现高效且一致的立体生成,我们的方法引入两项关键设计:(1)统一相机坐标系RoPE,通过相机感知的旋转位置编码增强潜在标记,在保持预训练视频先验的基础上,通过稳定的注意力初始化实现相对、视角和时间一致的约束;(2)立体感知注意力分解,将完整4D注意力拆分为3D视图内注意力与水平行注意力,利用极线几何先验以显著降低的计算量捕获视差对齐的对应关系。在多项基准测试中,StereoWorld在立体一致性、视差精度和相机运动保真度上均优于强力的"单目生成后转换"流程,生成速度提升3倍以上,视角一致性额外提升5%。除基准测试外,StereoWorld无需深度估计或修补即可实现端到端双目VR渲染,通过度量级深度基础增强具身策略学习,并能兼容长视频蒸馏技术以实现扩展式交互立体合成。
大型语言模型(LLM)智能体日益依赖外部记忆来支持长程交互、个性化辅助和多步推理。然而,现有记忆系统仍面临三大核心挑战:过度依赖语义相似性,可能遗漏用户中心理解的关键证据;常将相关经验存储为孤立片段,削弱时序与因果连贯性;通常采用静态记忆粒度,难以适配不同问题的需求。我们提出AdaMem——面向长程对话智能体的自适应用户中心记忆框架。该框架将对话历史组织为工作记忆、情景记忆、用户画像记忆和图记忆,使系统能在统一架构下保存近期上下文、结构化长期经验、稳定用户特征及关系感知连接。在推理阶段,AdaMem先解析目标参与者,再构建结合语义检索与按需触发的关系感知图扩展的问题条件检索路径,最终通过专设角色管道进行证据合成与响应生成。我们在长程推理与用户建模基准LoCoMo和PERSONAMEM上评估AdaMem,实验结果表明其在两项基准上均达到最先进性能。代码将在论文录用后开源。
離線後訓練透過對記錄動作進行監督式迴歸,使預訓練的機器人策略適應目標資料集。實務中,機器人資料集具有異質性:混合了不同本體結構、攝影機配置及品質參差的示範資料,導致許多軌跡反映恢復行為、操作者技能不一致或弱監督訊號。均質化後訓練平等對待所有樣本,可能因此對衝突性或低關聯性數據進行平均化。我們提出後驗轉移重加權法(PTR),這是一種無需獎勵函數且保守的後訓練方法,能決定每個訓練樣本對監督式更新的影響程度。PTR將觀測到的動作後果編碼為潛在目標,將其插入失配目標的候選池,並使用獨立的轉移評分器估算目標索引的軟性最大化識別後驗機率。後驗機率與均勻分佈的比值定義為PTR分數,該分數經裁剪混合加權後,透過自歸一化加權迴歸作用於原始動作目標。此架構無需可處理的策略似然函數,且相容於擴散模型與流匹配動作頭。PTR並非均等信任所有記錄數據,而是根據當前表徵下各樣本動作後果的可歸因性重新分配權重,從而提升異質機器人資料的保守離線適應效能。
我们开发了一种在线学习算法,显著提高了人类反馈强化学习(RLHF)的数据效率。该算法能够在接收选择数据时同步更新奖励模型和语言模型:奖励模型通过拟合选择数据来优化,语言模型则采用改进版REINFORCE算法进行更新,其强化信号由奖励模型提供。实现效率提升的关键技术包括:在每个强化信号中引入微小正向激励、采用认知神经网络建模奖励不确定性,以及实施信息导向探索。基于Gemma大语言模型(LLM)的实验表明,我们的算法仅用不到2万条标注数据即可达到传统离线RLHF使用20万条标注数据的性能,实现超过10倍的数据效率提升。根据结果推算,使用100万条标注数据训练的算法可匹配传统离线RLHF使用10亿条标注数据的效果,相当于实现1000倍的效率提升。据我们所知,这是首次实证证明如此大幅度的改进具有可行性。
令牌剪枝對於提升視覺語言模型(VLMs)的計算效率至關重要,尤其在時間冗餘現象普遍存在的視頻任務中。現有方法通常僅在以下兩種場景進行剪枝:(1) 僅在視覺Transformer(ViT)內部針對動作識別、物體分割等單模態感知任務,未適配下游視覺語言任務;(2) 僅在大型語言模型(LLM)內操作而保持ViT輸出完整,往往需要複雜的文本條件化令牌選擇機制。本文提出時空令牌評分(STTS),這是一種簡單輕量的模塊,無需文本條件化或令牌合併即可在ViT和LLM中同步剪裁視覺令牌,並完全兼容端到端訓練。通過輔助損失函數學習時序評分,並借助LLM下游梯度實現空間評分,結合我們設計的高效封裝算法,STTS能在整個架構中剪裁50%的視覺令牌,在13項長短視頻問答任務中平均性能僅下降0.7%的同時,使訓練和推理效率提升62%。當視頻採樣幀數增加時,效率增益更為顯著。針對長視頻問答任務應用測試時縮放策略,可進一步獲得相比基準模型0.5-1%的性能提升。總體而言,STTS開創了一種新穎、簡潔而有效的統一化全架構視覺令牌剪枝技術。
傳統的令牌選擇專家混合(TC-MoE)方法將每個令牌路由至固定數量的專家,這限制了動態計算資源分配,並需依賴輔助損失函數來維持負載平衡。我們提出專家閾值(ET)路由機制:每個專家根據全局令牌分佈維持一個指數移動平均閾值。在訓練與推理過程中,當令牌的評分超過專家閾值時即被獨立路由至該專家,既能實現動態計算分配,又可無需輔助損失函數達成負載均衡。這種完全因果機制消除了對批次內其他令牌的依賴,尤其適合自迴歸語言建模。在FineWeb-Edu數據集上進行的2.4B參數預訓練實驗中,ET路由相比TC-MoE的交叉熵損失降低0.067,相當於用減少1.6倍的訓練令牌量達到同等性能。
后训练量化对于在资源受限硬件上部署大语言模型(LLM)至关重要,然而现有先进方法强制所有层采用统一比特宽度,导致准确率与效率的权衡欠佳。我们提出RAMP(强化自适应混合精度)——一种基于离线策略的软演员评论家框架,通过逐层学习比特宽度分配方案,在全局比特预算下最小化困惑度。该策略基于包含激活统计、权重特性与结构描述符的11维嵌入向量进行条件判断,实现了跨模型家族与规模的零样本迁移。为实现稳定的4比特以下量化,我们引入尺度折叠技术:通过逐通道缩放和归一化层补偿,将激活异常值迁移至权重中的预条件处理方法。采用具有非对称惩罚和预算悬崖机制的质量优先奖励函数,驱动策略快速收敛。在Llama 2 7B模型中,RAMP以3.68GB存储空间(3.65有效比特)实现5.54困惑度,相较统一4比特AWQ(3.90GB存储空间下困惑度5.60)和GPTQ,模型体积缩小6%,质量提升1%至3%。关键突破在于:仅基于Llama 2 7B训练的策略可零样本泛化至Llama 2 13B和Mistral 7B,其表现甚至常超越针对特定模型的训练结果,这支持了"量化敏感性主要源于模型架构"的假说。HALO流水线可将分配方案导出为GGUF格式,实现在CPU、GPU及边缘设备上的无内核推理,保留FP16版本常识推理性能的99.5%。
媒體設計圖層生成技術能夠僅通過自然語言指令即可創建完全可編輯的分層設計文檔(如海報、傳單和標誌)。現有方法要麼將輸出限制在固定數量的圖層,要麼要求每個圖層僅包含空間連續區域,導致圖層數量隨設計複雜度線性增長。我們提出LaDe(分層媒體設計)——一種潛在擴散框架,可生成靈活數量的語義化圖層。該框架融合三大組件:基於大語言模型的提示擴展器,將簡短用戶意圖轉化為指導生成的結構化分層描述;採用四維旋轉位置編碼機制的潛散變壓器,聯合生成完整媒體設計及其RGBA構成圖層;具備全阿爾法通道支持的RGBA變分自編碼器,可解碼各圖層。通過在訓練中引入圖層樣本條件化,我們的統一框架支持三項任務:文本到圖像生成、文本到分層媒體設計生成以及媒體設計解構。在Crello測試集上,我們將LaDe與Qwen-Image-Layered在文本到圖層和圖像到圖層任務上進行對比。經兩個視覺語言模型評測器(GPT-4o mini與Qwen3-VL)驗證,LaDe在文本到圖層生成任務中憑藉更優的文本-圖層對齊度超越Qwen-Image-Layered。
尽管大型语言模型(LLMs)仅接受过下一词元生成训练,但它们展现出潜在的多词元预测(MTP)能力。我们提出一种无需训练的简易MTP方法,通过从模型嵌入空间中动态提取掩码词元进行探测,无需修改模型权重或依赖辅助草稿模型即可实现未来词元的并行预测。该方法通过从掩码词元逻辑值中采样Top-K候选构建推测式词元树,并采用轻量级剪枝策略保留高概率延续序列。在解码过程中,候选预测结果经过并行验证,在实现无损生成的同时显著减少模型调用次数并提升词元吞吐量。在多项基准测试中,基于探测的MTP方法始终优于现有无需训练的基线模型:在LLaMA3上接受长度提升约12%,在Qwen3上提升8-12%,吞吐量增益最高达15-19%。最后,我们通过理论分析和实证证据表明,解码器层能自然对齐掩码词元表征与下一词元状态,无需重新训练或辅助模型即可实现精准的多步预测。
CLIP类视觉语言模型在自然图像上的成功启发了医学领域的对应研究,但现有方法大多陷入两个极端:基于单领域数据训练的专科模型虽能捕捉领域特异性细节但泛化能力差,而基于多领域数据训练的全科医学VLM虽保留广泛语义却稀释了细粒度诊断线索。如何平衡这种专科化与泛化性的矛盾仍是挑战。为此,我们提出ACE-LoRA——一种参数高效的通用医学VLM适配框架,在保持强大零样本泛化能力的同时,通过参数微调实现性能提升。该框架将低秩自适应模块集成至冻结的图像-文本编码器,并引入基于注意力的上下文增强超图神经网络模块,通过捕获超越成对相似性的高阶上下文交互,将局部化诊断线索融入全局表征,解决了现有参数高效微调方法忽视细粒度细节的关键局限。为进一步增强跨模态对齐,我们设计了标签引导的InfoNCE损失函数,有效抑制语义相关图文对之间的假阴性样本。尽管仅增加95万个可训练参数,ACE-LoRA在涵盖多领域的零样本分类、分割和检测任务中均持续超越最先进的医学VLM及参数高效微调基线方法。代码已开源于https://github.com/icon-lab/ACE-LoRA。
我们提出分布收缩强化学习(DICE-RL)框架,该框架将强化学习作为“分布收缩”算子来优化预训练的生成式机器人策略。DICE-RL通过在线反馈放大高成功率行为,将预训练的行为先验转化为高性能的“专业”策略。我们首先预训练具有广泛行为覆盖度的扩散模型或流模型策略,随后采用结合选择性行为正则化与价值引导动作选择的稳定、样本高效的残差离策略强化学习框架进行微调。大量实验与分析表明,DICE-RL能以强大的稳定性和样本效率持续提升策略性能,在仿真和真实机器人场景中均可直接基于高维像素输入掌握复杂的长期操作技能。项目网站:https://zhanyisun.github.io/dice.rl.2026/。
将语言模型扩展至视频领域面临两大挑战:表征层面现有方法依赖有损近似处理,长上下文层面则因基于字幕或智能体的处理流程将视频压缩为文本而丧失视觉保真度。为此我们推出VideoAtlas——一个任务无关的框架,通过分层网格对视频进行无损、可导航、可扩展且无需字幕预处理的表征。该系统支持全局概览与任意区域递归缩放,视频内容、中间分析过程与智能体记忆采用统一视觉表征,实现端到端的无损处理。这种分层结构确保访问深度的增长仅与视频时长呈对数关系。针对长上下文问题,递归语言模型(RLM)虽为长文本提供了解决方案,但其视觉领域应用需依赖结构化递归环境,这正是VideoAtlas的核心价值。将VideoAtlas建模为马尔可夫决策过程,我们构建了Video-RLM并行主从架构:主节点协调全局探索,从节点同步钻取指定区域以积累无损视觉证据。实验揭示三大发现:(1)计算量随视频时长呈对数增长,网格结构复用带来的30-60%多模态缓存命中率进一步优化效率;(2)通过限制最大探索深度实现环境预算机制,形成计算精度权衡的超参数调控范式;(3)随问题粒度自适应分配计算资源的涌现能力。在从1小时到10小时的基准测试中,Video-RLM始终保持最优的时长鲁棒性,精度衰减最小,证明结构化环境导航是实现可扩展视频理解的有效范式。
多模态大语言模型(MLLMs)普遍存在幻觉问题,尤其在处理细粒度查询时更为突出,而现有基准测试因主要关注粗粒度图像相关问题,未能充分体现这一挑战。我们提出细粒度负向查询框架FINER,并同步发布FINER-CompreCap与FINER-DOCCI两项基准。基于FINER框架,我们从多对象、多属性、多关系及“是什么”问题四类场景系统分析幻觉现象。实验表明,当细粒度失配与图像中真实存在的元素同时出现时,MLLMs极易产生幻觉。为此,我们提出FINER-Tuning方法,通过直接偏好优化(DPO)对FINER启发的数据进行训练。在四个前沿MLLMs上的实验表明,FINER-Tuning使模型在我们的基准测试中幻觉现象减少最高达24.2%(InternVL3.5-14B),同时显著提升八个现有幻觉测试集的性能,并在六个多模态基准上增强通用能力。代码、基准数据及模型均已开源:https://explainableml.github.io/finer-project/。
当前将CLIP等大规模视觉语言模型(VLM)适配至下游任务时,普遍采用"一刀切"的架构方案——通过宽泛的通用适配器统一处理视觉与文本标记。我们认为这种同质化设计忽视了模态间的本质结构差异:图像具有空间局部性,而文本则呈现语义密集性。为此,我们提出异质瓶颈适配器(HeBA),该统一架构框架通过引入模态特定的结构归纳偏置来解决上述问题。HeBA通过三项关键架构创新突破传统设计:(1)异质性处理:采用二维深度可分离卷积处理视觉标记以保持空间关联性,同时通过稠密线性投影差异化处理文本标记以捕捉语义关系;(2)瓶颈正则化:区别于标准扩展型适配器,HeBA采用压缩瓶颈结构(D→D/4),显式强制模型学习紧凑鲁棒的特征,并起到结构正则化器作用;(3)主动梯度初始化:突破限制性的零初始化范式,采用Kaiming初始化策略确保充足的初始梯度流,在保持冻结主干网络预训练知识的前提下加速收敛。大量实验表明,HeBA的架构专业化设计实现了卓越的稳定性与精度,在11个少样本基准测试中创下最新性能纪录。代码已开源:https://github.com/Jahid12012021/VLM-HeBA。
随着AI智能体的兴起,自动化科学发现已成为可企及的目标。近期许多研究构建了能够进行机器学习研究的智能体系统,但缺乏系统化的训练方法——当前大语言模型常生成看似合理却无效的方案。为推进智能体的实践学习能力,我们开发了针对机器学习智能体的新型合成环境生成流程。该流程能自动生成兼容SWE-agent框架的机器学习挑战任务,涵盖主题采样、数据集提案和代码生成三大环节。生成的合成任务具有两大特性:1)基于真实机器学习数据集,所有提案数据集均通过Huggingface API验证;2)通过自调试循环确保更高质量。为验证合成任务的有效性,我们在机器学习基准测试MLGym上进行评估。我们从教师模型(GPT-5)中采样合成任务轨迹,进而训练学生模型(Qwen3-4B与Qwen3-8B)。实验表明,采用合成任务训练的学生模型在MLGym上表现显著提升:Qwen3-4B的AUP指标提高9%,Qwen3-8B提升12%。
基於視覺轉換器的凍結骨幹遷移面臨兩個未充分解決的問題:當適配器被簡單插入固定特徵提取器時出現的優化不穩定性,以及缺乏設定適配器容量的原則性指導。我們提出AdapterTune方法,通過在每個轉換器模塊中添加殘差低秩瓶頸層來增強模型,其中上投影層採用零初始化策略,確保適配網絡精確起始於預訓練函數並消除早期訓練階段的表徵漂移。在理論分析層面,我們將適配器秩形式化定義為特徵空間中逼近下游任務遷移的容量預算。由此得到的超風險分解預測:隨著秩的增加,準確率提升呈現單調但遞減的趨勢,這種「肘部現象」在控制變量掃描實驗中得到驗證。我們在9個數據集和3種骨幹網絡規模上進行評估,並全程採用多種子報告機制。在核心的5數據集遷移測試組中,AdapterTune相比僅訓練分類頭的方法平均提升Top-1準確率14.9個百分點,僅需全參數微調0.92%的訓練參數量,並在15組數據集-骨幹配對中的10組表現優於全參數微調。在完整基準測試中,AdapterTune在所有測試的數據集-骨幹配對上均超越僅訓練分類頭的方法。針對秩配置、放置策略和初始化方法的消融實驗分別驗證了各設計選擇的有效性。程式碼已開源於:https://github.com/salimkhazem/adaptertune
近期三维基础模型的突破性进展,使得人体及其周边环境的重建技术备受关注。然而现有方法多集中于单目输入,将其扩展至多视角场景需依赖附加模块或预处理数据。为此,我们提出CHROMM统一框架,该框架可直接从多人多视角视频中联合估计相机参数、场景点云及人体网格,无需外部模块或预处理支持。我们通过将Pi3X的几何先验与Multi-HMR的人体先验整合至可训练的单一神经网络架构,并引入尺度调整模块以解决人体与场景的尺度差异问题。同时提出多视角融合策略,在测试阶段将各视角估计结果聚合为统一表征。此外还开发了基于几何特征的多人关联方法,相较基于外观的方法更具鲁棒性。在EMDB、RICH、EgoHumans和EgoExo4D数据集上的实验表明,CHROMM在全局人体运动估计与多视角姿态估计任务中均达到先进水平,且运行速度较基于优化的多视角方法提升8倍以上。项目页面:https://nstar1125.github.io/chromm。
我们提出PRISM研究,针对大型语言模型的中期训练设计选择展开全面实证分析。通过对涵盖四个模型家族(Granite、LLaMA、Mistral、Nemotron-H)、两种架构类型(稠密Transformer与注意力-状态空间混合模型)及3B至24B参数规模的七个基础模型进行对照实验,我们发现:在约270亿高质量token上进行中期训练后,模型在数学任务上获得+15至+40分、代码任务+5至+12分、科学评测+6至+13分的稳定提升,同时保持通用性能。完整的PRISM到强化学习流程将六大推理基准的宏观平均分从不足12分提升至29-42分(提升3-4倍),而直接对多数基础模型应用强化学习的效果显著较弱,AIME评分接近零。数据构成的关键作用体现在中期训练阶段而非强化学习:中期训练加入科学数据可使强化学习后的GPQA-Diamond评分提升+17至+28分,而调整强化学习数据组合仅产生不足2分的差异。机制分析表明,中期训练会重构超过90%的模型参数,而强化学习仅对约5%的参数进行稀疏的前置优化。表征分析(CKA)证实强化学习在不同架构中均能保持中期训练的表征几何结构(CKA超过0.998)。关键发现是:尽管强化学习施加的权重改变与起点无关,但仅对经过中期训练的模型有效,这表明中期训练能将模型置于强化学习可有效提升性能的配置状态。我们的研究证明,具有保持意识的中期训练能可靠增强推理能力,并为构建稳健的中期训练流程提供了实践指导。
大型语言模型(LLMs)能够流畅回答宗教知识查询,但经常产生虚构内容并错误归因来源,这在伊斯兰应用场景中尤其严重——用户期望回答必须基于《古兰经》和圣训等经典文本,并体现教法学的细微差别。检索增强生成(RAG)技术通过将生成过程锚定于外部证据,部分缓解了这些局限。然而,单一的"检索-生成"流水线难以应对伊斯兰查询的多样性:用户可能要求直接引用经文、需要附有出处的教法裁决式指导,或是涉及天课与继承等需严格遵循算术规则和法律不变量的计算类问题。本研究提出双语言(阿拉伯语/英语)多智能体伊斯兰助手Fanar-Sadiq,作为Fanar AI平台的核心组件。该系统采用工具调用型智能体架构,将伊斯兰相关查询路由至专用模块,支持意图感知路由、带有确定性引文规范化与验证轨迹的检索锚定式教法回答、精确经文查找与引文验证,以及涵盖逊尼派天课与继承计算的可按教法学派分支的确定性计算器。我们在公开伊斯兰问答基准上对端到端系统进行评估,证明了其有效性与高效性。目前该系统通过API和网页应用向公众免费开放,在不到一年内已获得约190万次访问。