每日精選AI研究論文及翻譯
儘管多模態大型語言模型展現出卓越的語義理解能力,卻常存在空間盲區,難以進行細粒度幾何推理與物理動態分析。現有解決方案通常依賴顯式三維模態或複雜幾何框架,但受制於數據稀缺與泛化挑戰。本研究提出範式轉變——利用大規模影片生成模型中的隱性空間先驗。我們認為,為合成時序連貫的影片,此類模型已內在習得強健的三維結構先驗與物理規律。據此推出VEGA-3D(影片提取生成感知),這種即插即用框架將預訓練影片擴散模型重構為潛在世界模擬器:通過從中間噪聲層提取時空特徵,並經由權杖級自適應門控融合機制與語義表徵集成,無需顯式三維監督即可為多模態大語言模型注入密集幾何線索。在三大基準測試(三維場景理解、空間推理、具身操作)中的廣泛實驗表明,本方法優於現有頂尖基準方案,證實生成式先驗能為物理世界理解提供可擴展基礎。代碼公開於:https://github.com/H-EmbodVis/VEGA-3D。
當前基於指令的影片編輯模型難以同時兼顧精確語義修改與忠實運動保持。現有方法依賴注入顯式外部先驗(如VLM特徵或結構條件)來緩解這些問題,但這種依賴嚴重制約了模型的魯棒性與泛化能力。為突破此限制,我們提出SAMA(分解式語義錨定與運動對齊框架),將影片編輯分解為語義錨定和運動建模兩個因子。首先,我們引入語義錨定機制,通過在稀疏錨定幀上聯合預測語義標記與影片潛變數,建立可靠的視覺錨點,實現純指令感知的結構規劃。其次,運動對齊模塊通過在以運動為核心的影片修復預訓練任務(立方體修補、速度擾動、時序管重排)上預訓練同一骨幹網絡,使模型能直接從原始影片中內化時序動態特徵。SAMA採用兩階段優化流程:先進行分解式預訓練以學習內在的語義-運動表徵(無需配對的影片-指令編輯數據),再基於配對編輯數據進行監督式微調。值得注意的是,僅通過分解預訓練即可產生強大的零樣本影片編輯能力,驗證了所提分解策略的有效性。SAMA在開源模型中實現了最先進的性能,並可與主流商業系統(如Kling-Omni)競爭。程式碼、模型與數據集將公開釋出。
我們推出Nemotron-Cascade 2——這是一款擁有300億參數、30億激活參數的開放混合專家模型,具備同類頂級的推理能力與強大的智能體功能。儘管模型體積緊湊,其在數學與程式設計推理方面的表現已接近前沿開放模型水準。作為繼DeepSeekV3.2-Speciale-671B-A37B之後第二款達成此成就的開放權重大語言模型,它同時在2025年國際數學奧林匹克(IMO)、國際資訊奧林匹克(IOI)及ICPC世界總決賽中獲得金獎級表現,以僅需20分之1的參數量展現出卓越的智能密度。相較於Nemotron-Cascade 1,其核心技術突破如下:在經過精細策劃數據集的監督微調後,我們大幅擴展級聯強化學習的覆蓋範圍,涵蓋更廣闊的推理與智能體領域。此外,我們在整個級聯強化學習過程中引入多領域同策略蒸餾技術,從各領域最強的中間教師模型進行知識萃取,從而有效恢復基準測試中的性能回退現象,並持續保持強勁的性能提升。我們同步開源模型檢查點與訓練數據集。
為各類新興應用(如沉浸式VR/AR、虛擬製片及新一代電子商務)創建具有動態性且視角一致的自訂主體影片,已成為迫切需求。然而,儘管主體驅動影片生成技術快速發展,現有方法大多將主體視為二維實體,僅透過單視角視覺特徵或文字提示來遷移身份識別。由於真實世界的主體本質上是三維的,將這些以二維為核心的方法應用於三維物件自訂時,會暴露根本性局限:它們缺乏重建三維幾何所需的完整空間先驗知識。因此,在合成新視角時,這些方法只能為未見區域生成合理但任意的細節,而非保留真實的三維身份。實現真正的三維感知自訂仍面臨挑戰,主因在於多視角影片資料集的匱乏。雖然可嘗試對有限影片序列進行模型微調,但這往往導致時間域過度擬合。為解決這些問題,我們提出創新的三維感知影片自訂框架,包含3DreamBooth與3Dapter兩大組件。3DreamBooth透過單幀優化範式,將空間幾何與時間運動解耦:通過限制空間表徵的更新,無需耗時的影片訓練即可將強健的三維先驗知識內化至模型中。為增強細粒度紋理並加速收斂,我們整合視覺條件模組3Dapter。在單視角預訓練後,3Dapter透過非對稱條件策略與主生成分支進行多視角聯合優化。此設計使該模組能作為動態選擇性路由器,從極簡參考集中查詢視角專屬的幾何提示。專案頁面:https://ko-lani.github.io/3DreamBooth/
在物理世界中部署視覺語言動作(VLA)模型時,即時執行至關重要。現有的非同步推理方法主要優化軌跡平滑度,卻忽略了應對環境變化的關鍵延遲問題。本文通過重新審視動作分塊策略中的反應機制,系統性分析了影響反應時間的關鍵因素。我們發現反應時間遵循由「首次動作時間」(TTFA)與執行視窗共同決定的均勻分佈。此外,研究揭示基於流式VLA模型採用恆定調度策略的標準做法存在效率缺陷——該策略強制系統完成所有採樣步驟後才能啟動動作,從而形成反應延遲的瓶頸。為突破此限制,我們提出「即時反應快速動作採樣」(FASTER)框架。通過引入視窗感知調度機制,FASTER在流式採樣過程中自適應地優先處理近期動作,將即時反應的去噪過程壓縮十倍(如在π_{0.5}和X-VLA中)至單步完成,同時保持長時域軌跡的生成質量。結合流式客戶端-服務端管道,FASTER在真實機器人上顯著降低了有效反應延遲,尤其在消費級GPU部署場景中表現突出。真實環境實驗(包括高動態乒乓球任務)證實,FASTER為通用策略開創了前所未有的即時響應能力,能夠快速生成精準平滑的運動軌跡。
我們推出Memento-Skills——一個通用且可持續學習的大型語言模型代理系統,其本質是能設計代理的元代理:該系統通過經驗積累自主構建、調整並優化任務專用代理。該系統基於具狀態提示的記憶強化學習框架,將可複用技能(以結構化Markdown文件形式存儲)作為持續演化的持久記憶。這些技能同時編碼行為與上下文,使代理能夠在交互過程中傳承知識。 系統從基礎技能(如網絡搜索和終端操作)起步,通過Memento~2~wang2025memento2提出的讀寫反射學習機制持續進化。在讀取階段,行為可訓練的技能路由器根據當前狀態提示選擇最相關技能;在寫入階段,代理根據新經驗更新擴充技能庫。這種閉環設計實現了無需更新LLM參數的持續學習,所有適應性調整均通過外部化技能與提示的演變來實現。 有別於依賴人工設計代理的傳統方法,Memento-Skills使通用代理能為新任務端到端地設計專用代理。通過迭代式技能生成與優化,系統持續提升自身能力。在通用AI助手基準測試與「人類終極考試」上的實驗顯示出持續性能增益,整體準確率分別實現26.2%和116.2%的相對提升。程式碼已開源於:https://github.com/Memento-Teams/Memento-Skills。
過往的動作生成研究主要遵循兩種範式:擅長運動學控制的連續擴散模型,以及適用於語義調控的離散符號生成器。為融合兩者優勢,我們提出包含條件特徵提取(感知)、離散符號生成(規劃)與擴散式動作合成(控制)的三階段框架。該框架的核心是MoTok——一種基於擴散的離散動作符號化器,通過將動作重建任務委派給擴散解碼器,實現語義抽象與細粒度重建的解耦,從而能在保持動作保真度的同時使用緊湊的單層符號。針對運動學條件,粗粒度約束在規劃階段指導符號生成,而細粒度約束則通過擴散優化在控制階段實施。此設計可防止運動學細節干擾語義符號規劃。在HumanML3D數據集上,本方法僅使用六分之一符號量即顯著提升MaskControl的可控性與保真度,軌跡誤差從0.72厘米降至0.08厘米,FID從0.083改善至0.029。有別於先前方法在強運動學約束下性能衰減的現象,本方法反而提升保真度,將FID從0.033進一步降至0.014。
從單一影像重建關節式3D物體,需在有限視覺證據下同時推斷物體幾何、部件結構與運動參數。核心難題在於運動線索與物體結構的相互糾纏,導致直接回歸關節參數的方法不穩定。現有方法透過多視角監督、基於檢索的組裝或輔助影片生成來應對此挑戰,但常需犧牲擴展性或效率。我們提出MonoArt——一個基於漸進式結構推理的統一框架。有別於從影像特徵直接預測關節,MonoArt在單一架構內逐步將視覺觀測轉化為標準化幾何、結構化部件表徵與運動感知嵌入。此結構化推理過程無需外部運動模板或多階段流程,即可實現穩定且可解釋的關節推斷。在PartNet-Mobility數據集上的大量實驗表明,該方法在重建精度與推理速度上均達到頂尖水平。此框架更可泛化至機器人操作與關節化場景重建任務。
基於離散標記的視覺生成技術因能與語言模型共享統一的標記預測範式,有望實現無縫的多模態架構而備受關注。然而現有的離散生成方法仍侷限於低維潛在標記(通常為8-32維),犧牲了理解任務所需的語義豐富性。雖然高維預訓練表徵(768-1024維)可彌合此差距,但其離散生成存在根本性挑戰。本文提出立方離散擴散模型(CubiD),首個實現高維表徵離散生成的模型。CubiD在高維離散表徵中進行細粒度掩碼——任何位置的任何維度均可被掩碼並根據部分觀測值進行預測。該機制使模型能學習空間位置內與跨位置的豐富關聯性,且生成步數固定為T(與特徵維度無關),滿足T遠小於hwd。在ImageNet-256數據集上,CubiD以9億至37億參數規模實現了最優的離散生成性能,並展現出強勁的擴展性。關鍵在於,我們驗證了這些離散化標記能保持原始表徵能力,證明同一套離散標記可同時有效服務於理解與生成任務。本研究有望推動統一多模態架構的未來探索。程式碼已開源於:https://github.com/YuqingWang1029/CubiD。
我們推出F2LLM-v2系列——一套涵蓋8種規格(從8000萬到140億參數)的通用多語言嵌入模型。該系列基於全新構建的6000萬個公開高質量數據樣本進行訓練,支援超過200種語言,特別關注以往資源匱乏的中低資源語種。通過融合兩階段基於大語言模型的嵌入訓練流程,並結合套娃學習、模型剪枝與知識蒸餾技術,我們實現了遠超以往大語言模型嵌入方案的效率,同時保持競爭力性能。大量評估證實,F2LLM-v2-14B在11項MTEB基準測試中奪冠,而系列中較小規格的模型也為資源受限場景樹立了全新性能標杆。為推動開源嵌入模型研究,我們將全面公開所有模型、數據、代碼及中間檢查點。
近期全模態大型語言模型(OmniLLMs)的突破性進展顯著提升了對音頻與視頻輸入的理解能力。然而現有評估主要聚焦於10秒至5分鐘的短音視頻片段,難以反映實際應用場景中通常長達數十分鐘的視頻處理需求。為彌補這一關鍵空白,我們推出專為長時序音視頻跨模態理解設計的新基準LVOmniBench。該數據集精選自開放平台的高質量視頻,具備豐富的視聽動態特徵,經過嚴格人工篩選與標註,最終收錄275段時長10至90分鐘的視頻及1,014組問答對。LVOmniBench旨在系統評估OmniLLMs在長期記憶、時間定位、細粒度理解及多模態感知等領域的性能。大量實驗表明,現有OmniLLMs在處理長時序視聽輸入時面臨重大挑戰:開源模型準確率普遍低於35%,而Gemini 3 Pro的最高準確率約為65%。我們期待該數據集與實證研究能推動後續探索,促進開發能解決長時序音視頻場景下複雜跨模態理解問題的先進模型。
長時程圖形使用者介面代理是邁向現實世界部署的關鍵一步,然而現行範式下的有效互動記憶機制仍待深入探索。完整重放互動序列會產生冗餘並放大噪聲,而摘要式記憶往往抹除依賴關鍵資訊與可追溯性。我們提出 AndroTMem——專為長時程 Android GUI 代理設計的錨定記憶診斷框架。其核心基準測試 AndroTMem-Bench 包含 1,069 項任務與 34,473 個互動步驟(平均每任務 32.1 步,最高 65 步)。我們以任務完成率評估代理表現,聚焦於需傳遞關鍵中間狀態方能完成的任務;該基準通過強化步驟間因果依賴關係,使稀疏但關鍵的中間狀態成為下游行動的決勝點,並將互動記憶置於評估核心。在開源與閉源 GUI 代理的測試中,我們觀察到一致規律:隨著互動序列增長,效能下降主要源自任務內記憶失效,而非孤立感知錯誤或局部操作失誤。基於此診斷,我們提出錨定狀態記憶法,將互動序列表示為因果連結的中間狀態錨點集合,實現子目標導向檢索與歸因感知決策。在多重設定與 12 款 GUI 代理的測試中,ASM 始終優於完整序列重放與摘要式基準方法,任務完成率提升 5%-30.16%,錨定記憶分數提升 4.93%-24.66%,證明結構化錨定記憶能有效緩解長時程 GUI 任務的互動記憶瓶頸。程式碼、基準測試及相關資源已公開於 [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem)。
本文提出一項新任務「基於說話者語句的反應式聆聽者動作生成」,旨在生成能對說話者語句作出恰當回應的自然聆聽者身體動作。然而,由於人類反應本質上具有非確定性,對此類非語言聆聽行為的建模仍處於探索不足且具挑戰性的階段。為推動此任務,我們提出ReactMotionNet大規模數據集,該數據集將說話者語句與多個標註了不同適宜程度的候選聆聽者動作配對。此數據集設計明確捕捉了聆聽行為的一對多特性,並提供超越單一真實動作的監督信號。基於此數據集設計,我們開發了面向偏好的評估方案,專門用於評估反應適宜性——這正是傳統側重輸入-動作對齊的動作指標所忽略的維度。我們進一步提出ReactMotion生成框架,該統一框架能聯合建模文本、音頻、情感與動作,並通過基於偏好的目標函數進行訓練,以激發既適宜又具多樣性的聆聽者反應。大量實驗表明,ReactMotion在生成更自然、多樣且適宜的聆聽者動作方面,優於檢索基線與級聯式LLM流程。
近期研究将多模态大语言模型(MLLMs)的应用从标准视觉问答扩展到利用外部工具处理高级视觉任务。尽管取得进展,但精确执行并有效组合多样化工具以完成复杂任务仍是持续存在的瓶颈。受限于稀疏的工具集和简单的工具使用轨迹,现有基准测试无法捕捉复杂多样的工具交互,难以评估模型在实际应用场景下的表现。为弥补这一差距,我们推出VisualToolChain-Bench(VTC-Bench)——一个用于评估MLLMs工具使用能力的综合基准测试平台。为贴合实际计算机视觉流程,该框架集成32种基于OpenCV的多样化视觉操作。丰富的工具集支持广泛组合,使VTC-Bench能严格评估多工具组合能力及长周期多步骤规划执行效果。我们精心构建了包含680个问题的测试集,这些问题按九级认知层次分类,并配有真实执行轨迹作为标准答案。对19个主流MLLMs的大规模实验揭示了当前模型在视觉智能体能力上的显著局限:模型难以适应多样化工具集并对未见过操作实现泛化,领先模型Gemini-3.0-Pro在本基准中仅达到51%准确率;多工具组合仍是持续挑战,面对复杂任务时模型难以制定高效执行计划,过度依赖熟悉功能的狭窄子集而非选择最优工具。通过揭示这些根本性挑战,VTC-Bench为开发更具泛化能力的视觉智能体模型建立了严谨的评估基线。
儘管多模態大型語言模型(MLLMs)在解讀自然場景方面取得了顯著成就,但其處理離散符號——人類認知的基本單元——的能力仍是亟待解決的關鍵問題。與連續的視覺數據不同,數學公式、化學結構和語言字符等符號需要精確且更深層次的解讀。本文提出一個綜合性基準測試,用於評估頂級MLLMs在語言、文化、數學、物理和化學五大領域中駕馭這些「離散語義空間」的能力。我們的研究揭示了一個反直覺的現象:模型常無法完成基礎符號識別,卻能勝任複雜推理任務,這表明其依賴的是語言概率而非真正的視覺感知。通過揭露這種「認知錯配」,我們凸顯了當前人工智慧能力的重大缺陷:難以真正感知和理解支撐科學發現與抽象思維的符號語言。本研究為開發更嚴謹、符合人類認知的智能系統提供了路線圖。
视频目标移除技术旨在消除动态目标物体及其视觉效应(如形变、阴影和反射),同时还原无缝背景。当前基于扩散模型的视频修复与目标移除方法虽能去除目标物体,却常难以清除这些视觉效应并生成连贯背景。除方法局限外,该领域进展还受制于缺乏系统记录不同环境下常见物体效应的综合性数据集。为此,我们推出VOR数据集——一个提供多样化配对视频的大规模数据集,每组包含目标物体带有效应的原始视频、无目标物体及效应的对应视频,以及相应物体掩码。VOR包含6万对来自实拍与合成源的高质量视频对,涵盖五种效应类型,涉及广泛物体类别及复杂的动态多目标场景。基于VOR数据集,我们提出EffectErase方法,这种效应感知的视频目标移除技术通过互逆学习框架将视频物体插入作为逆向辅助任务。该模型包含任务感知区域引导机制,可聚焦受影响区域的学习并实现灵活的任务切换,同时采用插入-移除一致性目标来促进互补行为及效应区域与结构线索的共享定位。经VOR训练后,EffectErase在大量实验中展现出卓越性能,能在多样场景下实现高质量的视频物体效应消除。
视觉语言模型(VLMs)已被证明存在视觉盲区,即使在需要视觉推理的任务中,也常常未能充分利用其视觉输入。本研究揭示了VLMs具有选择性视觉盲区的特性:即使在不同语言框架要求相同视觉推理的情况下,它们也会根据语言表述方式调节对视觉输入的关注程度。通过以视觉注意力为探测工具,我们量化了表述框架如何改变对图像关注的程度和分布。与开放式框架相比,约束性框架(如多选题和是非题)会显著降低对图像上下文的关注度,削弱对任务相关区域的聚焦,并将注意力转向无意义的标记。我们进一步证明这种注意力错配是导致准确率下降和跨框架不一致性的主要原因。基于这一机制性发现,我们提出一种轻量级提示调优方法,通过可学习标记词激发开放式场景中观察到的鲁棒性视觉注意力模式,从而增强视觉基础能力并提升跨框架性能。
同步語音到語音翻譯(SimulS2S)對於實現即時多語言溝通至關重要,正日益廣泛地整合至會議與串流平台中。儘管如此,SimulS2S在學術研究中仍屬探索不足的領域,現有解決方案往往依賴資源密集的訓練流程,且僅能處理預先分割的短語句,無法泛化應用於連續語音。為彌合此差距,我們提出首個免訓練的長格式SimulS2S策略SimulU。該方法採用歷史管理與語音輸出選擇策略,透過利用預訓練端到端模型中的交叉注意力機制,同步調控輸入歷史與輸出生成。在MuST-C資料集涵蓋的8種語言測試表明,SimulU相較於強基準級聯模型,能實現更優或相當的質量-延遲平衡。由於無需專門訓練,SimulU為在真實長場景中實現端到端SimulS2S開闢了可行路徑。
在多轮大语言模型智能体日益成为解决复杂交互任务关键的当下,强化学习(RL)是提升其长程行为表现的核心要素。然而,强化学习训练需要生成大量沙盒化的轨迹推演,而现有基础设施往往将推演编排与训练循环紧耦合,导致系统难以迁移和维护。基于"推演即服务"理念,我们推出ProRL智能体——一个通过API服务提供完整智能体推演生命周期的可扩展基础设施。该平台还提供标准化、可扩展的沙盒环境,支持在无根高性能计算场景下执行多样化智能体任务。我们通过在软件工程、数学、STEM及编程任务上的强化学习训练验证了ProRL智能体的效能。该系统已开源并集成至英伟达NeMo训练平台。
多模态大语言模型(MLLM)在视觉与语言连接方面取得了显著进展,但在空间理解和视角感知推理方面仍存在不足。当前研究主要致力于通过几何线索增强输入表征,而非直接教导模型进行三维空间推理。我们提出Loc3R-VLM框架,该框架通过单目视频输入赋予二维视觉语言模型先进的三维理解能力。受人类空间认知机制启发,Loc3R-VLM采用两个联合目标:通过全局布局重建构建场景结构的整体表征,利用显式情境建模锚定自我中心视角。这些目标通过将感知与语言共同置于三维语境中,提供了直接的空间监督。为确保几何一致性和度量尺度对齐,我们采用从预训练三维基础模型中提取的轻量级相机位姿先验。Loc3R-VLM在基于语言的定位任务中达到最先进性能,并在情境化及通用三维问答基准测试中超越现有基于二维和视频的方法,证明我们的空间监督框架能实现强大的三维理解能力。项目页面:https://kevinqu7.github.io/loc3r-vlm
调节重要性比率对于基于群组相对策略优化(GRPO)框架的训练稳定性至关重要。然而,主流比率控制方法(如硬截断)存在不可微边界和梯度消失区域,难以维持梯度保真度。此外,这些方法缺乏危险感知机制来自适应抑制极端偏差,导致优化过程易受策略突变影响。为解决这些挑战,我们提出调制式危险感知策略优化(MHPO),这一新型框架专为实现鲁棒稳定的强化学习而设计。该框架通过引入对数保真调制器(LFM),将无界重要性比率映射至有界可微空间,有效防止高方差异常标记破坏损失景观的稳定性,同时确保全局梯度稳定。与之互补的解耦危险惩罚(DHP)机制整合生存分析中的累积危险函数,可独立调控正负双向策略偏移。通过危险感知惩罚对优化景观进行塑形,MHPO实现了非对称策略偏移的细粒度调控,既能缓解过度扩展导致的模式崩溃,又可防止灾难性收缩引发的策略退化,从而在稳定信任域内实现协同优化。在涵盖文本与视觉语言任务的多样化推理基准测试中,广泛实验表明MHPO持续优于现有方法,在显著提升训练稳定性的同时获得更优性能。
本技术报告介绍了MOSS-TTS语音生成基础模型,该模型基于可扩展技术方案构建:离散音频令牌、自回归建模与大规模预训练。依托MOSS-Audio-Tokenizer(一种采用可变比特率RVQ和统一语义-声学表征的因果Transformer分词器,可将24kHz音频压缩至12.5帧/秒),我们发布了两款互补的生成器:强调结构简洁性、可扩展性及长上下文/控制导向部署的MOSS-TTS,以及引入帧局部自回归模块以提升建模效率、增强说话人保真度并缩短首音频生成时间的MOSS-TTS-Local-Transformer。在多语言和开放域场景下,MOSS-TTS支持零样本语音克隆、令牌级时长控制、音素/拼音级发音控制、流畅语码切换及稳定长文本生成。本报告详述了所发布模型的设计方案、训练方法及实证特性。
可调节渲染保真度的能力(即细节层次)对于三维高斯泼溅技术的实际部署至关重要。现有离散式LoD方法仅能提供有限的操作点,而并发的连续LoD方法虽能实现更平滑的缩放,但在全容量渲染时往往出现明显质量下降,使得LoD成为代价高昂的设计决策。我们提出套娃式高斯泼溅技术(MGS),该训练框架可在不牺牲全容量渲染质量的前提下,为标准3DGS管线实现连续LoD。MGS通过学得一组有序的高斯分布,使得渲染任意前缀(即前k个泼溅点)都能生成连贯的重建结果,其保真度随预算增加而平滑提升。我们的核心创新在于随机预算训练:每次迭代采样随机泼溅预算,同时优化对应前缀和完整高斯集合。该策略仅需两次前向传播且无需修改网络架构。在四个基准测试和六种基线方法上的实验表明,MGS在保持主干网络全容量性能的同时,可实现单模型内连续的速度-质量权衡。针对排序策略、训练目标和模型容量的广泛消融实验进一步验证了设计有效性。
面向遙感領域的視覺語言模型長期依賴特定領域的圖像-文本監督數據,然而衛星與航空影像的高質量標註依然稀缺且製作成本高昂。主流偽標註流程通過從大型前沿模型提煉知識來彌補這一缺口,但這種對大型教師模型的依賴不僅成本高昂、限制可擴展性,更將模型性能上限鎖定在教師模型水平。我們提出OSMDA:一種自包含的領域適應框架以消除這種依賴。核心思路在於,具備基礎能力的VLM可作為自身的標註引擎——通過將航空影像與OpenStreetMap(OSM)渲染圖塊配對,我們利用模型的光學字符識別與圖表理解能力,生成融合OSM海量輔助元數據的圖像描述。隨後僅使用衛星影像對模型進行微調,最終獲得無需人工標註、無需外部強模型的領域適應型VLM(OSMDA-VLM)。我們在10個圖像-文本到文本任務基準上進行全面評估,並與9個競爭基線模型對比。當與真實數據等量混合時,本方法實現了最優性能,且訓練成本顯著低於依賴教師模型的方案。這些結果表明,在擁有強基礎模型的前提下,與眾包地理數據對接是實現遙感領域適應的實用且可擴展路徑。數據集與模型權重將公開釋出。
精確推導數學對象的能力是下游STEM應用(包括數學、物理和化學)的核心需求,這些領域的推理必須以形式化結構表達作為最終呈現。然而,由於自動化評估的便利性,當前語言模型對數學與科學推理的評估嚴重依賴數值或多選題等簡化答案格式。本文為改進數學對象推理提出三項貢獻:(一)構建並發布用於推導數學對象的訓練數據與基準測試集Principia;(二)提出結合強語言模型評判器與驗證器的訓練方案,實證顯示在線策略評判器訓練能有效提升性能;(三)展示如何通過在線策略訓練實現測試階段計算資源的聚合擴展。我們發現Qwen3-235B和o3等強語言模型在Principia基準上表現欠佳,而我們的訓練方案能在不同LLM骨幹上帶來顯著改進,同時提升現有數值題與多選題任務的表現,證明了推理能力具備跨格式泛化特性。
我们推出MultiTempBench——一个涵盖三项任务的多语言时间推理基准测试集,包含日期运算、时区转换和时序关系抽取,涉及五种语言(英语、德语、中文、阿拉伯语和豪萨语)及多种历法体系(公历、回历和中国农历)。该基准通过翻译750道精编英文试题并扩展为受控日期格式变体,共包含15,000个测试样本。我们评估了20个大语言模型,引入经人工严重度校准的多语言日期碎片化比率(mDFR),并结合对内部时间表征的几何探测分析。研究发现:时间要素的分词质量是资源依赖型瓶颈——在低资源语言和稀有历法格式中,碎片化会破坏年月日信息的分离导致准确率崩溃,而高资源场景对数字级拆分通常具有鲁棒性。超越分词层面,交叉混合效应回归表明:在高资源语言中时间线性是时间推理的最强预测因子,而在低资源语言中碎片化程度才是更强预测指标。代码已开源:https://github.com/gagan3012/mtb
在各类计算机视觉应用中,潜在目标识别对目标识别与分析至关重要。现有方法通常依赖范例图像、预定义类别或文本描述来定位潜在目标,但其对图像和文本提示的依赖性往往限制了灵活性,制约了实际场景中的适应能力。本文提出了一种新颖的无提示通用区域建议网络(PF-RPN),无需外部提示即可识别潜在目标。首先,稀疏图像感知适配器(SIA)模块通过可随视觉特征动态更新的可学习查询嵌入,实现潜在目标的初步定位;其次,级联自提示(CSP)模块利用自提示的可学习嵌入,以级联方式自主聚合信息丰富的视觉特征,识别剩余潜在目标;最后,中心度引导查询选择(CG-QS)模块借助中心度评分网络筛选高质量查询嵌入。该方法仅需少量数据(如MS COCO数据集的5%)即可完成优化,无需微调即可直接应用于水下目标检测、工业缺陷检测、遥感图像目标检测等多类目标检测场景。在19个数据集上的实验结果验证了本方法的有效性。代码已开源:https://github.com/tangqh03/PF-RPN。
我们提出COT-FM这一通用框架,通过重构流匹配(FM)中的概率路径来实现更快速、更可靠的生成。传统FM模型由于采用随机或批量耦合方式,往往产生弯曲的轨迹路径,这会增加离散化误差并降低样本质量。COT-FM通过聚类目标样本,并为每个聚类分配通过逆向预训练FM模型获得的专用源分布,从而有效解决这一问题。这种分治策略在不改变模型架构的前提下,实现了更精确的局部传输和显著平直化的向量场。作为即插即用方案,COT-FM在二维数据集、图像生成基准测试以及机器人操作任务中,持续加速采样过程并提升生成质量。
大型语言模型(LLMs)在高资源语言对的机器翻译任务中展现出卓越能力,但在低资源翻译方面的表现仍显不足。现有后训练方法高度依赖高质量平行语料,而这类数据对于低资源语言往往稀缺甚至缺失。本文提出WALAR——一种仅需单语文本即可增强LLMs低资源语言翻译能力的强化训练方法,同时保持其在高资源语言上的性能。我们的核心洞见源于对现有基于源语的多语言质量评估(QE)模型失效模式(或称“漏洞”)的观察:使用这些QE模型进行强化学习(RL)会放大此类漏洞,导致多语言LLMs性能下降。我们开发了词对齐和语言对齐等技术,以消除WALAR强化学习奖励机制中的漏洞。通过WALAR对支持101种语言翻译的LLM进行持续训练,实验表明新模型在Flores-101数据集的1400个语言方向上大幅超越当前最强开源多语言LLM之一LLaMAX。
理解并生成具有可解释部件结构的3维物体是人类感知与推理的基础能力。然而多数文本生成3D方法忽视了部件的语义与功能结构。尽管近期部分感知方法引入了分解机制,但仍主要聚焦几何特征,缺乏语义基础,未能建模部件如何与文本描述对齐及其相互关系。我们提出DreamPartGen框架,实现基于语义的部件感知文本生成3D。该框架创新性地引入双通道部件潜变量(DPL)联合建模各部件几何形态与外观特征,并通过关系语义潜变量(RSL)捕捉语言驱动的部件间依赖关系。通过同步协同去噪过程强化几何与语义的互一致性,最终实现连贯、可解释且文本对齐的3D合成。在多项基准测试中,DreamPartGen在几何保真度与文本-形状对齐方面均达到最先进性能。
在工业检测领域,由于视觉外观变化(如背景干扰、光照偏移和模糊)的影响,逻辑异常检测仍面临挑战。这些干扰因素往往会使视觉中心型检测器难以识别规则层面的违规行为。然而,现有基准数据集很少提供可控环境,即在保持逻辑状态不变的前提下系统调整干扰因素。为弥补这一空白,我们推出VID-AD数据集——专为视觉干扰下的逻辑异常检测而设计。该数据集包含10个制造场景和5种采集条件,共形成50个单分类任务及10,395张图像。每个场景通过从数量、长度、类型、位置和关系中选取的两项逻辑约束进行定义,异常类型包括单约束违反和组合约束违反。我们进一步提出基于语言的异常检测框架,该框架仅利用正常图像生成的文本描述进行训练。通过对比学习策略,结合正常文本描述与基于矛盾关系合成的负样本文本,我们的方法能学习到捕捉逻辑属性而非底层特征的嵌入表示。大量实验表明,该方法在所有评估设置中均较基线模型取得稳定提升。数据集地址:https://github.com/nkthiroto/VID-AD。
波斯语因其古典诗歌、传统音乐和普遍存在的语码转换现象,在音频理解领域带来独特挑战——现有基准测试均未涵盖这些特性。我们推出PARSA-Bench(波斯音频推理与语音评估基准),这是首个针对波斯语言文化的大规模音频语言模型评估基准,包含16项任务逾8000个样本,涵盖语音理解、副语言分析和文化音频理解三大维度。其中十项任务为全新引入,包括诗歌格律与风格识别、传统波斯音乐理解及语码转换检测等。纯文本基线模型在所有任务中均优于音频模型,表明现有模型可能未能有效利用超越文本转录的音频特征。文化相关任务暴露出质的差异:所有模型在诗歌格律检测任务中的表现接近随机猜测,且不随模型规模扩大而改善,暗示当前模型尚未掌握韵律感知能力。数据集已公开于https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench。