每日精選AI研究論文及翻譯
多智能體系統(MAS)將大型語言模型(LLMs)從獨立的單模型推理擴展至協作式的系統級智能。現有LLM智能體依賴基於文本的介導進行推理與通信,我們更進一步實現模型在連續潛空間內的直接協作。本文提出LatentMAS——一種免訓練的端到端框架,實現LLM智能體間的純潛在協作。在LatentMAS中,每個智能體首先透過最後一層隱藏嵌入進行自迴歸潛在思維生成,隨後由共享潛在工作記憶保存並傳遞各智能體的內部表徵,確保無損信息交換。理論分析表明,相較傳統基於文本的MAS,LatentMAS能以顯著更低的複雜度實現更高表達力與無損信息保留。此外,在涵蓋數學科學推理、常識理解與代碼生成的9個綜合基準測試中,LatentMAS持續優化強力單模型及文本型MAS基線:準確率最高提升14.6%,輸出標記使用量減少70.8%-83.7%,端到端推理速度提升4-4.3倍。這些結果證明我們的新型潛在協作框架在提升系統級推理質量的同時,無需額外訓練即可實現顯著效率增益。代碼與數據已於https://github.com/Gen-Verse/LatentMAS 全面開源。
多模态大语言模型(MLLMs)当前处于研究关注的核心位置,其规模与能力虽呈现快速发展,但对其智能水平、局限性和风险的理解仍显不足。针对这些问题,特别是在尚无多模态基准测试的俄语语境下,我们推出了Mera Multi——一个面向俄语架构的开放式多模态评估框架。该基准采用基于指令的设计,涵盖默认的文本、图像、音频和视频模态,包含18项全新构建的评估任务,既面向通用模型也适用于特定模态架构(图像到文本、视频到文本及音频到文本)。我们的贡献包括:(i)建立多模态能力的统一分类体系;(ii)完全从零构建的18个数据集,重点关注俄语文化语言特性、统一提示词及评估指标;(iii)闭源与开源模型的基线结果;(iv)包含水印技术和私有集许可的基准泄露防范方法。尽管当前聚焦俄语,但所提出的基准为在类型学多样语言(尤其是斯拉夫语系)中构建多模态基准提供了可复现的方法论。
世界模型作為智能體人工智慧、具身人工智慧及遊戲等領域的核心模擬器,能夠生成具備物理真實性、可互動的長時高品質影片。更重要的是,通過擴展這些模型,有望在視覺感知、理解與推理方面湧現新能力,從而開創超越當前以大型語言模型為中心的視覺基礎模型新範式。實現這一突破的關鍵在於半自回歸(區塊擴散)解碼範式,它融合了擴散方法與自回歸方法的優勢:通過在每個區塊內應用擴散生成影片標記,同時以先前區塊為條件進行約束,最終產生更連貫穩定的影片序列。該範式的核心突破在於重新引入類大型語言模型的KV快取管理機制,克服了標準影片擴散模型的限制,實現高效、可變長度且高品質的生成能力。 為此,Inferix被專門設計為新一代推理引擎,通過優化的半自回歸解碼流程實現沉浸式世界合成。這種對世界模擬的專注定位,使其有別於面向高併發場景的系統(如vLLM或SGLang),也不同於傳統影片擴散模型(如xDiTs)。Inferix進一步結合互動式影片串流與效能分析功能,支援即時互動與真實模擬,精準刻畫世界動態。此外,透過無縫整合LV-Bench——專為分鐘級影片生成場景設計的新型細粒度評估基準,系統可實現高效能基準測試。我們期待學界攜手推進Inferix發展,共同拓展世界模型的研究邊界。
同步視聽內容的合成是生成式AI領域的關鍵挑戰,開源模型在實現穩健的視聽對齊方面面臨諸多難題。我們的分析表明,該問題根源於聯合擴散過程的三個根本性挑戰:(1)對應漂移問題:同步演化的噪聲潛在表徵阻礙了對齊關係的穩定學習;(2)低效的全局注意力機制:難以捕捉細粒度時間線索;(3)傳統無分類器引導(CFG)的模內偏差:雖能增強條件控制,卻無法改善跨模態同步。為解決這些挑戰,我們提出Harmony框架,通過機制化設計強制實現視聽同步。首先提出跨任務協同訓練範式,利用音頻驅動視頻生成與視頻驅動音頻生成的強監督信號抑制漂移現象;其次設計全局-局部解耦交互模塊,實現高效精準的時序風格對齊;最後創新性提出同步增強型CFG(SyncCFG),在推理階段顯式分離並放大對齊信號。大量實驗表明,Harmony在生成保真度與細粒度視聽同步方面均顯著超越現有方法,確立了新一代技術標杆。
我們推出 Nemotron-Parse-1.1,這款輕量級文件解析與OCR模型在其前身 Nemoretriever-Parse-1.0 的基礎上實現了能力升級。該模型在通用OCR、Markdown格式解析、結構化表格解析,以及從圖片、圖表與圖示中提取文字等方面均有所提升,並支援更長的輸出序列長度以處理視覺密集型文件。承襲前代特性,它能提取文字區塊的邊界框及對應語義類別。Nemotron-Parse-1.1採用編碼器-解碼器架構,參數量達8.85億,其中包含精簡的2.56億參數語言解碼器。在公開基準測試中展現極具競爭力的準確度,成為強大的輕量級OCR解決方案。我們已於Huggingface平台公開發布模型權重、優化的NIM容器,並隨Nemotron-VLM-v2數據集釋出部分訓練資料。同時推出視覺標記長度縮減的Nemotron-Parse-1.1-TC版本,在幾乎不影響品質的前提下實現20%的速率提升。
統一多模態模型(UMMs)憑藉單一架構在理解與生成任務上均展現出卓越性能。然而,此類模型仍存在根本性不一致問題:理解任務偏好緊湊的嵌入表徵,而生成任務則需依賴重建豐富的表示。這種結構性權衡會導致決策邊界失準、跨模態連貫性下降,並加劇模型在分佈偏移與對抗性攻擊下的脆弱性。本文提出UniGame——一種直接針對此不一致性的自對抗式後訓練框架。通過在共享令牌接口施加輕量級擾動器,該框架使生成分支能主動搜尋並挑戰脆弱的理解表徵,從而讓模型自身成為其對抗者。實驗表明,UniGame顯著提升模型一致性(+4.6%),同時在理解任務(+3.6%)、生成質量(+0.02)以及分佈外泛化性與對抗魯棒性(在NaturalBench和AdVQA數據集上分別提升+4.8%和+6.2%)方面實現顯著進步。該框架具架構無關性,僅增加不足1%的參數量,並可與現有後訓練方法互補。這些成果確立了對抗自博弈作為增強未來多模態基礎模型連貫性、穩定性與統一能力的通用有效準則。官方代碼已發佈於:https://github.com/AIFrontierLab/UniGame
我們探討大型語言模型(LLM)在不同任務難度間的泛化能力,此議題對有效資料策劃與評估至關重要。現有研究對於「使用簡單或困難資料訓練能獲得更好結果」以及「成效提升體現於簡單或困難測試資料」尚無定論。為此,我們透過系統化評估LLM在模型、資料集及細粒度難度分組間的泛化表現來解答此問題。我們運用數千種不同LLM的輸出結果與教育測驗中成熟的難度指標——項目反應理論(IRT),對六個資料集中的範例進行難度分級。有別於過往研究,我們的難度評定完全基於多種LLM的自身能力,排除人類對難度的主觀判斷。透過更客觀、大規模且細粒度的分析,我們發現跨難度泛化能力往往有限:僅使用簡單或困難資料進行訓練,無法在整體難度範圍內實現一致性的效能提升。此結果表明,在LLM的訓練與評估資料中納入多樣化難度範例至關重要,且試圖在難度維度上投機取巧具有風險。
「圖像思維」已成為推進視覺推理的有效範式,通過在推理過程中注入視覺證據,突破了純文本思維鏈的局限性。然而現有方法因受制於外部工具,其靈活性存在根本局限,難以實現類人的抽象視覺思維。本研究提出Monet訓練框架,使多模態大語言模型能夠通過生成連續嵌入作為中間視覺思維,直接在潛在視覺空間進行推理。我們發現訓練MLLMs進行潛在視覺推理存在兩大核心挑戰:潛在視覺對齊的高計算成本與潛在嵌入監督不足,為此設計了基於三階段蒸餾的監督微調流程。我們進一步揭示GRPO應用於潛在推理的局限:其主要增強文本推理而非潛在推理。為此提出VLPO(視覺潛在策略優化),這種強化學習方法將潛在嵌入明確納入策略梯度更新。為支持SFT,我們構建了Monet-SFT-125K數據集——包含12.5萬條真實世界圖表、OCR和幾何思維鏈的高質量圖文交錯CoT數據。我們的Monet-7B模型在真實世界感知與推理基準測試中持續提升,並在挑戰性抽象視覺推理任務上展現出強大的分佈外泛化能力。我們通過實證分析各訓練組件的作用,並討論早期失敗嘗試,為視覺潛在推理的未來發展提供見解。模型、數據及代碼已開源於:https://github.com/NOVAglow646/Monet。
我們提出終端速度匹配(TVM),這是一種流匹配的泛化方法,能夠實現高保真度的單步與少步生成建模。TVM 模擬任意兩個擴散時間步之間的轉變,並在其終端時間而非初始時間規範其行為。我們證明當模型滿足 Lipschitz 連續性時,TVM 能為數據分布與模型分布之間的 2-Wasserstein 距離提供上界。然而由於擴散變壓器缺乏此性質,我們引入最小限度的架構調整以實現穩定的單階段訓練。為提升 TVM 的實用效率,我們開發了融合注意力核心,支援對雅可比-向量乘積的反向傳播,此設計能與變壓器架構良好擴展。在 ImageNet-256x256 任務上,TVM 以單次函數評估(NFE)達成 3.29 FID,4 次 NFE 達成 1.99 FID;在 ImageNet-512x512 上則分別實現 4.32(1-NFE)與 2.94(4-NFE)的 FID 成績,代表了從零開始訓練的單步/少步模型中最先進的性能表現。
視覺語言模型在空間智能方面仍缺乏穩健性,在空間理解與推理任務上表現欠佳。我們認為此差距源於缺乏能從二維圖像重建三維空間的視覺幾何學習過程。本文提出G^2VLM——一個基於幾何建構的視覺語言模型,其橋接了空間智能的兩個核心維度:三維空間重建與空間理解。G^2VLM原生利用學習得到的三維視覺幾何特徵,既能直接預測三維屬性,也可透過情境學習與交錯推理增強空間推理任務。我們的統一架構具備高度可擴展的空間理解能力:既能基於海量多視角圖像與影片數據進行訓練,同時受益於通常僅能透過難以採集的標註數據獲取的三維視覺先驗知識。實驗結果表明,G^2VLM在雙重任務中均表現卓越:在三維重建任務上達到與現有前饋式頂尖模型相當的效果,在空間理解與推理任務中則取得更優或具競爭力的成績。通過將語義能力強大的視覺語言模型與底層三維視覺任務相融合,我們期望G^2VLM能成為該領域的強力基準,並開啟更多未來應用(如三維場景編輯)。
區塊因果視頻生成面臨嚴峻的速度-質量權衡:13億參數的小型模型僅能實現16 FPS,而140億參數的大型模型更是低至4.5 FPS,迫使用戶在響應速度與生成質量之間抉擇。區塊級聯技術通過免訓練的並行化方案顯著緩解了這一矛盾。我們的核心發現是:後續視頻區塊的生成無需等待前置區塊完全去噪。通過利用部分去噪的上下文信息啟動區塊生成,我們將序列化流程轉變為多區塊同步去噪的並行級聯架構。在5張GPU的時域並行優化下,所有模型規模均實現約2倍加速:13億模型從16 FPS提升至30 FPS,140億模型從4.5 FPS躍升至12.5 FPS。除推理速度提升外,區塊級聯還消除了交互生成中上下文切換時約200毫秒的KV緩存重計算開銷。針對多種區塊因果流程的廣泛評估表明,從區塊因果切換至區塊級聯推理時,生成質量未出現顯著損失。項目頁面:https://hmrishavbandy.github.io/block_cascading_page/
将自然语言指令具身化为四足机器人的连续控制任务,始终是视觉-语言-动作领域的核心挑战。现有方法难以弥合高层语义推理与底层动作执行之间的鸿沟,导致现实场景中的任务落地不稳定且泛化能力薄弱。为此,我们提出MobileVLA-R1——一个支持四足机器人显式推理与连续控制的统一视觉-语言-动作框架。通过构建包含多粒度思维链的具身轨迹数据集MobileVLA-CoT,我们为对齐任务提供了结构化推理监督。基于此,我们引入结合监督式思维链对齐与GRPO强化学习的双阶段训练范式,以增强推理一致性、控制稳定性及长周期任务执行能力。在VLN和VLA任务上的大量实验表明,本方法相较基线模型实现约5%的性能提升。四足机器人的实体部署进一步验证了其在复杂环境中的鲁棒性。代码:https://github.com/AIGeeksGroup/MobileVLA-R1 项目页面:https://aigeeksgroup.github.io/MobileVLA-R1
时间步蒸馏是提升扩散模型生成效率的有效方法。一致性模型(CM)作为基于轨迹的框架,凭借其坚实的理论基础和高质量少步生成能力展现出显著潜力。然而,当前连续时间一致性蒸馏方法仍高度依赖训练数据和计算资源,这既阻碍了其在资源受限场景的部署,也限制了向多领域扩展的可行性。为解决该问题,我们提出轨迹反向一致性模型(TBCM),通过直接从教师模型生成轨迹中提取潜在表征,消除了对外部训练数据的依赖。与需要VAE编码和大规模数据集的传统方法不同,这种自包含的蒸馏范式显著提升了效率与简洁性。此外,轨迹提取的样本天然弥合了训练与推理间的分布差距,从而实现更有效的知识迁移。实验表明,TBCM在MJHQ-30k数据集上单步生成即可达到6.52 FID和28.08 CLIP分数,同时相较Sana-Sprint减少约40%训练时间并节省大量GPU内存,在保持质量的同时展现出卓越效率。我们进一步揭示了连续时间一致性蒸馏中的扩散-生成空间差异,并分析采样策略对蒸馏性能的影响,为未来蒸馏研究提供洞见。GitHub项目地址:https://github.com/hustvl/TBCM。
視覺-語言-動作(VLA)策略在協調語言、感知與機器人控制方面表現卓越。然而現有VLA模型大多僅通過模仿學習進行訓練,容易對演示數據過擬合,且在分佈偏移時表現脆弱。強化學習(RL)通過直接優化任務獎勵來解決此類對齊偏差,但真實機器人交互成本高昂,傳統模擬器又難以構建與遷移。我們通過學習型世界模型與專為基於流的動作頭設計的RL流程,同步提升VLA後訓練的數據效率與優化穩定性。具體而言,我們提出Prophet——一種在跨大規模異構機器人數據上預訓練的統一動作到視頻驅動框架,可學習可復用的動作-結果動力學。該框架能通過少量樣本快速適應新機器人、物體及環境,生成可直接用於推演的模擬器。基於Prophet,我們結合Flow-action-GRPO(FA-GRPO)與FlowScale強化動作策略:前者將Flow-GRPO適配至VLA動作空間,後者通過逐步重加權機制調整流動作頭的逐步梯度。Prophet、FA-GRPO與FlowScale共同構成ProphRL,為VLA後訓練提供實用且計算高效的解決路徑。實驗表明,該方法在公開基準上實現5-17%的成功率提升,在不同VLA變體的實體機器人測試中更獲得24-30%的性能增益。
视觉基础模型(VFMs)提取的空间降采样表征为像素级任务带来了挑战。现有上采样方法面临根本性权衡:经典滤波器速度快、适用性广但依赖固定形式,而现代上采样器通过可学习的VFM专用形式实现了更高精度,但需为每个VFM重新训练。我们提出邻域注意力滤波(NAF),通过跨尺度邻域注意力和旋转位置编码(RoPE)学习自适应空间-内容权重,仅以高分辨率输入图像为引导,成功弥合了这一差距。NAF具备零样本操作能力:无需重新训练即可对任意VFM的特征进行上采样,成为首个超越VFM专用上采样器、在多项下游任务中实现最先进性能的VFM无关架构。该方法保持高效性,可扩展至2K特征图,并以18 FPS速度重建中间分辨率图谱。除特征上采样外,NAF在图像复原任务中也展现出强大性能,体现了其多功能性。代码与检查点已开源:https://github.com/valeoai/NAF。
我们推出Sphinx——一个面向视觉感知与推理核心认知基元的合成环境。该系统通过程序化生成包含图案、拼贴、图表、图标及几何基元的谜题,每个谜题均配备可验证的基准答案,既能实现精准评估又可支持大规模数据集构建。该基准测试涵盖对称检测、几何变换、空间推理、图表解读和序列预测等25类任务。对近期大视觉语言模型(LVLM)的评估表明,即便是最先进的GPT-5模型准确率也仅为51.1%,远低于人类表现。最后我们验证了带可验证奖励的强化学习(RLVR)能显著提升模型在这些任务上的准确率,并在外部视觉推理基准测试中取得增益,彰显了该方法推动多模态推理发展的潜力。
基於人類回饋的強化學習(RLHF)被廣泛用於對齊大型語言模型,但實踐者始終面臨一個難題:提升安全性往往會削弱公平性,擴展至多元群體時會面臨計算不可行性,而增強系統魯棒性又會放大主流群體偏見。我們將這種矛盾形式化定義為「對齊三元悖論」:任何RLHF系統都無法同時實現(i)對多元人類價值觀的ε-代表性,(ii)樣本與計算複雜度的多項式可處理性,以及(iii)針對對抗性擾動與分佈偏移的δ-魯棒性。通過融合統計學習理論與魯棒優化的複雜度理論分析,我們證明要實現全球尺度人群的代表性(ε≤0.01)與魯棒性(δ≤0.001),需要Ω(2^{d_context})量級的運算量,其隨上下文維度呈超多項式增長。研究顯示當前RLHF實踐通過犧牲代表性來化解此悖論:僅從同質化標註群體採集10^3–10^4份樣本,而真實全球代表性需要10^7–10^8份樣本。我們的框架為RLHF現有缺陷(包括偏好坍塌、諂媚效應及系統性偏見放大)提供了統一解釋。最後提出通過策略性放寬對齊要求來應對這些根本性權衡的具體路徑。
城市级三维生成对于具身智能与世界模型的发展至关重要。然而现有方法在三维世界生成的质量、真实感与可扩展性方面面临重大挑战。为此,我们提出RAISECity——一种能够创建精细城市级三维世界的现实对齐智能合成引擎。我们引入了一种智能体框架,通过调用多模态基础工具获取现实世界知识、维持鲁棒的中间表征并构建复杂三维场景。该智能体设计具备动态数据处理、迭代式自反思优化以及高级多模态工具调用能力,能有效减少误差累积并提升整体性能。大量定量实验与定性分析表明,RAISECity在现实对齐度、形状精度、纹理保真度及美学水准方面均表现优异,在整体感知质量评估中以超过90%的胜率领先现有基线方法。这种兼具三维质量、现实对齐性、可扩展性以及与计算机图形管线无缝兼容的特点,使RAISECity成为沉浸式媒体、具身智能和世界模型应用的理想基础平台。
精确预测剩余使用寿命(RUL)的关键在于健康指标(HI)的质量,然而现有方法往往难以解析多传感器系统中的复杂退化机制,也无法量化健康指标可靠性的不确定性。本文提出了一种创新的健康指标构建框架,具有三大核心贡献:首先,我们首次将投影路径重构(RaPP)方法改造为适用于RUL预测的健康指标,证明其性能优于传统重构误差度量;其次,通过蒙特卡洛丢弃法和概率潜空间实现认知不确定性与偶然不确定性的量化,显著增强了RaPP衍生健康指标的RUL预测鲁棒性;第三也是最重要的,我们提出指标组新范式——通过分离传感器子集来建模系统特定退化机制,由此诞生了创新方法I-GLIDE,可实现可解释的机制特异性诊断。在航空航天与制造系统数据上的测试表明,相较于最先进的健康指标方法,我们的方案在预测精度与泛化能力上均取得显著提升,同时为系统失效路径提供了可操作的洞见。这项研究弥合了异常检测与预后预测之间的鸿沟,为复杂系统的不确定性感知退化建模提供了理论框架。
尽管三维高斯泼溅(3DGS)在多数配置中表现卓越,但在稀疏观测数据的少样本场景下,由于对稀疏观测的过拟合,其在新视角下的泛化能力不足。我们从机器学习视角重新审视3DGS的优化过程,将新视角合成问题定义为对未见过视角的泛化问题——这一研究方向尚未被充分探索。我们提出频率自适应锐度正则化(FASR),通过重构3DGS的训练目标函数,引导3DGS收敛至具有更优泛化能力的解。虽然锐度感知最小化(SAM)方法同样通过降低损失景观的锐度来提升分类模型的泛化能力,但由于任务差异,直接将其应用于3DGS会产生次优结果。具体而言,过强的正则化会阻碍高频细节重建,而减弱正则化强度又会导致锐度惩罚不足。为此,我们通过反映图像的局部频率特性来设定正则化权重及估计局部锐度时的邻域半径。该方法既能有效避免新视角下的漂浮伪影,又能重建SAM容易过度平滑的精细细节。在多种配置的数据集上,我们的方法持续提升了各类基线的性能。代码将在https://bbangsik13.github.io/FASR发布。