每日精選AI研究論文及翻譯
影片基礎模型能生成視覺逼真且時序連貫的內容,但其作為世界模擬器的可靠性取決於是否捕捉到物理、邏輯與空間約束。現有指標如弗雷歇影片距離(FVD)側重感知品質,卻忽略了推理失效問題,包括違反因果律、物理法則與全局一致性。我們提出MMGR(多模態生成式推理評估與基準框架),這是一個基於五項推理能力的原則性評估框架:物理推理、邏輯推理、3D空間推理、2D空間推理與時序推理。MMGR在三個領域評估生成式推理能力:抽象推理(ARC-AGI、數獨)、具身導航(真實世界3D導航與定位)及物理常識(運動與組合互動)。MMGR採用細粒度指標,要求影片與圖像生成均需達成整體正確性。我們對主流影片模型(Veo-3、Sora-2、Wan-2.2)與圖像模型(Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image)進行基準測試,發現各領域存在明顯性能差距。模型在物理常識任務中表現尚可,但在抽象推理領域表現不佳(ARC-AGI準確率低於10%),並於具身環境中的長程空間規劃任務中遭遇困難。我們的分析揭示當前模型關鍵局限:過度依賴感知數據、全局狀態一致性薄弱,以及目標函數偏重視覺合理性而非因果正確性。MMGR提供統一的診斷基準,為構建具備推理意識的生成式世界模型指明方向。
本文提出WorldPlay——一款能夠實現即時互動式世界建模的串流視訊擴散模型,該模型透過長期幾何一致性解決了現有方法在速度與記憶體間的權衡難題。WorldPlay的優勢源自三大創新:1)採用雙重動作表徵技術,使模型能根據用戶鍵鼠輸入實現強健的動作控制;2)透過重構上下文記憶機制動態重建歷史影格上下文,並利用時序重構技術保持幾何關鍵影格的可訪問性,有效緩解記憶衰減問題;3)提出專為記憶感知模型設計的新型蒸餾方法「上下文強制對齊」,通過保持師生模型間的記憶上下文一致性,在實現即時生成速度的同時維持長程資訊利用能力,防止誤差漂移。綜合這些技術,WorldPlay能以24 FPS生成720p長序列串流影片,在一致性方面優於現有技術,並展現出跨場景的強泛化能力。項目頁面與線上演示見:https://3d-models.hunyuan.tencent.com/world/ 與 https://3d.hunyuan.tencent.com/sceneTo3D。
近期影片生成技術的突破已能產出與真實影片難以區分的生動內容,使得AI生成影片檢測成為新興的社會挑戰。現有AIGC檢測基準多數僅評估無聲影片、針對寬泛的敘事領域,且側重於分類任務。然而,頂尖影片生成模型能否創造出足以欺騙人類與視覺語言模型的沉浸式音畫同步影片,仍是未解之謎。為此,我們提出「影片真實性測試」——一套基於ASMR來源的影片基準套件,用於在緊密音視覺耦合下測試感知真實性,其特色包含:(一)沉浸式ASMR音畫來源:以精心篩選的真實ASMR影片為基礎,針對細粒度動作-物件互動進行設計,涵蓋多元的物件、動作與背景;(二)同儕審查機制:採用對抗性創作者-審查者協議,影片生成模型作為試圖誤導審查者的創作者,而視覺語言模型則擔任識別偽造內容的審查者。實驗結果顯示:最佳創作者Veo3.1-Fast甚至能欺騙多數視覺語言模型——最強審查者(Gemini 2.5-Pro)僅達56%準確率(隨機基準為50%),遠低於人類專家表現(81.25%)。添加音頻雖有助於真假判別,但浮水印等表面線索仍會嚴重誤導模型。這些發現劃定了當前影片生成真實性的邊界,並揭露視覺語言模型在感知逼真度與音視覺一致性方面的局限。程式碼已開源於:https://github.com/video-reality-test/video-reality-test。
大型語言模型(LLM)的快速發展取決於訓練後數據集的質量與多樣性。然而,一個關鍵的二元困境始終存在:儘管模型經過嚴格的基準測試,但驅動模型的數據卻如同黑箱——其構成模糊、來源不明且缺乏系統性評估。這種不透明性阻礙了研究的可重現性,並模糊了數據特性與模型行為之間的因果關聯。為彌合這一鴻溝,我們推出 OpenDataArena(ODA),這是一個旨在評估訓練後數據內在價值的全棧開放平台。ODA 建立了包含四大核心支柱的完整生態系統:(i)統一的訓練-評估流程,確保跨模型(如 Llama、Qwen)與領域的公平開放比較;(ii)多維度評分框架,從數十個維度剖析數據質量;(iii)互動式數據譜系探索器,可視化數據集譜系並解析組成來源;(iv)完全開源的訓練、評估與評分工具包,以推動數據研究。基於 ODA 的大規模實驗——涵蓋多領域超過 120 個訓練數據集、22 項基準測試,並通過 600 餘次訓練運行與 4000 萬個處理數據點驗證——揭示了深層洞見。我們的分析發現了數據複雜度與任務性能之間的固有權衡,通過譜系追蹤識別出熱門基準中的冗餘問題,並繪製了數據集間的譜系關聯圖。我們公開所有結果、工具與配置,以普及高質量數據評估的訪問權限。ODA 不僅是擴展排行榜,更旨在推動從試錯式數據策展向「以數據為中心的 AI」的科學範式轉變,為數據混合規律與基礎模型戰略構建的嚴謹研究鋪平道路。
主體驅動影像生成已從單主體合成發展至多主體組合,卻長期忽視了「辨異」能力——即在輸入包含多個候選主體時準確識別並生成正確主體的能力。此限制影響了方法在複雜真實視覺場景中的有效性。我們提出Scone,一種融合組合與辨異能力的統一理解-生成框架。Scone使理解專家充當語義橋樑,傳遞語義信息並引導生成專家在保持主體身份特徵的同時最小化干擾。我們採用兩階段訓練策略:先學習組合能力,再通過語義對齊與基於注意力機制的遮罩增強辨異能力。同時提出SconeEval基準,用於評估多樣化場景下的組合與辨異性能。實驗表明,Scone在兩個基準測試的多主體組合與辨異任務上均超越現有開源模型。我們的模型、基準及訓練數據已開源於:https://github.com/Ryann-Ran/Scone。
空間追蹤作為機器人的基礎具身互動能力,本質上具有挑戰性,因為它需要結合多步驟的度量基礎推理與複雜的空間指代及真實世界度量測量。然而,現有方法難以應對此組合式任務。為此,我們提出RoboTracer——首個通過通用空間編碼器與迴歸監督解碼器實現3D空間指代與測量的3D感知視覺語言模型,在監督微調階段增強尺度感知能力。此外,RoboTracer通過帶有度量敏感過程獎勵的強化微調,推進多步驟度量基礎推理,監督關鍵中間感知線索以精確生成空間軌跡。為支持監督微調與強化微調訓練,我們構建了TraceSpatial大規模數據集,包含3千萬問答對,涵蓋室外/室內/桌面場景,並支持多達9步的複雜推理過程。我們進一步提出TraceSpatial-Bench基準測試,填補了空間追蹤評估的空白。實驗結果表明,RoboTracer在空間理解、測量與指代方面均超越基線模型,平均成功率達79.1%,並在TraceSpatial-Bench上以顯著優勢實現尖端性能,準確率較Gemini-2.5-Pro高出36%。值得注意的是,RoboTracer可與多種控制策略集成,在雜亂的真實場景中為不同機器人(UR5、G1人形機器人)執行長時程動態任務。
基于强化学习(RL)构建通用推理模型面临显著的跨领域异质性挑战,包括推理时响应长度和验证延迟的巨大差异。这种变异性不仅增加了RL基础设施的复杂度、拖慢训练进程,还使得训练课程(如响应长度扩展)和超参数选择变得困难。本文提出级联式分领域强化学习(Cascade RL)方法,开发出能够在指令模式和深度思考模式下运行的通用推理模型Nemotron-Cascade。与传统混合不同领域异构提示的方法不同,Cascade RL采用顺序分领域RL训练架构,既降低了工程复杂度,又在广泛基准测试中实现了最先进性能。值得注意的是,作为前置步骤的RLHF对齐技术不仅能优化模型偏好,更显著提升了推理能力;后续分领域RLVR阶段几乎不会削弱已习得的基准性能,甚至可能进一步提升(图1示例)。经过RL训练后,我们的140亿参数模型在LiveCodeBench v5/v6/Pro上超越其SFT教师模型DeepSeek-R1-0528,并在2025年国际信息学奥林匹克竞赛(IOI)中达到银牌水平。我们公开分享了完整的训练方案与数据配方。
可縮放向量圖形(SVG)在現代網頁設計中佔據核心地位,隨著網路環境日益動態化,對其動畫化的需求持續增長。然而儘管在程式碼生成與運動規劃領域已有進展,讓視覺語言模型(VLM)自動生成向量圖形動畫仍面臨挑戰。VLM經常錯誤處理SVG檔案,因為視覺上連貫的元件往往被分割成低階圖形,無法提供哪些元素應共同移動的指引。本文提出一個框架,能重建實現可靠SVG動畫所需的語義結構,並揭示當前VLM系統忽略的關鍵層次。該框架透過統計聚合多個弱部件預測結果,使系統能從雜訊預測中穩定推斷語義。通過將SVG重組為語義群組,我們的方法能讓VLM生成更具連貫性的動畫。實驗結果顯示,相較現有方法實現顯著提升,表明語義重建是實現穩健SVG動畫的關鍵步驟,同時支持VLM與向量圖形間更可解釋的互動。
流式视频生成的核心挑战在于维持长上下文中的内容一致性,这对内存设计提出了极高要求。现有方案大多通过预定义策略压缩历史帧来维护内存,但不同待生成视频片段需参考不同的历史线索,固定策略难以满足这一需求。本文提出MemFlow以解决该问题:在生成新片段前,我们根据该片段的文本提示动态检索最相关的历史帧来更新内存库。这种设计能确保即使后续帧出现新事件或场景切换,叙事连贯性仍得以保持。此外在生成过程中,我们仅激活内存库中与注意力层各查询最相关的标记,有效保障生成效率。MemFlow由此以可忽略的计算开销(相较无内存基线的生成速度仅降低7.9%)实现卓越的长上下文一致性,并保持与所有带KV缓存的流式视频生成模型的兼容性。
我们隆重推出Olmo 3系列模型——包含70亿与320亿参数规模的全开源尖端语言模型。该系列专攻长文本推理、函数调用、代码生成、指令遵循、通用对话及知识检索等核心能力。本次发布完整涵盖模型构建全流程,包含每个开发阶段、检查点、数据节点及依赖项在内的完整开发生命周期。其中旗舰版Olmo 3 Think 320亿模型,是当前全球最强性能的全开源思维链模型。
高維空間中的向量相似性搜尋(VSS)正迅速成為新一代資料庫系統的核心功能,廣泛應用於各類數據密集型服務——從大型語言模型(LLM)的嵌入檢索,到語意資訊檢索與推薦系統。然而,現有基準測試主要基於召回率與延遲的權衡來評估VSS,其真實值僅由距離指標定義,忽略了檢索品質對下游任務的最終影響。這種脫節可能誤導學術研究與產業實踐。 我們提出Iceberg——一個在真實應用場景中對VSS方法進行端到端評估的綜合基準測試套件。從任務中心視角出發,Iceberg揭示了「資訊流失漏斗」,指出端到端效能衰減的三個主要來源:(1)特徵提取過程中的嵌入損失;(2)距離指標無法有效反映任務相關性的度量誤用;(3)對數據分佈敏感度,凸顯索引在不同偏差與模態下的穩健性。為實現更全面評估,Iceberg涵蓋圖像分類、人臉識別、文本檢索和推薦系統等關鍵領域的八個多樣化數據集。每個數據集包含100萬至1億條向量,並提供豐富的任務專用標籤與評估指標,使檢索演算法能在完整應用流程中(而非孤立環境)被評估。 Iceberg對13種前沿VSS方法進行基準測試,並根據應用層級指標重新排序,結果顯示其與傳統純基於召回率-延遲評估的排名存在顯著差異。基於這些發現,我們定義了一組任務中心的元特徵,並推導出可解釋的決策樹,以協助從業者根據具體工作負載選擇和調優VSS方法。
设计有效的奖励函数是强化学习(RL)领域的核心挑战,尤其在为复杂推理任务开发自主智能体时更为艰巨。虽然存在自动化奖励优化方法,但这些方法通常依赖将奖励函数视为黑盒的无导数进化启发式算法,无法捕捉奖励结构与任务性能之间的因果关系。为弥补这一缺陷,我们提出可微分进化强化学习(DERL)——一种能够自主发现最优奖励信号的双层框架。在DERL中,元优化器通过组合结构化原子基元来演化奖励函数(即元奖励),从而指导内层策略的训练。与以往进化方法的关键区别在于,DERL在元优化过程中实现了可微分性:它将内层验证性能作为信号,通过强化学习更新元优化器。这使得DERL能够近似任务成功的"元梯度",逐步学会生成更密集且更具操作性的反馈。我们在三个不同领域验证了DERL的有效性:机器人智能体(ALFWorld)、科学模拟(ScienceWorld)和数学推理(GSM8k、MATH)。实验结果表明,DERL在ALFWorld和ScienceWorld上实现了最先进的性能,显著优于依赖启发式奖励的方法,尤其在分布外场景中表现突出。对进化轨迹的分析表明,DERL成功捕捉了任务的内在结构,实现了无需人工干预的自我改进型智能体对齐。
本文並未提出新穎方法,而是為影片時間定位這項影片理解核心能力建立了一個簡潔、漸進但至關重要的基準。儘管多模態大型語言模型在各類影片理解任務中表現卓越,但針對VTG的優化方案仍待深入探索。本研究提出TimeLens,從數據質量與演算法設計兩大維度系統性探究如何構建具備強勁VTG能力的MLLMs。我們首先揭露現有VTG基準測試中的關鍵質量缺陷,進而推出TimeLens-Bench——包含三個經嚴格質量標準精心重標註的熱門基準數據集。分析顯示模型排名相較傳統基準出現劇烈變動,證實過往評估標準的不可靠性。我們還通過自動化重標註流程解決訓練數據噪聲問題,構建出大規模高質量訓練數據集TimeLens-100K。基於數據基礎,我們深入探索演算法設計原則,獲得一系列具啟發性的洞見與高效實用的實踐方案,包括:採用交錯文本編碼表示時間信息、以無思維驗證獎勵強化學習作為訓練範式,以及精心設計的RLVR訓練方案。這些努力最終凝結為TimeLens模型系列,該系列開源MLLMs在VTG性能上不僅達到開源模型最優水平,更超越GPT-5與Gemini-2.5-Flash等專有模型。所有程式碼、數據與模型將公開以推動後續研究。
当前生成模型与统一模型虽在通用图像生成方面表现卓越,但在需要深度推理、规划能力以及超越常规场景的精确数据-视觉映射任务中仍存在局限。为突破现有技术瓶颈,我们提出一项创新性挑战任务:创意表格可视化,要求模型根据给定表格数据生成兼具信息准确性与视觉美学的信息图。针对这一挑战,我们提出ShowTable框架——通过渐进式自我修正流程实现多模态大语言模型与扩散模型的协同工作。该框架以MLLM作为核心协调器,负责视觉方案推理与视觉误差判定以提供优化指令,扩散模型则执行MLLM的指令以实现高保真生成效果。为支撑该任务及框架,我们开发了三套自动化数据构建流程用于训练不同模块,并建立包含800个挑战性实例的TableVisBench新基准,从五个评估维度全面衡量任务性能。实验表明,基于不同模型实例化的框架在各项指标上显著超越基线方法,凸显了其有效的多模态推理、生成及纠错能力。
大型语言模型(LLMs)在将推荐系统从隐式行为模式匹配转变为显式意图推理方面展现出巨大潜力。尽管RecGPT-V1通过整合基于LLM的推理到用户兴趣挖掘和物品标签预测中成功开创了这一范式,但其存在四个根本性局限:(1)多推理路径下的计算效率低下与认知冗余;(2)固定模板生成的解释多样性不足;(3)监督学习范式下泛化能力有限;(4)结果导向的评估方式过于简化,未能匹配人类标准。 为解决这些挑战,我们提出具备四项关键创新的RecGPT-V2。首先,分层多智能体系统通过协同合作重构意图推理,在消除认知重复的同时实现多样化意图覆盖。结合压缩用户行为上下文的混合表征推理技术,我们的框架降低60%的GPU消耗,并将独家召回率从9.39%提升至10.99%。其次,元提示框架动态生成上下文自适应提示,使解释多样性提升7.3%。第三,约束强化学习缓解多奖励冲突,实现标签预测准确率提升24.1%,解释接受度提升13.0%。第四,智能体即评判员框架将评估分解为多步推理,提升人类偏好对齐度。淘宝在线A/B测试显示显著提升:点击率+2.98%、详情页浏览量+3.71%、交易额+2.19%、新客转化率+11.46%。RecGPT-V2从技术可行性与商业价值双重维度证实了大规模部署LLM驱动意图推理的可行性,弥合了认知探索与工业应用之间的鸿沟。
扩散语言模型(dLMs)作为一种支持并行非自回归生成的潜力范式崭露头角,但其从头训练时的学习效率仍落后于自回归(AR)语言模型。为此,我们研究AR-to-dLM转换技术,将预训练AR模型转化为兼具高速生成能力与任务精度的高效dLM。通过剖析现有AR-to-dLM方法在注意力模式与训练目标上的局限,我们提出了更有效的转换原则与方法论。具体而言:首先系统比较不同注意力模式,发现保持预训练AR权重分布对转换效果至关重要。据此提出基于分块注意力模式的持续预训练方案,该方案在块间保持因果性,同时在块内实现双向建模。相较于完全双向建模,此方法不仅能保留KV缓存优势,更能有效维持AR模型权重分布,实现精度与效率的双赢。其次,为缓解掩码标记分布(均匀分布vs强左向右倾向)在训练与测试阶段的差异,提出位置依赖的掩码策略,通过为后续标记分配更高掩码概率来模拟测试环境。基于此框架,我们深入探究dLM的注意力模式、训练动态等设计要素,为可扩展的AR-to-dLM转换提供实践指导。这些研究催生了Efficient-DLM模型家族,其性能超越当前最先进的AR模型与dLM——例如我们的Efficient-DLM 8B在Dream 7B和Qwen3 4B对比中,准确率分别提升5.4%/2.7%,吞吐量提高4.5倍/2.7倍。
圖像到3D生成技術的最新進展為設計、增強現實/虛擬現實及機器人領域開闢了巨大可能性。然而,要將AI生成的3D資源應用於實際場景,關鍵需求在於具備便捷的編輯能力。我們提出一種前饋式方法Steer3D,可為圖像到3D模型添加文本引導功能,實現通過語言編輯生成的3D資源。該方法受ControlNet啟發,我們將其改編應用於圖像到3D生成領域,從而實現單次前向傳播的文本引導。我們構建了可擴展的自動化數據生成引擎,並基於流匹配訓練與直接偏好優化(DPO)開發了兩階段訓練方案。相較於同類方法,Steer3D能更精準遵循語言指令,同時保持與原始3D資源更優的一致性,且處理速度提升2.4至28.5倍。實驗表明,僅需10萬組數據即可為預訓練的圖像到3D生成模型添加新模態(文本)引導功能。項目網站:https://glab-caltech.github.io/steer3d/
我们提出SS4D——一个原生4D生成模型,能够直接从单目视频中合成动态3D物体。与先前通过优化3D或视频生成模型来构建4D表示的方法不同,我们直接在4D数据上训练生成器,实现了高保真度、时间连贯性和结构一致性。我们方法的核心是一组压缩的结构化时空潜变量。具体而言:(1)针对4D训练数据稀缺的问题,我们在预训练的单图像转3D模型基础上构建,保持了强大的空间一致性;(2)通过引入专用于跨帧推理的时间层来强化时间连贯性;(3)为支持长视频序列的高效训练与推理,我们采用因子分解的4D卷积和时间下采样模块对潜变量序列进行时间轴压缩。此外,我们还采用精心设计的训练策略来增强对遮挡的鲁棒性。
大型语言模型(LLM)的快速扩展虽取得了显著性能,但也带来了高昂的内存成本。现有的参数高效方法(如剪枝和量化)主要对预训练模型进行压缩,并未增强架构能力,因此会触及基础模型的表征能力上限。本文提出VersatileFFN——一种新颖的前馈网络(FFN),能够在固定参数预算下实现参数在宽度和深度维度上的灵活复用。受认知双过程理论启发,VersatileFFN包含两条自适应路径:宽度自适应路径通过单一共享FFN生成混合子专家,在不增加参数的情况下模拟稀疏专家路由机制;深度自适应路径通过递归应用同一FFN模拟对复杂标记的深层处理。难度感知门控机制动态平衡两条路径,引导"简单"标记通过高效的宽度路径处理,同时为"困难"标记分配更深层的迭代优化。关键在于两条路径复用相同参数,所有额外能力均来自计算而非内存开销。跨多基准测试和模型规模的实验验证了该方法的有效性。代码发布于https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN。
功能可供性预测作为具身智能的关键技术,能根据语言指令识别物体的交互区域。现有端到端模型将高层推理与低层定位耦合在单一流程中,依赖标注数据集进行训练,导致对新物体和陌生环境的泛化能力不足。本文突破这一范式,提出无需训练的智能体框架A4-Agent,将功能预测解耦为三阶段流程:该框架在测试时协调三大基础模型——(1)运用生成模型可视化交互场景的"造梦者";(2)借助视觉语言模型确定交互部位的"思考者";(3)调度视觉基础模型精确定位交互区域的"定位者"。通过融合预训练模型的互补优势且无需任务微调,我们的零样本框架在多个基准测试中显著超越现有监督方法,并展现出对真实场景的强泛化能力。
情境学习是现代大语言模型(LLM)的核心能力,然而主流架构通过分配线性或固定位置索引,强加了僵化的上下文结构。基于认知负荷理论(CLT),我们认为这种缺乏信息量的结构会增加外部认知负荷,消耗本应用于深度推理和注意力分配的有限工作记忆容量。为此,我们提出RePo——一种通过上下文重定位降低外部负荷的新机制。与标准方法不同,RePo采用可微分模块f_φ来分配能捕捉上下文依赖关系的词元位置,而非依赖预定义的整数范围。通过在OLMo-2 1B骨干网络上进行持续预训练,我们证明RePo在包含噪声上下文、结构化数据和长上下文任务中显著提升性能,同时在通用短上下文任务中保持竞争力。深入分析表明,RePo能成功为遥远但相关的信息分配更高注意力,在稠密非线性空间中定位位置,并捕捉输入上下文的内在结构。代码已开源:https://github.com/SakanaAI/repo。
掩码离散扩散模型(MD3)在图像理解、生成与编辑等多模态任务中展现出卓越性能,但其推理速度仍受限于每个采样步骤需重复处理大量冗余掩码标记。本研究提出Sparse-LaViDa——一种通过动态截断各推理步骤中非必要掩码标记来加速MD3采样的新型建模框架。为保持生成质量,我们引入专用寄存器标记作为被截断标记的紧凑表征。此外,为确保训练与推理的一致性,我们设计了能精准匹配截断采样过程的特殊注意力掩码机制。基于当前最先进的统一MD3框架LaViDa-O构建的Sparse-LaViDa,在文本到图像生成、图像编辑和数学推理等多样化任务中实现了最高2倍的加速,同时保持了原有生成质量。
实现真正自适应的具身智能需要智能体不仅通过模仿静态示范来学习,更要通过环境交互持续改进——这类似于人类通过实践掌握技能的方式。视觉-语言-动作模型通过利用大语言模型推动了机器人操作技术的进步,但其根本仍受限于监督微调范式:每个任务需数百次示范、机械记忆轨迹,且当部署条件偏离训练场景时无法适应。我们提出EVOLVE-VLA这一测试时训练框架,使VLA模型能够通过环境交互持续自适应,且仅需极少或零任务特定示范。核心技术挑战在于用自主反馈替代测试时不可得的理想奖励信号。我们通过学得的进度估计器提供密集反馈来解决该问题,并关键性地通过双重机制"驯服"这一固有噪声信号:(1)累积式进度估计机制平滑噪声点估计,(2)渐进式跨度扩展策略实现策略逐步演化。EVOLVE-VLA取得显著提升:长跨度任务提升8.6%,单样本学习提升22.0%,并实现跨任务泛化——在无任务特定示范训练时,未见任务成功率达20.8%(纯SFT方法为0%)。定性分析揭示了示范中未出现的新兴能力,包括错误恢复和创新策略。这项研究标志着VLA向真正学习与自适应迈出关键一步,从静态模仿转向持续自我改进。
基於視頻的問答定位(GVQA)旨在定位視頻中相關的時間片段並生成準確答案,但大型視頻語言模型(LVLM)表現出有限的時間感知能力。儘管現有基於群組相對策略優化(GRPO)的方法試圖改進時間定位,仍難以將答案忠實地錨定於相關視頻證據,導致時間錯位與虛構內容。本文提出Zoom-Zero框架,採用由粗到精的處理流程:先定位查詢相關片段,再對關鍵幀進行時間維度的細粒度視覺驗證。我們通過兩項關鍵創新突破GRPO在GVQA任務中的侷限:(1)引入縮放精度獎勵機制,驗證時間定位預測的可靠性,並促進對定位幀的細粒度視覺校驗;(2)提出令牌選擇性信用分配方法,將獎勵歸因於負責時間定位或答案生成的令牌,緩解GRPO處理多維獎勵信號的不足。所提方法顯著推動了視頻問答定位的發展,在NExT-GQA和ReXTime數據集上分別將時間定位準確率提升5.2%和4.6%,同時將平均答案準確率提高2.4%。此外,推理階段的由粗到精縮放機制通過保留關鍵視覺細節而不損害全局語境,進一步提升長視頻理解能力,在長視頻基準測試中實現6.4%的平均提升。
我们提出CRISP方法,该技术能够从单目视频中重建可模拟的人体运动与场景几何。现有的人体-场景联合重建研究要么依赖数据驱动先验和无物理约束的联合优化,要么重建的几何存在噪点与伪影,导致包含场景交互的运动追踪策略失效。与此不同,我们的核心思路是通过对场景点云进行平面基元拟合,利用深度、法向量和光流的简单聚类流程,重建凸面化、洁净且可直接用于仿真的几何体。为还原交互过程中可能被遮挡的场景几何,我们采用人体-场景接触建模技术(例如利用人体姿态重建被遮挡的椅面)。最后,通过强化学习驱动的人形控制器验证重建结果,确保人体与场景具备物理合理性。在以人为中心的视频基准测试(EMDB、PROX)中,本方法将运动追踪失败率从55.2%降至6.9%,同时强化学习仿真吞吐量提升43%。我们进一步在真实场景视频(包括随手拍摄视频、网络视频乃至Sora生成视频)中验证了该技术,证明CRISP能大规模生成物理有效的人体运动与交互环境,极大推动了机器人及AR/VR领域的实景仿真应用。
非参数量化方法因其参数高效性和对大码本的良好扩展性而备受关注。本文通过格编码理论框架,提出了不同非参数量化方法的统一表述。格码的几何特性揭示了在训练自编码器时,为何需要为BSQ等现有无查表量化变体引入辅助损失项。在此基础上,我们探索了包括随机格、广义斐波那契格以及最密球堆积格在内的多种候选方案。研究发现,基于Leech格的量化方法(命名为球面Leech量化Λ_{24}-SQ)凭借其高对称性和超球面上的均匀分布特性,既能简化训练流程,又能改善重建-压缩的权衡关系。在图像标记化与压缩任务中,该方法在所有评估指标上均优于当前最优技术BSQ,同时略微降低比特消耗。这种改进优势同样体现在最先进的自回归图像生成框架中。
医学图像恢复(MedIR)旨在从低质量医学图像中重建高质量图像。近年来MedIR领域的研究重点已转向能够同时处理多种不同恢复任务的全能模型。然而,由于模态类型和退化类型存在显著差异,使用共享模型处理这些多样化任务时需重点考量两种关键的任务间关系:任务干扰(当不同任务对同一参数产生冲突的梯度更新方向时发生)和任务失衡(由各任务固有学习难度差异导致的优化不均衡)。为应对这些挑战,我们提出任务自适应Transformer(TAT)框架,该创新方案通过两项核心机制实现动态任务适配:首先引入任务自适应权重生成策略,通过为每个任务生成专属权重参数,消除共享权重参数上的潜在梯度冲突;其次采用任务自适应损失平衡策略,根据任务特定学习难度动态调整损失权重,防止任务主导或训练不足。大量实验表明,我们提出的TAT在PET合成、CT去噪和MRI超分辨率三项MedIR任务中,无论是针对单一任务还是全能模型设置,均实现了最先进的性能。代码已开源:https://github.com/Yaziwel/TAT。
大型专家混合模型(MoE)的推理因资源需求高且工作负载动态变化而充满挑战。现有解决方案通常将整个模型部署为单一整体单元,对注意力模块和专家模块采用统一的资源配置,忽视了二者的差异化需求,导致可扩展性受限和资源效率低下。本文提出Janus——一种可扩展的MoE推理系统,通过将注意力模块与专家模块解耦部署至独立的GPU子集群,实现各模块的独立管理与弹性扩缩。Janus包含三项关键设计以实现高效解耦的MoE推理:首先,提出自适应两阶段通信机制,利用节点内与节点间带宽层级实现低延迟数据交换;其次,针对MoE模块的内存瓶颈特性,设计轻量级调度器并以GPU内核形式实现,以最小开销均衡跨GPU的激活专家数量,从而降低推理延迟;最后,通过细粒度资源管理动态调整专家布局,并独立扩展注意力与MoE资源以提升整体效率。实验表明,在满足单令牌延迟要求的前提下,Janus相比现有最优系统可实现最高3.9倍的单GPU吞吐量提升。
可验证奖励的强化学习(RLVR)通过利用答案可验证信号指导策略优化,在训练大型推理模型(LRMs)方面已证明有效,但该方法存在标注成本高的问题。为缓解此问题,近期研究探索了仅基于模型内部一致性(如通过熵和多数投票)推导奖励的无监督RLVR方法。尽管这些方法看似前景可观,但在训练后期常出现模型崩溃现象,这可能是由于缺乏外部监督时错误推理模式被强化所致。本文研究一种新型半监督RLVR范式,该范式利用少量标注样本指导未标注样本的RLVR训练。我们的核心洞见是:监督奖励对于稳定基于一致性的未标注样本训练至关重要,可确保仅将在标注实例上验证过的推理模式纳入RL训练。技术上,我们提出一种有效的策略优化算法TraPO,通过匹配未标注样本与标注样本的学习轨迹相似性来识别可靠样本。基于此,TraPO在六个常用数学推理基准(AIME24/25、AMC、MATH-500、Minerva和Olympiad)和三个分布外任务(ARC-c、GPQA-diamond和MMLU-pro)上实现了显著的数据效率和强大泛化能力。仅使用1K标注样本和3K未标注样本时,TraPO平均准确率达42.6%,超越在45K未标注样本上训练的最佳无监督方法(38.3%)。值得注意的是,当使用4K标注样本和12K未标注样本时,TraPO在所有基准上甚至优于使用全部45K标注样本训练的完全监督模型,而标注数据用量仅为其10%。代码已开源:https://github.com/ShenzhiYang2000/TRAPO。
大型语言模型中的安全对齐机制通过习得的拒绝行为来阻止对有害查询的响应,但这些机制同样阻碍了包括认知建模、对抗测试与安全分析在内的合法研究应用。虽然消融技术能通过定向正交化实现拒绝表征的精准移除,但现有实施方案的相对效能尚未得到系统评估。本研究在16个指令微调模型(70亿-140亿参数)上评估四种消融工具(Heretic、DECCP、ErisForge、FailSpy),报告了所有16个模型的工具兼容性,并根据工具支持范围在子集上提供量化指标。在基准测试子集上,单次消融法展现出更优的能力保持性(三个模型的GSM8K平均变化:ErisForge -0.28个百分点;DECCP -0.13个百分点),而贝叶斯优化消融则产生可变的分布偏移(KL散度0.043-1.646)及模型依赖型能力影响。这些发现为研究人员跨不同模型架构部署消融工具提供了基于证据的选择标准。核心发现表明,数学推理能力对消融干预最为敏感,根据工具选择与模型架构的不同,GSM8K得分变化范围从+1.51个百分点至-18.81个百分点(相对降幅达-26.5%)。
世界模型在提升具身智能体任务性能方面展现出巨大潜力。现有研究主要聚焦于像素空间的世界模型,但这些方法在图形用户界面(GUI)场景下面临实际局限——预测未来状态中的复杂视觉元素往往十分困难。本研究探索了GUI智能体世界建模的替代方案:通过自然语言而非原始像素预测来描述状态转移。首先,我们推出MobileWorldBench基准测试,用于评估视觉语言模型(VLM)作为移动GUI智能体世界模型的性能表现。其次,我们发布包含140万样本的大规模数据集MobileWorld,该数据集显著提升了VLM的世界建模能力。最后,我们提出创新框架将VLM世界模型集成至移动智能体的规划架构中,证明语义世界模型可通过提高任务成功率直接赋能移动智能体。相关代码与数据集已开源:https://github.com/jacklishufan/MobileWorld。
遥感影像中的建筑物提取因建筑结构复杂多变而极具挑战性。现有方法虽采用卷积或自注意力模块来捕捉分割模型中的多尺度特征,但特征金字塔的固有间隙及全局-局部特征融合不足,导致提取结果存在不准确和模糊性问题。为此,本文提出一种不确定性聚合的全局-局部融合网络(UAGLNet),该网络能够在不确定性建模的指导下有效挖掘高质量的全局-局部视觉语义。具体而言,我们设计了一种新型协同编码器,通过在不同层级采用混合CNN与Transformer结构,分别捕获局部与全局视觉语义;针对网络深度增加时全局与局部特征间的差异,设计了中间协同交互模块(CIB)以缩小特征间隙;进而提出全局-局部融合(GLF)模块,以互补方式融合全局与局部表征。此外,为降低不确定区域的分割模糊性,提出不确定性聚合解码器(UAD),通过显式估计像素级不确定性来提升分割精度。大量实验表明,本方法性能优于现有先进技术。代码已开源:https://github.com/Dstate/UAGLNet
现代机器学习的成功依赖于高质量训练数据的获取。在实际应用场景中,例如从公共存储库获取数据或跨机构共享时,数据通常会以离散数据集的形式存在,这些数据集在相关性、质量和效用方面存在显著差异。因此,如何选择需要检索有用数据集的存储库或机构,以及确定哪些数据集应纳入模型训练,成为关键决策。然而现有方法大多仅针对单个样本进行选择,且将所有数据视为同等相关,忽略了数据集及其来源之间的差异性。本研究正式提出数据集选择任务:在资源受限条件下,从大规模异构数据池中选择完整数据集以提升下游性能。我们设计了基于层级结构的数据集选择方法DaSH,该方法可在数据集和群组(如数据集合、机构)层面建模效用函数,从而通过有限观察实现高效泛化。在两个公共基准测试(Digit-Five和DomainNet)中,DaSH的准确率最高超越现有数据选择基线方法26.2%,且所需探索步骤显著减少。消融实验表明,DaSH在低资源环境和相关数据集匮乏的情况下仍保持稳健性,使其适用于实际多源学习工作流中可扩展的自适应数据集选择。
本文介绍了JMMMU-Pro(基于图像的日本多学科多模态理解基准)以及可扩展构建方法Vibe Benchmark Construction。遵循从MMMU到MMMU-Pro的演进路径,JMMMU-Pro将JMMMU的问题图像与问题文本整合为单一图像,从而构建出需要通过视觉感知进行图文融合理解的评测基准。为构建JMMMU-Pro,我们提出Vibe Benchmark Construction方法:通过图像生成模型(如Nano Banana Pro)生成候选视觉问题,再由人工验证输出结果并在必要时调整提示词重新生成,以确保质量。借助Nano Banana Pro高真实度的图像生成能力与纯净日文文本嵌入特性,我们以低成本构建了涵盖多样化背景与版式设计的高质量基准。实验结果表明,所有开源LMM在JMMMU-Pro上均表现不佳,这凸显了该基准对指导开源社区未来发展的重要价值。我们相信JMMMU-Pro为评估LMM的日语能力提供了更严谨的工具,同时Vibe Benchmark Construction也为未来开发基于图像的视觉问答基准提供了高效指南。
文本到视频(T2V)生成技术发展迅猛,但如何在多场景中保持角色身份一致性仍是核心挑战。现有个性化方法多聚焦于面部特征,却难以维持发型、着装、体态等关键上下文线索的连贯性,而这正是视觉统一性的重要基础。我们提出ContextAnyone——一种上下文感知的扩散框架,通过单张参考图像与文本输入即可生成角色一致的视频。该方法通过联合重建参考图像与生成新视频帧,使模型能全面感知并利用参考信息。我们创新性地提出强调注意力模块,将参考信息有效整合至DiT架构的扩散主干网络中,该模块能选择性增强参考感知特征并防止跨帧身份漂移。双引导损失函数结合了扩散目标与参考重建目标以提升外观保真度,而提出的间隙旋转位置编码则通过分离参考标记与视频标记来稳定时序建模。实验表明,ContextAnyone在身份一致性与视觉质量上均优于现有参考视频生成方法,能在多样化动作与场景中生成连贯且保持上下文特征的角色视频。项目页面:https://github.com/ziyang1106/ContextAnyone。
近年来,无监督视频实例分割领域的最先进技术严重依赖合成视频数据,这些数据通常通过处理以目标为中心的图像数据集(如ImageNet)生成。然而,通过人为平移和缩放图像实例掩码生成的视频,难以准确模拟真实视频中的运动特征,例如视角变化、单个或多个实例部件的运动,以及相机运动。为解决这一问题,我们提出了一种仅基于真实视频数据训练的无监督视频实例分割模型。该模型从单帧视频的无监督实例分割掩码出发,但这些单帧分割结果存在时序噪声,且质量在视频中波动不定。为此,我们利用深度运动先验识别视频中的高质量关键掩码,从而建立时序一致性。通过稀疏关键掩码的伪标注数据,我们采用稀疏到稠密蒸馏方法并辅以时序丢弃损失,训练用于隐式掩码传播的分割模型。在基于生成的稠密标签集完成最终模型训练后,本方法在多项基准测试中均超越了当前最先进技术。
生成式人工智能在教育领域的迅速融合,正驱动着电子教学的数字化转型,然而用户对AI教育应用程式的感知仍待深入探究。本研究通过对Google Play商店热门AI教育应用的用户评论进行情感分析,评估其效能、挑战及教学意义。研究流程包括爬取应用数据与评论、使用RoBERTa进行二元情感分类、通过GPT-4o提取关键观点,并利用GPT-5整合核心正负面主题。应用程式被划分为七大类(如作业助手、数学解题工具、语言学习应用),功能重叠反映了多元整合的设计趋势。 研究结果显示整体情感以正面为主:作业类应用(如Edu AI正面评价达95.9%,Answer.AI达92.7%)在准确性、响应速度与个性化方面表现突出,而语言学习及教学管理系统类应用(如Teacher AI仅21.8%正面评价)因系统不稳定与功能局限评价偏低。正面反馈聚焦于头脑风暴、问题解决的高效性与学习参与度提升;负面批评则集中于付费墙、答案不准确、广告干扰及技术故障。趋势表明,作业助手类应用表现优于专业化工具,凸显AI在促进教育普惠性的同时,也存在助长依赖性与加剧数字鸿沟的风险。 讨论部分提出未来教育生态系统的构想:结合AI与人类的混合教学模式、利用VR/AR实现沉浸式学习,并为开发者(自适应个性化技术)和政策制定者(促进包容性的商业化规范)提供发展路线图。本研究强调生成式AI通过伦理优化推动电子教学发展的重要性,为创建公平、创新的学习环境提供实践依据。完整数据集可访问:https://github.com/erfan-nourbakhsh/GenAI-EdSent
本文提出了一种大规模多模态参照运动表达视频分割数据集,聚焦于基于物体运动语言描述的视频目标分割与追踪任务。现有参照视频分割数据集通常关注显著物体,且使用的语言表达富含静态属性特征,可能导致目标物体在单帧画面中即可被识别。此类数据集未能充分强调运动信息在视频与语言中的关键作用。为探索利用运动表达与运动推理线索实现像素级视频理解的可行性,我们推出了MeViS数据集,其中包含33,072条人工标注的文本与音频双模态运动表达,覆盖2,006个复杂场景视频中的8,171个目标物体。我们在MeViS支持的4项任务上对15种现有方法进行基准测试,包括6种参照视频目标分割(RVOS)方法、3种音频引导视频目标分割(AVOS)方法、2种参照多目标追踪(RMOT)方法,以及针对新引入的参照运动表达生成(RMEG)任务的4种视频描述方法。实验结果表明现有方法在处理运动表达引导的视频理解任务时存在明显不足。我们进一步分析技术挑战并提出LMPM++方法,在RVOS/AVOS/RMOT任务中取得了最先进的性能。本数据集为开发复杂视频场景中运动表达引导的视频理解算法提供了平台。MeViS数据集与相关源代码已公开于https://henghuiding.com/MeViS/。
大规模视觉语言模型(VLMs)展现出令人印象深刻的复杂推理能力,但在视觉序列规划领域——即执行多步动作以实现目标——仍鲜有探索。此外,实际序列规划常涉及非最优(错误)步骤,这对VLM检测与修正此类步骤的能力提出挑战。我们提出纠正式序列规划基准(CoSPlan),通过在迷宫导航、积木重组、图像重建和物体重组这4个领域评估VLM在容错型视觉序列规划任务中的表现。该基准重点考察两项关键能力:错误检测(识别非最优动作)与步骤补全(修正并完善动作序列以达成目标)。尽管采用思维链和场景图谱等最先进推理技术,主流VLM(如Intern-VLM与Qwen2)在CoSPlan中表现不佳,难以利用上下文线索达成目标。为此,我们提出一种无需训练的新方法——场景图谱增量更新(SGI),通过在初始状态与目标状态间引入中间推理步骤,帮助VLM进行序列推理,实现平均5.2%的性能提升。除增强纠正式序列规划的可靠性外,SGI还可泛化至Plan-Bench和VQA等传统规划任务。