每日精選AI研究論文及翻譯
我們推出InternVL 3.5,這是一個新的開源多模態模型系列,顯著提升了InternVL系列的多功能性、推理能力和推理效率。關鍵創新在於級聯強化學習(Cascade RL)框架,該框架通過兩階段過程增強推理:離線RL實現穩定收斂,在線RL進行精細對齊。這種由粗到細的訓練策略在下游推理任務(如MMMU和MathVista)上帶來顯著改進。為優化效率,我們提出視覺分辨率路由器(ViR),在不影響性能的情況下動態調整視覺標記的分辨率。結合ViR,我們的解耦視覺-語言部署(DvD)策略將視覺編碼器和語言模型分佈在不同GPU上,有效平衡計算負載。這些貢獻共同使InternVL3.5在整體推理性能上相比前代InternVL3提升高達+16.0%,並實現4.05倍的推理加速。此外,InternVL3.5支持GUI交互和具身代理等新功能。值得注意的是,我們最大的模型InternVL3.5-241B-A28B在開源MLLM中,於通用多模態、推理、文本和代理任務上達到了最先進的成果,縮小了與GPT-5等領先商業模型的性能差距。所有模型和代碼均已公開發布。
尽管近期自回归模型在文本到图像(T2I)生成领域取得了令人瞩目的进展,但其处理多属性及模糊提示的能力仍显不足。针对这些局限,现有研究已采用思维链(CoT)方法以实现阶段感知的视觉合成,并运用强化学习(RL)来增强推理能力。然而,多数模型仅在生成阶段结束时提供奖励信号。这种单一、仅终点的指导方式难以识别哪些阶段对最终结果有积极贡献,可能导致策略次优化。为解决此问题,我们提出了一种视觉指导链(Visual-CoG)范式,该范式包含三个阶段:语义推理、过程精炼与结果评估,通过阶段感知的奖励在整个图像生成流程中提供即时指导。此外,我们构建了一个视觉认知基准测试集VisCog-Bench,包含四个子任务以评估语义推理的有效性。在GenEval、T2I-CompBench及所提出的VisCog-Bench上的全面评估分别显示出15%、5%和19%的提升,充分证明了Visual-CoG的优越性能。我们将尽快发布所有相关资源。
文本至三維生成技術通過利用預訓練的二維擴散先驗取得了顯著進展,能夠產出高質量且三維一致的結果。然而,這些方法在處理域外(OOD)或罕見概念時往往表現不佳,導致生成結果不一致或不准確。為此,我們提出了MV-RAG,一種新穎的文本至三維生成流程,該流程首先從一個大型的野外二維圖像數據庫中檢索相關的二維圖像,然後基於這些圖像條件化多視角擴散模型,以合成一致且準確的多視角輸出。訓練這種基於檢索的條件模型是通過一種新穎的混合策略實現的,該策略橋接了結構化的多視角數據和多樣化的二維圖像集合。這包括使用模擬檢索變化的增強條件視圖對多視角數據進行訓練,以實現視圖特定的重建,同時使用一組檢索到的真實世界二維圖像進行訓練,並採用獨特的保留視圖預測目標:模型從其他視圖預測保留視圖,從而從二維數據推斷三維一致性。為了促進嚴格的域外評估,我們引入了一組具有挑戰性的域外提示。與最先進的文本至三維、圖像至三維以及個性化基線的實驗對比表明,我們的方法在域外/罕見概念上顯著提高了三維一致性、照片真實感和文本依從性,同時在標準基準測試中保持了競爭力。
我們提出了T2I-ReasonBench,這是一個評估文本到圖像(T2I)模型推理能力的基準。它包含四個維度:成語理解、文本圖像設計、實體推理和科學推理。我們提出了一個兩階段評估協議來衡量推理準確性和圖像質量。我們對多種T2I生成模型進行了基準測試,並對其性能提供了全面分析。
近期,大型语言模型(LLMs)的进展凸显了强化学习(RL)在促进推理能力涌现方面的潜力。尽管取得了令人鼓舞的成果,但一个根本性的困境依然存在:RL的改进依赖于从高质量样本中学习,而此类样本的探索却受限于LLMs固有的局限性。这实际上形成了一个不良循环,即无法探索的内容也就无法学习。在本研究中,我们提出了“准则支撑的强化学习”(Rubric-Scaffolded Reinforcement Learning, RuscaRL),这是一种新颖的教学支架框架,旨在打破通用LLM推理中的探索瓶颈。具体而言,RuscaRL引入了清单式准则作为(1)在生成过程中的显性探索支架,其中不同的准则作为任务指令中的外部指导,引导多样化的高质量响应。这种指导随着时间的推移逐渐减弱,鼓励模型内化潜在的推理模式;(2)在模型训练期间用于利用的可验证奖励,通过以准则为参考,我们能够获得稳健的LLM-as-a-Judge评分,从而在通用推理任务上实现有效的RL。大量实验证明了所提出的RuscaRL在各种基准测试中的优越性,在最佳N评估下有效扩展了推理边界。值得注意的是,RuscaRL显著提升了Qwen-2.5-7B-Instruct在HealthBench-500上的得分,从23.6提高到50.3,超越了GPT-4.1。此外,我们在Qwen3-30B-A3B-Instruct上微调的变体在HealthBench-500上达到了61.1分,表现优于包括OpenAI-o3在内的领先LLMs。
推理是大型語言模型的核心能力,然而理解它們如何學習並執行多步驟推理仍是一個未解之謎。在本研究中,我們探討了不同架構和訓練方法如何影響模型在細胞自動機框架內的多步驟推理能力。通過使用隨機布爾函數生成的狀態序列進行訓練,並基於隨機初始條件以排除記憶化效應,我們證明了大多數神經架構能夠抽象出底層規則。雖然模型在下一狀態預測上達到了高準確率,但如果需要進行多步驟推理,其性能則急劇下降。我們確認了增加模型深度對於序列計算至關重要。我們展示了通過遞歸、記憶和測試時計算擴展來有效增加模型深度,能顯著提升推理能力。
基於大型語言模型(LLMs)的多智能體系統在處理複雜組合任務方面展現了顯著的能力。在本研究中,我們將這一範式應用於論文轉海報生成問題,這是研究人員在準備會議時面臨的一項實用但耗時的過程。儘管近期的方法嘗試自動化此任務,但大多數忽略了核心設計和美學原則,導致生成的海報需要大量手動調整。為解決這些設計限制,我們提出了PosterGen,一個模擬專業海報設計師工作流程的多智能體框架。它由四個協作的特化智能體組成:(1) 解析器與策展智能體從論文中提取內容並組織故事板;(2) 佈局智能體將內容映射到連貫的空間佈局中;(3) 風格設計智能體應用如色彩和字體等視覺設計元素;以及(4) 渲染器合成最終海報。這些智能體共同產出既語義紮實又視覺吸引人的海報。為評估設計質量,我們引入了一種基於視覺-語言模型(VLM)的評分標準,衡量佈局平衡、可讀性和美學一致性。實驗結果顯示,PosterGen在內容保真度上始終匹配,並在視覺設計上顯著超越現有方法,生成的海報幾乎無需人工調整即可用於展示。
基準測試塑造了AI研究的進展。一個有用的基準測試應兼具難度與現實性:問題既要挑戰前沿模型,也要反映實際應用。然而,當前的範式面臨著難度與現實性的矛盾:考試風格的基準測試往往人為地增加難度,卻缺乏現實價值;而基於真實用戶互動的基準測試則傾向於簡單、高頻的問題。在本研究中,我們探索了一種截然不同的範式:在未解問題上評估模型。我們不採用一次性評分的靜態基準,而是策劃未解問題,並通過驗證者輔助篩選和社區驗證,異步地評估模型。我們引入了UQ,這是一個包含500個來自Stack Exchange的挑戰性、多樣化問題的測試平台,涵蓋從計算機理論、數學到科幻和歷史等主題,探討推理、事實性和瀏覽等能力。UQ在設計上既具難度又貼近現實:未解問題通常較難,且自然產生於人類尋求答案的過程中,因此解決這些問題能直接帶來現實價值。我們的主要貢獻有三方面:(1) UQ數據集及其收集流程,結合基於規則的過濾器、LLM評判和人工審查,確保問題質量(如定義明確且具挑戰性);(2) UQ驗證器,利用生成器與驗證器之間的差距,提供評估信號並預篩選候選解決方案供人工審查;以及(3) UQ平台,一個專家共同驗證問題和解決方案的開放平台。頂尖模型僅在15%的問題上通過了UQ驗證,初步的人工驗證已識別出其中正確的答案。UQ為評估前沿模型在現實世界開放性挑戰中的表現開闢了一條新路,其成功將推動人類知識的前沿。我們在https://uq.stanford.edu發布了UQ。
近期大型視覺語言模型(VLMs)的進展主要集中在英語領域,對其他語言的關注相對有限。為填補這一空白,我們推出了MEENA(亦稱PersianMMMU),這是首個專為評估波斯語VLMs在科學、推理及人類層次理解任務上表現而設計的數據集。該數據集包含約7,500道波斯語及3,000道英語問題,涵蓋推理、數學、物理、圖表、以及波斯藝術與文學等多樣主題。MEENA的關鍵特徵包括:(1) 跨越多個教育階段(從小學至高級中學)的廣泛學科覆蓋,(2) 包含難度等級與詳解答案的豐富元數據,(3) 保留文化細微差別的原創波斯語數據,(4) 雙語結構以評估跨語言表現,以及(5) 一系列多樣化實驗,評估包括整體性能、模型對圖像的關注能力及其產生幻覺傾向在內的多種能力。我們期望此基準能助力提升VLMs在英語之外的能力。
組合式視覺推理已成為多模態人工智慧領域的關鍵研究前沿,旨在賦予機器類似人類的能力,能夠分解視覺場景、定位中間概念並進行多步邏輯推理。儘管早期的綜述聚焦於單一的視覺-語言模型或一般的多模態推理,但對於快速擴展的組合式視覺推理文獻,仍缺乏專門的綜合整理。我們通過一項涵蓋2023至2025年的全面調查填補了這一空白,系統性地回顧了來自頂級會議(如CVPR、ICCV、NeurIPS、ICML、ACL等)的260多篇論文。我們首先形式化了核心定義,並闡述了組合式方法在認知對齊、語義保真度、魯棒性、可解釋性和數據效率方面的優勢。接著,我們追溯了五個階段的範式轉變:從提示增強以語言為中心的管道,到工具增強的大型語言模型(LLMs)和工具增強的多模態視覺語言模型(VLMs),再到近期提出的思維鏈推理和統一代理多模態視覺語言模型,重點介紹了它們的架構設計、優勢與局限。隨後,我們分類整理了60多個基準測試及相應的指標,這些測試從定位準確性、思維鏈忠實度和高分辨率感知等維度探討了組合式視覺推理。基於這些分析,我們提煉出關鍵見解,指出了開放性挑戰(例如基於LLM推理的局限性、幻覺問題、偏向演繹推理、可擴展的監督、工具整合及基準測試的局限性),並勾勒了未來方向,包括世界模型整合、人機協作推理以及更豐富的評估協議。通過提供統一的分類體系、歷史路線圖和批判性展望,本調查旨在作為基礎性參考,並激發下一代組合式視覺推理研究的靈感。
語音分詞器作為語音語言模型的基礎組件,現有設計存在多項侷限,包括:1)依賴於多層殘差向量量化結構或高幀率,2)需要輔助預訓練模型進行語意蒸餾,3)要求複雜的兩階段訓練過程。本研究提出了一種新方法——文本感知擴散變壓器語音編解碼器(TaDiCodec),旨在克服這些挑戰。TaDiCodec通過擴散自編碼器實現量化與重建的端到端優化,並將文本指導整合至擴散解碼器中,以提升重建質量並實現最佳壓縮。對於24 kHz的語音,TaDiCodec在僅使用單層碼本的情況下,達到了極低的6.25 Hz幀率及相應的0.0875 kbps比特率,同時在關鍵語音生成評估指標如詞錯誤率(WER)、說話人相似度(SIM)及語音質量(UTMOS)上保持優異表現。值得注意的是,TaDiCodec採用單階段、端到端的訓練範式,無需依賴輔助預訓練模型。我們還驗證了TaDiCodec在基於語言模型的零樣本文本轉語音中,無論是自迴歸建模還是掩碼生成建模中的兼容性,展示了其在語音語言建模中的高效性與有效性,以及極小的重建-生成差距。我們將開源代碼及模型檢查點。音頻樣本可於https:/tadicodec.github.io/獲取。代碼與模型檢查點發佈於https:/github.com/HeCheng0625/Diffusion-Speech-Tokenizer。
半結構化表格在現實世界應用中(如財務報告、醫療記錄、交易訂單)廣泛使用,通常涉及靈活且複雜的佈局(如層次化標題和合併單元格)。這些表格通常依賴於人類分析師來解釋表格佈局並回答相關的自然語言問題,這既耗時又低效。為了自動化這一過程,現有方法面臨著重大挑戰。首先,像NL2SQL這樣的方法需要將半結構化表格轉換為結構化表格,這往往會導致大量信息丟失。其次,像NL2Code和多模態LLM QA這樣的方法難以理解半結構化表格的複雜佈局,無法準確回答相應的問題。為此,我們提出了ST-Raptor,這是一個基於樹的框架,利用大型語言模型進行半結構化表格問答。首先,我們引入了層次正交樹(HO-Tree),這是一種捕捉複雜半結構化表格佈局的結構模型,並提供了一個有效的樹構建算法。其次,我們定義了一組基本樹操作,以指導LLMs執行常見的QA任務。給定用戶問題,ST-Raptor將其分解為更簡單的子問題,生成相應的樹操作管道,並進行操作-表格對齊以確保管道執行的準確性。第三,我們引入了兩階段驗證機制:前向驗證檢查執行步驟的正確性,而後向驗證則通過從預測答案重建查詢來評估答案的可靠性。為了評估性能,我們提出了SSTQA,這是一個包含102個現實世界半結構化表格的764個問題的數據集。實驗表明,ST-Raptor在答案準確性上比九個基線方法高出最多20%。代碼可在https://github.com/weAIDB/ST-Raptor獲取。
視覺引導的圖像編輯,即編輯過程同時依賴於視覺線索和文本提示,已成為一種精細且可控內容生成的強大範式。儘管近期的生成模型展現了顯著的能力,現有的評估方法仍顯簡陋,不足以全面反映實際編輯中的挑戰。我們提出了SpotEdit,這是一個旨在系統評估多種擴散模型、自回歸模型及混合生成模型在視覺引導圖像編輯方面表現的綜合基準,揭示了顯著的性能差異。針對一個關鍵但尚未充分探索的挑戰,我們的基準特別包含了對幻覺現象的專項評估,揭示了如GPT-4o等領先模型常常錯誤地感知視覺線索的存在並錯誤執行編輯任務的情況。我們的代碼和基準已公開發佈於https://github.com/SaraGhazanfari/SpotEdit。
跨不同複雜度層次進行文本改寫的能力,對於創建可針對多元讀者群體量身定制的易讀文本至關重要。因此,我們推出了German4All,這是首個大規模德語對齊可讀性控制段落級改寫數據集。該數據集涵蓋五個可讀性等級,包含超過25,000個樣本。數據集通過GPT-4自動合成,並通過人工和基於大語言模型的評判進行嚴格評估。利用German4All,我們訓練了一個開源的可讀性控制改寫模型,該模型在德語文本簡化任務中達到了最先進的性能,實現了更細膩且針對特定讀者的文本適應。我們開源了數據集和模型,以鼓勵對多層次改寫的進一步研究。
本文探討了注意力機制中歸一化的局限性。我們首先建立了一個理論框架,該框架能夠識別模型的選擇能力以及涉及標記選擇的幾何分離。我們的分析包括在softmax縮放下對標記向量距離和分離標準的明確界限。通過對預訓練GPT-2模型的實驗,我們從經驗上驗證了理論結果,並分析了注意力機制的關鍵行為。值得注意的是,我們證明隨著選擇標記數量的增加,模型區分信息性標記的能力下降,往往趨向於均勻選擇模式。我們還展示了softmax歸一化下的梯度敏感性在訓練過程中帶來挑戰,特別是在低溫設置下。這些發現增進了當前對基於softmax的注意力機制的理解,並激發了未來注意力架構中對更穩健的歸一化和選擇策略的需求。
表面重建在计算机视觉和图形学领域已被广泛研究。然而,现有的表面重建方法在输入视角极其稀疏的情况下,难以恢复精确的场景几何。为解决这一问题,我们提出了MeshSplat,一种基于高斯抛射的可泛化稀疏视角表面重建框架。我们的核心思想是利用2D高斯抛射(2DGS)作为桥梁,将新视角合成与学习到的几何先验连接起来,进而将这些先验转移以实现表面重建。具体而言,我们引入了一个前馈网络来预测每视角像素对齐的2DGS,这使得网络能够合成新视角图像,从而无需直接的三维真实值监督。为了提高2DGS位置和方向预测的准确性,我们提出了加权Chamfer距离损失来正则化深度图,特别是在输入视角的重叠区域,并引入了一个法线预测网络,以将2DGS的方向与单目法线估计器预测的法向量对齐。大量实验验证了我们所提出改进的有效性,表明我们的方法在可泛化稀疏视角网格重建任务中达到了最先进的性能。项目页面:https://hanzhichang.github.io/meshsplat_web
評估自然語言生成(NLG)系統仍然是自然語言處理(NLP)的核心挑戰,而大型語言模型(LLMs)的崛起旨在成為通用工具,使得這一挑戰更加複雜。最近,作為評判者的大型語言模型(LLJs)已成為傳統指標的有力替代方案,但其有效性仍有待深入探討。本立場文件認為,當前對LLJs的熱情可能為時過早,因為其應用速度已超過了對其作為評估者的可靠性和有效性的嚴格審查。借鑒社會科學中的測量理論,我們識別並批判性地評估了使用LLJs的四個核心假設:其作為人類判斷代理的能力、其作為評估者的能力、其可擴展性以及其成本效益。我們探討了這些假設如何可能受到LLMs、LLJs或當前NLG評估實踐固有局限性的挑戰。為了使分析更具體,我們探討了LLJs的三個應用場景:文本摘要、數據註釋和安全對齊。最後,我們強調在LLJs評估中需要更負責任的評估實踐,以確保其在該領域日益增長的角色能夠支持而非阻礙NLG的進步。
寫實感是現代電子遊戲的重要面向,因其能塑造玩家體驗,同時影響沉浸感、敘事參與度及視覺逼真度。儘管近期硬體技術的突破與尖端渲染技術已大幅提升遊戲的視覺真實感,但在動態環境中實現即時幀率的真實寫實仍是一大挑戰,這源於視覺品質與效能之間的權衡。本短文提出了一種新穎方法,利用生成對抗網絡來增強渲染遊戲畫面的寫實感。為此,我們提出了基於雙階段生成網絡框架的遊戲即時寫實增強技術(REGEN),該框架採用強大的無配對圖像到圖像轉換模型,生成語義一致的真實感畫面,將問題轉化為更簡單的配對圖像到圖像轉換任務。這使得我們能夠以輕量級方法進行訓練,實現即時推理而不犧牲視覺品質。我們在《俠盜獵車手V》上展示了該框架的有效性,結果顯示,該方法在視覺效果上與強大的無配對Im2Im方法相當,同時推理速度提升了32.14倍。研究還表明,相較於直接訓練輕量級無配對Im2Im轉換方法將遊戲畫面轉換為現實世界圖像視覺特徵所產生的寫實增強畫面,本方法結果更為優異。本工作的代碼、預訓練模型及演示可於以下網址獲取:https://github.com/stefanos50/REGEN。
先前的研究表明,生成问题中的预设可能引入未经证实的假设,从而导致声明验证中的不一致性。此外,提示敏感性仍然是大型语言模型(LLMs)面临的一个重大挑战,导致性能波动高达3-6%。尽管最近的进展已缩小了这一差距,但我们的研究表明,提示敏感性仍然是一个持续存在的问题。为解决这一问题,我们提出了一种结构化和稳健的声明验证框架,该框架通过无预设、分解的问题进行推理。在多个提示、数据集和LLMs上的广泛实验表明,即使是最先进的模型仍然容易受到提示变异和预设的影响。我们的方法持续缓解了这些问题,实现了高达2-5%的改进。