每日精選AI研究論文及翻譯
多模態大型語言模型(MLLMs)在各種任務中展現了令人印象深刻的能力,但在複雜的數學推理方面仍存在困難。現有研究主要集中於數據集構建和方法優化,往往忽略了兩個關鍵方面:全面的知識驅動設計和以模型為中心的數據空間建模。本文介紹了We-Math 2.0,這是一個統一的系統,整合了結構化的數學知識體系、以模型為中心的數據空間建模以及基於強化學習(RL)的訓練範式,以全面增強MLLMs的數學推理能力。We-Math 2.0的主要貢獻包括以下四點:(1) MathBook知識體系:我們構建了一個五層次的層級系統,涵蓋491個知識點和1,819個基本原理。(2) MathBook-Standard & Pro:我們開發了MathBook-Standard,這是一個通過雙重擴展確保廣泛概念覆蓋和靈活性的數據集。此外,我們定義了一個三維難度空間,並為每個問題生成7個漸進變體,以構建MathBook-Pro,這是一個用於穩健訓練的挑戰性數據集。(3) MathBook-RL:我們提出了一個兩階段的RL框架,包括:(i) 冷啟動微調,使模型與知識導向的思維鏈推理對齊;以及(ii) 漸進對齊RL,利用平均獎勵學習和動態數據調度,實現跨難度層次的漸進對齊。(4) MathBookEval:我們引入了一個全面的基準測試,涵蓋所有491個知識點,並具有多樣化的推理步驟分佈。實驗結果表明,MathBook-RL在四個廣泛使用的基準測試上與現有基線競爭激烈,並在MathBookEval上取得了強勁的結果,顯示出在數學推理方面具有潛在的泛化能力。
現有的文本到圖像生成自回歸(AR)模型,要么依賴於計算密集型的擴散模型來處理連續的圖像標記,要么採用向量量化(VQ)來獲取帶有量化損失的離散標記。本文中,我們通過NextStep-1模型推動了自回歸範式的發展,這是一個擁有140億參數的自回歸模型,配備了一個1.57億參數的流匹配頭,通過下一個標記預測目標來訓練離散的文本標記和連續的圖像標記。NextStep-1在文本到圖像生成任務中達到了自回歸模型的頂尖性能,展現了在高保真圖像合成方面的強大能力。此外,我們的方法在圖像編輯方面也表現出色,凸顯了我們統一方法的強大與多樣性。為了促進開放研究,我們將向社區公開我們的代碼和模型。
我們推出PRELUDE這一基準,旨在通過判斷角色的前傳故事是否與原著的正統敘事一致來評估長上下文理解能力。與現有基準相比,我們的任務對全局理解和深度推理提出了更高要求——由於前傳並非原著的一部分,評估其合理性通常需要搜索並整合僅間接相關的信息。實證表明,88%的案例需要從敘事的多個部分獲取證據。實驗結果凸顯了我們任務的挑戰性:在上下文學習、檢索增強生成(RAG)及使用最先進的大型語言模型(LLMs)進行領域內訓練,以及商業深度研究服務中,這些方法均落後於人類表現超過15%。進一步的人類研究揭示,模型經常在推理過程存在缺陷的情況下給出正確答案,導致其推理準確性與人類相比存在超過30%的差距。這些發現強調了在長上下文理解和推理方面仍有巨大的改進空間。
傳統卡通與動漫製作包含關鍵幀繪製、中間幀生成及上色等階段,這些步驟需要大量的人工投入。儘管人工智慧領域近期取得了顯著進展,現有方法往往將這些階段分開處理,導致錯誤累積和視覺瑕疵。例如,中間幀生成技術在處理大幅動作時存在困難,而上色方法則需要密集的逐幀草圖。為解決這些問題,我們推出了ToonComposer,這是一個將中間幀生成與上色統一整合至關鍵幀後處理階段的生成模型。ToonComposer採用稀疏草圖注入機制,利用關鍵幀草圖實現精確控制。此外,它通過空間低秩適配器的卡通適應方法,將現代視頻基礎模型調整至卡通領域,同時保持其時間先驗不變。ToonComposer僅需單一草圖和一個參考上色幀即可出色處理稀疏輸入,同時支持在任何時間點使用多個草圖以實現更精確的動作控制。這種雙重能力減少了人工工作量並提升了靈活性,在實際應用中賦能藝術家。為評估我們的模型,我們進一步創建了PKBench,這是一個包含模擬真實使用場景的手繪草圖的基準測試集。我們的評估結果表明,ToonComposer在視覺質量、動作一致性及製作效率上均優於現有方法,為AI輔助卡通製作提供了一個更優越且更靈活的解決方案。
我們推出UI-Venus,這是一款基於多模態大語言模型的原生UI代理,僅以螢幕截圖作為輸入。UI-Venus通過基於Qwen2.5-VL的強化微調(RFT),僅使用數十萬高質量訓練樣本,便在UI定位與導航任務上達到了SOTA性能。具體而言,UI-Venus的7B與72B版本在標準定位基準測試Screenspot-V2 / Pro上分別取得了94.1% / 50.8%與95.3% / 61.9%的成績,超越了包括開源GTA1與閉源UI-TARS-1.5在內的先前SOTA基線。為展示UI-Venus的總結與規劃能力,我們還在AndroidWorld這一線上UI導航競技場上對其進行了評估,其中我們的7B與72B版本分別達到了49.1%與65.9%的成功率,同樣超越了現有模型。為實現這一成果,我們針對UI定位與導航任務精心設計了獎勵函數及相應的高效數據清理策略。為進一步提升導航性能,我們提出了自我進化的軌跡歷史對齊與稀疏動作增強方法,該方法精煉了歷史推理軌跡並平衡了稀疏但關鍵動作的分佈,從而在複雜UI任務中實現了更連貫的規劃與更好的泛化能力。我們的貢獻包括發布了SOTA開源UI代理、全面的數據清理協議以及一個新穎的自我進化框架,用於提升導航性能,這些都將激勵社區進一步的研究與開發。代碼已發佈於https://github.com/antgroup/UI-Venus。
擴散語言模型(Diffusion Language Models, DLMs)正迅速崛起,成為主導的自迴歸(Autoregressive, AR)範式之外一個強大且極具潛力的替代方案。通過迭代去噪過程並行生成詞元,DLMs在降低推理延遲和捕捉雙向上下文方面具有內在優勢,從而實現對生成過程的精細控制。在實現數倍速度提升的同時,最新進展已使DLMs展現出與自迴歸模型相媲美的性能,使其成為各種自然語言處理任務中的一個引人注目的選擇。在本綜述中,我們全面概述了當前DLM的發展現狀。我們追溯了其演變歷程及其與其他範式(如自迴歸和掩碼語言模型)的關係,並涵蓋了基礎原理和最先進的模型。我們的工作提供了一個最新、全面的分類體系,並對當前技術進行了深入分析,從預訓練策略到先進的後訓練方法。本綜述的另一貢獻是對DLM推理策略和優化技術的全面回顧,包括解碼並行性、緩存機制和生成質量的改進。我們還重點介紹了DLM在多模態擴展方面的最新方法,並描繪了其在各種實際場景中的應用。此外,我們的討論涉及DLM的局限性和挑戰,包括效率、長序列處理和基礎設施需求,同時勾勒出未來的研究方向,以維持這一快速發展領域的進步。項目GitHub地址為https://github.com/VILA-Lab/Awesome-DLMs。
現代互動應用程式日益需要動態的3D內容,然而將靜態3D模型轉化為動畫資產的過程,已成為內容創作流程中的一大瓶頸。儘管生成式AI的最新進展已徹底改變了靜態3D模型的創建方式,但骨骼綁定與動畫製作仍高度依賴專家介入。我們提出了Puppeteer,這是一個全面的框架,旨在解決多樣化3D物件的自動骨骼綁定與動畫生成問題。我們的系統首先通過一個自迴歸變換器預測合理的骨骼結構,該變換器引入了基於關節的標記化策略以實現緊湊表示,並採用帶有隨機擾動的層次排序方法,增強了雙向學習能力。接著,系統通過一個基於注意力的架構推斷蒙皮權重,該架構結合了拓撲感知的關節注意力,明確地根據骨骼圖距離編碼了關節間的關係。最後,我們以一種基於可微分優化的動畫生成管道來補充這些骨骼綁定技術,該管道在生成穩定、高保真動畫的同時,計算效率也優於現有方法。在多個基準測試上的廣泛評估表明,我們的方法在骨骼預測精度和蒙皮質量方面均顯著超越了當前最先進的技術。該系統能夠穩健處理從專業設計的遊戲資產到AI生成形狀的多樣化3D內容,產生的時間連貫動畫消除了現有方法中常見的抖動問題。
我們提出了STream3R,這是一種新穎的三維重建方法,它將點雲圖預測重新表述為僅解碼器的Transformer問題。現有的多視角重建最先進方法要么依賴於昂貴的全局優化,要么依賴於隨序列長度擴展性能不佳的簡單記憶機制。相比之下,STream3R引入了一種流式處理框架,利用因果注意力高效處理圖像序列,這一靈感來自現代語言建模的進展。通過從大規模三維數據集中學習幾何先驗,STream3R能夠很好地泛化到多樣且具有挑戰性的場景,包括傳統方法經常失敗的動態場景。大量實驗表明,我們的方法在靜態和動態場景基準測試中均一致優於先前的工作。此外,STream3R本質上兼容LLM風格的訓練基礎設施,使得針對各種下游三維任務的大規模預訓練和微調成為可能。我們的結果強調了因果Transformer模型在線三維感知中的潛力,為實時三維理解在流式環境中的應用鋪平了道路。更多詳情請訪問我們的項目頁面:https://nirvanalan.github.io/projects/stream3r。
採用可驗證獎勵的強化學習(RLVR),通常以Pass@1作為獎勵,在平衡探索與利用方面面臨挑戰,導致策略傾向於保守行動,收斂至局部最優。因此,確定合適的獎勵指標至關重要。關於先前的研究,儘管Pass@k已被用於評估,但其與RLVR中大語言模型探索能力的關聯在很大程度上被忽視。為探究此問題,我們首先使用Pass@k作為獎勵來訓練策略模型(即Pass@k訓練),並觀察其探索能力的提升。接著,我們推導出Pass@k訓練優勢的解析解,從而實現了一個高效且有效的過程。基於此,我們的分析揭示,探索與利用並非本質上相互衝突的目標,而是可以相互促進。此外,結合解析推導的Pass@k訓練本質上涉及直接設計優勢函數。受此啟發,我們初步探索了RLVR中的優勢設計,展示了令人鼓舞的結果,並指明了一個潛在的未來研究方向。
儘管多模態大型語言模型(MLLMs)在實現真正類人互動方面展現出巨大潛力,但由於缺乏針對以人為本場景的細粒度評估框架,進展受到阻礙。這些框架需涵蓋對複雜人類意圖的理解以及提供富有同理心、情境感知的回應。為此,我們引入了HumanSense,這是一個全面的基準測試,旨在評估MLLMs在以人為本的感知與互動能力,特別關注對擴展多模態語境的深度理解及理性反饋的構建。我們的評估顯示,領先的MLLMs在面向高級互動任務上仍有顯著提升空間。通過補充視覺輸入與音頻及文本信息,可帶來實質性改進,而全模態模型在這些任務上展現出優勢。此外,我們認為恰當的反饋源於對對話者需求與情感的語境分析,推理能力則是解鎖這一能力的關鍵。因此,我們採用多階段、模態漸進的強化學習來增強全模態模型的推理能力,在評估結果上取得了顯著提升。同時,我們觀察到成功的推理過程呈現出高度一致的思維模式。通過設計相應的提示,我們也以無需訓練的方式提升了非推理模型的表現。項目頁面:brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
先前的研究已分析了视觉编码器对图像变换和损坏的鲁棒性,特别是在训练期间未见过此类改变的情况下。当这种情况发生时,它们会在测试时引入一种分布偏移,通常导致性能下降。主要关注点集中在那些严重损坏上,这些损坏在激进应用时,会扭曲准确语义预测所需的有用信号。 我们则从不同角度出发,分析了图像获取过程中的参数以及那些可能细微甚至人眼难以察觉的变换。我们发现,这些参数被系统地编码在习得的视觉表示中,并且可以轻易恢复。更为引人注目的是,它们的存在可能对语义预测产生深远影响,无论是正面还是负面。这种影响取决于语义标签与这些基于获取或处理的标签之间是否存在强相关性或反相关性。我们的代码和数据可在以下网址获取:https://github.com/ryan-caesar-ramos/visual-encoder-traces。
機器學習的最新進展激發了人們對自動化口譯品質評估日益增長的興趣。然而,現有研究存在語言使用品質檢驗不足、因數據稀缺和不平衡導致建模效果不理想,以及缺乏解釋模型預測的努力等問題。為解決這些不足,我們提出了一個多維建模框架,該框架整合了特徵工程、數據增強和可解釋機器學習。此方法優先考慮可解釋性而非「黑箱」預測,僅使用與構建相關的透明特徵,並進行Shapley值(SHAP)分析。我們的結果在一個新穎的英漢交替傳譯數據集上展示了強大的預測性能,識別出BLEURT和CometKiwi分數為忠實度的最強預測特徵,停頓相關特徵為流利度的關鍵指標,以及中文特有的短語多樣性指標對語言使用的重要性。總體而言,通過特別強調可解釋性,我們提供了一種可擴展、可靠且透明的替代傳統人工評估的方法,促進為學習者提供詳細的診斷反饋,並支持自動化分數單獨無法提供的自我調節學習優勢。
在可信自然語言處理(NLP)的研究中,已湧現出多個重要研究領域,其中包括可解釋性與隱私保護。儘管近年來對可解釋及隱私保護的NLP研究興趣顯著增加,但在這兩者的交叉領域仍缺乏深入探討。這導致我們對於是否能夠同時實現可解釋性與隱私保護,或者這兩者是否相互矛盾,存在著相當大的理解空白。在本研究中,我們以差分隱私(DP)和事後可解釋性這兩種主流方法為指導,對NLP中的隱私-可解釋性權衡進行了實證研究。我們的研究揭示了隱私與可解釋性之間複雜的關係,這種關係由多種因素構成,包括下游任務的性質、文本隱私化方法及可解釋性方法的選擇。在此基礎上,我們強調了隱私與可解釋性共存的潛力,並將我們的研究成果總結為一系列實用建議,以供未來在這一重要交叉領域的工作參考。