每日精選AI研究論文及翻譯
近期以推理為核心的語言模型進展,凸顯了強化學習(RL)作為一種對齊模型與可驗證獎勵的潛力方法。然而,關於RL是否真正擴展了模型的推理能力,還是僅僅放大了基礎模型分佈中已潛藏的高獎勵輸出,以及持續增加RL計算資源是否能可靠地提升推理性能,這些問題仍存在爭議。在本研究中,我們通過展示長時間的RL(ProRL)訓練能夠揭示基礎模型即使經過大量採樣也無法觸及的新推理策略,挑戰了現有的假設。我們提出了ProRL,這是一種新穎的訓練方法,它結合了KL散度控制、參考策略重置以及多樣化的任務集。我們的實證分析表明,經過RL訓練的模型在廣泛的pass@k評估中持續超越基礎模型,包括那些基礎模型無論嘗試多少次都完全失敗的情境。我們進一步展示了推理邊界的改善與基礎模型的任務能力及訓練時長強相關,這表明RL能夠隨著時間的推移探索並填充解決方案空間的新區域。這些發現為理解RL在何種條件下能有意義地擴展語言模型的推理邊界提供了新的見解,並為未來關於長期視野RL用於推理的研究奠定了基礎。我們發布了模型權重以支持進一步研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B。
本文提出AlphaOne(alpha1),一种在测试时调节大型推理模型(LRMs)推理进程的通用框架。alpha1首先引入了alpha时刻,该时刻通过一个通用参数alpha来表征缩放后的思考阶段。在此预alpha时刻的缩放阶段内,它通过将推理过渡令牌的插入建模为伯努利随机过程,动态地调度慢速思维的转换。alpha时刻之后,alpha1确定性地以思考结束令牌终止慢速思维,从而促进快速推理和高效答案生成。此方法通过实现灵活且密集的慢速到快速推理调节,统一并推广了现有的单调缩放方法。在数学、编程及科学领域的一系列挑战性基准上的广泛实证研究,展示了alpha1卓越的推理能力与效率。项目页面:https://alphaone-project.github.io/
近期,視覺語言模型(VLMs)在理解視頻中的時空關係方面取得了顯著進展。然而,當空間信息被遮蔽時,這些模型在捕捉純粹的時間模式上顯得力不從心。我們引入了SpookyBench,這是一個基準測試,其中信息僅通過噪聲般幀的時間序列進行編碼,模擬了從生物信號到隱蔽通信的自然現象。有趣的是,雖然人類能夠以超過98%的準確率識別這些序列中的形狀、文字和模式,但最先進的VLMs卻達到了0%的準確率。這一性能差距揭示了一個關鍵限制:過度依賴於幀級別的空間特徵,以及無法從時間線索中提取意義。此外,當在空間信噪比(SNR)較低的數據集上進行訓練時,模型的時間理解能力比人類感知退化得更快,尤其是在需要精細時間推理的任務中。克服這一限制將需要新的架構或訓練範式,以將空間依賴性與時間處理解耦。我們的系統分析表明,這一問題在模型規模和架構中普遍存在。我們發布SpookyBench,旨在催化時間模式識別的研究,並縮小人類與機器在視頻理解上的差距。數據集和代碼已在我們的項目網站上提供:https://timeblindness.github.io/。
生成能夠忠實捕捉現實世界分佈統計結構的合成數據,是數據建模中的一個根本性挑戰。傳統方法通常依賴於強參數假設或手動結構設計,在高維或異構領域中表現欠佳。大型語言模型(LLMs)的最新進展揭示了其作為靈活、高維的現實世界分佈先驗的潛力。然而,當應用於數據合成時,基於LLM的標準採樣效率低下,受固定上下文限制,且無法確保統計對齊。鑑於此,我們引入了LLMSynthor,這是一個通用的數據合成框架,將LLMs轉化為由分佈反饋引導的結構感知模擬器。LLMSynthor將LLM視為非參數的copula模擬器,用於建模高階依賴關係,並引入LLM提案採樣來生成基於實際的提案分佈,從而提高採樣效率,無需拒絕採樣。通過在摘要統計空間中最小化差異,迭代合成循環在逐步揭示和精煉潛在生成結構的同時,對齊真實與合成數據。我們在隱私敏感領域(如電子商務、人口和移動性)的異構數據集上,對LLMSynthor進行了控制和現實環境的評估,這些數據集涵蓋了結構化和非結構化格式。LLMSynthor生成的合成數據展現出高統計保真度、實用價值和跨數據適應性,使其成為經濟學、社會科學、城市研究等領域的寶貴工具。
驗證器在大型語言模型(LLM)的推理過程中扮演著至關重要的角色,尤其是在強化學習等後訓練技術中不可或缺。然而,針對複雜的編碼問題,獲取可靠的驗證器頗具挑戰性,因為精心偽裝的錯誤解決方案可能僅能通過人工精心編寫的邊界案例來檢測,而這些案例又難以自動合成。為解決這一難題,我們提出了HARDTESTGEN,一個利用LLM進行高質量測試合成的流程。通過這一流程,我們精心整理了一個全面的競賽編程數據集HARDTESTS,包含47,000個問題及合成的高質量測試。與現有測試相比,HARDTESTGEN生成的測試在評估LLM生成的代碼時,精確度提升了11.3個百分點,召回率提高了17.5個百分點。對於更難的問題,精確度的提升幅度可達40個百分點。此外,HARDTESTS在模型訓練方面也展現出更高的效能,這通過下游代碼生成性能的測量得以驗證。我們將在https://leililab.github.io/HardTests/開源我們的數據集及合成流程。
我們提出了v1,這是一個對多模態大型語言模型(MLLMs)的輕量級擴展,使模型在推理過程中能夠選擇性地重新訪問視覺信息。當前MLLMs通常僅在初始階段處理視覺輸入,之後完全依賴內部記憶進行推理,而v1引入了一種簡單的點選複製機制,允許模型在整個推理過程中動態檢索相關的圖像區域。該機制以最小的修改增強了現有架構,使模型能夠基於其不斷演變的假設,上下文相關地訪問視覺標記。為了訓練這一能力,我們構建了v1g,這是一個包含30萬條多模態推理軌跡的數據集,其中交織著視覺基礎註釋。在三個多模態數學推理基準——MathVista、MathVision和MathVerse上的實驗表明,v1相較於可比基線模型持續提升了性能,尤其是在需要細粒度視覺參考和多步推理的任務上。我們的結果表明,動態視覺訪問是增強基於多模態推理的一個有前景的方向。代碼、模型和數據將被公開以支持未來的研究。
故事視覺化旨在生成一系列與給定敘事和參考圖像相符的視覺連貫圖像,隨著生成模型的最新進展,該領域已取得顯著進步。為了進一步提升故事視覺化框架在現實場景中的表現,我們引入了一個全面的評估基準——ViStoryBench。我們收集了一個涵蓋多種故事類型和藝術風格的多元化數據集,確保模型能在不同情節(如喜劇、恐怖)和視覺美學(如動漫、3D渲染)等多個維度上進行評估。ViStoryBench精心策劃,以平衡敘事結構和視覺元素,包含單一和多主角的故事,以測試模型在保持角色一致性方面的能力。此外,它還包含複雜的情節和精細的世界構建,挑戰模型生成準確視覺效果的能力。為了確保全面的比較,我們的基準整合了多種評估指標,涵蓋關鍵方面。這一結構化且多層次的框架使研究人員能夠深入識別不同模型的優勢和弱點,促進有針對性的改進。
近期,大型語言模型(如DeepSeek-R1)的推理能力引起了爆炸性的關注,這些模型通過基於強化學習的微調框架展現了顯著的成功,其中以群組相對策略優化(GRPO)等方法為代表。然而,此類推理能力在視覺基礎模型中仍未被充分探索,尤其是在如DINO系列等表徵模型中更是明顯缺失。在本研究中,我們提出了DINO-R1,這是首次嘗試利用強化學習激勵視覺基礎模型的視覺上下文推理能力。具體而言,DINO-R1引入了群組相對查詢優化(GRQO),這是一種專為基於查詢的表徵模型設計的新穎強化式訓練策略,它根據群組歸一化的對齊質量計算查詢級獎勵。此外,我們還應用KL正則化來穩定對象性分佈,從而減少訓練的不穩定性。這種聯合優化使得查詢間能夠獲得密集且具表現力的監督,同時緩解過擬合和分佈漂移問題。基於Grounding-DINO,我們訓練了一系列DINO-R1家族模型,這些模型整合了視覺提示編碼器和視覺引導的查詢選擇機制。在COCO、LVIS和ODinW上的廣泛實驗表明,DINO-R1顯著超越了監督微調基線,在開放詞彙和封閉集視覺提示場景中均展現出強大的泛化能力。
自动化人工智能研究具有加速科学进步的巨大潜力,然而当前的人工智能代理在应对严谨、端到端实验的复杂性方面仍面临挑战。我们引入了EXP-Bench,这是一个新颖的基准测试,旨在系统评估人工智能代理在源自有影响力的人工智能出版物的完整研究实验中的表现。给定一个研究问题和不完整的初始代码,EXP-Bench挑战人工智能代理提出假设、设计并实施实验程序、执行实验并分析结果。为了能够创建如此复杂且真实的高保真任务,我们设计了一个半自动化流程,从这些研究论文及其相关的开源代码中提取并结构化关键的实验细节。通过该流程,EXP-Bench从51篇顶级人工智能研究论文中精选了461项人工智能研究任务。对基于大型语言模型的领先代理(如OpenHands和IterativeAgent)在EXP-Bench上的评估显示,它们在个别实验方面(如设计或实施正确性)的得分偶尔达到20-35%,但完整、可执行实验的成功率仅为0.5%。通过识别这些瓶颈并提供现实的逐步实验程序,EXP-Bench成为未来人工智能代理提升其进行人工智能研究实验能力的重要工具。EXP-Bench已在https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench开源。
CAPTCHA 一直是部署網絡代理於實際應用中的關鍵瓶頸,常常阻礙其完成端到端的自動化任務。儘管現代多模態大語言模型(MLLM)代理在靜態感知任務中展現了令人印象深刻的性能,但其處理如 CAPTCHA 這類互動式、多步驟推理挑戰的能力卻鮮有測試。為填補這一空白,我們推出了 Open CaptchaWorld,這是首個專門設計用於通過多樣化且動態的 CAPTCHA 謎題來評估 MLLM 驅動代理的視覺推理與互動能力的基於網絡的基準測試平台。我們的基準涵蓋了 20 種現代 CAPTCHA 類型,總計 225 個 CAPTCHA,並配備了我們提出的新指標:CAPTCHA 推理深度,該指標量化了解決每個謎題所需的認知與操作步驟數量。實驗結果顯示,人類始終能接近滿分,而最先進的 MLLM 代理則表現掙扎,Browser-Use Openai-o3 的成功率最高僅為 40.0%,遠低於人類水平的 93.3%。這凸顯了 Open CaptchaWorld 作為診斷當前多模態代理局限性的重要基準,並為開發更強大的多模態推理系統提供了指導。代碼與數據可通過此 https 網址獲取。
可驗證獎勵的強化學習(RLVR)近期已成為大型語言模型(LLMs)後訓練的一種強大範式,在具有結構化、可驗證答案的任務上達到了最先進的性能。將RLVR應用於多模態大型語言模型(MLLMs)雖展現出顯著的潛力,但由於視覺語言任務的廣泛性和異質性,這些任務需要細膩的視覺、邏輯和空間能力,使得應用過程變得複雜。因此,在多個數據集上使用RLVR訓練MLLMs可能帶來益處,但也會因不同數據集間的交互導致目標衝突,凸顯了優化數據集混合策略以提升泛化能力和推理能力的必要性。我們引入了一個系統化的多模態LLM RLVR後訓練框架,包括嚴謹的數據混合問題公式化及基準實現。具體而言,(1)我們開發了一個多模態RLVR框架,用於多數據集後訓練,通過策劃一個包含不同可驗證視覺語言問題的數據集,並支持多領域在線RL學習,配以不同的可驗證獎勵;(2)我們提出了一種數據混合策略,該策略能夠從數據混合分佈中預測RL微調的結果,從而優化最佳混合方案。全面的實驗表明,結合混合預測策略的多領域RLVR訓練,能顯著提升MLLM的通用推理能力。我們的最佳混合方案使後訓練模型在分佈外基準測試上的準確率平均提升了5.24%,相比於使用均勻數據混合進行後訓練的同一模型,並且相比於微調前的基線總共提升了20.74%。
合成包括身體動作、手部動作和物體運動在內的全身操控關節物體,是一項關鍵且具有挑戰性的任務,在虛擬人體和機器人領域有著廣泛的應用。核心挑戰主要有兩方面。首先,實現逼真的全身運動需要手部與身體其他部位之間的緊密協調,因為在操控過程中它們的運動是相互依存的。其次,關節物體的操控通常涉及高自由度,並要求更高的精確度,往往需要將手指放置在特定區域以驅動可動部件。為應對這些挑戰,我們提出了一種新穎的協調擴散噪聲優化框架。具體而言,我們在三個專用的擴散模型上進行噪聲空間優化,分別針對身體、左手和右手,每個模型都在其自身的運動數據集上訓練以提高泛化能力。協調性通過沿人體運動鏈的梯度流自然產生,使得全局身體姿態能夠高保真地適應手部運動目標。為了進一步增強手物交互的精確度,我們採用了基於基點集(BPS)的統一表示法,其中末端執行器的位置被編碼為與用於物體幾何的相同BPS的距離。這種統一表示法捕捉了手部與關節物體部件之間的細粒度空間關係,生成的軌跡作為目標來指導擴散噪聲的優化,從而產生高度精確的交互運動。我們進行了大量實驗,證明我們的方法在運動質量和物理合理性上優於現有方法,並支持多種能力,如物體姿態控制、同時行走與操控,以及僅從手部數據生成全身動作。
大型語言模型(LLMs)從網際網路中記憶了大量先驗知識,這些知識有助於它們在下游任務中的表現,但也可能使其輸出偏向錯誤或有偏見的答案。在本研究中,我們測試了關於流行主題的知識如何影響視覺語言模型(VLMs)在標準、客觀的視覺任務(如計數和識別)中的準確性。我們發現,最先進的VLMs存在強烈的偏見(例如,無法識別在阿迪達斯三條紋標誌上添加了第四條紋),在七個不同領域(從動物、標誌、國際象棋、棋盤遊戲、視錯覺到圖案網格)的計數任務(例如,計算類似阿迪達斯標誌的條紋數量)中,平均準確率僅為17.05%。在反事實圖像中插入描述主題名稱的文本(例如,“阿迪達斯”)進一步降低了VLM的準確性。VLMs的偏見如此強烈,以至於指示它們重新檢查結果或僅依賴圖像細節來回答問題,平均僅將計數準確率提高了+2分。我們的工作揭示了VLMs中的一個有趣失敗模式,並提供了一個自動化框架來測試VLM的偏見。代碼和數據可在以下網址獲取:vlmsarebiased.github.io。
大型語言模型(LLMs)可信度的一個關鍵要素在於其不確定性的可靠傳達,然而LLMs在傳遞錯誤主張時往往使用斷言性語言,導致過度依賴和信任度下降。我們首次系統性地研究了LLMs的忠實信心校準,評估了模型在廣泛的模型、數據集和提示策略下,使用忠實反映其內在不確定性的語言表達能力。研究結果表明,LLMs在這一任務上普遍表現不佳,且現有干預措施不足:標準提示方法僅帶來邊際改善,而基於事實性的校準技術甚至可能損害忠實校準。為填補這一關鍵缺口,我們引入了MetaFaith,一種受人類元認知啟發的新型基於提示的校準方法。我們證明,MetaFaith在多樣化的模型和任務領域中穩健地提升了忠實校準,實現了高達61%的忠實度提升,並在人類評判下對原始生成結果取得了83%的勝率。
文本轉語音(TTS)基準測試往往未能充分評估模型處理細膩且語義複雜文本的能力。基於EmergentTTS,我們引入了EmergentTTS-Eval,這是一個涵蓋六種具挑戰性TTS場景的綜合基準:情感、副語言特徵、外來詞彙、句法複雜性、複雜發音(如URL、公式)以及疑問句。關鍵在於,我們的框架自動化地完成了測試案例生成與評估,使得該基準易於擴展。從少量人工編寫的種子提示出發,我們利用大型語言模型(LLMs)迭代擴展,針對特定的結構、語音和韻律挑戰,最終生成了1,645個多樣化的測試案例。此外,我們採用“模型即裁判”的方法,利用大型音頻語言模型(LALM)從多個維度評估語音,包括表達的情感、韻律、語調及發音準確性。我們在EmergentTTS-Eval上評估了多個領先的開源和專有TTS系統,如11Labs、Deepgram及OpenAI的4o-mini-TTS,展示了其揭示細粒度性能差異的能力。結果表明,“模型即裁判”的方法提供了穩健的TTS評估,並與人類偏好高度相關。我們開源了評估代碼(https://github.com/boson-ai/EmergentTTS-Eval-public)及數據集(https://huggingface.co/datasets/bosonai/EmergentTTS-Eval)。
近期,利用扩散模型先验辅助单目几何估计(如深度和法线)的方法因其强大的泛化能力而受到广泛关注。然而,现有研究大多集中于在单个视频帧的相机坐标系内估计几何属性,忽视了扩散模型在确定帧间对应关系方面的固有能力。在本研究中,我们通过适当的设计和微调,证明了视频生成模型的内在一致性可被有效利用于一致的几何估计。具体而言,我们1)选择在全局坐标系中与视频帧具有相同对应关系的几何属性作为预测目标,2)通过重用位置编码引入了一种新颖且高效的条件化方法,以及3)通过对共享相同对应关系的多个几何属性进行联合训练来提升性能。我们的结果在预测视频中的全局几何属性方面表现出色,并可直接应用于重建任务。即使仅在静态视频数据上进行训练,我们的方法也展现出泛化到动态视频场景的潜力。
測試時計算能力的提升,賦予了多模態大型語言模型生成延伸推理鏈的能力,從而在多模態數學推理等任務上展現出強勁性能。然而,這種增強的推理能力往往伴隨著幻覺現象的增加:隨著生成內容的延長,模型傾向於偏離基於圖像的內容,更多地依賴語言先驗。注意力分析顯示,更長的推理鏈導致對視覺輸入的關注度降低,這加劇了幻覺的產生。為系統研究這一現象,我們引入了RH-AUC指標,該指標量化了模型感知準確性隨推理長度的變化,使我們能夠評估模型在推理過程中是否保持了視覺基礎。同時,我們發布了RH-Bench,這是一個涵蓋多種多模態任務的診斷基準,旨在評估推理能力與幻覺之間的權衡。我們的分析揭示:(i) 更大的模型通常在推理與感知之間達到更好的平衡;(ii) 這種平衡更多地受到訓練數據類型和領域的影響,而非其總體數量。這些發現強調了評估框架需同時考慮推理質量與感知保真度的重要性。
生成精確的多語言文本一直是擴散模型領域長期以來的追求,但至今仍面臨挑戰。近期方法在單一語言文本渲染方面取得了進展,然而,任意語言的渲染仍是一個未經充分探索的領域。本文介紹了EasyText,一個基於DiT(擴散變壓器)的文本渲染框架,該框架將去噪潛變量與編碼為字符標記的多語言字符標記相連接。我們提出了字符定位編碼與位置編碼插值技術,以實現可控且精確的文本渲染。此外,我們構建了一個包含100萬條多語言圖像-文本註釋的大規模合成文本圖像數據集,以及一個包含20K高質量註釋圖像的數據集,分別用於預訓練和微調。廣泛的實驗與評估證明了我們方法在多語言文本渲染、視覺質量及佈局感知文本集成方面的有效性和先進性。
我們證明,在不修改模型權重或改變輸出預測的情況下,可以將多個開源權重的大型語言模型(LLMs)的推理操作映射到一個完全等價的線性系統,用於處理輸入序列。借鑒圖像擴散模型中表現出的局部或分段線性技術,我們策略性地改變了針對給定輸入序列的梯度計算,使得模型的雅可比矩陣幾乎精確地再現了前向預測,形成一個線性系統。我們在多個模型(包括Llama 3、Gemma 3、Qwen 3、Phi 4、Mistral Ministral和OLMo 2,直至Llama 3.3 70B Q4)上展示了這一方法,並通過分離雅可比矩陣的奇異值分解表明,這些LLMs在極低維的子空間中運作,其中許多最大的奇異向量解碼出與最可能輸出詞彙相關的概念。此方法還使我們能夠將每一連續層(及其注意力機制和多層感知機組件)的操作視為近乎精確的線性系統,並觀察語義概念的湧現。儘管現代LLMs具有強大的表達能力和全局非線性,但通過近乎精確的局部線性分解,我們可以解釋它們的內部表示,並在下一詞彙預測過程中揭示可解釋的語義結構。
推測解碼(Speculative Decoding, SD)是一種加速大型語言模型(LLMs)解碼過程的潛力方法。SD的效率主要取決於草稿模型與驗證模型之間的一致性。然而,現有的草稿生成方法通常需要訓練額外的模組,這在實現和確保與各種LLMs的兼容性方面可能具有挑戰性。本文中,我們提出了CLaSp,一種用於自我推測解碼的上下文層跳過策略。與先前的方法不同,CLaSp無需額外的草稿模組或額外訓練,而是通過跳過驗證模型的中間層來構建壓縮的草稿模型,實現即插即用。具體而言,我們開發了一種動態規劃算法,該算法利用上一驗證階段的完整隱藏狀態作為目標,優化層跳過過程。這使得CLaSp能夠在每次驗證階段後動態調整其層跳過策略,而無需依賴預先優化的跳過層集合。在多樣的下游任務上的實驗結果表明,CLaSp在LLaMA3系列模型上實現了1.3倍至1.7倍的加速,且未改變生成文本的原始分佈。
尽管链式思维推理与强化学习(RL)在自然语言处理领域推动了重大突破,但它们在生成式视觉模型中的整合仍待深入探索。本文提出ReasonGen-R1,一个两阶段框架:首先,通过在一个新构建的书面推理数据集上进行监督微调,赋予自回归图像生成器基于文本的显式“思考”能力;随后,利用群体相对策略优化(Group Relative Policy Optimization)精炼其输出。为了让模型在生成图像前能通过文本进行推理,我们自动生成并发布了一个由模型构建的推理文本与视觉提示配对的语料库,从而实现对物体布局、风格及场景构图的精确规划。我们的GRPO算法采用预训练视觉语言模型提供的奖励信号来评估整体视觉质量,并在每次更新中优化策略。在GenEval、DPG及T2I基准测试上的评估表明,ReasonGen-R1持续超越强劲基线及先前的最先进模型。更多详情请访问:aka.ms/reasongen。
本研究旨在通过解决模态偏差问题,无需额外训练即可增强视听大语言模型(AV-LLMs)中的平衡多模态理解能力。在当前的AV-LLMs中,音频和视频特征通常在解码器中联合处理。尽管这一策略促进了统一的多模态理解,但也可能引入模态偏差,即模型由于训练信号的不平衡而过度依赖某一模态。为缓解此问题,我们提出了分叉-合并解码(Fork-Merge Decoding, FMD),一种简单而有效的推理时策略,无需额外训练或架构修改。FMD首先通过早期解码层处理仅音频和仅视频输入,进行模态特定推理(分叉阶段),随后将生成的隐藏状态合并,在剩余层中进行联合推理(合并阶段)。该方法促进了模态贡献的平衡,并利用了跨模态的互补信息。我们在两个代表性的AV-LLMs——VideoLLaMA2和video-SALMONN上,使用三个基准数据集评估了我们的方法。实验结果表明,在专注于音频、视频及联合视听推理的任务上,性能均得到了一致提升,证明了推理时干预对于稳健多模态理解的有效性。
近期模型蒸餾技術的進展表明,來自高級推理模型(如DeepSeek-R1、OpenAI的o1)的數據能有效將複雜推理能力轉移至更小、更高效的學生模型。然而,標準實踐採用拒絕採樣,捨棄錯誤的推理示例——這些是有價值但常被忽視的數據。本文探討了一個關鍵問題:在離線環境下,如何有效利用正負蒸餾推理軌跡以最大化大型語言模型(LLM)的推理性能?為此,我們提出了強化蒸餾(REDI),一個兩階段框架。第一階段通過監督微調(SFT)從正向軌跡中學習。第二階段則利用我們提出的REDI目標,結合正負軌跡進一步精煉模型。這一新穎目標是一個簡單、無參考的損失函數,在此蒸餾情境下超越了DPO和SimPO等既定方法。我們的實證評估顯示,在數學推理任務上,REDI優於基於拒絕採樣的SFT或結合DPO/SimPO的SFT。值得注意的是,Qwen-REDI-1.5B模型僅在開放的Open-R1數據集上對131k正負示例進行後訓練,便在MATH-500(pass@1)上取得了83.1%的成績。其性能在多個數學推理基準上與DeepSeek-R1-Distill-Qwen-1.5B(一個基於800k專有數據後訓練的模型)相當或更優,為使用公開可用數據進行離線後訓練的1.5B模型樹立了新的技術標杆。
我们提出DexUMI——一种利用人手作为自然界面,将灵巧操作技能转移至多种机器人手的数据收集与策略学习框架。DexUMI包含硬件与软件两方面的适配,旨在最小化人手与各类机器人手之间的实体差异。硬件适配通过穿戴式手部外骨骼弥合运动学差距,不仅能在数据收集中提供直接的触觉反馈,还能将人体动作调整为机器人手可行的运动模式。软件适配则通过高保真机器人手图像修复技术,在视频数据中替换人手,以消除视觉差异。我们通过在两种不同的灵巧机器人手硬件平台上进行全面的现实世界实验,展示了DexUMI的能力,平均任务成功率达到了86%。
多模態大型語言模型(MLLMs)在處理多模態語境的複雜任務中展現了卓越的性能。然而,這些模型在處理多模態語境時是否表現出模態偏好,仍是一個尚未充分研究的問題。為探討此問題,我們首先在受控的證據衝突情境下構建了一個MC\textsuperscript{2}基準,以系統評估模態偏好,即在基於多模態衝突證據進行決策時,傾向於偏好某一模態的趨勢。我們廣泛的評估顯示,所有18個測試的MLLMs普遍表現出明顯的模態偏見,且模態偏好可受外部干預影響。深入分析揭示,偏好方向可在MLLMs的潛在表徵中被捕捉。基於此,我們提出了一種基於表徵工程的探測與引導方法,無需額外微調或精心設計提示,即可明確控制模態偏好。該方法有效增強了朝向期望方向的模態偏好,並應用於如幻覺緩解及多模態機器翻譯等下遊任務,取得了顯著的改進。
角色扮演語言代理(RPLAs)旨在模擬角色以實現真實且引人入勝的人機互動。然而,傳統的獎勵模型在可擴展性和適應主觀對話偏好方面往往面臨挑戰。我們提出了ChARM,一種基於角色的行為自適應獎勵模型,通過兩項創新來應對這些挑戰:(1)行為自適應邊界,顯著提升了學習效率和泛化能力;(2)利用大規模未標註數據的自我進化機制,以提升訓練覆蓋率。此外,我們引入了RoleplayPref,這是首個專為RPLAs設計的大規模偏好數據集,包含1,108個角色、13個子類別和16,888個雙語對話,以及RoleplayEval,一個專用的評估基準。實驗結果顯示,在偏好排名上相較於傳統的Bradley-Terry模型提升了13%。進一步地,將ChARM生成的獎勵應用於偏好學習技術(如直接偏好優化)在CharacterEval和RoleplayEval上取得了最先進的成果。代碼和數據集可在https://github.com/calubkk/ChARM獲取。
大型語言模型(LLMs)展現出顯著的角色扮演能力,能夠採納不同人物設定並進行互動。然而,評估此能力面臨重大挑戰,因為人工評估耗費大量資源,而自動化評估則可能帶有偏見。為解決這一問題,我們引入了角色扮演評估(RPEval),這是一個新穎的基準,旨在從四個關鍵維度評估LLM的角色扮演能力:情感理解、決策制定、道德對齊及角色一致性。本文詳細介紹了RPEval的構建過程,並提供了基準評估結果。我們的程式碼與資料集可在https://github.com/yelboudouri/RPEval 獲取。
儘管縮放定律已經革新了自然語言處理和計算機視覺領域,三維點雲理解尚未達到這一階段。這可歸因於三維數據集的相對較小規模,以及數據本身來源的多樣性。點雲由多種傳感器(如深度相機、LiDAR)在不同領域(如室內、室外)捕捉,每種傳感器都引入了獨特的掃描模式、採樣密度和語義偏差。這種領域異質性對大規模訓練統一模型構成了主要障礙,特別是在推理時通常無法獲取領域標籤的現實約束下。在本研究中,我們提出了Point-MoE,一種專家混合架構,旨在實現三維感知中的大規模跨領域泛化。我們展示了標準點雲骨幹在混合領域數據上訓練時性能顯著下降,而採用簡單的top-k路由策略的Point-MoE能夠自動專精化專家,即使無需訪問領域標籤。我們的實驗表明,Point-MoE不僅超越了強大的多領域基線,還能更好地泛化到未見領域。這項工作為三維理解指明了一條可擴展的前進道路:讓模型在多樣的三維數據中發現結構,而非通過人工整理或領域監督強加結構。
近期,测试时优化技术的进步显著提升了大型语言模型(LLMs)的推理能力,使其能够解决数学和编程领域中的高度复杂问题。然而,多模态大型语言模型(MLLMs)的推理能力仍显不足,尤其是在处理复杂的视频-语言任务时。针对这一问题,我们提出了SiLVR,一个基于语言的简单视频推理框架,该框架将复杂的视频理解分解为两个阶段。在第一阶段,SiLVR利用多感官输入(如短视频片段描述和音频/语音字幕)将原始视频转换为基于语言的表示。在第二阶段,这些语言描述被输入到一个强大的推理LLM中,以解决复杂的视频-语言理解任务。为了处理长上下文的多感官输入,我们采用了一种自适应令牌缩减方案,该方案动态确定采样令牌的时间粒度。我们这一简单、模块化且无需训练的视频推理框架在Video-MME(长)、Video-MMMU(理解)、Video-MMLU、CGBench和EgoLife等任务上取得了目前最佳的报告结果。此外,我们针对视频推理能力的实证研究表明,尽管未在视频数据上明确训练,强大的推理LLMs仍能有效整合来自视频、语音和音频的多感官输入信息,以完成视频中的复杂时序、因果、长上下文及知识获取推理任务。代码可在https://github.com/CeeZh/SILVR获取。
在科學呈指數級增長的時代,識別新穎的研究思路對學術界而言至關重要且充滿挑戰。儘管潛力巨大,但缺乏合適的基準數據集阻礙了新穎性檢測的研究。更重要的是,由於文本相似性與創意構思之間的差距,簡單採用現有的自然語言處理技術(如檢索後交叉驗證)並非萬全之策。本文提出利用大型語言模型(LLMs)進行科學新穎性檢測(ND),並結合市場營銷和自然語言處理領域的兩個新數據集。為構建適合ND的細緻數據集,我們建議基於論文間的關係提取閉包集,並利用LLMs總結其主要思想。為捕捉創意構思,我們提出通過從LLMs中蒸餾出思想層面的知識來訓練一個輕量級檢索器,以對齊具有相似構思的創意,從而實現LLM新穎性檢測的高效準確創意檢索。實驗表明,在提出的基準數據集上,我們的方法在創意檢索和ND任務中始終優於其他方法。代碼和數據可在https://anonymous.4open.science/r/NoveltyDetection-10FB/獲取。
對比式語言-圖像預訓練(CLIP)已成為基礎模型,並被應用於多種視覺及多模態任務中。然而,近期研究指出,CLIP在區分圖像細節差異方面表現不足,且在密集預測及以視覺為中心的多模態任務上表現欠佳。因此,本研究致力於改進現有的CLIP模型,旨在盡可能捕捉圖像中的視覺細節。我們發現,特定類型的生成模型——unCLIP,為實現這一目標提供了適宜的框架。具體而言,unCLIP訓練了一個基於CLIP圖像嵌入的圖像生成器,即它反轉了CLIP的圖像編碼器。與CLIP等判別模型相比,生成模型更擅長捕捉圖像細節,因為它們被訓練來學習圖像的數據分佈。此外,unCLIP的條件輸入空間與CLIP原有的圖像-文本嵌入空間相吻合。因此,我們提出反轉unCLIP(稱之為un^2CLIP)以改進CLIP模型。通過這種方式,改進後的圖像編碼器既能獲得unCLIP捕捉視覺細節的能力,又能保持與原文本編碼器的對齊。我們在多種CLIP已應用的任務上評估了改進後的CLIP,包括具有挑戰性的MMVP-VLM基準測試、密集預測的開放詞彙分割任務,以及多模態大語言模型任務。實驗結果顯示,un^2CLIP顯著提升了原始CLIP及先前CLIP改進方法的性能。代碼和模型將於https://github.com/LiYinqi/un2CLIP公開。
大型語言模型(LLMs),如GPT-4o,在適當的提示下能夠處理多種複雜任務。隨著每token成本的降低,針對現實世界應用微調小型語言模型(SLMs)的優勢——更快的推理速度、更低的成本——可能不再明顯。在本研究中,我們提供證據表明,對於需要結構化輸出的特定領域任務,SLMs仍具有質量優勢。我們比較了在生成JSON格式的低代碼工作流程任務中,微調SLM與提示LLMs的效果。我們觀察到,雖然良好的提示可以產生合理的結果,但微調平均能將質量提升10%。此外,我們還進行了系統的錯誤分析,以揭示模型的局限性。
大型语言模型(LLMs)展现了显著的潜力,但通过传统的微调方法持续提升其性能仍面临挑战,尤其是在整合其他专业LLMs的能力时。流行的集成和权重融合方法需要大量内存,且难以适应不断变化的数据环境。近期研究尝试将多个LLMs的知识转移至单一目标模型,然而,这些方法因候选模型选择及训练流程的灵活性不足,常导致任务间的干扰与性能下降。为解决这些问题,我们提出了一种框架,该框架能自适应地选择并聚合来自不同LLMs的知识,构建一个更强且单一的模型,从而避免集成方法的高内存开销及权重融合的僵化性。具体而言,我们设计了一个自适应选择网络,该网络根据评分识别最相关的源LLMs,从而减少知识干扰。此外,我们提出了一种动态加权融合策略,该策略考虑了候选LLMs的固有优势,并引入了一种反馈驱动的损失函数,以防止选择器收敛于单一源子集。实验结果表明,与现有方法相比,我们的方法能够实现更稳定、可扩展的知识聚合过程,同时将知识干扰减少高达50%。代码可在https://github.com/ZLKong/LLM_Integration获取。
在循環神經網絡中,隱藏單元的角色通常被視為模擬記憶,研究重點在於通過門控機制增強信息保留。一個較少探討的觀點則將隱藏單元視為網絡執行計算過程中的主動參與者,而非被動的記憶存儲。在本研究中,我們重新審視了雙線性操作,這些操作涉及隱藏單元與輸入嵌入之間的乘法交互。我們從理論和實證上證明,它們構成了表示狀態追蹤任務中隱藏狀態演化的自然歸納偏置。這些任務是最簡單的類型,要求隱藏單元積極貢獻於網絡的行為。我們還展示了雙線性狀態更新形成了一個自然層次結構,對應於複雜度遞增的狀態追蹤任務,而像Mamba這樣的流行線性循環網絡則位於該層次結構中複雜度最低的中心位置。
大型語言模型(LLMs)在多種自然語言處理任務中表現卓越,但仍易於生成有害內容或被利用於惡意目的。儘管已引入安全對齊數據集,通過監督式微調(SFT)來緩解此類風險,這些數據集往往缺乏全面的風險覆蓋。現有的大多數數據集主要關注詞彙多樣性,而忽略了其他關鍵維度。為解決這一局限,我們提出了一種新穎的分析框架,系統性地衡量對齊數據集在三個基本維度上的風險覆蓋:詞彙多樣性、惡意意圖和越獄策略。我們進一步引入了TRIDENT,這是一個自動化流程,利用基於角色的零樣本LLM生成,產生涵蓋這些維度的多樣化且全面的指令。每條有害指令都配有一個道德對齊的回應,從而形成兩個數據集:TRIDENT-Core,包含26,311個示例,以及TRIDENT-Edge,包含18,773個示例。在TRIDENT-Edge上對Llama 3.1-8B進行微調,顯示出顯著的改進,與在WildBreak數據集上微調的最佳基線模型相比,平均降低了14.29%的傷害分數,並減少了20%的攻擊成功率。
語義文本相似度(Semantic Textual Similarity, STS)是自然語言處理(Natural Language Processing, NLP)中的一項關鍵任務,其應用涵蓋檢索、聚類以及理解文本間的語義關係。然而,由於缺乏高品質的數據集和預訓練模型,針對阿拉伯語的此類研究仍顯不足。這種資源的匱乏限制了阿拉伯語文本語義相似度的準確評估與發展。本文介紹了通用阿拉伯語文本嵌入模型(General Arabic Text Embedding, GATE),該模型在MTEB基準測試中的語義文本相似度任務上達到了最先進的性能。GATE利用嵌套表示學習(Matryoshka Representation Learning)及結合阿拉伯語三元組數據集的混合損失訓練方法,這些數據集專為自然語言推理設計,對於提升模型在需要細粒度語義理解任務中的表現至關重要。GATE在STS基準測試中的表現超越了包括OpenAI在內的更大模型,性能提升了20-25%,有效捕捉了阿拉伯語獨特的語義細微差別。
大型語言模型(LLMs)在生成形式化規格方面展現出顯著的潛力,有助於自動推理的普及化。然而,存在一個根本性的矛盾:LLMs是概率性的,而形式驗證則要求確定性的保證。本文通過全面調查LLM生成的形式化產物中的失敗模式和不確定性量化(UQ),來解決這一認識論上的差距。我們對五個前沿LLMs的系統性評估揭示了基於可滿足性模理論(SMT)的自動形式化在不同領域對準確性的影響(從邏輯任務的+34.8%到事實任務的-44.5%),而已知的UQ技術(如詞元概率的熵)未能識別這些錯誤。我們引入了一個概率上下文無關文法(PCFG)框架來建模LLM的輸出,從而得到了一個精細化的不確定性分類。我們發現不確定性信號是任務依賴的(例如,邏輯任務的文法熵,AUROC>0.93)。最後,這些信號的輕量級融合實現了選擇性驗證,顯著減少了錯誤(14-100%),且僅需最小程度的棄權,從而將LLM驅動的形式化轉變為一門可靠的工程學科。
AI代理在面向消費者的應用中日益普及,用於協助產品搜索、談判和交易執行等任務。本文探討了一個未來情境,其中消費者和商家都授權AI代理完全自動化談判和交易。我們旨在回答兩個關鍵問題:(1) 不同的LLM代理在為用戶爭取有利交易的能力上是否存在差異?(2) 在消費市場中完全自動化AI代理進行交易會帶來哪些風險?為解答這些問題,我們開發了一個實驗框架,評估各種LLM代理在現實世界談判和交易場景中的表現。研究結果顯示,AI中介的交易本質上是一場不平衡的博弈——不同代理為其用戶達成的結果存在顯著差異。此外,LLM中的行為異常可能導致消費者和商家遭受財務損失,例如過度支出或接受不合理交易。這些結果強調,雖然自動化可以提高效率,但也引入了重大風險。用戶在將商業決策委託給AI代理時應謹慎行事。
大型語言模型(LLMs)新興的能力引發了人們對其即時潛在有害濫用的擔憂。解決這些擔憂的核心方法是檢測對模型的有害查詢。目前的檢測方法存在缺陷,特別容易受到利用模型能力泛化不匹配的攻擊(例如,低資源語言的提示或非文本模態如圖像和音頻提供的提示)。為應對這一挑戰,我們提出了OMNIGUARD,一種跨語言和跨模態檢測有害提示的方法。我們的方法(i)識別LLM/MLLM中跨語言或跨模態對齊的內部表示,然後(ii)利用這些表示構建一個語言無關或模態無關的分類器來檢測有害提示。在多語言環境中,OMNIGUARD將有害提示分類的準確率提高了11.57%,在基於圖像的提示中提高了20.44%,並為基於音頻的提示設定了新的SOTA。通過重新利用生成過程中計算的嵌入,OMNIGUARD也非常高效(比次快基線快約120倍)。代碼和數據可在以下網址獲取:https://github.com/vsahil/OmniGuard。
法律案例檢索(Legal Case Retrieval, LCR)是法律專業人士在研究和決策過程中檢索相關案例的基本任務。然而,現有的LCR研究面臨兩大限制。首先,這些研究通常在規模相對較小的檢索語料庫(例如100至55K案例)上進行評估,並使用範圍狹窄的刑事查詢類型,這無法充分反映現實世界法律檢索場景的複雜性。其次,它們依賴於基於嵌入或詞彙匹配的方法,往往導致有限的表示和與法律無關的匹配。為解決這些問題,我們提出了:(1)LEGAR BENCH,首個大規模韓語LCR基準,涵蓋411種多樣化的犯罪類型,查詢範圍超過120萬個法律案例;以及(2)LegalSearchLM,一種檢索模型,該模型對查詢案例進行法律要素推理,並通過約束解碼直接生成基於目標案例的內容。實驗結果顯示,LegalSearchLM在LEGAR BENCH上比基準模型高出6-20%,達到了最先進的性能。它還展現出對域外案例的強大泛化能力,比在域內數據上訓練的簡單生成模型高出15%。
现代文档检索嵌入方法的一个局限在于,它们通常独立编码来自同一文档的段落(块),往往忽视了文档其余部分的关键上下文信息,这些信息本可大幅提升单个块的表征质量。在本研究中,我们引入了ConTEB(上下文感知文本嵌入基准),这是一个旨在评估检索模型利用文档范围上下文能力的基准。我们的结果表明,在需要上下文的检索场景中,最先进的嵌入模型表现欠佳。为应对这一局限,我们提出了InSeNT(序列内负样本训练),这是一种新颖的对比后训练方法,结合延迟分块池化,既增强了上下文表征学习,又保持了计算效率。我们的方法在ConTEB上显著提升了检索质量,且未牺牲基础模型的性能。进一步发现,采用我们方法嵌入的块在面对次优分块策略及更大检索语料库规模时表现出更强的鲁棒性。我们已在https://github.com/illuin-tech/contextual-embeddings开源所有相关资源。
本文對大型語言模型(LLM)安全研究中的語言多樣性進行了全面分析,揭示了該領域以英語為中心的特質。通過系統性地審查2020年至2024年間在*ACL主要自然語言處理會議及研討會上發表的近300篇文獻,我們發現LLM安全研究存在顯著且日益擴大的語言鴻溝,即便是資源豐富的非英語語言也僅獲得極少關注。我們進一步觀察到,非英語語言鮮少作為獨立語言被研究,且英語安全研究在語言文檔實踐方面表現欠佳。為激勵未來多語言安全研究的開展,我們基於此次調查提出了若干建議,並針對安全評估、訓練數據生成及跨語言安全泛化三個具體方向提出了未來研究建議。基於我們的調查與所提方向,該領域有望為全球多元人口發展出更為穩健、包容的人工智慧安全實踐。