每日精選AI研究論文及翻譯
提升現有模型以融入新知識是人工智慧發展的關鍵面向。本文提出了一種新穎方法,用於將新語言整合至大型語言模型(LLM)中。我們的方法成功將先前未見的目標語言融入現有LLM,且不損及其既有知識。我們通過將阿拉伯語注入一個主要基於英語訓練的小型開源模型,訓練了一個名為Kuwain、擁有15億參數的微型模型。我們的方法在阿拉伯語性能上展現了顯著提升,各項基準測試平均提高了8%,同時僅需最少量的原始模型數據即可保留模型的既有知識。這為同時訓練涵蓋英語和阿拉伯語的全面模型提供了一種成本效益高的替代方案。研究結果凸顯了無需大規模重新訓練或耗費大量資源,即可實現高效、針對性的語言模型擴展的潛力。
本文探討了在大型語言模型(LLMs)中,針對推理任務於無明確標籤數據上進行強化學習(Reinforcement Learning, RL)的研究。該問題的核心挑戰在於,在推理過程中無法獲取真實標籤信息的情況下進行獎勵估計。儘管這一設定看似難以捉摸,我們發現,測試時縮放(Test-Time Scaling, TTS)中的常見做法,如多數投票,竟能產生出人意料的、適合驅動RL訓練的有效獎勵。在本研究中,我們提出了測試時強化學習(Test-Time Reinforcement Learning, TTRL),這是一種利用無標籤數據訓練LLMs的新方法。TTRL通過利用預訓練模型中的先驗知識,實現了LLMs的自我進化。我們的實驗表明,TTRL在多種任務和模型上均能持續提升性能。值得注意的是,僅使用無標籤測試數據,TTRL便將Qwen-2.5-Math-7B在AIME 2024上的pass@1性能提升了約159%。此外,儘管TTRL僅受Maj@N指標的監督,但其表現已能持續超越初始模型的上限,並接近於直接在帶有真實標籤的測試數據上訓練的模型性能。我們的實驗結果驗證了TTRL在各類任務中的普遍有效性,並凸顯了其在更廣泛任務和領域中的潛力。GitHub: https://github.com/PRIME-RL/TTRL
隨著大型語言模型(LLMs)在語言能力上的持續進步,穩健的多語言評估已成為促進公平技術發展的關鍵。本立場文件檢視了來自148個國家、於2021年至2024年間發布的超過2,000個多語言(非英語)基準,以評估過去、現在及未來的多語言基準實踐。我們的研究發現,儘管投入了數千萬美元的巨額資金,英語在這些基準中仍然顯著過度代表。此外,大多數基準依賴於原始語言內容而非翻譯,且主要來源於高資源國家,如中國、印度、德國、英國和美國。進一步地,基準表現與人類判斷的比較揭示了顯著差異。STEM相關任務與人類評估呈現出強相關性(0.70至0.85),而傳統的自然語言處理任務,如問答(例如XQuAD),則顯示出較弱的相關性(0.11至0.30)。此外,將英語基準翻譯成其他語言被證明是不夠的,因為本地化基準與當地人類判斷的對齊度(0.68)顯著高於其翻譯版本(0.47)。這強調了創建文化和語言定制的基準的重要性,而非僅僅依賴翻譯。通過這項全面分析,我們指出了當前多語言評估實踐中的六個主要限制,提出了有效的多語言基準制定的指導原則,並概述了推動該領域進步的五個關鍵研究方向。最後,我們呼籲全球合作,開發以現實應用為優先、與人類判斷對齊的基準。
為圖像和視頻中的特定區域生成詳細且準確的描述,仍然是視覺語言模型面臨的基本挑戰。我們提出了描述任意模型(Describe Anything Model, DAM),這是一個專為詳細局部字幕生成(Detailed Localized Captioning, DLC)設計的模型。DAM通過兩項關鍵創新,既保留了局部細節,又兼顧了全局上下文:一是焦點提示(focal prompt),確保對目標區域進行高分辨率編碼;二是局部視覺骨幹(localized vision backbone),將精確定位與其更廣泛的上下文相結合。為解決高質量DLC數據稀缺的問題,我們提出了一種基於半監督學習(Semi-supervised Learning, SSL)的數據管道(DLC-SDP)。DLC-SDP從現有的分割數據集出發,利用SSL擴展到未標記的網絡圖像。我們還引入了DLC-Bench,這是一個旨在不依賴參考字幕的情況下評估DLC的基準。DAM在涵蓋關鍵詞級、短語級以及詳細多句子局部圖像和視頻字幕生成的7個基準測試中,均創下了新的最先進水平。
擴展推理時的計算能力已顯著提升了語言模型的推理能力。然而,現有方法存在顯著限制:串行的思維鏈方法生成過長的輸出,導致延遲增加和上下文窗口耗盡,而並行方法如自我一致性則因協調不足而產生冗餘計算,限制了性能提升。為解決這些不足,我們提出了自適應並行推理(Adaptive Parallel Reasoning, APR),這是一種新穎的推理框架,使語言模型能夠端到端地協調串行和並行計算。APR通過使用spawn()和join()操作實現自適應多線程推理,從而推廣了現有的推理方法。一個關鍵創新是我們的端到端強化學習策略,優化父線程和子線程的推理,以提高任務成功率,而無需預定義的推理結構。在倒計時推理任務上的實驗展示了APR的顯著優勢:(1) 在相同上下文窗口內更高的性能(4k上下文時83.4% vs. 60.0%);(2) 隨著計算量增加,具有更優的可擴展性(20k總token時80.1% vs. 66.6%);(3) 在相同延遲下更高的準確率(約5,000ms時75.2% vs. 57.3%)。APR代表了語言模型通過自適應分配計算來自主優化其推理過程的一步。
近年來的視頻大型語言模型(Video LLMs)往往依賴於昂貴的人工標註或專有模型API(如GPT-4o)來生成訓練數據,這限制了其大規模訓練的可能性。本文探討了利用低成本的自動語音識別(ASR)轉錄文本進行Video LLM的大規模訓練。具體而言,我們提出了一種新穎的流式訓練方法,根據時間戳將ASR詞語與視頻幀密集交織。與以往基於ASR的視覺-語言表徵研究相比,我們的方法自然契合ASR的流式特性,從而使得模型能夠學習到時間對齊的細粒度視覺-語言建模。為支持此訓練算法,我們引入了一個數據生產管道,處理YouTube視頻及其閉路字幕(CC,等同於ASR),產生了用於預訓練的Live-CC-5M數據集和用於高質量監督微調(SFT)的Live-WhisperX-526K數據集。值得注意的是,即使不進行SFT,僅基於ASR預訓練的LiveCC-7B-Base模型在通用視頻問答任務上展現了競爭力,並具備了實時視頻評論的新能力。為評估這一點,我們精心設計了新的LiveSports-3K基準,利用LLM-as-a-judge來衡量自由形式的評論質量。實驗表明,我們最終的LiveCC-7B-Instruct模型在評論質量上能夠超越先進的72B模型(如Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B),即使在實時模式下工作。同時,它在7B/8B規模上於流行的視頻問答基準如VideoMME和OVOBench上取得了領先的成績,展示了我們方法的廣泛通用性。本文的所有資源已發佈於https://showlab.github.io/livecc。
大型語言模型(LLMs)的最新進展使得通過多智能體系統進行社會模擬成為可能。先前的研究主要集中在從零開始創建的智能體社會,為智能體分配新定義的角色。然而,模擬已建立的虛構世界和角色在很大程度上仍未得到充分探索,儘管其具有重要的實用價值。在本文中,我們介紹了BookWorld,這是一個用於構建和模擬基於書籍的多智能體社會的綜合系統。BookWorld的設計涵蓋了全面的現實世界複雜性,包括多樣化且動態的角色、虛構的世界觀、地理限制及其變化等。BookWorld支持多種應用,包括故事生成、互動遊戲和社會模擬,提供了擴展和探索喜愛虛構作品的新方式。通過大量實驗,我們證明BookWorld能夠生成創意且高質量的故事,同時保持對原著的高度忠實,以75.36%的勝率超越了先前的方法。本文的代碼可在項目頁面找到:https://bookworld2025.github.io/。
現有的多模態大型語言模型(MLLMs)評估框架主要聚焦於圖像推理或一般視頻理解任務,很大程度上忽略了圖像上下文在視頻理解中的重要作用。為彌補這一空白,我們提出了IV-Bench,這是首個用於評估基於圖像的視頻感知與推理的綜合基準。IV-Bench包含967個視頻,配備了2,585個精心註釋的圖像-文本查詢,涵蓋13項任務(7項感知任務和6項推理任務)及5個代表性類別。對當前最先進的開源(如InternVL2.5、Qwen2.5-VL)與閉源(如GPT-4o、Gemini2-Flash和Gemini2-Pro)MLLMs的廣泛評估顯示,現有模型在基於圖像的視頻感知與推理方面表現顯著不足,最高準確率僅達28.9%。進一步分析揭示了影響模型在IV-Bench上表現的關鍵因素,包括推理模式、幀數和分辨率。此外,通過一種簡單的數據合成方法,我們展示了IV-Bench的挑戰不僅限於訓練過程中數據格式的對齊。這些發現共同為未來研究提供了寶貴的見解。我們的代碼和數據已發佈於https://github.com/multimodal-art-projection/IV-Bench。
大型語言模型(LLMs)的成功引發了對各種代理應用的廣泛興趣。一個關鍵假設是,LLMs能夠利用常識和思維鏈(CoT)推理,有效地探索並高效解決複雜領域的問題。然而,研究發現LLM代理存在探索次優和知行差距的問題,即無法有效利用模型中已有的知識進行行動。在本研究中,我們系統性地探討了LLMs在決策場景中表現不佳的原因,特別聚焦於三種常見的失敗模式:貪婪性、頻率偏差以及知行差距。我們提出通過基於自我生成的CoT推理進行強化學習(RL)微調來緩解這些缺陷。我們在多臂老虎機、上下文老虎機和井字棋等實驗中證明,RL微調通過增加探索和縮小知行差距,提升了LLMs的決策能力。最後,我們研究了經典的探索機制,如ε-貪婪策略,以及LLM特有的方法,如自我修正和自我一致性,以實現更有效的LLMs決策微調。
近期大型語言模型的進展已展現了在後訓練階段進行長度擴展的有效性,然而其在預訓練中的潛力仍未被充分探索。我們提出了平行隱藏解碼轉換器(PHD-Transformer),這是一種新穎的框架,能在保持推理效率的同時,於預訓練期間實現高效的長度擴展。PHD-Transformer通過一種創新的鍵值(KV)快取管理策略達成此目標,該策略區分了原始詞元與隱藏解碼詞元。透過僅保留原始詞元的KV快取以處理長距離依賴,並在使用後立即丟棄隱藏解碼詞元,我們的方法在保持與標準轉換器相同KV快取大小的同時,實現了有效的長度擴展。為了進一步提升性能,我們引入了兩種優化變體:PHD-SWA採用滑動窗口注意力機制以保留局部依賴,而PHD-CSWA則實施分塊滑動窗口注意力機制,以消除預填充時間的線性增長。大量實驗結果顯示,在多個基準測試中均取得了持續的改進。
我們能否基於大型語言模型(LLMs)構建精確的世界模型?世界模型如何助力LLM代理?LLMs的先驗知識與特定環境動態之間的差距,通常會限制其作為世界模型的表現。為彌合這一差距,我們提出了一種無需訓練的「世界對齊」方法,該方法學習與LLMs互補的環境符號知識。這些符號知識涵蓋了動作規則、知識圖譜和場景圖,它們由LLMs從探索軌跡中提取,並編碼為可執行代碼,以規範LLM代理的策略。我們進一步提出了一種無需強化學習、基於模型的代理「WALL-E 2.0」,通過模型預測控制(MPC)框架實現。與傳統MPC需要在線進行昂貴優化不同,我們採用LLM代理作為未來步驟動作的高效前瞻優化器,與神經符號世界模型交互。雖然LLM代理的強大啟發式能力使其成為MPC中的高效規劃者,但其規劃動作的質量也由對齊世界模型的精確預測所保障。它們共同顯著提升了在新環境中的學習效率。在火星(類似Minecraft)和ALFWorld(具身室內環境)的開放世界挑戰中,WALL-E 2.0顯著超越了現有方法,例如在火星上成功率超出基線16.1%-51.6%,得分至少高出61.7%。在ALFWorld中,僅經過4次迭代,它就達到了98%成功率的新紀錄。
個性化圖像合成已成為文本到圖像生成中的關鍵應用,使得在多元情境下創建特定主題的圖像成為可能。儘管擴散模型在這一領域佔據主導地位,但自回歸模型因其統一的文本與圖像建模架構,在個性化圖像生成方面仍未被充分探索。本文探討了優化自回歸模型以實現個性化圖像合成的潛力,利用其固有的多模態能力來執行此任務。我們提出了一種兩階段訓練策略,結合了文本嵌入的優化與變壓器層的微調。我們在自回歸模型上的實驗表明,該方法在主題忠實度和提示跟隨方面與領先的基於擴散的個性化方法相當。這些結果凸顯了自回歸模型在個性化圖像生成中的有效性,為該領域的未來研究提供了新的方向。
人類能夠建立內在的世界模型,這些模型編碼了常識性知識,告訴他們世界如何運作並預測其行為的後果。這一概念在近期的初步工作中已成為建立通用機器學習模型的一個有前景的方向,例如在視覺表徵學習領域。本文中,我們提出了CheXWorld,這是首次嘗試構建一個針對放射影像的自監督世界模型。具體而言,我們的工作開發了一個統一框架,該框架同時建模了合格放射科醫生所必需的三個醫學知識方面,包括:1)描述局部組織細粒度特徵的局部解剖結構(如結構、形狀和紋理);2)描述人體全局組織的全局解剖佈局(如器官和骨骼的佈局);以及3)鼓勵CheXWorld建模不同放射影像外觀域之間轉換的領域變異(如因來自不同醫院、設備或患者而導致的清晰度、對比度和曝光度的變化)。通過實證研究,我們設計了定性和定量分析,揭示出CheXWorld成功捕捉了這三個維度的醫學知識。此外,在八個醫學影像分類和分割基準上的遷移學習實驗表明,CheXWorld顯著優於現有的自監督學習方法和大規模醫學基礎模型。代碼及預訓練模型可在https://github.com/LeapLabTHU/CheXWorld獲取。
近期,文本到圖像的擴散模型通過大規模擴展訓練數據和模型參數,在視覺品質上取得了令人印象深刻的成果,然而在處理複雜場景和細粒度細節時仍常顯吃力。受大型語言模型中湧現的自我反思能力啟發,我們提出了ReflectionFlow,這是一個推理時框架,使擴散模型能夠迭代地反思並精煉其輸出。ReflectionFlow引入了三個互補的推理時擴展維度:(1) 噪聲級別擴展以優化潛在初始化;(2) 提示級別擴展實現精確語義指導;以及最為顯著的(3) 反思級別擴展,它明確提供可操作的反思,以迭代評估並修正先前的生成結果。為了支持反思級別擴展,我們構建了GenRef,一個包含100萬個三元組的大規模數據集,每個三元組包含一條反思、一張有缺陷的圖像和一張增強後的圖像。利用這一數據集,我們在最先進的擴散變換器FLUX.1-dev上高效地進行了反思調優,通過在統一框架內聯合建模多模態輸入。實驗結果表明,ReflectionFlow顯著優於簡單的噪聲級別擴展方法,為在挑戰性任務上實現更高質量的圖像合成提供了一種可擴展且計算高效的解決方案。
人類自然會與其聯繫的人分享信息,而視頻已成為互聯網上交流和表達的主要媒介之一。為了支持高質量大規模視頻內容的創作,現代流程需要對原始輸入材料(例如,由攝像機捕捉的未編輯素材)和編輯組件(例如,視覺效果)有全面的理解。在視頻編輯場景中,模型必須處理多種模態(例如,視覺、音頻、文本),並具備強大的背景知識,同時處理靈活的輸入長度(例如,長達一小時的原始視頻),這對傳統模型提出了重大挑戰。在本報告中,我們介紹了Vidi,這是一個用於廣泛視頻理解編輯場景的大型多模態模型(LMM)家族。首次發布的重點是時間檢索,即識別輸入視頻中與給定文本查詢相對應的時間範圍,這在智能編輯中起著至關重要的作用。該模型能夠處理長達一小時的視頻,並具備強大的時間理解能力,例如,檢索某些查詢的時間範圍。為了支持在現實場景中的全面評估,我們還提出了VUE-TR基準,該基準引入了五個關鍵改進。1)視頻時長:顯著長於現有的時間檢索數據集,2)音頻支持:包括基於音頻的查詢,3)查詢格式:多樣的查詢長度/格式,4)註釋質量:真實時間範圍由人工註釋,5)評估指標:改進的IoU指標以支持多個時間範圍的評估。值得注意的是,Vidi在時間檢索任務上顯著優於領先的專有模型,例如GPT-4o和Gemini,表明其在視頻編輯場景中的優越性。
可控角色動畫仍是一個具有挑戰性的問題,尤其是在處理罕見姿勢、風格化角色、角色與物體互動、複雜光照以及動態場景方面。為應對這些問題,先前的研究主要通過精心設計的旁路網絡注入姿勢和外觀指導,但往往難以泛化到開放世界場景中。本文提出了一種新的視角:只要基礎模型足夠強大,通過簡單的模型修改和靈活的微調策略,就能在很大程度上解決上述挑戰,從而向可控角色動畫在實際場景中的應用邁進一步。具體而言,我們基於Wan-2.1視頻基礎模型,提出了RealisDance-DiT。我們深入分析發現,廣泛採用的Reference Net設計對於大規模DiT模型並非最優。相反,我們證明對基礎模型架構進行最小限度的修改即可獲得一個出人意料的強基線。我們進一步提出了低噪聲熱身和「大批量小迭代」策略,以在微調過程中加速模型收斂,同時最大限度地保留基礎模型的先驗知識。此外,我們引入了一個新的測試數據集,該數據集捕捉了多樣化的現實世界挑戰,補充了現有的基準數據集(如TikTok數據集和UBC時尚視頻數據集),以全面評估所提出的方法。大量實驗表明,RealisDance-DiT大幅超越了現有方法。
LLM代理是一種新興的AI系統形式,其中大型語言模型(LLMs)作為核心組件,利用多種工具來完成用戶分配的任務。儘管它們具有巨大潛力,但LLM代理也帶來了顯著的安全風險。在與外部世界互動時,它們可能會遇到攻擊者的惡意指令,從而導致執行危險操作。解決這一問題的一個有前景的方法是實施最小權限原則:僅允許完成任務所必需的操作,同時阻止不必要的操作。然而,實現這一點具有挑戰性,因為它需要在涵蓋多樣化代理場景的同時,兼顧安全性和實用性。 我們引入了Progent,這是首個針對LLM代理的權限控制機制。其核心是一種領域特定語言,用於靈活表達在代理執行過程中應用的權限控制策略。這些策略提供了對工具調用的細粒度約束,決定何時允許工具調用,並在不可行時指定備用方案。這使得代理開發者和用戶能夠為其特定用例制定合適的策略,並確定性地執行這些策略以確保安全性。得益於其模塊化設計,集成Progent不會改變代理的內部結構,僅需對代理實現進行最小程度的修改,從而增強了其實用性和廣泛採用的潛力。為了自動化策略編寫,我們利用LLM基於用戶查詢生成策略,並動態更新這些策略以提高安全性和實用性。我們的大量評估表明,它在三個不同的場景或基準測試(AgentDojo、ASB和AgentPoison)中實現了強大的安全性,同時保持了高實用性。此外,我們進行了深入分析,展示了其核心組件的有效性以及其自動化策略生成在應對自適應攻擊時的韌性。
我們提出了MR. Video,這是一個具備自主性的長視頻理解框架,它展示了處理長視頻時簡單而有效的MapReduce原則:(1) Map:獨立且密集地感知短視頻片段,(2) Reduce:聯合聚合所有片段的信息。與序列到序列的視覺語言模型(VLMs)相比,MR. Video能夠進行細緻的短視頻感知,不受上下文長度的限制。與現有的通常依賴於順序關鍵片段選擇的視頻代理相比,Map操作實現了更簡單且更具擴展性的短視頻片段序列並行感知。其Reduce步驟允許更全面的上下文聚合與推理,超越了顯式的關鍵片段檢索。這一MapReduce原則既適用於VLMs也適用於視頻代理,我們利用LLM代理來驗證其有效性。 在實際應用中,MR. Video採用了兩個MapReduce階段:(A) 字幕生成:為短視頻片段生成字幕(map),然後將重複出現的角色和物體標準化為共享名稱(reduce);(B) 分析:針對每個用戶問題,從各個短視頻中分析相關信息(map),並將其整合成最終答案(reduce)。在具有挑戰性的LVBench上,MR. Video相比於最先進的VLMs和視頻代理,實現了超過10%的準確率提升。 代碼可於以下網址獲取:https://github.com/ziqipang/MR-Video
識別並推理被遮擋(部分或完全隱藏)的物體對於理解視覺場景至關重要,因為遮擋在現實環境中頻繁發生,並成為空間理解的障礙。為了測試模型在推理多個被遮擋物體方面的能力,我們引入了一項新任務——通過未見區域進行模式計數(CAPTURe),該任務要求模型通過推斷模式在遮擋物(阻擋場景部分視野的物體)後方的延續方式,來計數按特定模式排列的物體。CAPTURe既需要識別視覺模式,又需要進行推理,使其成為評估視覺語言模型(VLMs)是否理解被遮擋模式及具備空間理解能力的有效測試平台。通過要求模型對被遮擋物體進行推理,CAPTURe還測試了VLMs構建世界模型以填補缺失信息的能力。CAPTURe由兩部分組成:(1) CAPTURe-real,包含手動篩選的真實物體按模式排列的圖像;(2) CAPTURe-synthetic,一個使用生成的模式圖像進行控制的診斷測試。我們在CAPTURe上評估了四種強大的VLMs(GPT-4o、Intern-VL2、Molmo和Qwen2-VL),發現模型在處理被遮擋和未被遮擋的模式時均存在計數困難。關鍵的是,我們發現模型在遮擋情況下的表現更差,這表明VLMs在推斷未見空間關係方面也存在不足:即便是像GPT-4o這樣最強的VLMs,在遮擋情況下也無法準確計數。相比之下,人類在CAPTURe上的錯誤率極低。我們還發現,提供被遮擋物體位置的輔助信息能提升模型性能,這進一步證明了模型錯誤既源於處理遮擋的能力不足,也源於圖像計數的困難。
知識產權(IP)是一個獨特的領域,它融合了技術與法律知識,因此本質上具有複雜性和知識密集性。隨著大型語言模型(LLMs)的不斷進步,它們在處理IP任務方面展現出巨大潛力,能夠更高效地分析、理解並生成與IP相關的內容。然而,現有的數據集和基準要么僅專注於專利,要么覆蓋IP領域的有限方面,缺乏與現實場景的對齊。為彌補這一差距,我們首次提出了全面的IP任務分類法,並推出了一個大型、多樣化的雙語基準——IPBench,涵蓋8種IP機制和20項任務。該基準旨在評估LLMs在現實世界知識產權應用中的表現,包括理解和生成兩方面。我們對16個LLMs進行了基準測試,範圍從通用模型到領域專用模型,結果發現即使表現最佳的模型準確率也僅為75.8%,顯示出巨大的改進空間。值得注意的是,開源的IP和法律導向模型落後於閉源的通用模型。我們公開了IPBench的所有數據和代碼,並將持續更新更多與IP相關的任務,以更好地反映知識產權領域的現實挑戰。
本研究介紹了一種新穎且可解釋的模型——DiffVox,用於匹配音樂製作中的聲效處理。DiffVox,全稱為「可微分聲效處理」,整合了參數均衡、動態範圍控制、延遲和混響等效果,並通過高效的微分實現來支持基於梯度的參數估計優化。聲效預設從兩個數據集中提取,包括來自MedleyDB的70首曲目和來自私人收藏的365首曲目。參數相關性分析揭示了效果與參數之間的強烈關聯,例如高通和低架濾波器常共同作用以塑造低頻部分,而延遲時間則與延遲信號的強度相關。主成分分析揭示了與McAdams音色維度的聯繫,其中最重要的成分調節感知的空間感,而次要成分則影響頻譜亮度。統計測試確認了參數分佈的非高斯性質,凸顯了聲效處理空間的複雜性。這些關於參數分佈的初步發現為未來聲效建模和自動混音的研究奠定了基礎。我們的源代碼和數據集可在https://github.com/SonyResearch/diffvox 獲取。