每日精選AI研究論文及翻譯
基於可驗證獎勵的強化學習(RLVR)在提升大型語言模型的推理能力方面展現出潛力,它通過直接從基於結果的獎勵中學習來實現這一目標。近期在零樣本設定下運作的RLVR研究避免了對推理過程的標註監督,但仍依賴於人工整理的問答集進行訓練。高質量、由人類產生的示例的稀缺性引發了對長期依賴人類監督可擴展性的擔憂,這一挑戰在語言模型預訓練領域已顯而易見。此外,在一個假設的未來,當人工智慧超越人類智能時,由人類提供的任務可能對超級智能系統的學習潛力有限。為解決這些問題,我們提出了一種新的RLVR範式,稱為「絕對零點」,在該範式中,單一模型學習提出能最大化自身學習進展的任務,並通過解決這些任務來提升推理能力,而無需依賴任何外部數據。在此範式下,我們引入了「絕對零點推理器」(AZR),這是一個通過使用代碼執行器來驗證提出的代碼推理任務並核實答案,從而自我進化其訓練課程和推理能力的系統,它作為一個統一的、可驗證的獎勵來源,引導開放式但基於實際的學習。儘管AZR完全在沒有外部數據的情況下進行訓練,它在編碼和數學推理任務上達到了整體的SOTA性能,超越了依賴數萬個領域內人工整理示例的現有零樣本模型。此外,我們還展示了AZR能夠有效應用於不同規模的模型,並與多種模型類別兼容。
近期在多模態獎勵模型(Reward Models, RMs)上的進展顯示出其在提供獎勵信號以對齊視覺模型與人類偏好方面的巨大潛力。然而,目前的RMs通常僅限於提供直接回應或進行淺層的推理過程,深度有限,往往導致獎勵信號不準確。我們認為,在獎勵推理過程中引入顯式的長鏈思維(Chain of Thought, CoT)可以顯著增強其可靠性和魯棒性。此外,我們相信,一旦RMs內化了CoT推理,其直接回應的準確性也可以通過隱式推理能力得到提升。為此,本文提出了UnifiedReward-Think,這是首個基於統一多模態CoT的獎勵模型,能夠在多維度上進行逐步的長鏈推理,適用於視覺理解和生成獎勵任務。具體而言,我們採用了一種探索驅動的強化微調方法來激發和激勵模型的潛在複雜推理能力:(1)我們首先使用少量圖像生成偏好數據來蒸餾GPT-4o的推理過程,然後用於模型的冷啟動,以學習CoT推理的格式和結構。(2)隨後,通過利用模型的先驗知識和泛化能力,我們準備了大規模的統一多模態偏好數據,以激發模型在各種視覺任務中的推理過程。在此階段,正確的推理輸出被保留用於拒絕採樣以精煉模型,(3)而錯誤的預測樣本最終用於基於群組相對策略優化(Group Relative Policy Optimization, GRPO)的強化微調,使模型能夠探索多樣的推理路徑並優化出正確且魯棒的解決方案。在各種視覺獎勵任務上的廣泛實驗證明了我們模型的優越性。
我們提出了大規模快速注意力蒸餾至線性注意力解碼器(Rapid Attention Distillation to Linear Attention Decoders at Scale, RADLADS)的協議,該協議能迅速將基於softmax注意力的Transformer模型轉換為線性注意力解碼器模型,並伴隨兩種新的RWKV變體架構,以及從流行的Qwen2.5開源模型轉換而來的7B、32B和72B規模的模型。我們的轉換過程僅需350至700M個token,不到原始教師模型訓練所用token總數的0.005%。轉換至我們的72B線性注意力模型的成本在當前價格下低於2000美元,然而推理時的質量仍接近原始Transformer。這些模型在其規模的線性注意力模型中,於一系列標準基準測試上達到了最先進的下游性能。我們在HuggingFace上以Apache 2.0許可證發布了所有模型,除了我們的72B模型,這些模型還受Qwen許可協議的約束。 模型位於: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 訓練代碼位於: https://github.com/recursal/RADLADS-paper
動作定制涉及生成由輸入控制信號指示主體執行特定動作的視頻。現有方法多採用姿態引導或全局運動定制,但受限於對空間結構(如佈局、骨架和視角一致性)的嚴格約束,降低了在不同主體和場景中的適應性。為克服這些限制,我們提出了FlexiAct,它能夠將參考視頻中的動作轉移至任意目標圖像。與現有方法不同,FlexiAct允許參考視頻主體與目標圖像之間在佈局、視角和骨骼結構上存在差異,同時保持身份一致性。實現這一點需要精確的動作控制、空間結構適應以及一致性保持。為此,我們引入了RefAdapter,這是一個輕量級的圖像條件適配器,在空間適應和一致性保持方面表現優異,在平衡外觀一致性和結構靈活性上超越了現有方法。此外,基於我們的觀察,去噪過程在不同時間步長對運動(低頻)和外觀細節(高頻)表現出不同程度的關注。因此,我們提出了FAE(頻率感知動作提取),與依賴分離時空架構的現有方法不同,它直接在去噪過程中實現動作提取。實驗表明,我們的方法能有效地將動作轉移至具有多樣佈局、骨架和視角的主體上。我們已公開發布代碼和模型權重,以支持進一步研究,詳見https://shiyi-zh0408.github.io/projectpages/FlexiAct/。
大型語言模型(LLMs)日益增長的上下文長度對高效推理提出了重大挑戰,這主要歸因於GPU記憶體和頻寬的限制。我們提出了RetroInfer,這是一個新穎的系統,它將鍵值(KV)快取重新構想為一種向量儲存系統,利用固有的注意力稀疏性來加速長上下文LLM推理。其核心是wave index,一種Attention-aWare VEctor索引,通過三部分注意力近似、精度有界的注意力估計和分段聚類等技術,實現了關鍵詞元的有效且準確檢索。與之相輔相成的是wave buffer,它協調KV快取的放置,並在GPU和CPU之間重疊計算和數據傳輸,以維持高吞吐量。與之前基於稀疏性的方法在詞元選擇和硬體協調上掙扎不同,RetroInfer在不影響模型精度的情況下提供了穩健的性能。在長上下文基準測試中的實驗表明,在GPU記憶體限制內,相比全注意力機制實現了最高4.5倍的加速,當KV快取擴展到CPU記憶體時,相比稀疏注意力基線實現了最高10.5倍的加速,同時保持了全注意力級別的精度。
Qwen系列已崛起為開源大型語言模型(LLMs)的領先家族,在自然語言理解任務中展現出卓越的能力。隨著近期Qwen3的發布,其在多樣化基準測試中表現出的優異性能,引發了在資源受限環境中高效部署這些模型的日益關注。低比特量化提供了一種有前景的解決方案,但其對Qwen3性能的影響仍待深入探索。本研究系統性地評估了Qwen3在不同量化設置下的魯棒性,旨在揭示壓縮這一尖端模型時的機遇與挑戰。我們嚴格評估了應用於Qwen3的五種現有經典訓練後量化技術,涵蓋1至8比特的位寬,並在多個數據集上評估其有效性。研究發現,儘管Qwen3在中等位寬下保持競爭力,但在超低精度下於語言任務中表現顯著下降,凸顯了LLM壓縮中持續存在的障礙。這些結果強調了在極端量化場景下減輕性能損失的進一步研究需求。我們預期,這項實證分析將為針對Qwen3及未來LLMs量身定制的量化方法提供可操作的見解,最終在不犧牲準確性的前提下提升其實用性。我們的項目已發佈於https://github.com/Efficient-ML/Qwen3-Quantization 和 https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b。
近期,AI驱动的足球理解领域取得了快速进展,然而现有研究主要集中于孤立或狭窄的任务。为填补这一空白,我们提出了一个全面的框架,以实现对足球的整体理解。具体而言,本文做出了以下贡献:(i) 我们构建了SoccerWiki,这是首个大规模多模态足球知识库,整合了关于球员、球队、裁判和场地的丰富领域知识,以支持知识驱动的推理;(ii) 我们推出了SoccerBench,这是最大且最全面的足球专用基准测试,包含约10K标准化多模态(文本、图像、视频)多选题问答对,涵盖13个不同的理解任务,通过自动化流程和人工验证精心筛选;(iii) 我们引入了SoccerAgent,一种新颖的多智能体系统,通过协作推理分解复杂的足球问题,利用SoccerWiki的领域专业知识,并实现了稳健的性能;(iv) 广泛的评估和消融实验,在SoccerBench上对最先进的多模态大语言模型(MLLMs)进行基准测试,凸显了我们提出的智能体系统的优越性。所有数据和代码均已公开,访问地址为:https://jyrao.github.io/SoccerAgent/。
在閱讀時,我們往往對文本中的特定信息感興趣。例如,您可能正在閱讀這篇論文,因為您對大型語言模型(LLMs)在閱讀眼動中的應用、實驗設計感到好奇,或者您只關心一個問題:「但它真的有效嗎?」更廣泛地說,在日常生活中,人們會根據各種文本特定的目標來引導其閱讀行為。在本研究中,我們首次探討了是否能夠從閱讀眼動中自動解碼出開放式的閱讀目標。為解答這一問題,我們引入了目標分類與目標重建任務及其評估框架,並利用大規模的英語閱讀眼動數據,涵蓋了數百種文本特定的信息搜尋任務。我們開發並比較了多種結合眼動與文本的判別式與生成式多模態LLMs,用於目標分類與目標重建。實驗結果顯示,這兩項任務均取得了顯著成功,表明LLMs能夠從眼動中提取出有關讀者文本特定目標的寶貴信息。
擴散模型的快速發展有望徹底改變虛擬實境(VR)和增強實境(AR)技術的應用,這些技術通常需要場景級別的4D資產來提升用戶體驗。然而,現有的擴散模型主要集中於建模靜態3D場景或物體級別的動態,限制了其提供真正沉浸式體驗的能力。為解決這一問題,我們提出了HoloTime框架,該框架整合了視頻擴散模型,能夠從單一提示或參考圖像生成全景視頻,並結合360度4D場景重建方法,將生成的全景視頻無縫轉換為4D資產,從而為用戶提供完全沉浸的4D體驗。具體而言,為了馴服視頻擴散模型以生成高保真度的全景視頻,我們引入了360World數據集,這是首個適用於下游4D場景重建任務的全景視頻綜合集合。基於這一精心策劃的數據集,我們提出了全景動畫師(Panoramic Animator),這是一個兩階段的圖像到視頻擴散模型,能夠將全景圖像轉換為高質量的全景視頻。隨後,我們展示了全景時空重建(Panoramic Space-Time Reconstruction),該方法利用時空深度估計技術,將生成的全景視頻轉化為4D點雲,從而優化整體的4D高斯潑濺表示,重建空間和時間上一致的4D場景。為了驗證我們方法的有效性,我們與現有方法進行了比較分析,結果顯示我們的方法在全景視頻生成和4D場景重建方面均具有優勢。這表明我們的方法能夠創造更具吸引力和真實感的沉浸式環境,從而提升VR和AR應用中的用戶體驗。
儘管語言模型(LMs)在軟件工程領域取得了最新進展,收集訓練數據仍是一個重大難題。現有的數據集規模較小,最多僅包含來自11個或更少GitHub倉庫的數千個訓練實例。這些數據集的整理過程通常複雜,需要耗費數百小時的人力;配套的執行環境也佔用數TB的存儲空間,嚴重限制了其可擴展性和可用性。為解決這一難題,我們引入了SWE-smith,這是一種用於大規模生成軟件工程訓練數據的新穎管道。對於任何Python代碼庫,SWE-smith都能構建相應的執行環境,然後自動合成數百到數千個任務實例,這些實例會破壞代碼庫中現有的測試。利用SWE-smith,我們創建了一個包含50k個實例的數據集,這些實例來自128個GitHub倉庫,規模比之前所有工作大了一個數量級。我們訓練了SWE-agent-LM-32B,在SWE-bench Verified基準測試中達到了40.2%的Pass@1解決率,在開源模型中處於領先地位。我們開源了SWE-smith(包括收集過程、任務實例、軌跡和模型),以降低自動化軟件工程中LM系統研究的入門門檻。所有資源可在https://swesmith.com獲取。
大型語言模型(LLMs)在多種自然語言處理任務中展現了前所未有的能力。它們處理和生成可行文本與代碼的能力,使其在許多領域中無處不在,而作為知識庫和“推理”工具的部署仍是一個持續研究的領域。在地理學中,越來越多的文獻專注於評估LLMs的地理知識及其執行空間推理的能力。然而,對於這些模型的內部運作,尤其是它們如何處理地理信息,我們仍知之甚少。 在本章中,我們建立了一個新穎的框架,用於研究地理空間機制可解釋性——利用空間分析來逆向工程LLMs如何處理地理信息。我們的目標是增進對這些複雜模型在處理地理信息時生成的內部表示的理解——如果這樣的表述不算是過度擬人化的話,可以稱之為“LLMs如何思考地理信息”。 我們首先概述了探針在揭示LLMs內部結構中的應用。接著,我們介紹了機制可解釋性這一領域,討論了疊加假說以及稀疏自編碼器在將LLMs的多義內部表示分解為更可解釋的單義特徵中的作用。在我們的實驗中,我們使用空間自相關來展示地名特徵如何顯示與其地理位置相關的空間模式,從而可以從地理空間角度進行解釋,提供這些模型如何處理地理信息的洞見。最後,我們討論了我們的框架如何有助於塑造地理學中基礎模型的研究與應用。
隨著對自然人機互動需求的日益增長,基於語音的系統因其作為日常交流中最普遍的形式之一而受到越來越多的關注。然而,現有的語音模型在流式處理過程中生成首個音頻標記時仍面臨高延遲問題,這成為部署過程中的一大瓶頸。為解決這一問題,我們提出了VITA-Audio,這是一種能夠快速生成音頻-文本標記的端到端大型語音模型。具體而言,我們引入了一種輕量級的多模態交叉標記預測(MCTP)模塊,該模塊能在單次模型前向傳播中高效生成多個音頻標記,不僅加速了推理過程,還顯著降低了流式場景下生成首個音頻的延遲。此外,我們探索了一種四階段漸進式訓練策略,以在最小化語音質量損失的前提下實現模型加速。據我們所知,VITA-Audio是首個能在首次前向傳播中生成音頻輸出的多模態大型語言模型,具備了以最小延遲實現實時對話的能力。VITA-Audio完全可復現,且僅基於開源數據進行訓練。實驗結果表明,我們的模型在7B參數規模下實現了3至5倍的推理加速,同時在多個自動語音識別(ASR)、文本轉語音(TTS)及語音問答(SQA)任務的基準測試中,顯著超越了同規模的開源模型。
在多智能体大语言模型(LLM)系统中,故障归因——即识别导致任务失败的特定智能体及关键步骤——为系统调试提供了至关重要的线索,然而这一领域仍处于探索不足且劳动密集的状态。本文提出并定义了一个新的研究方向:面向LLM多智能体系统的自动化故障归因。为支持这一研究,我们引入了Who&When数据集,该数据集包含了来自127个LLM多智能体系统的大量故障日志,并附有精细标注,将故障与具体智能体及决定性错误步骤相关联。基于Who&When,我们开发并评估了三种自动化故障归因方法,总结了各自的优缺点。其中最佳方法在识别故障责任智能体上达到了53.5%的准确率,但在定位故障步骤上仅达到14.2%,部分方法的表现甚至低于随机水平。即便是如OpenAI o1和DeepSeek R1这样的先进推理模型,也未能实现实际应用价值。这些结果凸显了该任务的复杂性以及进一步研究的必要性。代码与数据集已公开于https://github.com/mingyin1/Agents_Failure_Attribution。
從文本合成互動式3D場景對於遊戲、虛擬實境及具身人工智慧至關重要。然而,現有方法面臨多項挑戰。基於學習的方法依賴於小規模的室內數據集,限制了場景的多樣性與佈局的複雜性。儘管大型語言模型(LLMs)能夠利用多樣的文本領域知識,但在空間真實性方面表現欠佳,常產生違背常識的物件擺放,顯得極不自然。我們的核心洞見在於,視覺感知能夠彌補這一鴻溝,提供LLMs所缺乏的真實空間指引。為此,我們引入了Scenethesis,這是一個無需訓練的代理框架,它將基於LLM的場景規劃與視覺引導的佈局優化相結合。給定一段文本提示,Scenethesis首先利用LLM草擬一個粗略的佈局。隨後,視覺模組通過生成圖像指引並提取場景結構來捕捉物件間的關係,對佈局進行細化。接著,優化模組迭代地實施精確的姿態對齊與物理合理性,防止物件穿透及不穩定等異常現象。最後,評判模組驗證空間的一致性。全面的實驗表明,Scenethesis能夠生成多樣、真實且物理上合理的3D互動場景,這對於虛擬內容創作、模擬環境及具身AI研究具有重要價值。
傳統的數據展示通常將演示者與視覺化分離於兩個獨立的空間——三維世界與二維屏幕——強化了以視覺化為核心的敘事方式。為了創造更以人為本的觀看體驗,我們通過InfoVids建立了一種更為平等的視覺化與演示者之間的關係。這些受信息圖啟發的資訊視頻旨在重新定義演示者與視覺化之間的聯繫。在設計InfoVids的過程中,我們探討了佈局、形式及互動如何影響觀眾體驗。我們將InfoVids與其基礎的二維“幻燈片”版本在9個指標上進行了對比,並基於30位參與者的反饋,從自傳體視角提供了實用且長期的見解。我們的混合方法分析表明,這一範式減少了觀眾注意力的分散,將焦點從視覺化轉移至演示者,並促成了更為互動、自然且引人入勝的全身數據表演。最終,InfoVids幫助觀眾重新構想了演示者與視覺化之間的傳統動態關係。
語言模型開發者通常會從其預訓練數據中過濾掉高風險內容——例如有毒或受版權保護的文本——以防止模型生成類似輸出。然而,完全移除這些數據限制了模型識別並適當應對有害或敏感內容的能力。在本論文中,我們介紹了“選擇性損失以理解但不生成”(SLUNG),這是一種預訓練範式,通過該範式,模型學習理解高風險數據而不學習生成它。SLUNG並非統一應用下一個詞元預測損失,而是選擇性地避免激勵生成高風險詞元,同時確保它們保留在模型的上下文窗口內。當模型學習預測高風險詞元後的低風險詞元時,它被迫理解高風險內容。通過我們的實驗,我們展示了SLUNG持續提升了模型對高風險數據的理解能力(例如,識別有毒內容的能力),而沒有增加其生成(例如,模型回應的毒性)。總體而言,我們的SLUNG範式使模型能夠從原本會被過濾掉的高風險文本中受益。
大型與小型語言模型(LMs)的協作模式有效地平衡了性能與成本,但其關鍵挑戰在於精確定位小型LMs產生幻覺時的調用時機。以往的優化工作主要集中於後處理技術,這些技術與LMs的推理過程分離,導致計算成本高且效果有限。本文提出了一種實用的調用評估指標——AttenHScore,該指標計算小型LMs生成過程中幻覺的累積與傳播,持續放大潛在的推理錯誤。通過動態調整檢測閾值,我們實現了更精確的大型LMs實時調用。此外,考慮到小型LMs的推理能力有限,我們利用不確定性感知的知識重組來幫助它們更好地從不同文本片段中捕捉關鍵信息。大量實驗表明,我們的AttenHScore在多個問答數據集上增強實時幻覺檢測能力方面優於大多數基線,特別是在處理複雜查詢時。此外,我們的策略無需額外的模型訓練,並展現出適應各種基於Transformer的LMs的靈活性。
近年來,基於大型語言模型(LLMs)的多智能體框架發展迅速。儘管取得了這些進展,專門用於評估其性能的基準數據集仍然顯著缺乏。為填補這一空白,我們引入了Auto-SLURP,這是一個旨在智能個人助理背景下評估基於LLM的多智能體框架的基準數據集。Auto-SLURP擴展了原始SLURP數據集——最初為自然語言理解任務開發——通過重新標記數據並整合模擬服務器和外部服務。這一增強功能實現了全面的端到端評估流程,涵蓋語言理解、任務執行和響應生成。我們的實驗表明,Auto-SLURP對當前最先進的框架提出了重大挑戰,強調真正可靠且智能的多智能體個人助理仍處於開發階段。該數據集及相關代碼可在https://github.com/lorashen/Auto-SLURP/ 獲取。
本研究提出了一种新颖的基准测试方法,通过源自金融建模世界杯(FMWC)Excel竞赛的挑战来评估大型语言模型(LLMs)。我们介绍了一种将现有的113项FMWC挑战转化为可编程评估的JSON格式的方法,并利用这一数据集对多个领先的LLMs进行了性能比较。我们的研究结果显示,在不同挑战类别中,模型表现存在显著差异,特别是在模式识别任务上展现出特定优势,但在复杂数值推理方面则显得力不从心。该基准测试为评估LLMs在现实商业导向任务中的能力提供了一个标准化框架,而非局限于抽象的学术问题。本研究通过确立微软Excel每日用户——约15亿人——的熟练度作为一项有意义的评估指标,弥合了学术AI基准测试与实际商业应用之间的鸿沟,为不断发展的AI基准测试领域做出了贡献。