每日精選AI研究論文及翻譯
強化學習(RL)已成為提升大型語言模型(LLM)推理能力的一種有前景的方法,然而大多數公開研究僅專注於數學和編碼領域,限制了我們對其在通用推理中廣泛適用性的理解。一個關鍵挑戰在於缺乏跨多樣推理領域的可靠且可擴展的RL獎勵信號。我們介紹了Guru,這是一個精心策劃的RL推理語料庫,包含92,000個可驗證的示例,涵蓋六個推理領域——數學、編碼、科學、邏輯、模擬和表格——每個領域都通過特定領域的獎勵設計、去重和過濾來構建,以確保RL訓練的可靠性和有效性。基於Guru,我們系統性地重新審視了RL在LLM推理中的既定發現,並觀察到跨領域的顯著差異。例如,雖然先前的研究表明RL主要從預訓練模型中引出已有知識,但我們的結果揭示了一種更為細緻的模式:在預訓練中常見的領域(數學、編碼、科學)容易受益於跨領域的RL訓練,而預訓練曝光有限的領域(邏輯、模擬和表格)則需要領域內訓練才能實現有意義的性能提升,這表明RL很可能促進真正的技能獲取。最後,我們展示了Guru-7B和Guru-32B,這兩個模型在公開數據RL訓練的開放模型中達到了最先進的性能,在我們的17項任務評估套件中,分別比最佳基線高出7.9%和6.7%,涵蓋六個推理領域。我們還展示了我們的模型有效地提高了其基礎模型的Pass@k性能,特別是在預訓練數據中不太可能出現的複雜任務上。我們發布了數據、模型、訓練和評估代碼,以促進通用推理,詳見:https://github.com/LLM360/Reasoning360。
本文介紹了改進的原生統一多模態模型,即Show-o2,該模型利用自回歸建模和流匹配技術。基於3D因果變分自編碼器空間,通過空間(-時間)融合的雙路徑構建統一視覺表徵,實現了跨圖像和視頻模態的可擴展性,同時確保有效的多模態理解與生成。基於語言模型,自回歸建模和流匹配分別原生應用於語言頭和流頭,以促進文本標記預測和圖像/視頻生成。設計了兩階段訓練方案,有效學習並擴展至更大模型。最終的Show-o2模型展示了在處理多種模態(包括文本、圖像和視頻)的廣泛多模態理解與生成任務中的多樣性。代碼和模型已發佈於https://github.com/showlab/Show-o。
文本轉語音和音頻生成模型的進步,亟需建立強大的基準來評估AI系統的情感理解能力。現有的語音情感識別(SER)數據集往往在情感細粒度、隱私問題或依賴於表演性呈現方面存在局限。本文介紹了EmoNet-Voice,這是一個用於語音情感檢測的新資源,包括EmoNet-Voice Big——一個大規模預訓練數據集(涵蓋超過4,500小時的語音,涉及11種聲音、40種情感和4種語言),以及EmoNet-Voice Bench——一個帶有人類專家註釋的新穎基準數據集。EmoNet-Voice旨在通過40種不同強度層次的情感類別,細緻地評估SER模型。利用最先進的語音生成技術,我們精心製作了模擬演員表演場景的合成音頻片段,旨在激發特定情感。關鍵的是,我們通過心理學專家進行了嚴格的驗證,他們為這些片段分配了感知強度標籤。這種合成且保護隱私的方法,使得能夠包含現有數據集中常缺失的敏感情感狀態。最後,我們介紹了Empathic Insight Voice模型,這些模型在語音情感識別方面設定了新標準,與人類專家達成了高度一致。我們對當前模型生態的評估揭示了有價值的發現,例如高喚醒情感(如憤怒)比低喚醒狀態(如專注)更容易被檢測到。
近期,多模态大语言模型(MLLMs)因其强大的视觉理解能力而吸引了越来越多的研究关注。尽管这些模型在各种视觉任务上取得了令人瞩目的成果,但在图表到代码生成任务上的表现仍不尽如人意。该任务要求MLLMs生成能够复现给定图表的可执行代码,不仅需要精确的视觉理解,还需将视觉元素准确转化为结构化代码。直接提示MLLMs执行这一复杂任务往往效果欠佳。为应对这一挑战,我们提出了基于结构化指令的迭代优化方法——{ChartIR}。首先,我们将任务区分为视觉理解与代码翻译两部分。为实现视觉理解,我们设计了两类结构化指令:描述指令与差异指令。描述指令捕捉参考图表的视觉元素,而差异指令则刻画参考图表与生成图表之间的差异。这些指令有效地将视觉特征转化为语言表征,从而促进后续的代码翻译过程。其次,我们将整体图表生成流程分解为初始代码生成与迭代优化两个阶段,实现最终输出的渐进式提升。实验结果表明,相较于其他方法,我们的方法在开源模型Qwen2-VL与闭源模型GPT-4o上均取得了更优的性能。
精確反映音樂作品特徵的詳細描述能夠豐富音樂數據庫,並推動音樂人工智慧研究的發展。本文介紹了一種多任務音樂描述模型——SonicVerse,該模型將描述生成與輔助音樂特徵檢測任務(如調性檢測、人聲檢測等)相結合,從而直接捕捉低層次音頻細節及高層次音樂屬性。其核心貢獻在於一種基於投影的架構,該架構將音頻輸入轉化為語言標記,同時通過專用輔助頭部檢測音樂特徵。這些頭部的輸出也被投影為語言標記,以增強描述輸入。此框架不僅能為短音樂片段生成豐富的描述性文字,還通過利用大型語言模型鏈接輸出,直接實現了對較長音樂作品的詳細時間感知描述生成。為訓練該模型,我們擴展了MusicBench數據集,使用模塊化音樂特徵提取器MIRFLEX對其進行音樂特徵註釋,從而獲得了配對的音頻、描述及音樂特徵數據。實驗結果表明,以這種方式整合特徵提升了生成描述的質量與細節。
近期的大型語言模型(LLMs)在推理基準測試中報告了高準確率。然而,尚不清楚這些觀察到的結果是源於真正的推理能力,還是來自對訓練集統計記憶的召回。受因果階梯(Pearl, 2009)及其三個層次(關聯、干預和反事實)的啟發,本文引入了RE-IMAGINE框架,旨在刻畫LLMs推理能力的層次結構,並提供一個自動化流程,以生成該層次結構不同層級上的問題變體。通過在中間符號表示層面改變問題,RE-IMAGINE能夠生成任意數量僅憑記憶無法解決的問題。此外,該框架具有通用性,可跨推理領域(包括數學、代碼和邏輯)應用。我們在四個廣泛使用的基準測試上展示了該框架,並評估了多個LLMs家族,觀察到當模型面對問題變體時性能有所下降。這些評估表明,模型在過去表現中對統計記憶存在一定程度的依賴,並為針對推理層次結構中各項技能的進一步研究打開了大門。