每日精選AI研究論文及翻譯
隨著大型語言模型(LLMs)的迅速發展,如何對其輸出提供精確反饋並實現可擴展的監督,已成為一項迫切且關鍵的挑戰。利用LLMs作為評判模型以實現自動化監督,是一種頗具前景的解決方案。本研究聚焦於探討並提升LLMs在數學評判方面的能力。現有的LLM評判模型對每一步推理的評判過於淺顯,導致判斷準確率低下,且難以為LLM生成器提供足夠的反饋來修正錯誤。為解決這一問題,我們提出了一種新穎且高效的兩階段框架,旨在開發能夠對數學解答的每一步推理進行深思熟慮評判的LLM評判模型。在第一階段,我們利用Qwen2.5-72B-Instruct生成了4.5K條長篇評判作為監督微調的種子數據。每條種子評判包含針對每一步推理的多角度驗證以及對初始評判的深入評判。隨後,我們對微調後的模型進行強化學習,使用PRM800K中現有的人工標註數據或通過基於蒙特卡羅採樣的正確性估計自動獲得的註釋數據,進一步激勵其評判能力。基於Qwen2.5-7B-Instruct開發的評判模型,不僅在多種錯誤識別基準測試中顯著優於現有的LLM評判模型(包括同規模的DeepSeek-R1-distill模型和GPT-4o),而且通過更為詳盡的反饋,更有效地幫助LLM生成器修正錯誤步驟。
交互式生成视频(IGV)已成為一項關鍵技術,以應對各領域對高質量、互動視頻內容日益增長的需求。在本文中,我們將IGV定義為一種結合生成能力以產生多樣化高質量視頻內容,並具備互動功能,使用戶能夠通過控制信號和響應反饋進行參與的技術。我們調查了當前IGV應用的現狀,重點關注三大領域:1)遊戲,其中IGV實現了虛擬世界中的無限探索;2)具身人工智能,其中IGV作為物理感知的環境合成器,用於訓練智能體在多模態交互中與動態演變場景的互動;3)自動駕駛,其中IGV提供了閉環模擬能力,用於安全關鍵測試和驗證。為指導未來發展,我們提出了一個全面的框架,將理想的IGV系統分解為五個核心模塊:生成、控制、記憶、動態和智能。此外,我們系統地分析了實現理想IGV系統中各組件的技術挑戰和未來方向,例如實現實時生成、支持開放域控制、保持長期連貫性、模擬精確物理以及整合因果推理。我們相信,這一系統性分析將促進IGV領域的未來研究與發展,最終推動該技術向更為複雜和實用的應用邁進。
近期大型語言模型的進展展示了如何通過思維鏈(CoT)和強化學習(RL)來提升性能。然而,將此類推理策略應用於視覺生成領域仍處於探索階段。本文介紹了T2I-R1,這是一種新穎的推理增強型文本到圖像生成模型,其核心在於結合了雙層CoT推理過程的強化學習。具體而言,我們識別出兩個層次的CoT,可用於增強生成過程的不同階段:(1)語義層次的CoT,用於提示的高層次規劃;(2)詞元層次的CoT,用於逐塊生成過程中的低層次像素處理。為更好地協調這兩層CoT,我們引入了BiCoT-GRPO,它集成了一系列生成獎勵,能夠在同一訓練步驟中無縫優化這兩種生成CoT。通過將我們的推理策略應用於基礎模型Janus-Pro,我們在T2I-CompBench上實現了13%的性能提升,在WISE基準測試上提升了19%,甚至超越了當前最先進的模型FLUX。代碼已開源於:https://github.com/CaraJ7/T2I-R1。
許多改進大型語言模型(LLM)代理在序列決策任務中表現的方法,依賴於特定任務的知識工程——例如提示調優、精心挑選的上下文示例,或定制的觀察和動作空間。使用這些方法,代理的表現會隨著投入的知識工程質量或數量而提升。相反,我們探討了LLM代理如何通過在類似任務中從自身成功的經驗中進行上下文學習,自動提升其表現。我們不依賴於特定任務的知識工程,而是專注於構建和精煉一個自生成示例的數據庫。我們證明,即使在訓練任務中簡單地累積成功軌跡,也能在三個基準測試中提升測試表現:ALFWorld(從73%提升至89%)、Wordcraft(從55%提升至64%)和InterCode-SQL(從75%提升至79%)——這與初始代理在每個任務允許兩到三次嘗試時所達到的表現相當。接著,我們引入了兩個擴展:(1) 通過基於種群的訓練進行數據庫級別選擇,以識別高表現的示例集合;(2) 示例級別選擇,根據其作為上下文示例的實用性保留個別軌跡。這些擴展進一步提升了表現,在ALFWorld上達到了91%——與使用特定任務組件和提示的更複雜方法相當。我們的結果表明,自動軌跡數據庫構建提供了一個引人注目的替代方案,避免了耗時的知識工程。
唇形同步,即對現有視頻中的唇部動作與新輸入音頻進行對齊的任務,通常被視為音頻驅動面部動畫的一種簡化變體。然而,除了面臨說話頭生成中的常見問題(如時間一致性)外,唇形同步還帶來了顯著的新挑戰,例如輸入視頻中的表情洩露和面部遮擋,這些問題會嚴重影響自動配音等實際應用,但在現有工作中往往被忽視。為解決這些不足,我們提出了KeySync,這是一個兩階段框架,成功解決了時間一致性的問題,同時通過精心設計的遮罩策略,整合了解決洩露和遮擋的方案。我們展示了KeySync在唇部重建和跨同步方面達到了最先進的成果,根據我們新提出的洩露度量標準LipLeak,提升了視覺質量並減少了表情洩露。此外,我們證明了新遮罩方法在處理遮擋方面的有效性,並通過多項消融研究驗證了我們的架構選擇。代碼和模型權重可在https://antonibigata.github.io/KeySync找到。
道德故事是傳遞價值觀的經久不衰的載體,然而現代自然語言處理(NLP)領域缺乏一個將連貫敘事與明確道德教訓相結合的大型結構化語料庫。我們通過TF1-EN-3M填補了這一空白,這是首個由不超過80億參數的指令調優模型生成的、包含三百萬條英語寓言故事的開放數據集。每個故事遵循六段式框架(角色 -> 特質 -> 場景 -> 衝突 -> 解決 -> 道德),通過組合式提示引擎生成,既保證了文類的忠實性,又涵蓋了廣泛的主題空間。 混合評估流程結合了(i)基於GPT的評判系統,對語法、創意、道德清晰度和模板遵循度進行評分,以及(ii)無參考的多樣性和可讀性指標。在十個開源候選模型中,一個80億參數的Llama-3變體展現了最佳的質量與速度平衡,在單個消費級GPU(<24 GB顯存)上以每千個故事約13.5美分的成本,生成高評分的寓言故事。 我們以寬鬆的許可證發布了數據集、生成代碼、評估腳本及完整元數據,確保了精確的可重現性和成本基準測試。TF1-EN-3M為指令遵循、敘事智能、價值對齊及兒童友好型教育AI的研究開辟了新途徑,證明大規模道德敘事不再依賴於專有的巨型模型。
大型語言模型(LLMs)已革新了軟體工程領域,但其在物理工程領域的應用仍待深入探索。本文通過RocketBench這一將LLMs與高保真火箭模擬相連的基準,評估了LLMs在高功率火箭設計中的能力。我們在兩個日益複雜的設計任務上測試了模型:目標高度優化和精準著陸挑戰。研究發現,儘管最先進的LLMs展現了紮實的基礎工程知識,但在獲得模擬結果後迭代設計時卻顯乏力,最終表現停滯於人類水平之下。然而,當結合強化學習(RL)進行增強後,我們展示了一個7B參數的模型超越了當前最強的基礎模型及人類專家。這項研究表明,經過RL訓練的LLMs能成為複雜工程優化的有效工具,有望在軟體開發之外的工程領域帶來變革。
近期,長鏈推理模型在複雜推理任務上展現出強勁性能,但往往伴隨著顯著的推理開銷,使得效率成為關鍵考量。我們的實證分析揭示,使用長鏈推理(Long-CoT)的效益因問題而異:某些問題需要細緻的推理,而另一些則未見提升,甚至準確率下降。這促使我們探索自適應推理策略,根據輸入調整推理深度。然而,先前的研究主要著眼於減少長推理路徑中的冗餘,限制了對超越長鏈推理範式的更高效策略的探索。為此,我們提出了一種新穎的兩階段框架,旨在實現自適應且高效的推理。首先,我們通過融合長鏈與短鏈推理模型構建了一個混合推理模型,以支持多樣化的推理風格。其次,我們應用雙層偏好訓練,引導模型在群組層面選擇合適的推理風格,並在每個風格群組內實例層面偏好簡潔且正確的推理。實驗表明,與其他基線方法相比,我們的方法在保持性能的同時,顯著降低了推理成本。值得注意的是,在五個數學數據集上,推理的平均長度減少了超過50%,凸顯了自適應策略在優化大型語言模型推理效率方面的潛力。我們的代碼即將發佈於https://github.com/StarDewXXX/AdaR1。
腳本介面使使用者能夠自動化任務並自訂軟體工作流程,但傳統上創建腳本需要程式設計專業知識和對特定API的熟悉度,這對許多使用者構成了障礙。雖然大型語言模型(LLMs)能從自然語言查詢生成程式碼,但由於未經驗證的程式碼、安全風險、較長的回應時間和更高的計算成本,運行時代碼生成受到嚴重限制。為彌合這一差距,我們提出了一個離線模擬框架,通過利用LLMs和公開可用的腳本指南,來策劃一個軟體專用的技能集,即一系列經過驗證的腳本。我們的框架包含兩個組件:(1) 任務創建,使用自上而下的功能指導和自下而上的API協同探索來生成有用的任務;(2) 技能生成與試驗,基於執行反饋來精煉和驗證腳本。為了高效導航廣泛的API領域,我們引入了一個基於圖神經網絡(GNN)的鏈接預測模型,以捕捉API協同作用,從而生成涉及未充分利用API的技能,並擴展技能集的多樣性。在Adobe Illustrator上的實驗表明,與傳統的運行時代碼生成相比,我們的框架顯著提高了自動化成功率,減少了回應時間,並節省了運行時令牌成本。這是首次將軟體腳本介面作為基於LLM系統的測試平台,突顯了在受控環境中利用執行反饋的優勢,並為在專業軟體領域中對齊AI能力與使用者需求提供了寶貴的見解。
設想身處一個人群熙攘的空間,周圍的人說著不同的語言,而你佩戴的聽覺設備能將這片聽覺空間轉化為你的母語,同時保留所有說話者的空間線索。我們引入了空間語音翻譯這一新穎概念,專為聽覺設備設計,能夠翻譯佩戴者環境中的說話者,並在雙耳輸出中保持每位說話者的方向和獨特聲音特徵。為實現這一目標,我們攻克了多項技術難題,包括盲源分離、定位、實時富有表現力的翻譯以及雙耳渲染,以確保翻譯後的音頻中說話者的方向得以保留,並在Apple M2芯片上實現實時推理。通過原型雙耳耳機的概念驗證評估顯示,與現有模型在干擾存在時失效不同,我們在語言間翻譯時,即便環境中存在強烈的其他說話者干擾,仍能達到高達22.01的BLEU分數。用戶研究進一步證實了該系統在先前未見的現實世界混響環境中,對翻譯語音進行空間渲染的有效性。回顧而言,這項工作標誌著將空間感知融入語音翻譯的第一步。
在醫學影像領域,數據增強對於提升分類準確性、病變檢測及器官分割在數據有限條件下的表現至關重要。然而,仍存在兩大挑戰。首先,自然照片與醫學影像之間顯著的領域差異可能扭曲關鍵疾病特徵。其次,醫學影像中的增強研究零散且多局限於單一任務或架構,使得先進的混合策略的優勢尚不明確。為應對這些挑戰,我們提出了一個統一的評估框架,整合了六種基於混合的增強方法,並結合卷積和Transformer骨幹網絡,應用於腦腫瘤MRI和眼病眼底數據集。我們的主要貢獻有三點:(1) 我們引入了MediAug,一個全面且可重現的醫學影像高級數據增強基準。(2) 我們系統地評估了MixUp、YOCO、CropMix、CutMix、AugMix和SnapMix與ResNet-50及ViT-B骨幹的結合效果。(3) 通過大量實驗,我們證實MixUp在ResNet-50上對腦腫瘤分類任務提升最大,達到79.19%的準確率,而SnapMix在ViT-B上表現最佳,準確率達99.44%;同時,YOCO在ResNet-50上對眼病分類任務提升最顯著,準確率為91.60%,CutMix則在ViT-B上取得97.94%的準確率,表現最優。代碼將公開於https://github.com/AIGeeksGroup/MediAug。
隨著網路攝影機數量的持續增加,視覺感測器在智慧交通系統(ITS)中的交通監控、管理與優化方面變得愈發重要。然而,在城市規模的交通場景中,手動進行多個非重疊攝影機間的物體追蹤與匹配面臨著重大挑戰。這些挑戰包括處理多樣的車輛屬性、遮擋、光照變化、陰影以及不同的視訊解析度。為解決這些問題,我們提出了一種高效且經濟的基於深度學習的多目標多攝影機追蹤(MO-MCT)框架。該框架利用Mask R-CNN進行物體檢測,並採用非極大值抑制(NMS)從重疊檢測中選取目標物體。透過遷移學習實現再識別,從而關聯並生成跨多個攝影機的車輛軌跡片段。此外,我們運用適當的損失函數與距離度量來應對遮擋、光照與陰影的挑戰。最終的解決方案識別模組結合ResNet-152進行特徵提取,並基於Deep SORT實現車輛追蹤。該框架在第五屆AI City Challenge數據集(Track 3)上進行評估,該數據集包含46個攝影機的影像流。其中,40個用於模型訓練與驗證,其餘六個用於模型測試。所提出的框架在IDF1得分上達到0.8289,精確度與召回率分別為0.9026與0.8527,展現了其在穩健且準確的車輛追蹤中的有效性。