每日精選AI研究論文及翻譯
本研究探討了在生物醫學資源有限的俄語環境中,自動化臨床編碼的可行性。我們提出了一個新的ICD編碼數據集,該數據集包含來自電子健康記錄(EHRs)的診斷字段,並標註了超過10,000個實體和1,500多個獨特的ICD代碼。此數據集作為多種先進模型的基準,包括BERT、帶有LoRA的LLaMA以及RAG,並進行了額外的實驗,考察跨領域(從PubMed摘要到醫學診斷)和跨術語(從UMLS概念到ICD代碼)的遷移學習。隨後,我們將表現最佳的模型應用於標註一個內部EHR數據集,該數據集包含2017年至2021年的患者病史。我們在精心挑選的測試集上進行的實驗表明,與醫生手動註釋的數據相比,使用自動預測代碼進行訓練能顯著提高準確性。我們相信,這些發現為在資源有限的語言(如俄語)中自動化臨床編碼的潛力提供了寶貴的見解,這可能提升這些情境下的臨床效率和數據準確性。
近期在人類偏好對齊方面的進展,顯著提升了多模態生成與理解的能力。其中一個關鍵方法是訓練獎勵模型來引導偏好優化。然而,現有模型往往針對特定任務,限制了它們在各種視覺應用中的適應性。我們認為,聯合學習評估多項任務可能會產生協同效應,即改進的圖像理解能提升圖像生成評估,而精煉的圖像評估則通過更好的幀分析來增強視頻評估。為此,本文提出了UnifiedReward,這是首個用於多模態理解與生成評估的統一獎勵模型,支持成對排序和點評分,可用於視覺模型的偏好對齊。具體而言,(1) 我們首先在構建的大規模人類偏好數據集上開發了UnifiedReward,涵蓋圖像和視頻的生成/理解任務。(2) 接著,利用該模型基於視覺模型自動構建高質量的偏好對數據,通過成對排序和點篩選逐步精細過濾其輸出。(3) 最後,這些數據被用於通過直接偏好優化(DPO)進行偏好對齊。實驗結果表明,聯合學習評估多樣視覺任務能帶來顯著的相互增益,我們將此流程應用於圖像和視頻的理解/生成任務,顯著提升了各領域的性能。
通用多语言向量表示,在检索、回归和分类中应用广泛,传统上源自双向编码器模型。尽管其适用性广泛,编码器近来却被仅含解码器的生成模型所取得的进展所掩盖。然而,推动这一进步的许多创新并非解码器所独有。本文中,我们透过这些进展的视角重新审视多语言编码器的发展,并介绍了EuroBERT,一个涵盖欧洲及全球广泛使用语言的多语言编码器系列。我们的模型在多种任务上表现优异,包括多语言能力、数学和编程,并原生支持长达8,192个标记的序列。我们还探讨了EuroBERT背后的设计决策,分享了数据集构成和训练流程的洞见。我们公开了EuroBERT模型,包括中间训练检查点,以及我们的训练框架。
近期,DeepSeek R1展示了如何通过简单的基于规则的激励进行强化学习,促使大型语言模型自主发展出复杂的推理能力,这一过程以“顿悟时刻”为特征,即模型在训练过程中展现出自我反思并增加响应长度。然而,尝试将这一成功扩展到多模态推理时,往往难以再现这些关键特征。在本报告中,我们首次成功地在仅使用非SFT(监督微调)的2B模型上,复制了这些多模态推理的涌现特性。从Qwen2-VL-2B出发,直接在SAT数据集上应用强化学习,我们的模型在CVBench上达到了59.47%的准确率,比基础模型提升了约30%,并超过了所有SFT设置约2%。此外,我们分享了在尝试使用RL(强化学习)结合指令模型实现类似R1推理时的失败尝试与洞见,旨在揭示其中的挑战。我们的关键观察包括:(1)在指令模型上应用RL常导致推理轨迹趋于简单化;(2)单纯的长度奖励在激发推理能力方面效果不佳。项目代码已发布于https://github.com/turningpoint-ai/VisualThinker-R1-Zero。
大型語言模型(LLMs)的快速發展,使得語音模型受到了極大關注,尤其是近期在支持語音輸入與輸出的speech2speech協議方面取得的進展。然而,現有的基準測試採用基於文本的自動評估器來評估這些模型的指令遵循能力,卻缺乏對語音理解與生成中副語言信息的考量。為解決這些問題,我們引入了S2S-Arena,這是一個新穎的競技場式S2S基準測試,旨在跨現實世界任務中,評估模型在包含副語言信息的語音輸入與輸出中的指令遵循能力。我們設計了154個樣本,融合了TTS與實時錄音,涵蓋四個領域的21項任務,並以競技場方式手動評估現有熱門語音模型。實驗結果表明:(1)除了GPT-4o的卓越表現外,在speech2speech協議中,串聯ASR、LLM和TTS的語音模型在文本-語音對齊後,其性能優於聯合訓練的模型;(2)考慮到副語言信息,語音模型的知識性主要依賴於LLM骨幹,而其多語言支持則受限於語音模塊;(3)優秀的語音模型已能理解語音輸入中的副語言信息,但生成帶有適當副語言信息的音頻仍是一大挑戰。
近期大型語言模型的進展,通過思維鏈(Chain of Thought, CoT)提示展現了卓越的推理能力,但這往往伴隨著中間輸出過於冗長的代價,從而增加了計算開銷。我們引入了思維草圖(Sketch-of-Thought, SoT),這是一種新穎的提示框架,結合了認知啟發的推理範式與語言約束,以最小化令牌使用量,同時保持推理準確性。SoT被設計為一個靈活的框架,能夠整合任何基於認知科學的自定義推理範式,我們並以三種此類範式——概念鏈接(Conceptual Chaining)、分塊符號化(Chunked Symbolism)和專家詞彙(Expert Lexicons)——來實例化它,每種範式針對不同的推理任務,並通過輕量級路由模型動態選擇。通過在15個推理數據集上進行跨語言和多模態場景的全面評估,我們證明SoT實現了76%的令牌減少,且對準確性的影響微乎其微。在某些領域,如數學和多跳推理中,它甚至在使用顯著更少令牌的同時提高了準確性。我們的代碼已公開提供:https://www.github.com/SimonAytes/SoT。
在本研究中,我們首次將可驗證獎勵的強化學習(RLVR)應用於全模態大型語言模型,針對情感識別這一任務進行優化,其中視覺和音頻模態均扮演著關鍵角色。我們利用RLVR來優化全模態模型,顯著提升了其在三個關鍵方面的表現:推理能力、情感識別準確度以及泛化能力。RLVR的引入不僅提升了模型在分佈內數據上的整體性能,還在分佈外數據集評估中展現出卓越的魯棒性。更重要的是,增強後的推理能力使得我們能夠清晰分析不同模態,特別是視覺和音頻信息,在情感識別過程中的貢獻。這為多模態大型語言模型的優化提供了寶貴的洞見。
現代循環序列模型的一個關鍵組件是遺忘門。雖然Transformer並未採用顯式的循環結構,但我們展示了一種方法,可以通過數據依賴的方式對未歸一化的注意力分數進行降權,從而自然地將遺忘門融入Transformer中。我們將這種注意力機制命名為“遺忘注意力”,並將由此產生的模型稱為“遺忘Transformer”(FoX)。我們證明,FoX在長上下文語言建模、長度外推以及短上下文下游任務上均優於Transformer,而在長上下文下游任務上則與Transformer表現相當。此外,它與FlashAttention算法兼容,且無需任何位置嵌入。多項分析,包括“大海撈針”測試,表明FoX也保留了Transformer相較於Mamba-2、HGRN2和DeltaNet等循環序列模型在長上下文處理上的優勢。我們還引入了一種“Pro”模塊設計,該設計整合了循環序列模型中的一些常見架構組件,並發現它顯著提升了FoX和Transformer的性能。我們的代碼已開源於https://github.com/zhixuan-lin/forgetting-transformer。
現有的大型推理模型(LRMs)已展現出強化學習(RL)在提升大型語言模型(LLMs)複雜推理能力方面的潛力。儘管這些模型在數學和編碼等挑戰性任務上表現出色,但它們通常依賴內部知識來解決問題,這對於時間敏感或知識密集型的問題可能不足,導致不準確和幻覺現象。為解決這一問題,我們提出了R1-Searcher,這是一種新穎的基於結果的兩階段RL方法,旨在增強LLMs的搜索能力。該方法允許LLMs在推理過程中自主調用外部搜索系統以獲取額外知識。我們的框架完全依賴於RL,無需過程獎勵或蒸餾來進行冷啟動。實驗結果表明,我們的方法顯著優於以往強大的RAG方法,甚至與閉源的GPT-4o-mini相比也表現出色。
視頻修復技術旨在恢復受損的視頻內容,已取得顯著進展。儘管如此,現有方法無論是通過光流和感受野先驗傳播未遮罩區域像素,還是將圖像修復模型在時間上進行擴展,都面臨著生成完全遮罩物體或在單一模型中平衡背景上下文保留與前景生成這兩個競爭目標的挑戰。為解決這些限制,我們提出了一種新穎的雙流範式VideoPainter,該範式包含一個高效的上下文編碼器(僅佔主幹參數的6%)來處理遮罩視頻,並將主幹感知的背景上下文線索注入任何預訓練的視頻DiT中,以即插即用的方式生成語義一致的內容。這種架構分離顯著降低了模型的學習複雜度,同時實現了關鍵背景上下文的細緻整合。我們還引入了一種新穎的目標區域ID重採樣技術,實現了任意長度的視頻修復,大大提升了實際應用性。此外,我們建立了一個可擴展的數據集管道,利用當前視覺理解模型,貢獻了VPData和VPBench,以促進基於分割的修復訓練和評估,這是迄今為止最大的視頻修復數據集和基準,包含超過39萬個多樣化的片段。以修復為管道基礎,我們還探索了下游應用,包括視頻編輯和視頻編輯對數據生成,展示了競爭力的性能和顯著的實際潛力。大量實驗表明,VideoPainter在任意長度視頻修復和編輯方面均表現優異,涵蓋視頻質量、遮罩區域保留和文本一致性等八個關鍵指標。
基於大型語言模型(LLM)的代理在解決網路任務方面正變得日益熟練。然而,這種能力的提升也伴隨著更大的濫用風險,例如在線上論壇發布錯誤資訊或在網站上販售非法物質。為評估這些風險,我們提出了SafeArena,這是首個專注於網路代理故意濫用的基準測試。SafeArena包含四個網站上的250項安全任務和250項有害任務。我們將有害任務分為五類——錯誤資訊、非法活動、騷擾、網路犯罪和社會偏見,旨在評估網路代理的實際濫用情況。我們在該基準上評估了領先的基於LLM的網路代理,包括GPT-4o、Claude-3.5 Sonnet、Qwen-2-VL 72B和Llama-3.2 90B。為系統性地評估它們對有害任務的易感性,我們引入了代理風險評估框架,該框架將代理行為分為四個風險等級。我們發現,代理對惡意請求的順從程度令人驚訝,GPT-4o和Qwen-2分別完成了34.7%和27.3%的有害請求。我們的研究結果突顯了對網路代理進行安全對齊程序的迫切需求。我們的基準測試可在此處取得:https://safearena.github.io
我們提出了TrajectoryCrafter,這是一種針對單目視頻重新定向相機軌跡的新穎方法。通過將確定性的視圖變換與隨機內容生成分離,我們的方法實現了對用戶指定相機軌跡的精確控制。我們提出了一種新穎的雙流條件視頻擴散模型,該模型同時整合點雲渲染和源視頻作為條件,確保了準確的視圖變換和連貫的4D內容生成。我們沒有利用稀缺的多視角視頻,而是通過創新的雙重重投影策略,策劃了一個結合網絡規模單目視頻與靜態多視角數據集的混合訓練數據集,顯著促進了跨多樣場景的魯棒泛化能力。在多視角和大規模單目視頻上的廣泛評估展示了我們方法的卓越性能。
近期在大型語言模型(LLMs)強化學習(RL)領域的進展,以DeepSeek R1為例,顯示即使是簡單的問答任務也能顯著提升LLM的推理能力。在本研究中,我們將此方法擴展,將任務修改為多輪嘗試的設定。模型不再對每個問題生成單一回應,而是給予多次嘗試機會,並在錯誤回應後提供反饋。這種多輪嘗試任務促使模型改進先前的嘗試並提升搜索效率。實驗結果表明,即使在多輪嘗試任務上訓練的小型LLM,在評估時使用更多嘗試也能顯著提高準確率,在數學基準測試中從單次嘗試的45.6%提升至兩次嘗試的52.5%。相比之下,同一LLM在標準單輪任務上訓練後,在評估時給予更多嘗試僅表現出微幅提升,從42.3%增至43.2%。這些結果表明,與標準單輪任務相比,在多輪嘗試任務上訓練的LLM不僅在數學基準測試中表現略優,還能更有效地根據用戶反饋精煉其回應。完整程式碼可於https://github.com/DualityRL/multi-attempt 取得。
在保持性能的同时縮減大型語言模型(LLMs)的規模已成為一項備受關注的挑戰。然而,現有的方法,如模型蒸餾和遷移學習,往往難以實現高準確率。為解決這一限制,我們引入了分支合併蒸餾方法,該方法通過兩個階段增強模型壓縮:(1) 分支階段,在此階段,大型教師模型的知識通過領域特定的監督微調(SFT)有選擇地蒸餾到專用學生模型中;(2) 合併階段,在此階段,這些學生模型被合併,以實現跨領域知識轉移並提升泛化能力。我們使用DeepSeek-R1作為教師模型,DeepSeek-R1-Distill-Qwen-32B作為學生模型,驗證了我們的蒸餾方法。最終合併的模型TinyR1-32B-Preview在多個基準測試中均優於其對應的DeepSeek-R1-Distill-Qwen-32B,包括數學(+5.5分)、編碼(+4.4分)和科學(+2.9分),同時在AIME 2024上實現了與DeepSeek-R1近乎相當的性能。分支合併蒸餾方法為創建更小、高性能且計算成本和時間更低的LLMs提供了一種可擴展的解決方案。
程式碼嵌入對於語義程式碼搜索至關重要;然而,現有方法往往難以精確捕捉程式碼中固有的語法和上下文細微差異。開源模型如CodeBERT和UniXcoder在可擴展性和效率方面存在限制,而高性能的專有系統則需承擔巨大的計算成本。我們引入了一種基於低秩適應(LoRA)的參數高效微調方法,用於構建特定任務的程式碼檢索適配器。該方法將可訓練參數數量減少至基礎模型的不到2%,從而能夠在大量程式碼語料庫上快速微調(在兩張H100 GPU上,25分鐘內處理200萬個樣本)。實驗表明,在多種程式語言中,Code2Code搜索的平均倒數排名(MRR)提升了高達9.1%,Text2Code搜索任務則提升了高達86.69%。任務和語言適應性的差異有助於探索程式碼檢索對語法和語言變化的敏感性。
現實世界的家務任務對移動操作機器人提出了重大挑戰。通過對現有機器人基準測試的分析,我們發現成功的任務執行依賴於三項關鍵的全身控制能力:雙臂協調、穩定且精確的導航,以及廣泛的末端執行器可達性。實現這些能力需要精心的硬件設計,但由此產生的系統複雜性進一步加劇了視覺運動策略學習的難度。為應對這些挑戰,我們引入了BEHAVIOR機器人套件(BRS),這是一個用於多樣化家務任務中全身操作的綜合框架。基於一款配備4自由度軀幹的雙臂輪式機器人,BRS整合了一個經濟高效的全身遙控數據收集界面,以及一種新穎的學習全身視覺運動策略的算法。我們在五項具有挑戰性的家務任務上對BRS進行了評估,這些任務不僅強調了上述三項核心能力,還引入了額外的複雜性,如遠程導航、與可動及可變形物體的交互,以及在狹小空間內的操作。我們相信,BRS集成的機器人實體、數據收集界面及學習框架,標誌著在實現日常家務任務中真實世界全身操作方面邁出了重要一步。BRS已在https://behavior-robot-suite.github.io/開源。
擴散模型在圖像和視頻生成領域取得了顯著進展,但仍面臨巨大的計算成本問題。作為一種有效的解決方案,流匹配旨在將擴散模型的擴散過程重新調整為直線,以實現少步甚至一步生成。然而,本文認為流匹配的原始訓練流程並非最優,並引入了兩種技術來改進它。首先,我們提出了漸進式重流,它在局部時間步中逐步重流擴散模型,直至整個擴散過程完成,從而降低了流匹配的難度。其次,我們引入了對齊的v預測,強調了在流匹配中方向匹配的重要性,而非幅度匹配。在SDv1.5和SDXL上的實驗結果證明了我們方法的有效性,例如,在SDv1.5上進行實驗,僅用4個採樣步驟就在MSCOCO2014驗證集上達到了10.70的FID,接近我們的教師模型(32個DDIM步驟,FID = 10.05)。
線性序列建模(Linear Sequence Modeling, LSM),如線性注意力、狀態空間模型和線性循環神經網絡,以及專家混合模型(Mixture-of-Experts, MoE)近期已成為重要的架構改進。本文中,我們介紹了Linear-MoE,這是一個生產級系統,用於建模和訓練將LSM與MoE相結合的大規模模型。Linear-MoE充分利用了LSM模組在線性複雜度序列建模上的優勢,以及MoE層在稀疏激活上的特點,旨在實現高效訓練下的高性能。Linear-MoE系統包含:1)建模子系統,提供一個統一框架,支持所有LSM實例;2)訓練子系統,通過整合多種先進的並行技術,特別是為Linear-MoE模型設計的序列並行技術,來促進高效訓練。此外,我們探索了將Linear-MoE層與標準Transformer-MoE層及其序列並行技術相結合的混合模型,以進一步提升模型的靈活性和性能。在A0.3B-2B和A1B-7B兩個模型系列上的評估表明,Linear-MoE在保持各項基準測試競爭力的同時,實現了效率提升,展示了其作為下一代基礎模型架構的潛力。代碼:https://github.com/OpenSparseLLMs/Linear-MoE。
在本报告中,我们呈现了关于STILL项目中慢思考模型开发的第三份技术报告。随着技术路径的日益明朗,强化学习(RL)训练的规模化已成为实现此类推理模型的核心技术。我们系统地实验并记录了影响RL训练的各种因素,对基础模型和微调模型均进行了实验。具体而言,我们展示了我们的RL训练方法持续提升了Qwen2.5-32B基础模型的表现,不仅增加了响应长度,还提高了测试准确率。此外,我们发现即使像DeepSeek-R1-Distill-Qwen-1.5B这样已具备高性能的模型,通过RL训练仍能进一步优化,在AIME 2024上达到了39.33%的准确率。除了RL训练,我们还探索了工具操控的使用,发现它显著提升了大型推理模型的推理性能。该方法在AIME 2024上采用贪婪搜索时取得了86.67%的惊人准确率,充分证明了其在增强模型能力方面的有效性。我们已在STILL项目网站上发布了相关资源:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。
檢索增強生成(RAG)在特定語料庫中執行問答(QA)任務方面展現了顯著的效能。然而,RAG在QA中的失敗案例仍然眾多。這些失敗不僅歸因於大型語言模型(LLMs)的局限性,反而主要源於為LLMs檢索到的不準確資訊,這是由於兩個限制因素所致:(1) 現有的RAG方法在分割語料庫時未考慮語義,導致因問題與段落間關聯性受損而難以找到相關上下文。(2) 在檢索較少上下文時遺漏關鍵資訊與檢索較多上下文時引入不相關資訊之間存在權衡。 本文中,我們提出了一種RAG框架(SAGE),以克服這些限制。首先,為解決未考慮語義的分割問題,我們提出訓練一個語義分割模型。該模型旨在將語料庫分割成語義完整的片段。其次,為確保僅檢索最相關的片段而忽略不相關的,我們設計了一種片段選擇算法,基於相關性分數的下降速度動態選擇片段,從而實現更精準的選擇。第三,為進一步確保檢索片段的精確性,我們建議讓LLMs評估檢索到的片段是否過多或不足,並據此調整上下文的數量。實驗表明,SAGE在QA質量上平均優於基準方法61.25%。此外,通過避免檢索噪聲上下文,SAGE降低了LLM推理中消耗的token成本,平均提升了49.41%的成本效益。此外,我們的工作為提升RAG提供了寶貴的見解。
當前先進的長上下文語言模型在現實世界的軟體工程應用中展現出巨大潛力。然而,這一關鍵領域的進展仍受到一個根本性限制的阻礙:缺乏針對長程式碼理解的嚴謹評估框架。為彌補這一不足,我們提出了一個長程式碼理解基準LONGCODEU,從四個方面(共8項任務)來評估長上下文語言模型在實際應用中所需的長程式碼理解能力,包括程式碼單元感知、程式碼單元內部理解、程式碼單元間關係理解以及長程式碼文件理解。我們在LONGCODEU上評估了9種流行的長上下文語言模型(即6種通用模型和3種程式碼模型)。實驗結果揭示了當前長上下文語言模型在長程式碼理解能力上的關鍵限制。特別是,當長程式碼長度超過32K時,這些模型的性能急劇下降,遠未達到其宣稱的128K至1M的上下文窗口。在四個方面中,程式碼單元間關係理解對長上下文語言模型最具挑戰性。本研究為優化長上下文語言模型及推動軟體工程領域的進步提供了寶貴的見解。
現代大型語言模型(LLM)的序列化特性使其成本高昂且速度緩慢,而推測性採樣已被證明是解決這一問題的有效方案。諸如EAGLE等方法在特徵層面進行自回歸,通過重用目標模型的頂層特徵,取得了比基礎推測性採樣更好的效果。LLM社群中一個日益增長的趨勢是擴大訓練數據規模,以在不增加推理成本的情況下提升模型智能。然而,我們觀察到,擴大數據規模對EAGLE的改進效果有限。我們發現這一限制源於EAGLE的特徵預測約束。本文中,我們介紹了EAGLE-3,它放棄了特徵預測,轉而直接進行詞元預測,並通過一種名為訓練時測試的技術,用多層特徵融合取代了對頂層特徵的依賴。這些改進顯著提升了性能,使草稿模型能夠充分利用擴大訓練數據規模帶來的好處。我們的實驗涵蓋了聊天模型和推理模型,並在五項任務上進行了評估。結果顯示,EAGLE-3實現了最高6.5倍的加速比,相比EAGLE-2提升了約1.4倍。代碼可在https://github.com/SafeAILab/EAGLE獲取。
影片異常檢測(Video Anomaly Detection, VAD)在電腦視覺的影片分析與監控中扮演著關鍵角色。然而,現有的VAD模型依賴於學習到的正常模式,這使得它們難以應用於多樣化的環境。因此,用戶需要針對新環境重新訓練模型或開發獨立的AI模型,這不僅需要機器學習的專業知識、高效能硬體,還需進行大量的數據收集,從而限制了VAD的實際應用性。為解決這些挑戰,本研究提出了可自訂的影片異常檢測技術(Customizable Video Anomaly Detection, C-VAD)以及AnyAnomaly模型。C-VAD將用戶定義的文本視為異常事件,並檢測影片中包含指定事件的幀。我們有效地實現了AnyAnomaly,利用上下文感知的視覺問答技術,而無需對大型視覺語言模型進行微調。為驗證所提模型的有效性,我們構建了C-VAD數據集,並展示了AnyAnomaly的優越性。此外,我們的方法在VAD基準數據集上展現了競爭力的表現,在UBnormal數據集上達到了最先進的成果,並在所有數據集的泛化能力上超越了其他方法。我們的程式碼已公開於github.com/SkiddieAhn/Paper-AnyAnomaly。
使用者模擬器對於複現人類與對話系統的互動至關重要,它不僅支持協同訓練,還能進行自動評估,尤其是在大型語言模型(LLMs)的應用中。然而,現有的模擬器往往僅依賴於文本語句,忽略了使用者的隱含特質,如個性、說話風格和目標。相比之下,基於人物角色的方法缺乏通用性,因為它們依賴於預先定義的名人或原型檔案。為解決這些挑戰,我們提出了帶有隱含特徵的使用者模擬器(USP),這是一個從人機對話中推斷隱含使用者特徵並利用這些特徵生成更個性化和真實對話的框架。我們首先開發了一個由LLM驅動的提取器,配備了全面的特徵架構。接著,通過條件監督微調和帶有循環一致性的強化學習來精煉模擬,在語句和對話層面進行優化。最後,我們採用多樣化的特徵採樣器來捕捉現實世界使用者特徵的分佈。實驗結果表明,USP在真實性和多樣性方面優於強基準,同時在一致性方面表現相當。此外,基於USP的動態多輪評估與主流基準高度一致,證明了其在實際應用中的有效性。