每日精選AI研究論文及翻譯
視覺推理是人類智慧的核心組成部分,也是高級多模態模型的關鍵能力。然而,當前對多模態大型語言模型(MLLMs)的推理評估往往依賴於文本描述,並允許基於語言的推理捷徑,未能真正衡量以視覺為中心的推理能力。為解決這一問題,我們引入了VisuLogic:一個包含六個類別(如數量變化、空間關係、屬性比較等)共1,000道人機驗證問題的基準。這些多樣化的問題類型可以從多個角度評估MLLMs的視覺推理能力。我們在該基準上評估了領先的MLLMs,並分析其結果以識別常見的失敗模式。大多數模型的準確率低於30%——僅略高於25%的隨機基線,遠低於人類達到的51.4%——揭示了視覺推理方面的顯著差距。此外,我們提供了一個補充訓練數據集和一個基於強化學習的基線,以支持進一步的進展。
如何以高性价比的方式在语言模型中实现强大的推理能力?基于这一根本性问题,我们提出了Tina,一个以高成本效益实现的小型推理模型家族。值得注意的是,Tina展示了仅需极少的资源,通过在强化学习(RL)过程中应用参数高效的更新方法——低秩适应(LoRA),对一个仅有1.5B参数的微型基础模型进行调整,即可开发出显著的推理性能。这种极简主义方法产生的模型,其推理性能不仅与基于同一基础模型构建的SOTA RL推理模型相媲美,有时甚至超越它们。关键在于,这一切仅以现有SOTA模型所需计算后训练成本的一小部分达成。实际上,最佳的Tina模型在AIME24上实现了超过20%的推理性能提升和43.33%的Pass@1准确率,而其后训练与评估成本仅为9美元(即估计成本降低了260倍)。我们的工作揭示了通过LoRA进行高效RL推理的惊人效果。我们在多个开源推理数据集和多种消融设置中验证了这一点,均从一组固定的超参数出发。此外,我们推测这种效果和效率源于LoRA快速使模型适应RL奖励的推理结构格式,同时很大程度上保留了基础模型的底层知识。为了促进可访问性和开放研究,我们完全开源了所有代码、训练日志以及模型权重和检查点。
本文介紹了DreamID,這是一種基於擴散模型的人臉交換技術,能夠實現高度的身份相似性、屬性保留、圖像保真度以及快速的推理速度。與通常依賴隱式監督且難以達到滿意效果的人臉交換訓練過程不同,DreamID通過構建三重身份組數據,為人臉交換建立了顯式監督,顯著提升了身份相似性和屬性保留。擴散模型的迭代特性對利用高效的圖像空間損失函數提出了挑戰,因為在訓練過程中進行耗時的多步採樣以獲取生成圖像是不切實際的。為解決這一問題,我們採用了加速擴散模型SD Turbo,將推理步驟減少至單次迭代,從而實現了基於顯式三重身份組監督的高效像素級端到端訓練。此外,我們提出了一種改進的基於擴散模型的架構,包括SwapNet、FaceNet和ID Adapter。這一強大架構充分釋放了三重身份組顯式監督的潛力。最後,為了進一步擴展我們的方法,我們在訓練期間顯式修改三重身份組數據,以微調和保留特定屬性,如眼鏡和臉型。大量實驗表明,DreamID在身份相似性、姿態和表情保留以及圖像保真度方面均優於現有最先進的方法。總體而言,DreamID在512*512分辨率下僅需0.6秒即可實現高質量的人臉交換效果,並在複雜光照、大角度和遮擋等挑戰性場景中表現尤為出色。
我們推出了PHYBench,這是一個新穎且高品質的基準測試,旨在評估大型語言模型(LLMs)在物理情境下的推理能力。PHYBench包含500道精心挑選的物理問題,這些問題基於真實世界的物理場景,旨在評估模型對現實物理過程的理解與推理能力。涵蓋力學、電磁學、熱力學、光學、現代物理學及高級物理學,該基準測試的難度範圍從高中練習題到大學問題,乃至物理奧林匹克競賽挑戰。此外,我們提出了表達式編輯距離(EED)分數,這是一種基於數學表達式之間編輯距離的新穎評估指標,能有效捕捉模型推理過程和結果的差異,超越了傳統的二進制評分方法。我們在PHYBench上評估了多種LLMs,並將其表現與人類專家進行比較。我們的結果顯示,即便是最先進的推理模型也顯著落後於人類專家,凸顯了它們在複雜物理推理場景中的局限性和改進需求。我們的基準測試結果和數據集公開於https://phybench-official.github.io/phybench-demo/。
我們推出Trillion-7B,這是一款最具代幣效率的以韓語為核心的多語言大規模語言模型(LLM)。我們新穎的跨語言文件注意力機制(XLDA)實現了從英語到目標語言(如韓語和日語)的高效且有效的知識轉移。結合優化的數據混合、特定語言的過濾以及量身定制的分詞器構建,Trillion-7B在僅將其2T訓練代幣中的10%用於多語言數據,且僅需59.4K H100 GPU小時(約14.8萬美元)完成完整訓練的情況下,達到了具有競爭力的性能。在四種語言的27個基準測試中的全面評估,展示了Trillion-7B強大的多語言性能和卓越的跨語言一致性。
隨著表徵學習領域的發展,針對不同問題類型的損失函數層出不窮。我們提出了一個單一的資訊理論方程,該方程概括了機器學習中大量現代損失函數。具體而言,我們引入了一個框架,展示了多種廣泛的機器學習方法實際上是在最小化兩個條件分佈之間的積分KL散度:監督表徵與學習表徵。這一視角揭示了聚類、譜方法、降維、對比學習以及監督學習背後隱藏的資訊幾何結構。此框架通過結合文獻中成功的技術,促進了新損失函數的開發。我們不僅提供了廣泛的證明,連接了超過23種不同的方法,還利用這些理論成果創建了最先進的無監督圖像分類器,在ImageNet-1K上的無監督分類任務中相比之前的最佳結果提升了8%。此外,我們還展示了I-Con可用於推導出有原則的去偏方法,從而改進了對比表徵學習器。
近期,針對圖像定制(如身份、主題、風格、背景等)的大量研究展示了大型生成模型在定制能力上的強大表現。然而,大多數方法僅針對特定任務設計,限制了其結合不同類型條件的通用性。開發一個統一的圖像定制框架仍是一個開放性挑戰。本文中,我們提出了DreamO,這是一個旨在支持廣泛任務並促進多種條件無縫整合的圖像定制框架。具體而言,DreamO利用擴散變換器(DiT)框架來統一處理不同類型的輸入。在訓練過程中,我們構建了一個包含多種定制任務的大規模訓練數據集,並引入了特徵路由約束以促進從參考圖像中精確查詢相關信息。此外,我們設計了一種佔位符策略,將特定佔位符與特定位置的條件關聯起來,從而實現對生成結果中條件放置的控制。同時,我們採用了一種由三個階段組成的漸進式訓練策略:初始階段專注於數據量有限的簡單任務以建立基礎一致性,全面訓練階段以全面提升定制能力,以及最終的質量對齊階段以糾正由低質量數據引入的質量偏差。大量實驗表明,所提出的DreamO能夠高質量地有效執行各種圖像定制任務,並靈活整合不同類型的控制條件。
本文介绍了我们在AI数学奥林匹克竞赛——进步奖2(AIMO-2)中的获奖方案。我们构建顶尖数学推理模型的秘诀基于三大支柱。首先,我们创建了一个包含54万道独特高质量数学问题的大规模数据集,其中包括奥林匹克级别的题目及其320万条长推理解答。其次,我们开发了一种新颖方法,通过迭代训练、生成和质量筛选,将代码执行与长推理模型相结合,生成了170万条高质量的工具集成推理解答。第三,我们建立了一个管道,用于训练模型从众多候选解答中选择最有前景的解决方案。我们证明,这种生成式解答选择(GenSelect)能显著超越多数投票的基线方法。结合这些理念,我们训练了一系列模型,在数学推理基准测试中取得了顶尖成果。为促进进一步研究,我们在商业许可下发布了我们的代码、模型以及完整的OpenMathReasoning数据集。
直接偏好優化(Direct Preference Optimization, DPO)簡化了大型語言模型(LLMs)從人類反饋中進行強化學習(RLHF)的過程,它直接優化人類偏好,而無需顯式的獎勵模型。我們發現,在DPO訓練過程中,參考模型扮演了數據權重調整器的角色。然而,DPO中常見的將策略模型與參考模型初始化的做法,可能導致數據利用效率低下,並設定性能上限。同時,簡單偏好優化(Simple Preference Optimization, SimPO)缺乏參考模型,這降低了訓練的穩健性,並需要更嚴格的條件來防止災難性遺忘。在本研究中,我們提出了Pre-DPO,這是一種基於DPO的簡單而有效的訓練範式,它通過利用指導性參考模型來提升偏好優化的性能。該參考模型提供了通過訓練偏好數據可達到的理想策略狀態的前瞻性,作為一種指導機制,自適應地為更適合模型的樣本分配更高的權重,而對不太適合的樣本分配較低的權重。在AlpacaEval 2.0和Arena-Hard v0.1基準上的廣泛實驗表明,Pre-DPO持續提升了DPO和SimPO的性能,且無需依賴外部模型或額外數據。
對比式語言-圖像預訓練(CLIP)通過對齊圖像與文本模態,在多個下游任務中取得了成功。然而,全局對比學習的本質限制了CLIP理解組合概念(如關係與屬性)的能力。儘管近期研究採用全局硬負樣本來提升組合理解,這些方法通過在嵌入空間中強制拉開文本負樣本與圖像的距離,顯著損害了模型的固有通用能力。為克服這一限制,我們提出了一種解耦的全局-局部對齊(DeGLA)框架,該框架在提升組合理解的同時,大幅減少了通用能力的損失。為優化模型固有能力的保留,我們在全局對齊過程中引入了自蒸餾機制,將可學習的圖像-文本編碼器與基於指數移動平均的凍結教師模型對齊。在自蒸餾的約束下,它有效緩解了微調過程中預訓練知識的災難性遺忘。為提升組合理解,我們首先利用大型語言模型(LLMs)的上下文學習能力,構建了約200萬條跨五種類型的高質量負樣本描述。隨後,我們提出了基於圖像的對比(IGC)損失和基於文本的對比(TGC)損失,以增強視覺-語言的組合性。大量實驗結果證明了DeGLA框架的有效性。與先前最先進的方法相比,DeGLA在VALSE、SugarCrepe和ARO基準上平均提升了3.5%。同時,在十一個數據集的零樣本分類任務上,平均性能提升了13.0%。我們的代碼將發佈於https://github.com/xiaoxing2001/DeGLA。
大型語言模型(LLMs)的顯著成功,為學術界和工業界實現人工通用智慧開闢了一條充滿希望的道路,這得益於其在各種應用中前所未有的表現。隨著LLMs在研究和商業領域的持續崛起,其安全性和安全性影響已成為日益關注的焦點,不僅對研究人員和企業如此,對每個國家亦是如此。目前,現有的LLM安全性調查主要集中於LLM生命週期的特定階段,例如部署階段或微調階段,缺乏對LLM整個「生命鏈」的全面理解。為填補這一空白,本文首次引入了「全棧」安全性的概念,以系統性地考慮LLM訓練、部署及最終商業化整個過程中的安全性問題。與現成的LLM安全性調查相比,我們的工作展示了幾個顯著的優勢:(I)全面視角。我們將完整的LLM生命週期定義為涵蓋數據準備、預訓練、後訓練、部署及最終商業化。據我們所知,這是首次涵蓋LLM整個生命週期的安全性調查。(II)廣泛的文獻支持。我們的研究基於對800多篇論文的詳盡回顧,確保在更全面的理解下對安全性問題進行全面覆蓋和系統性組織。(III)獨特見解。通過系統的文獻分析,我們為每一章節開發了可靠的路線圖和視角。我們的工作識別了有前景的研究方向,包括數據生成中的安全性、對齊技術、模型編輯以及基於LLM的代理系統。這些見解為未來在此領域開展研究的研究人員提供了寶貴的指導。
近期,DeepSeek-R1 (671B)(DeepSeek-AI等,2025)在复杂任务中展现了其卓越的推理能力,并公开了其方法论。这为激发小型大语言模型(LLMs)的推理能力提供了潜在的高质量思维链(CoT)数据。为了为不同LLMs生成高质量的CoT数据,我们寻求一种高效的方法,以生成具有LLM自适应问题难度级别的高质量CoT数据。首先,我们根据LLMs自身的推理能力对问题的难度进行分级,并构建一个LLM自适应的问题数据库。其次,我们基于问题难度级别的分布从问题库中采样,然后使用DeepSeek-R1 (671B)(DeepSeek-AI等,2025)生成相应的高质量CoT数据及正确答案。得益于构建具有LLM自适应难度级别的CoT数据,我们显著降低了数据生成成本,并提升了模型监督微调(SFT)的效率。最后,我们在复杂数学竞赛和代码生成任务领域验证了所提出方法的有效性和泛化能力。值得注意的是,仅使用2k条高质量的数学CoT数据,我们的ZMath-32B在数学推理任务中超越了DeepSeek-Distill-32B。同样,仅使用2k条高质量的代码CoT数据,我们的ZCode-32B在代码推理任务中也超越了DeepSeek-Distill-32B。
由於數據標註成本高昂,基準數據集通常會採用現有圖像數據集中的標籤。在本研究中,我們評估了MSCOCO數據集中標籤錯誤對常用對象幻覺基準POPE的影響。我們重新標註了基準圖像,並發現不同子集間標註錯誤存在不平衡現象。在我們稱之為RePOPE的修正標籤上對多個模型進行評估後,我們觀察到模型排名出現顯著變化,這凸顯了標籤質量的影響。代碼和數據可在https://github.com/YanNeu/RePOPE 獲取。
因果分析在科學發現與可靠決策中扮演著基礎性角色,然而由於其概念與算法上的複雜性,這一方法對領域專家而言仍難以觸及。因果方法論與實際應用之間的這種脫節帶來了雙重挑戰:領域專家無法利用因果學習的最新進展,而因果研究者則缺乏廣泛的現實世界部署來測試和完善其方法。為解決這一問題,我們推出了Causal-Copilot,這是一款在大型語言模型框架內實現專家級因果分析的自動化代理。Causal-Copilot自動化完成了針對表格數據和時間序列數據的完整因果分析流程——包括因果發現、因果推斷、算法選擇、超參數優化、結果解釋以及可操作見解的生成。它支持通過自然語言進行交互式精煉,降低了非專業人士的使用門檻,同時保持了方法論的嚴謹性。通過整合超過20種最先進的因果分析技術,我們的系統促進了良性循環——為領域專家擴展了先進因果方法的可及性,同時生成了豐富的現實世界應用,這些應用反過來又啟發並推動了因果理論的發展。實證評估表明,Causal-Copilot相較於現有基線展現出更優異的性能,提供了一個可靠、可擴展且可延伸的解決方案,有效彌合了因果分析中理論精妙與現實應用之間的鴻溝。Causal-Copilot的實時互動演示可在https://causalcopilot.com/上訪問。
C到Rust的轉譯對於現代化遺留C代碼至關重要,同時也能增強安全性並與現代Rust生態系統實現互操作性。然而,目前尚無數據集可用於評估系統是否能將C轉譯為通過一系列測試用例的安全Rust代碼。我們引入了CRUST-Bench,這是一個包含100個C代碼庫的數據集,每個代碼庫都配備了手動編寫的安全Rust接口以及可用於驗證轉譯正確性的測試用例。通過考慮整個代碼庫而非孤立函數,CRUST-Bench捕捉了翻譯具有跨文件依賴關係的複雜項目所面臨的挑戰。提供的Rust接口明確了規範,確保遵循慣用的、內存安全的Rust模式,而配套的測試用例則強制執行功能正確性。我們在此任務上評估了最先進的大型語言模型(LLMs),發現生成安全且慣用的Rust代碼對於各種最先進的方法和技術而言仍是一個難題。我們還深入分析了LLMs在將C代碼轉譯為安全Rust時通常會犯的錯誤。表現最佳的模型OpenAI o1,在單次嘗試設置下僅能解決15個任務。對CRUST-Bench的改進將推動轉譯系統的進步,使其能夠推理複雜場景,並協助將遺留代碼庫從C遷移到確保內存安全的語言如Rust中。您可以在https://github.com/anirudhkhatry/CRUST-bench找到數據集和代碼。
在現實世界的文件處理中,核取方塊(Checkboxes)扮演著至關重要的角色,其勾選與否直接影響數據提取和決策流程。然而,儘管大型視覺與語言模型在多種任務上表現出色,它們在解讀可勾選內容方面仍存在困難。這一挑戰在那些單一遺漏的核取方塊可能導致昂貴的監管或合同疏忽的行業中尤為迫切。為填補這一空白,我們推出了CheckboxQA數據集,這是一個專門設計的資源,旨在評估並提升模型在核取方塊相關任務上的表現。該數據集揭示了當前模型的局限性,並作為推動文件理解系統進步的寶貴工具,對法律科技和金融等領域的應用具有重要意義。 該數據集已公開於: https://github.com/Snowflake-Labs/CheckboxQA
多任务视觉定位(MTVG)包含两个子任务,即指代表达理解(REC)和指代表达分割(RES)。现有的代表性方法通常遵循一个研究流程,该流程主要由三个核心步骤组成,包括分别对视觉和语言模态进行独立特征提取、跨模态交互模块,以及针对不同子任务的独立预测头。尽管取得了显著性能,这一研究方向存在两个局限:1)语言内容尚未充分注入整个视觉骨干网络以促进更有效的视觉特征提取,且需要额外的跨模态交互模块;2)REC与RES任务之间的关系未被有效利用以辅助协同预测,从而获得更精确的输出。为解决这些问题,本文提出了一种用于多任务视觉定位的渐进式语言引导视觉学习框架,称为PLVL,它不仅精细挖掘了视觉模态本身的内在特征表达,还逐步注入语言信息以帮助学习与语言相关的视觉特征。通过这种方式,我们的PLVL无需额外的跨模态融合模块,同时充分引入了语言指导。此外,我们分析发现,REC的定位中心在一定程度上能帮助识别RES待分割的目标区域。受此启发,我们设计了一个多任务头来完成这两个子任务的协同预测。在多个基准数据集上进行的大量实验全面证实,我们的PLVL在REC和RES任务上均明显优于代表性方法。 https://github.com/jcwang0602/PLVL