每日精選AI研究論文及翻譯
大型語言模型(LLM)能力的顯著增長促進了對多智能體系統的探索,其中辯論框架作為一種增強問題解決能力的有前景途徑而浮現。這些多智能體辯論(MAD)方法,即智能體協作地提出、批評並完善論點,相較於單一模型,可能提供了改進的推理能力、魯棒性以及多樣化的視角。儘管先前的研究已利用MAD,但對其與單智能體方法相比的有效性,尤其是在不同條件下的系統性理解,仍然缺乏。本文旨在通過將MAD概念化為一種測試時的計算擴展技術,以填補這一空白,該技術以協作完善和多樣化探索能力為特徵。我們進行了一項全面的實證研究,比較了MAD與強大的單智能體測試時擴展基線在數學推理和安全相關任務上的表現。我們的研究系統地檢驗了任務難度、模型規模和智能體多樣性對MAD性能的影響。關鍵發現表明,在數學推理方面,MAD相較於單智能體擴展提供的優勢有限,但隨著問題難度的增加和模型能力的降低,MAD變得更為有效,而智能體多樣性則顯示出較小的益處。相反,在安全任務中,MAD的協作完善可能增加脆弱性,但引入多樣的智能體配置通過協作完善過程促進了攻擊成功率的逐步降低。我們相信,這些發現為未來開發更有效且策略性部署的MAD系統提供了關鍵指導。
現有的推理分割方法通常使用圖像-文本對及其對應的掩碼標籤來微調多模態大語言模型(MLLMs)。然而,這些方法在缺乏明確推理過程的情況下,對分佈外場景的泛化能力有限。儘管最近的研究通過群體相對策略優化(GRPO)利用強化學習來增強推理能力,但它們常常面臨過度思考的問題——無論任務複雜度如何,都生成冗長的推理鏈。這導致計算成本升高且對推理質量的控制有限。為解決這一問題,我們提出了PixelThink,這是一種簡單而有效的方案,它整合了外部估計的任務難度和內部測量的模型不確定性,以在強化學習範式內調節推理生成。該模型學會根據場景複雜度和預測置信度來壓縮推理長度。為支持全面評估,我們引入了ReasonSeg-Diff,這是一個擴展的基準測試集,包含註釋的推理參考和難度評分,以及一套旨在聯合評估分割準確性、推理質量和效率的指標。實驗結果表明,所提出的方法提高了推理效率和整體分割性能。我們的工作為高效且可解釋的多模態理解提供了新穎的視角。代碼和模型將公開提供。
在本研究中,我們首次探討了在表格推理任務上的推理時擴展方法。我們開發並評估了兩種訓練後策略來實現推理時擴展:基於前沿模型推理軌跡的知識蒸餾,以及帶有可驗證獎勵的強化學習(RLVR)。對於知識蒸餾,我們引入了一個由DeepSeek-R1生成的大規模推理軌跡數據集,並用它來微調大型語言模型(LLMs),從而得到Table-R1-SFT模型。對於RLVR,我們提出了任務特定的可驗證獎勵函數,並應用GRPO算法來獲得Table-R1-Zero模型。我們在多樣化的表格推理任務上評估了我們的Table-R1系列模型,包括簡答問答、事實驗證和自由形式問答。值得注意的是,Table-R1-Zero模型在僅使用7B參數的LLM的情況下,其性能匹配甚至超越了GPT-4.1和DeepSeek-R1。此外,它還展現出對域外數據集的強大泛化能力。廣泛的消融實驗和定性分析揭示了指令微調、模型架構選擇和跨任務泛化的益處,以及在RL訓練過程中基本表格推理技能的湧現。
多模态大型語言模型(MLLMs)的最新進展顯著提升了在二維視覺任務上的表現。然而,增強其空間智能仍是一大挑戰。現有的三維MLLMs通常依賴於額外的三維或二點五維數據來融入空間感知,這限制了它們在僅有二維輸入(如圖像或視頻)場景中的應用。本文提出了一種新穎的框架——空間MLLM,專注於從純二維觀察中進行視覺基礎的空間推理。與傳統依賴於針對語義理解優化的CLIP視覺編碼器的視頻MLLMs不同,我們的關鍵洞察是釋放前饋視覺幾何基礎模型中的強大結構先驗。具體而言,我們設計了一種雙編碼器架構:一個預訓練的二維視覺編碼器用於提取語義特徵,以及一個從視覺幾何模型骨幹初始化的空間編碼器,用於提取三維結構特徵。隨後,一個連接器將這兩種特徵整合為統一的視覺標記,以增強空間理解。此外,我們在推理階段提出了一種空間感知的幀採樣策略,該策略從視頻序列中選取富含空間信息的幀,確保即使在標記長度有限的情況下,模型也能聚焦於對空間推理至關重要的幀。除了架構上的改進,我們還構建了Spatial-MLLM-120k數據集,並通過監督微調和GRPO方法對模型進行訓練。在多個現實世界數據集上的廣泛實驗表明,我們的空間MLLM在廣泛的視覺基礎空間理解與推理任務中達到了最先進的性能。項目頁面:https://diankun-wu.github.io/Spatial-MLLM/。
近期關於通過強化學習(RL)對大型語言模型(LLM)進行推理後訓練的研究,通常聚焦於那些能夠精確驗證和獎勵的任務,例如解決數學問題。與此相對,我們的研究探討了獎勵噪聲的影響,這在涉及使用獎勵模型對LLM進行後訓練的現實場景中是一個更實際的考量。我們發現,LLM對顯著的獎勵噪聲表現出強大的魯棒性。例如,在數學任務中手動翻轉40%的獎勵函數輸出,仍能使Qwen-2.5-7B模型實現快速收斂,將其數學任務的表現從5%提升至72%,而無噪聲獎勵訓練的模型則達到75%的準確率。令人驚訝的是,僅通過獎勵關鍵推理短語的出現(即推理模式獎勵,RPR),例如「首先,我需要」——而不驗證答案的正確性,模型達到了與嚴格正確性驗證和精確獎勵訓練模型相當的峰值下游性能(Qwen-2.5-7B超過70%的準確率)。認識到推理過程相較於最終結果的重要性,我們將RPR與噪聲獎勵模型結合。RPR幫助校準了噪聲獎勵模型,減少了潛在的假陰性,並提升了LLM在開放式任務上的表現。這些發現表明,在預訓練階段提升模型的基礎能力的重要性,同時為推進後訓練技術提供了見解。我們的代碼和腳本可在https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason獲取。
多模态大語言模型(MLLMs)在視頻問答領域近期得到了廣泛研究。然而,現有評估大多聚焦於自然視頻,而忽略了合成視頻,如人工智能生成內容(AIGC)。與此同時,部分視頻生成工作依賴MLLMs來評估生成視頻的質量,但MLLMs在解讀AIGC視頻方面的能力仍鮮有探索。為此,我們提出了一個新基準——VF-Eval,它引入了四項任務——連貫性驗證、錯誤意識、錯誤類型檢測和推理評估——以全面評估MLLMs在AIGC視頻上的能力。我們在VF-Eval上評估了13個前沿MLLMs,發現即使是表現最佳的模型GPT-4.1,也難以在所有任務中持續保持優異表現,這凸顯了我們基準的挑戰性。此外,為探討VF-Eval在提升視頻生成中的實際應用,我們進行了一項名為RePrompt的實驗,證明使MLLMs更緊密地對齊人類反饋,能對視頻生成有所裨益。
大型視覺語言模型(VLMs)的快速發展推動了純視覺GUI代理的進步,這些代理能夠感知並操作圖形用戶界面(GUI),以自主完成用戶指令。然而,現有方法通常採用離線學習框架,面臨兩個核心限制:(1)對高質量人工註釋的重度依賴,用於元素定位和動作監督;(2)在動態和交互環境中的適應性有限。為解決這些限制,我們提出了ZeroGUI,這是一個可擴展的在線學習框架,旨在以零人力成本自動化GUI代理的訓練。具體而言,ZeroGUI整合了(i)基於VLM的自動任務生成,從當前環境狀態產生多樣化的訓練目標;(ii)基於VLM的自動獎勵估計,無需手工設計的評估函數即可判斷任務成功與否;以及(iii)兩階段在線強化學習,持續與GUI環境交互並從中學習。在兩個先進的GUI代理(UI-TARS和Aguvis)上的實驗表明,ZeroGUI在OSWorld和AndroidLab環境中顯著提升了性能。代碼可在https://github.com/OpenGVLab/ZeroGUI 獲取。
基於擴散的大型語言模型(Diffusion LLMs)在非自迴歸文本生成方面展現出潛力,具備並行解碼的能力。然而,開源的Diffusion LLMs在實際推理速度上往往落後於自迴歸模型,這主要是由於缺乏鍵值(KV)緩存以及在同時解碼多個令牌時出現的質量下降問題。為彌補這一差距,我們引入了一種專為雙向擴散模型設計的新穎塊級近似KV緩存機制,該機制能夠實現緩存的重用,且性能下降微乎其微。此外,我們發現並行解碼中生成質量下降的根本原因在於條件獨立假設下令牌依賴關係的破壞。為解決這一問題,我們提出了一種基於置信度的並行解碼策略,該策略選擇性地解碼超過置信度閾值的令牌,從而減輕依賴違規並保持生成質量。在LLaDA和Dream模型上進行的多項LLM基準測試實驗結果表明,該方法在幾乎不損失精度的情況下,實現了高達27.6倍的吞吐量提升,縮小了與自迴歸模型的性能差距,為Diffusion LLMs的實際部署鋪平了道路。
近期研究表明,長鏈思維(CoT)推理能顯著提升大型語言模型(LLMs)在複雜任務上的表現。然而,這一優勢尚未在視頻理解領域得到證實,因為現有的大多數基準測試缺乏展示延長CoT鏈優勢所需的推理深度。儘管近期有研究提出了旨在評估視頻推理的基準測試,但這些任務往往以知識為驅動,並未過多依賴視覺內容。為彌補這一差距,我們引入了VideoReasonBench,這是一個專為評估以視覺為核心的複雜視頻推理而設計的基準測試。為了確保視覺豐富性和高推理複雜性,VideoReasonBench中的每個視頻都描繪了一系列針對僅在視頻部分片段可見的潛在狀態的精細操作。這些問題評估了視頻推理技能的三個遞進層次:回憶觀察到的視覺信息、推斷潛在狀態的內容,以及預測視頻之外的信息。在這樣的任務設置下,模型必須精確回憶視頻中的多個操作,並通過逐步推理來獲得這些問題的正確最終答案。利用VideoReasonBench,我們全面評估了18個最先進的多模態LLMs(MLLMs),發現大多數模型在複雜視頻推理上表現不佳,例如,GPT-4o僅達到6.9%的準確率,而思維增強的Gemini-2.5-Pro以56.0%的準確率顯著超越其他模型。我們對“測試時擴展”的進一步研究表明,雖然在現有的視頻基準測試上延長思維預算幾乎或完全沒有帶來益處,但對於提升VideoReasonBench上的表現卻是至關重要的。
计算机辅助设计(CAD)在工程与制造领域扮演着核心角色,它使得创建精确且可编辑的三维模型成为可能。利用多种传感器或用户提供的数据作为CAD重建的输入,可以普及设计应用的使用。然而,现有方法通常局限于单一输入模态,如点云、图像或文本,这限制了其通用性和鲁棒性。借助视觉-语言模型(VLM)的最新进展,我们提出了一种多模态CAD重建模型,该模型能够同时处理上述三种输入模态。受大型语言模型(LLM)训练范式的启发,我们采用了两阶段流程:首先在大规模程序生成的数据上进行监督微调(SFT),随后利用程序化获取的在线反馈进行强化学习(RL)微调。此外,我们率先探索了将LLM应用于CAD任务中的RL微调,证明了在线RL算法,如群体相对偏好优化(GRPO),优于离线替代方案。在DeepCAD基准测试中,我们的SFT模型在所有三种输入模态上均超越了现有的单模态方法。更为重要的是,经过RL微调后,cadrille在包括一个真实世界数据集在内的三个具有挑战性的数据集上,确立了新的技术前沿。
本文提出了一种新的范式——通过自回归模型实现扩散(D-AR),将图像扩散过程重新定义为一种标准的、以预测下一标记为方式的自回归过程。我们首先设计了将图像转换为离散标记序列的标记器,其中不同位置的标记可以在像素空间中解码为不同的扩散去噪步骤。得益于扩散的特性,这些标记自然遵循从粗到细的顺序,这直接适用于自回归建模。因此,我们在这些标记上应用标准的下一标记预测,而无需修改任何底层设计(无论是因果掩码还是训练/推理策略),这种序列化的自回归标记生成直接反映了图像空间中的扩散过程。也就是说,一旦自回归模型生成了一组增量标记,我们就可以直接以流式方式将这些标记解码为相应的扩散去噪步骤。我们的流程自然揭示了一些有趣的性质,例如,它支持在仅生成部分标记时提供一致的预览,并实现了零样本布局控制的合成。在标准的ImageNet基准测试中,我们的方法使用775M参数的Llama骨干网络和256个离散标记,实现了2.09的FID分数。我们希望我们的工作能够激发未来关于视觉合成的统一自回归架构的研究,特别是与大型语言模型结合的研究。代码和模型将在https://github.com/showlab/D-AR 上提供。
我們介紹了AnySplat,這是一個用於從未校準圖像集中進行新視角合成的前饋網絡。與傳統需要已知相機姿態和每場景優化的神經渲染流程,或是近期在密集視角下計算負擔沉重的前饋方法不同,我們的模型一次性預測所有內容。單次前向傳播即可生成一組3D高斯基元,這些基元編碼了場景的幾何與外觀,以及每張輸入圖像對應的相機內外參數。這種統一設計能夠輕鬆擴展至隨意拍攝的多視角數據集,無需任何姿態註釋。在廣泛的零樣本評估中,AnySplat在稀疏和密集視角場景下均能媲美已知姿態基線的質量,並超越了現有的無姿態方法。此外,與基於優化的神經場相比,它大幅降低了渲染延遲,使得在無約束拍攝環境下實現實時新視角合成成為可能。項目頁面:https://city-super.github.io/anysplat/
近期发展的大型推理模型(LRMs)在解决复杂任务时展现了强大的性能,尤其是在具备长链思维(CoT)推理能力方面。由于这些LRMs大多通过在正式推理任务上进行后训练而开发,它们是否能够将推理能力泛化以帮助减少事实寻求任务中的幻觉现象,仍不明确且存在争议。例如,DeepSeek-R1报告在SimpleQA这一事实寻求基准测试上性能提升,而OpenAI-o3则观察到更为严重的幻觉现象。这种差异自然引出了以下研究问题:推理模型是否更容易产生幻觉?本文从三个角度探讨这一问题。(1)我们首先对LRMs中的幻觉现象进行全面评估。分析表明,经过完整后训练流程的LRMs,包括冷启动监督微调(SFT)和可验证奖励强化学习(RL),通常能减轻其幻觉现象。相比之下,仅进行蒸馏或未经冷启动微调的RL训练则引入了更为细微的幻觉。(2)为了探究不同后训练流程为何会改变LRMs中幻觉的影响,我们进行了行为分析。我们刻画了直接影响LRM事实性的两种关键认知行为:缺陷重复,即表面推理尝试反复遵循相同的底层错误逻辑;以及思维-答案不匹配,即最终答案未能忠实反映先前的CoT过程。(3)进一步,我们从模型不确定性的角度探讨了LRMs产生幻觉的机制。我们发现,LRMs幻觉的增加通常与模型不确定性和事实准确性之间的错位有关。我们的工作为理解LRMs中的幻觉现象提供了初步的认识。
語言模型(LMs)在標準化的編碼基準測試中表現出色,但在處理現實世界的軟體工程任務時卻面臨挑戰,例如在SWE-Bench中解決GitHub問題,尤其是在模型參數少於100B的情況下。雖然在實踐中較小的模型因其較低的計算成本更受青睞,但提升其性能仍然困難重重。現有的方法主要依賴於使用高質量數據進行監督式微調(SFT),而這在大規模上進行時成本高昂。另一種方法是測試時擴展:生成多個輸出,使用驗證器進行評分,並選擇最佳的一個。儘管有效,但這種策略通常需要過多的採樣和昂貴的評分,限制了其實際應用。我們提出了進化測試時擴展(EvoScale),這是一種樣本效率高的方法,將生成視為一個進化過程。通過選擇和變異迭代精煉輸出,EvoScale將輸出分佈向高分區域轉移,減少了找到正確解決方案所需的樣本數量。為了減少重複採樣和選擇的開銷,我們訓練模型使用強化學習(RL)進行自我進化。在推理時,模型不再依賴外部驗證器,而是學會在迭代中自我提升其生成的分數。在SWE-Bench-Verified上的評估顯示,EvoScale使我們的32B模型Satori-SWE-32B能夠匹配或超越參數超過100B的模型性能,同時僅使用少量樣本。代碼、數據和模型將完全開源。
我們推出了LoRAShop,這是首個基於LoRA模型實現多概念圖像編輯的框架。LoRAShop的構建基於對Flux風格擴散變壓器內部特徵交互模式的一個關鍵觀察:在去噪過程的早期階段,特定概念對應的變壓器特徵會激活空間上連貫的區域。我們利用這一觀察,在先前的前向傳播中為每個概念推導出解耦的潛在掩碼,並僅在待個性化概念所限定的區域內融合相應的LoRA權重。由此產生的編輯效果能將多個主題或風格無縫融入原始場景,同時保持全局上下文、光照及精細細節的完整性。實驗表明,與基準方法相比,LoRAShop在身份保持方面表現更優。通過省去重新訓練和外部約束,LoRAShop將個性化擴散模型轉變為實用的“LoRA版Photoshop”工具,為組合式視覺敘事和快速創意迭代開闢了新途徑。
Transformer已確立為序列建模中最受歡迎的骨幹架構,這主要歸功於其在上下文檢索任務中的高效能及大規模學習的能力。然而,其二次方的記憶體與時間複雜度限制了其在較長序列中的應用,這促使研究人員探索有效的替代架構,如現代循環神經網絡(又稱長期循環記憶模組)。儘管這些架構在各種下游任務中取得了近期的成功,但在需要長上下文理解及對更長序列進行外推的任務中仍顯吃力。我們觀察到,這些不足源自其設計中的三個相互獨立的方面:(1) 受限的記憶容量,這受到記憶架構及輸入特徵映射的限制;(2) 更新的在線性質,即僅針對最後的輸入來優化記憶;以及(3) 對其固定大小記憶的較低表達性管理。為增強這三個方面,我們提出了ATLAS,這是一個高容量的長期記憶模組,它通過基於當前及過去的詞元來優化記憶,從而學會記住上下文,克服了長期記憶模型的在線性質。基於這一洞察,我們提出了一種新的類Transformer架構家族,稱為DeepTransformers,它們是原始Transformer架構的嚴格泛化。我們在語言建模、常識推理、召回密集型及長上下文理解任務上的實驗結果顯示,ATLAS超越了Transformer及近期線性循環模型的表現。ATLAS進一步提升了Titans的長上下文性能,在BABILong基準測試的10M上下文長度中實現了+80%的準確率。
統一的多模態大型語言模型,如Show-o和Janus,在生成和理解任務上均展現了卓越的性能。然而,這些模型通常依賴於大規模數據集,並在預訓練階段需要大量的計算資源。此外,雖然已提出了多種後訓練方法,但它們往往依賴於外部數據或僅限於特定任務的定制。在本研究中,我們引入了UniRL,一種自我改進的後訓練方法。該方法使模型能夠從提示生成圖像,並在每次迭代中將這些圖像作為訓練數據使用,而無需依賴任何外部圖像數據。更重要的是,它實現了兩項任務的相互促進:生成的圖像用於理解,而理解結果則用於指導生成。我們探索了監督微調(SFT)和群組相對策略優化(GRPO)來優化模型。UniRL具有三大優勢:(1)它無需外部圖像數據,所有訓練樣本均由模型在訓練過程中自行生成;(2)它不僅提升了單個任務的性能,還減少了生成與理解之間的不平衡;(3)在後訓練階段,它僅需增加少量訓練步驟。我們在Show-o和Janus上對UniRL進行了評估,Show-o的GenEval得分達到了0.77,Janus為0.65。代碼和模型將在https://github.com/showlab/UniRL發布。
解決問題任務,即模型生成修補程式以修復現實世界中的錯誤,已成為評估大型語言模型(LLMs)能力的關鍵基準。儘管SWE-bench及其變體在這一領域已成為標準,但它們存在一些關鍵限制:自初次發布以來未進行更新,涵蓋的儲存庫範圍狹窄,並且在實例建構和環境設置上高度依賴手動操作。這些因素阻礙了可擴展性,並引入了過擬合和數據污染的風險。在本研究中,我們提出了SWE-bench-Live,這是一個可即時更新的基準,旨在克服這些挑戰。我們的初始版本包含1,319個任務,這些任務源自自2024年以來在GitHub上創建的實際問題,涵蓋93個儲存庫。每個任務都配備了一個專用的Docker鏡像,以確保可重現的執行。我們基準的核心是\method,這是一個自動化的策展管道,它簡化了從實例創建到環境設置的整個過程,消除了手動瓶頸,實現了可擴展性和持續更新。我們在SWE-bench-Live上評估了一系列最先進的代理框架和LLMs,揭示了與SWE-bench等靜態基準相比的顯著性能差距,即使在受控的評估條件下也是如此。為了更好地理解這種差異,我們在儲存庫來源、問題新近度和任務難度方面進行了詳細分析。通過提供一個基於即時儲存庫活動的新鮮、多樣且可執行的基準,SWE-bench-Live促進了在動態、現實世界的軟體開發環境中對LLMs和代理進行嚴謹且抗污染的評估。
稀疏自編碼器(SAEs)在解釋語言模型隱藏狀態方面展現出顯著潛力,通過將其分解為可解釋的潛在方向。然而,大規模訓練SAEs仍具挑戰性,尤其是在使用大型字典時。雖然解碼器可以利用稀疏感知內核來提高效率,但編碼器仍需進行計算密集型的線性操作,且輸出維度龐大。為解決這一問題,我們提出了KronSAE,一種新穎的架構,通過克羅內克積分解來因子化潛在表示,大幅降低了記憶體和計算開銷。此外,我們引入了mAND,一種近似二進制AND操作的可微分激活函數,這在我們的因子化框架中提升了可解釋性和性能。
偏好机制,如人类偏好、作为评判者的大型语言模型(LLM-as-a-Judge, LaaJ)以及奖励模型,是调整与评估大型语言模型(LLMs)的核心要素。然而,驱动这些偏好的基础概念仍鲜为人知。本研究提出了一种全自动方法,用于生成跨多个领域的局部与全局基于概念的解释。该方法利用LLM识别区分被选与拒绝响应的概念,并通过基于概念的向量加以表征。为建模概念与偏好间的关系,我们提出了一种白盒层次化多领域回归模型,该模型能够捕捉领域通用与领域特定的效应。为评估该方法,我们构建了一个涵盖八个具有挑战性且多样化领域的数据集,并对十二种机制进行了解释。我们的方法在偏好预测性能上表现优异,超越基线方法的同时保持了可解释性。此外,我们在两个应用导向的场景下评估了解释的有效性。首先,利用LaaJ解释中的概念指导LLM输出,能够生成评判者一致偏好的响应。其次,向LaaJ提供解释人类偏好的概念提示,提升了其偏好预测的准确性。综上所述,本研究为LLM时代的可解释性研究确立了新范式。
嵌入視頻中的視覺文本承載著豐富的語義信息,這對於整體視頻理解以及對局部人類行為的精細推理至關重要。然而,現有的視頻理解基準大多忽視了文本信息,而專注於OCR的基準則局限於靜態圖像,限制了其捕捉文本與動態視覺情境之間互動的能力。為填補這一空白,我們提出了VidText,一個旨在全面深入評估視頻文本理解的新基準。VidText具備以下關鍵特徵:1)它涵蓋了廣泛的真實世界場景並支持多語言內容,囊括了視頻文本自然出現的多樣化環境。2)它引入了一個分層評估框架,包含視頻級、片段級和實例級任務,能夠評估全局概括與局部檢索能力。3)該基準還引入了一系列配對的感知推理任務,從視覺文本感知到文本與視覺信息之間的跨模態推理。對18種最先進的大型多模態模型(LMMs)進行的廣泛實驗表明,當前模型在大多數任務上表現欠佳,存在顯著的改進空間。進一步的分析強調了模型內在因素(如輸入分辨率和OCR能力)與外部因素(包括輔助信息的使用和思維鏈推理策略)的影響。我們希望VidText能夠填補當前視頻理解基準的空白,並為未來在動態環境中進行多模態推理的視頻文本研究奠定基礎。
語音基礎模型(SFMs)如Whisper和SeamlessM4T的發展,顯著推進了語音處理領域的進步。然而,這些模型的封閉性——無法獲取的訓練數據和代碼——帶來了重大的可重現性和公平評估挑戰。儘管其他領域通過開發基於開源(OS)代碼和數據訓練的完全透明模型,在開放科學方面取得了實質性進展,但語音領域的類似努力仍然有限。為填補這一空白,我們推出了FAMA,這是首個針對英語和意大利語的開放科學SFM家族,訓練時使用了超過15萬小時的開源語音數據。此外,我們還提供了一個包含1.6萬小時經過清理和偽標記的語音新數據集,涵蓋這兩種語言。結果顯示,FAMA在與現有SFMs相比時,展現出競爭力的性能,同時速度提升高達8倍。所有成果,包括代碼、數據集和模型,均按照符合開源標準的許可證發布,推動了語音技術研究的開放性。
句子重音是指在口語表達中對特定詞語進行強調,以突出或對比某個觀點,或引入新信息。它常用於暗示未明確表達的潛在意圖。近期,語音感知語言模型(SLMs)的進展使得直接處理音頻成為可能,讓模型能夠繞過轉錄步驟,充分利用語音信號的豐富信息,並執行諸如口語問答等音頻推理任務。儘管句子重音在塑造意義和說話者意圖方面起著關鍵作用,但在這類模型的評估和開發中卻大多被忽視。本研究中,我們通過引入StressTest來填補這一空白,這是一個專門設計的基準測試,用於評估模型基於重音模式區分口語句子解釋的能力。我們評估了多個領先SLMs的表現,發現儘管它們整體能力出色,但在這類任務上表現欠佳。為克服這一限制,我們提出了一種新穎的合成數據生成流程,並創建了Stress17k,這是一個模擬重音變化引發意義改變的訓練集。隨後,我們通過實驗證明,利用這一合成數據集優化模型能很好地與真實錄音對齊,並實現SLMs的有效微調。結果表明,我們微調後的模型StresSLM,在句子重音推理和檢測任務上均顯著優於現有模型。代碼、模型、數據及音頻樣本請訪問:pages.cs.huji.ac.il/adiyoss-lab/stresstest。
安全推理是近期提出的一種新範式,其中大型語言模型(LLMs)在生成回應前會對安全政策進行推理,從而緩解現有安全措施中的局限性,如過度拒絕和越獄漏洞。然而,實施這一範式具有挑戰性,因為創建高質量的政策嵌入思維鏈(CoT)數據集是一個資源密集的過程,同時還需確保推理的準確性,避免幻覺或政策衝突。為解決這一問題,我們提出了AIDSAFE:面向安全推理的代理迭代審議,這是一種新穎的數據生成方法,利用多代理審議來迭代擴展對安全政策的推理。AIDSAFE中的數據精煉階段通過消除重複、冗餘和欺騙性的思維來確保高質量輸出。AIDSAFE生成的CoT為基於監督微調(SFT)的安全訓練提供了堅實的基礎。此外,為滿足對齊階段(如DPO訓練)中偏好數據的需求,我們引入了一種補充方法,利用信念增強來創建獨特的選擇和拒絕CoT樣本。我們的評估表明,AIDSAFE生成的CoT在政策遵循和推理質量上表現優異。因此,我們證明,在這些CoT上對開源LLMs進行微調,可以顯著提高安全泛化能力和越獄魯棒性,同時保持可接受的實用性和過度拒絕準確性。AIDSAFE生成的CoT數據集可在以下網址找到:https://huggingface.co/datasets/AmazonScience/AIDSAFE
序列模型(如Transformer)要求输入以一维序列的形式表示。在视觉领域,这通常涉及使用固定的行优先(光栅扫描)顺序对图像进行展平。尽管完全的自注意力机制具有排列等变性,但现代的长序列Transformer越来越依赖于架构近似,这些近似打破了这种不变性,并引入了对补丁顺序的敏感性。我们展示了在这种设置下,补丁顺序显著影响模型性能,简单的替代方案(如列优先或希尔伯特曲线)会导致显著的准确率变化。受此启发,我们提出了REOrder,一个用于发现任务最优补丁顺序的两阶段框架。首先,我们通过评估各种补丁序列的可压缩性,推导出一个信息论先验。然后,我们通过使用REINFORCE优化Plackett-Luce策略,学习一个关于排列的策略。这种方法能够在组合排列空间中进行高效学习。REOrder在ImageNet-1K上相较于行优先顺序提高了最多3.01%的top-1准确率,在Functional Map of the World上提高了13.35%。
定理證明作為評估大型語言模型(LLMs)複雜推理能力的主要測試平台。然而,傳統的自動化定理證明(ATP)方法過度依賴於形式化證明系統,這些系統與LLMs在預訓練期間獲得的非正式、自然語言知識所展現的優勢並不契合。在本研究中,我們提出了DeepTheorem,這是一個全面的非正式定理證明框架,利用自然語言來增強LLM的數學推理能力。DeepTheorem包含一個大規模的基準數據集,該數據集由121K個高質量的IMO級別的非正式定理和證明組成,涵蓋了多樣的數學領域,並嚴格註解了正確性、難度和主題類別,同時配備了系統構建的可驗證定理變體。我們設計了一種新穎的強化學習策略(RL-Zero),專門針對非正式定理證明,利用驗證過的定理變體來激勵穩健的數學推理。此外,我們提出了全面的結果和過程評估指標,以檢驗證明的正確性和推理步驟的質量。廣泛的實驗分析表明,與現有的數據集和監督微調協議相比,DeepTheorem顯著提升了LLM的定理證明性能,達到了最先進的準確性和推理質量。我們的研究結果凸顯了DeepTheorem在根本性推進自動化非正式定理證明和數學探索方面的潛力。
統一生成模型旨在通過單一架構和解碼範式處理跨模態的多樣任務——如文本生成、圖像生成及視覺語言推理。自迴歸統一模型因序列解碼而導致推理速度緩慢,非自迴歸統一模型則因預訓練骨幹受限而泛化能力較弱。我們提出了Muddit,一種統一的離散擴散變換器,能夠在文本和圖像模態上實現快速並行生成。與以往從頭訓練的統一擴散模型不同,Muddit整合了來自預訓練文本到圖像骨幹的強大視覺先驗知識與輕量級文本解碼器,從而在統一架構下實現靈活且高質量的多模態生成。實證結果表明,Muddit在質量和效率上均達到了與顯著更大的自迴歸模型相當或更優的性能。這項工作凸顯了純離散擴散在配備強大視覺先驗知識時,作為統一生成的可擴展且有效骨幹的潛力。
強化學習算法對於將大型語言模型與人類偏好對齊並提升其推理能力至關重要。然而,當前的強化學習算法常因鬆散的策略約束而導致訓練不穩定,並因輔助模型的存在而導致計算效率低下。在本研究中,我們提出了一種新穎且簡化的強化學習算法——基於最優獎勵基線的策略內強化學習(OPO),旨在應對這些挑戰。OPO強調精確的策略內訓練的重要性,這在實踐中穩定了訓練過程並增強了探索能力。此外,OPO引入了理論上能最小化梯度方差的最優獎勵基線。我們在數學推理基準上對OPO進行了評估,結果顯示其在不依賴額外模型或正則化項的情況下,展現出卓越的性能和訓練穩定性。進一步地,OPO實現了更低的策略偏移和更高的輸出熵,促進了更多樣化且不重複的回應。這些結果表明,OPO是實現大型語言模型對齊和推理任務中穩定且有效強化學習的一個有前景的方向。具體實現已提供於https://github.com/microsoft/LMOps/tree/main/opo。
大型语言模型(LLM)代理的最新进展显著加速了科学发现的自动化进程,但同时也引发了关键的伦理和安全问题。为系统性地应对这些挑战,我们引入了SafeScientist,这是一个创新的AI科学家框架,专门设计用于增强AI驱动科学探索中的安全性和伦理责任。SafeScientist主动拒绝伦理上不适当或高风险的任务,并在整个研究过程中严格强调安全性。为实现全面的安全监督,我们整合了多种防御机制,包括提示监控、代理协作监控、工具使用监控以及伦理审查组件。作为SafeScientist的补充,我们提出了SciSafetyBench,这是一个专门设计用于评估科学背景下AI安全性的新基准,包含跨6个领域的240个高风险科学任务,以及30个特别设计的科学工具和120个与工具相关的风险任务。大量实验表明,与传统AI科学家框架相比,SafeScientist显著提高了35%的安全性能,且未影响科学输出质量。此外,我们严格验证了安全管道针对多种对抗攻击方法的鲁棒性,进一步证实了我们集成方法的有效性。代码和数据将在https://github.com/ulab-uiuc/SafeScientist 上提供。红色{警告:本文包含可能具有冒犯性或危害性的示例数据。}
近期,世界模型的進展革新了動態環境模擬,使系統能夠預見未來狀態並評估潛在行動。在自動駕駛領域,這些能力幫助車輛預測其他道路使用者的行為、執行風險感知規劃、加速模擬訓練,並適應新場景,從而提升安全性和可靠性。現有方法在保持穩健的三維幾何一致性或處理遮擋時的累積偽影方面存在不足,而這兩者對於自動導航任務中的可靠安全評估至關重要。為解決這一問題,我們引入了GeoDrive,它將穩健的三維幾何條件明確整合到駕駛世界模型中,以增強空間理解與行動可控性。具體而言,我們首先從輸入幀中提取三維表示,然後根據用戶指定的自車軌跡獲取其二維渲染。為了實現動態建模,我們在訓練過程中提出了一個動態編輯模塊,通過編輯車輛位置來增強渲染效果。大量實驗表明,我們的方法在行動準確性和三維空間感知方面顯著優於現有模型,從而實現了更真實、適應性更強且可靠的場景建模,為更安全的自動駕駛提供了保障。此外,我們的模型能夠泛化到新軌跡,並提供交互式場景編輯功能,如物體編輯和物體軌跡控制。
鏈式思維(CoT)推理使大型語言模型(LLMs)能夠超越快速的系統1反應,並參與深思熟慮的系統2推理。然而,這是以顯著的效率低下為代價的,因為中間輸出冗長。最近的潛在空間推理方法通過在隱藏狀態上操作而不解碼成語言來提高效率,但它們均等地對待所有步驟,未能區分關鍵推論與輔助步驟,導致計算資源的使用不盡理想。本文提出系統1.5推理,這是一種自適應推理框架,通過潛在空間中的捷徑路徑動態分配計算資源於推理步驟之間。具體而言,系統1.5推理引入了兩種類型的動態捷徑。模型深度捷徑(DS)沿垂直深度自適應推理,通過輕量級適配器分支提前退出非關鍵詞彙,同時允許關鍵詞彙繼續通過更深的Transformer層。步驟捷徑(SS)在解碼步驟間重用隱藏狀態,以跳過平凡步驟並在潛在空間中水平推理。訓練系統1.5推理涉及兩階段的自蒸餾過程:首先將自然語言CoT蒸餾成潛在空間的連續思維,然後將全路徑系統2潛在推理蒸餾成自適應捷徑路徑(系統1.5推理)。在推理任務上的實驗證明了我們方法的優越性能。例如,在GSM8K上,系統1.5推理實現了與傳統CoT微調方法相當的推理性能,同時加速推理超過20倍,並平均減少92.31%的詞彙生成。
醫患諮詢需要多輪次、情境感知的溝通,並針對不同的患者角色進行定制。在這樣的環境中訓練或評估醫生大型語言模型(LLM)需要真實的患者互動系統。然而,現有的模擬器往往無法反映臨床實踐中見到的多樣化患者角色。為解決這一問題,我們引入了PatientSim,這是一個基於醫學專業知識生成真實且多樣化患者角色的患者模擬器,適用於臨床場景。PatientSim的運作基於:1)從MIMIC-ED和MIMIC-IV數據集的真實世界數據中提取的臨床檔案,包括症狀和病史;以及2)由四個維度定義的角色:性格、語言能力、病史回憶水平和認知混亂程度,共產生37種獨特組合。我們評估了八種LLM的事實準確性和角色一致性。表現最佳的開源模型Llama 3.3經過四位臨床醫生的驗證,確認了我們框架的穩健性。作為一個開源、可定制的平台,PatientSim提供了一個可重現且可擴展的解決方案,能夠根據具體的培訓需求進行定制。它提供了一個符合隱私保護的環境,作為評估醫療對話系統在多樣化患者表現下的穩健測試平台,並展現了作為醫療教育工具的潛力。
基於Transformer的大型語言模型(LLMs)在推理過程中會將上下文緩存為鍵值對(KV對)。隨著上下文長度的增加,KV緩存的大小也會擴展,導致顯著的內存開銷和注意力延遲的增加。本文介紹了KVzip,這是一種與查詢無關的KV緩存淘汰方法,能夠在多樣化的查詢中有效重用壓縮後的KV緩存。KVzip利用底層的LLM來量化KV對的重要性,從緩存的KV對中重建原始上下文,隨後淘汰重要性較低的KV對。大量的實證評估表明,KVzip將KV緩存的大小減少了3-4倍,並將FlashAttention的解碼延遲降低了約2倍,且在問答、檢索、推理和代碼理解任務中的性能損失微乎其微。評估涵蓋了多種模型,如LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B,上下文長度最高可達170K個令牌。KVzip在多查詢場景下顯著優於現有的查詢感知型KV淘汰方法,後者即使在90%的緩存預算比率下也會出現性能下降。
擴散模型展現了卓越的生成質量,但代價是需要大量的函數評估。近期,基於ODE(常微分方程)的高級求解器被開發出來,以緩解在有限採樣步數下反向擴散求解的巨大計算需求。然而,這些深受亞當斯式多步方法啟發的求解器,僅依賴於與時間t相關的拉格朗日插值。我們揭示,對於擴散模型而言,t相關的拉格朗日插值並非最優,並發現了一個由時間步長和求解器係數組成的緊湊搜索空間。基於此分析,我們提出了一種新穎的可微分求解器搜索算法,旨在識別更優的求解器。配備了所搜索到的求解器後,如SiT-XL/2和FlowDCN-XL/2等校正流模型,在僅10步的情況下,於ImageNet256數據集上分別達到了2.40和2.35的FID分數。同時,DDPM模型DiT-XL/2在僅10步時也取得了2.33的FID分數。值得注意的是,我們搜索到的求解器顯著超越了傳統求解器。此外,該求解器在多種模型架構、分辨率及模型規模上均展現了良好的通用性。
现有的视频理解基准测试往往将基于知识的提问与纯粹基于图像的提问混为一谈,而非清晰地区分模型的时间推理能力——这是视频理解区别于其他模态的关键特征。我们识别出两大局限,这些局限使得高分是否真正意味着对视频动态内容更深的理解变得模糊不清:(1)强大的语言先验,即模型无需观看视频即可回答问题;(2)序列不变性,即即便视频帧在时间上被打乱,模型在某些问题上的表现仍保持相似。为缓解这些问题,我们提出了VBenchComp,一个自动化流程,将问题分类至不同领域:LLM可答型、语义型及时间型。具体而言,LLM可答型问题无需观看视频即可解答;语义型问题在视频帧被打乱后仍可回答;而时间型问题则要求理解帧的正确时间顺序。其余问题被标记为其他类型。这一分类能实现对视频大语言模型不同能力的细粒度评估。我们的分析揭示了传统总分所掩盖的模型细微弱点,并为设计能更准确评估视频大语言模型的未来基准测试提供了洞见与建议。
隨著深度生成模型,尤其是基於擴散方法的出現,視頻生成已取得顯著進展。然而,基於多個參考主體的視頻生成在保持多主體一致性和確保高生成質量方面仍面臨重大挑戰。本文提出MAGREF,這是一個面向任意參考視頻生成的統一框架,它引入了掩碼指導,以實現基於多樣參考圖像和文本提示的連貫多主體視頻合成。具體而言,我們提出了(1)一種區域感知的動態掩碼機制,使單一模型能夠靈活處理包括人物、物體和背景在內的各種主體推理,而無需改變架構;(2)一種在通道維度上運作的像素級通道拼接機制,以更好地保留外觀特徵。我們的模型在視頻生成質量上達到了業界領先水平,從單主體訓練泛化到複雜的多主體場景,實現了連貫的合成和對各個主體的精准控制,超越了現有的開源和商業基線。為了促進評估,我們還引入了一個全面的多主體視頻基準。大量實驗證明了我們方法的有效性,為可擴展、可控且高保真的多主體視頻合成鋪平了道路。代碼和模型可在以下網址找到:https://github.com/MAGREF-Video/MAGREF
大型語言模型(LLMs)在說服方面展現了顯著的潛力,但現有針對訓練LLM說服者的研究仍處於初步階段。值得注意的是,儘管人類擅長主動且動態地模擬對手的思維和觀點,目前的LLMs在這種心智理論(Theory of Mind, ToM)推理上仍面臨挑戰,導致其多樣性和對手意識有限。為解決這一限制,我們引入了心智理論增強型說服者(Theory of Mind Augmented Persuader, ToMAP),這是一種新穎的方法,通過整合兩個心智理論模組來增強說服者對對手心理狀態的意識和分析能力。具體而言,我們首先提示說服者考慮對目標核心主張可能的反對意見,然後使用文本編碼器配以訓練過的多層感知器(MLP)分類器來預測對手對這些反駁觀點的當前立場。我們精心設計的強化學習框架使說服者學會如何分析與對手相關的信息,並利用這些信息生成更有效的論點。實驗表明,僅包含30億參數的ToMAP說服者在多種說服對象模型和多樣化的語料庫上,相較於如GPT-4o等更大規模的基線模型,取得了39.4%的相對增益。值得注意的是,ToMAP在訓練過程中展現了複雜的推理鏈條並減少了重複,從而產生了更多樣且有效的論點。ToMAP的對手意識特性也使其適合於長時間對話,並能運用更具邏輯性和對手意識的策略。這些結果證明了我們方法的有效性,並凸顯了其在開發更具說服力的語言代理方面的潛力。代碼可於以下網址獲取:https://github.com/ulab-uiuc/ToMAP。
在本篇論文中,我們將超過十種現有的一步擴散蒸餾方法,如Diff-Instruct、DMD、SIM、SiD、f-distill等,統一於一個理論驅動的框架內,我們稱之為\emph{Uni-Instruct}。Uni-Instruct的構想源自於我們提出的f-散度族擴散擴展理論。隨後,我們引入關鍵理論,克服了原始擴展f-散度的不可計算性問題,從而導出一個等效且可計算的損失函數,該函數通過最小化擴展f-散度族來有效訓練一步擴散模型。Uni-Instruct所引入的新穎統一不僅提供了新的理論貢獻,從高層次視角幫助理解現有方法,還引領了一步擴散生成性能達到最新技術水平。在CIFAR10生成基準測試中,Uni-Instruct在無條件生成上取得了破紀錄的Frechet Inception Distance (FID)值\emph{1.46},在條件生成上則為\emph{1.38}。在ImageNet-64×64生成基準測試中,Uni-Instruct實現了新的SoTA一步生成FID值\emph{1.02},顯著超越了其79步教師擴散模型的1.33分(1.02對比2.35)。我們還將Uni-Instruct應用於更廣泛的任務,如文本到3D生成。在文本到3D生成方面,Uni-Instruct提供了不錯的結果,在生成質量和多樣性上均略優於先前的方法,如SDS和VSD。Uni-Instruct堅實的理論與實證貢獻,有望為未來一步擴散蒸餾及擴散模型知識遷移的研究提供助力。
音源分離是機器理解複雜聲學環境的基礎,也是眾多音頻應用的核心支撐。當前基於監督式深度學習的方法雖然強大,但受限於需要大量特定任務的標註數據,且難以應對現實世界聲學場景中巨大的變異性和開放性。受生成式基礎模型成功的啟發,我們探討了預訓練的文本引導音頻擴散模型是否能克服這些限制。我們發現了一個令人驚訝的現象:在適當配置下,僅通過預訓練的文本引導音頻擴散模型即可實現零樣本音源分離。我們的方法名為ZeroSep,其工作原理是將混合音頻反轉到擴散模型的潛在空間中,然後利用文本條件來引導去噪過程,從而恢復各個音源。ZeroSep無需任何特定任務的訓練或微調,便將生成式擴散模型重新用於判別式分離任務,並通過其豐富的文本先驗自然支持開放場景。ZeroSep兼容多種預訓練的文本引導音頻擴散模型骨幹,在多個分離基準上展現出強大的分離性能,甚至超越了監督式方法。
大型語言模型(LLMs)能夠生成功能正確的解決方案,但在代碼效率方面往往表現不足,這成為了實際部署中的關鍵瓶頸。本文提出了一種新穎的測試時迭代優化框架來解決這一問題,該框架採用閉環系統,其中LLMs基於執行沙箱的實測性能反饋迭代優化代碼。我們探索了三種訓練策略:監督微調(SFT)、直接偏好優化(DPO)以及群組相對策略優化(GRPO)。在我們的Venus數據集和APPS基準上的實驗表明,SFT和DPO在效率提升方面迅速達到飽和。相比之下,GRPO利用強化學習(RL)結合執行反饋,持續優化代碼性能,顯著提升了pass@1(從47%提升至62%)以及在效率上超越人類提交的概率(從31%提升至45%)。我們的工作展示了在測試時有效提升代碼效率的方法,並關鍵性地揭示了RL在教導LLMs真正自我提升代碼效率方面的強大能力。
我們提出了一個統一的框架,用於視頻生成中的運動控制,該框架無縫整合了基於軌跡輸入的相機移動、物體層面的平移以及細粒度的局部運動。與以往通過獨立模組或特定任務設計來處理這些運動類型的方法不同,我們的方法通過輕量級運動注入器將用戶定義的軌跡投影到預訓練的圖像到視頻生成模型的潛在空間中,從而提供了一個連貫的解決方案。用戶可以指定關鍵點及其運動路徑,以控制局部變形、整個物體的運動、虛擬相機動態或這些的組合。注入的軌跡信號引導生成過程,產生時間上一致且語義對齊的運動序列。我們的框架在多個視頻運動控制任務中展示了卓越的性能,包括風格化運動效果(例如,運動筆刷)、動態視角變化和精確的局部運動操控。實驗表明,與以往方法和商業解決方案相比,我們的方法提供了顯著更好的可控性和視覺質量,同時廣泛兼容於各種最先進的視頻生成骨幹。項目頁面:https://anytraj.github.io/。
扩散变换器(DiT)已成为生成高质量视觉内容(如视频和图像)的事实标准模型。其面临的一大瓶颈在于注意力机制,其复杂度随分辨率和视频长度呈二次方增长。减轻这一负担的一种合理方法是采用稀疏注意力,即仅将一部分标记或补丁纳入计算。然而,现有技术在极高稀疏度水平下无法保持视觉质量,甚至可能引入不可忽视的计算开销。为此,我们提出了Re-ttention,通过利用扩散模型的时间冗余性,克服注意力机制中的概率归一化偏移,实现了视觉生成模型的极高稀疏注意力。具体而言,Re-ttention基于先前的softmax分布历史重塑注意力分数,从而在极高稀疏度水平下保持全二次方注意力的视觉质量。在CogVideoX和PixArt DiTs等T2V/T2I模型上的实验结果表明,Re-ttention在推理过程中仅需3.1%的标记,优于FastDiTAttn、Sparse VideoGen和MInference等当代方法。此外,我们通过测量延迟证明,在H100 GPU上,我们的方法能以可忽略的开销成本实现超过45%的端到端延迟减少和超过92%的自注意力延迟减少。代码可在以下网址获取:https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
我們訓練了13,440個大型語言模型,發現熵最小化僅需單一未標記數據和10步優化,就能達到與基於規則的強化學習中使用數千筆數據和精心設計獎勵所獲得的性能提升相當甚至更好的效果。這一驚人的發現可能促使我們重新思考大型語言模型的後訓練範式。我們的程式碼可在https://github.com/zitian-gao/one-shot-em取得。
謎語圖謎,這種通過圖像、空間排列和符號替換來編碼語言的視覺謎題,對當前的視覺-語言模型(VLMs)提出了獨特的挑戰。與傳統的圖像描述或問答任務不同,解謎語圖謎需要多模態抽象、符號推理,以及對文化、語音和語言雙關的理解。本文中,我們通過構建一個手工生成且註釋多樣化的英語謎語圖謎基準,從簡單的象形替換到空間依賴的提示(如“頭”在“腳跟”之上),來探究當代VLMs在解讀和解決謎語圖謎方面的能力。我們分析了不同VLMs的表現,結果顯示,儘管VLMs在解碼簡單視覺線索方面展現出一些令人驚訝的能力,但在需要抽象推理、橫向思維及理解視覺隱喻的任務上,它們仍面臨顯著困難。
近期,带有思维轨迹的大型推理模型(LRMs)在英语推理任务中展现了强大的性能。然而,它们在其它语言中的思考能力却较少被研究。对于现实世界的应用而言,这种能力与答案的准确性同等重要,因为用户只有在推理轨迹以其母语表达时,才能有效地进行监督。我们在XReasoning基准上全面评估了两类领先的LRMs,发现即使是最先进的模型,也常常会回归到英语或在其他语言中产生碎片化的推理,这揭示了多语言推理能力上的显著差距。通过基于提示的干预,强制模型以用户语言进行推理,虽然提高了可读性和监督性,却降低了答案的准确性,暴露了一个重要的权衡。我们进一步表明,针对性的后训练,仅需100个示例,就能缓解这种不匹配,尽管仍存在一定的准确性损失。我们的研究结果凸显了当前LRMs在多语言推理能力上的局限性,并为未来的工作指明了方向。代码和数据可在https://github.com/Betswish/mCoT-XReasoning获取。
近期,大型视觉语言模型(LVLMs)的进展为医疗任务带来了广阔的应用前景,如报告生成和视觉问答。然而,现有的基准测试主要聚焦于最终的诊断结果,对模型是否进行了具有临床意义的推理提供的信息有限。为此,我们提出了基于公开可用的MIMIC-CXR-JPG数据集的CheXStruct和CXReasonBench,一个结构化流程与基准测试。CheXStruct能够直接从胸部X光片中自动推导出一系列中间推理步骤,包括解剖区域的分割、解剖标志与诊断测量值的提取、诊断指标的计算以及临床阈值的应用。CXReasonBench利用这一流程来评估模型是否能执行临床有效的推理步骤,以及它们能在多大程度上从结构化指导中学习,从而实现对诊断推理的细粒度与透明化评估。该基准测试包含12项诊断任务中的18,988个问答对及1,200个病例,每个病例最多配有4个视觉输入,并支持多路径、多阶段的评估,包括通过解剖区域选择和诊断测量进行的视觉定位。即便在评估的10个LVLMs中最强者,也在结构化推理和泛化能力上表现挣扎,常常难以将抽象知识与基于解剖学的视觉解读联系起来。代码已发布于https://github.com/ttumyche/CXReasonBench。
視覺-語言模型(VLMs)在對齊視覺與文本模態方面展現了強大的能力,從而促進了多模態理解與生成的廣泛應用。儘管在零樣本學習和遷移學習場景中表現出色,VLMs仍易於出現誤分類,常常給出自信卻錯誤的預測。這一侷限性在安全關鍵領域構成了重大風險,錯誤預測可能導致嚴重後果。在本研究中,我們提出了TrustVLM,這是一個無需訓練的框架,旨在解決評估VLM預測可信度的關鍵挑戰。基於觀察到的VLM中的模態差距以及某些概念在圖像嵌入空間中更為顯著表示的洞察,我們提出了一種新穎的置信度評分函數,利用該空間來提升誤分類檢測能力。我們在17個多樣化的數據集上,採用4種架構和2種VLMs,對我們的方法進行了嚴格的評估,並展示了其在AURC、AUROC和FPR95指標上分別高達51.87%、9.14%和32.42%的提升,相較於現有基線達到了最先進的性能。通過在不需重新訓練的情況下提升模型的可靠性,TrustVLM為VLMs在現實世界應用中的安全部署鋪平了道路。代碼將於https://github.com/EPFL-IMOS/TrustVLM 提供。
我們提出了UniTEX,一種新穎的兩階段3D紋理生成框架,用於為3D資產創建高質量、一致的紋理。現有方法主要依賴於UV映射的修補技術,在將生成的多視角圖像重新投影到3D形狀上後進行紋理精修,這引入了與拓撲模糊性相關的挑戰。為解決這一問題,我們提出直接在一體化的3D功能空間中操作,從而繞過UV映射的限制。具體而言,我們首先提出通過紋理函數(TFs)將紋理生成提升至3D空間——這是一種連續的體積表示,它僅基於表面接近度將任何3D點映射到紋理值,與網格拓撲無關。接著,我們提出使用基於Transformer的大型紋理模型(LTM)直接從圖像和幾何輸入中預測這些TFs。為了進一步提升紋理質量並利用強大的2D先驗知識,我們開發了一種基於LoRA的高級策略,用於高效適應大規模擴散Transformer(DiTs),以實現高質量的多視角紋理合成,作為我們的第一階段。大量實驗表明,與現有方法相比,UniTEX在視覺質量和紋理完整性方面表現優異,為自動化3D紋理生成提供了一種可推廣且可擴展的解決方案。代碼將在以下網址提供:https://github.com/YixunLiang/UniTEX。
高斯潑濺(Gaussian Splatting, GS)技術近期作為一種從二維圖像渲染三維場景的高效表示方法嶄露頭角,並已擴展應用於圖像、視頻及動態四維內容的處理。然而,將風格遷移應用於基於GS的表示,尤其是超越簡單色彩變化的層面,仍面臨挑戰。本研究提出了CLIPGaussians,首個支持跨多模態(包括二維圖像、視頻、三維物體及四維場景)的文本與圖像引導風格化的統一框架。我們的方法直接作用於高斯基元,並作為插件模塊無縫集成至現有GS流程中,無需依賴大型生成模型或從頭訓練。CLIPGaussians方法實現了三維與四維場景下色彩與幾何的聯合優化,在視頻中確保了時間一致性,同時保持了模型規模的緊湊性。我們在所有任務中展現了卓越的風格保真度與一致性,驗證了CLIPGaussians作為多模態風格遷移的通用且高效解決方案的有效性。
現有的思維鏈(CoT)蒸餾方法能有效將推理能力轉移至基礎模型,但存在兩大侷限:推理軌跡過於冗長以及對問題難度的適應性不足。冗長的推理軌跡顯著增加了推理成本,而統一長度的解決方案則阻礙了基礎模型學習適應性推理策略。為解決這些問題,我們提出了一種難度感知提示(DAP)方法,旨在動態縮短推理軌跡而不損失性能。在我們的方法中,一個大型教師模型首先判斷每個問題的難度,然後將其推理軌跡重寫為適當的較短長度,從而生成簡潔而完整的推理軌跡。利用DAP流程,我們策劃了一個名為LiteCoT的蒸餾數據集,包含10萬個簡潔的推理示例,其解決方案平均僅720個令牌(比典型的CoT短一個數量級)。使用LiteCoT,我們基於Qwen2.5架構蒸餾出了一系列新的推理模型,稱為Liter(1.5B、7B和32B)。實驗表明,僅用10萬個經過難度修剪的CoT樣本微調的學生模型,其表現優於在80萬個原始長CoT樣本上蒸餾的模型,同時顯著降低了訓練和推理成本。我們的方法也具有良好的泛化能力:在11個多樣化的基準測試中,較短的難度感知CoT達到了與長鏈相等或更高的準確率,且使用的令牌數量遠少於後者。例如,在具有挑戰性的AIME24考試中,我們的方法僅使用約5K推理令牌就達到了74.2%的Pass@1,超越了消耗更多令牌的其他方法。我們的代碼和數據可在https://github.com/Evanwu1125/LiteCoT獲取。
我们提出了一种基于关键帧的框架,用于生成音乐同步且考虑编舞的动物舞蹈视频。从代表不同动物姿态的少量关键帧出发——这些关键帧通过文本到图像的提示或GPT-4o生成——我们将舞蹈合成表述为一个图优化问题:寻找满足特定编拍模式的最优关键帧结构,该模式可从参考舞蹈视频中自动估计得出。此外,我们引入了一种镜像姿态图像生成方法,这对于捕捉舞蹈中的对称性至关重要。中间帧则通过视频扩散模型进行合成。仅需六个输入关键帧,我们的方法便能生成涵盖多种动物和音乐曲目、长达30秒的舞蹈视频。
前馈式三维高斯泼溅(3DGS)模型近期作为新颖视角合成的一种有前景解决方案崭露头角,其能够实现无需逐场景3DGS优化的一步推理。然而,这些模型的可扩展性从根本上受限于其编码器的有限容量,随着输入视角数量的增加,导致性能下降或内存消耗过度。在本研究中,我们通过信息瓶颈原则的视角分析了前馈式3DGS框架,并引入了ZPressor——一个轻量级、与架构无关的模块,它能够高效地将多视角输入压缩至一个紧凑的潜在状态Z,该状态在保留场景关键信息的同时摒弃冗余。具体而言,ZPressor通过将视角划分为锚点集和支持集,并利用交叉注意力机制将支持视角的信息压缩至锚点视角,形成压缩后的潜在状态Z,使得现有前馈式3DGS模型能够在80GB GPU上扩展至超过100个480P分辨率的输入视角。我们展示了将ZPressor集成到多个先进的前馈式3DGS模型中,在DL3DV-10K和RealEstate10K两大基准测试上,不仅在中度输入视角下持续提升性能,还在密集视角设置下增强了鲁棒性。视频成果、代码及训练模型均可在我们的项目页面获取:https://lhmd.top/zpressor。
開發高效能軟體是一項複雜的任務,需要專業知識。我們引入了GSO,這是一個用於評估語言模型在開發高效能軟體方面能力的基準。我們開發了一個自動化流程,該流程生成並執行效能測試,以分析程式庫的提交歷史,從而識別出10個程式庫中的102個具有挑戰性的優化任務,這些任務涵蓋了多個領域和程式語言。我們為代理提供了一個程式庫和效能測試作為精確的規格,並要求其提升執行效率,這將與專家開發者的優化進行對比測量。我們的定量評估顯示,領先的軟體工程代理(SWE-Agents)表現顯著不佳,成功率低於5%,即使在推理時間擴展的情況下,改進也有限。我們的定性分析揭示了關鍵的失敗模式,包括在低階語言上的困難、實踐懶惰優化策略的挑戰,以及準確定位效能瓶頸的難題。我們發布了基準的程式碼和相關資源,以及代理的執行軌跡,以促進未來的研究。
儘管預訓練的多模態表示(如CLIP)展現了令人印象深刻的能力,它們卻存在顯著的組合脆弱性,導致反直覺的判斷。我們提出了多模態對抗組合性(MAC)這一基準,它利用大型語言模型(LLM)生成具有欺騙性的文本樣本,以跨不同模態利用這些脆弱性,並通過樣本級攻擊成功率和基於熵的多樣性進行評估。為了改進零樣本方法,我們提出了一種自訓練方法,該方法結合了拒絕採樣微調與促進多樣性的過濾策略,從而提升了攻擊成功率和樣本多樣性。使用如Llama-3.1-8B等較小的語言模型,我們的方法在揭示跨圖像、視頻和音頻等多種多模態表示的組合脆弱性方面表現出優越性能。
近年來,AI驅動的圖像生成技術取得了快速進展。早期的擴散模型注重感知質量,而如GPT-4o-image等新型多模態模型則整合了高層次推理,提升了語義理解與結構構圖能力。科學插圖生成便是這一演進的典例:與一般圖像合成不同,它要求精確解讀技術內容,並將抽象概念轉化為清晰、標準化的視覺呈現。此項任務顯著更具知識密集性與繁瑣性,往往需要耗費數小時的手動操作與專業工具。若能以可控且智能的方式實現其自動化,將帶來巨大的實用價值。然而,目前尚無基準可用於評估AI在此領域的表現。為填補這一空白,我們推出了SridBench,首個專注於科學圖表生成的基準測試。它包含1,120個案例,精選自13個自然科學與計算機科學領域的頂尖學術論文,由人類專家與多模態大語言模型共同收集。每個樣本均從語義忠實度與結構準確性等六個維度進行評估。實驗結果顯示,即便是如GPT-4o-image這樣的頂尖模型,在文本/視覺清晰度及科學正確性方面仍落後於人類表現。這些發現凸顯了對更先進的推理驅動視覺生成能力的迫切需求。
放射學報告傳達了詳細的臨床觀察,並捕捉了隨時間演變的診斷推理。然而,現有的評估方法僅限於單一報告的情境,且依賴於粗糙的指標,無法捕捉細粒度的臨床語義和時間依賴性。我們引入了LUNGUAGE,這是一個用於結構化放射學報告生成的基準數據集,它支持單一報告評估和跨多項研究的縱向患者層面評估。該數據集包含1,473份經過專家審閱的胸部X光報告,其中80份包含縱向註釋,以捕捉疾病進展和研究間隔,這些註釋也經過了專家審閱。利用這一基準,我們開發了一個兩階段框架,將生成的報告轉化為細粒度、與模式對齊的結構化表示,從而實現縱向解釋。我們還提出了LUNGUAGESCORE,這是一個可解釋的指標,它在實體、關係和屬性層面比較結構化輸出,同時建模患者時間線上的時間一致性。這些貢獻建立了順序放射學報告的首個基準數據集、結構化框架和評估指標,實證結果表明LUNGUAGESCORE有效地支持了結構化報告的評估。代碼可於以下網址獲取:https://github.com/SuperSupermoon/Lunguage
多模態大型語言模型(MLLMs)日益增強的處理能力,已推動了諸如圖表理解等任務的進展。然而,這些模型常遭遇幻覺問題,即生成的文本序列與提供的視覺數據相矛盾。為解決此問題,我們引入了「圖表事後視覺歸因」方法,該方法能識別細粒度的圖表元素,以驗證與圖表相關的特定回應。我們提出了ChartLens,這是一種新穎的圖表歸因算法,它利用基於分割的技術來識別圖表對象,並結合MLLMs的標記集提示進行細粒度視覺歸因。此外,我們還推出了ChartVA-Eval,這是一個包含來自金融、政策、經濟等多領域的合成與真實圖表的基準測試集,具備細粒度歸因註釋。我們的評估結果顯示,ChartLens將細粒度歸因的準確率提升了26-66%。
大型語言模型作為神經知識庫,其知識獲取、可編輯性、推理能力及可解釋性已得到廣泛研究。然而,鮮有工作聚焦於其知識的結構模式。基於這一研究空白,我們從圖的視角探討這些結構模式。我們在三元組和實體兩個層面上量化了大型語言模型的知識,並分析了其與圖結構屬性(如節點度)的關聯。此外,我們揭示了知識同質性現象,即拓撲上相近的實體展現出相似的知識水平,這進一步激勵我們開發基於圖的機器學習模型,利用實體的局部鄰居來估計其知識水平。該模型還能夠通過選擇大型語言模型較不熟悉的三元組來進行有價值的知識檢查。實驗結果表明,使用選定的三元組進行微調可帶來更優的性能。
空間智能對於在複雜物理世界中運作的多模態大型語言模型(MLLMs)至關重要。然而,現有的基準測試僅探討單一圖像的關係,因此無法評估現實世界部署所需的多圖像空間推理能力。我們引入了MMSI-Bench,這是一個專注於多圖像空間智能的視覺問答(VQA)基準測試。六位3D視覺研究人員花費超過300小時,從超過120,000張圖像中精心設計了1,000道具有挑戰性且無歧義的多選題,每道題目均配備了精心設計的干擾項和逐步推理過程。我們進行了廣泛的實驗,並全面評估了34個開源和專有的MLLMs,觀察到一個顯著的差距:最強的開源模型僅達到約30%的準確率,而OpenAI的o3推理模型達到40%,而人類的得分則高達97%。這些結果凸顯了MMSI-Bench的挑戰性以及未來研究的巨大潛力。利用註釋的推理過程,我們還提供了一個自動化的錯誤分析管道,診斷出四種主要的失敗模式,包括(1)基礎錯誤,(2)重疊匹配和場景重建錯誤,(3)情境轉換推理錯誤,以及(4)空間邏輯錯誤,為推進多圖像空間智能提供了寶貴的見解。項目頁面:https://runsenxu.com/projects/MMSI_Bench。
直接偏好優化(Direct Preference Optimization, DPO)已成為一種標準技術,用於以監督方式將語言模型與人類偏好對齊。儘管其在實證上取得了成功,但其對數比率獎勵參數化背後的理論依據仍不完整。在本研究中,我們通過利用差分信息分佈(Differential Information Distribution, DID)來填補這一空白:這是一種捕捉策略更新期間獲得信息的標記序列分佈。首先,我們證明當偏好標籤編碼了將參考策略轉化為目標策略所需的差分信息時,DPO中的對數比率獎勵作為通過偏好優化學習目標策略的唯一最優形式自然浮現。這一結果自然地導出了對被拒絕響應的最優採樣分佈的閉式表達。其次,我們發現偏好編碼差分信息的條件與對數邊界有序策略的隱含假設——一種在偏好優化中廣泛使用但此前未被識別的歸納偏見——存在根本聯繫。最後,通過分析DID的熵,我們描述了學習低熵差分信息如何強化策略分佈,而高熵差分信息則產生平滑效應,這解釋了對數似然位移現象。我們在合成實驗中驗證了我們的理論發現,並將其擴展到現實世界的指令跟隨數據集。我們的結果表明,學習高熵差分信息對於通用指令跟隨至關重要,而學習低熵差分信息則有利於知識密集型問答。總體而言,我們的工作通過差分信息的視角,為DPO目標、偏好數據結構以及由此產生的策略行為提供了一個統一的視角。
儘管基於思維鏈的強化學習(RL)在數學和編碼等任務中顯著提升了語言模型的能力,視覺推理卻因其要求模型引導視覺注意力、解讀感知輸入並將抽象推理建立在空間證據之上,而引入了額外的複雜性。我們提出了ViGoRL(視覺基礎強化學習),這是一種通過RL訓練的視覺語言模型,旨在將每個推理步驟明確地錨定於特定的視覺座標。受人類視覺決策過程的啟發,ViGoRL學會生成基於空間的推理軌跡,在每一步引導視覺注意力至任務相關區域。當需要細粒度探索時,我們新穎的多輪RL框架使模型能夠在推理過程中動態放大至預測座標。在一系列視覺推理基準測試中——包括用於空間推理的SAT-2和BLINK,用於視覺搜索的V*bench,以及用於基於網絡的基礎測試的ScreenSpot和VisualWebArena——ViGoRL始終優於缺乏明確基礎機制的監督微調和傳統RL基線。將多輪RL與放大視覺反饋相結合,顯著提升了ViGoRL在定位小型GUI元素和視覺搜索方面的性能,在V*Bench上達到了86.4%的準確率。此外,我們發現基礎化增強了其他視覺行為,如區域探索、基礎子目標設定和視覺驗證。最後,人類評估顯示,模型的視覺參考不僅在空間上準確,而且有助於理解模型的推理步驟。我們的結果表明,視覺基礎的RL是一種強大的範式,能夠賦予模型通用視覺推理能力。
後訓練量化(PTQ)的主要目標是生成一個壓縮模型,其輸出分佈盡可能接近原始模型。為了實現這一目標,幾乎所有大型語言模型(LLM)的PTQ算法都通過獨立最小化即時激活誤差來量化線性層。然而,這種局部目標忽略了後續層的影響,因此減少它並不一定能帶來更接近的模型。在本研究中,我們引入了另一種量化算法(YAQA),這是一種自適應舍入算法,它使用克羅內克分解近似每個線性層相對於完整模型KL散度的海森矩陣。YAQA由兩個組件組成:可以為數百億參數的LLM高效計算的完整層級海森矩陣的克羅內克分解草圖,以及一個獨立於量化器的舍入算法,該算法使用這些草圖並具有理論保證。在多種模型和量化器的廣泛範圍內,YAQA在將KL散度減少約30%的同時,在下游任務中實現了最先進的性能。
創造力評估仍然是大型語言模型(LLMs)面臨的一個挑戰性前沿。目前的評估方法嚴重依賴低效且成本高昂的人類判斷,這阻礙了提升機器創造力的進展。雖然存在從心理測試到啟發式或提示驅動方法等自動化評估手段,但它們往往缺乏普適性或與人類判斷的一致性。為解決這些問題,本文提出了一種新穎的成對比較框架來評估文本創造力,利用共享的上下文指令來提高評估的一致性。我們引入了CreataSet,這是一個大規模數據集,包含超過10萬條人類級別和100萬條以上合成的創意指令-響應對,涵蓋多樣化的開放域任務。通過在CreataSet上訓練,我們開發了一款基於LLM的評估器,名為CrEval。CrEval在與人類判斷的一致性方面展現出顯著優於現有方法的卓越性能。實驗結果強調了整合人類生成數據與合成數據在訓練高魯棒性評估器中的不可或缺的重要性,並展示了CrEval在提升LLMs創造力方面的實際應用價值。我們將很快公開所有數據、代碼和模型,以支持進一步的研究。
在本研究中,我們揭示了視覺標記器(visual tokenizers)和變分自編碼器(VAEs)在保留細粒度特徵方面的局限性,並提出了一個基準來評估兩種具有挑戰性的視覺內容——文本和臉部——的重建性能。視覺標記器和VAEs通過提供更高效的壓縮或量化圖像表示,顯著推進了視覺生成和多模態建模。然而,儘管這些技術幫助生產模型減少了計算負擔,但圖像壓縮帶來的信息損失從根本上限制了視覺生成質量的上限。為了評估這一上限,我們專注於評估重建的文本和臉部特徵,因為這些特徵通常具有以下特點:1) 存在於較小的尺度上,2) 包含密集且豐富的紋理,3) 容易崩潰,4) 對人類視覺高度敏感。我們首先從現有數據集中收集並整理了一組多樣化的清晰文本和臉部圖像。與使用視覺語言模型(VLM)的方法不同,我們採用成熟的OCR和臉部識別模型進行評估,確保準確性的同時保持極其輕量化的評估流程,僅需2GB內存和4分鐘即可完成。利用我們的基準,我們分析了不同圖像標記器和VAEs在各種尺度下的文本和臉部重建質量。結果表明,現代視覺標記器在保留細粒度特徵方面仍然存在困難,尤其是在較小尺度下。我們進一步將這一評估框架擴展到視頻領域,對視頻標記器進行了全面分析。此外,我們還展示了傳統指標無法準確反映臉部和文本的重建性能,而我們提出的指標則作為有效的補充。
大型語言模型(LLMs)在生物醫學等科學領域展現了顯著的潛力,特別是在假設生成方面,它們能夠分析大量文獻、識別模式並提出研究方向。然而,一個關鍵挑戰在於評估生成假設的真實性,因為驗證其準確性通常需要大量的時間和資源。此外,LLMs中的幻覺問題可能導致生成看似合理但最終錯誤的假設,從而削弱其可靠性。為了系統性地研究這些挑戰,我們引入了TruthHypo,這是一個用於評估LLMs生成真實生物醫學假設能力的基準,以及KnowHD,這是一個基於知識的幻覺檢測器,用於評估假設在現有知識中的紮根程度。我們的結果顯示,LLMs在生成真實假設方面存在困難。通過分析推理步驟中的幻覺,我們證明KnowHD提供的紮根性分數是從LLMs多樣化輸出中過濾真實假設的有效指標。人類評估進一步驗證了KnowHD在識別真實假設和加速科學發現方面的實用性。我們的數據和源代碼可在https://github.com/Teddy-XiongGZ/TruthHypo獲取。
詞級質量評估(WQE)旨在自動識別機器翻譯輸出中的細粒度錯誤片段,並在許多場景中找到了應用,包括在後期編輯過程中協助翻譯人員。現代的WQE技術往往成本高昂,涉及對大型語言模型的提示或基於大量人工標註數據的特定訓練。在本研究中,我們探討了利用語言模型可解釋性和不確定性量化最新進展的高效替代方案,從翻譯模型的內部運作中識別翻譯錯誤。在涵蓋12種翻譯方向的14項指標的評估中,我們通過使用多組人工標註來量化人類標註變異對指標性能的影響。我們的結果凸顯了無監督指標的未開發潛力、監督方法在面對標註不確定性時的不足,以及單一註釋者評估實踐的脆弱性。
無分類器指導(Classifier-Free Guidance, CFG)通過融合條件與非條件預測,顯著提升了生成模型的可控性。然而,標準的CFG通常採用靜態的非條件輸入,這在模型不確定性動態變化的迭代生成過程中可能並非最優。我們提出了一種新方法——自適應無分類器指導(Adaptive Classifier-Free Guidance, A-CFG),該方法利用模型的即時預測置信度來定制非條件輸入。在迭代(掩碼)擴散語言模型的每一步中,A-CFG識別當前生成序列中模型表現出低置信度的詞元,並暫時重新掩碼這些詞元,以創建一個動態的、局部化的非條件輸入。這使得CFG的校正影響精確聚焦於模糊區域,從而實現更有效的指導。我們將A-CFG集成到最先進的掩碼擴散語言模型中,並展示了其有效性。在多樣化的語言生成基準測試中,實驗表明A-CFG相較於標準CFG帶來了顯著的改進,例如在GPQA上取得了3.9分的提升。我們的工作強調了在迭代生成中根據模型不確定性動態調整指導機制的重要性。
大型語言模型(LLMs)在問答(QA)任務中展現了卓越的性能,這得益於其在自然語言理解與生成方面的優越能力。然而,基於LLM的QA在處理複雜問答任務時仍面臨挑戰,主要由於其推理能力不足、知識更新不及時以及產生幻覺等問題。近期多項研究嘗試將LLMs與知識圖譜(KGs)結合用於QA,以應對上述挑戰。在本篇綜述中,我們提出了一種新的結構化分類法,根據QA的類別以及KG在與LLMs整合時所扮演的角色,對LLMs與KGs結合用於QA的方法進行分類。我們系統性地綜述了LLMs與KGs結合用於QA的最新進展,並從優勢、限制及KG需求等方面對這些方法進行了比較與分析。隨後,我們將這些方法與QA任務對齊,探討它們如何解決不同複雜QA的主要挑戰。最後,我們總結了相關進展、評估指標及基準數據集,並指出了開放性挑戰與未來機遇。