每日精選AI研究論文及翻譯
大型語言模型(LLMs)的快速發展展示了在複雜推理任務中取得的顯著進展。然而,在基準性能與實際應用之間仍存在顯著差異。我們認為這一差距主要源於當前的評估協議和指標,無法充分捕捉LLM能力的全部範疇,尤其是在複雜推理任務中,準確性和一致性同樣重要。本研究有兩個主要貢獻。首先,我們引入了G-Pass@k,一個新穎的評估指標,可跨越多次取樣試驗持續評估模型表現,量化模型的最高性能潛力和穩定性。其次,我們提出了LiveMathBench,一個動態基準,包含挑戰性的當代數學問題,旨在在評估過程中最小化數據泄漏風險。通過在最先進的LLMs上使用G-Pass@k和LiveMathBench進行廣泛實驗,我們全面了解了它們的最大能力和運行一致性。我們的研究顯示LLMs在“實際”推理能力方面仍有很大改進空間,突顯了對更強大的評估方法的需求。基準和詳細結果可在以下網址找到:https://github.com/open-compass/GPassK。
作為大型語言模型(LLMs)的典型且實用應用,檢索增強生成(RAG)技術已獲得廣泛關注,尤其在垂直領域中,LLMs可能缺乏特定領域知識。本文介紹了一個全方位且自動化的金融領域RAG基準測試,名為OmniEval。我們的基準測試以其多維評估框架為特色,包括(1)基於矩陣的RAG場景評估系統,將查詢分為五個任務類別和16個金融主題,從而對不同查詢場景進行結構化評估;(2)多維評估數據生成方法,結合基於GPT-4的自動生成和人工標註,使在生成實例的人工評估中達到87.47%的接受率;(3)多階段評估系統,評估檢索和生成性能,實現對RAG管道的全面評估;以及(4)從基於規則和基於LLM的評估指標中衍生出的強大評估指標,通過手動標註和LLM評估器的監督微調,增強評估的可靠性。我們的實驗展示了OmniEval的全面性,其中包括廣泛的測試數據集,並突出了RAG系統在不同主題和任務中的性能變化,揭示了RAG模型在垂直領域中提升能力的重要機會。我們在https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}開源了我們基準測試的代碼。
在快速發展的大型多模型(LMMs)領域中,出現了具有顯著能力的多樣模型。然而,現有的基準測試未能全面、客觀且準確地評估LMMs是否符合人類在現實場景中的多樣需求。為彌補這一差距,我們提出了多維洞察(MDI)基準測試,其中包括超過500張圖像,涵蓋人類生活中的六種常見場景。值得注意的是,MDI基準測試相對現有評估具有兩個重要優勢:(1)每張圖像附帶兩種類型的問題:簡單問題用於評估模型對圖像的理解,複雜問題則用於評估模型分析和推理基本內容之外的能力。(2)我們認識到不同年齡群體在面對相同場景時有不同的需求和觀點,因此我們的基準測試將問題分為三個年齡類別:年輕人、中年人和老年人。這種設計允許對LMMs在滿足不同年齡群體的偏好和需求方面進行詳細評估。通過MDI基準測試,像GPT-4這樣的強大模型在與年齡相關的任務上實現了79%的準確性,這表明現有的LMMs在應對現實應用方面仍有相當大的改進空間。展望未來,我們預期MDI基準測試將開辟新途徑,實現LMMs中的現實個性化。MDI基準測試數據和評估代碼可在https://mdi-benchmark.github.io/ 上獲得。
思維鏈 (CoT) 解碼使語言模型能夠提高推理性能,但解碼過程中會產生高延遲。最近的提議探索了冥想標記的變體,這是我們提出的一個術語,用於推斷過程中使用特殊標記以允許額外計算。先前的工作考慮了從離散嵌入集合中繪製的固定長度序列作為冥想標記。在這裡,我們提出了壓縮思維鏈 (CCoT),這是一個框架,用於生成具有可變序列長度的內容豐富且連續的冥想標記。生成的冥想標記是明確推理鏈的壓縮表示,我們的方法可應用於現成的解碼器語言模型。通過實驗,我們說明了CCoT如何使得在密集內容豐富表示上進行額外推理,從而實現相應的準確性改進。此外,推理改進可以通過控制生成的冥想標記數量來適應性地進行修改。
人類將複雜的經驗提煉成基本抽象,以促進快速學習和適應。同樣地,自回歸變壓器通過上下文學習(ICL)展現適應性學習,這引出一個問題,即如何實現。在本文中,我們提出概念編碼-解碼機制,通過研究變壓器如何形成和使用內部抽象來解釋ICL。在合成ICL任務中,我們分析了一個小型變壓器的訓練動態,並報告了概念編碼和解碼的相互產生。隨著模型學習將不同的潛在概念(例如,“找到句子中的第一個名詞”)編碼為不同、可分離的表示,它同時構建條件解碼算法並提高其ICL性能。我們驗證了這種機制存在於不同規模的預訓練模型(Gemma-2 2B/9B/27B,Llama-3.1 8B/70B)中。此外,通過機械干預和受控微調,我們證明概念編碼的質量與ICL性能有因果關係並具有預測性。我們的實證見解有助於更好地理解大型語言模型通過其表示形式的成功和失敗模式。
從多個文件集合中理解資訊,尤其是那些具有豐富視覺元素的文件,對於基於文件的問答至關重要。本文介紹了VisDoMBench,這是第一個旨在評估具有豐富多模態內容(包括表格、圖表和簡報幻燈片)的多文件設置中QA系統的全面基準。我們提出了VisDoMRAG,一種新穎的多模態檢索增強生成(RAG)方法,同時利用視覺和文本RAG,結合強大的視覺檢索能力與複雜的語言推理。VisDoMRAG採用多步推理過程,包括證據整理和思維鏈推理,用於同時進行文本和視覺RAG管道。VisDoMRAG的一個關鍵創新之處在於其受一致性約束的模態融合機制,該機制在推論時對齊跨模態的推理過程,以產生一致的最終答案。這導致在關鍵信息分佈在不同模態且通過隱含上下文歸因改進答案可驗證性的情況下,提高準確性。通過涉及開源和專有大型語言模型的廣泛實驗,我們在VisDoMBench上對最先進的文件QA方法進行基準測試。廣泛的結果顯示,VisDoMRAG在多模態文件QA的端對端方面優於單模態和長上下文LLM基線12-20%。
最近有關加速視覺語言模型的研究表明,儘管高度壓縮視覺信息,仍然可以在各種視覺語言任務中保持強大的性能。在這項研究中,我們檢驗了早期修剪語言模型內視覺標記的流行加速方法,並發現其在許多任務中的強大性能並非來自於壓縮視覺信息的特殊能力,而是基於基準任務對細粒度視覺能力的有限評估能力。換言之,我們展示了加速方法的一個核心問題,即將圖像頂部的大多數標記修剪掉。然而,這個問題僅在一小部分任務(如定位)的性能中反映出來。對於其他評估的任務,儘管修剪策略存在缺陷,仍然保持著強大的性能。鑒於所研究的加速技術的有限視覺能力,我們提出了FEATHER(具有集成標準的快速有效加速)這一直接的方法,該方法(1)解決了早期層次修剪的識別問題,(2)採用統一取樣以確保對所有圖像區域進行覆蓋,(3)在兩個階段進行修剪,以使標準在後期層次更有效,同時通過早期層次修剪實現顯著的加速。在可比的計算節省的情況下,我們發現與原始加速方法相比,FEATHER在以視覺為中心的定位基準上的性能提升超過5倍。
對於廣泛具備能力和目標導向的智能體,例如數位世界中的網路瀏覽智能體和實體世界中的家庭機器人,其願景已經快速發展,這要歸功於基礎模型的泛化能力。這樣一個通才智能體需要具備龐大且多樣化的技能庫,例如在兩個旅行地點之間尋找方向,以及從網路上購買特定物品。如果每個技能都需要透過固定的一組人工註釋指示來手動指定,由於人工註釋指示的數量和多樣性,智能體的技能庫將會受到限制。在這項工作中,我們通過提出提案者-智能體-評估者(Proposer-Agent-Evaluator,PAE)來應對這一挑戰,這是一個有效的學習系統,使基礎模型智能體能夠在野外自主發現和練習技能。PAE 的核心是一個具有上下文感知能力的任務提案者,根據環境的上下文信息(例如用戶演示或僅僅是網站名稱)自主提出智能體練習的任務。然後,智能體政策通過思考和實際在現實世界中進行基於結果軌跡的操作來嘗試這些任務,這些軌跡由自主的基於VLM 的成功評估者評估。成功評估作為智能體通過強化學習來優化其政策的獎勵信號。我們在具有挑戰性的基於視覺的網頁導航上驗證了 PAE,使用了來自 WebVoyager 和 WebArena 的真實世界和自託管網站。據我們所知,這項工作代表了首個應用自主任務提案與強化學習的有效學習系統,能夠將真實世界的人工註釋基準泛化為具有 SOTA 性能的智能體。我們的開源檢查點和代碼可在 https://yanqval.github.io/PAE/ 找到。
深度完成將稀疏深度測量升級為由傳統影像引導的密集深度地圖。針對這個高度不透明的任務,現有方法在嚴格受限的環境中運作,當應用於訓練領域之外的影像,或當可用的深度測量是稀疏、不規則分佈或密度不一致時,往往會遇到困難。受最近單眼深度估計進展的啟發,我們將深度完成重新定義為由稀疏測量引導的影像條件深度地圖生成。我們的方法Marigold-DC基於預訓練的潛在擴散模型進行單眼深度估計,並通過優化方案將深度觀測作為測試時的引導,與去噪擴散的迭代推斷同步運行。該方法在各種環境中展現出優異的零樣本泛化能力,並有效處理極度稀疏的引導。我們的結果表明,當代單眼深度先驗極大地增強了深度完成的穩健性:將任務視為從(密集)影像像素中恢復密集深度,由稀疏深度引導;而不是將其視為由影像引導的修補(稀疏)深度。項目網站:https://MarigoldDepthCompletion.github.io/
在現實世界的軟體開發中,不當或缺失的異常處理可能嚴重影響程式碼的穩健性和可靠性。異常處理機制需要開發人員按照高標準偵測、捕捉和管理異常,但許多開發人員在這些任務上遇到困難,導致程式碼脆弱。這個問題在開源專案中尤為明顯,並影響軟體生態系統的整體品質。為應對這一挑戰,我們探索使用大型語言模型(LLMs)來改善程式碼中的異常處理。通過廣泛分析,我們確定了三個關鍵問題:對脆弱程式碼的偵測不敏感、對異常區塊的捕捉不準確,以及處理方案扭曲。這些問題在現實世界的存儲庫中普遍存在,表明穩健的異常處理實踐常被忽視或處理不當。為應對此問題,我們提出 Seeker,這是一個受到專家開發人員異常處理策略啟發的多代理框架。Seeker 使用代理:掃描器、偵測器、獵手、排名者和處理器,協助LLMs更有效地偵測、捕捉和解決異常。我們的工作是首個系統性研究,探討如何利用LLMs來增強現實開發情境中的異常處理實踐,為未來程式碼可靠性的改進提供寶貴見解。
我們提出了SUGAR,一種用於主題驅動視頻定制的零樣本方法。給定一個輸入圖像,SUGAR能夠為圖像中包含的主題生成視頻,並將生成與用戶輸入的文本指定的風格和運動等任意視覺屬性對齊。與需要測試時間微調或無法生成文本對齊視頻的先前方法不同,SUGAR在測試時間無需額外成本即可達到卓越的結果。為了實現零樣本能力,我們引入了一個可擴展的流程來構建合成數據集,該數據集專門設計用於主題驅動的定制,產生了250萬個圖像-視頻-文本三元組。此外,我們提出了幾種增強我們模型的方法,包括特殊注意設計、改進的訓練策略和精煉的抽樣算法。進行了大量實驗。與先前方法相比,SUGAR在保留身份、視頻動態和主題驅動視頻定制的視頻-文本對齊方面取得了最先進的結果,展示了我們提出方法的有效性。
最近基於人工智慧的影片編輯使使用者能夠透過簡單的文字提示來編輯影片,顯著簡化了編輯過程。然而,最近的零樣本影片編輯技術主要集中在全局或單個對象的編輯,這可能導致影片其他部分的意外更改。當多個對象需要局部編輯時,現有方法面臨挑戰,例如不忠實的編輯、編輯泄漏以及缺乏適合的評估數據集和指標。為了克服這些限制,我們提出了一個零樣本多實例影片編輯框架,名為MIVE。MIVE是一個通用的基於遮罩的框架,不專門針對特定對象(例如人)。MIVE引入了兩個關鍵模塊:(i)解耦多實例採樣(DMS)以防止編輯泄漏,以及(ii)實例中心概率重分配(IPR)以確保精確的定位和忠實的編輯。此外,我們提出了新的MIVE數據集,展示了多樣的影片場景,並引入了交實例準確度(CIA)分數來評估多實例影片編輯任務中的編輯泄漏。我們廣泛的定性、定量和用戶研究評估表明,MIVE在編輯忠實度、準確性和泄漏防止方面顯著優於最近的最先進方法,為多實例影片編輯設定了新的基準。項目頁面位於https://kaist-viclab.github.io/mive-site/。
大型語言模型(LLMs)通過利用預訓練知識(即參數化知識)和外部知識(即上下文知識),在各種任務上展現出卓越的表現。儘管已經付出了大量努力來利用這兩種形式的知識,但模型缺乏任何相關知識的情況仍然未被充分探討。這種限制可能導致幻覺等問題,從而降低可靠性並在高風險應用中帶來潛在風險。為了解決這些限制,本文將任務範圍擴大到包括由於缺乏相關知識而無法滿足用戶請求的情況。為此,我們引入了對比解碼與棄權(CDA),這是一種無需訓練的解碼方法,使LLMs能夠在有相關知識時生成回應,否則則棄權。CDA評估了每個知識對於給定查詢的相關性,自適應地確定要優先考慮哪些知識或完全忽略哪些知識。在三個問答數據集上對四個LLMs進行的大量實驗表明,CDA能夠同時有效執行準確的生成和棄權。這些發現突顯了CDA擴大LLMs應用範圍的潛力,提高可靠性並保持用戶信任。