每日精選AI研究論文及翻譯
為解決當前視頻生成領域中精確解讀用戶意圖的瓶頸問題,我們提出了Any2Caption,這是一個新穎的框架,旨在實現任意條件下的可控視頻生成。其核心思想在於將多種條件解讀步驟與視頻合成步驟分離。通過利用現代多模態大語言模型(MLLMs),Any2Caption能夠將文本、圖像、視頻以及特定提示(如區域、運動和相機姿態)等多樣化輸入轉化為密集且結構化的描述,從而為骨幹視頻生成器提供更優的指導。此外,我們還引入了Any2CapIns,這是一個包含337K個實例和407K種條件的大規模數據集,專為任意條件到描述的指令微調而設計。全面評估表明,我們的系統在現有視頻生成模型的多個方面均顯著提升了可控性和視頻質量。項目頁面:https://sqwu.top/Any2Cap/
大型語言模型(LLMs)作為評估工具的興起,提供了一種可擴展的人類註解替代方案,然而現有的監督微調(SFT)法官方法在需要複雜推理的領域往往表現不足。在本研究中,我們探討了LLM法官是否真正受益於增強推理能力。通過對評估任務中推理需求的詳細分析,我們揭示了SFT性能提升與需要推理的樣本比例之間的負相關性——這凸顯了SFT在此類情境中的局限性。為解決這一問題,我們引入了JudgeLRM,這是一系列以判斷為導向的LLMs,採用強化學習(RL)並結合法官視角、結果驅動的獎勵進行訓練。JudgeLRM模型在性能上持續超越SFT微調模型及最先進的推理模型。值得注意的是,JudgeLRM-3B超越了GPT-4,而JudgeLRM-7B在F1分數上以2.79%的優勢領先於DeepSeek-R1,尤其在需要深度推理的法官任務中表現卓越。
軟注意力機制是驅動大型語言模型(LLMs)定位給定上下文中相關部分的關鍵機制。然而,單個注意力權重僅由單一查詢與鍵值標記向量的相似度決定。這種“單標記注意力”限制了用於區分上下文相關部分與其他部分的信息量。為解決這一問題,我們提出了一種新的注意力方法——多標記注意力(Multi-Token Attention, MTA),該方法使LLMs能夠同時基於多個查詢與鍵值向量來調整其注意力權重。這是通過在查詢、鍵值及注意力頭上應用卷積操作實現的,使得鄰近的查詢與鍵值能夠相互影響彼此的注意力權重,從而實現更精確的注意力分配。因此,我們的方法能夠利用超越單一向量容量的更豐富、更細膩的信息來定位相關上下文。通過廣泛的評估,我們證明了MTA在一系列流行基準測試中實現了性能提升。值得注意的是,它在標準語言建模任務上超越了Transformer基線模型,在需要於長上下文中搜索信息的任務中,我們方法利用更豐富信息的能力尤其顯現出其優勢。
近期在思維鏈(Chain of Thought, COT)生成方面的進展,顯著提升了大型語言模型(Large Language Models, LLMs)的推理能力,其中強化學習(Reinforcement Learning, RL)作為一種有效的後訓練方法嶄露頭角。多模態大型語言模型(Multimodal Large Language Models, MLLMs)繼承了這一推理潛力,但在需要感知與邏輯推理結合的任務中仍未被充分探索。為此,我們推出了SEED-Bench-R1,這是一個旨在系統評估MLLMs在視頻理解任務中後訓練方法的基準測試。它包含了複雜的真實世界視頻和日常規劃任務,以多選題的形式呈現,要求模型具備精細的感知與推理能力。SEED-Bench-R1通過三個層次的架構來評估模型的泛化能力:分佈內、跨環境以及跨環境-任務場景,並配備了一個大規模的訓練數據集,其答案易於驗證。以Qwen2-VL-Instruct-7B為基礎模型,我們比較了RL與監督式微調(Supervised Fine-Tuning, SFT),展示了RL在數據效率上的優勢以及在分佈內和分佈外任務上的卓越表現,甚至在如LongVideoBench這樣的通用視頻理解基準上超越了SFT。我們詳細的分析揭示,RL雖增強了視覺感知,但常常生成邏輯連貫性較低的推理鏈。我們指出了關鍵限制,如推理不一致和視覺線索的忽視,並建議未來在基礎模型推理、獎勵建模以及RL對抗噪聲信號的魯棒性方面進行改進。
在重現最先進的多模態大型語言模型(LLM)預訓練過程中,每個階段都面臨著障礙,包括高質量數據過濾、多模態數據混合策略、序列打包技術以及訓練框架。我們推出了Open-Qwen2VL,這是一個完全開源的20億參數多模態大型語言模型,僅使用442個A100-40G GPU小時,在2900萬圖像-文本對上高效地進行了預訓練。我們的方法採用了從低到高的動態圖像分辨率和多模態序列打包,顯著提升了預訓練效率。訓練數據集通過基於MLLM的過濾技術(如MLM-Filter)和傳統的CLIP過濾方法精心篩選,大幅提高了數據質量和訓練效率。Open-Qwen2VL的預訓練在UCSB的學術級8xA100-40G GPU上進行,處理了50億個打包的多模態token,僅佔Qwen2-VL 1.4萬億多模態預訓練token的0.36%。最終經過指令微調的Open-Qwen2VL在多個多模態基準測試(如MMBench、SEEDBench、MMstar和MathVista)上超越了部分開源的最先進MLLM Qwen2-VL-2B,顯示了Open-Qwen2VL卓越的訓練效率。我們開源了工作的所有方面,包括計算效率和數據效率的訓練細節、數據過濾方法、序列打包腳本、WebDataset格式的預訓練數據、基於FSDP的訓練代碼庫,以及基礎模型和指令微調模型的檢查點。我們重新定義了多模態LLM的“完全開源”,即完整發布:1)訓練代碼庫,2)詳細的數據過濾技術,以及3)用於開發模型的所有預訓練和監督微調數據。
歸納式程序合成,或稱基於範例的編程,需要從輸入輸出範例中合成能夠泛化到未見輸入的函數。雖然大型語言模型代理在自然語言指導下的編程任務中展現出潛力,但其執行歸納式程序合成的能力尚未得到充分探索。現有的評估協議依賴於靜態的範例集和保留測試,在合成函數錯誤時不提供反饋,也未能反映如逆向工程等真實世界場景。我們提出了CodeARC,即代碼抽象與推理挑戰,這是一個新的評估框架,在此框架中,代理通過查詢新輸入與隱藏目標函數互動,合成候選函數,並利用差分測試預言機迭代改進其解決方案。這種互動式設置鼓勵代理基於反饋執行函數調用和自我修正。我們構建了首個大規模通用歸納式程序合成基準,包含1114個函數。在評估的18個模型中,o3-mini以52.7%的成功率表現最佳,凸顯了此任務的難度。在精心挑選的合成軌跡上微調LLaMA-3.1-8B-Instruct,可帶來高達31%的相對性能提升。CodeARC為評估基於LLM的程序合成與歸納推理提供了一個更為真實且具挑戰性的測試平台。
視覺自監督學習(SSL)目前在多模態場景(如視覺問答VQA)中的表現遜於對比語言-圖像預訓練(CLIP)。這種多模態差距通常被歸因於語言監督引入的語義,儘管視覺SSL和CLIP模型通常是在不同的數據上訓練的。在本研究中,我們提出了一個問題:「視覺自監督方法落後於CLIP,是因為缺乏語言監督,還是訓練數據的差異?」我們通過在相同的MetaCLIP數據上訓練視覺SSL和CLIP模型,並利用VQA作為視覺編碼器的多樣化測試平台來探討這個問題。在這個受控設置中,視覺SSL模型在數據和模型容量方面比CLIP模型更具擴展性,且視覺SSL的性能在擴展到70億參數後仍未飽和。因此,我們觀察到視覺SSL方法在廣泛的VQA和經典視覺基準測試中達到了CLIP級別的表現。這些發現表明,純視覺自監督學習在大規模下可以與語言監督的視覺預訓練相媲美,為以視覺為中心的表示學習開闢了新的機會。
儘管視頻深度估計領域取得了顯著進展,現有方法在通過仿射不變預測實現幾何保真度方面仍存在固有侷限,這限制了它們在重建及其他基於度量的下游任務中的適用性。我們提出了GeometryCrafter,這是一個新穎的框架,能夠從開放世界視頻中恢復具有時間一致性的高保真點雲序列,從而實現精確的3D/4D重建、相機參數估計以及其他基於深度的應用。我們方法的核心在於一個點雲變分自編碼器(VAE),它學習了一個與視頻潛在分佈無關的潛在空間,以實現有效的點雲編碼與解碼。利用該VAE,我們訓練了一個視頻擴散模型來建模基於輸入視頻的點雲序列分佈。在多樣化數據集上的廣泛評估表明,GeometryCrafter在3D精度、時間一致性及泛化能力方面均達到了業界領先水平。
大型語言模型(LLMs)的眾多應用依賴於其執行逐步推理的能力。然而,LLMs的推理行為仍未被充分理解,這對研究、開發及安全性帶來了挑戰。為填補這一空白,我們引入了「思維景觀」——首個可視化工具,讓用戶能夠檢查任何多選數據集上鏈式思維及其衍生方法的推理路徑。具體而言,我們將推理路徑中的狀態表示為特徵向量,這些向量量化了它們與所有答案選項的距離。隨後,使用t-SNE將這些特徵在二維圖中可視化。通過「思維景觀」的定性和定量分析,能有效區分強弱模型、正確與錯誤答案,以及不同的推理任務。它還揭示了不良的推理模式,如低一致性和高不確定性。此外,用戶可將我們的工具適配於預測其觀察屬性的模型。我們展示了這一優勢,通過將工具適配於一個輕量級驗證器,該驗證器評估推理路徑的正確性。代碼公開於:https://github.com/tmlr-group/landscape-of-thoughts。
大型語言模型(LLMs)能夠通過測試時計算擴展來增強複雜問題的解決能力,但這通常伴隨著更長的上下文和大量的推理代幣成本。本文提出了一種高效的測試時擴展方法,該方法在代碼相關的推理軌跡上訓練LLMs,從而促進其減少多餘的思考代幣,同時保持性能。首先,我們創建了Z1-Code-Reasoning-107K,這是一個精心策劃的數據集,包含簡單和複雜的編碼問題及其短和長的解決軌跡。其次,我們提出了一種新穎的「移位思考窗口」,通過移除上下文分隔標籤(例如,<think>. . . </think>)並限制推理代幣來減輕過度思考的開銷。通過長短軌跡數據的訓練並配備移位思考窗口,我們的模型Z1-7B展示了根據問題複雜度調整其推理水平的能力,並在不同推理任務中表現出高效的測試時擴展,其平均思考代幣約為R1-Distill-Qwen-7B的30%。值得注意的是,僅通過代碼軌跡進行微調的Z1-7B在更廣泛的推理任務上展現了泛化能力(在GPQA Diamond上達到47.5%)。我們對高效推理引導的分析也為未來研究提供了寶貴的見解。
在本報告中,我們介紹了Command A的開發過程,這是一個專為卓越處理現實世界企業用例而設計的強大大型語言模型。Command A是一個針對代理優化且具備多語言能力的模型,支持全球商業的23種語言,並採用了一種新穎的混合架構,在效率與頂尖性能之間取得了平衡。它提供了業界領先的檢索增強生成(RAG)能力,結合基礎知識與工具使用,以自動化複雜的業務流程。這些能力是通過分散式訓練方法實現的,包括自我精煉算法和模型融合技術。我們還提供了Command R7B的結果,該模型在能力和架構上與Command A有相似之處。兩個模型的權重均已發布,供研究用途。本技術報告詳細介紹了我們原創的訓練流程,並對我們的模型在一系列企業相關任務和公共基準測試中進行了廣泛評估,展示了卓越的性能和效率。
電腦使用代理通過直接與電腦和移動設備上的圖形用戶界面(GUI)進行互動,自動化執行數位任務,為完成開放式用戶查詢提供了顯著提升人類生產力的潛力。然而,當前代理面臨著重大挑戰:GUI元素的定位不精確、長時程任務規劃的困難,以及依賴單一通用模型處理多樣認知任務所導致的性能瓶頸。為此,我們引入了Agent S2,這是一種新穎的組合框架,將認知職責分配給各種通用和專用模型。我們提出了一種新穎的混合定位技術,以實現精確的GUI定位,並引入了主動分層規劃,根據不斷變化的觀察在多個時間尺度上動態調整行動計劃。評估結果顯示,Agent S2在三個主要的電腦使用基準測試中建立了新的最先進(SOTA)性能。具體而言,Agent S2在OSWorld的15步和50步評估中,相較於Claude Computer Use和UI-TARS等領先基線代理,分別實現了18.9%和32.7%的相對改進。此外,Agent S2在其他操作系統和應用程序上也能有效泛化,在WindowsAgentArena和AndroidWorld上分別超越了之前最佳方法52.8%和16.52%。代碼可在https://github.com/simular-ai/Agent-S獲取。
近年來,大型語言模型(LLM)基準測試的難度從小學水平迅速攀升至前沿問題,這為研究人員編織了一個奇蹟般的幻象——我們似乎僅一步之遙就能超越人類智能。然而,LLM所展現出的卓越推理能力,究竟是基於人類標準下的真正智能,還是僅僅在互聯網規模的訓練中背誦了解決方案?為探究這一問題,我們提出了RoR-Bench,這是一個新穎的多模態基準測試,旨在檢測LLM在面對條件微妙變化的簡單推理問題時的背誦行為,並對我們的基準進行了實證分析。令人驚訝的是,我們發現現有的尖端LLM無一例外地表現出極為嚴重的背誦行為;僅僅改變條件中的一個短語,如OpenAI-o1和DeepSeek-R1等頂尖模型在小學水平的算術和推理問題上就可能遭受高達60%的性能損失。這些發現為LLM社群敲響了警鐘,迫使我們重新評估尖端LLM的真實智能水平。
有效評估大型語言模型(LLMs)仍然是一個關鍵瓶頸,因為傳統的靜態基準測試面臨飽和與污染問題,而人工評估則成本高昂且耗時。這阻礙了及時或特定領域的評估,而這些評估對於實際應用至關重要。我們推出了YourBench,這是一個新穎的開源框架,通過從用戶提供的文檔中直接動態、自動生成可靠、最新且針對特定領域的基準測試,無需手動註釋,從而解決了這些限制。我們通過使用最少的源文本複製了7個多樣化的MMLU子集,展示了其有效性,總推理成本低於15美元,同時完美保留了原始基準測試中觀察到的模型性能相對排名(Spearman Rho = 1)。為了確保YourBench生成的數據基於提供的輸入,而不是依賴模型中的後驗參數知識,我們還引入了Tempora-0325,這是一個包含超過7K多樣化文檔的新數據集,這些文檔均在2025年3月之後發布。我們的分析涵蓋了來自7個主要家族的26個最先進模型,跨越不同規模(3-671B參數),通過嚴格的算法檢查(例如,引用基礎)和人工評估來驗證生成評估的質量。我們發布了YourBench庫、Tempora-0325數據集、基於Tempora的150k+問答對以及所有評估和推理軌跡,以促進可重複研究,並使社區能夠按需生成定制的基準測試,從而推動更相關和可信的LLM評估。
基於大型基礎模型的GUI代理能夠與數字界面互動,實現了網頁自動化、移動導航及軟件測試等多種應用。然而,其日益增強的自主性引發了對其安全性、隱私保護及可靠性的重大擔憂。本調查從五個關鍵維度審視了GUI代理的可信度:安全漏洞、動態環境中的可靠性、透明度與可解釋性、倫理考量以及評估方法論。我們還識別了諸如對抗性攻擊的脆弱性、序列決策中的級聯故障模式,以及缺乏現實評估基準等主要挑戰。這些問題不僅阻礙了實際部署,還呼籲超越任務成功率的全面緩解策略。隨著GUI代理的普及,建立堅固的安全標準和負責任的開發實踐變得至關重要。本調查為通過系統性理解和未來研究推進可信GUI代理奠定了基礎。
基於文本描述等條件生成人體運動具有挑戰性,這主要是因為需要配對高質量運動及其相應條件的數據集。當追求更精細的生成控制時,難度進一步增加。為此,先前的研究提出結合多個預訓練於不同條件類型數據集上的運動擴散模型,從而實現多條件控制。然而,這些提出的合併策略忽略了結合生成過程的最佳方式可能取決於每個預訓練生成模型的特性以及特定的文本描述。在此背景下,我們引入了MixerMDM,這是首個用於結合預訓練文本條件人體運動擴散模型的學習型模型組合技術。與以往方法不同,MixerMDM提供了一種動態混合策略,該策略以對抗方式訓練,旨在學習根據驅動生成的條件集來結合每個模型的去噪過程。通過使用MixerMDM結合單人和多人運動擴散模型,我們能夠對每個人的動態以及整體互動進行細粒度控制。此外,我們提出了一種新的評估技術,首次在該任務中通過計算混合生成運動與其條件之間的對齊度來衡量互動和個體質量,並評估MixerMDM根據待混合運動在整個去噪過程中調整混合的能力。
多模態語言模型(MLLMs)如GPT-4o的快速發展,推動了全能語言模型的進步,這些模型旨在處理並主動回應連續的多模態數據流。儘管其潛力巨大,但在流媒體視頻情境下評估其實際互動能力仍是一項艱鉅的挑戰。在本研究中,我們引入了OmniMMI,這是一個專為流媒體視頻情境下的全能語言模型(OmniLLMs)量身定制的全面多模態互動基準。OmniMMI涵蓋了超過1,121個視頻和2,290個問題,針對現有視頻基準中兩個關鍵但尚未充分探索的挑戰:流媒體視頻理解與主動推理,並分佈於六個不同的子任務中。此外,我們提出了一個新穎的框架——多模態多路復用建模(M4),旨在實現一個推理高效的流媒體模型,該模型能夠在生成過程中同時進行視覺與聽覺的感知。
近年來,大型語言模型(LLMs)的進步顯著提升了其執行複雜推理任務的能力,從快速直覺的思維(系統1)過渡到緩慢深入的推理(系統2)。雖然系統2的推理提高了任務的準確性,但由於其緩慢的思維特性以及低效或不必要的推理行為,往往會帶來巨大的計算成本。相比之下,系統1的推理在計算上更為高效,但會導致次優的表現。因此,在性能(收益)與計算成本(預算)之間取得平衡至關重要,這便催生了推理經濟性的概念。在本調查中,我們全面分析了LLMs在訓練後和測試時推理階段的推理經濟性,涵蓋了:i)推理低效的原因,ii)不同推理模式的行為分析,以及iii)實現推理經濟性的潛在解決方案。通過提供可操作的見解並強調開放性挑戰,我們旨在揭示提升LLMs推理經濟性的策略,從而為這一不斷發展領域的研究提供寶貴資源。我們還提供了一個公共存儲庫,以持續追蹤這一快速發展領域的最新進展。
擴展測試時計算已成為提升大型語言模型(LLMs)推理能力的關鍵策略,尤其是在數學問題解決等任務中。傳統方法如自我一致性(Self-Consistency, SC)通過生成多個問題解決方案並通過多數投票選取最常見的答案。另一種常見方法是使用獎勵模型(驗證器)對每個解決方案進行評分,並選擇最佳方案。生成式獎勵模型(Generative Reward Models, GenRM)的最新進展將驗證重新定義為下一個令牌預測任務,從而實現了沿新軸的推理時擴展。具體而言,GenRM生成多個驗證思維鏈來評分每個解決方案。在有限的推理預算下,這引入了一個基本權衡:是應該將預算用於通過SC擴展解決方案,還是生成較少的解決方案並將計算資源分配給通過GenRM進行驗證?為解決這一問題,我們在固定推理預算下評估了GenRM與SC的表現。有趣的是,我們發現對於大多數實際推理預算,SC比GenRM更具計算效率。例如,GenRM在消耗高達8倍推理計算後才首次與SC持平,並且需要顯著更多的計算才能超越它。此外,我們推導了GenRM範式的推理擴展定律,揭示了計算最優推理更傾向於更積極地擴展解決方案生成,而非增加驗證次數。我們的工作為通過平衡解決方案生成與驗證來優化測試時擴展提供了實用指導。代碼可在https://github.com/nishadsinghi/sc-genrm-scaling獲取。
視覺令牌削減降低了大型視覺語言模型(LVLMs)中因大量圖像特徵而產生的推理成本。與相關研究僅在自注意力機制的LVLMs中修剪令牌不同,我們的工作獨特地針對基於交叉注意力的模型,這些模型能實現更優異的性能。我們發現,在交叉注意力層中,圖像令牌的鍵值(KV)緩存大小顯著超過自注意力層中的文本令牌,成為主要的計算瓶頸。為緩解此問題,我們利用交叉注意力圖中的稀疏性來選擇性地修剪冗餘的視覺特徵。我們的Trimmed Llama有效降低了KV緩存需求,且無需額外訓練。通過受益於50%減少的視覺特徵,我們的模型能夠在保持基準性能的同時,降低推理延遲和記憶體使用量。
近期,模型融合方法在結合多個大型語言模型(LLMs)於各項任務上的能力展現了強大的優勢。然而,以往的模型融合方法主要專注於融合具有相同架構的同質模型,在處理具有內在異質特性的多模態大型語言模型(MLLMs)時面臨挑戰,這些挑戰包括模型架構的差異以及參數空間的不對稱性。在本研究中,我們提出了AdaMMS,一種專為異質MLLMs設計的新穎模型融合方法。我們的方法通過三個步驟來應對這些挑戰:映射、融合和搜索。具體而言,我們首先設計了模型之間的映射函數,以便在不同架構的MLLMs上應用模型融合。接著,我們對模型權重進行線性插值,以主動適應異質MLLMs中的不對稱性。最後,在超參數搜索步驟中,我們提出了一種無監督的超參數選擇方法用於模型融合。作為首個能夠在無標籤數據情況下融合異質MLLMs的模型融合方法,大量實驗結果表明,AdaMMS在多種視覺-語言基準測試上均優於以往的模型融合方法。
測試時縮放技術已成為增強大型語言模型推理能力的一項強大技術。然而,其在醫學推理中的有效性仍不確定,因為醫學領域在知識表示和決策過程方面與數學任務存在根本性差異。本文首次全面探討了測試時縮放技術在醫學推理中的應用,並提出了m1這一簡單而有效的方法,該方法在推理階段提升了模型的醫學推理能力。我們在多樣化的醫學任務上的評估表明,測試時縮放技術持續增強了醫學推理,使得參數量低於100億的輕量級微調模型能夠建立新的性能標杆,而我們的320億參數模型則與之前700億參數規模的醫學大語言模型相媲美。然而,我們發現推理標記的最佳預算約為4K,超過此值性能可能因過度思考而下降。通過迭代提示延長測試時計算的預算強制,雖然有助於模型雙重檢查答案,但並不一定能提升整體醫學問答性能,在某些情況下甚至會將錯誤引入先前正確的回答中。我們的個案分析指出,醫學知識的不足是阻礙通過測試時縮放進一步提升性能的關鍵瓶頸。我們發現,增加數據規模、提升數據質量以及擴展模型容量,都能持續增強醫學知識的基礎,從而實現性能的持續提升,特別是在較小模型已達到飽和的挑戰性醫學基準測試上。這些發現強調了醫學與數學推理在大型語言模型中的根本差異,表明豐富的醫學知識,而非僅僅增加推理深度,對於實現測試時縮放技術的益處至關重要。
推理時期的擴展能夠增強大型語言模型(LLMs)在需要逐步解決的複雜問題上的推理能力。雖然延長生成的草稿紙對於數學任務已被證明有效,但這種方法在其他任務上的廣泛影響仍不夠明確。在本研究中,我們探討了擴展方法在九個最先進模型和八個挑戰性任務中的優勢與限制,包括數學與STEM推理、日曆規劃、NP難題、導航以及空間推理。我們將傳統模型(如GPT-4o)與針對推理時期擴展進行微調的模型(如o1)進行比較,通過涉及重複模型調用的評估協議,這些調用可以是獨立進行,也可以是帶有反饋的順序進行。這些評估近似於每個模型的性能下限與上限,以及未來通過增強訓練或多模型推理系統可能實現的性能提升潛力。我們廣泛的實證分析顯示,推理時期擴展的優勢因任務而異,並隨著問題複雜度的增加而減弱。此外,在這些挑戰性領域中,僅僅使用更多的令牌並不一定意味著更高的準確性。使用完美驗證器的傳統模型在多個獨立運行中的結果表明,對於某些任務,這些模型能夠接近當今最先進推理模型的平均性能。然而,對於其他任務,即使在非常高的擴展範圍內,性能差距仍然顯著。令人鼓舞的是,所有模型在進一步使用完美驗證器或強力反饋進行推理擴展時,都展現出顯著的增益,這表明未來改進的潛力巨大。
文本到SQL(Text-to-SQL)是一項具有挑戰性的任務,涉及多個需要深度推理的子任務,包括自然語言理解、數據庫模式理解以及精確的SQL查詢構建。現有方法通常依賴於手工設計的推理路徑,這些路徑帶有歸納偏見,可能限制其整體效能。受到近期如DeepSeek R1和OpenAI o1等推理增強模型成功的啟發,這些模型有效利用獎勵驅動的自我探索來提升推理能力和泛化能力,我們提出了一套專為Text-to-SQL任務量身定制的部分獎勵機制。我們的獎勵集包括模式鏈接、AI反饋、n-gram相似度和語法檢查,這些設計旨在解決強化學習(RL)中普遍存在的獎勵稀疏問題。通過採用群組相對策略優化(GRPO),我們的方法明確鼓勵大型語言模型(LLMs)發展出生成準確SQL查詢所需的內在推理技能。通過不同規模的模型,我們展示了僅使用我們提出的獎勵進行RL訓練,相比於監督微調(SFT),能夠持續實現更高的準確性和更優的泛化能力。值得注意的是,我們經過RL訓練的14B參數模型在BIRD基準測試中顯著超越了更大的專有模型,例如o3-mini高出4%,Gemini-1.5-Pro-002高出3%。這些成果凸顯了我們提出的帶有部分獎勵的RL訓練框架在提升Text-to-SQL任務準確性和推理能力方面的有效性。
我們致力於解決視頻章節劃分的任務,即將長視頻的時間線分割成語義單元並生成相應的章節標題。儘管這一領域相對未被充分探索,自動章節劃分具有提升長視頻導航和內容檢索效率的潛力。在本文中,我們通過在文本領域高效處理這一問題,利用我們的「Chapter-Llama」框架,在長達一小時的視頻上實現了強勁的章節劃分性能。具體而言,我們利用了一個具有大上下文窗口的預訓練大型語言模型(LLM),並將(i)語音轉錄文本和(ii)描述視頻幀的標題,以及它們各自的時間戳作為輸入。考慮到對所有幀進行詳盡標註的低效性,我們提出了一種基於語音轉錄內容的輕量級語音引導幀選擇策略,並通過實驗展示了顯著的優勢。我們訓練LLM輸出章節邊界的時間戳以及自由形式的章節標題。這種簡單而強大的方法能夠在單次前向傳播中處理長達一小時的視頻。我們的結果顯示,在最新的VidChapters-7M基準上,相較於現有技術,我們取得了顯著的改進(例如,F1分數從26.7提升至45.3)。為了促進進一步的研究,我們在項目頁面上發布了我們的代碼和模型。
大型语言模型(LLMs)具备令人印象深刻的语言能力,但往往无法忠实保留事实知识,导致产生幻觉和不可靠的输出。通过全面评估与大规模知识库的对比来理解LLMs的知识缺陷,在计算上是不可行的,尤其是对于闭源权重模型。我们提出了随机误差上升(SEA),一个在严格查询预算下可扩展且高效的框架,用于发现闭源权重LLMs中的知识缺陷(错误)。SEA并非简单地探测所有知识候选,而是将错误发现构建为一个随机优化过程:它通过利用与先前观察到的失败的语义相似性,迭代检索新的高错误候选。为了进一步提升搜索效率和覆盖率,SEA采用了跨文档和段落层次的分级检索,并构建了一个关系有向无环图来模拟错误传播并识别系统性故障模式。实证表明,SEA发现的错误数量是自动能力发现的40.7倍,比AutoBencher多26.7%,同时将每个错误的成本分别降低了599倍和9倍。人工评估确认了生成问题的高质量,而消融和收敛分析验证了SEA中每个组件的贡献。对发现错误的进一步分析揭示了跨LLM家族的关联故障模式和反复出现的缺陷,强调了未来LLM开发中需要更好的数据覆盖和针对性微调。
人類雙手在互動中扮演核心角色,這促使靈巧機器人操控的研究日益增加。數據驅動的具身人工智慧算法需要精確、大規模且類似人類的操控序列,而這些序列透過傳統的強化學習或現實世界的遙控操作難以獲得。為解決這一問題,我們提出了ManipTrans,這是一種新穎的兩階段方法,用於在模擬環境中高效地將人類雙手技能轉移至靈巧機器人手上。ManipTrans首先預訓練一個通用軌跡模仿器來模仿手部動作,然後在互動約束下微調特定的殘差模組,從而實現複雜雙手任務的高效學習與精確執行。實驗表明,ManipTrans在成功率、逼真度和效率上均超越了現有最先進的方法。利用ManipTrans,我們將多個手物互動數據集轉移至機器人手上,創建了DexManipNet,這是一個大規模數據集,涵蓋了如筆帽蓋合和瓶蓋旋開等先前未探索的任務。DexManipNet包含3,300個機器人操控片段,且易於擴展,為靈巧手的策略訓練提供了便利,並支持實際應用的部署。
從模糊的多視角圖像重建清晰的三維表徵一直是計算機視覺領域的長期難題。近期研究嘗試通過利用事件相機來提升從運動模糊中生成高質量新視角圖像的能力,這得益於其高動態範圍和微秒級的時間分辨率。然而,這些方法在恢復不準確的顏色或丟失細粒度細節方面往往表現欠佳。本文提出了DiET-GS,一種基於擴散先驗和事件流輔助的運動去模糊3D高斯散射(3DGS)框架。我們的框架在兩階段訓練策略中有效結合了無模糊的事件流和擴散先驗。具體而言,我們引入了一種新穎的框架,通過事件雙重積分來約束3DGS,從而實現準確的顏色和清晰的細節。此外,我們提出了一種簡單的技術,利用擴散先驗進一步增強邊緣細節。在合成數據和真實數據上的定性和定量結果表明,與現有的基線方法相比,我們的DiET-GS能夠生成顯著更高質量的新視角圖像。我們的項目頁面是https://diet-gs.github.io。
我們提出了一個統一框架,將物件檢測(OD)與視覺定位(VG)整合應用於遙感(RS)影像。為了支援傳統的OD任務並為VG任務建立直觀的先驗知識,我們利用參考表達數據對一個開放集物件檢測器進行微調,將其框架化為部分監督的OD任務。在第一階段,我們為每張影像構建圖形表示,包含物件查詢、類別嵌入和候選位置。接著,我們的任務感知架構處理此圖形以執行VG任務。該模型包含:(i) 一個多分支網絡,整合空間、視覺和類別特徵以生成任務感知的候選框,以及(ii) 一個物件推理網絡,為候選框分配概率,並通過軟選擇機制進行最終的參考物件定位。我們的模型在OPT-RSVG和DIOR-RSVG數據集上展現了卓越的性能,相較於現有最先進方法實現了顯著提升,同時保留了經典的OD能力。程式碼將公開於我們的儲存庫:https://github.com/rd20karim/MB-ORES。