每日精選AI研究論文及翻譯
為了在複雜環境中生存並茁壯成長,人類已演化出精密的自我提升機制,這些機制包括環境探索、將經驗分層抽象化為可重複使用的技能,以及協作構建不斷增長的技能庫。儘管近期取得了進展,自主網絡代理仍缺乏關鍵的自我提升能力,在程序性知識的抽象、技能的精煉及技能組合方面面臨挑戰。在本研究中,我們引入了SkillWeaver,這是一個以技能為中心的框架,使代理能夠通過自主合成可重複使用的API來實現自我提升。面對新網站時,代理自主發現技能,執行這些技能進行練習,並將練習經驗提煉成穩健的API。通過迭代探索,不斷擴展輕量級、即插即用的API庫,顯著增強了代理的能力。在WebArena和真實世界網站上的實驗證明了SkillWeaver的有效性,分別實現了31.8%和39.8%的相對成功率提升。此外,由強大代理合成的API通過可轉移技能大幅提升了較弱代理的能力,在WebArena上最高提升了54.3%。這些結果表明,將多樣化的網站互動精煉成API並在不同網絡代理間無縫共享,具有顯著的成效。
擴散變換器展現了卓越的生成質量,儘管需要更長的訓練迭代次數和多次推理步驟。在每個去噪步驟中,擴散變換器對含噪輸入進行編碼以提取低頻語義成分,然後使用相同的模塊解碼高頻成分。這種方案造成了一個固有的優化困境:編碼低頻語義需要減少高頻成分,這在語義編碼與高頻解碼之間產生了張力。為解決這一挑戰,我們提出了一種新的\color{ddtD}解耦\color{ddtD}擴散\color{ddtT}變換器~(\color{ddtDDT}),其設計解耦了專門用於語義提取的條件編碼器和專用的速度解碼器。我們的實驗表明,隨著模型規模的增大,更強大的編碼器能帶來性能提升。對於ImageNet 256×256,我們的DDT-XL/2達到了新的最先進性能,FID為1.31(與之前的擴散變換器相比,訓練收斂速度幾乎快了4倍)。對於ImageNet 512×512,我們的DDT-XL/2達到了新的最先進FID,為1.28。此外,作為一個有益的副產品,我們的解耦架構通過在相鄰去噪步驟之間共享自條件,提高了推理速度。為了最小化性能下降,我們提出了一種新穎的統計動態規劃方法來識別最佳共享策略。
我們推出OLMoTrace,這是首個能夠即時追蹤語言模型輸出至其完整、多兆詞元訓練數據的系統。OLMoTrace能夠發現並展示語言模型輸出片段與訓練文本語料庫中文件之間的字面匹配。借助於infini-gram(Liu等人,2024)的擴展版本,我們的系統能在幾秒內返回追蹤結果。OLMoTrace有助於用戶透過其訓練數據的視角來理解語言模型的行為。我們展示了如何利用它來探索事實核查、幻覺以及語言模型的創造性。OLMoTrace已公開並完全開源。
我們發現,無論是通過強化學習還是監督學習訓練的推理大語言模型(LLMs),在面對前提缺失(MiP)的不適定問題時,其回應長度會急劇增加,最終產生冗長且無效的思考。這一新引入的情境在很大程度上加劇了普遍的過度思考問題,我們稱之為MiP-過度思考。此類失敗違背了「測試時縮放定律」,但在我們精心構建的多個MiP數據集上廣泛觀察到,揭示了廉價過度思考的危害以及批判性思維的缺乏。令人驚訝的是,未專門針對推理進行訓練的LLMs在MiP情境下表現得更好,生成的回應更短,能迅速識別不適定的查詢。這暗示了當前推理LLMs訓練方案的一個關鍵缺陷,即未能充分鼓勵高效思考,導致思維模式的濫用。為了深入探究這些失敗背後的原因,我們對不同類型LLMs的推理長度、過度思考模式及關鍵思維的位置進行了細緻分析。此外,我們擴展的消融研究表明,過度思考通過推理模型回應的蒸餾具有傳染性。這些結果增進了對過度思考的理解,並為緩解該問題提供了新的見解。
從單張靜態肖像創建逼真且可動畫化的虛擬形象仍具挑戰性。現有方法往往難以捕捉細微的面部表情、相應的全身動作以及動態背景。為解決這些限制,我們提出了一種新穎框架,該框架利用預訓練的視頻擴散變換器模型來生成高保真、連貫且運動動態可控的說話肖像。我們工作的核心是一個雙階段的視聽對齊策略。在第一階段,我們採用片段級別的訓練方案,通過對齊整個場景(包括參考肖像、上下文對象和背景)中的音頻驅動動態,來建立連貫的全局運動。在第二階段,我們使用唇部追踪掩碼在幀級別上精細化唇部動作,確保與音頻信號的精確同步。為了在不犧牲運動靈活性的前提下保持身份一致性,我們用一個專注於面部的交叉注意力模塊取代了常用的參考網絡,該模塊有效保持了視頻中面部的一致性。此外,我們集成了一個運動強度調製模塊,該模塊顯式控制表情和身體運動的強度,從而實現對肖像運動(不僅僅是唇部運動)的可控操作。大量實驗結果表明,我們提出的方法在質量、真實感、連貫性、運動強度和身份保持方面均取得了更好的效果。我們的項目頁面:https://fantasy-amap.github.io/fantasy-talking/。
條件式圖像生成因其能夠個性化內容而受到廣泛關注。然而,該領域在開發任務無關、可靠且可解釋的評估指標方面面臨挑戰。本文介紹了CIGEval,這是一個用於全面評估條件式圖像生成任務的統一代理框架。CIGEval以大型多模態模型(LMMs)為核心,整合了多功能工具箱,並建立了一個細粒度的評估框架。此外,我們合成了用於微調的評估軌跡,使較小的LMMs能夠自主選擇合適的工具,並基於工具輸出進行細緻的分析。在七個主要條件式圖像生成任務上的實驗表明,CIGEval(GPT-4o版本)與人類評估的相關性高達0.4625,與評分者間的相關性0.47非常接近。此外,當使用僅2.3K訓練軌跡的7B開源LMMs實現時,CIGEval超越了之前基於GPT-4o的最先進方法。針對GPT-4o圖像生成的案例研究突顯了CIGEval在識別主體一致性和控制指導遵循方面的細微問題的能力,顯示其在自動化圖像生成任務評估中具有與人類可靠性相當的巨大潛力。
攝影機軌跡設計在影片製作中扮演著至關重要的角色,它是傳達導演意圖和增強視覺敘事的基本工具。在電影攝影中,攝影指導精心設計攝影機運動,以實現富有表現力和意圖明確的構圖。然而,現有的攝影機軌跡生成方法仍存在侷限性:傳統方法依賴於幾何優化或手工製作的程序系統,而最近的基於學習的方法往往繼承了結構偏見或缺乏文本對齊,限制了創意合成。在本研究中,我們引入了一種受攝影指導專業知識啟發的自迴歸模型,用於生成藝術且富有表現力的攝影機軌跡。我們首先介紹了DataDoP,這是一個大規模多模態數據集,包含29,000個真實世界的鏡頭,具有自由移動的攝影機軌跡、深度圖以及詳細的運動描述、場景互動和導演意圖。得益於這一全面且多樣化的數據庫,我們進一步訓練了一個僅解碼器的自迴歸Transformer,基於文本指導和RGBD輸入生成高質量、上下文感知的攝影機運動,命名為GenDoP。大量實驗表明,與現有方法相比,GenDoP提供了更好的可控性、更細粒度的軌跡調整以及更高的運動穩定性。我們相信,我們的方法為基於學習的電影攝影設立了新標準,為未來攝影機控制和電影製作的進步鋪平了道路。我們的項目網站:https://kszpxxzmc.github.io/GenDoP/。
推理已成为语言模型(LMs)的下一个重要前沿领域,学术界与工业界实验室均取得了快速进展。然而,这一进展往往超越了方法论的严谨性,许多评估依赖于缺乏透明度、鲁棒性或统计基础的基准测试实践。在本研究中,我们开展了一项全面的实证研究,发现当前的数学推理基准对微妙的实现选择高度敏感——包括解码参数、随机种子、提示格式,甚至硬件和软件框架配置。近期研究中报告的性能提升常常依赖于不明确的比较或未报告的变异来源。为解决这些问题,我们提出了一个标准化的评估框架,其中包含明确定义的最佳实践和报告标准。利用该框架,我们重新评估了近期的方法,发现强化学习(RL)方法仅带来有限的改进——远低于先前的声称——并且容易过拟合,尤其是在像AIME24这样的小规模基准上。相比之下,监督微调(SFT)方法展现出更为一致的泛化能力。为促进可复现性,我们公开了所有代码、提示和模型输出,为推理基准建立了更为严格的基础,为未来工作铺平道路。
我們提出OmniCaptioner,這是一個多功能的視覺描述框架,旨在生成跨多種視覺領域的細粒度文本描述。與以往僅限於特定圖像類型(如自然圖像或幾何視覺)的方法不同,我們的框架提供了一個統一的解決方案,適用於自然圖像、視覺文本(如海報、用戶界面、教科書)以及結構化視覺(如文檔、表格、圖表)的描述。通過將低層次的像素信息轉換為語義豐富的文本表示,我們的框架彌合了視覺與文本模態之間的差距。我們的結果凸顯了三個關鍵優勢:(i)增強了大型語言模型(LLMs)的視覺推理能力,其中視覺模態的長上下文描述特別有助於DeepSeek-R1系列在多模態場景中的有效推理;(ii)提升了圖像生成質量,詳細的描述改善了文本到圖像生成及圖像轉換等任務;(iii)實現了高效的監督微調(SFT),使得在更少數據的情況下更快收斂。我們相信OmniCaptioner的多功能性和適應性,能為彌合語言與視覺模態之間的差距提供新的視角。
儘管測試時推理使語言模型能夠處理複雜任務,但在自然語言中進行搜索或規劃可能既緩慢、成本高昂又容易出錯。然而,即使語言模型難以精確模擬解決問題所需的推理步驟,它們通常擅長描述問題的抽象結構——包括如何驗證解決方案以及如何搜索這些方案。本文介紹了DisCIPL,一種“自我引導”語言模型的方法,其中規劃模型生成特定任務的推理程序,並由一組跟隨模型執行。我們的方法賦予語言模型編寫遞歸搜索程序的能力,這些程序指導語言模型的推理,從而實現了新的可驗證且高效的推理形式。當使用小型跟隨模型(例如Llama-3.2-1B)實例化時,DisCIPL在具有挑戰性的約束生成任務上與(有時甚至超越)包括GPT-4o和o1在內的更大模型相媲美。通過將規劃與執行分離,我們的工作開闢了一個高度並行化的蒙特卡洛推理策略設計空間,這些策略優於標準的N選一採樣,無需微調,並且可以由現有的語言模型自動實現。
我們提出了CAT-V(視頻中任意物體字幕生成),這是一個無需訓練的框架,專注於細粒度、以物體為中心的視頻字幕生成,能夠對用戶選定的物體進行跨時間的詳細描述。CAT-V整合了三個關鍵組件:基於SAMURAI的分割器,用於跨幀的精確物體分割;由TRACE-Uni驅動的時間分析器,用於準確的事件邊界檢測和時間分析;以及使用InternVL-2.5的字幕生成器,用於生成詳細的物體中心描述。通過時空視覺提示和思維鏈推理,我們的框架能夠生成詳細、具有時間感知的物體屬性、動作、狀態、互動及環境背景描述,而無需額外的訓練數據。CAT-V支持通過多種視覺提示(點、邊界框和不規則區域)進行靈活的用戶交互,並通過追蹤不同時間段內物體狀態和互動來保持時間敏感性。我們的方法解決了現有視頻字幕生成方法的局限性,這些方法要么生成過於抽象的描述,要么缺乏物體層面的精確性,從而實現了細粒度、特定物體的描述,同時保持了時間連貫性和空間準確性。本項目的GitHub倉庫地址為https://github.com/yunlong10/CAT-V。
近期強化學習的進展顯著提升了多模態大型語言模型(MLLMs)的推理能力。雖然群組相對策略優化(GRPO)和基於規則的獎勵機制在文本和圖像領域展現出潛力,但它們在視頻理解中的應用仍有限。本文系統地探討了將GRPO應用於視頻MLLMs的強化微調(RFT),旨在增強時空感知能力,同時保持模型的通用能力。我們的實驗表明,RFT在特定任務改進上具有極高的數據效率。通過在有限樣本上進行時空感知目標的多任務RFT,我們開發了VideoChat-R1,這是一個強大的視頻MLLM,在時空感知任務上達到了最先進的性能,且未犧牲聊天能力,同時展現出新興的時空推理能力。與Qwen2.5-VL-7B相比,VideoChat-R1在時間定位(+31.8)和目標跟踪(+31.2)等任務中的性能提升了數倍。此外,它在通用問答基準測試如VideoMME(+0.9)、MVBench(+1.0)和Perception Test(+0.9)上也有顯著提升。我們的研究結果強調了RFT在視頻MLLMs專項任務增強中的潛力。我們希望這項工作能為未來視頻MLLMs的強化學習研究提供寶貴的見解。
在長時間互動中生成自然且細膩的聆聽者動作仍是一個未解的難題。現有方法通常依賴於低維運動編碼來生成面部行為,再進行逼真渲染,這既限制了視覺逼真度,也制約了表達的豐富性。為應對這些挑戰,我們引入了基於多模態條件視頻擴散模型的DiTaiListener。我們的方法首先利用DiTaiListener-Gen,根據說話者的語音和面部動作生成短暫的聆聽者回應片段,隨後通過DiTaiListener-Edit精修過渡幀,以實現無縫轉換。具體而言,DiTaiListener-Gen通過引入因果時序多模態適配器(CTM-Adapter)來處理說話者的聽覺和視覺線索,從而將擴散變換器(DiT)應用於聆聽者頭像生成任務。CTM-Adapter以因果方式將說話者的輸入整合到視頻生成過程中,確保聆聽者回應的時間一致性。對於長視頻生成,我們引入了DiTaiListener-Edit,這是一個過渡精修的視頻到視頻擴散模型。該模型將視頻片段融合成流暢連續的視頻,確保在合併由DiTaiListener-Gen生成的短視頻片段時,面部表情和圖像質量的時間一致性。定量分析顯示,DiTaiListener在基準數據集上於逼真度(RealTalk上FID提升73.8%)和動作表現(VICO上FD指標提升6.1%)兩個方面均達到了業界領先水平。用戶研究進一步證實了DiTaiListener的卓越性能,該模型在反饋、多樣性和流暢性方面均顯著優於競爭對手,成為用戶的明確首選。
我們提出了WildGS-SLAM,這是一個專為處理動態環境而設計的魯棒且高效的單目RGB SLAM系統,其核心在於利用不確定性感知的幾何映射。與傳統假設場景靜止的SLAM系統不同,我們的方法整合了深度和不確定性信息,以提升在移動物體存在時的追蹤、映射和渲染性能。我們引入了一種由淺層多層感知器和DINOv2特徵預測的不確定性地圖,用於在追蹤和映射過程中指導動態物體的移除。這種不確定性地圖增強了密集束調整和高斯地圖優化,從而提高了重建的準確性。我們在多個數據集上對該系統進行了評估,並展示了無偽影的視圖合成效果。結果表明,WildGS-SLAM在動態環境中的性能優於當前最先進的方法。
自監督學習已徹底改變了二維計算機視覺領域,它使模型能夠在大量未標註數據集上進行訓練,從而提供多功能的現成特徵,其表現與使用標籤訓練的模型相當。然而,在三維場景理解中,自監督方法通常僅作為任務特定微調的權重初始化步驟,這限制了它們在通用特徵提取中的效用。本文針對這一不足,提出了一種專門設計的穩健評估協議,用於評估自監督特徵在三維場景理解中的質量。我們的協議利用分層模型的多分辨率特徵採樣,創建豐富的點級表示,這些表示捕捉了模型的語義能力,因此適合使用線性探測和最近鄰方法進行評估。此外,我們引入了首個自監督模型,在僅使用現成特徵的線性探測設置中,其表現與監督模型相當。特別是,我們的模型在三維中進行原生訓練,採用了一種基於掩碼場景建模目標的新穎自監督方法,該方法以自下而上的方式重建掩碼補丁的深度特徵,並專門針對分層三維模型進行了定制。我們的實驗不僅展示了我們的方法在性能上與監督模型競爭,而且還大幅超越了現有的自監督方法。模型和訓練代碼可在我們的Github倉庫中找到(https://github.com/phermosilla/msm)。
物件中心學習(Object-centric learning, OCL)旨在學習僅編碼單一物件的表徵,將其與場景中的其他物件或背景線索隔離。此方法支撐了多種目標,包括分佈外(out-of-distribution, OOD)泛化、樣本高效組合以及結構化環境的建模。多數研究聚焦於開發無監督機制,將物件分離至表徵空間中的離散槽位,並透過無監督物件發現進行評估。然而,隨著近期樣本高效分割模型的出現,我們能在像素空間中分離物件並獨立編碼它們。這在OOD物件發現基準測試中實現了顯著的零樣本性能,可擴展至基礎模型,並能開箱即用地處理可變數量的槽位。因此,OCL方法獲取物件中心表徵的目標已大體達成。儘管取得進展,一個關鍵問題依然存在:在場景中分離物件的能力如何貢獻於更廣泛的OCL目標,如OOD泛化?我們透過OCL的視角探討由虛假背景線索引起的OOD泛化挑戰來回答此問題。我們提出了一種名為「應用遮罩的物件中心分類」(Object-Centric Classification with Applied Masks, OCCAM)的新穎、無需訓練的探針,證明基於分割的單一物件編碼顯著優於基於槽位的OCL方法。然而,實際應用中的挑戰依然存在。我們為OCL社群提供了使用可擴展物件中心表徵的工具箱,並聚焦於實際應用與基礎問題,如理解人類認知中的物件感知。我們的程式碼可在https://github.com/AlexanderRubinstein/OCCAM{此處}獲取。
大型語言模型(LLMs)已展現出作為科學發現工具的潛力,這引發了人們對其在人文學科中應用的日益關注,例如歷史語言學和文學研究。這些領域通常基於文類或更為嚴格的時間段劃分來構建論點。儘管已通過微調或模型編輯等方法努力將推理限制在特定領域,但我們認為,唯一真正的保證是領域限制的預訓練——這通常是一項數據和計算成本高昂的提議。 我們展示了高效的預訓練技術能夠在規模過大難以手動檢查但對「典型」LLM方法來說又過小的語料庫上生成有用的模型。我們採用了一種新穎的日期歸因流程,以獲取一個按時間分段、包含五個1000萬詞片段的數據集。我們在這些語料片段上訓練了兩組對應的五模型系列,分別採用高效預訓練和Llama3-8B參數的高效微調。 我們發現,預訓練模型比微調基線模型訓練速度更快,並且更能尊重我們語料的歷史劃分。強調速度和精確性而非非歷史的全面性,使得在我們目標領域中能夠採用多種新穎的假設發現和測試方法。以歷時語言學作為測試平台,我們展示了我們的方法能夠檢測到多種現象,包括大規模詞彙變化、非詞彙(語法和形態)變化以及詞義引入/淘汰。我們提供了一個即用型流程,只需最小程度的適應即可將我們的方法擴展到其他目標領域。
從單一視角感知中實現對各種物體的穩健抓取是靈巧機器人的基礎能力。以往的研究通常依賴於完全可觀測的物體、專家示範或靜態抓取姿態,這些限制限制了其泛化能力和對外部干擾的適應性。本文提出了一種基於強化學習的框架,該框架能夠從單一視角感知中實現對多種未見物體的零樣本動態靈巧抓取,同時執行適應外部干擾的動作。我們採用了一種以手為中心的物體表示方法來提取形狀特徵,該方法強調與交互相關的局部形狀,從而增強了對形狀變化和不確定性的魯棒性。為了使手在有限觀測條件下有效適應干擾,我們提出了一種混合課程學習策略,該策略首先利用模仿學習來提煉一個基於特權實時視覺-觸覺反饋訓練的策略,然後逐步轉向強化學習,以在觀測噪聲和動態隨機化引起的干擾下學習適應性動作。我們的實驗展示了在隨機姿態下抓取未見物體的強大泛化能力,在247,786個模擬物體上達到了97.0%的成功率,在512個真實物體上達到了94.6%的成功率。我們還通過定量和定性評估,展示了我們方法對各種干擾(包括未觀測到的物體移動和外部力)的魯棒性。項目頁面:https://zdchan.github.io/Robust_DexGrasp/
本文介紹了從俄語新聞文本中提取結構化觀點的對話評估共享任務。該競賽的任務是針對給定句子提取觀點元組;這些元組由情感持有者、其目標、表達方式以及持有者對目標的情感組成。總計,該任務收到了超過100份提交。參與者主要嘗試了在零樣本、少樣本和微調格式下使用大型語言模型。在測試集上取得的最佳結果是通過微調一個大型語言模型獲得的。我們還比較了30種提示和11個開源語言模型,這些模型的參數規模在3到320億之間,在1樣本和10樣本設置下進行了測試,並找出了最佳模型和提示。
在生成受某些約束的語言模型時,主導方法是局部約束解碼(LCD),即在每個時間步逐步採樣詞元,確保約束從未被違反。通常,這通過詞元遮罩實現:遍歷詞彙表並排除不符合條件的詞元。這種方法存在兩個重要問題:(i) 對每個詞元評估約束可能成本過高——語言模型的詞彙表通常超過100,000個詞元。(ii) LCD可能扭曲字符串的全局分佈,僅基於局部信息採樣詞元,即使這些詞元可能導致死胡同。本研究引入了一種新算法,解決了這兩個問題。首先,為了避免在生成的每一步對完整詞彙表進行約束評估,我們提出了一種自適應拒絕採樣算法,通常需要數量級更少的約束評估。其次,我們展示了如何以極小的額外成本擴展該算法,以生成低方差、無偏的重要性權重估計——這些估計可以安全地用於先前提出的序列蒙特卡羅算法中,以糾正局部約束執行的短視行為。通過在文本到SQL、分子合成、目標推斷、模式匹配和JSON領域的廣泛實證評估,我們展示了我們的方法優於最先進的基線,支持更廣泛的約束類別,並提高了運行時性能和效果。額外的理論和實證分析表明,我們方法的運行時效率得益於其動態計算使用,隨著無約束和約束語言模型之間的差異而擴展,因此,對於更好的模型,運行時改進更為顯著。