每日精選AI研究論文及翻譯
儘管機器學習研究迅速發展,相應的代碼實現往往難以獲取,這使得研究人員在重現結果和基於前人工作進行構建時,過程緩慢且耗費大量人力。與此同時,近期的大型語言模型(LLMs)在理解科學文檔和生成高質量代碼方面表現卓越。受此啟發,我們推出了PaperCoder,這是一個多代理LLM框架,旨在將機器學習論文轉化為功能性的代碼庫。PaperCoder運作分為三個階段:規劃階段,構建高層次路線圖,設計系統架構並繪製圖表,識別文件依賴關係並生成配置文件;分析階段,專注於解讀實現細節;以及生成階段,產出模塊化、考慮依賴關係的代碼。此外,每個階段都通過一系列專門設計的代理來實現,這些代理在整個流程中高效協作。我們隨後基於模型評估和人工評估(特別是來自原始論文作者的評價),以作者發布的代碼庫作為基準(如果可用的話),對PaperCoder從機器學習論文生成代碼實現的能力進行了評估。我們的結果證明了PaperCoder在創建高質量、忠實的實現方面的有效性。此外,在最新發布的PaperBench基準測試中,PaperCoder持續展現優勢,以顯著優勢超越強勁的基線模型。
近年來,圖像編輯模型取得了顯著且迅速的發展。隨著GPT-4o和Gemini2 Flash等尖端多模態模型的推出,這些模型展現了極具前景的圖像編輯能力,能夠滿足絕大多數用戶驅動的編輯需求,標誌著圖像處理領域的重大進步。然而,開源算法與這些閉源模型之間仍存在巨大差距。因此,本文旨在發布一款名為Step1X-Edit的頂尖圖像編輯模型,其性能可與GPT-4o和Gemini2 Flash等閉源模型相媲美。具體而言,我們採用多模態大語言模型(Multimodal LLM)來處理參考圖像和用戶的編輯指令,提取潛在嵌入並將其與擴散圖像解碼器結合,以生成目標圖像。為訓練該模型,我們構建了一個數據生成管道,以生產高質量的數據集。在評估方面,我們開發了GEdit-Bench,這是一個基於真實用戶指令的新型基準測試。GEdit-Bench上的實驗結果表明,Step1X-Edit大幅超越了現有的開源基準模型,並接近領先的專有模型性能,從而為圖像編輯領域做出了重要貢獻。
主題驅動的文字到圖像(T2I)生成旨在產生與給定文字描述相符的圖像,同時保留參考主題圖像的視覺特徵。儘管其下游應用廣泛——從圖像生成中的增強個性化到視頻渲染中的一致角色表現——該領域的進展因缺乏可靠的自動評估而受限。現有方法要么僅評估任務的一個方面(即文字對齊或主題保留),要么與人類判斷不一致,要么依賴於成本高昂的基於API的評估。為解決這一問題,我們引入了RefVNLI,這是一種成本效益高的度量標準,能夠在單次預測中同時評估文字對齊和主題保留。RefVNLI基於從視頻推理基準和圖像擾動中提取的大規模數據集進行訓練,在多個基準和主題類別(例如,動物、物體)上超越或匹配現有基線,在文字對齊方面實現了高達6.4分的提升,在主題一致性方面實現了高達8.5分的提升。它還在處理較少為人知的概念時表現出色,與人類偏好的對齊準確率超過87%。
對比語言-圖像預訓練(CLIP)框架已成為多模態表示學習中廣泛採用的方法,尤其在圖像-文本檢索與聚類任務中表現突出。然而,其效能受到三個關鍵限制的制約:(1) 文本標記截斷,(2) 孤立的圖像-文本編碼,以及(3) 因詞袋行為導致的組合性不足。儘管近期的多模態大語言模型(MLLMs)在通用視覺-語言理解方面展現了顯著進步,但其在學習可遷移多模態表示方面的潛力仍未被充分探索。本研究提出了一種新穎的兩階段框架——通用多模態嵌入(UniME),該框架利用MLLMs來學習適用於多樣下游任務的判別性表示。在第一階段,我們從一個基於大語言模型的強大教師模型中進行文本判別性知識蒸餾,以增強MLLM語言組件的嵌入能力。第二階段,我們引入了硬負樣本增強的指令微調,進一步推進判別性表示學習。具體而言,我們首先減輕假負樣本的污染,隨後在每批次內為每個實例採樣多個硬負樣本,迫使模型聚焦於具有挑戰性的樣本。此方法不僅提升了判別力,還增強了下游任務中的指令遵循能力。我們在MMEB基準及多個檢索任務上進行了廣泛實驗,包括短長文本檢索與組合檢索。結果表明,UniME在所有任務上均實現了性能的持續提升,展現出卓越的判別性與組合能力。
我們提出了一個通過心理意象模擬實現視覺-語言模型(VLMs)中視角感知推理的框架。視角轉換,即從替代視角感知環境或情境的能力,是衡量人類級別視覺理解的關鍵基準,對於環境互動和與自主代理的協作至關重要。儘管VLMs在空間推理方面取得了進展,但最近的研究表明,現代VLMs顯著缺乏視角感知推理能力,並表現出強烈的自我中心解釋偏見。為了縮小VLMs與人類感知之間的差距,我們聚焦於心理意象的作用,即人類通過抽象表徵感知世界,從而促進視角轉換。基於此,我們提出了一個名為抽象視角轉換(Abstract Perspective Change, APC)的視角感知推理框架,該框架有效利用視覺基礎模型,如物體檢測、分割和方向估計,來構建場景抽象並實現視角轉換。我們在合成和真實圖像基準上的實驗,與各種VLMs相比,展示了我們框架在視角感知推理方面的顯著改進,進一步超越了微調的空間推理模型和基於新視角合成的方法。
隨著大規模3D數據集的出現,前饋式3D生成模型,如大型重建模型(LRM),已獲得顯著關注並取得了令人矚目的成功。然而,我們觀察到RGB圖像往往會導致訓練目標的衝突,並且缺乏幾何重建所需的清晰度。在本文中,我們重新審視了與網格重建相關的歸納偏置,並引入了DiMeR,這是一種新穎的解耦雙流前饋模型,用於稀疏視角下的網格重建。其核心思想是將輸入和框架解耦為幾何和紋理兩部分,從而根據奧卡姆剃刀原理降低每部分的訓練難度。鑑於法線圖與幾何嚴格一致並能準確捕捉表面變化,我們利用法線圖作為幾何分支的專屬輸入,以降低網絡輸入與輸出之間的複雜性。此外,我們改進了網格提取算法,引入了3D地面真值監督。至於紋理分支,我們使用RGB圖像作為輸入以獲取帶紋理的網格。總體而言,DiMeR在各種任務中展現出強大的能力,包括稀疏視角重建、單圖像到3D以及文本到3D。大量實驗表明,DiMeR顯著優於先前的方法,在GSO和OmniObject3D數據集上的Chamfer Distance提升了超過30%。
自回歸(AR)模型長期主導語言生成領域,現正逐漸應用於圖像合成,但通常被認為不如基於擴散(Diffusion)的模型具有競爭力。其主要限制在於AR模型需要大量的圖像標記,這制約了訓練和推理效率以及圖像分辨率。為解決這一問題,我們提出了Token-Shuffle,這是一種新穎而簡單的方法,可減少Transformer中的圖像標記數量。我們的關鍵洞察是多模態大語言模型(MLLMs)中視覺詞彙的維度冗餘,其中來自視覺編碼器的低維視覺代碼直接映射到高維語言詞彙。基於此,我們考慮了兩個關鍵操作:token-shuffle,沿通道維度合併空間局部標記以減少輸入標記數量;以及token-unshuffle,在Transformer塊後解開推斷出的標記以恢復輸出的空間排列。與文本提示聯合訓練,我們的策略無需額外的預訓練文本編碼器,並使MLLMs能夠以統一的下一標記預測方式支持極高分辨率的圖像合成,同時保持高效的訓練和推理。我們首次將AR文本到圖像生成的邊界推至2048x2048分辨率,並獲得了令人滿意的生成性能。在GenAI基準測試中,我們的2.7B模型在困難提示上獲得了0.77的總分,優於AR模型LlamaGen 0.18分,並領先擴散模型LDM 0.15分。全面的大規模人類評估也顯示了我們在文本對齊、視覺缺陷和視覺外觀方面的卓越圖像生成能力。我們希望Token-Shuffle能成為MLLMs中高效高分辨率圖像生成的基礎設計。
質量和多樣性是大型語言模型(LLMs)訓練數據的兩個關鍵指標,對模型性能有積極影響。現有研究通常分別優化這些指標,通常先進行質量過濾,然後調整數據比例。然而,這些方法忽略了質量和多樣性之間的固有權衡,需要將二者綜合考慮。在固定的訓練配額下,評估每個數據點的質量及其對整體數據集的互補效應至關重要。本文提出了一個名為QuaDMix的統一數據選擇框架,該框架在平衡質量和多樣性的同時,自動優化LLM預訓練的數據分佈。具體而言,我們首先提出了多個標準來衡量數據質量,並使用領域分類來區分數據點,從而衡量整體多樣性。QuaDMix隨後採用了一個統一的參數化數據採樣函數,該函數基於這些與質量和多樣性相關的標籤來確定每個數據點的採樣概率。為了加速QuaDMix框架中最佳參數的搜索,我們在較小模型上進行了模擬實驗,並受RegMix方法的啟發,使用LightGBM進行參數搜索。我們在多種模型和數據集上的實驗表明,QuaDMix在多個基準測試中平均提升了7.2%的性能。這些結果優於獨立優化質量和多樣性的策略,凸顯了平衡數據質量和多樣性的必要性和能力。
影片試衣技術旨在將影片中的服裝替換為目標衣物。現有方法在處理複雜的服裝圖案和多樣的體態姿勢時,難以生成高品質且時間上一致的結果。我們提出了3DV-TON,這是一個基於擴散模型的新框架,用於生成高保真且時間上一致的影片試衣效果。我們的方法採用生成的可動畫紋理3D網格作為顯式的幀級指導,從而緩解模型過於注重外觀保真度而犧牲動作連貫性的問題。這通過允許直接參考整個影片序列中一致的服裝紋理運動來實現。所提出的方法具有一個自適應的管道,用於生成動態3D指導:(1) 選擇一個關鍵幀進行初始的2D圖像試衣,隨後(2) 重建並動畫化一個與原始影片姿勢同步的紋理3D網格。我們進一步引入了一種穩健的矩形遮罩策略,成功減輕了在動態人體和服裝運動期間因服裝信息洩漏而導致的偽影傳播。為了推動影片試衣研究的發展,我們引入了HR-VVT,這是一個高解析度的基準數據集,包含130個影片,涵蓋多種服裝類型和場景。定量和定性結果顯示了我們相較於現有方法的優越性能。項目頁面鏈接如下:https://2y7c3.github.io/3DV-TON/
逐步驗證器——亦稱過程獎勵模型(PRMs)——是測試時擴展的關鍵要素。PRMs需要步驟級別的監督,這使得其訓練成本高昂。本研究旨在構建數據高效的PRMs,作為口語化的逐步獎勵模型,通過生成驗證思維鏈(CoT)來核實解決方案中的每一步。我們提出了ThinkPRM,這是一種長CoT驗證器,其微調所需的過程標籤數量遠少於判別式PRMs。我們的方法充分利用了長CoT模型固有的推理能力,在多個具有挑戰性的基準測試中,僅使用PRM800K中1%的過程標籤,便超越了LLM-as-a-Judge和判別式驗證器。具體而言,ThinkPRM在ProcessBench、MATH-500和AIME '24上,通過最佳N選擇和獎勵引導搜索,均優於基線模型。在GPQA-Diamond和LiveCodeBench子集上的跨域評估中,我們的PRM分別比使用完整PRM800K訓練的判別式驗證器高出8%和4.5%。最後,在相同的token預算下,ThinkPRM在驗證計算的擴展上比LLM-as-a-Judge更為有效,在ProcessBench子集上領先7.2%。我們的工作凸顯了生成式長CoT PRMs的價值,它們能夠在訓練時僅需極少監督的情況下,有效擴展測試時的驗證計算。我們的代碼、數據和模型將發佈於https://github.com/mukhal/thinkprm。
潛在擴散模型(LDMs)在高品質圖像生成領域佔據主導地位,然而將表徵學習與生成建模相結合仍是一大挑戰。我們提出了一種新穎的生成圖像建模框架,該框架通過利用擴散模型來聯合建模低級圖像潛在特徵(來自變分自編碼器)和高級語義特徵(來自預訓練的自監督編碼器如DINO),無縫地彌合了這一差距。我們的潛在語義擴散方法學會從純噪聲中生成連貫的圖像-特徵對,顯著提升了生成質量和訓練效率,同時僅需對標準擴散變壓器架構進行最小程度的修改。通過消除對複雜蒸餾目標的需求,我們的統一設計簡化了訓練,並解鎖了一種強大的新推理策略:表徵引導,該策略利用學習到的語義來引導和精煉圖像生成。在條件和非條件設置下進行評估,我們的方法在圖像質量和訓練收斂速度方面均取得了顯著提升,為表徵感知的生成建模開闢了新的方向。
我們提出了DyMU,這是一個高效且無需訓練的框架,能夠在保持高任務性能的同時,動態降低視覺-語言模型(VLMs)的計算負擔。我們的方法包含兩個關鍵組件。首先,動態令牌合併(DToMe)通過根據圖像複雜度合併相似的令牌來減少視覺令牌嵌入的數量,從而解決視覺變壓器中固定長度輸出的固有低效性。其次,虛擬令牌解合併(VTU)通過高效重建完整序列的注意力動態,模擬大型語言模型(LLMs)的預期令牌序列,從而無需額外微調即可保持下游性能。與以往方法不同,我們的方法根據圖像內容動態調整令牌壓縮,並且完全無需訓練,使其易於應用於大多數最先進的VLM架構。在圖像和視頻理解任務上的廣泛實驗表明,DyMU能夠將平均視覺令牌數量減少32%-85%,同時在多種VLM架構(包括最近流行的基於AnyRes的視覺編碼器)上實現與完整長度模型相當的性能。此外,通過定性分析,我們展示了DToMe能夠根據圖像複雜度有效調整令牌減少,並且與現有系統不同,為用戶提供了更多對計算成本的控制。項目頁面:https://mikewangwzhl.github.io/dymu/。
線上影音平台,尤其是直播服務的快速發展,催生了對即時影片理解系統的迫切需求。這些系統必須處理連續的影片串流,並即時回應使用者查詢,這對現有的影片大型語言模型(VideoLLMs)提出了獨特的挑戰。雖然現有的VideoLLMs在處理完整影片方面表現出色,但在串流場景中卻面臨顯著限制,主要是因為它們無法有效處理密集且冗餘的影格。我們推出了TimeChat-Online,這是一款革命性的線上VideoLLM,旨在革新即時影片互動。其核心是我們創新的差分令牌丟棄(DTD)模組,該模組解決了串流影片中視覺冗餘的根本挑戰。DTD從人類視覺感知的「變化盲視」現象中汲取靈感,保留了有意義的時間變化,同時過濾掉影格之間的靜態冗餘內容。值得注意的是,我們的實驗表明,DTD在StreamingBench上實現了82.8%的影片令牌減少,同時保持了98%的性能,這揭示了串流影片中超過80%的視覺內容在無需語言指導的情況下自然冗餘。為了實現無縫的即時互動,我們推出了TimeChat-Online-139K,這是一個全面的串流影片數據集,涵蓋了多種互動模式,包括回溯、當前感知和未來回應場景。TimeChat-Online獨有的主動回應能力,通過DTD持續監控影片場景轉換自然實現,使其與傳統方法區分開來。我們廣泛的評估顯示,TimeChat-Online在串流基準測試(StreamingBench和OvOBench)上表現優異,並在長影片任務(如Video-MME和MLVU)上保持了競爭力的結果。
大型語言模型(LLMs)的全面評估仍然具有挑戰性,尤其是對於英語以外的語言,這些語言的高質量數據往往有限。現有的基準測試和排行榜主要集中於英語,僅有少數涉及其他語言。這些基準測試在幾個關鍵領域存在不足:它們忽視了語言多樣性,優先考慮基礎的自然語言處理(NLP)能力而非工業相關任務,並且是靜態的。基於這些考量,我們提出了IberBench,這是一個全面且可擴展的基準測試,旨在評估LLMs在伊比利亞半島和伊比利亞美洲地區使用的語言中,對基礎和工業相關NLP任務的表現。IberBench整合了來自評估活動和近期基準測試的101個數據集,涵蓋了22個任務類別,如情感和情緒分析、毒性檢測和摘要生成。該基準測試解決了當前評估實踐中的關鍵限制,例如缺乏語言多樣性和靜態評估設置,通過支持持續更新和由專家委員會審核的社區驅動模型和數據集提交。我們評估了從1億到140億參數的23個LLMs,並提供了對其優勢和局限性的實證洞察。我們的研究結果表明:(i)LLMs在工業相關任務上的表現不如基礎任務,(ii)加利西亞語和巴斯克語的平均表現較低,(iii)某些任務的結果接近隨機,(iv)在其他任務中,LLMs的表現高於隨機但低於共享任務系統。IberBench提供了整個評估流程的開源實現,包括數據集規範化和托管、LLMs的增量評估以及一個公開可訪問的排行榜。
我們介紹了ViSMap:基於元提示的無監督視頻摘要系統,這是一個能夠在無監督情況下對長達一小時的視頻進行摘要的系統。現有的大多數視頻理解模型在處理預先分割的短視頻事件時表現良好,但在處理相關事件稀疏分佈且未經預先分割的長視頻時卻顯得力不從心。此外,長視頻理解通常依賴於需要大量註釋的監督式分層訓練,這些註釋成本高、耗時長且容易出現不一致性。通過ViSMaP,我們彌補了短視頻(註釋數據豐富)與長視頻(註釋數據匱乏)之間的差距。我們利用大型語言模型(LLMs)基於短視頻片段描述生成長視頻的優化偽摘要。這些偽摘要被用作訓練數據,用於生成長視頻摘要的模型,從而繞過了對長視頻進行昂貴註釋的需求。具體來說,我們採用了一種元提示策略,迭代生成並優化長視頻的偽摘要。該策略利用從監督式短視頻模型中獲得的短片段描述來指導摘要的生成。每次迭代都依次使用三個LLMs:一個用於根據片段描述生成偽摘要,另一個用於評估該摘要,第三個則用於優化生成器的提示。這種迭代是必要的,因為偽摘要的質量高度依賴於生成器的提示,並且在不同視頻之間差異很大。我們在多個數據集上對我們的摘要進行了廣泛評估;結果表明,ViSMaP在跨領域泛化且不犧牲性能的情況下,達到了與全監督最先進模型相當的性能。代碼將在論文發表後公開。
基於自迴歸的圖像塊生成方法近期在圖像質量和可擴展性方面展現了競爭力。它也能夠輕鬆地集成並擴展到視覺-語言模型中。然而,自迴歸模型需要為圖像塊生成定義一個順序。雖然基於文字順序的自然排列對於文本生成是合理的,但圖像生成並不存在固有的生成順序。傳統上,自迴歸圖像生成模型遵循光柵掃描順序(從左上到右下)。本文中,我們認為這種順序並非最優,因為它未能尊重圖像內容的因果關係:例如,當基於日落的視覺描述進行條件生成時,自迴歸模型可能會在生成太陽之前生成雲朵,儘管雲朵的顏色應取決於太陽的顏色而非相反。在本研究中,我們首先通過訓練一個模型以任意給定順序生成圖像塊,從而能在生成過程中推斷每個圖像塊的內容和位置(順序)。其次,我們利用這些提取的順序對任意順序生成模型進行微調,以產生更高質量的圖像。通過實驗,我們在兩個數據集上證明了這種新的生成方法相比傳統的光柵掃描方法能生成更好的圖像,且訓練成本相似,無需額外標註。
在大規模動態網路影片中標註相機姿態,對於推動如真實感影片生成和模擬等領域的發展至關重要。然而,收集這樣的數據集相當困難,因為大多數網路影片並不適合進行姿態估計。此外,即使是對於最先進的方法而言,標註動態網路影片也面臨著重大挑戰。本文中,我們介紹了DynPose-100K,這是一個大規模的動態網路影片數據集,其中標註了相機姿態。我們的收集流程通過精心結合特定任務模型和通用模型來解決篩選問題。在姿態估計方面,我們融合了點追蹤、動態遮罩和從運動恢復結構等最新技術,實現了對現有最先進方法的改進。我們的分析和實驗表明,DynPose-100K在多個關鍵屬性上既具備大規模性又展現出多樣性,為各種下游應用的進步開闢了新途徑。
降維技術是分析和可視化高維數據的基礎。現有方法如t-SNE和PCA在表徵能力與可解釋性之間存在權衡。本文提出了一種新穎的方法,通過結合線性方法的可解釋性和非線性變換的表達力來彌合這一差距。所提出的算法通過一系列由高斯函數加權的線性變換,構建了高維與低維空間之間的非線性映射。這種架構在實現複雜非線性變換的同時,保留了線性方法的可解釋性優勢,因為每個變換都可以獨立分析。最終模型既提供了強大的降維能力,又對變換後的空間提供了透明的洞察。本文還介紹了解釋學習到的變換的技術,包括識別被抑制的維度以及空間如何擴展和收縮的方法。這些工具使實踐者能夠理解算法在降維過程中如何保留和修改幾何關係。為了確保該算法的實用性,本文強調了開發用戶友好軟件包的重要性,以促進其在學術界和工業界的應用。