每日精選AI研究論文及翻譯
相較於圖像-文字配對數據,交錯語料庫使視覺語言模型(VLM)能更自然地理解世界,就像人類一樣。然而,這些現有數據集是從網頁爬取的,面臨著知識密度低、圖像與文字關係鬆散以及圖像之間邏輯連貫性差等挑戰。另一方面,互聯網上有大量的教學視頻(例如,在線幾何課程),被人們廣泛用於學習基礎科目,然而這些寶貴資源在VLM訓練中尚未得到充分利用。本文介紹了一個高質量的多模態教科書語料庫,為VLM預訓練提供更豐富的基礎知識。它收集了超過2.5年的教學視頻,總計22,000課時。我們首先使用LLM提出的分類法系統地收集教學視頻。然後,我們逐步從視頻中提取和精煉視覺(關鍵幀)、音頻(ASR)和文本知識(OCR),並根據時間順序組織成一個基於圖像和文字交錯的語料庫。與同類產品相比,我們以視頻為中心的教科書提供了更一致的上下文、更豐富的知識和更好的圖像-文字對齊。實驗證明了其出色的預訓練性能,特別是在知識和推理密集型任務(如ScienceQA和MathVista)中。此外,在我們的教科書上預先訓練的VLM表現出優秀的交錯上下文意識,利用視覺和文本線索在少量樣本上下文中解決任務。我們的代碼可在\url{https://github.com/DAMO-NLP-SG/multimodal_textbook}找到。
儘管在影片生成方面取得了顯著進展,將特定物件插入影片仍然是一項具有挑戰性的任務。困難在於同時保留參考物件的外觀細節並準確建模一致的運動。本文提出了VideoAnydoor,一種零樣本影片物件插入框架,具有高保真度的細節保留和精確的運動控制。從文本到影片模型開始,我們利用ID提取器注入全局身份,並利用方框序列控制整體運動。為了保留詳細的外觀,同時支持精細的運動控制,我們設計了像素變形器。它以任意關鍵點的參考影像和相應的關鍵點軌跡作為輸入。根據軌跡扭曲像素細節,並將扭曲的特徵與擴散 U-Net 融合,從而提高細節保留並支持用戶操控運動軌跡。此外,我們提出了一種訓練策略,涉及影片和靜態影像,並使用重新加權重建損失來增強插入質量。VideoAnydoor顯示出明顯優於現有方法的優勢,並自然支持各種下游應用(例如生成談話頭像,影片虛擬試穿,多區域編輯),而無需特定任務的微調。
隨著現有大型語言模型(LLMs)在程式碼推理能力上的不斷提升,以及像 OpenAI o1 和 o3 這樣的推理模型的突破,迫切需要開發更具挑戰性和全面性的基準,以有效測試它們複雜的競賽級編碼能力。現有的基準,如 LiveCodeBench 和 USACO,由於私有測試案例不可用、不支援特殊評分標準以及執行環境不一致,存在不足之處。為彌補這一差距,我們引入了 CodeElo,這是一個標準化的競賽級程式碼生成基準,首次有效應對了所有這些挑戰。CodeElo 基準主要基於官方 CodeForces 平台,並盡可能與該平台保持一致。我們彙編了 CodeForces 最近六個月的比賽問題,包括比賽組別、問題難度評分和問題算法標籤等詳細信息。我們引入了一種獨特的評分方法,其中問題直接提交到平台上,並開發了一個可靠的 Elo 評分計算系統,與平台保持一致,並可與人類參與者進行比較,但變異性較低。通過在我們的 CodeElo 上進行測試,我們首次提供了 30 個現有熱門開源和 3 個專有 LLM 的 Elo 評分。結果顯示,o1-mini 和 QwQ-32B-Preview 顯著突出,分別達到 1578 和 1261 的 Elo 評分,而其他模型即使在最簡單的問題上也表現不佳,在所有人類參與者中排名最低的 20%。還進行了詳細的分析實驗,以提供跨算法性能和使用 C++ 和 Python 之間的比較,這可以為未來研究提供方向。
最近,視頻大型語言模型(Video LLMs)展示了在一般視頻理解方面的卓越能力。然而,它們主要專注於整體理解,並且在捕捉細粒度空間和時間細節方面遇到困難。此外,缺乏高質量的物體級視頻指導數據和全面的基準進一步阻礙了它們的發展。為應對這些挑戰,我們引入了VideoRefer Suite,以增強Video LLM對更細緻的空間-時間視頻理解,即實現對整個視頻中任何物體的感知和推理。特別是,我們從三個基本方面全面發展了VideoRefer Suite:數據集、模型和基準。首先,我們引入了一個多智能體數據引擎,精心策劃了一個大規模、高質量的物體級視頻指導數據集,稱為VideoRefer-700K。接下來,我們提出了VideoRefer模型,它配備了一個多功能的空間-時間物體編碼器,以捕捉精確的區域和序列表示。最後,我們精心創建了一個VideoRefer-Bench,全面評估Video LLM的空間-時間理解能力,跨多個方面進行評估。廣泛的實驗和分析表明,我們的VideoRefer模型不僅在視頻參考基準上取得了令人期待的表現,還促進了一般視頻理解能力。
我們介紹了 LTX-Video,一種基於 Transformer 的潛在擴散模型,通過無縫整合 Video-VAE 和去噪 Transformer 的功能,採用了一種全面的方法來生成視頻。與現有方法不同,這些方法將這些組件視為獨立的,LTX-Video 的目標是優化它們的互動,以提高效率和質量。其核心是一個精心設計的 Video-VAE,實現了高壓縮比為1:192,每個 token 的空時降解為32 x 32 x 8 像素,通過將分塊操作從 Transformer 的輸入轉移到 VAE 的輸入實現。在這個高度壓縮的潛在空間中運行,使 Transformer 能夠有效執行完整的空時自注意力,這對於生成具有時間一致性的高分辨率視頻至關重要。然而,高壓縮固有地限制了對細節的表示。為了解決這個問題,我們的 VAE 解碼器負責潛在到像素的轉換和最終的去噪步驟,直接在像素空間中產生乾淨的結果。這種方法保留了生成細節的能力,而無需產生單獨的上採樣模塊的運行時成本。我們的模型支持多種用例,包括文本到視頻和圖像到視頻的生成,兩種功能同時訓練。它實現了快於實時生成,在 Nvidia H100 GPU 上僅需 2 秒即可在 768x512 分辨率下生成 5 秒的 24 fps 視頻,優於所有現有的類似規模的模型。源代碼和預訓練模型已公開提供,為可訪問和可擴展的視頻生成設定了新的基準。
擁有Transformer架構的潛在擴散模型在生成高保真度圖像方面表現卓越。然而,最近的研究揭示了這種兩階段設計中的一個優化困境:增加視覺分詞器中每個標記的特徵維度可提高重建質量,但需要更大的擴散模型和更多的訓練迭代次數才能達到可比較的生成性能。因此,現有系統通常會選擇次優解,或者因為分詞器內部信息丟失而產生視覺異常,或者因為昂貴的計算成本而無法完全收斂。我們認為這個困境源於學習無限制高維潛在空間的固有困難。為解決這個問題,我們提出在訓練視覺分詞器時將潛在空間與預訓練的視覺基礎模型對齊。我們提出的VA-VAE(Vision foundation model Aligned Variational AutoEncoder)顯著擴展了潛在擴散模型的重建-生成邊界,實現了高維潛在空間中擴散Transformer(DiT)更快的收斂。為充分利用VA-VAE的潛力,我們建立了一個具有改進訓練策略和架構設計的增強型DiT基線,稱為LightningDiT。該集成系統在ImageNet 256x256生成方面實現了最先進的性能,FID分數為1.35,同時通過在僅64個時代中達到2.11的FID分數展現了卓越的訓練效率--與原始DiT相比,收斂速度提高了超過21倍。模型和代碼可在以下鏈接找到:https://github.com/hustvl/LightningDiT。
隨著在線平台上視覺媒體的興起,圖像內容安全已成為一個重要挑戰。與此同時,在人工智慧生成內容(AIGC)時代,許多圖像生成模型能夠製造包含性或暴力材料的有害內容。因此,根據已建立的安全規則識別此類不安全圖像變得至關重要。預訓練的多模式大型語言模型(MLLMs)在這方面具有潛力,因為它們具有強大的模式識別能力。現有方法通常使用人工標記的數據集對MLLM進行微調,但這帶來了一系列缺點。首先,依賴人類標註者按照複雜和詳細的指南標記數據既昂貴又勞動密集。此外,安全判斷系統的用戶可能需要經常更新安全規則,這使得基於人類標註更具挑戰性。這引出了研究問題:我們能否在預定的安全憲章(一組安全規則)的零樣本設置中通過查詢MLLM來檢測不安全圖像?我們的研究表明,僅僅查詢預訓練的MLLM並不能產生令人滿意的結果。這種缺乏效果源於諸如安全規則的主觀性、冗長憲章的複雜性以及模型中固有的偏見等因素。為應對這些挑戰,我們提出了一種基於MLLM的方法,包括客觀化安全規則、評估規則與圖像之間的相關性、基於去偏調標記概率做出快速判斷、以及根據簡化的安全規則的邏輯完整但簡化的前提鏈進行更深入的推理,必要時進行級聯思維過程。實驗結果表明,我們的方法對於零樣本圖像安全判斷任務非常有效。
自我校正旨在使大型語言模型(LLMs)能夠在沒有外部反饋的情況下自我驗證和自我完善其初始回應。然而,LLMs常常無法有效地自我驗證並生成正確的反饋,進一步誤導完善並導致自我校正失敗,尤其是在複雜的推理任務中。在本文中,我們提出了以程式驅動的自我校正(ProgCo)。首先,程式驅動驗證(ProgVe)通過自生成、自執行的驗證虛擬程式實現複雜的驗證邏輯和廣泛的驗證。然後,程式驅動完善(ProgRe)從ProgVe獲得反饋,對回應和驗證程式進行雙重反思和完善,以減輕在複雜推理任務中錯誤反饋的誤導。對三個指令遵循和數學基準進行的實驗表明,ProgCo實現了有效的自我校正,並在與真實程式工具結合時進一步提高性能。
近年來,受到大型語言模型(LLM)領域的重大進展推動,AI代理在各個領域中變得越來越普遍。移動GUI代理是AI代理的一個子集,旨在自主執行移動設備上的任務。雖然許多研究引入了代理、數據集和基準來推動移動GUI代理研究,但許多現有數據集專注於靜態幀評估,並未提供全面評估在真實世界野外任務表現的平台。為彌補這一差距,我們提出了Android代理競技場(A3),這是一個新穎的評估平台。與現有的野外系統不同,A3提供:(1)有意義且實用的任務,如實時在線信息檢索和操作指引;(2)更大、更靈活的操作空間,可與在任何數據集上訓練的代理兼容;以及(3)基於自動化業務級LLM評估過程。A3包括21個廣泛使用的第三方應用程序和201個代表常見用戶情境的任務,為在真實世界情況下評估移動GUI代理提供了堅實基礎,並提供了一個新的自主評估流程,減少人力和編碼專業知識的需求。該項目可在https://yuxiangchai.github.io/Android-Agent-Arena/ 上找到。
最近基礎模型的進步增強了人工智慧系統在自主工具使用和推理方面的能力。然而,它們在基於位置或地圖的推理能力 - 通過優化導航、促進資源發現和優化物流而改善日常生活的能力 - 尚未受到系統性研究。為彌補這一差距,我們引入了MapEval,這是一個旨在評估各種複雜地圖為基礎用戶查詢的基準,需要進行地理空間推理。MapEval包括三種任務類型(文本、基於API、視覺),需要通過地圖工具收集世界信息,處理異構地理空間背景(例如命名實體、旅行距離、用戶評論或評分、圖像)和組合推理,這些都是所有最先進的基礎模型難以應對的挑戰。MapEval包含了關於180個城市和54個國家的位置的700個獨特多項選擇問題,評估基礎模型處理空間關係、地圖信息圖、旅行規劃和導航挑戰的能力。使用MapEval,我們對28個知名基礎模型進行了全面評估。雖然沒有單一模型在所有任務上表現出色,但Claude-3.5-Sonnet、GPT-4o和Gemini-1.5-Pro在整體性能方面表現出競爭力。然而,出現了顯著的性能差距,特別是在MapEval中,Claude-3.5-Sonnet的代理優於GPT-4o和Gemini-1.5-Pro分別16%和21%,與開源LLMs相比,這些差距變得更加明顯。我們的詳細分析提供了有關當前模型優勢和劣勢的見解,盡管所有模型在複雜地圖圖像和嚴格的地理空間推理方面仍然遠遠落後於人類表現超過20%的平均水平。這一差距凸顯了MapEval在推動具有更強地理空間理解能力的通用基礎模型方面的關鍵作用。
近來,大型語言模型(LLMs)的出現為影片領域帶來了複雜的推理能力,透過影片大型語言模型(VideoLLMs)。然而,VideoLLMs目前依賴單一視覺編碼器進行所有視覺處理,這限制了可以傳達給LLM的視覺信息的數量和類型。我們的方法,MERV,即多編碼器視頻表示,取而代之利用多個凍結的視覺編碼器來創建視頻的統一表示,為VideoLLM提供全面的專業視覺知識。從每個編碼器中對特徵進行時空對齊,使我們能夠應對更廣泛的開放式和多選視頻理解問題,並且優於先前的最新工作。在標準套件視頻理解基準測試中,MERV的準確性比Video-LLaVA提高了高達3.7%,同時還具有更好的Video-ChatGPT分數。我們還改進了SeViLA,在零-shot感知測試準確性方面的先前最佳記錄,提高了2.2%。MERV引入了最少的額外參數,並且比等效單一編碼器方法更快地訓練,同時實現視覺處理的並行化。最後,我們提供定性證據表明MERV成功地從每個編碼器中捕獲領域知識。我們的結果為利用多個視覺編碼器進行全面視頻理解提供了有前途的方向。
目前的大型語言模型(LLMs)在像程式碼生成這樣的複雜推理任務中往往難以在第一次嘗試時產生準確的回應。先前的研究通過生成多個候選解決方案並使用LLM生成的單元測試來驗證這些解決方案來應對這一挑戰。單元測試的執行結果作為獎勵信號,用於識別正確解決方案。由於LLMs總是自信地犯錯,這些單元測試並不可靠,因此降低了獎勵信號的質量。受到將解決方案數量擴大有助於提高LLM性能的觀察的啟發,我們探索了擴大單元測試以增強獎勵信號質量的影響。我們的先驅性實驗揭示了單元測試數量與獎勵信號質量之間的正相關性,並且在更具挑戰性的問題中觀察到更大的好處。基於這些見解,我們提出了CodeRM-8B,這是一個輕量而有效的單元測試生成器,可實現高效且高質量的單元測試擴展。此外,我們實現了一個動態擴展機制,根據問題難度調整單元測試的數量,進一步提高效率。實驗結果顯示,我們的方法顯著提高了在三個基準測試上各種模型的性能(例如,Llama3-8B的增益為18.43%,GPT-4o-mini的增益為3.42%)。
將文本轉換為圖像模型以生成特定主題的圖像,跨不同場景和風格的研究正快速發展。目前的方法常常在保持身份保留和與輸入文本提示對齊之間取得平衡時面臨挑戰。一些方法依賴單個文本標記來代表主題,這限制了表達能力,而其他方法則使用更豐富的表示,但破壞了模型的先前設置,降低了提示對齊性。在這項工作中,我們引入了嵌套注意力(Nested Attention),這是一種新穎的機制,將豐富且具表達力的圖像表示注入到模型現有的交叉注意力層中。我們的關鍵想法是生成查詢相關的主題值,這些值來自於學習為生成的圖像中的每個區域選擇相關主題特徵的嵌套注意力層。我們將這些嵌套層整合到基於編碼器的個性化方法中,並展示它們能夠實現高度的身份保留,同時遵循輸入文本提示。我們的方法是通用的,可以在各種領域進行訓練。此外,它的先前保留性使我們能夠將來自不同領域的多個個性化主題結合在單張圖像中。
在復原影片方面,要在處理來自未知環境中的時間一致細節時保持忠實度,確實存在著非常具挑戰性的問題。儘管擴散式復原近年來有所進展,但這些方法通常在生成能力和取樣效率方面存在限制。在這項研究中,我們提出了SeedVR,一種專為處理真實世界影片復原而設計的擴散變壓器,能處理任意長度和解析度的影片。SeedVR的核心設計在於移位窗口關注,有助於對長影片序列進行有效復原。SeedVR進一步支持在空間和時間維度的邊界附近使用變大小的窗口,克服了傳統窗口關注的解析度限制。憑藉當代實踐,包括因果影片自編碼器、混合圖像和影片訓練,以及漸進式訓練,SeedVR在合成和真實世界基準測試以及人工智慧生成的影片上均取得了高度競爭力的表現。大量實驗證明了SeedVR相對於現有方法在通用影片復原方面的優越性。
像Google Maps、Apple Maps、OpenStreet Maps等的地圖和導航服務對於訪問各種基於位置的數據至關重要,但它們通常難以處理自然語言的地理空間查詢。最近大型語言模型(LLMs)的進展在問答(QA)方面表現出潛力,但從地圖服務中創建可靠的地理空間QA數據集仍然具有挑戰性。我們介紹了MapQaTor,這是一個網絡應用程序,可簡化可重現、可追踪的基於地圖的QA數據集的創建。通過其即插即用的架構,MapQaTor實現了與任何地圖API的無縫集成,使用戶可以在最小設置的情況下從各種來源收集和可視化數據。通過緩存API響應,該平台確保了一致的基本事實,增強了數據的可靠性,即使在現實世界信息演變的情況下也是如此。MapQaTor將數據檢索、標註和可視化集中在一個平台內,為評估基於LLM的地理空間推理的當前狀態提供了獨特機會,同時推動其能力以改進地理空間理解。評估指標顯示,與手動方法相比,MapQaTor至少可以將標註過程加快30倍,突顯了其發展複雜地圖推理數據集等地理空間資源的潛力。該網站可通過以下鏈接訪問:https://mapqator.github.io/,演示視頻可在以下鏈接中觀看:https://youtu.be/7_aV9Wmhs6Q。
結構化狀態空間模型(SSMs)已成為變壓器的替代方案。儘管SSMs通常被認為在捕捉長序列依賴性方面效果顯著,我們嚴謹地證明它們固有地受到強烈的最近偏差的限制。我們的實證研究還揭示了這種偏差損害了模型回憶遠距離信息的能力並引入了韌性問題。我們的擴展實驗隨後發現,SSMs中更深層次的結構可以促進學習長範疇。然而,隨著SSMs深度的增加,後續的理論分析顯示,它們呈現另一種不可避免的過度平滑的趨勢,例如,標記表示變得越來越難以區分。這種最近偏差和過度平滑之間的基本困境阻礙了現有SSMs的可擴展性。受到我們理論發現的啟發,我們提議在SSMs中極化兩個狀態轉換矩陣通道,分別設置為零和一,同時解決最近偏差和過度平滑問題。實驗表明,我們的極化技術持續增強了對長範圍標記的聯想回憶準確性,並使SSMs能夠更進一步受益於更深層次的架構。所有源代碼均在https://github.com/VITA-Group/SSM-Bottleneck 上發布。
擴散模型在生成高質量時間序列(TS)數據方面展現了令人期待的能力。儘管最初取得成功,現有研究主要集中在個體層面數據的真實性上,但較少關注保留整個數據集上的人口層級特性。這些人口層級特性包括每個維度的值分佈以及不同維度之間某些功能依賴(例如,交叉相關,CC)的分佈。例如,在生成房屋能耗時間序列數據時,應當保留室外溫度和廚房溫度的值分佈,以及它們之間的CC分佈。保留這些TS人口層級特性對於保持數據集的統計見解、減輕模型偏差以及增強下游任務(如TS預測)至關重要。然而,現有模型往往忽視了這一點。因此,現有模型生成的數據往往與原始數據存在分佈偏移。我們提出了面向時間序列的人口感知擴散(PaD-TS),這是一種新的TS生成模型,更好地保留了人口層級特性。PaD-TS的關鍵創新包括1)一種明確納入TS人口層級特性保留的新訓練方法,以及2)一種更好地捕捉TS數據結構的新雙通道編碼器模型架構。在主要基準數據集上的實證結果顯示,PaD-TS可以將真實數據和合成數據之間的平均CC分佈偏移得分提高5.9倍,同時保持與最先進模型在個體層面真實性上相當的性能。
Transformer 模型依賴於基於內容和基於位置的定址機制來進行預測,但現有的位置編碼技術常常削弱了基於位置的定址的效果。許多當前的方法在注意力圖中強制實施嚴格的模式,限制了建模長距離依賴性和適應多樣任務的能力。此外,大多數位置編碼是作為通用偏差進行學習的,缺乏不同數據集內實例所需的專門化。為了解決這個問題,我們提出了一個新的框架,稱為上下文等變位置嵌入(TAPE),通過跨層次整合序列內容來增強位置嵌入。TAPE 引入了動態、上下文感知的位置編碼,克服了傳統固定模式的限制。通過實施置換和正交等變性,TAPE 確保了位置編碼在更新期間的穩定性,提高了韌性和適應性。我們的方法可以輕鬆集成到預訓練的 Transformer 模型中,提供具有最小開銷的參數高效微調。廣泛的實驗表明,與現有的位置嵌入技術相比,TAPE 在語言建模、算術推理和長篇內容檢索任務中實現了優越的性能。
人類動作理解對於多模式系統的進步至關重要。儘管最近的發展主要受到強大的大型語言模型(LLMs)的推動,旨在具有足夠的通用性以涵蓋各種類別,但它們常常忽略了對更具體能力的需求。在這項工作中,我們致力於更具挑戰性的細粒度動作識別(FAR)任務,該任務專注於較短時間範圍內的詳細語義標籤(例如,“帶有1個轉身的後空翻”)。鑒於標註細粒度標籤的高成本以及對調整LLMs所需的大量數據,我們提出採用半監督學習(SSL)。我們的框架SeFAR融合了幾個創新設計來應對這些挑戰。具體來說,為了捕捉足夠的視覺細節,我們構建了雙層次時間元素作為更有效的表示,基於此,我們設計了一種新的強大增強策略,用於教師-學生學習範式,通過引入適度的時間擾動。此外,為了應對教師模型對FAR預測中的高不確定性,我們提出了適應性調節以穩定學習過程。實驗表明,SeFAR在兩個FAR數據集FineGym和FineDiving上實現了最先進的性能,跨越各種數據範圍。它還在兩個經典粗粒度數據集UCF101和HMDB51上優於其他半監督方法。進一步的分析和消融研究驗證了我們設計的有效性。此外,我們展示了我們的SeFAR提取的特徵可以很大程度上提升多模式基礎模型理解細粒度和特定領域語義的能力。