每日精選AI研究論文及翻譯
角色圖像動畫從參考圖像和目標姿勢序列生成高質量視頻,在近年來取得了顯著進展。然而,大多數現有方法僅適用於人物形象,通常無法很好地泛化應用於遊戲和娛樂等行業中常用的拟人角色。我們的深入分析表明,這種限制歸因於它們對運動建模的不足,無法理解驅動視頻的運動模式,因此將一個姿勢序列僵硬地施加在目標角色上。為此,本文提出了一種基於LDM的通用動畫框架Aniamte-X,適用於各種角色類型(統稱為X),包括拟人角色。為了增強運動表示,我們引入了姿勢指示器,通過隱式和顯式方式從驅動視頻中捕獲全面的運動模式。前者利用驅動視頻的CLIP視覺特徵提取其運動要義,如整體運動模式和運動之間的時間關係,後者通過預先模擬可能在推斷過程中出現的輸入,加強了LDM的泛化能力。此外,我們引入了一個新的動畫拟人基準(A^2Bench)來評估Animate-X在通用和廣泛應用的動畫圖像上的性能。大量實驗證明了Animate-X相對於最先進方法的優越性和有效性。
隨著人工智慧生成內容的快速發展,未來的互聯網可能會被合成數據淹沒,使得區分真實可信的多模態數據變得日益具有挑戰性。因此,合成數據檢測引起了廣泛關注,大型多模態模型(LMMs)在此任務中的表現引起了顯著興趣。LMMs能夠提供其真實性判斷的自然語言解釋,增強了對合成內容檢測的可解釋性。同時,區分真實和合成數據的任務有效地測試了LMMs的感知、知識和推理能力。為此,我們引入了LOKI,一個旨在評估LMMs跨多模態檢測合成數據能力的新型基準。LOKI包括視頻、圖像、3D、文本和音頻模態,涵蓋了26個子類別的18,000個精心策劃問題,具有明確的難度級別。該基準包括粗粒度判斷和多選問題,以及細粒度異常選擇和解釋任務,可進行對LMMs的全面分析。我們在LOKI上評估了22個開源LMMs和6個封閉源模型,突出它們作為合成數據檢測器的潛力,同時也揭示了LMM能力發展中的一些限制。有關LOKI的更多信息,請訪問https://opendatalab.github.io/LOKI/。
交錯的多模式理解和生成已成為多模式學習中的一個關鍵領域,使模型能夠以任意順序生成和解釋圖像和文字。儘管取得了顯著進展,但對這種能力的評估仍然不足。現有的基準存在著數據規模、範圍和評估深度方面的限制,而目前的評估指標往往成本高昂或存在偏見,缺乏對實際應用的可靠性。為應對這些挑戰,我們引入了MMIE,這是一個大規模的知識密集型基準,用於評估大型視覺語言模型(LVLMs)中的交錯多模式理解和生成。MMIE包括20,000個精心策劃的多模式查詢,涵蓋3個類別、12個領域和102個子領域,包括數學、編碼、物理、文學、健康和藝術。它支持交錯輸入和輸出,提供了多種選擇和開放式問題格式的混合,以評估不同的能力。此外,我們提出了一個可靠的自動評估指標,利用人工標註數據和系統化評估標準來微調評分模型,旨在減少偏見並提高評估準確性。大量實驗證明了我們基準和指標在提供對交錯LVLMs的全面評估方面的有效性。具體而言,我們評估了八個LVLMs,揭示即使是最好的模型也有顯著的改進空間,大多數只達到了中等結果。我們相信MMIE將推動交錯LVLMs發展的進一步進步。我們在https://mmie-bench.github.io/ 公開發布了我們的基準和代碼。
為了有效應用檢索增強生成(RAG)系統,遵循自然指令至關重要。儘管大型語言模型(LLMs)近年來取得了進展,但在評估和改進RAG領域內指令遵循(IF)對齊的研究仍然有限。為了解決這個問題,我們提出了VIF-RAG,這是第一個自動化、可擴展且可驗證的合成管道,用於RAG系統中指令遵循對齊。我們首先通過手工製作一組最小的原子指令(<100),並開發組合規則來綜合和驗證種子集的複雜指令。然後,我們使用監督模型進行指令重寫,同時生成代碼以自動化驗證指令質量,通過Python執行器。最後,我們將這些指令與廣泛的RAG和一般數據樣本相結合,通過自動化流程擴展到高質量的VIF-RAG-QA數據集(>100k)。為了進一步彌合RAG系統中指令遵循自動評估的差距,我們引入了FollowRAG基準,其中包括約3K個測試樣本,涵蓋了22個一般指令約束類別和四個知識密集型QA數據集。由於其堅固的管道設計,FollowRAG可以與不同的RAG基準無縫集成。通過使用FollowRAG和八個廣泛使用的LLMs的IF和基礎能力基準,我們展示了VIF-RAG在各種一般指令約束下顯著增強LLM性能,同時有效地利用其在RAG場景中的能力。進一步的分析提供了實現RAG系統中IF對齊的實用見解。我們的代碼和數據集已在https://FollowRAG.github.io 上發布。
我們提出了MEGA-Bench,這是一個評估套件,將多模態評估擴展到超過500個真實世界任務,以應對最終用戶高度異質的日常使用情況。我們的目標是優化一組高質量數據樣本,涵蓋高度多樣化和豐富的多模態任務集,同時實現成本效益和準確的模型評估。具體而言,我們收集了505個現實任務,包括來自16位專家標註者的8000多個樣本,以廣泛覆蓋多模態任務空間。我們沒有將這些問題統一為標準的多選問題(如MMMU、MMBench和MMT-Bench),而是採用了各種輸出格式,如數字、短語、代碼、\LaTeX、坐標、JSON、自由格式等。為了適應這些格式,我們開發了40多個指標來評估這些任務。與現有基準不同,MEGA-Bench提供了跨多個維度(例如應用、輸入類型、輸出格式、技能)的精細化能力報告,使用戶可以深入互動和可視化模型的能力。我們在MEGA-Bench上評估了各種前沿的視覺語言模型,以了解它們在這些維度上的能力。
近期對大型語言模型(LLMs)的進展已顯著提升數學推理能力。然而,現有的基準測試如GSM8K或MATH現在以高準確度解決(例如,OpenAI o1在MATH數據集上達到94.8%),顯示這些基準測試對於真正挑戰這些模型來說是不足的。為了彌合這一差距,我們提出了一個全面且具有挑戰性的基準測試,專門設計來評估LLMs在奧林匹亞級別的數學推理能力。與現有的與奧林匹亞有關的基準測試不同,我們的數據集專注於數學,包括一個由4428個競賽級別問題組成的龐大集合,並經過嚴格的人工標註。這些問題被精心分類為33個子領域以上,涵蓋超過10個不同難度級別,使得能夠全面評估模型在奧林匹亞數學推理中的表現。此外,我們基於這一基準測試進行了深入分析。我們的實驗結果顯示,即使是最先進的模型,如OpenAI o1-mini和OpenAI o1-preview,也在高度具有挑戰性的奧林匹亞級別問題上遇到困難,準確率分別為60.54%和52.55%,凸顯了在奧林匹亞級別數學推理中存在的重大挑戰。
生成模型將隨機噪音轉換為影像;其反演旨在將影像轉換回結構化噪音以進行恢復和編輯。本文討論兩個關鍵任務:(i) 反演和(ii) 使用修正流模型的隨機等效物(如Flux)對實際影像進行編輯。儘管擴散模型(DMs)最近在圖像生成建模領域佔主導地位,但由於漂移和擴散中的非線性,其反演存在忠實性和可編輯性挑戰。現有的最先進的DM反演方法依賴於額外參數的訓練或潛在變量的測試時間優化;這兩者在實踐中都很昂貴。修正流(RFs)為擴散模型提供了一個有前途的替代方案,然而其反演尚未得到充分探索。我們提出使用線性二次調節器推導的動態最優控制來進行RF反演。我們證明所得到的向量場等效於一個修正的隨機微分方程。此外,我們擴展我們的框架以設計一個Flux的隨機取樣器。我們的反演方法實現了零樣本反演和編輯的最先進性能,在筆劃到圖像合成和語義圖像編輯方面優於先前的工作,大規模的人類評估確認了用戶偏好。
從網絡上爬取的數據對多模態模型進行大規模訓練,已顯示出在注入所需的世界知識以在多個下游任務上有效執行方面具有卓越的實用性。然而,從網絡上爬取數據的一個缺點可能是潛在地犧牲這些模型的能力常常被評估的基準。為了防止測試數據的污染並真正測試這些基礎模型的能力,我們提出了LiveXiv:一個基於科學ArXiv論文的可擴展的演進性實時基準。LiveXiv在任何給定的時間戳訪問特定領域的手稿,並提議自動生成視覺問答對(VQA)。這是在沒有任何人為參與的情況下完成的,利用手稿中的多模態內容,如圖表和表格。此外,我們引入了一種高效的評估方法,通過僅對模型子集進行評估來估計所有模型在演進基準上的性能。這顯著降低了整體評估成本。我們在我們基準的第一個版本上對多個開放和專有的大型多模態模型(LMMs)進行基準測試,展示了其具有挑戰性的特性,揭示了模型的真實能力,避免了污染。最後,為了確保高質量,我們已收集並評估了一個手動驗證的子集。通過將其整體結果與我們的自動標註進行比較,我們發現性能變異確實極小(<2.5%)。我們的數據集在HuggingFace上可用,在這裡將提供我們的代碼。
檢索增強生成(RAG)是一種有效的技術,使大型語言模型(LLMs)能夠利用外部知識來進行生成。然而,目前的RAG系統僅基於文本,無法利用佈局和圖像等在現實世界多模態文檔中發揮關鍵作用的視覺信息。本文介紹了VisRAG,通過建立基於視覺-語言模型(VLM)的RAG流程,解決了這個問題。在這個流程中,不是首先解析文檔以獲取文本,而是直接使用VLM將文檔嵌入為圖像,然後檢索以增強VLM的生成。與傳統基於文本的RAG相比,VisRAG最大程度地保留和利用了原始文檔中的數據信息,消除了解析過程中引入的信息損失。我們收集了開源和合成數據來訓練VisRAG中的檢索器並探索各種生成方法。實驗表明,VisRAG在檢索和生成階段均優於傳統RAG,在傳統基於文本的RAG流程上實現了25-39%的端到端性能增益。進一步分析顯示,VisRAG能夠有效利用訓練數據,具有強大的泛化能力,使其成為多模態文檔上RAG的一個有前途的解決方案。我們的代碼和數據可在 https://github.com/openbmb/visrag 找到。
近年來,在影像轉視訊生成方面取得了顯著的突破。然而,生成幀的三維一致性和攝影機可控性仍未解決。最近的研究試圖將攝影機控制納入生成過程中,但其結果通常僅限於簡單的軌跡,或缺乏從同一場景的多個不同攝影機路徑生成一致視訊的能力。為解決這些限制,我們引入了 Cavia,這是一個新穎的框架,用於攝影機可控的多視角視訊生成,能夠將輸入圖像轉換為多個時空一致的視訊。我們的框架將空間和時間注意力模塊擴展為視圖整合的注意力模塊,提高了視角和時間一致性。這種靈活的設計允許與多樣化的精心策劃的數據源進行聯合訓練,包括場景級靜態視訊、對象級合成多視角動態視訊和現實世界的單眼動態視訊。據我們所知,Cavia 是第一個允許用戶在獲得對象運動的同時精確指定攝影機運動的框架。大量實驗表明,Cavia 在幾何一致性和感知質量方面超越了最先進的方法。項目頁面:https://ir1d.github.io/Cavia/
通常,LLMs 被訓練來回答使用者問題或遵循指示,類似於人類專家的回應方式。然而,在標準對齊框架中,它們缺乏在回答前進行明確思考的基本能力。思考對於需要推理和規劃的複雜問題至關重要,但也可應用於任何任務。我們提出了一種訓練方法,用於為現有的LLMs配備這種思考能力,以便進行一般指示遵循,而無需使用額外的人類數據。我們通過一個迭代搜索和優化程序來實現這一點,該程序探索可能思維生成的空間,使模型能夠學會如何在沒有直接監督的情況下思考。對於每個指示,思考候選方案僅通過評估其回應的評判模型進行打分,然後通過偏好優化進行優化。我們展示了這個程序在AlpacaEval和Arena-Hard上實現了卓越的表現,並且在行銷、健康和一般知識等非推理類別以及更傳統的推理和問題解決任務中展現了思考的收益。
瞭解細粒度時間動態對於多模態視頻理解和生成至關重要。由於缺乏細粒度時間標註,現有的視頻基準大多類似於靜態圖像基準,無法評估對於時間理解的模型。在本文中,我們介紹了TemporalBench,這是一個專門用於評估視頻中細粒度時間理解的新基準。TemporalBench 包含約 10K 個視頻問答對,來自約 2K 個高質量人類標註,詳細描述了視頻片段中的時間動態。因此,我們的基準提供了一個獨特的測試平臺,用於評估各種時間理解和推理能力,如動作頻率、運動幅度、事件順序等。此外,它還可以評估各種任務,如視頻問答和字幕生成,短視頻和長視頻理解,以及不同的模型,如多模態視頻嵌入模型和文本生成模型。結果顯示,像 GPT-4o 這樣的最先進模型在 TemporalBench 上僅達到 38.5% 的問答準確率,顯示人類和 AI 在時間理解方面存在顯著差距(約 30%)。此外,我們注意到多選問答存在一個關鍵缺陷,即 LLMs 可以檢測到負面字幕中微小變化並找到集中描述作為預測的線索,我們提出了多重二元準確度(MBA)來糾正這種偏見。我們希望 TemporalBench 能促進改進模型時間推理能力的研究。數據集和評估代碼將提供。
監督微調(SFT)對於調整大型語言模型(LLMs)以符合人類指示至關重要。在SFT期間的主要目標是從較大的數據池中選擇一個小而具代表性的訓練數據子集,使得使用該子集進行微調可以達到與甚至超過使用整個數據集獲得的結果相媲美。然而,大多數現有的數據選擇技術是為小規模數據池設計的,無法滿足現實世界SFT場景的需求。本文複製了幾種自我評分方法,這些方法不依賴外部模型輔助,應用於兩百萬規模的數據集,發現幾乎所有方法在應對如此大規模數據池時,很難顯著優於隨機選擇。此外,我們的比較表明,在SFT期間,數據選擇的多樣性比僅專注於高質量數據更為關鍵。我們還分析了幾種當前方法的局限性,解釋了它們在大規模數據集上表現不佳的原因以及為何它們不適用於這樣的情境。最後,我們發現通過標記長度篩選數據提供了一種穩定且高效的改善結果方法。特別是在訓練長文本數據時,這種方法對於相對較弱的基礎模型,如Llama3,非常有益。
最近大型語言模型(LLM)驅動的聊天助手系統已經整合了記憶組件來追踪用戶-助手聊天歷史,從而實現更準確和個性化的回應。然而,在持續互動中它們的長期記憶能力仍未被充分探索。本文介紹了LongMemEval,這是一個全面的基準測試,旨在評估聊天助手的五個核心長期記憶能力:信息提取、多會話推理、時間推理、知識更新和棄權。LongMemEval中包含了500個精心策劃的問題,嵌入在可自由擴展的用戶-助手聊天歷史中,對現有的長期記憶系統構成了重大挑戰,商業聊天助手和長文本LLM在記憶持續互動中信息的準確性下降了30%。然後,我們提出了一個統一框架,將長期記憶設計分解為索引、檢索和閱讀階段的四個設計選擇。基於關鍵的實驗洞察,我們提出了幾種記憶設計,包括會話分解以優化值的細粒度、增強索引結構的事實擴充關鍵和用於精煉搜索範圍的時間感知查詢擴充。實驗結果表明,這些優化大大提高了LongMemEval上的記憶召回和下游問答。總的來說,我們的研究為提升基於LLM的聊天助手的長期記憶能力提供了寶貴的資源和指導,為實現更個性化和可靠的對話AI鋪平了道路。
大型視覺語言模型(VLMs)的出現顯著推動了多模式理解的進步,使得在各種任務中更精密和準確地整合視覺和文本信息成為可能,包括圖像和視頻標題、視覺問答以及跨模態檢索。儘管VLMs具有卓越的能力,研究人員對其組成性仍缺乏全面的理解——即理解和生成已知視覺和文本組件的新組合的能力。先前的基準僅從對象、關係和屬性的角度提供了相對粗糙的組成性評估,卻忽略了對象交互、計數和複雜組合的更深入推理。然而,組成性是一種關鍵能力,有助於實現VLMs跨模態的連貫推理和理解。為解決這一限制,我們提出了MMCOMPOSITION,這是一個新穎的人工標註基準,用於全面和準確地評估VLMs的組成性。我們提出的基準作為先前工作的補充。通過MMCOMPOSITION,我們可以量化並探索主流VLMs的組成性。令人驚訝的是,我們發現GPT-4o的組成性不如最佳的開源模型,並分析了潛在原因。我們的實驗分析揭示了VLMs在細粒度組成感知和推理方面的局限性,並指出了VLM設計和訓練的改進方向。資源可在以下網址找到:https://hanghuacs.github.io/MMComposition/
大型語言模型(LLMs)通過上下文學習在多個任務上展現出卓越的性能。對於需要逐步思考的複雜推理任務,思維鏈(CoT)提示在與自我一致性結合時取得了令人印象深刻的成果。然而,某些任務對於LLMs來說仍然特別難以解決。思維樹(ToT)和思維圖(GoT)作為替代方案應運而生,將複雜問題劃分為子問題路徑。在本文中,我們提出了問題樹(ToP),這是ToT的簡化版本,我們假設對於可以劃分為相同子任務的複雜任務,這種方法可能效果更好。我們的實證結果表明,我們的方法優於ToT和GoT,並且在複雜推理任務上表現優於CoT。本文的所有代碼都可以在以下鏈接公開獲取:https://github.com/ArmelRandy/tree-of-problems。
部署長內文大型語言模型(LLMs)是必要的,但也帶來了重大的計算和記憶體挑戰。在所有注意力頭部擷取的所有Key和Value(KV)狀態會消耗大量記憶體。現有的KV快取修剪方法可能損害LLMs的長內文功能,或僅提供有限的效率改進。在本文中,我們確定只有一小部分注意力頭部,即檢索頭部,對處理長內文至關重要,需要對所有標記進行全面關注。相反,所有其他頭部主要關注最近的標記和注意力汲取,被稱為流頭部,不需要全面關注。基於這一見解,我們引入了DuoAttention,這是一個框架,僅對檢索頭部應用完整的KV快取,同時對流頭部使用輕量級、固定長度的KV快取,從而減少了LLMs的解碼和預填充記憶體和延遲,而不會影響其長內文功能。DuoAttention使用輕量級、基於優化的算法與合成數據準確識別檢索頭部。我們的方法可將MHA模型的長內文推理記憶體減少高達2.55倍,GQA模型減少1.67倍,同時將解碼加速高達2.18倍和1.50倍,並將預填充加速高達1.73倍和1.63倍,相對於全面關注,幾乎沒有精度損失。值得注意的是,結合量化,DuoAttention使Llama-3-8B在單個A100 GPU上能夠解碼330萬內文長度。代碼提供在https://github.com/mit-han-lab/duo-attention。
長久以來,具備在各種環境中自主運作能力的人形機器人一直是機器人學家的目標。然而,人形機器人的自主操作能力在大多數情況下被限制在特定場景,主要是由於獲取通用技能的困難。最近在3D視覺運動策略方面的進展,例如3D擴散策略(DP3),展示了將這些能力擴展到更廣泛環境的潛力。然而,3D視覺運動策略通常依賴攝像機校準和點雲分割,這對於在人形機器人等移動機器人上部署提出了挑戰。在這項工作中,我們介紹了改進的3D擴散策略(iDP3),這是一種新穎的3D視覺運動策略,通過利用自我中心的3D視覺表示來消除這些限制。我們展示了iDP3使一個全尺寸的人形機器人能夠在各種真實場景中自主執行技能,僅使用在實驗室收集的數據。視頻可在以下網址查看:https://humanoid-manipulation.github.io
大型語言模型已展示出令人印象深刻的表現,當與視覺模型整合時,甚至實現了視頻理解。然而,評估這些視頻模型存在獨特的挑戰,為此提出了幾個基準。本文顯示,目前最常用的視頻語言基準可以在不需要太多時間推理的情況下解決。我們在現有數據集中確定了三個主要問題:(i) 單幀的靜態信息通常足以解決任務 (ii) 問題和候選答案的文本過於具體,使模型能夠在不依賴任何視覺輸入的情況下正確回答 (iii) 僅憑世界知識就能回答許多問題,使基準測試變成知識複製而非視覺推理。此外,我們發現,針對視頻理解的開放式問答基準存在類似問題,而與大型語言模型的自動評估過程不可靠,因此不適合作為替代方案。作為解決方案,我們提出了TVBench,一個新穎的開源視頻多選問答基準,通過廣泛評估表明,它需要高水準的時間理解。令人驚訝的是,我們發現,大多數最新的視頻語言模型在TVBench上的表現與隨機表現相似,只有Gemini-Pro和Tarsier明顯優於此基準。
我們採用機械解釋性的新工具,以探討大型語言模型(LLMs)的內部結構是否與其訓練語言的語言結構相對應。具體而言,我們探討以下問題:(1)當兩種語言採用相同的詞形句法過程時,LLMs 是否使用共享的內部電路來處理?以及(2)當兩種語言需要不同的詞形句法過程時,LLMs 是否使用不同的內部電路來處理?通過分析英文和中文的多語言和單語言模型,我們研究了兩個任務中涉及的內部電路。我們發現證據表明,模型使用相同的電路來處理相同的句法過程,而不受其發生語言的影響,即使是完全獨立訓練的單語言模型也是如此。此外,我們展示多語言模型在需要處理某些語言中才存在的語言過程(例如形態標記)時,會使用特定於語言的組件(注意力頭和前饋網路)。總的來說,我們的結果為我們了解LLMs在同時建模多種語言時如何在利用共同結構和保留語言差異之間取得平衡提供了新的見解。
LayerNorm 是現代大型語言模型(LLMs)中的重要組件,用於穩定訓練並確保平滑優化。然而,它在機械解釋性、異常特徵抑制、信號傳播的忠實性,以及私密推論的計算和通信複雜性方面帶來顯著挑戰。本研究探討無正則化解碼器的LLMs中理想的激活函數。與基於Transformer模型的傳統偏好GELU相反,我們的實證發現呈現一個相反的趨勢 - ReLU在無LayerNorm模型中顯著優於GELU,導致8.2%的困惑度改善。我們發現了GELU的一個關鍵問題,即早期層面遇到熵過載,導致注意力頭的表徵能力被過度利用不足。這凸顯了像GELU這樣的平滑激活函數對於無LayerNorm架構來說是不適合的,而ReLU的幾何特性 - 在輸入空間中的專業化和類內選擇性 - 則導致學習動態的改善,並在沒有LayerNorm的情況下更好地保留信息。這項研究為優化Transformer架構提供了重要見解,其中LayerNorm帶來了顯著挑戰。
我們介紹了潛在動作預訓練(Latent Action Pretraining for general Action models,簡稱LAPA),這是一種無監督方法,用於預訓練視覺-語言-動作(Vision-Language-Action,簡稱VLA)模型,而無需地面真實機器人動作標籤。現有的視覺-語言-動作模型通常需要在預訓練期間由人類遠端操作者收集的動作標籤,這顯著限制了可能的數據來源和規模。在這項工作中,我們提出了一種方法,可以從沒有機器人動作標籤的互聯網規模視頻中學習。我們首先訓練一個動作量化模型,利用基於VQ-VAE的目標來學習圖像幀之間的離散潛在動作,然後預訓練一個潛在的VLA模型,從觀察和任務描述中預測這些潛在動作,最後在小規模機器人操作數據上微調VLA,將從潛在到機器人動作的映射。實驗結果表明,我們的方法明顯優於現有的從大規模視頻中訓練機器人操作策略的技術。此外,它在需要語言條件、對未見物體的泛化以及對未見指令的語義泛化的現實世界操作任務上,也優於使用機器人動作標籤訓練的最先進VLA模型。僅在人類操作視頻上進行訓練也表現出積極的轉移效果,為利用網絡規模數據進行機器人基礎模型打開了潛力。