每日精選AI研究論文及翻譯
儘管大型語言模型(LLMs)表現出色,但在可擴展監督方面面臨一個關鍵挑戰:為難以進行人類評估或LLMs表現優於人類的任務提供有效反饋。儘管人們對使用LLMs進行評論越來越感興趣,但目前的方法仍依賴於人類標註或更強大的模型,這使得在沒有外部監督的情況下增強評論能力的問題尚未解決。我們引入了SCRIT(Self-evolving CRITic),這是一個能夠實現真正自我進化評論能力的框架。從技術上講,SCRIT通過在合成數據上進行訓練來自我改進,這些數據是由基於對比的自評者生成的,該自評者使用參考解決方案進行逐步評論,並通過校正結果確保評論質量的自我驗證機制。使用Qwen2.5-72B-Instruct,其中一個最強大的LLMs,SCRIT在評論校正和錯誤識別基準上實現了高達10.3%的改進。我們的分析顯示,SCRIT的性能隨著數據和模型大小的增加而正向擴展,優於替代方法,並且在很大程度上受益於其自我驗證組件。
檢索增強生成(RAG)是解決基礎模型中生成事實錯誤輸出問題的強大策略,它通過檢索與查詢相關的外部知識並將其納入生成過程中來解決這個問題。然而,現有的RAG方法主要集中在文本信息上,最近一些進展開始考慮圖像,但它們在很大程度上忽略了影片,這是一個豐富的多模式知識來源,能夠更有效地表示事件、過程和情境細節,優於其他模態。雖然最近有一些研究探索了在回應生成過程中整合影片,但它們要麼預先定義了與查詢相關的影片而沒有根據查詢檢索它們,要麼將影片轉換為文本描述而沒有利用它們的多模式豐富性。為了應對這些問題,我們介紹了VideoRAG,這是一個新穎的框架,不僅根據與查詢相關性動態檢索相關影片,還利用影片的視覺和文本信息進行輸出生成。此外,為了實現這一點,我們的方法圍繞著大型影片語言模型(LVLMs)的最新進展,這些模型能夠直接處理影片內容以表示它進行檢索,並與查詢一起無縫集成檢索的影片。我們通過實驗驗證了VideoRAG的有效性,展示它優於相關基準。
推理是解決複雜多步問題的基本能力,尤其在視覺情境中,其中序列式逐步理解至關重要。現有方法缺乏評估視覺推理的全面框架,也未強調逐步問題解決。為此,我們提出了一個全面的框架,通過三個關鍵貢獻來推進大型語言模型(LMMs)中的逐步視覺推理。首先,我們引入了一個專門設計用於評估多步推理任務的視覺推理基準。該基準提供了一系列不同類別的挑戰,從複雜的視覺感知到科學推理,總共有超過4k個推理步驟,能夠全面評估LLMs在多步準確且可解釋的視覺推理能力。其次,我們提出了一個新穎的度量標準,評估個別步驟的視覺推理質量,強調正確性和邏輯一致性。所提出的度量標準相對於傳統的終端任務準確度度量標準,提供了更深入的推理表現洞察。第三,我們提出了一個新的多模態視覺推理模型,名為LlamaV-o1,採用多步課程學習方法進行訓練,其中任務逐步組織,以促進增量技能獲取和問題解決。所提出的LlamaV-o1設計用於多步推理,通過結構化訓練範式逐步學習。大量實驗表明,我們的LlamaV-o1優於現有的開源模型,在推理擴展時表現優異,並且與封閉源專有模型相比表現良好。與最近的Llava-CoT相比,我們的LlamaV-o1在六個基準測試中取得了平均得分67.3,絕對增益為3.8%,在推理擴展時速度提高了5倍。我們的基準、模型和代碼均可公開獲取。
開發能夠在非結構環境中進行操作的通用機器人系統是一個重大挑戰。雖然視覺語言模型(VLM)在高層次的常識推理方面表現出色,但它們缺乏精細的三維空間理解,這是精確操作任務所需的。將VLM在機器人數據集上進行微調,以創建視覺語言行動模型(VLA)是一種潛在的解決方案,但受到高昂的數據收集成本和泛化問題的阻礙。為了應對這些挑戰,我們提出了一種新穎的以物件為中心的表示法,彌合了VLM高層次推理和操作所需的低層次精確性之間的差距。我們的關鍵見解是,物件的規範空間,由其功能性提供,提供了一種結構化和語義上有意義的描述互動基元,如點和方向。這些基元充當橋樑,將VLM的常識推理轉化為可操作的三維空間約束。在這種情況下,我們引入了一個雙閉環、開放詞彙的機器人操作系統:一個循環用於通過基元重採樣、互動渲染和VLM檢查進行高層次規劃,另一個用於通過6D姿態跟踪進行低層次執行。這種設計確保了堅固、實時的控制,而無需進行VLM微調。廣泛的實驗表明,在各種機器人操作任務中具有強大的零樣本泛化能力,突顯了這種方法在自動化大規模模擬數據生成方面的潛力。
時間感知是離線和在線視頻LLMs之間的關鍵區別,它指的是根據提問時戳記動態推理的能力。與依賴完整視頻進行靜態事後分析的離線模型不同,在線模型會逐步處理視頻流,並根據提問時的時間戳記動態調整其回答。儘管時間感知具有重要意義,但現有基準對其評估不足。為填補這一空白,我們提出了OVO-Bench(Online-VideO-Benchmark),這是一個強調時間戳記對於先進在線視頻理解能力基準評估的新型視頻基準。OVO-Bench評估了視頻LLMs根據三種不同情境在特定時間戳記下推理和回應事件的能力:(1)向後追踪:追溯到過去事件以回答問題。(2)實時理解:理解並回應當前時間戳記下正在發生的事件。(3)向前主動回應:延遲回應,直到有足夠的未來信息可準確回答問題。OVO-Bench包括12個任務,涵蓋644個獨特視頻和約2800個精細的元注釋,具有精確的時間戳記,由人工精心編輯。我們結合自動生成流程和人工編輯。通過這些高質量樣本,我們進一步開發了一個評估流程,以系統地查詢視頻LLMs沿著視頻時間軸。對九個視頻LLMs的評估顯示,儘管在傳統基準上取得了進展,但當前模型在在線視頻理解方面仍存在困難,與人類代理相比存在顯著差距。我們希望OVO-Bench將推動視頻LLMs的進步,激發未來在線視頻推理研究。我們的基準和代碼可在https://github.com/JoeLeelyf/OVO-Bench上訪問。
最近多模式大型語言模型(MLLMs)的進步顯著提升了它們對單張圖像的細緻感知和跨多張圖像的整體理解能力。然而,現有的 MLLMs 仍然在實現複雜多圖像情境中的精確鋪陳方面面臨挑戰。為了應對這一問題,我們首先探索了一個「Chain-of-Thought(CoT)」框架,將單張圖像的鋪陳與多張圖像的理解相結合。儘管部分有效,但由於其非端對端的特性,仍然存在不穩定性並難以捕捉抽象的視覺信息。因此,我們引入了 Migician,這是第一個能夠在多張圖像之間進行自由形式和準確鋪陳的多圖像鋪陳模型。為了支持這一點,我們提出了 MGrounding-630k 數據集,其中包含從現有數據集衍生的幾個多圖像鋪陳任務的數據,以及新生成的自由形式鋪陳指示遵循數據。此外,我們提出了 MIG-Bench,這是一個專門設計用於評估多圖像鋪陳能力的全面基準。實驗結果表明,我們的模型實現了顯著優越的多圖像鋪陳能力,比最佳現有的 MLLMs 高出 21.61%,甚至超越了規模更大的 70B 模型。我們的代碼、模型、數據集和基準均已完全開源。
大型語言模型(LLMs)近年來在表現上取得了顯著的成就,但基本上受到底層訓練數據的限制。為了超越訓練數據,最近的研究探討了如何利用LLMs生成合成數據以進行自主自我改進。然而,連續的自我改進步驟可能會達到收益遞減的程度。在這項工作中,我們提出了一種補充方法來進行自我改進,即對語言模型的多智能體社會應用微調。一組語言模型,全部從同一基礎模型開始,通過更新每個模型使用通過模型間多智能體互動生成的數據來獨立進行專業化。通過在獨立數據集上訓練每個模型,我們說明了這種方法如何實現模型之間的專業化和模型集合的多樣化。因此,我們的整體系統能夠保留多樣的推理鏈,並在比單一智能體自我改進方法更多輪的微調中自主改進。我們定量說明了這種方法在廣泛的推理任務套件中的有效性。
結構化圖像理解,例如解讀表格和圖表,需要在圖像中不同結構和文本之間進行策略性地重新聚焦,形成推理序列以得出最終答案。然而,目前的多模式大型語言模型(LLMs)缺乏這種多跳選擇性注意力能力。在這項工作中,我們引入了ReFocus,這是一個簡單而有效的框架,它賦予了多模式LLMs通過代碼對輸入圖像進行視覺編輯的能力,從而轉移和優化他們的視覺焦點,生成“視覺思維”。具體來說,ReFocus使多模式LLMs能夠生成Python代碼來調用工具並修改輸入圖像,依次繪製方框,突出顯示部分,並遮罩區域,從而增強視覺推理過程。我們對涉及表格和圖表的各種結構化圖像理解任務進行了實驗。ReFocus在所有任務上大幅提高了性能,相較於沒有視覺編輯的GPT-4o,表格任務平均提高了11.0%,圖表任務提高了6.8%。我們對不同視覺編輯的影響進行了深入分析,以及ReFocus為何能夠提高性能而不引入額外信息的原因。此外,我們使用ReFocus收集了一倩的訓練集,證明了這種具有中間信息的視覺思維鏈比標準VQA數據提供了更好的監督,相對於使用QA對進行訓練的相同模型,平均提高了8.0%,比CoT高出2.6%。
透過擴散模型,文本轉視頻生成已取得顯著進展。然而,多概念視頻定制(MCVC)仍然是一個重要挑戰。我們在這項任務中確定了兩個關鍵挑戰:1)身份解耦問題,直接採用現有的定制方法在同時處理多個概念時不可避免地混合屬性,以及2)高質量視頻-實體對的稀缺性,這對於訓練代表並解耦各種概念的模型至關重要。為了應對這些挑戰,我們引入了ConceptMaster,這是一個創新框架,有效應對身份解耦的關鍵問題,同時在定制視頻中保持概念的忠實性。具體來說,我們引入了一種新穎的策略,學習解耦的多概念嵌入,並以獨立方式注入到擴散模型中,這有效保證了具有多個身份的定制視頻的質量,即使對於非常相似的視覺概念也是如此。為了進一步克服高質量MCVC數據的稀缺性,我們精心建立了一個數據構建流程,這使得能夠系統性地收集跨不同概念的精確多概念視頻-實體數據。設計了一個全面的基準測試來驗證我們的模型在三個關鍵維度上的有效性:概念忠實度、身份解耦能力以及在六種不同概念組合情景下的視頻生成質量。大量實驗表明,我們的ConceptMaster在這項任務中明顯優於先前的方法,為生成跨多個概念的個性化和語義準確的視頻鋪平了道路。
影片個性化方法使我們能夠合成具有特定概念的影片,例如人物、寵物和地點。然而,現有方法通常專注於有限的領域,需要耗時的每個主題的優化,或僅支持單一主題。我們提出了Video Alchemist - 一種具有內置多主題、開放式個性化能力的影片模型,可用於前景物件和背景,消除了對耗時的測試時間優化的需求。我們的模型建立在一個新的Diffusion Transformer模塊上,該模塊將每個條件參考圖像及其對應的主題級文本提示與交叉注意力層融合。開發這樣一個大型模型面臨兩個主要挑戰:數據集和評估。首先,由於參考圖像和影片的配對數據集非常難以收集,我們選擇將選定的影片幀作為參考圖像,並合成目標影片的片段。然而,儘管模型可以輕鬆去噪訓練影片,但它們無法推廣到新的情境。為了緩解這個問題,我們設計了一個新的自動數據構建流程,其中包括廣泛的圖像增強。其次,評估開放式影片個性化本身就是一個挑戰。為了應對這一問題,我們引入了一個著重於準確主題忠實度並支持多樣化個性化場景的個性化基準。最後,我們的廣泛實驗表明,我們的方法在定量和定性評估中顯著優於現有的個性化方法。
本研究展示了一種新穎的方法,用於測試視覺-大型語言模型(VLM/LLM)的安全邊界,該方法是將EICAR測試文件嵌入JPEG圖像中。我們在多個LLM平台上成功執行了四個不同的協議,包括OpenAI GPT-4o、Microsoft Copilot、Google Gemini 1.5 Pro和Anthropic Claude 3.5 Sonnet。實驗驗證了包含EICAR簽名的修改後JPEG文件可以上傳、操作並可能在LLM虛擬工作空間內執行。主要發現包括:1)在圖像元數據中掩蓋EICAR字符串的一致能力而不被檢測到,2)在LLM環境中使用基於Python的操作成功提取測試文件,以及3)展示了多種混淆技術,包括base64編碼和字符串反轉。本研究擴展了微軟研究的「滲透測試參與規則」框架,以評估基於雲的生成式人工智能和LLM的安全邊界,特別關注容器化環境內的文件處理和執行能力。
傳統的塑膠片(Cel)動畫製作流程包括多個重要步驟,包括故事板繪製、佈局設計、關鍵幀動畫、中間畫製作和上色,這些步驟需要大量的人力投入、技術專長和時間。這些挑戰歷史上一直影響著Cel動畫製作的效率和可擴展性。生成式人工智慧(GenAI)的興起,包括大型語言模型、多模態模型和擴散模型,通過自動化任務如中間畫生成、上色和故事板創建,提供了創新的解決方案。本調查探討了GenAI整合如何通過降低技術門檻、擴大對諸多創作者的可及性,透過AniDoc、ToonCrafter和AniSora等工具,使藝術家能夠更多專注於創意表達和藝術創新,從而革新傳統動畫工作流程。儘管具有潛力,但保持視覺一致性、確保風格連貫和應對道德考量等問題仍然存在挑戰。此外,本文討論了未來的發展方向,並探討了AI輔助動畫的潛在進展。如需進一步探索和資源,請訪問我們的GitHub存儲庫:https://github.com/yunlong10/Awesome-AI4Animation
大型語言模型(LLM)的領域自適應後訓練已成為專業領域(如醫學和金融)的一種有前途的方法。然而,在識別跨不同數據和模型配置的最佳適應標準和訓練策略方面仍存在重大挑戰。為應對這些挑戰,我們引入了FINDAP,進行了對金融領域的LLM領域自適應後訓練的系統性和細緻調查。我們的方法始於識別目標領域所需的核心能力,並設計了與這些需求一致的全面評估套件。然後,我們分析了關鍵後訓練階段的有效性,包括持續預訓練、指導調整和偏好對齊。基於這些見解,我們提出了一種以新穎的偏好數據提煉方法為核心的有效訓練配方,該方法利用來自生成性獎勵模型的過程信號。結果模型Llama-Fin在各種金融任務中實現了最先進的性能。我們的分析還突顯了每個後訓練階段如何為不同的能力做出貢獻,揭示了具體的挑戰和有效的解決方案,為LLM的領域自適應提供了寶貴的見解。項目頁面:https://github.com/SalesforceAIResearch/FinDap