每日精選AI研究論文及翻譯
大型語言模型(LLMs)在推理任務上展現出卓越的表現。它們利用自回歸標記生成來構建推理軌跡,從而促使一個連貫的思維鏈的發展。在這項工作中,我們探討個別標記對推理任務最終結果的影響。我們確定了在LLMs中導致不正確推理軌跡的「關鍵標記」的存在。具體而言,我們發現當LLMs被迫解碼其他標記而不是關鍵標記時,它們往往會產生正面結果。受到這一觀察的啟發,我們提出了一種新方法 - cDPO - 旨在在對齊過程中自動識別並對關鍵標記進行標記級獎勵。具體而言,我們開發了一種對比估計方法,用於自動識別關鍵標記。通過比較正面和負面模型的生成概率,實現了這一點。為了實現這一目標,我們分別對正面和負面模型在各種推理軌跡上進行了微調,因此,它們能夠識別不正確軌跡中導致錯誤結果的關鍵標記。此外,為了在對齊過程中進一步使模型與關鍵標記信息保持一致,我們將傳統的DPO算法擴展為標記級DPO,並利用上述正面和負面模型的差異概率作為標記級DPO學習的重要權重。在GSM8K和MATH500基準測試上,使用兩個廣泛使用的模型Llama-3(8B和70B)和deepseek-math(7B)進行的實驗結果展示了所提出的方法cDPO的有效性。
目前的視頻生成模型擅長生成短片,但在創建多鏡頭、類似電影的視頻方面仍然存在困難。現有的模型在豐富的計算資源支持下訓練於大規模數據,往往無法保持跨多個鏡頭的邏輯故事情節和視覺一致性,因為它們通常是以單鏡頭目標進行訓練的。為此,我們提出了一種名為“思維視頻生成器”(VGoT)的協作和無需訓練的架構,專門用於多鏡頭視頻生成。VGoT 設計時考慮了三個目標,具體如下。多鏡頭視頻生成:我們將視頻生成過程分為結構化的模塊序列,包括(1)劇本生成,將簡短故事轉換為每個鏡頭的詳細提示;(2)關鍵幀生成,負責創建與角色塑造相符的視覺一致的關鍵幀;和(3)鏡頭級視頻生成,將劇本和關鍵幀的信息轉換為鏡頭;(4)平滑機制確保一致的多鏡頭輸出。合理的敘事設計:受電影劇本撰寫的啟發,我們的提示生成方法涵蓋五個關鍵領域,確保整個視頻中的邏輯一致性、角色發展和敘事流暢。跨鏡頭一致性:我們通過利用跨鏡頭的保持身份(IP)嵌入來確保時間和身份的一致性,這些嵌入是從敘事中自動創建的。此外,我們還融入了一種跨鏡頭平滑機制,該機制整合了一個重置邊界,有效地結合相鄰鏡頭的潛在特徵,實現平滑過渡,並在整個視頻中保持視覺一致性。我們的實驗表明,VGoT 在生成高質量、連貫的多鏡頭視頻方面超越了現有的視頻生成方法。
促進LLM之間有效協作是發展能夠解決複雜問題的自主系統的關鍵步驟。雖然LLM通常被用作單模型生成器,人們對其輸出進行評論和精煉,但共同訓練協作模型的潛力仍然大多未被探索。儘管在多智能體通信和辯論環境中取得了一些有希望的結果,但在訓練模型共同處理任務方面進展甚微。本文提出了朝向在推理問題上進行“多智能體LLM訓練”(MALT)的第一步。我們的方法採用了一種順序多智能體設置,其中異質LLM被分配專門角色:一個生成器、一個驗證器和一個精煉模型,它們通過迭代解決問題。我們提出了一種基於軌跡擴展的合成數據生成過程,以及一種基於聯合結果為基礎的獎勵驅動的信用分配策略。這使得我們的後訓練設置能夠利用正向和負向軌跡來自主改進每個模型的專業能力,作為一個聯合順序系統的一部分。我們在MATH、GSM8k和CQA上評估了我們的方法,在Llama 3.1 8B模型上,MALT實現了相對改進,分別為14.14%、7.12%和9.40%。這表明了在數學和常識推理問題的性能上,多智能體合作能力的早期進展。更廣泛地說,我們的工作為圍繞多智能體LLM訓練方法的研究提供了具體方向。
與其對應的結果獎勵模型(ORMs)不同,評估整個回應,過程獎勵模型(PRM)逐步評分推理軌跡,提供更密集和更精細的獎勵。然而,訓練PRM需要在每個中間步驟進行標註的標籤,對於手動和自動數據收集都帶來重大挑戰。本文旨在應對這一挑戰。從理論和實證上,我們展示可以在不增加額外成本的情況下獲得一個隱式PRM,只需在更便宜的回應級標籤上訓練ORM即可。唯一的假設是將結果獎勵參數化為策略和參考模型的對數概率比,這可以進行優化,無論損失目標的具體選擇如何。在實驗中,我們使用各種目標實例化我們的隱式PRM,並在MATH上評估其性能。我們展示,我們的隱式PRM在使用不到1/38的訓練數據的情況下勝過一個強大的基於MCTS的基線 \'a la Math-Shepherd。其性能可以通過多數投票進一步提高。我們進一步發現,增加指令和回應的規模有助於我們的隱式PRM,後者帶來更大的增益。特別是,我們發現,當使用交叉熵(CE)損失實例化我們的隱式PRM時,更具數據效率,即使只用一個回應訓練,也能不斷改進生成模型,這種設置受到極端數據稀缺和不平衡的影響。此外,指令應與下游任務相關,而回應的多樣性並不會帶來增益。令人驚訝的是,訓練額外的Math-Shepherd步驟標籤對於我們只在結果數據上訓練的隱式PRM帶來進一步改進。我們希望我們的工作將鼓勵重新思考PRM訓練方法,並有助於使訓練PRM更具可及性。
大型語言模型(LLMs)已經使多模式LLMs的創建成為可能,這些模型展現出對視覺數據(如圖像和視頻)的強大理解能力。然而,這些模型通常依賴來自視覺編碼器的大量視覺標記,導致高計算需求,這限制了它們在資源受限環境和長篇文本任務中的應用。在這項工作中,我們提出了一種無需訓練的適應性推理方法,適用於多模式LLMs,可以滿足廣泛的效率要求,並最小化性能下降。我們的方法包括:a)在LLMs之前基於嵌入相似性進行迭代標記合併,以及b)基於多模式重要性在LLM層內進行漸進式標記修剪。通過極簡設計,我們的方法可應用於視頻和圖像LLMs。在各種視頻和圖像基準測試上進行的大量實驗表明,我們的方法大幅減少了計算負載(例如,在FLOPs上減少了7倍),同時保持了視頻和圖像LLMs的性能。此外,在類似的計算成本下,我們的方法在長視頻理解方面優於最先進的方法(例如,在MLVU上+4.6)。此外,我們的深入分析提供了關於標記冗餘性和LLM層行為的見解,為未來設計高效多模式LLMs的研究提供指導。我們的程式碼將在https://github.com/LaVi-Lab/AIM 上提供。
最近,多模式大型語言模型(MLLMs),如GPT-4o、Gemini 1.5 Pro和Reka Core,已擴展其功能以包括視覺和音訊模式。儘管這些模型在各種視聽應用中展現出令人印象深刻的性能,但我們提出的DeafTest顯示,MLLMs常常在人類認為微不足道的簡單任務上遇到困難:1)確定兩個聲音中哪個更大聲,以及2)確定兩個聲音中哪個音調更高。受到這些觀察的啟發,我們引入了AV-Odyssey Bench,這是一個全面的音視覺基準,旨在評估這些MLLMs是否真正理解音視覺信息。該基準包含了4555個精心設計的問題,每個問題都包含文本、視覺和音訊元素。為了成功推斷答案,模型必須有效地利用來自視覺和音訊輸入的線索。為確保對MLLM回答的精確和客觀評估,我們將問題設計為多選項,消除了對人類評估或LLM輔助評估的需求。我們對一系列封閉源和開源模型進行基準測試並總結觀察結果。通過揭示當前模型的限制,我們旨在為未來數據集收集和模型開發提供有用的見解。
檢索增強生成(RAG)通過整合外部知識來增強大型語言模型(LLMs),以減少幻覺並納入最新信息,而無需重新訓練。作為RAG的重要組成部分,外部知識庫通常通過使用光學字符識別(OCR)從非結構化PDF文檔中提取結構化數據來構建。然而,由於OCR的不完美預測和結構化數據固有的非均勻表示,知識庫不可避免地包含各種OCR噪聲。在本文中,我們介紹了OHRBench,這是第一個用於了解OCR對RAG系統的串聯影響的基準。OHRBench包括來自六個真實世界RAG應用領域的350個精心選擇的非結構化PDF文檔,以及從文檔中的多模態元素衍生出的問答,挑戰了用於RAG的現有OCR解決方案。為了更好地了解OCR對RAG系統的影響,我們識別了兩種主要類型的OCR噪聲:語義噪聲和格式噪聲,並應用擾動生成一組具有不同程度的每種OCR噪聲的結構化數據。使用OHRBench,我們首先對當前OCR解決方案進行全面評估,並揭示沒有一個能夠構建高質量知識庫以供RAG系統使用。然後,我們系統地評估了這兩種噪聲類型的影響,並展示了RAG系統的脆弱性。此外,我們討論了在RAG系統中使用視覺語言模型(VLMs)而無需OCR的潛力。代碼:https://github.com/opendatalab/OHR-Bench
隨著大型語言模型(LLMs)的引入,自然語言生成(NLG)任務的表現出現了顯著改善,包括文本摘要和機器翻譯。然而,LLMs 仍然會產生包含幻覺的輸出,即不基於事實信息的內容。因此,開發評估LLMs事實性的方法變得迫切。 事實上,最近出現了用於評估事實性的資源。儘管具有挑戰性,這些資源面臨以下一個或多個限制:(i)它們針對特定任務或領域量身定制;(ii)它們在規模上受限,從而阻礙了新事實性評估器的訓練;(iii)它們設計用於更簡單的驗證任務,如主張驗證。 為了應對這些問題,我們介紹了LLM-Oasis,據我們所知是目前最大的用於訓練端到端事實性評估器的資源。LLM-Oasis是通過從維基百科提取主張,對其中的一部分主張進行虛假,並生成事實和非事實文本對來構建的。然後,我們依賴人類標註者來驗證我們數據集的質量,並創建一個用於基準測試事實性評估系統的黃金標準測試集。 我們的實驗表明,LLM-Oasis對於最先進的LLMs構成了重大挑戰,其中GPT-4o在我們提出的端到端事實性評估任務中實現了高達60%的準確率,突顯了它在推動未來該領域研究的潛力。
運動控制對於生成具表現力和引人入勝的視頻內容至關重要;然而,大多數現有的視頻生成模型主要依賴文本提示進行控制,這些模型難以捕捉動態動作和時間組合的微妙之處。為此,我們訓練了一個視頻生成模型,其條件是時空稀疏或密集運動軌跡。與先前的運動條件工作相比,這種靈活的表示可以編碼任意數量的軌跡、特定於物體或全局場景運動,以及時間上稀疏的運動;由於其靈活性,我們將其稱為運動提示。雖然用戶可以直接指定稀疏軌跡,但我們還展示了如何將高級用戶請求轉換為詳細的、半密集的運動提示,這個過程我們稱之為運動提示擴展。我們通過各種應用展示了我們方法的多功能性,包括攝像機和物體運動控制、與圖像“互動”、運動轉移和圖像編輯。我們的結果展示了出現的行為,如逼真的物理效果,表明運動提示對於探索視頻模型並與未來生成世界模型互動具有潛力。最後,我們進行了定量評估,進行了人類研究,並展示了強大的性能。視頻結果可在我們的網頁上查看:https://motion-prompting.github.io/
我們介紹了一個新穎的框架 OmniCreator,可以在同一平台上進行由文字提示驅動的統一(圖像+視頻)生成和編輯。OmniCreator通過自監督方式獲取生成和通用編輯能力,以原始的文字-視頻對作為條件,同時利用相同的視頻作為去噪目標,學習視頻與文字之間的語義對應。在推斷時,當提供文字提示和視頻時,OmniCreator能夠生成忠實於兩者的目標,實現一種無限制的通用編輯效果,與現有主要專注於特定編輯類型或依賴額外控制(例如結構條件、注意特徵或DDIM反演)的編輯工作相對。另一方面,當僅提供文字提示時,OmniCreator變為生成型,通過學習的語義對應產生高質量的視頻。重要的是,我們發現相同的能力也適用於圖像,使OmniCreator成為一個真正統一的框架。此外,由於缺乏現有的生成式視頻編輯基準,我們介紹了 OmniBench-99 數據集,旨在全面評估生成式視頻編輯模型的性能。大量實驗表明,OmniCreator在所有其他模型上表現出顯著的優越性。
近來,對於三維視覺語言模型(3D-VLMs)的研究越來越受到關注,這對於在三維場景中發展具體化人工智慧至關重要,例如視覺導航和具體化問答。由於視覺特徵在大型三維場景中非常密集,準確定位任務相關的視覺信息具有挑戰性。現有研究試圖對所有物體進行分割,並將它們的特徵視為場景表示。然而,這些任務不可知的物體特徵包含大量冗餘信息,並且缺少任務相關區域的細節。為了應對這些問題,我們提出了LSceneLLM,一個自適應框架,通過利用LLM對不同任務的視覺偏好自動識別任務相關區域,然後使用即插即用的場景放大器模塊捕獲焦點區域的細節。具體而言,一個密集的標記選擇器檢查LLM的注意力地圖,以識別指令輸入的視覺偏好,然後放大焦點區域的細節。利用自適應自注意力模塊融合粗粒和選定的細粒視覺信息。為了全面評估3D-VLMs的大場景理解能力,我們進一步引入了一個跨房間理解基準XR-Scene,其中包含一系列大場景理解任務,包括XR-QA、XR-EmbodiedPlanning和XR-SceneCaption。實驗表明,我們的方法在大場景理解和現有場景理解基準上均優於現有方法。將我們的場景放大器模塊應用於現有的3D-VLMs中也帶來了顯著的改進。
視覺分詞器因其可擴展性和緊湊性而受到廣泛關注;先前的研究依賴於老派 GAN-based 超參數、帶有偏見的比較,以及對擴展行為缺乏全面分析。為了應對這些問題,我們引入了分組球面量化(GSQ),具備球面碼簿初始化和查找正則化,以將碼簿潛在約束於球面上。我們對圖像分詞器訓練策略的實證分析顯示,GSQ-GAN 在較少的訓練迭代次數下實現了優越的重建質量,為擴展研究奠定了堅實基礎。基於此,我們系統地研究了 GSQ 的擴展行為,特別是在潛在維度、碼簿大小和壓縮比方面,以及它們對模型性能的影響。我們的研究發現揭示了在高低空間壓縮水平下的不同行為,突顯了在表示高維潛在空間方面的挑戰。我們表明,GSQ 能夠將高維潛在重組為緊湊、低維空間,從而實現具有改善質量的有效擴展。因此,GSQ-GAN 實現了 16 倍的下採樣,並具有 0.50 的重建 FID(rFID)。
參考圖像分割(RIS)是一項先進的視覺語言任務,涉及根據自由形式文本描述識別和分割圖像中的物體。雖然先前的研究著重於對齊視覺和語言特徵,但探索訓練技術,如數據擴增,仍未被充分探討。在這項工作中,我們探索了對RIS有效的數據擴增,並提出了一個名為Masked Referring Image Segmentation(MaskRIS)的新型訓練框架。我們觀察到傳統的圖像增強對RIS效果不佳,導致性能下降,而簡單的隨機遮罩明顯提升了RIS的性能。MaskRIS使用圖像和文本遮罩,接著採用Distortion-aware Contextual Learning(DCL)以充分利用遮罩策略的好處。這種方法可以提高模型對遮擋、不完整信息和各種語言複雜性的韌性,從而顯著提升性能。實驗表明,MaskRIS可以輕鬆應用於各種RIS模型,並在完全監督和弱監督設置中優於現有方法。最後,MaskRIS在RefCOCO、RefCOCO+和RefCOCOg數據集上實現了新的最先進性能。代碼可在https://github.com/naver-ai/maskris找到。
AI 技術正迅速從研究走向生產。隨著能生成文本、圖像和視頻的基礎模型(FMs)的普及,基於 AI 的系統正變得越來越複雜。與傳統基於 AI 的軟件相比,採用 FMs 或基於 GenAI 的系統更難設計,因為它們的規模和多功能性。這使得有必要記錄最佳實踐,即軟件工程中稱為設計模式的知識,這些知識可以在 GenAI 應用中使用。我們的第一個貢獻是將兩種技術,任務分解和檢索增強生成(RAG),正式化為 GenAI 系統的設計模式。我們討論它們在軟件質量屬性方面的權衡,並評論替代方法。我們建議 AI 從業者不僅從科學角度,還應從靈活性、可維護性、安全性和保密性等期望的工程特性角度考慮這些技術。作為第二個貢獻,我們描述了我們在工業界應用任務分解和 RAG 來為企業用戶構建一個複雜的真實世界 GenAI 應用的經驗:工作流生成。生成工作流的任務包括使用系統環境中的數據生成具體計劃,以用戶需求為輸入。由於這兩種模式影響整個 AI 開發周期,我們解釋了它們如何影響數據集創建、模型訓練、模型評估和部署階段。
AIPC概念正日益普及,越來越多的混合CPU將在客戶設備上運行AI模型。然而,目前的AI推論框架忽略了混合CPU不平衡的硬體能力,導致推論性能不佳。為解決此問題,我們引入了一種動態並行方法用於混合CPU,通過在並行工作開始之前平衡每個核心的工作量,顯著提高了LLM推論性能。這種方法使得Neural Speed在兩個混合Intel CPU上實現了超過90%(平均值)的記憶體帶寬利用率。
視頻精選檢測和時刻檢索(HD/MR)在視頻分析中至關重要。最近的聯合預測轉換器模型通常忽略了跨任務動態和視頻文本對齊與細化。此外,大多數模型通常使用有限的單向注意機制,導致集成表示薄弱並且在捕捉視頻和文本模態之間的相互依賴性方面表現不佳。儘管大型語言和視覺語言模型(LLM/LVLMs)在各個領域中日益受到重視,但它們在這一領域的應用相對較少被探索。在這裡,我們提出了VideoLights,一個新穎的HD/MR框架,通過以下方式解決這些限制:(i)具有對齊損失的卷積投影和特徵細化模塊,以實現更好的視頻文本特徵對齊,(ii)雙向跨模態融合網絡,用於強耦合的查詢感知片段表示,以及(iii)通過相關性增強兩個任務的單向聯合任務反饋機制。此外,(iv)我們引入了硬正/負損失,以適應性錯誤處罰和改進學習,以及(v)利用像BLIP-2這樣的LVLMs進行增強的多模態特徵集成和使用從LVLMs生成的合成數據進行智能預訓練。在QVHighlights、TVSum和Charades-STA基準測試上進行的全面實驗表明了最先進的性能。代碼和模型可在https://github.com/dpaul06/VideoLights 上找到。