每日精選AI研究論文及翻譯
儘管下一個令牌預測被視為通往人工通用智能的有前途途徑,但在多模式任務中卻難以優秀,這些任務仍然被擴散模型(例如,穩定擴散)和組合方法(例如,CLIP結合LLM)所主導。在本文中,我們介紹了Emu3,這是一套全新的最先進多模式模型,僅通過下一個令牌預測進行訓練。通過將圖像、文本和視頻標記化為離散空間,我們在混合多模式序列上從頭開始訓練一個單一的Transformer。Emu3在生成和感知任務中優於幾個知名的特定任務模型,超越了旗艦模型如SDXL和LLaVA-1.6,同時消除了擴散或組合結構的需求。Emu3還能夠通過預測視頻序列中的下一個令牌來生成高保真度的視頻。我們通過專注於一個核心焦點:令牌,簡化了複雜的多模式模型設計,從而在訓練和推斷過程中實現了巨大的潛力擴展。我們的結果表明,下一個令牌預測是通往超越語言範疇的通用多模式智能建構的有前途途徑。我們開源了關鍵技術和模型,以支持在這個方向上進一步的研究。
本文介紹了MIO,一個建立在多模態標記上的新型基礎模型,能夠以端對端、自回歸的方式理解和生成語音、文本、圖像和視頻。儘管大型語言模型(LLMs)和多模態大型語言模型(MM-LLMs)的出現通過其多功能能力推動了人工通用智能的進步,但它們仍然缺乏真正的任意-任意理解和生成。最近,GPT-4o的釋出展示了任意-任意LLMs在複雜現實任務中的巨大潛力,實現了跨圖像、語音和文本的全方位輸入和輸出。然而,它是封閉源碼的,並不支持生成多模態交錯序列。為了填補這一空白,我們提出了MIO,它是通過因果多模態建模對四種模態的離散標記進行訓練。MIO經歷了四階段的訓練過程:(1)對齊預訓練,(2)交錯預訓練,(3)語音增強預訓練和(4)在多樣的文本、視覺和語音任務上進行全面監督微調。我們的實驗結果表明,與以前的雙模態基線、任意-任意模型基線甚至特定模態基線相比,MIO表現出有競爭力的,有時甚至是優越的性能。此外,MIO展示了與其任意-任意特性相關的先進功能,如交錯視頻-文本生成、視覺思維推理、視覺指導生成、指導性圖像編輯等。
誠實是對齊大型語言模型(LLMs)與人類價值觀的基本原則,要求這些模型能夠識別自己所知道和不知道的事情,並能夠忠實表達其知識。儘管前景看好,目前的LLMs仍然表現出顯著的不誠實行為,例如自信地呈現錯誤答案或無法表達其所知。此外,關於LLMs誠實性的研究也面臨挑戰,包括對誠實的不同定義、區分已知和未知知識的困難,以及對相關研究缺乏全面的理解。為了應對這些問題,我們提供了一份關於LLMs誠實性的調查,涵蓋其澄清、評估方法和改進策略。此外,我們還提供了未來研究的見解,旨在激發這一重要領域的進一步探索。
模型尺寸的擴展顯著挑戰了大型語言模型(LLMs)的部署和推斷。由於LLM權重中的冗余性,最近的研究集中在將僅權重量化推向極低比特(甚至降至2比特)。這降低了內存需求,優化了存儲成本,並在推斷期間降低了內存帶寬需求。然而,由於數值表示的限制,傳統基於標量的權重量化難以實現如此極低比特。最近對LLMs的向量量化(VQ)的研究表明,通過使用查找表將向量壓縮為索引,具有實現極低比特模型量化的潛力。 在本文中,我們介紹了用於LLMs極低比特量化的向量事後訓練量化(VPTQ)。我們使用二階優化來制定LLM VQ問題,通過解決優化問題來引導我們的量化算法設計。我們進一步使用獨立通道的二階優化來對權重進行細化,以實現粒度化的VQ。此外,通過分解優化問題,我們提出了一個簡潔有效的碼本初始化算法。我們還將VPTQ擴展到支持殘差和異常值量化,從而提高模型準確性並進一步壓縮模型。我們的實驗結果顯示,VPTQ在LLaMA-2上將模型量化困惑度降低了0.01-0.34,在Mistral-7B上降低了0.38-0.68,在LLaMA-3上降低了4.41-7.34,相對於2比特的SOTA,平均準確性提高了0.79-1.5%在LLaMA-2上,1%在Mistral-7B上,在LLaMA-3上的QA任務平均提高了11-22%。我們僅利用了10.4-18.6%的量化算法執行時間,使推斷吞吐量相對於SOTA增加了1.6-1.8倍。
文件內容分析一直是計算機視覺中一個至關重要的研究領域。儘管像是OCR、版面檢測和公式識別等方法取得了顯著進展,現有的開源解決方案仍然難以因應文件類型和內容的多樣性而持續提供高質量的內容提取。為應對這些挑戰,我們提出了MinerU,這是一個用於高精度文件內容提取的開源解決方案。MinerU利用先進的PDF-Extract-Kit模型有效地從各種文件中提取內容,並採用精心調整的預處理和後處理規則來確保最終結果的準確性。實驗結果表明,MinerU在各種文件類型上始終保持高性能,顯著提升了內容提取的質量和一致性。MinerU開源項目可在https://github.com/opendatalab/MinerU找到。
我們提出了 PhysGen,一種新穎的影像轉視頻生成方法,將單張影像和輸入條件(例如,應用於影像中物體的力和扭矩)轉換為產生逼真、符合物理規律且時間上一致的視頻。我們的關鍵洞察是將基於模型的物理模擬與數據驅動的視頻生成過程相結合,實現了可信的影像空間動態。我們系統的核心組成部分包括三個核心組件:(i)一個影像理解模塊,有效捕捉影像的幾何形狀、材料和物理參數;(ii)一個利用剛體物理和推斷參數進行模擬的影像空間動力學模型,模擬逼真行為;以及(iii)一個利用生成式視頻擴散進行影像渲染和細化的模塊,生成展示模擬運動的逼真視頻素材。生成的視頻在物理和外觀上都是逼真的,甚至可以精確控制,通過定量比較和全面的用戶研究展示出優於現有數據驅動影像轉視頻生成作品的卓越結果。PhysGen 生成的視頻可用於各種下游應用,例如將影像轉換為逼真動畫或讓用戶與影像互動並創建各種動態。項目頁面:https://stevenlsw.github.io/physgen/
偏好優化方法通常會以一個訓練有素的SFT模型作為參考模型開始訓練。在RLHF和DPO中,在偏好優化過程中使用一個正則化項,以防止策略模型偏離過遠參考模型的分佈,從而避免生成異常回應。當參考模型已經與給定數據很好地對齊或僅需要輕微調整時,這種方法可以產生一個良好對齊的模型。然而,如果參考模型與給定數據不對齊並且需要從其當前狀態明顯偏離,正則化項實際上可能會妨礙模型對齊。在本研究中,我們提出了調節干預偏好優化(MIPO)來解決這個問題。MIPO根據給定數據與參考模型對齊的程度調節從參考模型的干預程度。如果數據對齊良好,則增加干預以防止策略模型明顯偏離參考模型。相反,如果對齊不佳,則減少干擾以促進更廣泛的訓練。我們使用Mistral-7B和Llama3-8B在Alpaca Eval 2.0和MT-Bench上比較MIPO和DPO的性能。實驗結果表明,在各種評估場景中,MIPO始終優於DPO。
本文介紹了一種新的方法,利用大型語言模型(LLMs)進行分類任務,通常這些任務是使用機器學習(ML)模型處理的。與依賴大量數據清理和特徵工程的ML模型不同,這種方法利用LLMs簡化了過程。本文提出了一個名為「語言模型學習(LML)」的新概念,由一種名為「數據增強預測(DAP)」的新方法驅動。分類由LLMs執行,使用一種類似於人類手動探索和理解數據並根據數據作為參考進行分類的方法。訓練數據被總結並評估,以確定導致每個標籤分類的特徵。在DAP過程中,系統使用數據摘要自動創建查詢,用於從數據集檢索相關行。LLMs使用數據摘要和相關行生成分類,確保即使在複雜數據情況下也能獲得令人滿意的準確性。在DAP中使用數據摘要和相似數據確保了上下文感知的決策。所提出的方法在提示中使用「作為可解釋的機器學習模型」一詞,以增強預測的可解釋性,使用戶可以查看每個預測背後的邏輯。在某些測試案例中,系統的準確率超過90%,證明了系統的有效性以及在各種場景中超越傳統ML模型的潛力。代碼可在https://github.com/Pro-GenAI/LML-DAP找到。
對於代理人而言,長期記憶至關重要,其中洞察扮演著關鍵角色。然而,不相關的洞察出現以及缺乏一般性洞察可能會嚴重削弱洞察的效力。為了解決這個問題,在本文中,我們介紹了多尺度洞察代理人(MSI-Agent),這是一個具體化代理人,旨在通過有效地概括和利用不同尺度上的洞察來提高LLMs的規劃和決策能力。MSI通過經驗選擇器、洞察生成器和洞察選擇器實現這一目標。利用三部分流程,MSI能夠生成任務特定和高層次的洞察,將其存儲在數據庫中,然後利用其中的相關洞察來幫助決策。我們的實驗表明,當使用GPT3.5進行規劃時,MSI在超越另一種洞察策略方面表現出色。此外,我們深入探討了選擇種子經驗和洞察的策略,旨在為LLM提供更有用和相關的洞察,以便做出更好的決策。我們的觀察還表明,當面臨領域轉移情況時,MSI表現出更好的穩健性。
儘管近年來大型語言模型(LLMs)取得了重大進展,但它們在需要多步思考和結合各種技能的複雜推理問題上的表現仍然有限。為了應對這一挑戰,我們提出了一個新的框架 HDFlow,用於與LLMs進行複雜推理,該框架以自適應方式結合快速和慢速思考模式。我們的方法包括兩個關鍵組件:1)一種名為動態工作流的慢速、深思熟慮推理新方法,該方法自動將複雜問題分解為更易處理的子任務,並動態設計工作流程以組裝專用LLM或符號推理工具來解決子任務;2)混合思維,一個通用框架,根據問題的複雜性動態結合快速和慢速思考。最後,我們提出了一種易於擴展的方法,用於自動合成一個包含27K個具有挑戰性的推理問題的大規模數據集,以及一種混合思維調整方法,該方法在此數據集上訓練較小的LLMs,以內化快速/慢速混合推理策略。在四個推理基準數據集上的實驗表明,我們的慢速思考與動態工作流明顯優於思維鏈,而混合思維在提供最高準確性的同時,在計算效率和性能之間提供了有效的平衡。使用我們的混合思維方法進行微調還顯著提升了開源語言模型的複雜推理能力。這些結果展示了慢速思考、動態工作流和混合思維在擴展LLMs進行複雜問題解決的前沿中的潛力。代碼和數據將在 \url{https://github.com/wenlinyao/HDFlow.} 上發布。