每日精選AI研究論文及翻譯
在大型視覺語言模型(LVLMs)中,圖像作為輸入承載豐富的信息。正如諺語“一圖勝千言”所暗示的,目前的LVLMs中代表單張圖像可能需要數百甚至數千個標記。這導致顯著的計算成本,隨著輸入圖像解析度的增加呈二次方增長,從而嚴重影響了訓練和推理的效率。先前的方法嘗試在LVLMs的早期層之前或內部減少圖像標記的數量。然而,這些策略不可避免地導致關鍵圖像信息的損失,最終降低了模型的性能。為應對這一挑戰,我們進行了一項實證研究,揭示了在淺層LVLMs中所有視覺標記的必要性,以及在模型的深層中標記冗余性逐漸增加。為此,我們提出了PyramidDrop,一種用於LVLMs的視覺冗余減少策略,以提高其在訓練和推理中的效率,同時性能損失可以忽略不計。具體而言,我們將LVLM分為幾個階段,在每個階段的末尾丟棄部分圖像標記,並以預定比例創建跨模型層的金字塔狀視覺標記。丟棄基於輕量級相似性計算,時間開銷微乎其微。大量實驗表明,PyramidDrop可以實現與LLaVA-NeXT相比,訓練時間加速40%,推理FLOPs加速55%,並具有可比擬的性能。此外,PyramidDrop還可以作為一種即插即用的策略用於推理加速,無需訓練,性能更好,推理成本更低。我們希望PyramidDrop所介紹的見解和方法將激發未來研究進一步探討圖像標記在LVLMs中的作用。
我們提出了SpectroMotion,一種結合了三維高斯點陣(3DGS)、基於物理的渲染(PBR)和變形場的新方法,用於重建動態鏡面場景。先前將3DGS擴展到建模動態場景的方法一直難以準確表示鏡面表面。我們的方法通過引入一種殘差校正技術來在變形過程中準確計算表面法線,並輔以一個可適應時間變化照明條件的可變環境貼圖,來解決這一限制。我們實現了一種由粗到細的訓練策略,顯著增強了場景幾何和鏡面顏色預測。我們展示了我們的模型在視角合成包含動態鏡面物體的場景方面優於先前方法,並且是唯一能夠合成逼真真實世界動態鏡面場景的現有3DGS方法,勝過了在渲染複雜、動態和鏡面場景方面的最先進方法。
在視覺語言模型(VLMs)中,思維鏈(CoT)推理對於提升可解釋性和可信度至關重要。然而,目前的訓練配方缺乏強大的 CoT 推理數據,依賴於由簡短註釋主導且具有最小合理性的數據集。在這項工作中,我們展示了將 VLM 訓練於簡短答案上並不能很好地應用於需要更詳細回應的推理任務。為了解決這個問題,我們提出了一個雙重方法。首先,我們從 GPT-4o 模型中提煉合理性,以豐富訓練數據並微調 VLM,提升其 CoT 表現。其次,我們應用強化學習進一步校準推理質量。具體來說,我們通過將模型生成的推理鏈的預測與註釋的簡短答案進行比較,構建正(正確)負(不正確)對。利用這些成對數據,我們應用直接偏好優化算法來提煉模型的推理能力。我們的實驗顯示了在基準數據集上 CoT 推理的顯著改善,以及對直接答案預測的更好泛化。這項工作強調了在訓練中納入詳細合理性並利用強化學習來增強 VLM 推理能力的重要性。
自動對齊系統開發了具有最少人為干預的對齊系統。自動對齊的關鍵在於提供可學習且準確的偏好信號,以進行偏好學習,而無需人工標註。本文介紹了自主導向優化(SSO)算法,該算法在迭代訓練期間基於預定原則自主生成高質量的偏好信號,消除了手動標註的需求。SSO通過確保所選和拒絕的回應之間保持一致的差距,同時使它們都符合當前政策模型的學習能力,從而保持信號的準確性。SSO能夠使政策模型的在線和離線訓練受益,並增強獎勵模型的訓練。我們使用兩個基礎模型Qwen2和Llama3.1來驗證SSO的有效性,結果表明它在迭代訓練過程中提供了準確、符合政策的偏好信號。在沒有任何手動標註或外部模型的情況下,SSO在六個主觀或客觀基準測試中顯著提高了性能。此外,SSO生成的偏好數據顯著提升了獎勵模型在Rewardbench上的性能。我們提出了一種可擴展的偏好優化方法,為更高效和有效的自動對齊鋪平了道路。
我們介紹了 xGen-MM-Vid (BLIP-3-Video):一個針對影片的多模式語言模型,特別設計來有效地捕捉多幀的時間信息。BLIP-3-Video 利用了「時間編碼器」,除了傳統的視覺分詞器外,將一系列的標記映射到多幀中,形成一組緊湊的視覺標記。這使得 BLIP3-Video 能夠使用比競爭模型(例如,32 對 4608 個標記)少得多的視覺標記。我們探索了不同類型的時間編碼器,包括可學習的時空池化以及像 Token Turing Machines 這樣的序列模型。我們實驗證實,BLIP-3-Video 在視頻問答準確性方面與更大的最先進模型(例如,34B)相當,同時體積更小(即 4B),並且通過使用更少的視覺標記更有效率。該項目網站位於 https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
最近的大型視覺語言模型(LVLMs)展現出卓越的零-shot 對話和推理能力,尤其在給定多模式查詢時。然而,它們存在物件幻覺的問題,即LVLMs容易生成與圖像輸入事實不符的文本回應。我們的初步研究發現,物件幻覺與Rotary Position Encoding(RoPE)密切相關,RoPE是現有LVLMs中廣泛採用的位置依賴性建模設計。由於RoPE中存在的長期衰減,當相關的視覺線索與多模式輸入序列中的指示標記相距較遠時,LVLMs更容易產生幻覺。此外,我們觀察到在多模式對齊期間反轉視覺標記的順序時也會出現類似的效應。我們的測試表明,RoPE中的長期衰減對LVLMs在捕捉視覺-指示交互作用時跨越長距離存在挑戰。我們提出了Concentric Causal Attention(CCA),這是一種簡單而有效的位置對齊策略,通過自然地減少視覺和指示標記之間的相對距離,減輕了LVLMs中RoPE長期衰減的影響。有了CCA,視覺標記可以更好地與指示標記互動,從而增強模型的感知能力並減輕物件幻覺。在不添加瑣碎功能的情況下,我們的位置對齊方法在多個物件幻覺基準測試中遠遠超越現有的幻覺緩解策略。
知識蒸餾(KD)被廣泛應用於訓練小型、高性能的學生語言模型(LMs),使用大型教師LMs。儘管在微調中有效,但在預訓練期間進行的知識蒸餾面臨效率、靈活性和有效性方面的挑戰。現有方法要麼由於在線教師推斷而產生高計算成本,要麼需要在教師和學生LMs之間進行標記匹配,或者冒著失去教師生成的訓練數據的困難性和多樣性的風險。為解決這些問題,我們提出了MiniPLM,一個用於通過教師的知識來改進訓練數據分佈的KD框架,以預訓練LMs。為了提高效率,MiniPLM進行離線教師LM推斷,使得可以在不增加訓練時間成本的情況下對多個學生LM進行KD。為了提高靈活性,MiniPLM僅在訓練語料庫上運行,實現跨模型家族的KD。為了提高有效性,MiniPLM利用大型和小型LM之間的差異來增強訓練數據的困難性和多樣性,幫助學生LM獲取多才多藝和複雜的知識。廣泛的實驗表明,MiniPLM提高了學生LM在9個廣泛使用的下游任務上的性能,改善了語言建模能力,並減少了預訓練計算。MiniPLM的好處延伸到大型預訓練規模,通過對比例曲線的外推來證明。進一步的分析顯示,MiniPLM支持跨模型家族的KD,並增強了對預訓練數據的利用。我們的模型、代碼和數據可在https://github.com/thu-coai/MiniPLM 上獲得。
在複合人工智慧系統中,組件如LLM調用、檢索器、代碼解釋器或工具是相互連接的。系統的行為主要由指令或工具定義等參數驅動。最近的進展使得可以使用LLM對這些參數進行端到端的優化。值得注意的是,利用LLM作為優化器特別高效,因為它避免了梯度計算,並且能夠生成複雜的代碼和指令。本文介紹了基於LLM對複合人工智慧系統進行優化的原則和新興趨勢的調查。它涵蓋了複合人工智慧系統的典型形式、基於LLM的端到端優化方法,以及對未來方向和更廣泛影響的見解。重要的是,這份調查利用程序分析的概念,提供了一個統一的觀點,說明LLM優化器如何被促使來優化複合人工智慧系統。論文的詳盡清單可在以下網址找到:https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems。
加速非英語語言中大型多模型(LMMs)的研究對於增強更廣泛人群的用戶體驗至關重要。本文介紹了 JMMMU(日本 MMMU),這是第一個大規模的日文基準,旨在根據日本文化背景設計,以評估專家級任務上 LMMs 的表現。為促進全面的文化感知評估,JMMMU 包括兩個互補的子集:(i)文化無關(CA)子集,選擇並將與文化無關的主題(例如數學)翻譯成日文,從而實現與其英文對應 MMMU 的一對一比較;以及(ii)文化特定(CS)子集,包括反映日本文化背景的新創建主題。使用 CA 子集,我們觀察到許多 LMMs 在日文評估時表現下降,這純粹歸因於語言變化。使用 CS 子集,我們揭示了它們對日本文化的不足理解。此外,通過結合兩個子集,我們確定一些 LMMs 在 CA 子集上表現良好,但在 CS 子集上表現不佳,顯示對日語的理解較為膚淺,缺乏文化理解的深度。我們希望這項工作不僅有助於提升 LMM 在日文中的性能,還可作為創建高標準、文化多元的多語言 LMM 發展基準的指南。該項目頁面為 https://mmmu-japanese-benchmark.github.io/JMMMU/。
大型語言模型(LLMs)的高計算成本已導致對LLM壓縮的研究激增,通過量化、稀疏化或結構剪枝等方法。這一領域的新前沿在於動態、非均勻壓縮方法,這些方法根據需要調整每個區塊或甚至每個層的壓縮級別(例如稀疏度),以最小化準確性損失,同時保證全局壓縮閾值。然而,目前的方法依賴於啟發式方法來識別給定層對損失的“重要性”,基於諸如錯誤單調性的假設,即端到端模型壓縮錯誤與逐層錯誤之和成正比。在本文中,我們重新審視了這一領域,並提出了一種新的通用方法,用於動態壓縮,可以在給定的輸入範圍內證明是最優的。我們從激發觀察開始,一般而言,對於LLMs,錯誤單調性並不成立:具有較低逐層錯誤總和的壓縮模型可能表現比具有較高錯誤總和的模型更差。為了應對這一問題,我們提出了一種名為EvoPress的新型通用動態LLM壓縮框架,具有可證明的收斂性,以及低樣本和評估複雜度。我們展示這些理論保證導致EvoPress在Llama、Mistral和Phi模型的動態壓縮方面具有極具競爭力的實際性能。通過EvoPress,我們在所有壓縮方法中設定了新的最新技術成果:結構剪枝(區塊/層丟棄)、非結構稀疏性,以及具有動態位寬的量化。我們的代碼可在https://github.com/IST-DASLab/EvoPress 上找到。
數學推理是大型語言模型(LLM)研究中一個極具活力的領域,因為它是人工智慧的標誌。然而,很少有研究探討數學推理如何在LLM參數中編碼,以及它是否可以在模型中被孤立出來。這樣做可以實現有針對性的干預,以提高數學表現,同時不改變非數學行為,並促進對模型如何編碼數學推理的理解。我們介紹了數學神經外科(MathNeuro),這是一種僅使用前向傳遞來孤立LLM中數學特定參數的方法。MathNeuro在現有工作的基礎上進行了擴展,通過使用權重和激活來計算參數重要性,但通過刪除那些對於一般語言任務重要的參數,從而孤立出數學特定參數。MathNeuro識別出的修剪參數會刪除LLM的數學推理能力,而不會破壞其一般語言能力。通過將這些參數按一個小常數進行縮放,可以使預訓練或指導調整的LLM在GSM8K上的性能提高4-17%,同時不改變非數學行為。MathNeuro還具有數據效率:當使用單個樣本識別數學特定參數時,其大部分效果仍然存在。MathNeuro突顯了未來工作介入數學特定參數的潛力。
新視角合成旨在從多個輸入圖像或視頻中生成場景的新視角,最近的進展如3D高斯飛灑(3DGS)在具有高效管道的情況下實現了產生逼真渲染的顯著成功。然而,在具有挑戰性設置下生成高質量的新視角,例如稀疏輸入視角,由於欠採樣區域中信息不足,通常導致明顯的瑕疵。本文提出了3DGS-Enhancer,一種用於增強3DGS表示質量的新型管道。我們利用2D視頻擴散先驗來解決具有挑戰性的3D視角一致性問題,將其重新制定為實現視頻生成過程中的時間一致性。3DGS-Enhancer恢復了渲染的新視角的視角一致潛在特徵,並通過空間-時間解碼器將其與輸入視角集成。增強的視圖然後用於微調初始3DGS模型,顯著提高了其渲染性能。對無邊界場景的大規模數據集進行了大量實驗,證明了3DGS-Enhancer相對於最先進方法具有優越的重建性能和高保真渲染結果。項目網頁為https://xiliu8006.github.io/3DGS-Enhancer-project。
結腸鏡檢查目前是大腸癌最敏感的篩查方法之一。本研究探討智能結腸鏡技術的前沿及其對多模態醫學應用的潛在影響。為實現此目標,我們首先通過四個結腸鏡場景感知任務,包括分類、檢測、分割和視覺語言理解,評估當前以數據為中心和以模型為中心的景觀。這一評估使我們能夠識別特定領域的挑戰,並顯示結腸鏡的多模態研究仍然有待進一步探索。為迎接即將到來的多模態時代,我們建立了三個基礎性倡議:一個大規模多模態指導調整數據集 ColonINST、一個針對結腸鏡設計的多模態語言模型 ColonGPT,以及一個多模態基準測試。為了促進對這一快速發展領域的持續監控,我們提供了一個用於最新更新的公共網站:https://github.com/ai4colonoscopy/IntelliScope。