每日精選AI研究論文及翻譯
本報告介紹了一個新的多模型系列Gemini,展現出在圖像、音訊、視頻和文本理解方面的卓越能力。Gemini系列包括Ultra、Pro和Nano三種尺寸,適用於從複雜推理任務到設備內存受限應用的各種情況。在廣泛的基準測試中,我們最強大的Gemini Ultra模型在32個基準測試中有30個取得了最新成果,特別是在眾所關注的考試基準MMLU上首次實現了人類專家級表現,並在我們檢驗的所有20個多模型基準測試中改進了最新技術水平。我們相信Gemini模型在跨模態推理和語言理解方面的新能力將能夠應用於各種用例,並討論了我們負責任地將其部署給用戶的方法。
我們提出了VecFusion,一種新的神經架構,可以生成具有不同拓撲結構和精確控制點位置的向量字體。我們的方法是一種級聯擴散模型,包括光柵擴散模型和向量擴散模型。光柵模型生成低分辨率的光柵字體,附帶輔助控制點信息,捕捉字體的全局風格和形狀,而向量模型則根據第一階段的低分辨率光柵字體合成向量字體。為了合成長且複雜的曲線,我們的向量擴散模型使用了變壓器架構和一種新穎的向量表示,使得能夠對多樣的向量幾何進行建模並精確預測控制點。我們的實驗表明,與以往用於向量圖形的生成模型相比,我們的新級聯向量擴散模型生成了質量更高、結構更複雜且風格更多樣的向量字體。
影像擴散模型已被應用於各種任務,如文本到影像生成和可控影像合成。最近的研究引入了微調方法,對原始模型進行微小調整,在基礎生成式擴散模型的特定適應中取得了有希望的結果。我們並未修改擴散模型的主幹,而是深入探討 U-Net 中 skip connection 的作用,揭示了跨編碼器和解碼器聚合遠距信息的分層特徵對影像生成的內容和質量產生重大影響。基於這一觀察,我們提出了一個高效的生成調整框架,名為 SCEdit,該框架集成並編輯 Skip Connection,使用一個輕量級調整模塊命名為 SC-Tuner。此外,所提出的框架允許通過注入不同條件與 Controllable SC-Tuner 進行簡化和統一網絡設計,從而輕鬆擴展到可控影像合成。我們的 SCEdit 顯著減少了訓練參數、內存使用量和計算開銷,這是由於其輕量級調整器,僅將反向傳播傳遞到解碼器塊。在文本到影像生成和可控影像合成任務上進行的大量實驗證明了我們的方法在效率和性能方面的優越性。項目頁面:https://scedit.github.io/
大型語言模型(LLMs)展現出在人類水準的推理和生成能力方面的卓越表現,這促使對它們在數學問題解決中的應用進行廣泛研究。然而,目前的工作主要集中在基於文本的數學問題上,對涉及幾何信息的問題進行的研究有限。為填補這一空白,我們旨在通過理解圖像輸入,使LLMs能夠解決幾何問題。我們首先分析了當前多模態大型語言模型(MLLMs)在這一領域的局限性:它們難以準確理解基本幾何元素及其關係。為克服這些挑戰,我們利用幾何問題的獨特特徵(如獨特的幾何邏輯形式和幾何可擴展性)以及文本LLMs的能力,基於現有數據構建了一個豐富的多模態幾何數據集。擴充後的數據集Geo170K包含超過170K個幾何圖像說明和問答對。利用我們構建的Geo170K數據集,我們開發了G-LLaVA,在解決幾何問題方面表現出色,僅使用70億參數在MathVista基準測試中明顯優於GPT-4-V。
最近的文本轉圖像(T2I)生成模型,如穩定擴散和Imagen,在根據文本描述生成高分辨率圖像方面取得了顯著進展。然而,許多生成的圖像仍然存在問題,如瑕疵/不合理性、與文本描述不一致以及美學質量低下。受到使用強化學習與人類反饋(RLHF)成功的啟發,以改進大型語言模型為目的,先前的研究收集了人類提供的分數作為對生成圖像的反饋,並訓練了一個獎勵模型來改進T2I生成。在本文中,我們通過(i)標記圖像中不合理或與文本不一致的區域,以及(ii)標註文本提示中被誤解或遺漏在圖像上的單詞,豐富了反饋信號。我們在18K個生成的圖像上收集了這樣豐富的人類反饋,並訓練了一個多模態變壓器來自動預測豐富的反饋。我們展示了預測的豐富人類反饋可以用來改進圖像生成,例如通過選擇高質量的訓練數據來微調和改進生成模型,或者通過使用預測的熱圖來創建遮罩來修復問題區域。值得注意的是,這些改進可以泛化到超出用於收集人類反饋數據的圖像生成模型(穩定擴散變體)的模型(Muse)。
高斯點塗已成為一種強大的3D表示法,兼具顯式(網格)和隱式(NeRF)3D表示法的優勢。本文旨在利用高斯點塗來從文字描述中生成逼真的可動化頭像,解決基於網格或NeRF表示法所帶來的限制(例如靈活性和效率)。然而,單純應用高斯點塗無法生成高質量的可動化頭像,並存在學習不穩定性;同時無法捕捉細緻的頭像幾何結構,並常導致身體部位退化。為解決這些問題,我們首先提出一種基於基元的3D高斯表示法,其中高斯定義在受姿勢驅動的基元內以促進動畫。其次,為了穩定和攤銷數百萬個高斯的學習,我們建議使用神經隱式場來預測高斯屬性(例如顏色)。最後,為了捕捉細緻的頭像幾何結構並提取詳細的網格,我們提出了一種基於SDF的隱式網格學習方法,用於3D高斯,該方法對底層幾何進行正則化並提取高度詳細的紋理網格。我們提出的方法GAvatar,使得僅通過文本提示就能大規模生成多樣的可動化頭像。GAvatar在外觀和幾何質量方面顯著超越現有方法,並實現極快的渲染速度(100 fps)在1K分辨率下。
最近,3D理解已變得流行,以促進自主代理進行進一步的決策。然而,現有的3D數據集和方法通常局限於特定任務。另一方面,大型語言模型(LLMs)和多模式語言模型(MLMs)的最新進展展示了出色的通用語言和圖像任務表現。因此,將MLM的潛力解鎖為更廣泛任務的3D通用人才是一個有趣的方向。然而,由於缺乏大規模的3D指示跟隨數據集,目前MLMs的研究對3D任務的關注較少。在這項工作中,我們介紹了一個名為M3DBench的全面3D指示跟隨數據集,具有以下特點:1)它支持與文本、圖像、3D對象和其他視覺提示交錯的通用多模式指令。2)它統一了不同區域和場景級別的多樣化3D任務,涵蓋了現實世界3D環境中的各種基本能力。3)它是一個擁有超過320k指示-回應對的大規模3D指示跟隨數據集。此外,我們建立了一個新的基準來評估大型模型在理解多模式3D提示方面的性能。廣泛的實驗證明了我們數據集和基準線的有效性,支持通用的3D中心任務,這可能激發未來的研究。
對於多模態大型語言模型(MLLMs)的興趣激增,例如來自OpenAI的GPT-4V(ision),已在學術界和工業界標誌著一個重要趨勢。它們賦予大型語言模型(LLMs)強大的視覺理解能力,使它們能夠應對多樣的多模態任務。最近,Google推出了Gemini,這是其最新且功能最強大的MLLM,從頭為多模態而建。鑑於其卓越的推理能力,Gemini是否能挑戰GPT-4V在多模態學習中的領先地位?本文對Gemini Pro的視覺理解能力進行了初步探索,全面涵蓋四個領域:基本感知、高級認知、具有挑戰性的視覺任務和各種專家能力。我們將Gemini Pro與最先進的GPT-4V進行比較,以評估其上限,以及最新的開源MLLM Sphinx,揭示了手動努力和黑盒系統之間的差距。定性樣本表明,雖然GPT-4V和Gemini展示了不同的回答風格和偏好,但它們在視覺推理能力方面可以相當。Sphinx在領域泛化方面仍遠遠落後於它們。具體而言,GPT-4V傾向於詳細解釋和中間步驟,而Gemini則更喜歡輸出直接而簡潔的答案。對流行的MME基準測試的定量評估也顯示了Gemini成為GPT-4V強勁競爭者的潛力。我們對Gemini的早期調查還觀察到了MLLM的一些常見問題,表明還有相當大的距離要實現人工通用智能。我們釋出了用於追踪MLLM進展的專案,網址為https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。
視覺敘事常使用非典型長寬比的圖像,如卷軸畫、漫畫條帶和全景圖,以創造富有表現力和引人入勝的故事情節。儘管生成式人工智慧已取得巨大成功,展示了重塑創意產業的潛力,但生成具有任意大小和可控風格、概念和佈局的連貫且引人入勝的內容仍然是一項挑戰,這些要素對於視覺敘事至關重要。為了克服以往方法的缺點,包括重複內容、風格不一致和缺乏可控性,我們提出了MagicScroll,這是一個多層次、漸進擴散式圖像生成框架,具有新穎的語義感知去噪過程。該模型能夠對生成的圖像在對象、場景和背景層面上進行精細控制,並具有文字、圖像和佈局條件。我們還為視覺敘事的非典型長寬比圖像生成建立了第一個基準,包括繪畫、漫畫和電影全景等媒介,並針對系統性評估定制了指標。通過比較和消融研究,MagicScroll展示了與敘事文本一致、提高視覺一致性並吸引觀眾的有希望的結果。我們計劃發布代碼和基準,希望AI研究人員和涉及視覺敘事的創意從業者之間能有更好的合作。
語言模型(LMs)通常在訓練過程中保留的單一數據上報告困惑度。這些數據隱含或明示地由不同領域的語言分佈組成。與其假設對一個分佈的困惑度可以推斷到其他分佈,語言模型評估的困惑度分析(Paloma)衡量了LM對585個文本領域的適應性,範圍從nytimes.com到Reddit上的r/depression。我們邀請提交至我們的基準測試,並根據符合指南的程度將結果進行比較。這些指南包括從預訓練中去除基準測試污染。提交還可以記錄參數和訓練標記數,以便根據這些成本衡量指標的帕累托效率進行性能比較。我們的基準測試中包含了6個在流行語料庫上預先訓練的基線結果。在案例研究中,我們展示了使用Paloma可能進行的分析,例如發現沒有超出Common Crawl數據的預訓練導致對許多領域的適應性不一致。
最近基於擴散的圖像編輯方法展示出在結構簡單的圖像中具有令人印象深刻的編輯能力。然而,在複雜情境下的局部編輯在文獻中尚未得到充分研究,儘管現實世界對此需求日益增長。現有基於遮罩的修補方法無法保留編輯區域內的基本結構。同時,無遮罩的注意力機制方法在更複雜的構圖中常常出現編輯泄漏和不對齊的問題。在這項工作中,我們開發了MAG-Edit,一種無需訓練、推理階段優化方法,可實現在複雜情境中的局部圖像編輯。具體而言,MAG-Edit通過最大化編輯標記的兩個基於遮罩的交叉注意力約束來優化擴散模型中的噪聲潛在特徵,逐步增強與所需提示的局部對齊。大量定量和定性實驗證明了我們的方法在實現複雜情境中的局部編輯時,同時實現文本對齊和結構保留的有效性。
本文探討偏好濃縮對大型視覺語言模型(LVLMs)的影響,以提升其生成有助且忠實響應並銜接視覺內容的能力。我們首先利用人工智慧標註建立了一個視覺語言反饋(VLFeedback)數據集。具體而言,回應是由從各種數據集中獲取的多模式指令條件下從12個LVLMs中抽樣生成的模型產生的。我們採用GPT-4V來評估生成輸出的幫助性、視覺忠實度和倫理考量。此外,偏好監督通過直接偏好優化(DPO)方法濃縮到Qwen-VL-Chat中。結果模型Silkie,在感知和認知能力方面相對提高了6.9%和9.5%的MME基準。Silkie還通過在MMHal-Bench基準上設置了新的最佳得分3.02,展示了減少幻覺的能力。進一步分析顯示,DPO與我們的VLFeedback數據集主要增強了LVLMs的細粒度感知和複雜認知能力,相較於人工標註的偏好數據集,帶來了更全面的改進。
擴散模型在生成高質量影像方面取得了顯著進展,但由於時間運動的複雜性,將其應用於視頻生成一直是一個具有挑戰性的問題。零樣本視頻編輯提供了一種解決方案,通過利用預先訓練的影像擴散模型將源視頻轉換為新視頻。然而,現有方法在保持嚴格的時間一致性和高效的內存消耗方面存在困難。在這項工作中,我們提出了一種新方法,通過跨幀合併自注意力標記來增強生成視頻的時間一致性。通過對幀間的時間冗餘標記進行對齊和壓縮,我們的方法改善了時間上的連貫性,並減少了自注意力計算中的內存消耗。合併策略根據幀間的時間對應匹配和對齊標記,有助於生成視頻幀中的自然時間一致性。為了應對視頻處理的複雜性,我們將視頻分為塊並開發塊內局部標記合併和塊間全局標記合併,確保短期視頻連續性和長期內容一致性。我們的視頻編輯方法將影像編輯的進展無縫擴展到視頻編輯,並在時間一致性方面優於最先進的方法,呈現出良好的結果。
推測性解碼通過利用一個初步模型起草,以供更大目標模型審查,從而提高大型語言模型(LLMs)的效率。然而,在推測性解碼中進行起草涉及緩慢的自回歸生成,並且在相同時間分配內生成不同重要性的標記。這兩種效率低下導致其表現不佳。為了解決這個問題,我們提出了級聯推測起草(CS. Drafting),這是一種採用兩種級聯類型的新方法。垂直級聯消除了神經模型中的自回歸生成。水平級聯通過我們的理論分析支持其在起草中的有效時間分配的最優性。結合這兩種級聯,我們的CS. Drafting算法在實驗中實現了高達72%的額外加速,同時保持相同的輸出分佈。
大型語言模型(LLMs)越來越被廣泛應用於複雜的多步規劃任務中,其中工具檢索(TR)步驟對於實現成功結果至關重要。用於TR的兩種主要方法是單步檢索,利用完整查詢,以及使用任務分解(TD)的順序檢索,其中完整查詢被分割為離散的原子子任務。雖然單步檢索缺乏處理“工具間依賴性”的靈活性,但TD方法需要保持“子任務-工具原子性對齊”,因為工具箱可能會動態演變。為了解決這些限制,我們引入了逐步工具檢索以改進規劃(ProTIP)框架。ProTIP是一個輕量級的、基於對比學習的框架,它在不需要明確要求子任務標籤的情況下隱式執行TD,同時保持子任務-工具原子性。在ToolBench數據集上,ProTIP以顯著的優勢勝過基於ChatGPT任務分解方法,實現了TR的Recall@K=10提高了24%,並且在計劃生成方面工具準確性提高了41%。
大型語言模型的成功已經改變了自然語言處理(NLP)中的評估範式。社群的興趣已轉向比較NLP模型在許多任務、領域和數據集上的表現,通常是在極端規模下。這帶來了新的工程挑戰:構建數據集和模型的努力變得分散,它們的格式和接口不兼容。因此,通常需要進行大量的(重新)實施工作,才能進行公平和受控的大規模比較。 Catwalk的目標是解決這些問題。Catwalk為眾多現有NLP數據集和模型提供統一的接口,包括傳統的監督式訓練和微調,以及更現代的範式,如上下文學習。其精心設計的抽象化允許輕鬆擴展到許多其他領域。Catwalk大大降低了進行大規模受控實驗的門檻。例如,我們使用一個命令對超過86個數據集上的64個模型進行了微調和評估,而無需編寫任何代碼。由AllenNLP團隊在Allen人工智慧研究所(AI2)維護,Catwalk是一個持續的開源努力:https://github.com/allenai/catwalk。
最近,知識蒸餾方法已被證明是一個有前途的方向,可以加快大規模擴散模型的合成速度,只需進行少量的推論步驟。雖然最近提出了幾種強大的蒸餾方法,但通常學生樣本的整體質量通常比老師的要低,這限制了它們的實際應用。在這項工作中,我們調查了老師文本到圖像擴散模型及其蒸餾學生版本所產生樣本的相對質量。作為我們的主要實證發現,我們發現相當一部分學生樣本在忠實度上優於老師的樣本,儘管學生的性質是“近似”的。基於這一發現,我們提出了一種適應性的學生和老師擴散模型之間的協作,用於有效的文本到圖像合成。具體來說,蒸餾模型生成初始樣本,然後一個神諭判斷是否需要通過一個緩慢的老師模型進行進一步改進。廣泛的實驗表明,所設計的流程在人類偏好方面超越了各種推論預算的最先進文本到圖像替代方案。此外,所提出的方法可以自然地應用於流行應用,如文本引導的圖像編輯和可控生成。
在擴散模型中,無需訓練的引導取樣利用現成的預訓練網絡,例如美學評估模型,來引導生成過程。目前的無需訓練引導取樣算法是基於對乾淨圖像的單步估計來獲取引導能量函數。然而,由於現成的預訓練網絡是在乾淨圖像上訓練的,因此在擴散模型的生成過程的早期階段,對乾淨圖像的單步估計過程可能不準確。這導致早期時間步驟的引導不準確。為了克服這個問題,我們提出了Symplectic Adjoint Guidance (SAG),它在兩個內部階段計算梯度引導。首先,SAG通過n個函數調用來估計乾淨圖像,其中n作為一個靈活的超參數,可以根據特定的圖像質量要求進行調整。其次,SAG使用較低的記憶需求,通過輔導對稱方法來準確且高效地獲取梯度。大量實驗表明,與基準相比,SAG在引導圖像和視頻生成任務中生成了質量更高的圖像。
本文介紹了一種為文本生成3D而設計的開創性3D體積編碼器。為了擴大擴散模型的訓練數據,開發了一個輕量級網絡,可以高效地從多視角圖像中獲取特徵體積。然後,使用3D U-Net對3D體積進行訓練,用於文本生成3D。這項研究進一步解決了不準確的物體標題和高維特徵體積的挑戰。所提出的模型在公共Objaverse數據集上訓練,展示了從文本提示生成多樣且可識別樣本的有希望結果。值得注意的是,它通過文本提示賦予對象部分特徵更精細的控制,通過無縫結合單個對象內的多個概念來促進模型創造力。這項研究通過引入一種高效、靈活且可擴展的表示方法,顯著促進了3D生成的進展。代碼可在https://github.com/tzco/VolumeDiffusion找到。
我們提出了一種適用於單眼視頻的動態場景重建方法,使用可變形的三維高斯模型。在高斯飛灑技術的基礎上,我們的方法擴展了表示,以容納動態元素,通過一組可變形的高斯模型存在於一個標準空間中,以及由多層感知器(MLP)定義的時間依賴性變形場。此外,在假設大多數自然場景具有保持靜態的大區域的情況下,我們允許MLP通過另外包含一個靜態高斯點雲來集中其表示能力。串聯的動態和靜態點雲形成高斯飛灑光柵化器的輸入,實現實時渲染。可微分管道通過自監督渲染損失端對端進行優化。我們的方法實現了與最先進的動態神經輻射場方法可比的結果,同時實現了更快的優化和渲染。項目網站:https://lynl7130.github.io/gaufre/index.html