每日精選AI研究論文及翻譯
多模式大型語言模型(MLLMs)取得了顯著進展,在視覺背景下表現優異,因此受到空前的關注。然而,它們在視覺數學問題解決方面的能力尚未得到充分評估和理解。我們研究目前的基準,將過多的視覺內容融入文本問題中,這有助於MLLMs在不真正解釋輸入圖表的情況下推斷答案。為此,我們引入了MathVerse,這是一個全面的視覺數學基準,旨在公平且深入地評估MLLMs。我們精心收集了2,612個高質量、多學科的數學問題,並從公開來源中獲取了圖表。然後,每個問題由人類標註者轉換為六個不同版本,每個版本在多模式中提供不同程度的信息內容,總共貢獻了15K個測試樣本。這種方法使MathVerse能夠全面評估MLLMs是否真正理解視覺圖表以進行數學推理,以及它們能夠理解多少。此外,我們提出了一種“思維鏈”(CoT)評估策略,用於對輸出答案進行細緻評估。我們不僅僅是天真地判斷真或假,而是使用GPT-4(V)來自適應性地提取關鍵的推理步驟,然後對每個步驟進行詳細的錯誤分析,這可以揭示MLLMs的中間CoT推理質量。我們希望MathVerse基準可以提供獨特的見解,以指導未來MLLMs的發展。項目頁面:https://mathverse-cuhk.github.io
最近,從文字提示中創建3D內容已經取得了顯著的成功。然而,目前的文字轉3D方法通常生成的3D結果與人類偏好不太一致。本文提出了一個全面的框架,名為DreamReward,用於從人類偏好反饋中學習和改進文字轉3D模型。首先,我們收集了25k個專家比較,基於系統化的注釋流程,包括評分和排名。然後,我們建立了Reward3D——第一個通用的文字轉3D人類偏好獎勵模型,有效地編碼人類偏好。基於3D獎勵模型,我們最終進行理論分析並提出了Reward3D反饋學習(DreamFL),這是一種直接調整算法,用於優化具有重新定義評分者的多視圖擴散模型。通過理論證明和廣泛的實驗比較,我們的DreamReward成功生成了高保真度和3D一致的結果,並在與人類意圖的提示對齊方面取得了顯著提升。我們的結果顯示了從人類反饋中學習以改進文字轉3D模型的巨大潛力。
近年來,多模態大型語言模型(MLLM)在各個領域的應用取得了顯著的成功。然而,作為許多下游任務的基礎模型,目前的MLLM由眾所周知的Transformer網絡組成,具有較低效的二次計算複雜度。為了提高這些基本模型的效率,我們提出了Cobra,一種具有線性計算複雜度的MLLM。具體而言,Cobra將高效的Mamba語言模型整合到視覺模態中。此外,我們探索並研究各種模態融合方案,以創建一個有效的多模態Mamba。大量實驗表明:(1)Cobra在速度上比目前計算效率高的最先進方法(例如LLaVA-Phi、TinyLLaVA和MobileVLM v2)表現出極具競爭力的性能,並且由於Cobra的線性順序建模,速度更快。 (2)有趣的是,封閉式具有挑戰性的預測基準測試結果顯示,Cobra在克服視覺錯覚和空間關係判斷方面表現出色。 (3)值得注意的是,Cobra甚至在參數數量約為LLaVA的43%的情況下實現了與LLaVA可比的性能。我們將使Cobra的所有代碼開源,並希望所提出的方法能促進MLLM中複雜問題的未來研究。我們的項目頁面位於:https://sites.google.com/view/cobravlm。
影片對影片編輯涉及編輯源影片以及附加控制(如文字提示、主題或風格),以生成符合源影片和提供的控制的新影片。傳統方法受限於特定編輯類型,限制了它們滿足廣泛用戶需求的能力。在本文中,我們介紹了AnyV2V,一個新穎的無需訓練的框架,旨在將影片編輯簡化為兩個主要步驟:(1)利用現成的圖像編輯模型(例如InstructPix2Pix、InstantID等)修改第一幀,(2)利用現有的圖像轉影片生成模型(例如I2VGen-XL)進行DDIM反演和特徵注入。在第一階段,AnyV2V可以插入任何現有的圖像編輯工具,以支持廣泛的影片編輯任務。除了傳統的基於提示的編輯方法外,AnyV2V還可以支持新穎的影片編輯任務,包括基於參考的風格轉移、以主題為驅動的編輯和身份操作,這些是以前的方法無法實現的。在第二階段,AnyV2V可以插入任何現有的圖像轉影片模型,執行DDIM反演和中間特徵注入,以保持與源影片的外觀和運動一致性。在基於提示的編輯上,我們展示AnyV2V在提示對齊上可以比以往最佳方法提高35%,在人類偏好上提高25%。在三個新穎任務上,我們展示AnyV2V也實現了高成功率。我們相信AnyV2V將繼續蓬勃發展,因為它能夠無縫集成快速發展的圖像編輯方法。這種兼容性可以幫助AnyV2V提高其多樣性,以滿足不同用戶需求。
最近在以文本引導的擴散模型方面取得的進展已經開啟了強大的圖像操作能力。然而,將這些方法應用於真實圖像需要將圖像反轉到預訓練擴散模型的領域。實現忠實的反轉仍然是一個挑戰,特別是對於最近訓練用於生成具有少量去噪步驟圖像的模型而言。在這項工作中,我們介紹了一種具有高質量-操作比的反轉方法,提高了重建準確性而不增加操作次數。基於反轉擴散採樣過程,我們的方法在每個反轉採樣步驟中採用了一種迭代重去噪機制。該機制通過迭代應用預訓練擴散模型並對這些預測進行平均,來改進對前向擴散軌跡上預測點的近似。我們使用各種採樣算法和模型,包括最近的加速擴散模型,來評估我們的ReNoise技術的性能。通過全面的評估和比較,我們展示了它在準確性和速度方面的有效性。此外,我們通過展示在真實圖像上進行以文本驅動的圖像編輯,確認了我們的方法保留了可編輯性。
最近,影片擴散模型在生成品質方面取得了巨大進展,但仍受限於高記憶體和計算需求。這是因為目前的影片擴散模型通常嘗試直接處理高維度影片。為了應對這個問題,我們提出了內容-運動潛在擴散模型(CMD),這是對預訓練圖像擴散模型進行影片生成的一個新型高效擴展。具體來說,我們提出了一個自編碼器,將影片簡潔地編碼為內容幀(類似圖像)和低維度運動潛在表示的組合。前者代表共同內容,後者分別代表影片中的潛在運動。我們通過微調預訓練圖像擴散模型來生成內容幀,通過訓練一個新的輕量級擴散模型來生成運動潛在表示。這裡的一個關鍵創新是設計了一個緊湊的潛在空間,可以直接利用預訓練圖像擴散模型,這在先前的潛在影片擴散模型中尚未實現。這導致了更好的生成品質和降低的計算成本。例如,CMD可以比以前的方法快7.7倍地對512x1024分辨率和長度為16的影片進行生成,只需3.1秒。此外,CMD在WebVid-10M上實現了212.7的FVD分數,比之前的292.4的最新技術水平提高了27.3%。
最近大規模視覺語言模型(VLMs)展示了在理解和生成視覺內容的文本描述方面的顯著能力。然而,這些模型缺乏對用戶特定概念的理解。在這項工作中,我們邁出了個性化VLMs的第一步,使其能夠學習和推理用戶提供的概念。例如,我們探索這些模型是否能夠學會在圖像中識別您並傳達您的活動,使模型能夠反映您的個人經歷和關係。為了有效識別各種用戶特定概念,我們通過外部概念頭來擴充VLM,這些頭作為模型的開關,使VLM能夠識別給定圖像中特定目標概念的存在。在識別了概念後,我們在VLM的中間特徵空間中學習一個新的概念嵌入。這個嵌入的任務是引導語言模型自然地將目標概念整合到其生成的回應中。我們將這一技術應用於BLIP-2和LLaVA,用於個性化圖像標題生成,並進一步展示其在個性化視覺問答方面的應用。我們的實驗表明,我們能夠將學習的概念泛化應用於未見過的圖像,同時保留模型對不相關輸入的行為。
我們介紹了GRM,一個大規模的重建器,能夠在約0.1秒內從稀疏視圖圖像中恢復3D資產。GRM是一個前饋式基於Transformer的模型,能夠有效地整合多視圖信息,將輸入像素轉換為像素對齊的高斯分布,然後將其反投影,創建一組表示場景的密集分佈3D高斯分布。我們的Transformer架構和使用3D高斯分布共同解鎖了一個可擴展且高效的重建框架。廣泛的實驗結果證明了我們的方法在重建質量和效率方面優於其他方法。我們還展示了GRM在生成任務中的潛力,即文本到3D和圖像到3D,通過將其與現有的多視圖擴散模型集成。我們的項目網站位於:https://justimyhxu.github.io/projects/grm/。
我們提出了高斯霜(Gaussian Frosting),這是一種新穎的基於網格的表示法,可用於實時高質量渲染和編輯複雜的3D效果。我們的方法建立在最近的3D高斯濺射框架之上,該框架優化一組3D高斯函數,以從影像中近似辐射場。我們首先提出在優化過程中從高斯函數中提取基礎網格,然後在網格周圍建立和精細調節一層可變厚度的高斯函數,以更好地捕捉靠近表面的細節和體積效應,如頭髮或草。我們稱這一層為高斯霜,因為它類似於蛋糕上的一層霜飾。材料越模糊,霜飾越厚。我們還引入了高斯函數的參數化,以強制它們保持在霜飾層內,並在變形、重新縮放、編輯或動畫化網格時自動調整其參數。我們的表示法允許使用高斯濺射進行高效渲染,同時通過修改基礎網格進行編輯和動畫製作。我們在各種合成和真實場景中展示了我們方法的有效性,並表明它優於現有的基於表面的方法。我們將釋出代碼和基於Web的查看器作為額外貢獻。我們的項目頁面如下:https://anttwo.github.io/frosting/
我們引入有界生成作為一項廣義任務,用於控制視頻生成,僅基於給定的起始和結束幀來合成任意相機和主題運動。我們的目標是充分利用圖像到視頻模型固有的泛化能力,而無需對原始模型進行額外的訓練或微調。這是通過提出的新採樣策略實現的,我們稱之為時間反轉融合,它融合了在起始和結束幀條件下的時間正向和反向去噪路徑。融合的路徑產生了一個視頻,平滑地連接了兩個幀,生成了忠實主題運動的中間過程,靜態場景的新視圖,以及當兩個邊界幀相同時的無縫視頻循環。我們精心編輯了一個多樣化的評估數據集,其中包含圖像對,並與最接近的現有方法進行比較。我們發現時間反轉融合在所有子任務上均優於相關工作,展現了生成複雜運動和受限幀引導的三維一致視圖的能力。請參閱項目頁面:https://time-reversal.github.io。
我們提出了一種方法,可以利用預先訓練的 StyleGAN 從靜態風景圖像自動生成 cinemagraphs。受到最近無條件生成視頻的成功啟發,我們利用強大的預先訓練圖像生成器來合成高質量的 cinemagraphs。與先前主要利用預先訓練的 StyleGAN 的潛在空間的方法不同,我們的方法利用其深度特徵空間進行 GAN 逆向和 cinemagraph 生成。具體來說,我們提出了多尺度深度特徵扭曲(MSDFW),它扭曲了預先訓練的 StyleGAN 在不同分辨率下的中間特徵。通過使用 MSDFW,生成的 cinemagraphs 具有高分辨率並展現出合理的循環動畫。我們通過用戶研究和與最先進的 cinemagraph 生成方法以及使用預先訓練的 StyleGAN 的視頻生成方法的定量比較,展示了我們方法的優越性。
研究人員和開發者越來越依賴毒性評分來調節生成式語言模型的輸出,在客戶服務、信息檢索和內容生成等場景中。然而,毒性評分可能導致相關信息無法獲取,使文化規範僵化或「價值鎖定」,並阻礙語言重擁有過程,特別是對於邊緣化群體。在這項工作中,我們將算法回溯的概念擴展到生成式語言模型:我們為用戶提供一種新機制,通過動態設置毒性過濾的閾值來實現他們期望的預測。用戶因此相對於與基準系統互動,行使了更多的代理權。一項初步研究(n = 30)支持我們提出的回溯機制的潛力,顯示與模型輸出的固定閾值毒性過濾相比,在可用性方面有所改善。未來的工作應該探索毒性評分、模型可控性、用戶代理權和語言重擁有過程的交集,特別是關於許多社區在與生成式語言模型互動時遇到的偏見。