每日精選AI研究論文及翻譯
最近對大型多模型模型(LMMs)的發展,特別是GPT-4V(ision)和Gemini,迅速擴展了多模型模型的能力邊界,超越了傳統任務,如圖像標題生成和視覺問答。在這項工作中,我們探索了像GPT-4V這樣的LMMs作為通用網頁代理的潛力,它可以按照自然語言指令在任何給定的網站上完成任務。我們提出了SEEACT,一個利用LMMs的強大功能進行綜合視覺理解和在網頁上執行操作的通用網頁代理。我們在最近的MIND2WEB基準上進行評估。除了在緩存網站上進行標準離線評估外,我們通過開發一個工具,使得可以在實時網站上運行網頁代理,實現了一種新的在線評估設置。我們展示了GPT-4V對於網頁代理具有巨大潛力-如果我們手動將其文本計劃與網站上的操作相結合,它可以成功完成50%的任務。這在特定為網頁代理進行微調的僅文本LMMs(如GPT-4或較小的模型FLAN-T5和BLIP-2)方面,表現顯著優於。然而,對文本計劃進行結合仍然是一個主要挑戰。現有的LMM結合策略,如一組標記提示,對於網頁代理並不有效,而我們在本文中開發的最佳結合策略利用了HTML文本和視覺。然而,與理想結合仍存在顯著差距,為進一步改進留下了充足的空間。
大多數現有的影片擴散模型(VDMs)僅限於純文字條件。因此,它們通常缺乏對生成的影片的視覺外觀和幾何結構的控制。本研究提出了Moonshot,一種新的影片生成模型,同時條件於圖像和文字的多模態輸入。該模型建立在一個名為多模態影片區塊(MVB)的核心模塊之上,該模塊包含用於表示影片特徵的傳統空間時間層,以及一個解耦的交叉注意力層,以處理外觀條件的圖像和文字輸入。此外,我們精心設計了模型架構,使其可以選擇性地與預訓練的圖像ControlNet模塊集成,以實現幾何視覺條件,而無需像以前的方法那樣進行額外的訓練開銷。實驗表明,憑藉多功能的多模態條件機制,Moonshot在視覺質量和時間一致性方面相比現有模型實現了顯著改進。此外,該模型可以輕鬆地重新用於各種生成應用,例如個性化影片生成、圖像動畫和影片編輯,揭示了其作為可控影片生成基本架構的潛力。模型將在https://github.com/salesforce/LAVIS 上公開。
我們提出了一個可微分模型,明確地模擬邊界,包括輪廓、角落和交界,使用我們稱之為邊界關注的新機制。我們展示了即使邊界信號非常微弱或被噪音淹沒,我們的模型也能提供準確的結果。與以往用於尋找微弱邊界的古典方法相比,我們的模型具有以下優勢:可微分性;可擴展至更大的圖像;並自動適應圖像各部分的適當幾何細節水平。與以往通過端到端訓練尋找邊界的深度方法相比,它具有提供次像素精度、更具抗噪能力,並能夠以原生解析度和寬高比處理任何圖像的優勢。
我們提出了En3D,一種增強型生成方案,用於雕塑高質量的3D人類頭像。與先前依賴稀缺3D數據集或具有不平衡觀看角度和不精確姿勢先驗的有限2D集合的作品不同,我們的方法旨在開發一種零樣本3D生成方案,能夠製造出外觀逼真、幾何精確且內容多樣的3D人類,而無需依賴預先存在的3D或2D資產。為應對這一挑戰,我們引入了一個精心設計的工作流程,從合成的2D數據中實現準確的物理建模,以學習增強的3D生成模型。在推斷期間,我們整合了優化模塊,以彌合逼真外觀與粗糙3D形狀之間的差距。具體而言,En3D包括三個模塊:一個3D生成器,從合成的平衡、多樣和結構化的人類圖像中準確建模可通用的3D人類,具有逼真外觀;一個幾何雕塑師,使用多視圖法向約束增強形狀質量,以處理複雜的人體解剖;以及一個紋理模塊,通過利用語義UV分割和可微分光柵化器,將明確的紋理映射解開,具有忠實度和可編輯性。實驗結果顯示,我們的方法在圖像質量、幾何精度和內容多樣性方面顯著優於先前的作品。我們還展示了我們生成的頭像在動畫和編輯中的應用性,以及我們的方法在內容風格自由適應方面的可擴展性。
學習建模字串之間的關係能教導大型語言模型(LLMs)有關視覺世界的知識嗎?我們系統性評估LLMs生成和識別各種視覺概念的能力,這些概念的複雜程度逐漸增加,並展示如何使用文本模型來訓練初步的視覺表示學習系統。由於語言模型缺乏消耗或輸出視覺信息像素的能力,我們在研究中使用代碼來表示圖像。儘管LLM生成的圖像看起來不像自然圖像,但在圖像生成和模型糾正這些生成的圖像的能力方面的結果表明,對字串進行精確建模可以教導語言模型有關視覺世界眾多方面的知識。此外,利用使用文本模型生成的圖像進行自監督視覺表示學習的實驗突顯了僅使用LLMs就能訓練能夠對自然圖像進行語義評估的視覺模型的潛力。
隨著說明調整的大型語言模型(LLMs)在全球範圍內得到廣泛應用,其能夠遵循多種語言的指示的能力變得日益重要。一種有前途的方法是跨語言轉移,其中模型通過在另一種語言上微調來獲得在某種語言上的特定功能。在這項工作中,我們研究了多語言LLM在指示調整期間如何影響跨語言指示遵循。我們首先展示,許多語言從單語調整中甚至可以將一些指示遵循能力轉移到其他語言。此外,我們發現,在英文調整集中僅有40個多語言示例就顯著改善了跨語言指示遵循,無論是在調整期間看到的還是未看到的語言。一般而言,我們觀察到,在多語言混合調整的模型在多種語言上表現出與單語調整模型相比相當或更優秀的性能,儘管在這些語言中僅使用了10倍少的示例進行訓練。最後,我們發現,在指示調整集中將語言數量從1增加到2、3或4,可以增加跨語言泛化能力。我們的結果表明,建立大規模多語言指示調整模型只需一個非常小的多語言指示-回應集即可實現。
儘管分數蒸餾在文本轉3D生成中表現出色,但這類技術惡名昭彰地受到視角不一致問題的困擾,也被稱為「揚紐斯」藝術品,即生成的物體用多個正面欺騙每個視角。儘管經驗上有效的方法通過分數去偏置或提示工程來解決這個問題,但對於解釋和應對這個問題的更嚴謹觀點仍然難以捉摸。在本文中,我們揭示現有基於分數蒸餾的文本轉3D生成框架退化為在每個視角上獨立尋求最大似然,因此在實踐中出現揚紐斯藝術品的模式崩潰問題。為了遏制模式崩潰,我們通過在相應的變分目標中重新引入熵項來改進分數蒸餾,該變分目標應用於渲染圖像的分佈。最大化熵鼓勵在生成的3D資產中不同視角之間的多樣性,從而緩解揚紐斯問題。基於這個新目標,我們提出了一個新的3D分數蒸餾更新規則,稱為熵分數蒸餾(ESD)。我們從理論上揭示了ESD可以通過僅採用基於變分分數蒸餾的無分類器引導技巧來簡化和實現。儘管這看似極為直接,但我們的大量實驗成功地證明了ESD可以有效地處理分數蒸餾中的揚紐斯藝術品。
本文介紹了WordArt Designer API,這是一個利用大型語言模型(LLMs)在ModelScope上進行用戶驅動的藝術字型合成的新型框架。我們解決了為非專業人士簡化藝術字型的挑戰,提供了一個動態、適應性強且計算效率高的替代方案,以取代傳統的固定模板。我們的方法利用LLMs的能力來理解和解釋用戶輸入,促進更直觀的設計過程。我們通過各種案例研究展示了用戶如何表達他們的美學偏好和功能需求,系統隨後將其轉化為獨特和創意的字型設計。我們的評估顯示,與現有系統相比,用戶滿意度、設計靈活性和創意表達方面均取得了顯著進步。WordArt Designer API不僅實現了印刷字體藝術的民主化,還為個性化數字通訊和設計開辟了新的可能性。