每日精選AI研究論文及翻譯
生成式人工智慧近年來取得了快速進展,在多模態理解和程式碼生成方面實現了前所未有的能力。這可以促成一種新的前端開發範式,其中多模態語言模型可能直接將視覺設計轉換為程式碼實現。在這項工作中,我們將這視為一個Design2Code任務並進行全面的基準測試。具體來說,我們手動精心挑選了484個多樣的現實世界網頁作為測試案例,並開發了一組自動評估指標,以評估目前多模態語言模型生成程式碼實現的能力,直接呈現在給定參考網頁上,並以螢幕截圖作為輸入。我們還補充了全面的人工評估指標。我們開發了一套多模態提示方法,展示了它們對GPT-4V和Gemini Pro Vision的有效性。我們進一步微調了一個開源的Design2Code-18B模型,成功匹配了Gemini Pro Vision的性能。人類評估和自動指標都顯示,與其他模型相比,GPT-4V在這項任務中表現最佳。此外,標註者認為,GPT-4V生成的網頁在視覺外觀和內容方面可以在49%的情況下取代原始參考網頁;也許令人驚訝的是,在64%的情況下,GPT-4V生成的網頁被認為優於原始參考網頁。我們的細緻分解指標顯示,開源模型在從輸入網頁中召回視覺元素和生成正確佈局設計方面大多落後,而像文本內容和著色這樣的方面可以通過適當的微調大幅改善。
擴散模型通過將數據從噪音中反向轉換,已成為高維感知數據(如圖像和視頻)的強大生成建模技術。矯正流是一種最近的生成模型形式,它將數據與噪音直接相連。儘管具有更好的理論性質和概念上的簡單性,但它尚未被明確確立為標準實踐。在這項工作中,我們通過將現有的噪音採樣技術偏向於感知相關尺度來改進訓練矯正流模型。通過大規模研究,我們展示了這種方法相對於已建立的擴散公式在高分辨率文本到圖像合成方面的卓越性能。此外,我們提出了一種新型基於變壓器的文本到圖像生成架構,該架構使用獨立的權重來處理兩種模態,並實現了圖像和文本標記之間信息的雙向流動,從而提高了文本理解、排版和人類偏好評分。我們展示了該架構遵循可預測的擴展趨勢,並將較低的驗證損失與通過各種指標和人類評估衡量的改進的文本到圖像合成相關聯。我們最大的模型超越了最先進的模型,並將我們的實驗數據、代碼和模型權重公開提供。
基於圖像的虛擬試穿(VTON)旨在生成一幅穿著商店內衣物的目標人物圖像,這是一項具有挑戰性的圖像合成任務,不僅要求穿著的人物具有高度逼真度,還要完整保留衣物細節。為應對這個問題,我們提出了一種名為「穿著超過試穿擴散」(OOTDiffusion)的方法,利用預訓練的潛在擴散模型的能力,並設計了一種新穎的網絡架構,用於實現逼真且可控的虛擬試穿。在沒有明確變形過程的情況下,我們提出了一種穿著 UNet 來學習衣物細節特徵,並通過我們提出的穿著融合,在擴散模型的去噪過程中將其與目標人體合併。為了進一步增強我們穿著 UNet 的可控性,我們在訓練過程中引入了穿著 dropout,這使我們能夠通過無分類器的引導調整衣物特徵的強度。我們在 VITON-HD 和 Dress Code 數據集上進行了全面的實驗,結果表明 OOTDiffusion 能夠高效生成任意人物和衣物圖像的高質量穿著圖像,優於其他 VTON 方法,無論是逼真度還是可控性,顯示出虛擬試穿領域的一個令人印象深刻的突破。我們的源代碼可在 https://github.com/levihsu/OOTDiffusion 上獲取。
多模型的發展標誌著機器理解視頻的重大進步。這些模型在分析短視頻片段方面表現出潛力。然而,當涉及長片等更長格式時,它們通常表現不佳。主要障礙在於缺乏高質量、多樣化的視頻數據,以及收集或標註此類數據所需的大量工作。面對這些挑戰,我們提出了MovieLLM,這是一個新穎的框架,旨在為長視頻創建合成的高質量數據。該框架利用了GPT-4和文本到圖像模型的強大功能,生成詳細的劇本和相應的視覺效果。我們的方法以其靈活性和可擴展性脫穎而出,成為傳統數據收集方法的優越替代方案。我們廣泛的實驗證實,由MovieLLM生成的數據顯著提高了多模型在理解複雜視頻敘事方面的性能,克服了現有數據集在稀缺性和偏見方面的限制。
最近,基於優越的文本到圖像生成技術,視頻生成取得了顯著快速發展。在這項工作中,我們提出了一個名為AtomoVideo的高保真度圖像到視頻生成框架。通過多粒度圖像注入,我們實現了生成視頻與給定圖像更高的保真度。此外,由於高質量的數據集和訓練策略,我們實現了更大的運動強度,同時保持了優越的時間一致性和穩定性。我們的架構靈活擴展到視頻幀預測任務,通過迭代生成實現長序列預測。此外,由於適配器訓練的設計,我們的方法可以很好地與現有的個性化模型和可控模塊結合。通過定量和定性評估,AtomoVideo相對於流行方法取得了優越的結果,更多範例可在我們的項目網站上找到:https://atomo-video.github.io/。
大型語言模型(LLMs)面臨著艱鉅的挑戰,這是由於常用的Transformer架構所需的計算和記憶體需求過高。雖然狀態空間模型(SSM)是一種提供較低計算複雜度的新型基礎網絡架構,但它們的性能尚未完全能與Transformer相媲美。本文介紹了DenseSSM,這是一種增強SSM中各層之間隱藏信息流動的新方法。通過選擇性地將淺層隱藏狀態整合到更深層中,DenseSSM保留了對最終輸出至關重要的細粒度信息。增強了密集連接的DenseSSM仍然保持了訓練的可並行性和推理效率。該方法可廣泛應用於各種SSM類型,如RetNet和Mamba。在相似的模型大小下,DenseSSM實現了顯著的改進,例如DenseRetNet在公共基準測試中比原始RetNet提高了高達5%的準確性。
最近,多模式大型語言模型(MLLMs)已經取得顯著進展。然而,在準確識別和理解高解析度圖像中的細節方面仍存在挑戰。儘管這是發展強大 MLLMs 不可或缺的部分,但這個領域仍未受到充分調查。為應對這一挑戰,我們的工作引入了 InfiMM-HD,這是一種專門設計用於處理不同解析度圖像並具有低計算負擔的新型架構。這一創新有助於將 MLLMs 擴展到更高解析度的能力。InfiMM-HD 包括交叉注意力模塊和視覺窗口,以降低計算成本。通過將這種架構設計與四階段訓練流程相結合,我們的模型能夠高效且具有成本效益地實現改進的視覺感知。實證研究強調了 InfiMM-HD 的穩健性和有效性,為相關領域的探索開辟了新途徑。代碼和模型可在 https://huggingface.co/Infi-MM/infimm-hd 找到。
最近在文本到圖像模型方面的進展(例如穩定擴散)以及相應的個性化技術(例如DreamBooth和LoRA)使個人能夠生成高質量且富有想像力的圖像。然而,在生成分辨率超出其訓練領域的圖像時,這些模型通常會受到限制。為了克服這一限制,我們提出了解析度適配器(ResAdapter),這是一個為擴散模型設計的領域一致適配器,可生成具有無限制分辨率和長寬比的圖像。與其他多分辨率生成方法不同,這些方法通常需要對靜態分辨率圖像進行複雜的後處理操作,ResAdapter直接生成具有動態分辨率的圖像。特別是,在深入了解純分辨率先驗知識後,ResAdapter在通用數據集上訓練,使用個性化擴散模型生成無分辨率限制的圖像,同時保留其原始風格領域。全面的實驗表明,ResAdapter僅需0.5M即可處理具有靈活分辨率的圖像,適用於任意擴散模型。更廣泛的實驗表明,ResAdapter與其他模塊(例如ControlNet、IP-Adapter和LCM-LoRA)兼容,可用於跨多種分辨率生成圖像,並可集成到其他多分辨率模型(例如ElasticDiffusion)中,高效生成更高分辨率的圖像。項目鏈接為https://res-adapter.github.io
本技術報告介紹了 TripoSR,一個利用變壓器架構進行快速前向 3D 生成的 3D 重建模型,能夠從單張圖像中在 0.5 秒內生成 3D 網格。在 LRM 網絡架構的基礎上,TripoSR 整合了在數據處理、模型設計和訓練技術方面的重大改進。對公共數據集的評估顯示,與其他開源替代方案相比,TripoSR 在定量和定性上表現出優越性能。TripoSR 釋出於 MIT 授權下,旨在為研究人員、開發人員和創意人士提供最新的 3D 生成人工智能技術。
語言提供了一種將複雜概念分解為易於理解部分的方法。最近在機器人模仿學習方面的研究作品使用了以語言為條件的策略,根據視覺觀察和語言中指定的高層任務來預測動作。這些方法利用自然語言的結構在多任務數據集中在語義上相似的任務之間共享數據(例如,“拿可樂罐”和“摘蘋果”)。然而,隨著任務在語義上變得更加多樣化(例如,“拿可樂罐”和“倒杯子”),在任務之間共享數據變得更加困難,因此學習將高層任務映射到動作需要更多的示範數據。為了搭建任務和動作之間的橋樑,我們的見解是教導機器人動作的語言,用更細緻的短語描述低層運動,例如“向前移動手臂”。將這些語言運動預測作為任務和動作之間的中間步驟迫使策略學習跨看似不同的任務之間的低層運動的共享結構。此外,一個以語言運動為條件的策略在執行過程中可以輕鬆通過人類指定的語言運動進行校正。這為靈活策略的新範式提供了可能,這些策略可以從語言中的人類干預中學習。我們的方法 RT-H 使用語言運動構建動作層次結構:首先學習預測語言運動,並根據此和高層任務來預測動作,在所有階段使用視覺上下文。我們展示了 RT-H 利用這種語言-動作層次結構來學習更具彈性和韌性的策略,有效地利用多任務數據集。我們展示了這些策略不僅可以對語言干預做出反應,還可以從這些干預中學習,並且優於從遠程操作干預中學習的方法。我們的網站和視頻可在 https://rt-hierarchy.github.io 找到。
3D 資產生成正受到廣泛關注,受到最近文本引導的 2D 內容創作成功的啟發。現有的文本轉 3D 方法使用預訓練的文本轉圖像擴散模型來解決優化問題,或在合成數據上對其進行微調,這通常會導致沒有背景的非照片寫實 3D 物體。在本文中,我們提出了一種方法,利用預訓練的文本轉圖像模型作為先驗,並學習從現實世界數據中在單一去噪過程中生成多視圖圖像。具體而言,我們建議將 3D 體素渲染和跨幀注意力層整合到現有 U-Net 網絡的每個塊中,以改進文本轉圖像模型。此外,我們設計了一種自回歸生成方法,可以在任何視角呈現更具 3D 一致性的圖像。我們在真實世界物體的數據集上訓練我們的模型,展示了它生成具有各種高質量形狀和紋理的實境環境中實例的能力。與現有方法相比,我們方法生成的結果一致,視覺質量較高(FID 減少 30%,KID 減少 37%)。
圖像到視頻(I2V)生成任務總是在開放領域中保持高保真度方面遇到困難。傳統的圖像動畫技術主要集中在特定領域,如臉部或人體姿勢,這使它們難以推廣到開放領域。基於擴散模型的一些最近的I2V框架可以為開放領域的圖像生成動態內容,但無法保持保真度。我們發現低保真度的兩個主要因素是在去噪過程中丟失圖像細節和噪聲預測偏差。為此,我們提出了一種有效的方法,可應用於主流視頻擴散模型。該方法通過補充更精確的圖像信息和噪聲糾正來實現高保真度。具體而言,對於指定的圖像,我們的方法首先向輸入圖像潛在添加噪聲以保留更多細節,然後對帶有適當糾正的噪聲潛在進行去噪以減輕噪聲預測偏差。我們的方法無需調整即可即插即用。實驗結果證明了我們方法在提高生成視頻保真度方面的有效性。有關更多圖像到視頻生成結果,請參閱項目網站:https://noise-rectification.github.io。
在機器人技術中,用兩隻多指手操作物體一直是一個長期存在的挑戰,這歸因於許多操作任務具有豐富的接觸特性,以及協調高維度雙手系統所固有的複雜性。在這項研究中,我們考慮使用兩隻手扭開各種瓶子狀物體的蓋子的問題,並展示通過深度強化學習在模擬中訓練的策略可以有效地轉移到現實世界。通過對物理建模、實時感知和獎勵設計的新穎工程見解,該策略展示了在各種未見過的物體上的泛化能力,展示了動態和靈巧的行為。我們的研究結果作為深度強化學習結合模擬到現實轉移的有前景方法,用於應對前所未有複雜性的操作問題的有力證據。
從多視角影片中構建動態場景的照片逼真自由視點視頻(FVV)仍然是一項具有挑戰性的工作。儘管當前神經渲染技術取得了顯著進展,這些方法通常需要完整的視頻序列進行離線訓練,並且無法進行實時渲染。為了應對這些限制,我們引入了3DGStream,這是一種專為實現高效的現實世界動態場景FVV串流而設計的方法。我們的方法實現了在12秒內快速的即時逐幀重建,以及每秒200幀的實時渲染。具體來說,我們利用3D高斯(3DGs)來表示場景。我們不採用直接優化每幀3DGs的天真方法,而是使用緊湊的神經轉換緩存(NTC)來模擬3DGs的平移和旋轉,顯著減少了每個FVV幀所需的訓練時間和存儲空間。此外,我們提出了一種適應性3DG添加策略來處理動態場景中出現的新對象。實驗表明,與最先進的方法相比,3DGStream在渲染速度、圖像質量、訓練時間和模型存儲方面實現了競爭性的性能。