每日精選AI研究論文及翻譯
我們介紹了 SUPIR(Scaling-UP Image Restoration),這是一種開創性的影像修復方法,利用生成先驗和模型擴展的威力。通過利用多模態技術和先進的生成先驗,SUPIR標誌著智能和逼真影像修復方面的重大進步。作為 SUPIR 內的關鍵催化劑,模型擴展顯著增強了其能力,展示了影像修復的新潛力。我們收集了一個包含 2 千萬高分辨率、高質量影像的數據集進行模型訓練,每個影像都附帶有描述性文本註釋。SUPIR 具備根據文本提示修復影像的能力,擴大了應用範圍和潛力。此外,我們引入了負質量提示以進一步提高感知質量。我們還開發了一種修復引導取樣方法,以抑制生成式修復中遇到的保真度問題。實驗證明了 SUPIR 卓越的修復效果,以及通過文本提示操控修復的新能力。
無需標記的語言模型直接從原始位元組學習,消除了次單詞標記化的偏見。然而,使用位元組會導致序列變得顯著較長,而標準的自回歸Transformer在這種情況下表現不佳。我們對MambaByte進行了實驗,這是Mamba狀態空間模型的無標記適應版本,是在位元組序列上自回歸訓練的。我們的實驗顯示,與其他位元組級模型相比,MambaByte的計算效率較高。我們還發現,MambaByte在與最先進的次單詞Transformer相比具有競爭力,甚至表現優異。此外,由於長度的線性擴展,MambaByte在推理速度上比Transformer更具優勢。我們的研究結果確立了MambaByte在實現無標記語言建模方面的可行性。
在過去的一年中,多模式大型語言模型(MM-LLMs)取得了顯著進展,通過成本效益的訓練策略,擴展了現成的LLMs以支持多模式輸入或輸出。由此產生的模型不僅保留了LLMs固有的推理和決策能力,還賦予了多樣的多模式任務。在本文中,我們提供了一份全面的調查,旨在促進對MM-LLMs的進一步研究。具體而言,我們首先概述了模型架構和訓練流程的一般設計公式。隨後,我們簡要介紹了26種現有的MM-LLMs,每種都以其特定的公式特徵。此外,我們回顧了MM-LLMs在主流基準測試中的表現,並總結了關鍵的訓練配方,以增強MM-LLMs的效力。最後,我們探討了MM-LLMs的前景方向,同時維護一個實時追蹤網站,以追蹤該領域的最新發展。我們希望這份調查對於MM-LLMs領域的持續進步有所貢獻。
大型語言模型(LLMs)的進步引領了一個新時代的到來,這個時代以在現實世界中開發自主應用為特徵,推動了在創建先進的基於網絡的代理人方面的創新。現有的網絡代理通常只處理一種輸入模式,並且僅在簡化的網絡模擬器或靜態網頁快照中進行評估,這大大限制了它們在現實世界情境中的應用。為了彌合這一差距,我們引入了WebVoyager,一個創新的大型多模型模型(LMM)驅動的網絡代理,可以通過與現實世界網站的互動來完整地完成用戶指令。此外,我們提出了一種新的網絡代理評估協議,以應對開放式網絡代理任務的自動評估挑戰,利用了GPT-4V的強大多模型理解能力。我們通過從15個廣泛使用的網站中收集現實世界任務來評估我們的代理人,創建了一個新的基準。我們展示了WebVoyager實現了55.7%的任務成功率,顯著超越了GPT-4(所有工具)和WebVoyager(僅文本)設置的表現,凸顯了WebVoyager在實際應用中的卓越能力。我們發現,我們提出的自動評估與人類判斷達到了85.3%的一致性,為在現實世界環境中進一步發展網絡代理鋪平了道路。
最近的文本到圖像生成模型展示了令人難以置信的成功,能夠生成忠實於輸入提示的圖像。然而,使用詞語描述所需概念的要求對於生成概念的外觀控制有限。在這項工作中,我們通過提出一種方法來賦予現有文本到圖像擴散模型個性化能力來解決這個缺點。我們提出了一種新穎的架構(BootPIG),允許用戶提供物體的參考圖像,以引導生成圖像中概念的外觀。 所提出的BootPIG架構對預訓練的文本到圖像擴散模型進行最小修改,並利用獨立的UNet模型來引導生成圖像朝著所需的外觀發展。我們引入了一種訓練程序,使我們能夠通過從預訓練的文本到圖像模型、LLM聊天代理和圖像分割模型生成的數據來在BootPIG架構中引導個性化能力。與需要數天預訓練的現有方法相比,BootPIG架構可以在約1小時內訓練。對DreamBooth數據集的實驗表明,BootPIG在超越現有的零樣本方法的同時,與測試時間微調方法相當。通過用戶研究,我們驗證了BootPIG生成相對於現有方法的偏好,無論是在保持忠實於參考物體外觀還是與文本提示一致方面。
大型語言模型已在自然語言處理的最新技術中取得了進展。然而,它們主要設計用於英語或有限的一組語言,導致在低資源語言的效果上存在顯著差距。為了彌合這一差距,我們介紹了MaLA-500,這是一個新穎的大型語言模型,旨在涵蓋534種語言的廣泛範圍。為了訓練MaLA-500,我們採用詞彙擴展和在LLaMA 2上持續預訓練,使用Glot500-c。我們在SIB-200上的實驗表明,MaLA-500實現了最先進的上下文學習結果。我們在https://huggingface.co/MaLA-LM 上釋出了MaLA-500。
預訓練大型語言模型被廣泛認為耗費極大資源且常常效率低下,未充分利用訓練文本序列中所包含的資訊。本文介紹了一種名為SpacTor的新訓練程序,包括(1)結合跨度損壞(SC)和標記替換檢測(RTD)的混合目標,以及(2)兩階段課程,優化初始tau次迭代中的混合目標,然後過渡到標準SC損失。我們實證表明,混合目標的有效性與兩階段預訓練時間表相關,並詳細分析了這種情況。在我們對編碼器-解碼器架構(T5)在各種自然語言處理任務上的實驗中,SpacTor-T5在保持相同下游性能的同時,實現了預訓練迭代次數減少50%和總FLOPs減少40%。或者,在相同計算預算的情況下,我們發現SpacTor能夠顯著提高下游基準性能。
最近,文本轉3D方法已經實現了使用文本描述生成高保真度的3D內容。然而,生成的物件是隨機的且缺乏細粒度控制。素描提供了一種廉價的方法來引入這種細粒度控制。然而,由於素描的抽象性和模棱兩可性,要從這些素描中實現靈活的控制是具有挑戰性的。在本文中,我們提出了一個多視角素描引導的文本轉3D生成框架(即Sketch2NeRF),以將素描控制添加到3D生成中。具體來說,我們的方法利用預訓練的2D擴散模型(例如Stable Diffusion和ControlNet)來監督由神經輻射場(NeRF)表示的3D場景的優化。我們提出了一種新穎的同步生成和重建方法,以有效優化NeRF。在實驗中,我們收集了兩種類型的多視角素描數據集來評估所提出的方法。我們展示了我們的方法能夠合成具有細粒度素描控制的3D一致內容,同時對文本提示高保真。廣泛的結果顯示,我們的方法在素描相似性和文本對齊方面實現了最先進的性能。
現有的文本到圖像擴散模型主要是從文本提示生成圖像。然而,文本描述的內在簡潔性在忠實合成具有細緻細節的圖像方面存在挑戰,例如特定實體或場景。本文提出了UNIMO-G,一個簡單的多模態條件擴散框架,它在多模態提示上運作,其中包含交錯的文本和視覺輸入,展示了對於既有文本驅動又有主題驅動的圖像生成的統一能力。UNIMO-G包含兩個核心組件:一個用於編碼多模態提示的多模態大語言模型(MLLM),以及一個有條件的去噪擴散網絡,用於基於編碼的多模態輸入生成圖像。我們採用了兩階段訓練策略來有效訓練這個框架:首先在大規模文本-圖像對上進行預訓練,以發展有條件的圖像生成能力,然後通過多模態提示進行指導微調,以實現統一的圖像生成能力。採用了一個精心設計的數據處理流程,涉及語言基礎和圖像分割,用於構建多模態提示。UNIMO-G在文本到圖像生成和零樣本主題驅動合成方面表現出色,特別擅長於從涉及多個圖像實體的複雜多模態提示中生成高保真度的圖像。
近年來人工智慧的進步推動了大型多模型模型(LMMs)的發展,這些模型能夠處理涉及文本和圖像內容聯合推理的複雜任務(例如,在公共場所中導航地圖)。本文介紹了一個名為ConTextual的新型基準,其中包含專門設計來評估LMMs執行具有上下文敏感性的文本豐富視覺推理能力。ConTextual強調多樣的現實情境(例如時間閱讀、導航、購物等),要求對文本和視覺元素之間的互動有更深入的理解。我們的研究發現,在最佳表現的LMM,GPT-4V(ision),與人類能力之間存在著30.8%的顯著性能差距,這是通過人類評估得出的結果,顯示在具有上下文敏感性的文本豐富視覺推理方面還有很大的改進空間。值得注意的是,儘管GPT-4V在抽象類別(如模因和引文解釋)方面表現出色,但其整體表現仍落後於人類。除了人類評估外,我們還使用GPT-4進行自動評估指標,揭示了性能差異的相似趨勢。我們還對不同視覺背景進行了細緻評估,並提供了定性分析,為LMM設計的未來進步提供了堅實的框架。 https://con-textual.github.io/
大規模文本到圖像生成模型取得了顯著進展,展示了它們合成各種高質量圖像的能力。然而,將這些模型適應到藝術圖像編輯中存在兩個重要挑戰。首先,用戶難以精心製作詳細描述輸入圖像視覺元素的文本提示。其次,當主流模型在特定區域進行修改時,經常會破壞整體藝術風格,使得實現連貫和美學統一的藝術作品變得複雜。為了克服這些障礙,我們建立了創新的統一框架CreativeSynth,它基於擴散模型,具有協調多模態輸入和在藝術圖像生成領域中多任務的能力。通過將多模態特徵與定制的注意機制相結合,CreativeSynth 促進了將現實世界語義內容透過反演和實時風格轉移輸入到藝術領域。這允許對圖像風格和內容進行精確操作,同時保持原始模型參數的完整性。嚴格的定性和定量評估突顯了CreativeSynth 在增強藝術圖像的保真度方面的優越性,並保留了其固有的美學本質。通過彌合生成模型和藝術精髓之間的差距,CreativeSynth 成為了一個定制的數字調色板。