每日精選AI研究論文及翻譯
擴散模型是生成高品質圖像和影片的事實上方法,但由於計算和優化挑戰,學習高維模型仍然是一個艱鉅的任務。現有方法通常採用在像素空間中訓練級聯模型,或使用單獨訓練的自編碼器的降採樣潛在空間。在本文中,我們介紹了俄羅斯套娃擴散模型(MDM),這是一個用於高分辨率圖像和影片合成的端對端框架。我們提出了一個擴散過程,同時在多個分辨率上對輸入進行降噪,並使用NestedUNet架構,其中小尺度輸入的特徵和參數被嵌套在大尺度輸入的內部。此外,MDM實現了從低到高分辨率的漸進式訓練時間表,這對於高分辨率生成的優化帶來了顯著的改進。我們在各種基準測試中展示了我們方法的有效性,包括類別條件圖像生成、高分辨率文本轉圖像和文本轉影片應用。值得注意的是,我們可以在最高達1024x1024像素的分辨率下訓練單一像素空間模型,展示了在僅包含1200萬圖像的CC12M數據集上使用強大的零樣本泛化。
大型語言模型(LLMs)在與視覺模型對齊並融入視覺-語言模型(VLMs)後,能夠顯著改善圖像推理任務。最近發布的GPT-4V(ison)、LLaVA-1.5等模型已經證明了這一點。然而,在這些領先技術的LVLMs中,強大的語言先驗可能是一把雙刃劍:它們可能會忽略圖像上下文,僅僅依賴(甚至是矛盾的)語言先驗進行推理。相比之下,VLMs中的視覺模塊比LLMs弱,可能導致誤導性的視覺表示,這些表示被LLMs轉化為自信的錯誤。為了研究這兩種VLM錯誤類型,即語言幻覺和視覺幻覺,我們建立了HallusionBench,這是一個對於即使是GPT-4V和LLaVA-1.5來說仍具有挑戰性的圖像上下文推理基準。我們對HallusionBench中的示例進行了詳細分析,這為我們對VLMs的幻覺或幻覺以及未來如何改進它們提供了新的見解。這個基準和代碼將在https://github.com/tianyi-lab/HallusionBench 上發布。
我們介紹了 DEsignBench,這是一個針對視覺設計場景量身定制的文本到圖像(T2I)生成基準。最近的 T2I 模型,如 DALL-E 3 等,展示了在生成與文本輸入密切一致的照片逼真圖像方面的顯著能力。儘管創建引人入勝的圖像的吸引力不可抗拒,我們的重點超越了單純的美學愉悅。我們的目標是探究在真實設計情境中使用這些強大模型的潛力。為了實現這一目標,我們開發了 DEsignBench,其中包含旨在評估 T2I 模型在“設計技術能力”和“設計應用場景”上的測試樣本。這兩個維度中的每一個都由一系列特定的設計類別支持。我們在 DEsignBench 上探索 DALL-E 3 和其他領先的 T2I 模型,形成一個全面的視覺庫,用於進行並列比較。對於 DEsignBench 的基準測試,我們對 DEsignBench 库中生成的圖像進行人工評估,評估標準包括圖像文本對齊、視覺美感和設計創造力。我們的評估還考慮其他專業設計能力,包括文本呈現、版面構圖、色彩和諧、3D 設計和媒體風格。除了人工評估外,我們還引入了由 GPT-4V 驅動的第一個自動圖像生成評估器。該評估器提供的評分與人類判斷高度一致,同時易於複製且成本效益高。高分辨率版本可在以下鏈接中獲得:https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
隨著大規模視頻數據集的可用性和擴散模型的進步,以文本驅動的視頻生成取得了顯著進展。然而,現有的視頻生成模型通常是在有限數量的幀上進行訓練,導致在推斷期間無法生成高保真度的長視頻。此外,這些模型僅支持單文本條件,而現實生活中的情況通常需要多文本條件,因為視頻內容隨時間變化。為應對這些挑戰,本研究探討了將以文本驅動的能力擴展到以多個文本為條件生成較長視頻的潛力。1) 我們首先分析了視頻擴散模型中初始噪聲的影響。然後基於對噪聲的觀察,我們提出了FreeNoise,這是一種無需調整且高效的範式,可增強預訓練視頻擴散模型的生成能力,同時保持內容一致性。具體來說,我們不是為所有幀初始化噪聲,而是重新安排一系列噪聲以實現長距離相關性,並通過基於窗口的功能對其執行時間注意力。2) 此外,我們設計了一種新穎的運動注入方法,以支持生成基於多個文本提示的視頻。大量實驗驗證了我們範式在擴展視頻擴散模型生成能力方面的優越性。值得注意的是,與之前性能最佳的方法相比,該方法增加了255%的額外時間成本,而我們的方法僅產生約17%的可忽略時間成本。生成的視頻樣本可在我們的網站上找到:http://haonanqiu.com/projects/FreeNoise.html。
近期通用領域大型語言模型(LLMs)的成功顯著改變了自然語言處理範式,走向跨領域和應用的統一基礎模型。本文專注於評估迄今為止最具能力的LLM,即GPT-4,在基於文本的放射學報告應用上的表現,並與最先進的放射學特定模型進行比較。通過探索各種提示策略,我們評估了GPT-4在各種常見放射學任務上的表現,發現GPT-4在時間句子相似性分類(準確性)和自然語言推理(F_1)方面要優於或與當前最先進的放射學模型相當。對於需要學習特定數據集風格或架構(例如發現總結)的任務,GPT-4通過基於示例的提示進行改進,並與監督式最先進模型相匹配。我們與一位獲得認證的放射科醫師進行了廣泛的錯誤分析,結果顯示GPT-4在放射學知識方面具有足夠水平,僅在需要微妙領域知識的複雜情境中偶爾出現錯誤。對於發現總結,發現GPT-4的輸出整體上與現有手工撰寫的印象相當。
我們介紹 Habitat 3.0:一個用於研究家庭環境中協作人機任務的模擬平台。Habitat 3.0 在三個維度上做出貢獻:(1) 準確的人形模擬:應對在建模複雜可變形物體和外觀運動多樣性方面的挑戰,同時確保高速度模擬。 (2) 人機互動基礎設施:通過滑鼠/鍵盤或虛擬實境界面實現真實人類與模擬機器人的互動,促進通過人類輸入評估機器人策略。 (3) 協作任務:研究兩個協作任務,社交導航和社交重新排列。社交導航探討機器人在未知環境中定位和跟隨人形化身的能力,而社交重新排列則處理人形和機器人在重新排列場景時的協作。這些貢獻使我們能夠深入研究人機協作的端對端學習和啟發式基準,並通過人機互動進行評估。我們的實驗表明,當與未知的人形代理和可能展現機器人未見行為的人類合作時,學習的機器人策略導致有效的任務完成。此外,我們觀察到在協作任務執行過程中出現的新行為,例如當機器人阻礙人形代理時,讓出空間,從而使人形代理有效完成任務。此外,我們使用人機互動工具的實驗表明,我們與人形代理進行的自動評估可以提供對不同策略進行實際人類合作者評估時的相對排序的指示。Habitat 3.0 在具體 AI 模擬器中解鎖了有趣的新功能,我們希望它為具體化的人機互動能力開拓出一個新的前沿。
大型語言模型(LLMs)經常用於多方面的語言生成和評估任務,這些任務涉及滿足複雜的用戶限制或考慮多個方面和標準。然而,由於模型缺乏連貫性和無法規劃和分解問題,它們的表現可能會不盡如人意。我們提出了Branch-Solve-Merge(BSM),這是一個用於應對這些具有挑戰性的自然語言任務的大型語言模型程序(Schlag等人,2023年)。它包括分支、解決和合併模塊,這些模塊使用特定提示對基礎LLM進行參數化。這三個模塊計劃將任務分解為多個平行子任務,獨立解決這些子任務,並將解決方案融合到子任務中。我們將我們的方法應用於LLM回應評估和受限文本生成任務,並使用多個LLMs(包括Vicuna、LLaMA-2-chat和GPT-4)評估其有效性。BSM通過提高人-LLM一致性,使每個LLM的評估正確性和一致性提高了最多26%,將長度和成對位置偏差降低了最多50%,並使LLaMA-2-chat能夠在大多數領域與GPT-4匹敵甚至超越。在受限故事生成任務中,BSM提高了故事的連貫性,同時提高了約12%的限制滿足度。
我們提出了TexFusion(紋理擴散),這是一種新方法,用於合成給定3D幾何形狀的紋理,採用大規模文本引導的圖像擴散模型。與最近利用2D文本到圖像擴散模型來提煉3D物體的作品相比,這些作品使用緩慢且脆弱的優化過程,TexFusion引入了一種新的3D一致生成技術,專門設計用於紋理合成,採用不同2D渲染視圖上的常規擴散模型抽樣。具體來說,我們利用潛在擴散模型,在3D物體的一組2D渲染上應用擴散模型的去噪器,並在共享的潛在紋理地圖上聚合不同的去噪預測。最終輸出的RGB紋理是通過在潛在紋理的2D渲染的解碼上優化中間神經顏色場來生成的。我們對TexFusion進行了全面驗證,並展示我們可以高效生成多樣、高質量和全局一致的紋理。我們僅使用圖像擴散模型實現了最先進的文本引導紋理合成性能,同時避免了先前基於提煉的方法的缺點。文本條件提供了詳細的控制,我們也不依賴任何真實的3D紋理進行訓練。這使得我們的方法多才多藝,適用於廣泛的幾何形狀和紋理類型。我們希望TexFusion將推動基於人工智慧的3D資產紋理應用,包括虛擬現實、遊戲設計、模擬等領域。
文本到圖像擴散模型,如Stable-Diffusion和Imagen,在MS-COCO和其他生成基準上取得了前所未有的逼真度,並且具有最先進的FID分數。給定一個標題,圖像生成需要關於物體結構、風格、觀點等屬性的細粒度知識。這些信息在文本到圖像生成模型中存儲在哪裡?在我們的論文中,我們探討這個問題,並了解有關不同視覺屬性的知識如何存儲在大規模文本到圖像擴散模型中。我們為文本到圖像模型適應因果中介分析,並將有關不同視覺屬性的知識追溯到擴散模型中的(i)UNet和(ii)文本編碼器的各個(因果)組件。特別是,我們發現,與生成大型語言模型不同,有關不同屬性的知識並不局限於孤立的組件,而是分佈在條件UNet的一組組件中。這些組件集通常對於不同的視覺屬性是不同的。值得注意的是,我們發現在Stable-Diffusion等公共文本到圖像模型中的CLIP文本編碼器僅包含一個因果狀態,跨不同的視覺屬性,這是與標題中屬性的最後一個主題標記對應的第一個自我關注層。這與其他語言模型中的因果狀態形成鮮明對比,後者通常是中間MLP層。基於對文本編碼器中僅存在一個因果狀態的觀察,我們引入了一種快速、無數據的模型編輯方法Diff-QuickFix,可以有效地編輯文本到圖像模型中的概念。Diff-QuickFix可以在不到一秒的時間內編輯(刪除)概念,提供顯著的1000倍加速和與現有微調為基礎的編輯方法相當的編輯性能。
利用上下文學習(ICL)進行數據生成,像是自我指導(Wang等,2023年)或後續的Alpaca(Taori等,2023年)等技術可以僅需少量人類監督即可訓練出強大的對話代理人。這些方法的一個限制是它們依賴於非常龐大的語言模型(約175B參數),並且是專有且非公開的。在這裡,我們探索將這些技術應用於規模更小(約10B至40B參數)且具有寬鬆許可的語言模型。我們發現自我指導方法在這些規模下效果較差,並提出了倚賴兩個主要思想的新ICL方法:(a)將ICL模板進行分類和簡化,使提示學習對語言模型更容易,以及(b)對多個語言模型輸出進行集成,以幫助選擇高質量的合成示例。我們的算法利用175個自我指導種子任務,並針對需要輸入和不需要輸入的指令使用獨立的流程。通過對不同語言模型進行實證研究,我們發現:(1)我們提出的方法比自我指導產生更高質量的指導調整數據,(2)它顯著提高了普通語言模型和指導調整語言模型的性能,以及(3)較小的指導調整語言模型比其較大的未調整對應模型產生更有用的輸出。我們的代碼庫可在https://github.com/IBM/ensemble-instruct 找到。
人類的回饋可以防止對話模型中明顯有害的言論,但可能無法自動化地緩解一些微妙的問題行為,例如對自我保存或權力的表達渴望。憲法 AI 提供了一種替代方案,將人類的回饋替換為僅基於一系列書面原則條件訓練的 AI 模型的回饋。我們發現這種方法有效地防止了這些行為的表達。簡單原則的成功激勵我們思考:模型是否能僅從單一書面原則中學習一般的道德行為?為了測試這一點,我們運行了一些實驗,使用一個大致陳述為「為人類做最好的事」的原則。我們發現最大的對話模型可以從這部簡短憲法中歸納出來,產生出無害的助理,並且沒有對權力等特定動機的表達興趣。一般原則因此可能在一定程度上避免了針對潛在有害行為的冗長憲法清單的需求。然而,更詳細的憲法仍然可以提高對特定類型傷害的細粒度控制。這表明一般和具體原則對安全引導 AI 都有價值。
隨著大型語言模型(LLMs)的演進,我們可以解決越來越複雜的自然語言處理任務,跨越各種領域,包括試算表。本研究調查LLMs是否能夠生成程式碼(Excel OfficeScripts,一種用於在Excel中執行多項任務的TypeScript API),以解決通過自然語言用戶指令提供的Excel特定任務。為此,我們引入了一個新的大規模基準測試,InstructExcel,通過利用Excel中的“自動化”功能,自動從用戶的操作生成OfficeScripts。我們的基準測試包括超過10,000個樣本,涵蓋了2000個公開可用的Excel試算表中的170多個Excel操作。在各種零樣本和少樣本設置下進行的實驗表明,InstructExcel對於像GPT-4這樣的最先進模型來說是一個難度較高的基準測試。我們觀察到(1)使用GPT-4而不是GPT-3.5,(2)提供更多上下文示例,以及(3)動態提示可以幫助提高在這個基準測試上的性能。