每日精選AI研究論文及翻譯
我們提出了 MVDream,一種多視角擴散模型,能夠從給定的文本提示生成幾何一致的多視角圖像。通過利用在大規模網絡數據集上預先訓練的圖像擴散模型和從3D資產渲染的多視角數據集,所得的多視角擴散模型可以同時實現2D擴散的通用性和3D數據的一致性。這種模型因此可以應用為3D生成的多視角先驗,通過得分蒸餾抽樣,在解決3D一致性問題的同時極大地改善現有的2D提升方法的穩定性。最後,我們展示了多視角擴散模型也可以在少樣本設置下進行微調,用於個性化的3D生成,即DreamBooth3D應用程序,在學習主題身份後可以保持一致性。
最近,類似Transformer的模型在視覺任務上已被證實對於許多下游應用(如分割和檢測)非常有效。先前的研究表明,在使用自監督方法(如DINO)訓練的視覺Transformer(ViTs)中出現了分割特性,但在受監督分類任務訓練的模型中並未出現。本研究探討了基於Transformer的模型中分割是否僅僅是由於複雜的自監督學習機制而出現,或者是否可以通過適當設計模型架構在更廣泛的條件下實現相同的出現。通過大量的實驗結果,我們展示了當使用一種名為CRATE的白盒Transformer-like架構時,該設計明確地對數據分佈中的低維結構進行建模和追求時,分割特性在整體和部分層面上已經在最簡單的受監督訓練配方下出現。逐層細粒度分析顯示,出現的特性與白盒網絡的設計數學函數強烈一致。我們的結果表明了設計白盒基礎模型的途徑,這些模型既性能卓越又在數學上完全可解釋。代碼位於https://github.com/Ma-Lab-Berkeley/CRATE。
穩定擴散是一種在文本到圖像合成中使用的生成模型,當生成不同尺寸的圖像時,常常會遇到由解析度引起的構圖問題。這個問題主要源於該模型是在單一尺度圖像及其對應的文本描述對上進行訓練。此外,直接在無限尺寸的圖像上進行訓練是不可行的,因為這將需要大量的文本-圖像對並且需要龐大的計算開銷。為了克服這些挑戰,我們提出了一個名為任意尺寸擴散(ASD)的兩階段流程,旨在有效生成任何尺寸的構圖良好的圖像,同時最大程度地減少對高內存 GPU 資源的需求。具體而言,初始階段被稱為任意比例適應性擴散(ARAD),利用一組選定的具有受限比例範圍的圖像來優化文本條件擴散模型,從而提高其調整構圖以容納不同圖像尺寸的能力。為了支持在任何所需尺寸上創建圖像,我們進一步引入了一種稱為快速無縫平鋪擴散(FSTD)的技術在後續階段。這種方法允許將 ASD 的輸出快速放大到任何高分辨率尺寸,避免接縫瑕疵或內存超載。在 LAION-COCO 和 MM-CelebA-HQ 基準測試上的實驗結果表明,ASD 能夠生成任意大小的結構良好的圖像,將推理時間比傳統平鋪算法減少了 2 倍。
像ChatGPT這樣的預訓練語言模型顯著改善了程式碼生成。隨著這些模型的規模擴大,對輸出處理更複雜任務的需求也在增加。此外,在生物信息學中,生成功能性程式碼面臨額外的顯著挑戰,這是由於領域知識量大、需要複雜的數據操作以及操作之間錯綜複雜的功能依賴關係。在這裡,我們介紹了一個名為BioCoder的基準,用於評估現有的預訓練模型在生成生物信息學程式碼方面的表現。在功能-程式碼生成方面,BioCoder涵蓋潛在的套件依賴、類聲明和全局變量。它包含來自GitHub的Python和Java中的1026個函數和1243個方法,以及Rosalind Project的253個示例。BioCoder還結合了一個用於評估的模糊測試框架,我們已將其應用於評估許多模型,包括InCoder、CodeGen、CodeGen2、SantaCoder、StarCoder、StarCoder+、InstructCodeT5+和ChatGPT。我們對這些模型的詳細分析強調了領域知識、實用程式碼生成和情境理解的重要性。我們的數據集、基準、Docker映像和測試所需的腳本都可在https://github.com/gersteinlab/biocoder上找到。
當人類程式設計師掌握了一種程式語言後,學習新的程式語言就會變得更容易。本報告專注於探索在代碼大型語言模型微調階段時,程式語言是否能相互促進。我們對StarCoder上的8種流行程式語言(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)進行了廣泛的實驗。結果顯示,程式語言可以顯著地相互改善。例如,在HumanEval-X上,CodeM-Python 15B在Python上訓練後,能夠使Java的pass@1絕對值提高了17.95%。更令人驚訝的是,我們發現CodeM-HTML 7B在HTML語料庫上訓練後,可以使Java的pass@1絕對值提高了15.24%。我們的訓練數據已在https://github.com/NL2Code/CodeM 上發布。
我們探討了具有持續學習神經場景表示的主動映射問題,即主動神經映射。關鍵在於主動尋找要探索的目標空間,通過高效的代理移動,在之前未見環境中即時最小化地圖不確定性。本文中,我們研究了持續學習神經場的權重空間,並實證表明神經變異性,即對隨機權重擾動的預測穩健性,可以直接用於衡量神經地圖的即時不確定性。結合神經地圖中繼承的連續幾何信息,代理可以被引導找到可通過的路徑,逐漸獲取對環境的認識。我們首次提出了一個基於座標的隱式神經表示的主動映射系統,用於在線場景重建。在視覺逼真的Gibson和Matterport3D環境中的實驗證明了所提方法的有效性。
在機器人學中,開發能夠從視覺觀察中在非結構化真實世界環境中執行多樣化操作任務的代理人一直是一個長期存在的問題。為了實現這一目標,機器人需要對場景的三維結構和語義有全面的理解。在這項工作中,我們提出了GNFactor,這是一個利用通用神經特徵場域進行多任務機器人操作的視覺行為克隆代理人。GNFactor同時優化通用神經場域(GNF)作為重建模塊和Perceiver Transformer作為決策模塊,利用共享的深度三維體素表示。為了在三維中融入語義,重建模塊利用視覺語言基礎模型(例如,穩定擴散)將豐富的語義信息提煉到深度三維體素中。我們在3個真實機器人任務上評估了GNFactor,並對10個RLBench任務進行了詳細的消融分析,其中僅使用有限數量的示範。我們觀察到,GNFactor在已知和未知任務中明顯優於當前最先進的方法,展示了GNFactor強大的泛化能力。我們的項目網站是https://yanjieze.com/GNFactor/。
我們介紹了 Belebele,一個涵蓋 122 種語言變體的多選機器閱讀理解(MRC)數據集。該數據集顯著擴展了自然語言理解(NLU)基準的語言覆蓋範圍,使得可以評估文本模型在高、中、低資源語言中的表現。每個問題基於 Flores-200 數據集中的一個短篇章,並包含四個多選答案。這些問題經過精心挑選,可以區分具有不同通用語言理解水平的模型。單單英文數據集就足以挑戰最先進的語言模型。這個數據集是完全平行的,可以直接比較各種語言上模型的表現。我們使用這個數據集來評估多語言遮罩語言模型(MLMs)和大型語言模型(LLMs)的能力。我們提出了廣泛的結果,發現儘管以英語為中心的LLMs具有顯著的跨語言轉移能力,但在平衡的多語言數據上預訓練的規模較小的MLMs仍然理解更多語言。我們還觀察到更大的詞彙量和有意識的詞彙構建與低資源語言上更好的表現有關。總的來說,Belebele為評估和分析自然語言處理系統的多語言能力開辟了新途徑。
以人為中心的影片幀插補具有極大的潛力,可提升人們的娛樂體驗,並在體育分析行業中找到商業應用,例如合成慢動作影片。儘管社區中有多個基準數據集可用,但其中沒有專門針對以人為中心情境的數據集。為彌合這一差距,我們引入了SportsSloMo,這是一個基準數據集,包含超過130K個影片片段和100萬個高分辨率(≥720p)的來自YouTube的慢動作體育影片幀。我們對我們的基準數據集重新訓練了幾種最先進的方法,結果顯示它們的準確性較其他數據集有所降低。這凸顯了我們的基準數據集的困難性,並表明即使對於表現最佳的方法,它也構成了重大挑戰,因為人體高度可變形,並且在體育影片中頻繁出現遮擋。為了提高準確性,我們引入了兩個損失項,考慮到人類感知先驗知識,我們分別對全景分割和人體關鍵點檢測添加了輔助監督。這些損失項是模型不可知的,可以輕鬆地插入任何影片幀插補方法中。實驗結果驗證了我們提出的損失項的有效性,導致對5個現有模型的一致性性能改進,這些模型在我們的基準數據集上建立了強大的基準模型。數據集和代碼可在以下網址找到:https://neu-vi.github.io/SportsSlomo/.