每日精選AI研究論文及翻譯
我們提出了第一個大型重建模型(LRM),可以在僅 5 秒內從單張輸入圖像預測物體的 3D 模型。與許多先前的方法不同,這些方法通常是在小規模數據集(如 ShapeNet)上以特定類別的方式進行訓練,LRM 採用了一種高度可擴展的基於 Transformer 的架構,具有 5 億個可學習參數,可以直接從輸入圖像預測神經輻射場(NeRF)。我們以端到端的方式在包含約 100 萬個物體的大量多視圖數據上訓練我們的模型,其中包括來自 Objaverse 的合成渲染和來自 MVImgNet 的真實捕獲。這種高容量模型和大規模訓練數據的結合使我們的模型具有高度通用性,可以從各種測試輸入(包括真實世界中的野外捕獲和生成模型的圖像)中產生高質量的 3D 重建。視頻演示和可交互的 3D 網格可以在此網站找到:https://yiconghong.me/LRM/.
儘管多模式大型語言模型(MM-LLMs)最近取得了令人振奮的進展,但它們仍在努力有效地建模多模式輸入之間的互動以及非文本模態中的生成。在這項工作中,我們提出了TEAL(Tokenize and Embed All),一種將來自任何模態的輸入視為標記序列並學習所有模態的聯合嵌入空間的方法。具體而言,對於來自任何模態的輸入,TEAL首先將其離散化為標記序列,並使用可學習的嵌入矩陣將標記序列嵌入到聯合嵌入空間中。MM-LLMs只需要像文本LLMs一樣自回歸地預測多模式標記。最後,根據預測的標記序列,應用相應的去標記器以生成每個模態中的輸出。通過聯合嵌入空間,TEAL使凍結的LLMs能夠執行涉及圖像和音頻等非文本模式的理解和生成任務。因此,文本LLM只需作為一個接口,並保持其在文本理解和生成方面的高性能。實驗表明,TEAL在多模式理解方面取得了顯著改進,並實現了一種簡單的多模式生成方案。
大型語言模型(LLMs)的發展極大地推動了多模式理解領域的發展,導致大型多模式模型(LMMs)的出現。為了提高視覺理解水平,最近的研究將LMMs配備了區域級理解能力,通過將物體邊界框坐標表示為一系列文本序列(pixel2seq)。本文介紹了一種新的物體定位建模範式,稱為pixel2emb方法,其中我們要求LMM輸出位置嵌入,然後由不同的解碼器解碼。這種範式允許在多模式對話中使用不同的位置格式(如邊界框和遮罩)。此類基於嵌入的位置建模還能利用現有的本地化任務實踐,如檢測和分割。在資源有限的情況下,我們的pixel2emb在公平比較下展示了比現有最先進方法(SOTA)更優異的性能,無論是在位置輸入還是輸出任務中。利用提出的pixel2emb方法,我們訓練了一個名為NExT-Chat的LMM,展示了其處理多任務能力,如視覺對應、區域標題和基於理由的能力。
最近文本轉圖像模型的顯著質量改善引起了廣泛的關注和應用。然而,我們對它們的能力和風險缺乏全面的量化理解。為了填補這一空白,我們引入了一個新的基準,即文本轉圖像模型的整體評估(HEIM)。與先前的評估主要集中在文本-圖像對齊和圖像質量不同,我們確定了12個方面,包括文本-圖像對齊、圖像質量、美學、原創性、推理、知識、偏見、毒性、公平性、韌性、多語性和效率。我們精心挑選了62個涵蓋這些方面的場景,並在這個基準上評估了26個最先進的文本轉圖像模型。我們的結果顯示,沒有一個模型在所有方面表現出色,不同模型展現出不同的優勢。我們在https://crfm.stanford.edu/heim/v1.1.0上公開了生成的圖像和人工評估結果,並在https://github.com/stanford-crfm/helm上公開了代碼,該代碼已與HELM代碼庫集成。
我們提出了3DiffTection,這是一種最先進的方法,用於從單張圖像中檢測3D物體,利用了來自3D感知擴散模型的特徵。為了進行3D檢測,對大規模圖像數據進行標註是資源密集且耗時的。最近,預訓練的大型圖像擴散模型已成為有效的2D感知任務特徵提取器。然而,這些特徵最初是在配對的文本和圖像數據上進行訓練的,這些數據並未針對3D任務進行優化,並且在應用於目標數據時通常存在領域差異。我們的方法通過兩種專門的調整策略來彌合這些差距:幾何和語義。對於幾何調整,我們對擴散模型進行微調,以執行條件為單張圖像的新視角合成,引入了一種新的極線變換運算子。這個任務滿足了兩個基本標準:對3D感知的必要性和僅依賴於姿態圖像數據的要求,這些數據是readily available(例如,從視頻中獲取)並且不需要手動標註。對於語義細化,我們進一步在具有檢測監督的目標數據上訓練模型。兩個調整階段都使用ControlNet來保持原始特徵功能的完整性。在最後一步中,我們利用這些增強的功能來在多個虛擬視角上進行測試時間預測集成。通過我們的方法,我們獲得了針對3D檢測量身定制的3D感知特徵,並在識別跨視點對應方面表現出色。因此,我們的模型成為一個強大的3D檢測器,明顯超越了先前的基準,例如Cube-RCNN,在Omni3D-ARkitscene數據集的AP3D上比單視圖3D檢測的先例提高了9.43%。此外,3DiffTection展示了強大的數據效率和對跨領域數據的泛化能力。
最近的研究表明,大型語言模型(LLMs)可以通過編程能力加強傳統的神經符號模型,將語言翻譯為模塊描述,從而實現強大的視覺推理結果,同時保持模型的透明度和效率。然而,這些模型通常會在每個新任務實例中耗盡生成整個代碼片段,這是非常低效的。我們提出了生成式神經符號視覺推理方法,通過擴展和重複使用模塊。具體而言,我們的模型包括三個獨特階段,即模塊初始化、模塊生成和模塊執行。首先,對於一個視覺語言任務,我們採用LLMs來檢查我們是否可以重用和擴展已建立的模塊來處理這個新任務。如果不能,我們將初始化任務所需的新模塊,並指定這個新模塊的輸入和輸出。之後,通過查詢LLMs來生成符合要求的相應代碼片段,創建新模塊。為了更好地了解新模塊的能力,我們將少量訓練示例視為測試用例,以查看我們的新模塊是否能通過這些用例。如果是,則將新模塊添加到模塊庫以供將來重用。最後,我們通過執行解析程序並使用新創建的視覺模塊來獲取結果,評估我們模型在測試集上的性能。我們發現所提出的模型具有幾個優勢。首先,在視覺問答和指稱表達理解等標準任務上表現出色;其次,從一個任務中學習的模塊可以無縫轉移到新任務;最後,通過觀察少量訓練示例並重複使用模塊,它能夠適應新的視覺推理任務。