每日精選AI研究論文及翻譯
本文探討了視覺Transformer(ViTs)所面臨的一個重要挑戰:它們在不同圖像解析度下的受限可擴展性。通常,當ViTs處理與訓練過程中所見解析度不同的圖像時,性能會下降。我們的工作引入了兩個關鍵創新來解決這個問題。首先,我們提出了一個新穎的模塊,用單個Transformer塊設計,專門用於實現高效的增量式標記集成,以解決動態解析度調整的問題。其次,我們在視覺Transformer中引入了模糊位置編碼,以在多個解析度下提供一致的位置感知,從而防止對任何單一訓練解析度的過度擬合。我們的結果模型ViTAR(具有任意解析度的視覺Transformer)展示了出色的適應性,在1120x1120解析度下達到83.3%的top-1準確率,在4032x4032解析度下達到80.4%的準確率,同時降低了計算成本。ViTAR在下游任務中也表現出色,如實例分割和語義分割,並且可以輕鬆結合自監督學習技術,如遮罩自編碼器。我們的工作為增強ViTs的解析度可擴展性提供了一個具有成本效益的解決方案,為更多多功能和高效的高解析度圖像處理打開了道路。
在這份工作中,我們介紹了Mini-Gemini,這是一個簡單而有效的框架,用於增強多模式視覺語言模型(VLMs)。儘管VLMs的進步促進了基本的視覺對話和推理,但與GPT-4和Gemini等先進模型相比,仍存在性能差距。我們試圖通過從三個方面挖掘VLMs的潛力來縮小這一差距,即高分辨率視覺標記、高質量數據和VLM引導生成的任意工作流程。為了增強視覺標記,我們提出利用額外的視覺編碼器進行高分辨率精煉,而不增加視覺標記計數。我們進一步構建了一個高質量數據集,促進精確的圖像理解和基於推理的生成,擴大了當前VLMs的操作範圍。總的來說,Mini-Gemini進一步挖掘了VLMs的潛力,同時賦予當前框架圖像理解、推理和生成的能力。Mini-Gemini支持一系列從2B到34B的密集和MoE大型語言模型(LLMs)。已證明在幾個零-shot基準測試中取得了領先的性能,甚至超越了已開發的私有模型。代碼和模型可在https://github.com/dvlab-research/MiniGemini 上找到。
擴散模型已經革新了影像編輯,但通常會生成違反物理法則的影像,特別是對場景中物體的影響,例如遮擋、陰影和反射效應。通過分析自監督方法的局限性,我們提出了一個實用解決方案,重點在於一個反事實數據集。我們的方法涉及在移除單個物體之前和之後捕獲場景,同時最小化其他變化。通過在這個數據集上微調擴散模型,我們不僅能夠移除物體,還能夠消除它們對場景的影響。然而,我們發現,將這種方法應用於逼真的物體插入需要一個不切實際地大的數據集。為了應對這一挑戰,我們提出了啟動監督方法;利用我們在一個小型反事實數據集上訓練的物體移除模型,我們可以大幅擴展這個數據集。我們的方法在逼真的物體移除和插入方面顯著優於先前的方法,特別是在對場景中物體影響的建模方面。
大型語言模型(LLMs)在回答開放性主題的事實尋求提示時,往往會生成包含事實錯誤的內容。為了在開放領域中評估模型的長篇事實性,我們首先使用 GPT-4 生成 LongFact,這是一組包含數千個問題跨越 38 個主題的提示。然後,我們提出LLM代理可以通過一種我們稱之為「Search-Augmented Factuality Evaluator(SAFE)」的方法來用作長篇事實性的自動評估器。SAFE利用LLM將長篇回應拆分為一組個別事實,並通過一個多步推理過程來評估每個事實的準確性,其中包括向Google搜索發送搜索查詢並確定一個事實是否得到搜索結果的支持。此外,我們提出擴展F1分數作為長篇事實性的綜合指標。為此,我們平衡回應中受支持事實的百分比(精確度)與相對於代表用戶首選回應長度的超參數提供事實的百分比(召回率)。 通過實證,我們展示LLM代理可以實現超人類的評分表現-在約16,000個個別事實的一組中,SAFE與眾包人工標註者達成一致的時間為72%,在100個不一致案例的隨機子集中,SAFE贏得76%的時間。同時,SAFE比人工標註者便宜超過20倍。我們還在LongFact上對十三個語言模型進行基準測試,涵蓋四個模型系列(Gemini、GPT、Claude和PaLM-2),發現較大的語言模型通常實現更好的長篇事實性。LongFact、SAFE和所有實驗代碼均可在https://github.com/google-deepmind/long-form-factuality 上找到。
我們介紹了一種名為Garment3DGen的新方法,可以從基礎網格中合成3D服裝資產,並以單張輸入圖像作為指導。我們提出的方法允許用戶基於真實和合成圖像(如通過文本提示生成的圖像)生成3D紋理服裝。生成的資產可以直接應用於人體上進行布料模擬。首先,我們利用最近的圖像到3D擴散方法的進展來生成3D服裝幾何形狀。然而,由於這些幾何形狀不能直接用於下游任務,我們建議將它們作為虛擬地面實際值,並設置一個網格變形優化程序,將基礎模板網格變形以匹配生成的3D目標。其次,我們引入了精心設計的損失,使輸入的基礎網格可以自由變形到所需目標,同時保持網格質量和拓撲,以便進行模擬。最後,一個紋理估計模塊生成高保真度的紋理地圖,全局和局部一致,並忠實地捕捉輸入指導,使我們能夠渲染生成的3D資產。使用Garment3DGen,用戶可以生成所需的有紋理的3D服裝,無需藝術家干預。用戶可以提供描述所需生成的服裝的文本提示,以生成一個可進行模擬的3D資產。我們對各種真實和生成的資產進行了大量的定量和定性比較,並提供了如何生成可進行模擬的3D服裝的用例。
像GPT-4和Med-PaLM 2這樣的模型在各種生物醫學自然語言處理任務上展現了令人印象深刻的表現。然而,這些模型擁有數千億個參數,運算成本高昂,需要用戶通過互聯網發送輸入數據,並且是在未知數據來源上訓練的。更小、更具針對性的模型能夠競爭嗎?為了回答這個問題,我們建立並發布了BioMedLM,一個擁有27億參數的GPT風格自回歸模型,僅在PubMed摘要和完整文章上訓練。在進行微調後,BioMedLM能夠產生強大的多項選擇生物醫學問答結果,與更大的模型競爭,例如在MedMCQA(dev)上達到57.3%的得分,以及在MMLU醫學遺傳學考試上達到69.0%。BioMedLM也可以進行微調,以對醫學話題上患者問題提供有用答案。這表明較小的模型有可能作為特定自然語言處理應用的透明、保護隱私、經濟和環保的基礎,例如在生物醫學領域。該模型可在Hugging Face Hub上找到:https://huggingface.co/stanford-crfm/BioMedLM。
我們面對從單張圖像高效重建3D資產的挑戰,這是自動化3D內容創建流程需求不斷增長的問題。先前的方法主要依賴於得分蒸餾取樣(SDS)和神經輻射場(NeRF)。儘管這些方法取得了顯著成功,但由於優化時間長且記憶使用量大,這些方法遇到了實際限制。在本報告中,我們介紹了Gamba,一種從單視角圖像重建3D的端到端攤銷模型,強調兩個主要見解:(1)3D表示:利用大量3D高斯函數進行高效的3D高斯飛灑過程;(2)骨幹設計:引入基於Mamba的順序網絡,促進依賴上下文的推理和與序列(令牌)長度的線性可擴展性,以容納大量高斯函數。Gamba融合了在數據預處理、正則化設計和訓練方法方面的重大進展。我們使用真實世界掃描的OmniObject3D數據集對Gamba進行了評估,與現有的基於優化和前向傳播的3D生成方法進行比較。在這裡,Gamba展示了競爭力強的生成能力,無論是在質量上還是在量化上,同時實現了卓越的速度,大約在單個NVIDIA A100 GPU上為0.6秒。
本文介紹了 EgoLifter,一個新穎的系統,可以自動將從自我中心感應器捕獲的場景分割為個別 3D 物體的完整分解。該系統專門設計用於自我中心數據,其中場景包含從自然(非掃描)運動中捕獲的數百個物體。EgoLifter 採用 3D 高斯模型作為 3D 場景和物體的基本表示,並使用來自“Segment Anything Model”(SAM)的分割遮罩作為弱監督,以學習對象實例的靈活和可提示的定義,不受任何特定對象分類的限制。為應對自我中心視頻中的動態物體挑戰,我們設計了一個瞬態預測模塊,該模塊學習如何過濾 3D 重建中的動態物體。結果是一個完全自動化的流程,能夠將 3D 物體實例重建為由 3D 高斯模型組成的集合,共同構成整個場景。我們在 Aria Digital Twin 數據集上創建了一個新的基準,定量展示了其在從自然自我中心輸入中進行開放世界 3D 分割的最新性能。我們在各種自我中心活動數據集上運行了 EgoLifter,展示了該方法在大規模 3D 自我中心感知方面的潛力。
我們的工作解決了先前在以物件為中心的編輯問題中所見到的限制,例如由於形狀差異而導致的不真實結果,以及在物件替換或插入方面的有限控制。為此,我們引入了FlexEdit,一個靈活且可控的物件編輯框架,在其中我們使用我們的FlexEdit區塊在每個去噪步驟中迭代調整潛在變數。起初,我們在測試時間優化潛在變數以符合指定的物件限制。然後,我們的框架在去噪期間自動提取適應性遮罩,以保護背景,同時將新內容無縫地融入目標圖像。我們展示了FlexEdit在各種物件編輯任務中的多功能性,並通過來自真實和合成圖像的樣本精心策劃了一個評估測試套件,以及針對以物件為中心的編輯設計的新型評估指標。我們在不同編輯場景上進行了廣泛的實驗,展示了我們的編輯框架優於最近先進的文本引導圖像編輯方法的優越性。我們的項目頁面發佈在https://flex-edit.github.io/。
神經網絡語言模型(NNLMs)用於虛擬助手(VAs)通常依賴於語言、地區,有時也依賴於設備,這增加了擴展和維護的工作量。結合一個或多個類別的NNLMs是提高可擴展性的一種方法。在這項工作中,我們結合了英語的地區變體,建立了一個“世界英語”NNLM,用於設備上的VAs。具體來說,我們研究了適配器瓶頸的應用,以模擬我們現有生產的NNLMs中的方言特徵,並增強多方言基準。我們發現適配器模塊在模擬方言方面比專門化整個子網絡更有效。基於這一見解,並利用我們生產模型的設計,我們引入了一種新的架構,用於世界英語NNLM,滿足我們單方言模型的準確性、延遲和內存限制。