每日精選AI研究論文及翻譯
大型語言模型(LLMs)在許多自然語言處理任務中非常有用,並且隨著規模的增大而變得更加強大,目前最佳的開源模型擁有超過500億個參數。然而,使用這些超過50B的模型需要高端硬體,這使得大多數研究人員無法接觸到。在這項工作中,我們研究了LLMs的成本效益推斷和微調方法,比較了本地和分散策略。我們觀察到,一個足夠大的模型(50B+)即使在消費級網絡中的地理分佈設備上運行效率也很高。這可以通過整合多個研究小組和志願者的閒置計算資源來有效運行LLMs。我們解決了兩個開放問題:(1)如果任何設備可能突然斷開連接,如何可靠地執行推斷和微調,以及(2)如何在硬體不均勻的設備之間劃分LLMs,隨時加入和離開。為此,我們開發了特殊的容錯推斷算法和負載平衡協議,自動分配設備以最大化整個系統的吞吐量。我們在Petals中展示了這些算法 - 一個分散式系統,可以比交互生成的卸載快10倍地在互聯網上運行Llama 2(70B)和BLOOM(176B)。我們在模擬條件和橫跨兩大洲的實際環境中評估了我們系統的性能。
現有的開放詞彙圖像分割方法需要對遮罩標註和/或圖像-文字數據集進行微調步驟。遮罩標籤需要耗費大量人力,這限制了分割數據集中類別的數量。因此,在微調後,預先訓練的VLM的開放詞彙能力嚴重降低。然而,如果沒有進行微調,以弱圖像-文字監督進行訓練的VLM在出現引用圖像中不存在概念的文本查詢時,往往會做出次優的遮罩預測。為了緩解這些問題,我們引入了一種新穎的遞歸框架,逐步過濾掉無關的文本,增強遮罩質量而無需進行訓練努力。這個遞歸單元是基於具有凍結權重的VLM構建的兩階段分割器。因此,我們的模型保留了VLM的廣泛詞彙空間,並增強了其分割能力。實驗結果表明,我們的方法不僅優於無需訓練的對應方法,還優於使用數百萬額外數據樣本進行微調的方法,並為零樣本語義和引用圖像分割任務設立了新的最新紀錄。具體而言,在Pascal VOC、COCO Object和Pascal Context上,我們將當前紀錄提高了28.8、16.0和6.9 mIoU。
3D模擬環境在具身體性人工智慧中扮演關鍵角色,但其創建需要專業知識和大量手動工作,限制了其多樣性和範圍。為了解決這一限制,我們提出了Holodeck,一個系統,可以完全自動生成符合用戶提供提示的3D環境。Holodeck能夠生成多樣化的場景,例如遊樂場、溫泉和博物館,調整設計風格,並捕捉複雜查詢的語義,例如“一個有貓的研究員的公寓”和“喜歡星際大戰的教授的辦公室”。Holodeck利用大型語言模型(GPT-4)對場景可能的外觀具有常識知識,並使用Objaverse的大量3D資產來填充場景中的各種物件。為了應對正確定位物件的挑戰,我們提示GPT-4生成物件之間的空間關係約束,然後優化佈局以滿足這些約束。我們的大規模人類評估顯示,標註者更喜歡Holodeck而不是手動設計的程序化基準在住宅場景中,並且Holodeck能夠為多種場景類型生成高質量輸出。我們還展示了Holodeck在具身體性人工智慧中的一個令人興奮的應用,即訓練代理在像音樂室和托兒所這樣的新場景中導航,而無需人工構建的數據,這是發展通用具身體性代理的重要一步。
本研究旨在提高文本到圖像擴散模型的效率。儘管擴散模型在每個生成步驟中使用計算昂貴的基於 UNet 的去噪操作,我們確定並非所有操作對最終輸出質量同等重要。特別是,我們觀察到在高分辨率特徵圖上運行的 UNet 層對微小干擾相對敏感。相反,低分辨率特徵圖影響最終圖像的語義佈局,通常可以在不會引起輸出明顯變化的情況下進行干擾。基於這一觀察,我們提出了時鐘式擴散方法,定期重複利用先前去噪步驟的計算,以在一個或多個後續步驟中近似低分辨率特徵圖。對於多個基準線,無論是文本到圖像生成還是圖像編輯,我們展示時鐘式擴散在極大降低計算複雜度的情況下,可達到相當或更好的感知分數。例如,對於具有 8 個 DPM++ 步驟的 Stable Diffusion v1.5,我們節省了 32% 的 FLOPs,而 FID 和 CLIP 變化微乎其微。
我們提出了FoundationPose,一個統一的基礎模型,用於6D物體姿態估計和追蹤,支持基於模型和無模型的設置。我們的方法可以立即應用於新物體的測試時間,而無需微調,只要提供其CAD模型,或者捕獲少量參考圖像。我們通過神經隱式表示來彌合這兩種設置之間的差距,該表示允許有效的新視圖合成,在相同統一框架下使下游姿態估計模塊保持不變。通過大規模合成訓練、大型語言模型(LLM)、一種新型基於變壓器的架構和對比學習公式的幫助,實現了強大的泛化能力。在涉及具有挑戰性情境和物體的多個公共數據集上進行了廣泛評估,結果表明我們的統一方法在各方面均遠優於專門為每個任務設計的現有方法。此外,盡管減少了假設,它甚至實現了與實例級方法可比擬的結果。項目頁面:https://nvlabs.github.io/FoundationPose/
大型語言模型(LLMs)在解決需要全面解析陳述、關聯領域知識、執行複合邏輯推理和整合中間推理的複雜數學問題方面面臨挑戰。對LLMs來說,一次應對所有這些問題可能會很困難,因此可能導致生成時的混亂。在這項工作中,我們探索了通過細致分解和建模數學推理過程來增強LLMs的潛力。具體來說,我們提出了數學求解的正式描述,並通過一個基於代理的零樣本框架,名為計劃者-推理者-執行者-反射者(PRER),來擴展LLMs。我們進一步提供並實現了兩個MathAgents,通過不同粒度和方向的一組操作定義邏輯形式和固有關係:MathAgent-M將其操作適應於LLMs,而MathAgent-H則與人類對齊。對miniF2F和MATH上的實驗證明了PRER和提出的MathAgents的有效性,分別在MiniF2F上實現了12.3%(53.9%至66.2%)的增長,在MATH上實現了9.2%(49.8%至59.0%)的增長,以及在MATH的5級問題上實現了13.2%(23.2%至35.4%)的增長,相對於GPT-4。進一步的分析結果提供了更深入的觀點,以利用LLMs作為代理的行為。
理性發現被定義為尋找輸入數據的子集,該子集最大程度地支持下游任務的預測。在圖機器學習背景下,圖理性被定義為定位給定圖拓撲中的關鍵子圖,這基本上決定了預測結果。與理性子圖相反,其餘子圖被稱為環境子圖。圖理性化可以提高模型性能,因為假設圖理性與預測標籤之間的映射是不變的。為了確保提取的理性子圖具有區分能力,應用了一種名為“干預”的關鍵技術。干預的核心思想是,對於任何變化的環境子圖,來自理性子圖的語義是不變的,這保證了正確的預測結果。然而,現有的幾乎所有圖數據的理性化工作都是在圖級別上開發其干預策略,這是粗粒度的。在本文中,我們提出了針對圖數據的精心設計的干預策略。我們的想法受到Transformer模型的發展驅動,其自注意模塊提供了輸入節點之間豐富的交互作用。基於自注意模塊,我們提出的不變圖Transformer(IGT)可以實現精細粒度的,更具體地說,節點級和虛擬節點級的干預。我們的全面實驗涉及7個真實世界的數據集,提出的IGT相對於13個基準方法表現出顯著的性能優勢。
最近神經渲染的進展表明,儘管速度較慢,隱式緊湊模型可以從多個視角學習場景的幾何和視角相依外觀。為了保持這樣小的記憶體佔用量但實現更快的推論時間,最近的研究採用了「取樣器」網絡,該網絡能夠自適應地在隱式神經輻射場中沿著每條射線取樣一小部分點。儘管這些方法實現了高達10倍的渲染時間減少,但與基本的 NeRF 相比,它們仍然存在相當大的質量降級。相反,我們提出 ProNeRF,它在記憶體佔用量(與 NeRF 相似)、速度(比 HyperReel 更快)和質量(優於 K-Planes)之間提供了最佳的折衷方案。ProNeRF 配備了一個新穎的投影感知取樣(PAS)網絡,以及一種新的射線探索和利用的訓練策略,實現了高效的細粒度粒子取樣。我們的 ProNeRF 在指標方面達到了最先進的水準,比 NeRF 快 15-23 倍,PSNR 比 NeRF 高 0.65dB,比最佳發表的基於取樣器的方法 HyperReel 高 0.95dB。我們的探索和利用訓練策略使 ProNeRF 能夠學習完整場景的顏色和密度分佈,同時學習針對最高密度區域的有效射線取樣。我們提供了大量的實驗結果,證明了我們的方法在廣泛採用的前向和 360 度數據集 LLFF 和 Blender 上的有效性。