每日精選AI研究論文及翻譯
我們提出了Chameleon,這是一系列早期融合基於標記的混合模態模型,能夠理解和生成圖像和文本,並以任意順序呈現。我們概述了從一開始就穩定的訓練方法,一個對齊配方,以及針對早期融合、基於標記的混合模態設置量身定制的架構參數化。這些模型在各種任務上進行了評估,包括視覺問答、圖像標題生成、文本生成、圖像生成和長篇混合模態生成。Chameleon展示了廣泛且通用的能力,包括在圖像標題生成任務中表現出色,優於僅文本任務中的Llama-2,並與Mixtral 8x7B和Gemini-Pro等模型競爭,並進行了非平凡的圖像生成,全部在一個模型中實現。根據人類對新的長篇混合模態生成評估的判斷,其中提示或輸出包含圖像和文本混合序列,Chameleon與Gemini Pro和GPT-4V等更大型模型的性能相匹敵或超越。Chameleon標誌著在統一建模完整多模態文檔方面邁出了重要一步。
低秩適應(LoRA)是一種廣泛使用的大型語言模型參數高效微調方法。LoRA通過僅對選定的權重矩陣進行低秩擾動訓練以節省內存。在這項研究中,我們比較了LoRA和完整微調在兩個目標領域(編程和數學)上的性能。我們考慮了指令微調(約100K提示-回應對)和持續預訓練(約10B非結構化標記)數據制度。我們的結果顯示,在大多數情況下,LoRA的表現遠遠不及完整微調。然而,LoRA表現出一種理想的正則化形式:它更好地保持了基礎模型在目標領域之外任務上的表現。我們展示了LoRA相對於權重衰減和輸出層dropout等常見技術提供了更強的正則化;它還有助於保持更多樣化的生成。我們展示了完整微調學習的擾動具有比典型LoRA配置高10-100倍的秩,這可能解釋了一些報告中的差距。最後,我們提出了LoRA微調的最佳實踐。
3D重建技術的進步已經實現高質量的3D捕捉,但需要用戶收集數百至數千張圖像來創建3D場景。我們提出了CAT3D,一種通過模擬這種現實世界捕捉過程的多視圖擴散模型來創建3D中的任何物體的方法。給定任意數量的輸入圖像和一組目標新視角,我們的模型生成高度一致的場景新視角。這些生成的視角可以作為強大的3D重建技術的輸入,以產生可以從任何視角實時渲染的3D表示。CAT3D可以在一分鐘內創建完整的3D場景,並且優於現有的單圖像和少視角3D場景創建方法。請查看我們的項目頁面以獲得結果和互動演示:https://cat3d.github.io。
大型語言模型以其在少量示範範例中的上下文學習(ICL)效果而聞名。最近多模態基礎模型的進步使得窗口上下文能夠達到前所未有的長度,這提供了一個探索它們在執行具有更多示範範例的ICL能力的機會。在這項研究中,我們評估了從少量示範到多量示範ICL的多模態基礎模型的性能。我們在跨多個領域(自然圖像、醫學圖像、遙感和分子圖像)和任務(多類別、多標籤和細粒度分類)的10個數據集上對GPT-4o和Gemini 1.5 Pro進行了基準測試。我們觀察到,包括幾乎2,000個多模態示範範例在內的多量示範ICL相較於少量示範(<100個範例)ICL在所有數據集上都帶來了顯著的改進。此外,Gemini 1.5 Pro的性能在許多數據集上持續以對數線性方式提升,直至測試範例的最大數量。鑒於執行多量示範ICL所需的長提示導致高推理成本,我們還探討了將多個查詢進行批處理在單個API調用中的影響。我們展示,批處理多達50個查詢可以在零編碼和多量示範ICL下帶來性能改進,在多個數據集上在零編碼設置中大幅降低每個查詢的成本和延遲的同時實現了顯著的收益。最後,我們測量模型的ICL數據效率,即模型從更多示範範例中學習的速率。我們發現,雖然GPT-4o和Gemini 1.5 Pro在數據集上實現了類似的零編碼性能,但在大多數數據集上,Gemini 1.5 Pro的ICL數據效率高於GPT-4o。我們的結果表明,多量示範ICL可以使用戶有效地將多模態基礎模型適應到新的應用和領域。我們的代碼庫可在以下鏈接公開獲得:https://github.com/stanfordmlgroup/ManyICL。
本文介紹了由IDEA Research開發的一套先進的開放式物體檢測模型Grounding DINO 1.5,旨在推進開放式物體檢測的“邊緣”。該套件包括兩個模型:Grounding DINO 1.5 Pro,一款高性能模型,旨在在各種場景中具有更強的泛化能力;以及Grounding DINO 1.5 Edge,一款效率高的模型,優化了在許多需要邊緣部署的應用中所需的更快速度。Grounding DINO 1.5 Pro模型通過擴展模型架構、整合增強的視覺骨幹,並將訓練數據集擴展到超過2000萬張帶有定位標註的圖像,從而實現了更豐富的語義理解。Grounding DINO 1.5 Edge模型雖然設計為效率型,降低了特徵尺度,但通過在相同的全面數據集上進行訓練,保持了強大的檢測能力。實證結果顯示了Grounding DINO 1.5的有效性,Grounding DINO 1.5 Pro模型在COCO檢測基準上達到了54.3 AP,在LVIS-minival零樣本轉移基準上達到了55.7 AP,創下了開放式物體檢測的新紀錄。此外,Grounding DINO 1.5 Edge模型在優化為TensorRT後,在LVIS-minival基準上實現了75.2 FPS的速度,同時達到了36.2 AP的零樣本性能,使其更適合邊緣計算場景。模型示例和API演示將在https://github.com/IDEA-Research/Grounding-DINO-1.5-API上發布。
在這項研究中,我們恢復了非幾何一致場景的潛在3D結構。我們專注於來自卡通和動畫的手繪圖像的分析。許多卡通是由藝術家創作而成,沒有使用3D渲染引擎,這意味著場景的任何新圖像都是手繪的。手繪圖像通常是對世界的忠實表現,但僅在質性上,因為人類很難一致地繪製物體或場景的多個透視圖。然而,人們可以輕鬆地從不一致的輸入中感知3D場景!在這項工作中,我們校正了2D繪製的不一致性,以恢復一個合理的3D結構,使新變形的圖像彼此一致。我們的流程包括一個用戶友好的標註工具、相機姿態估計和圖像變形,以恢復密集結構。我們的方法將圖像扭曲以遵循透視相機模型,使我們對齊的結果能夠被應用於新視角合成重建方法,體驗以前從未繪製過的卡通。我們的項目頁面是https://toon3d.studio/。
我們提出了 Dual3D,一個新穎的文本轉3D生成框架,可以在僅1分鐘內從文本生成高質量的3D資產。其關鍵組件是雙模式多視角潛移漸變模型。給定噪聲多視角潛移漸變,2D模式可以通過單一潛移漸變去噪網絡有效地去噪,而3D模式可以生成三平面神經表面以實現一致的基於渲染的去噪。兩種模式的大多數模塊都是從預訓練的文本到圖像潛移漸變模型微調而來,以避免從頭開始訓練的昂貴成本。為了克服推斷過程中的高渲染成本,我們提出了雙模式切換推斷策略,僅使用3D模式的1/10去噪步驟,在不降低質量的情況下僅需10秒就能成功生成3D資產。3D資產的紋理可以通過我們高效的紋理精細化過程進一步增強,並在短時間內完成。大量實驗表明,我們的方法提供了最先進的性能,同時顯著縮短了生成時間。我們的項目頁面位於 https://dual3d.github.io。
在模擬環境中學習並將所學政策轉移到現實世界,有潛力實現通用型機器人。這種方法的關鍵挑戰在於解決模擬到現實(sim-to-real)之間的差距。先前的方法通常需要預先具備特定領域的知識。我們認為獲取這種知識的一種直接方式是請人類觀察並協助機器人在現實世界中執行政策。然後機器人可以從人類那裡學習,以消除各種模擬到現實之間的差距。我們提出了TRANSIC,這是一種基於人機協同框架的數據驅動方法,以實現成功的模擬到現實轉移。TRANSIC允許人類通過干預和在線校正來增強模擬政策,從而全面地克服各種未建模的模擬到現實差距。可以從人類的校正中學習殘差政策,並將其與模擬政策相結合以進行自主執行。我們展示了我們的方法可以在複雜且接觸豐富的操作任務(如家具組裝)中實現成功的模擬到現實轉移。通過在模擬中學習的政策和來自人類的政策的協同集成,TRANSIC作為一種全面解決各種常常共存的模擬到現實差距的方法是有效的。它展現出隨著人類努力而擴展的吸引人的特性。視頻和代碼可在https://transic-robot.github.io/ 上找到。