每日精選AI研究論文及翻譯
大型語言模型已經展示出在推理能力方面的顯著進展,特別是通過推理時間的擴展,正如OpenAI的o1等模型所展示的那樣。然而,目前的視覺語言模型(VLMs)在執行系統性和結構化推理時常常遇到困難,特別是在處理複雜的視覺問答任務時。在這項工作中,我們介紹了LLaVA-o1,這是一種新型的VLM,旨在進行自主的多階段推理。與思維鏈提示不同,LLaVA-o1獨立進行摘要、視覺解釋、邏輯推理和結論生成的順序階段。這種結構化方法使LLaVA-o1在推理密集任務上實現了明顯的改進。為了實現這一點,我們編制了LLaVA-o1-100k數據集,將來自各種視覺問答來源的樣本與結構化推理標註相結合。此外,我們提出了一種推理時間階段級別的束搜索方法,實現了有效的推理時間擴展。顯著的是,僅憑100k個訓練樣本和一種簡單而有效的推理時間擴展方法,LLaVA-o1不僅在各種多模態推理基準測試中將其基本模型的表現提高了8.9%,而且超越了Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等更大甚至封閉源模型的性能。
儘管3D內容生成已取得顯著進展,現有方法仍面臨著輸入格式、潛在空間設計和輸出表示方面的挑戰。本文介紹了一種新穎的3D生成框架,解決了這些挑戰,提供可擴展、高質量的3D生成,並具有交互式的點雲結構潛在空間。我們的框架採用變分自編碼器(VAE),將多視角的RGB-D(epth)-N(ormal)渲染作為輸入,使用獨特的潛在空間設計來保留3D形狀信息,並結合級聯潛在擴散模型以改善形狀-紋理解耦。所提出的方法,稱為高斯任意性(GaussianAnything),支持多模態條件下的3D生成,允許點雲、標題以及單視角/多視角圖像輸入。值得注意的是,新提出的潛在空間自然地實現了幾何-紋理解耦,從而實現了3D感知編輯。實驗結果展示了我們方法在多個數據集上的有效性,優於現有方法在文本和圖像條件下的3D生成。
本文介紹了RAG,一種基於區域感知的文本到圖像生成方法,該方法受區域描述條件限制,用於精確的版面組合。區域提示或組合生成使得對空間進行精細控制成為可能,因此在實際應用中越來越受到關注。然而,先前的方法要麼引入額外的可訓練模塊,因此僅適用於特定模型,要麼在交叉注意力層中使用注意力遮罩對得分圖進行操作,導致當區域數量增加時控制力受到限制。為了應對這些限制,我們將多區域生成拆分為兩個子任務,即單個區域的構建(區域硬綁定),確保區域提示得到正確執行,以及對區域進行整體細節的改進(區域軟精煉),忽略視覺邊界並增強相鄰交互作用。此外,RAG創新地實現了重新繪製的可行性,用戶可以在上一次生成中修改特定不滿意的區域,同時保持所有其他區域不變,而無需依賴額外的修補模型。我們的方法無需調整即可應用於其他框架,作為對遵循屬性的增強。定量和定性實驗表明,與先前的無需調整方法相比,RAG在屬性綁定和對象關係方面實現了優越性能。
最近发布的模型,Claude 3.5 Computer Use,在首個前沿AI模型中以圖形使用者介面(GUI)代理程式的形式提供電腦使用的公開測試版。作為早期測試版,其在實際複雜環境中的能力尚不明確。在這個探索Claude 3.5 Computer Use的案例研究中,我們匯編和組織了一系列精心設計的任務,涵蓋各種領域和軟體。從這些案例中觀察到,Claude 3.5 Computer Use在端對端語言至桌面操作方面展現了前所未有的能力。除了這項研究,我們還提供了一個即用型代理程式框架,用於部署基於API的GUI自動化模型,實現輕鬆的實作。我們的案例研究旨在展示Claude 3.5 Computer Use的能力和限制基礎,並進行詳細分析,提出關於規劃、行動和評論的問題,這些問題必須考慮以進行未來改進。我們希望這項初步探索能激發對GUI代理程式社群的未來研究。本文中的所有測試案例都可以通過該專案進行嘗試:https://github.com/showlab/computer_use_ootb。
視頻大型語言模型(Vid-LLMs)在理解視頻內容以進行問答對話方面取得了顯著進展。然而,它們在將這種視覺理解延伸到需要精確時間定位的任務上(即視頻時間定位,VTG)時遇到困難。為了解決這一問題,我們引入了一種名為Number-Prompt(NumPro)的新方法,該方法通過為每個視頻幀添加獨特的數字標識符號,使Vid-LLMs能夠將視覺理解與時間定位相結合。NumPro將視頻視為一系列編號幀圖像,將VTG轉化為一個直觀的過程:按順序瀏覽漫畫面板。這使Vid-LLMs能夠“閱讀”事件時間軸,準確地將視覺內容與相應的時間信息相關聯。我們的實驗表明,NumPro顯著提升了頂級Vid-LLMs的VTG性能,而無需額外的計算成本。此外,在NumPro增強的數據集上進行微調定義了VTG的新最先進水平,其在時刻檢索的mIoU方面超越了先前表現最優方法高達6.9%,在突出部分檢測的mAP方面超過了8.5%。代碼將可在https://github.com/yongliang-wu/NumPro 上找到。
我們介紹了 Xmodel-1.5,一個新穎的 10 億參數多語言大型模型,預先訓練了約 2 兆個標記。該模型在多種語言中展現出強大的性能,特別是在泰語、阿拉伯語和法語方面表現突出,同時在中文和英文中也表現出有效性。此外,我們通過釋出一個泰語評估數據集,該數據集包含由占佔良大學綜合創新學院學生註釋的數百個問題,為研究社區做出了貢獻。儘管結果令人鼓舞,我們承認仍有改進的空間。我們希望這項工作推動多語言人工智慧研究的持續努力,促進各種自然語言處理任務中更好的跨語言理解。我們的模型和代碼在 GitHub 上公開可用,網址為 https://github.com/XiaoduoAILab/XmodelLM。
訓練深度神經網絡,以及近來的大型模型,需要高效且可擴展的優化器。像Adam、AdamW及其變體這樣的自適應梯度算法一直是這一任務的核心。儘管過去十年中開發了許多針對加速凸和非凸設置中隨機優化的方差減少算法,但方差減少在訓練深度神經網絡或大型語言模型方面並未取得廣泛成功。因此,在現代人工智能中,這仍然是一種不太受青睞的方法。在本文中,為了釋放方差減少的威力以實現大型模型的高效訓練,我們提出了一個統一的優化框架,稱為MARS(Make vAriance Reduction Shine),通過一種縮放的隨機遞歸動量技術,將預條件梯度方法與方差減少調和在一起。在我們的框架中,我們介紹了三個MARS的實例,分別利用基於AdamW、Lion和Shampoo的預條件梯度更新。我們還將我們的算法與現有的優化器之間建立了聯繫。對於訓練GPT-2模型的實驗結果表明,MARS始終以大幅度優於AdamW的表現。