每日精選AI研究論文及翻譯
本文介紹了我們的ALPINE計劃的研究成果,ALPINE代表"Autoregressive Learning for Planning In NEtworks"。ALPINE計劃啟動了一項理論研究,探討基於Transformer的語言模型通過其自回歸學習機制發展規劃能力,旨在識別其規劃能力中的潛在限制。我們將規劃抽象為一個網絡尋路任務,其中目標是從指定的源節點生成到指定目標節點的有效路徑。在表達能力方面,我們展示了Transformer能夠通過將鄰接和可達性矩陣嵌入其權重來執行尋路任務。我們對Transformer基於梯度的學習動態進行的理論分析顯示,Transformer能夠學習鄰接矩陣和有限形式的可達性矩陣。這些理論見解隨後通過實驗進行驗證,實驗表明Transformer確實學習了鄰接矩陣和不完整的可達性矩陣,這與我們理論分析中的預測一致。此外,當將我們的方法應用於一個名為Blocksworld的現實世界規劃基準時,我們的觀察結果保持一致。我們的理論和實證分析進一步揭示了Transformer在尋路任務中的潛在限制:它無法通過遞移識別可達性關係,因此在需要通過路徑串聯生成路徑時將失敗。總之,我們的研究結果為自回歸學習的內部機制如何實現網絡規劃帶來了新的視角。這項研究可能有助於我們對其他相關領域中的一般規劃能力的理解。
我們介紹了Xmodel-VLM,一款尖端的多模態視覺語言模型。它旨在能夠高效部署在消費者GPU伺服器上。我們的工作直接應對了一個關鍵的行業問題,即應對阻礙大規模多模態系統廣泛應用的高昂服務成本。通過嚴格的訓練,我們從頭開始開發了一個10億規模的語言模型,採用了LLaVA範式進行模態對齊。我們稱之為Xmodel-VLM的結果是一個輕量而強大的多模態視覺語言模型。在眾多經典多模態基準測試中進行了廣泛測試,結果顯示,儘管尺寸較小且執行速度更快,Xmodel-VLM的性能與較大模型相當。我們的模型檢查點和代碼已公開在GitHub上,網址為https://github.com/XiaoduoAILab/XmodelVLM。
本文探討了潛在擴散模型的潛力,這是一類功能強大的生成模型,用於從腦電圖(EEG)記錄中重建自然音樂的任務。與簡單的音樂(如MIDI生成的曲調或單音樂曲)不同,這裡的重點是複雜的音樂,具有多樣的樂器、聲音和效果,豐富的諧波和音色。本研究代表了初步嘗試,旨在使用非侵入性EEG數據實現高質量的通用音樂重建,採用端到端的訓練方法,直接在原始數據上進行,無需手動預處理和通道選擇。我們在公開的NMED-T數據集上訓練我們的模型,並提出基於神經嵌入的量化評估指標。此外,我們基於生成的曲目進行歌曲分類。我們的工作有助於神經解碼和腦-電腦界面的持續研究,提供了使用EEG數據進行複雜聽覺信息重建的可行性洞察。
在不同條件下系統評估和理解計算機視覺模型需要大量具有全面和定制標籤的數據,而現實世界的視覺數據集很少能滿足這一需求。儘管當前的合成數據生成器為具體化人工智能任務提供了一個有前途的替代方案,但由於資產和渲染質量不高、多樣性有限和物理特性不現實,它們在計算機視覺任務中往往表現不佳。我們介紹了BEHAVIOR Vision Suite(BVS),這是一套工具和資產,用於生成全面定制的合成數據,以系統評估計算機視覺模型,基於新開發的具體化人工智能基準BEHAVIOR-1K。BVS支持在場景級別(例如照明、物體放置)、物體級別(例如聯合配置、屬性如“填充”和“折疊”)和攝像頭級別(例如視野、焦距)上調整大量參數。研究人員可以在數據生成過程中任意變化這些參數以進行受控實驗。我們展示了三個應用場景示例:系統評估模型在不同連續域轉移軸上的穩健性、在相同一組圖像上評估場景理解模型,以及為一個新的視覺任務進行訓練和評估模擬到真實的轉移:單一和二元狀態預測。項目網站:https://behavior-vision-suite.github.io/