AI研究論文每日精選

每日精選AI研究論文及翻譯

EnerVerse：展望機器人操作的具體未來空間
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Jan 3

BySiyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

我們介紹了 EnerVerse，這是一個專為機器人操作任務設計的全面框架，用於生成具體未來空間。EnerVerse 無縫地整合了卷積和雙向注意機制，用於內部塊空間建模，確保低級別的一致性和連續性。為了認識視頻數據中固有的冗餘性，我們提出了稀疏記憶上下文，結合塊狀單向生成範式，實現無限長序列的生成。為了進一步增強機器人的能力，我們引入了自由錨視圖（FAV）空間，提供靈活的觀察和分析視角。FAV 空間減輕了運動建模的模糊性，在受限環境中消除了物理限制，顯著提高了機器人在各種任務和環境中的泛化和適應能力。為了應對獲取多攝像機觀察的成本高昂和勞動強度，我們提出了一個數據引擎管道，將生成模型與 4D 高斯擴散（4DGS）相結合。這個管道利用生成模型的強大泛化能力和 4DGS 提供的空間約束，實現數據質量和多樣性的迭代增強，從而創造出一種有效縮小模擬與現實之間差距的數據飛輪效應。最後，我們的實驗表明，具體未來空間生成先前顯著增強了策略預測能力，從而提高了整體性能，特別是在長距離機器人操作任務中。

VITA-1.5：邁向GPT-4o級實時視覺和語音互動
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Jan 3

ByChaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

近期的多模式大型語言模型（MLLMs）通常專注於整合視覺和文本模態，對於語音在增強互動方面的作用則較少關注。然而，語音在多模式對話系統中扮演著關鍵角色，實現視覺和語音任務的高性能仍然是一個重大挑戰，這是由於基本模態之間的差異性。本文提出了一種精心設計的多階段訓練方法，逐步訓練LLM以理解視覺和語音信息，最終實現流暢的視覺和語音互動。我們的方法不僅保留了強大的視覺語言能力，還實現了高效的語音對話能力，無需單獨的語音識別（ASR）和文本到語音合成（TTS）模塊，顯著加快了多模式端到端回應速度。通過在圖像、視頻和語音任務的基準測試中將我們的方法與最先進的對手進行比較，我們展示了我們的模型具備強大的視覺和語音能力，實現了幾乎實時的視覺和語音互動。

Virgo：對重現 o1-like MLLM 進行初步探索
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Jan 3

ByYifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen

最近，建立在大型語言模型（LLMs）基礎上的慢思考推理系統通過擴展推理時間而受到廣泛關注。人們也越來越感興趣將這種能力應用於多模態大型語言模型（MLLMs）。鑒於MLLMs跨越不同模態處理更複雜的數據語義，實現多模態慢思考系統在直覺上更具挑戰性。為了解決這個問題，在本文中，我們探索了一種直接的方法，通過用少量文本長篇思考數據對功能強大的MLLM進行微調，從而產生一個多模態慢思考系統Virgo（具有長篇思考的視覺推理）。我們發現這些以自然語言表達的長篇推理過程可以有效地轉移到MLLMs。此外，這種文本推理數據似乎比視覺推理數據更有效地引發MLLMs的慢思考能力。雖然這項工作還處於初步階段，但它表明慢思考能力基本上與語言模型組件相關，可以跨模態或領域進行轉移。這一發現可以用來引導更強大的慢思考推理系統的開發。我們在https://github.com/RUCAIBox/Virgo 上公開了我們的資源。

SDPO：社交代理人的分段級直接偏好優化
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Jan 3

ByAobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang

由大型語言模型（LLMs）驅動的社交代理可以模擬人類社交行為，但在處理複雜的目標導向社交對話方面表現不佳。直接偏好優化（DPO）已被證明在各種代理任務中對齊LLM行為與人類偏好方面非常有效。現有基於DPO的多輪互動方法分為轉換級和會話級方法。轉換級方法過於細緻，僅專注於個別轉換，而會話級方法過於粗糙，通常會引入訓練噪音。為解決這些限制，我們提出了段落級直接偏好優化（SDPO），該方法專注於互動中的特定關鍵段落，以優化多輪代理行為同時最小化訓練噪音。在SOTOPIA基準測試中的評估表明，經過SDPO調整的代理不斷優於現有基於DPO的方法和像GPT-4o這樣的專有LLMs，突顯了SDPO在提升基於LLM的代理的社交智能方面的潛力。我們在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO 上發布了我們的代碼和數據。

圖生成預訓練Transformer
Graph Generative Pre-trained Transformer

Jan 2

ByXiaohui Chen, Yinkai Wang, Jiaxing He, Yuanqi Du, Soha Hassoun, Xiaolin Xu, Li-Ping Liu

圖形生成在多個領域中是一項關鍵任務，包括分子設計和社交網絡分析，因為它能夠模擬複雜關係和結構化數據。儘管大多數現代圖形生成模型使用鄰接矩陣表示，本研究重新審視了一種將圖形表示為節點集和邊集序列的替代方法。我們支持這種方法，因為它對圖形的高效編碼，並提出了一種新穎的表示方法。基於這種表示，我們引入了圖形生成預訓練Transformer（G2PT），這是一個通過下一個標記預測來學習圖形結構的自回歸模型。為了進一步利用G2PT作為通用基礎模型的能力，我們探索了兩個下游應用的微調策略：目標導向生成和圖形屬性預測。我們在多個數據集上進行了廣泛的實驗。結果表明，G2PT在通用圖形和分子數據集上均實現了優越的生成性能。此外，G2PT在從分子設計到屬性預測等下游任務中展現出強大的適應性和多功能性。

VisionReward：用於影像和視頻生成的精細多維人類偏好學習
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

ByJiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong

我們提出了一般性策略，用於將視覺生成模型（包括圖像和影片生成）與人類偏好對齊。首先，我們建立了VisionReward ─ 一個精細且多維度的獎勵模型。我們將人類對圖像和影片的偏好分解為多個維度，每個維度由一系列判斷問題表示，經線性加權並總結為一個可解釋且準確的分數。為應對影片質量評估的挑戰，我們系統地分析了影片的各種動態特徵，這有助於VisionReward超越VideoScore 17.2％，並實現頂尖的影片偏好預測表現。基於VisionReward，我們開發了一種多目標偏好學習算法，有效解決了偏好數據中的混淆因素問題。我們的方法在機器指標和人類評估方面明顯優於現有的圖像和影片評分方法。所有代碼和數據集均可在https://github.com/THUDM/VisionReward找到。

LUSIFER：利用大型語言模型增強多語言嵌入的語言通用空間整合
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

最近在基於大型語言模型（LLMs）的嵌入式模型方面取得了新的突破，為文本嵌入任務建立了新的最先進基準，特別是在基於密集向量的檢索方面。然而，這些模型主要專注於英語，使得多語言嵌入能力大多未被探索。為了解決這一限制，我們提出了LUSIFER，一種新穎的零樣本方法，它適應了基於LLM的嵌入模型，用於多語言任務，而無需多語言監督。LUSIFER的架構結合了一個多語言編碼器，作為一個語言通用學習者，以及一個針對嵌入特定任務進行優化的基於LLM的嵌入模型。這些組件通過一組最少的可訓練參數無縫集成，這些參數作為連接器，有效地將多語言編碼器的語言理解能力轉移到專門的嵌入模型上。此外，為了全面評估多語言嵌入性能，我們引入了一個新的基準，包括5個主要的嵌入任務，123個不同的數據集，並覆蓋了14種語言。大量的實驗結果表明，LUSIFER顯著增強了各種嵌入任務的多語言性能，特別是對於中小資源語言，而無需明確的多語言訓練數據。

BoxingGym：自動實驗設計和模型發現進展的基準測試
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman

理解世界並用科學理論解釋它是人工智慧研究的核心期望。提出理論、設計實驗來測試它們，然後根據數據修訂它們對於科學發現至關重要。儘管基於LLM的科學代理人具有顯著的潛力，但目前沒有基準系統地測試LLM提出科學模型、收集實驗數據並根據新數據修訂的能力。我們介紹了 BoxingGym，這是一個具有 10 個環境的基準，用於系統地評估實驗設計（例如收集數據來測試科學理論）和模型發現（例如提出和修訂科學理論）。為了實現可處理且量化的評估，我們將每個環境實現為一個生成概率模型，科學代理人可以運行互動實驗。這些概率模型來自各種現實世界的科學領域，從心理學到生態學不等。為了量化評估科學代理人收集信息豐富的實驗數據的能力，我們計算預期信息增益（EIG），這是一個信息理論量，衡量一個實驗如何減少對生成模型參數的不確定性。一個好的科學理論是簡潔且具有預測性的解釋。因此，為了量化評估模型發現，我們要求科學代理人解釋他們的模型，然後評估這個解釋是否使另一個科學代理人能夠對這個環境進行可靠的預測。除了這種基於解釋的評估之外，我們還計算標準的模型評估指標，如預測誤差。我們發現目前的LLM，例如GPT-4o，在實驗設計和模型發現方面都存在困難。我們發現，將基於LLM的代理人與明確的統計模型相結合並不能可靠地改善這些結果。

AI研究論文每日精選

每日精選AI研究論文及翻譯

VisionReward：用於影像和視頻生成的精細多維人類偏好學習
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

LUSIFER：利用大型語言模型增強多語言嵌入的語言通用空間整合
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

BoxingGym：自動實驗設計和模型發現進展的基準測試
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman