AI研究论文每日精选

每日精选AI研究论文及翻译

能量宇宙：构想机器人操作的具象未来空间
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Jan 3

BySiyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

我们介绍了EnerVerse，这是一个专为机器人操作任务设计的全面框架，用于实体化未来空间生成。EnerVerse 无缝集成了卷积和双向注意机制，用于内部区块空间建模，确保低层次的一致性和连续性。鉴于视频数据中固有的冗余性，我们提出了稀疏记忆上下文，结合区块式单向生成范式，实现无限长序列的生成。为了进一步增强机器人的能力，我们引入了自由锚定视图（FAV）空间，提供灵活的视角以增强观察和分析。FAV 空间减轻了运动建模的模糊性，在受限环境中消除了物理约束，并显著提高了机器人在各种任务和环境中的泛化和适应能力。为了解决获取多摄像头观察的成本和劳动强度过高的问题，我们提出了一个数据引擎管道，将生成模型与四维高斯飞溅（4DGS）相结合。该管道利用生成模型的强大泛化能力和 4DGS 提供的空间约束，实现数据质量和多样性的迭代增强，从而创造出一种数据飞轮效应，有效缩小模拟与真实之间的差距。最后，我们的实验表明，实体化未来空间生成先验显著增强了策略预测能力，从而提高了整体性能，特别是在长距离机器人操作任务中。

VITA-1.5：朝着GPT-4o级实时视觉和语音交互的方向前进
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Jan 3

ByChaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

最近的多模态大型语言模型（MLLMs）通常侧重于整合视觉和文本模态，对于语音在增强交互方面的作用则关注较少。然而，语音在多模态对话系统中扮演着至关重要的角色，实现视觉和语音任务的高性能仍然是一个重大挑战，因为两者存在根本的模态差异。在本文中，我们提出了一个精心设计的多阶段训练方法，逐步训练LLM以理解视觉和语音信息，最终实现流畅的视觉和语音交互。我们的方法不仅保留了强大的视觉-语言能力，还实现了高效的语音对话能力，无需单独的自动语音识别（ASR）和文本到语音合成（TTS）模块，显著加快了多模态端到端响应速度。通过在图像、视频和语音任务的基准测试中将我们的方法与最先进的对手进行比较，我们展示了我们的模型具备强大的视觉和语音能力，实现了几乎实时的视觉和语音交互。

处女座：关于复制o1类MLLM的初步探索
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Jan 3

ByYifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen

最近，基于大型语言模型（LLMs）构建的慢思考推理系统通过扩展推理时间而受到广泛关注。人们也越来越感兴趣将这种能力应用于多模态大型语言模型（MLLMs）。考虑到MLLMs处理跨不同模态的更复杂数据语义，实现多模态慢思考系统在直觉上更具挑战性。为了解决这个问题，在本文中，我们探讨了一种简单的方法，即通过对具有少量文本长篇思考数据进行微调，从而实现了一种多模态慢思考系统Virgo（Visual reasoning with long thought）。我们发现，用自然语言表达的这些长篇推理过程可以有效地转移到MLLMs中。此外，似乎这种文本推理数据甚至比视觉推理数据更有效地激发了MLLMs的慢思考能力。虽然这项工作还处于初步阶段，但它表明慢思考能力基本上与语言模型组件相关联，可以跨模态或领域进行转移。这一发现可用于指导更强大的慢思考推理系统的开发。我们在 https://github.com/RUCAIBox/Virgo 上发布了我们的资源。

SDPO：面向社交代理的分段级直接偏好优化
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Jan 3

ByAobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang

由大型语言模型（LLMs）驱动的社交代理可以模拟人类社交行为，但在处理复杂的目标导向社交对话方面表现不佳。直接偏好优化（DPO）已被证明在各种代理任务中对齐LLM行为与人类偏好方面非常有效。现有基于DPO的多轮交互方法分为轮次级别和会话级别方法。轮次级别方法过于细粒度，专注于单个轮次，而会话级别方法过于粗粒度，通常会引入训练噪音。为了解决这些限制，我们提出了段级别直接偏好优化（SDPO），它专注于交互中的特定关键段以优化多轮代理行为，同时最小化训练噪音。在SOTOPIA基准测试上的评估表明，经过SDPO调优的代理始终优于现有基于DPO的方法和专有LLMs如GPT-4o，突显了SDPO推进基于LLM的代理的社交智能的潜力。我们在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO 上发布了我们的代码和数据。

图生成预训练变换器
Graph Generative Pre-trained Transformer

Jan 2

ByXiaohui Chen, Yinkai Wang, Jiaxing He, Yuanqi Du, Soha Hassoun, Xiaolin Xu, Li-Ping Liu

图生成是许多领域中的关键任务，包括分子设计和社交网络分析，因为它能够模拟复杂关系和结构化数据。虽然大多数现代图生成模型使用邻接矩阵表示，但本研究重新审视了一种将图表示为节点集合和边集合序列的替代方法。我们支持这种方法，因为它能够高效地对图进行编码，并提出了一种新颖的表示方法。基于这种表示，我们引入了图生成预训练变换器（G2PT），这是一种自回归模型，通过下一个标记预测来学习图结构。为了进一步利用G2PT作为通用基础模型的能力，我们探索了两个下游应用的微调策略：面向目标的生成和图属性预测。我们在多个数据集上进行了广泛实验。结果表明，G2PT在通用图和分子数据集上均实现了优越的生成性能。此外，G2PT在从分子设计到属性预测等下游任务中表现出强大的适应性和多功能性。

VisionReward：用于图像和视频生成的细粒度多维人类偏好学习
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

ByJiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong

我们提出了一种通用策略，用于将视觉生成模型（包括图像和视频生成）与人类偏好对齐。首先，我们构建了VisionReward——一个细粒度且多维的奖励模型。我们将人类对图像和视频的偏好分解为多个维度，每个维度由一系列判断问题表示，线性加权并求和得到一个可解释且准确的分数。为了解决视频质量评估的挑战，我们系统分析了视频的各种动态特征，这有助于VisionReward比VideoScore高出17.2%，并在视频偏好预测方面取得最佳性能。基于VisionReward，我们开发了一种多目标偏好学习算法，有效解决了偏好数据中的混淆因素问题。我们的方法在机器度量和人类评估方面明显优于现有的图像和视频评分方法。所有代码和数据集均可在https://github.com/THUDM/VisionReward获取。

LUSIFER：利用大型语言模型增强多语言嵌入的语言通用空间集成
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

最近基于大型语言模型（LLMs）的嵌入模型取得了新的技术突破，在文本嵌入任务中建立了新的技术基准，特别是在基于密集向量的检索方面。然而，这些模型主要集中在英语上，使得多语言嵌入能力大部分尚未被探索。为了解决这一局限性，我们提出了LUSIFER，这是一种新颖的零样本方法，可以将基于LLM的嵌入模型适应多语言任务，而无需多语言监督。LUSIFER的架构结合了一个多语言编码器，作为一种语言通用学习器，以及一个针对嵌入特定任务进行优化的基于LLM的嵌入模型。这些组件通过一组最小的可训练参数进行无缝集成，这些参数充当连接器，有效地将多语言编码器的语言理解能力转移到专门的嵌入模型中。此外，为了全面评估多语言嵌入性能，我们引入了一个新的基准，涵盖了5个主要的嵌入任务，123个不同的数据集，并覆盖了14种语言。广泛的实验结果表明，LUSIFER显著提升了各种嵌入任务的多语言性能，特别是对于中小资源语言，而无需显式的多语言训练数据。

BoxingGym：自动实验设计和模型发现进展的基准测试
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman

理解世界并用科学理论解释它是人工智能研究的核心愿望。提出理论、设计实验来测试它们，然后根据数据进行修订对于科学发现至关重要。尽管基于大型语言模型（LLM）的科学代理人具有重要潜力，但目前没有基准系统地测试LLM提出科学模型、收集实验数据并根据新数据进行修订的能力。我们引入了BoxingGym，一个包含10个环境的基准测试，用于系统评估实验设计（例如收集数据以测试科学理论）和模型发现（例如提出和修订科学理论）。为了实现可行且定量的评估，我们将每个环境实现为一个生成概率模型，科学代理人可以利用它们进行交互式实验。这些概率模型涵盖了从心理学到生态学等各种真实科学领域。为了定量评估科学代理人收集信息丰富的实验数据的能力，我们计算期望信息增益（EIG），这是一个信息论量，用于衡量实验如何减少对生成模型参数的不确定性。一个优秀的科学理论是一个简洁且具有预测性的解释。因此，为了定量评估模型发现，我们要求科学代理人解释他们的模型，然后评估这个解释是否能使另一个科学代理人对这个环境做出可靠的预测。除了这种基于解释的评估之外，我们还计算标准的模型评估指标，如预测误差。我们发现目前的LLM，如GPT-4o，在实验设计和模型发现方面都存在困难。我们发现，将基于LLM的代理人与显式统计模型相结合并不能可靠地改善这些结果。

AI研究论文每日精选

每日精选AI研究论文及翻译

VisionReward：用于图像和视频生成的细粒度多维人类偏好学习
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

LUSIFER：利用大型语言模型增强多语言嵌入的语言通用空间集成
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

BoxingGym：自动实验设计和模型发现进展的基准测试
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman