每日精选AI研究论文及翻译
本文介绍了我们的ALPINE项目的研究结果,ALPINE代表“Autoregressive Learning for Planning In NEtworks”。ALPINE项目通过自回归学习机制对基于Transformer的语言模型中规划能力的发展进行了理论研究,旨在识别它们规划能力中的潜在限制。我们将规划抽象为一项网络路径查找任务,其目标是从指定的源节点生成到指定目标节点的有效路径。在表达能力方面,我们展示了Transformer能够通过将邻接矩阵和可达性矩阵嵌入其权重中来执行路径查找。我们对Transformer基于梯度的学习动态进行的理论分析揭示了Transformer能够学习邻接矩阵和有限形式的可达性矩阵。这些理论观点随后通过实验证实,实验证明Transformer确实学习了邻接矩阵和不完整的可达性矩阵,这与我们理论分析中的预测一致。此外,当将我们的方法应用于名为Blocksworld的现实世界规划基准时,我们的观察结果保持一致。我们的理论和实证分析进一步揭示了Transformer在路径查找中的潜在限制:它无法通过传递性识别可达性关系,因此在需要路径串联生成路径时会失败。总之,我们的研究结果揭示了自回归学习的内部机制如何实现网络规划。这项研究可能有助于我们了解其他相关领域的一般规划能力。
我们介绍了Xmodel-VLM,这是一种尖端的多模态视觉语言模型。它旨在能够高效部署在消费级GPU服务器上。我们的工作直接应对了一个关键的行业问题,即应对阻碍大规模多模态系统广泛采用的高昂服务成本。通过严格的训练,我们从零开始开发了一个规模为10亿的语言模型,采用了LLaVA范式进行模态对齐。我们称之为Xmodel-VLM的结果是一个轻量而强大的多模态视觉语言模型。通过在众多经典多模态基准测试中进行广泛测试,我们发现,尽管尺寸较小且执行速度更快,Xmodel-VLM的性能与较大模型相当。我们的模型检查点和代码已公开在GitHub上提供,网址为https://github.com/XiaoduoAILab/XmodelVLM。
在本文中,我们探讨了使用潜在扩散模型这一强大生成模型家族,来重建自然音乐从脑电图(EEG)记录中的潜力。与简单的具有有限音色的音乐不同,比如MIDI生成的曲调或单声部作品,重点在于包含各种乐器、声音和效果、丰富和声和音色的复杂音乐。这项研究代表了初步尝试,通过在非侵入性EEG数据上直接进行端到端训练,无需手动预处理和通道选择,实现高质量的通用音乐重建。我们在公开的NMED-T数据集上训练我们的模型,并进行量化评估,提出基于神经嵌入的度量标准。此外,我们基于生成的音轨进行歌曲分类。我们的工作为神经解码和脑-计算机界面的持续研究做出了贡献,为使用EEG数据进行复杂听觉信息重建的可行性提供了见解。
在不同条件下系统评估和理解计算机视觉模型需要大量具有全面和定制标签的数据,而真实世界的视觉数据集很少能满足这一需求。虽然当前的合成数据生成器为此提供了一种有前途的替代方案,特别是对于具身人工智能任务,但由于资产和渲染质量低、多样性有限以及物理属性不真实,它们在计算机视觉任务中经常表现不佳。我们介绍了BEHAVIOR Vision Suite(BVS),这是一组工具和资产,用于生成完全定制的合成数据,以系统评估计算机视觉模型,基于新开发的具身人工智能基准测试BEHAVIOR-1K。BVS支持在场景级别(例如,光照、物体放置)、物体级别(例如,关节配置、属性如“填充”和“折叠”)和相机级别(例如,视场、焦距)上调整大量参数。研究人员可以在数据生成过程中任意变化这些参数,以进行受控实验。我们展示了三个示例应用场景:在不同连续领域转移轴上系统评估模型的鲁棒性,对相同一组图像评估场景理解模型,以及训练和评估模拟到真实的转移,用于一项新的视觉任务:一元和二元状态预测。项目网站:https://behavior-vision-suite.github.io/