AI研究论文每日精选

每日精选AI研究论文及翻译

ROCKET-1：利用视觉-时间上下文掌握开放世界互动提示
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

视觉语言模型（VLMs）在多模态任务中表现出色，但将它们调整到开放世界环境中的具体决策中存在挑战。一个关键问题是在低层次观察中平滑连接个体实体与规划所需的抽象概念之间的困难。解决这一问题的常见方法是使用分层代理，其中VLMs充当高层推理者，将任务分解为可执行的子任务，通常使用语言和想象的观察来指定。然而，语言通常无法有效传达空间信息，同时生成具有足够准确性的未来图像仍具挑战性。为了解决这些限制，我们提出了视觉-时间上下文提示，这是VLMs和策略模型之间的一种新颖通信协议。该协议利用过去和现在观察的对象分割来引导策略-环境交互。使用这种方法，我们训练了ROCKET-1，这是一个基于连接的视觉观察和分割掩模预测动作的低级策略，实时对象跟踪由SAM-2提供。我们的方法释放了VLMs视觉-语言推理能力的全部潜力，使它们能够解决复杂的创造性任务，特别是那些严重依赖空间理解的任务。在Minecraft中的实验表明，我们的方法使代理能够完成以前无法实现的任务，突显了视觉-时间上下文提示在具体决策中的有效性。代码和演示将在项目页面上提供：https://craftjarvis.github.io/ROCKET-1。

使用基于每个标记的潜在扩散的连续语音合成
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

基于离散标记的自回归Transformer模型的成功启发了基于量化的连续模态方法，尽管这些方法通常会限制重建质量。因此，我们引入了SALAD，一种逐标记潜在扩散模型，用于零样本文本转语音，其操作基于连续表示。SALAD建立在最近提出的用于图像生成的表达扩散头基础上，并将其扩展为生成可变长度的输出。我们的方法利用语义标记提供上下文信息并确定停止条件。我们为我们的方法提出了三种连续变体，扩展了流行的离散语音合成技术。此外，我们为每种变体实现了离散基线，并对离散与连续语音建模技术进行了比较分析。我们的结果表明，连续和离散方法都非常有竞争力，并且SALAD在获得语音质量和说话者相似性与基准音频相媲美的同时，实现了更高的可懂度得分。

教授多模态LLMs理解心电图像
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

心电图（ECG）是评估心脏状况的重要非侵入性诊断工具。现有的自动解释方法存在泛化能力有限的问题，专注于狭窄范围的心脏状况，并且通常依赖于原始生理信号，这些信号在资源有限的环境中可能无法直接获取，只能获得打印或数字化的心电图像。最近多模态大型语言模型（MLLMs）的进展为解决这些挑战提供了希望。然而，将MLLMs应用于心电图像解释仍然具有挑战性，因为缺乏指导调整数据集和用于定量评估的完善的心电图像基准。为了解决这些挑战，我们引入了ECGInstruct，这是一个包含一百多万样本的全面的心电图像指导调整数据集，涵盖了来自不同数据源的广泛心电图相关任务。利用ECGInstruct，我们开发了PULSE，这是一个专为心电图像理解量身定制的MLLM。此外，我们策划了ECGBench，一个新的评估基准，涵盖了九个不同数据集中的四个关键心电图像解释任务。我们的实验表明，PULSE取得了新的最先进水平，平均准确率提高了15%至30%，胜过了通用MLLMs。这项工作突显了PULSE在临床实践中提升心电图解释的潜力。

MMAU：一个大规模多任务音频理解和推理基准。
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

理解音频的能力——包括语音、非语音声音和音乐——对于人工智能代理与世界有效交互至关重要。我们提出了MMAU，这是一个新颖的基准，旨在评估多模态音频理解模型在需要专业级知识和复杂推理的任务上的表现。MMAU包括10k精心策划的音频片段，配对人类注释的自然语言问题和答案，涵盖语音、环境声音和音乐。它包括信息提取和推理问题，要求模型展示27种不同技能，涵盖独特且具有挑战性的任务。与现有基准不同，MMAU强调具有领域特定知识的高级感知和推理，挑战模型解决类似专家面临的任务。我们评估了18个开源和专有（大型）音频-语言模型，展示了MMAU带来的重大挑战。值得注意的是，即使是最先进的Gemini Pro v1.5也仅达到52.97%的准确率，而最先进的开源Qwen2-Audio仅达到52.50%，突显了改进的巨大空间。我们相信MMAU将推动音频和多模态研究社区开发更先进的音频理解模型，能够解决复杂的音频任务。

FasterCache：无需训练的视频扩散模型加速与高质量
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

本文介绍了一种名为\textit{FasterCache}的新型无需训练的策略，旨在加速具有高质量生成的视频扩散模型的推断过程。通过分析现有基于缓存的方法，我们发现直接重用相邻步骤特征会降低视频质量，因为会丢失微妙的变化。我们进一步对无分类器指导（CFG）的加速潜力进行了开创性调查，并揭示了同一时间步内条件和无条件特征之间的显著冗余。基于这些观察结果，我们引入了FasterCache，以大幅加速基于扩散的视频生成。我们的关键贡献包括动态特征重用策略，既保留特征差异又保持时间连续性，以及CFG-Cache，它优化了条件和无条件输出的重用，进一步提高推断速度而不影响视频质量。我们在最近的视频扩散模型上对FasterCache进行了实证评估。实验结果表明，FasterCache可以显著加速视频生成（例如，在Vchitect-2.0上加速1.67倍），同时保持视频质量与基准相当，并在推断速度和视频质量方面始终优于现有方法。

Infinity-MM：通过大规模和高质量的指导数据扩展多模态性能
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

ByShuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu

视觉-语言模型（VLMs）最近取得了显著进展，但与闭源模型相比，开源指导数据的规模和质量有限，限制了它们的性能。在这项工作中，我们通过引入Infinity-MM来解决这一限制，这是一个包含4000万样本的大规模多模态指导数据集，经过严格的质量过滤和去重增强。我们还提出了一种基于开源VLMs的合成指导生成方法，利用详细的图像注释和多样化的问题生成。利用这些数据，我们训练了一个20亿参数的VLM，Aquila-VL-2B，实现了类似规模模型的最先进性能。这表明扩展指导数据并生成合成数据可以显著提高开源模型的性能。

LLM优于报告吗？检测标签错误并减轻其对模型性能的影响
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

自然语言处理基准测试依赖于标准化数据集来训练和评估模型，对于推动该领域的发展至关重要。传统上，专家注释确保高质量的标签；然而，专家注释的成本随着现代模型对更大数据集的需求增长而不断上升。虽然众包提供了一种更具规模化的解决方案，但往往以标注精度和一致性为代价。大型语言模型（LLMs）的最新进展为增强注释过程提供了新的机会，特别是用于检测现有数据集中标签错误的情况。在这项工作中，我们考虑了LLM作为评判者的最新方法，利用LLM集合来标记潜在的错误标记示例。通过对TRUE基准测试中四个数据集的案例研究，涵盖不同任务和领域，我们从经验上分析了现有数据集的标注质量，并比较了专家、众包和我们基于LLM的注释在协议、标签质量和效率方面的一致性，展示了每种注释方法的优势和局限性。我们的研究结果揭示了大量的标签错误，一旦纠正，就会显著提高报告的模型性能。这表明许多LLM所谓的错误是由于标签错误而不是真正的模型失败。此外，我们讨论了错误标记数据的影响，并提出了在训练中减轻这些影响以提高模型性能的方法。

阅读：将LLMs重构为与系统共同设计的路由器解耦专家混合模型
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Oct 24

ByRuisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang

大型语言模型（LLMs）的普及导致了混合专家（MoE）架构的采用，该架构动态利用专门的子网络以提高效率和性能。尽管MoE模型具有诸多优点，但在推断过程中面临着重大挑战，包括由于模型架构与系统策略之间设计选择不一致而导致的内存管理低效和批处理次优。此外，从头开始训练MoEs的传统方法在成本方面日益不可行。本文提出了一个新颖的框架 Read-ME，将预训练的密集LLMs转换为较小的MoE模型（与“升级”通用MoEs相反），避免了从头开始训练的高成本。我们的方法利用激活稀疏性来提取专家。为了构成专家，我们检查了广泛采用的逐层路由器设计，并展示了其冗余性，因此我们引入了与MoE骨干解耦的预门控路由器，促进了系统友好的预计算和前瞻调度，增强了专家感知的批处理和缓存。因此，我们的共同设计解决了算法和系统两方面的关键差距，在资源受限环境中为LLM推断建立了一种可扩展且高效的替代方案。Read-ME在MMLU上的表现优于其他流行的开源密集模型，实现了高达10.1%的改进，并将端到端平均延迟提高了高达6.1%。代码可在以下链接获取：https://github.com/VITA-Group/READ-ME。

混合偏好：学习为人类与人工智能反馈路由实例
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi

从人类反馈中学习使得语言模型（LM）能够与人类偏好保持一致。然而，直接收集人类偏好可能昂贵、耗时且具有较高的变异性。一种吸引人的替代方案是从LM中提炼偏好作为合成标注的来源，因为它们比人类标注更一致、更便宜且更易扩展；然而，它们也容易受到偏见和错误的影响。在这项工作中，我们引入了一个路由框架，将来自人类和LM的输入结合起来，以实现更好的标注质量，同时降低人类标注的总成本。我们方法的关键在于识别将受益于人类标注的偏好实例。我们将这视为一个优化问题：给定一个偏好数据集和一个评估指标，我们训练一个性能预测模型，以预测奖励模型在任意人类和LM标注组合上的表现，并采用路由策略选择最大化预测表现的组合。我们在一个新的偏好数据集MultiPref上训练性能预测模型，其中包含10K个实例，配对有人类和LM标签。我们展示，使用我们的路由框架选择的LM和直接人类偏好的混合组合，比仅使用其中一个能够实现更好的奖励模型表现。我们在另外三个数据集上模拟选择性人类偏好收集，并展示我们的方法对所有三个数据集都具有良好的泛化能力。我们分析路由模型的特征，以识别那些可以受益于人类反馈的实例特征，例如，具有适度安全关注或适度意图复杂性的提示。我们发布了本研究中使用的数据集、标注平台和源代码，以促进未来更高效和准确的偏好收集。

大型语言模型的计数能力及标记化的影响
Counting Ability of Large Language Models and Impact of Tokenization

Oct 25

ByXiang Zhang, Juntai Cao, Chenyu You

现代大型语言模型（LLM）的支柱Transformer面临固有的架构限制，阻碍了其推理能力。与循环网络不同，Transformer缺乏循环连接，使其局限于恒定深度的计算。这种限制将其置于复杂度类TC^0中，从理论上讲，使其无法解决随着输入长度增加而需要越来越深层推理的任务。计数是许多推理任务的基本组成部分，也需要推理深度线性增长才能进行归纳。尽管先前的研究已经确定了基于Transformer的专家模型（即专门针对计数任务进行训练的模型）在计数能力上的上限，但由于推理机制的差异，这些发现并不直接适用于通用的LLM。最近的研究突出了思维链（CoT）推理如何帮助减轻Transformer在计数任务中的一些架构限制。然而，对这些模型中标记化的作用却鲜有关注。与通常使用字符级标记化的专家模型不同，LLM通常依赖于字节级（BPE）分词器，这从根本上改变了推理的处理方式。我们的研究调查了标记化对LLM计数能力的影响，发现基于输入标记化差异的显著性能变化。我们提供了理论和实验分析，深入探讨了标记化选择如何削弱模型的理论可计算性，从而激发设计新的标记化方法以增强LLM中的推理能力。

通过先决条件学习，虚构的合成数据可以提高LLM事实性。
Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

Oct 25

ByYujian Liu, Shiyu Chang, Tommi Jaakkola, Yang Zhang

最近的研究发现，LLM幻觉的一个加剧因素是预训练和微调之间的知识不一致，即不熟悉的微调数据会误导LLM制造出似是而非的错误输出。在本文中，我们提出了一种名为Prereq-Tune的新颖微调策略，以解决这种知识不一致性并减少幻觉。从根本上讲，Prereq-Tune将技能和知识的学习分离，使模型仅学习任务技能而不受知识不一致性的影响。为实现这一目标，Prereq-Tune引入了一个额外的先决学习阶段，用于学习SFT所需的知识，从而使后续的SFT仅专注于任务技能。Prereq-Tune还可以与虚构的合成数据结合，以增强LLM输出与其内部知识的联系。实验证明，Prereq-Tune在提高LLM在短问答和长篇生成任务中的事实性方面优于现有基线。它还为LLM中的知识受控生成开辟了新的可能性。我们的代码可在https://github.com/UCSB-NLP-Chang/Prereq_tune.git找到。

在知识冲突下分析语言模型的残余流。
Analysing the Residual Stream of Language Models Under Knowledge Conflicts

Oct 21

ByYu Zhao, Xiaotang Du, Giwon Hong, Aryo Pradipta Gema, Alessio Devoto, Hongru Wang, Xuanli He, Kam-Fai Wong, Pasquale Minervini

大型语言模型（LLMs）可以在其参数中存储大量事实知识。然而，它们的参数化知识可能与上下文提供的信息相冲突。这种冲突可能导致模型行为不佳，例如依赖过时或不正确的信息。在这项工作中，我们调查了LLMs是否能够识别知识冲突，以及通过分析LLM的残差流是否可能知道模型将依赖哪种知识源。通过探测任务，我们发现LLMs可以在残差流中内部注册知识冲突的信号，这可以通过探测中间模型激活来准确检测。这使我们能够在生成答案之前检测到残差流中的冲突，而无需修改输入或模型参数。此外，我们发现当模型依赖上下文知识或参数化知识来解决冲突时，残差流显示出明显不同的模式。这种模式可以用来估计LLMs在发生冲突时的行为，并在生成答案之前防止出现意外答案。我们的分析揭示了LLMs如何内部管理知识冲突，并为开发控制知识选择过程的方法奠定了基础。

基于图神经动力学建模的动态3D高斯跟踪
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

Oct 24

ByMingtong Zhang, Kaifeng Zhang, Yunzhu Li

机器人与物体互动的视频编码了关于物体动态的丰富信息。然而，现有的视频预测方法通常没有明确考虑视频中的三维信息，例如机器人的动作和物体的三维状态，从而限制了它们在现实世界的机器人应用中的使用。在这项工作中，我们介绍了一个框架，通过明确考虑机器人的动作轨迹及其对场景动态的影响，直接从多视角RGB视频中学习物体动态。我们利用三维高斯飞溅（3DGS）的三维高斯表示来训练一个基于粒子的动力学模型，使用图神经网络。该模型在从密集跟踪的三维高斯重建中下采样的稀疏控制粒子上运行。通过在离线机器人互动数据上学习神经动力学模型，我们的方法可以预测在不同初始配置和未见机器人动作下的物体运动。高斯的三维变换可以从控制粒子的运动中进行插值，实现预测未来物体状态并实现动作条件的视频预测。动力学模型还可应用于基于模型的规划框架，用于物体操作任务。我们在各种可变形材料上进行实验，包括绳索、衣物和填充动物，展示了我们的框架对建模复杂形状和动态的能力。我们的项目页面可在https://gs-dynamics.github.io找到。

媒体景观映射：通过网络互动预测事实报道和政治偏见
Mapping the Media Landscape: Predicting Factual Reporting and Political Bias Through Web Interactions

Oct 23

ByDairazalia Sánchez-Cortés, Sergio Burdisso, Esaú Villatoro-Tello, Petr Motlicek

对于依赖真实证据进行信息收集和报道的专业人士、组织和研究人员来说，对新闻来源进行偏见评估至关重要。虽然某些偏见指标可以通过内容分析辨别出来，但诸如政治偏见和虚假新闻等描述词会带来更大的挑战。本文提出了对最近提出的新闻媒体可靠性估计方法进行扩展，重点是对媒体和它们的长期网络交互进行建模。具体而言，我们评估了四种强化学习策略在大型新闻媒体超链接图上的分类性能。我们的实验针对两个具有挑战性的偏见描述词，即事实报道和政治偏见，在源媒体级别展示了显著的性能改进。此外，我们在CLEF 2023 CheckThat! Lab挑战赛上验证了我们的方法，在F1分数和官方MAE指标上均超过了报告的结果。此外，我们通过发布了一个包含事实报道和政治偏见标签的最大注释新闻来源媒体数据集做出了贡献。我们的研究结果表明，基于新闻媒体源的超链接交互随时间的变化进行配置是可行的，可以提供媒体景观演变的整体视角。

反思基准：利用反思来探究人工智能智能化
Reflection-Bench: probing AI intelligence with reflection

Oct 21

ByLingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang

对于智能系统与世界互动，根据意外结果调整信念或行为的能力，即反思，是至关重要的。从认知科学的角度来看，这是适用于人类和人工智能系统的智能的核心原则。为了解决关于大型语言模型（LLMs）智能性的争论，我们提出了反思基准（Reflection-Bench），这是一个全面的基准测试，包括7个任务，涵盖了对反思至关重要的核心认知功能，包括感知、记忆、信念更新、决策、预测、假设思维和元反思。我们评估了13个知名LLMs的性能，如OpenAI o1、GPT-4、Claude 3.5 Sonnet等。结果表明，当前的LLMs仍然缺乏令人满意的反思能力。我们讨论了这些结果的潜在原因，并提出了未来研究的潜在途径。总之，反思基准提供了评估工具和启发，可用于开发能够可靠与环境互动的人工智能。我们的数据和代码可在https://github.com/YabYum/ReflectionBench 上找到。

利用未标记的先前数据中的技能进行高效的在线探索
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Oct 23

ByMax Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine

无监督预训练已经在许多监督领域产生了深远影响。然而，将这些想法应用于强化学习（RL）则面临着独特的挑战，因为微调不涉及模仿特定任务数据，而是通过迭代的自我改进来探索和定位解决方案。在这项工作中，我们研究了如何利用未标记的先前轨迹数据来学习高效的探索策略。虽然先前的数据可以用于预训练一组低层技能，或作为在线RL的额外离线数据，但如何有效地将这些想法结合起来用于在线探索尚不清楚。我们的方法SUPE（从未标记的先前数据中提取技能用于探索）表明，仔细结合这些想法可以增加它们的好处。我们的方法首先使用变分自动编码器（VAE）提取低层技能，然后使用乐观奖励模型伪标记未标记的轨迹，将先前数据转化为高层、与任务相关的示例。最后，SUPE使用这些转化后的示例作为在线RL的额外离线数据，以学习一个高层策略，将预训练的低层技能组合起来实现高效探索。我们经验性地展示，SUPE可靠地优于先前的策略，在成功解决一系列长时间跨度、稀疏奖励任务方面表现出色。源代码：https://github.com/rail-berkeley/supe。

AI研究论文每日精选

每日精选AI研究论文及翻译

ROCKET-1：利用视觉-时间上下文掌握开放世界互动提示
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

使用基于每个标记的潜在扩散的连续语音合成
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

教授多模态LLMs理解心电图像
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

MMAU：一个大规模多任务音频理解和推理基准。
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

FasterCache：无需训练的视频扩散模型加速与高质量
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

Infinity-MM：通过大规模和高质量的指导数据扩展多模态性能
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

LLM优于报告吗？检测标签错误并减轻其对模型性能的影响
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

媒体景观映射：通过网络互动预测事实报道和政治偏见
Mapping the Media Landscape: Predicting Factual Reporting and Political Bias Through Web Interactions

Oct 23

ByDairazalia Sánchez-Cortés, Sergio Burdisso, Esaú Villatoro-Tello, Petr Motlicek

反思基准：利用反思来探究人工智能智能化
Reflection-Bench: probing AI intelligence with reflection

Oct 21

ByLingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang

利用未标记的先前数据中的技能进行高效的在线探索
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Oct 23

ByMax Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine