AI研究论文每日精选

每日精选AI研究论文及翻译

差动变压器
Differential Transformer

Oct 7

ByTianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei

180

Transformer往往会将注意力过多地分配给无关的上下文。在这项工作中，我们引入了Diff Transformer，它在放大与相关上下文的注意力的同时抑制噪音。具体来说，差分注意力机制通过计算两个独立softmax注意力图之间的差异来计算注意力分数。减法消除了噪音，促进了稀疏注意力模式的出现。在语言建模的实验结果中显示，Diff Transformer在不同规模的模型和训练标记设置下优于Transformer。更有趣的是，它在实际应用中提供了明显的优势，如长上下文建模、关键信息检索、幻觉减轻、上下文学习以及减少激活异常值。通过减少对无关上下文的干扰，Diff Transformer可以减轻问答和文本摘要中的幻觉。对于上下文学习，Diff Transformer不仅提高了准确性，而且对于顺序排列更加鲁棒，这被认为是一个长期的鲁棒性问题。结果表明，Diff Transformer作为一种高效且有前景的架构，有助于推动大型语言模型的发展。

LLaMA-Berry：O1级奥林匹克水平数学推理的成对优化
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

Oct 3

ByDi Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou

本文提出了一种先进的数学问题解决框架LLaMA-Berry，用于增强大型语言模型（LLMs）的数学推理能力。该框架将蒙特卡洛树搜索（MCTS）与迭代自我优化相结合，以优化推理路径，并利用成对奖励模型全局评估不同路径。通过利用LLMs的自我批评和重写能力，应用于MCTS的自我优化（SR-MCTS）克服了传统逐步和贪婪搜索算法的低效性和局限性，促进了对解空间更高效的探索。成对偏好奖励模型（PPRM），受到人类反馈强化学习（RLHF）的启发，用于对解决方案之间的成对偏好进行建模，利用增强波达计数（EBC）方法将这些偏好综合成全局排名分数，以找到更好的答案。该方法解决了数学推理任务中评分变化和非独立分布的挑战。该框架已在一般和高级基准测试中进行了测试，相对于现有方法如ToT和rStar，在复杂的奥林匹克水平基准测试中，包括GPQA、AIME24和AMC23，显示出更优越的搜索效率和问题解决能力。

LLM知道的比它们展示的更多：关于LLM内在表示的幻觉
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

Oct 3

ByHadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov

大型语言模型（LLMs）经常会产生错误，包括事实不准确、偏见和推理失败，统称为“幻觉”。最近的研究表明，LLMs的内部状态编码了关于其输出真实性的信息，这些信息可以用于检测错误。在这项工作中，我们展示了LLMs的内部表示编码了比以前认识到的更多关于真实性的信息。我们首先发现真实性信息集中在特定的标记中，利用这一特性显著提高了错误检测性能。然而，我们发现这种错误检测器无法在数据集之间泛化，这意味着 — 与先前的说法相反 — 真实性编码并非普适的，而是多方面的。接下来，我们展示内部表示还可以用于预测模型可能出现的错误类型，有助于制定量身定制的缓解策略。最后，我们揭示了LLMs的内部编码与外部行为之间的差异：它们可能编码了正确答案，但始终生成错误答案。综上所述，这些见解加深了我们对LLMs错误的理解，从模型内部视角指导未来增强错误分析和缓解的研究。

FAN：傅立叶分析网络
FAN: Fourier Analysis Networks

Oct 3

ByYihong Dong, Ge Li, Yongding Tao, Xue Jiang, Kechi Zhang, Jia Li, Jing Su, Jun Zhang, Jingjing Xu

尽管神经网络，特别是MLP和Transformer所代表的网络取得了显著的成功，我们发现它们在建模和推理周期性方面存在潜在缺陷，即它们倾向于记忆周期性数据，而非真正理解周期性的基本原理。然而，周期性是各种形式推理和泛化的关键特征，在自然和工程系统中通过观察中的重复模式支撑可预测性。在本文中，我们提出了一种基于傅立叶分析的新型网络架构FAN，它赋予了有效建模和推理周期现象的能力。通过引入傅立叶级数，周期性被自然地整合到神经网络的结构和计算过程中，从而实现对周期模式更准确的表达和预测。作为多层感知器（MLP）的有希望替代，FAN可以在各种模型中无缝取代MLP，且具有更少的参数和FLOPs。通过大量实验证明了FAN在建模和推理周期函数方面的有效性，以及FAN在一系列现实任务中的优越性和泛化能力，包括符号公式表示、时间序列预测和语言建模。

视频指导：通过教师指导改进视频扩散模型，无需训练
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

Oct 6

ByDohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye

文本到图像（T2I）扩散模型已经彻底改变了视觉内容的创作，但将这些能力扩展到文本到视频（T2V）生成仍然是一个挑战，特别是在保持时间一致性方面。现有的旨在提高一致性的方法通常会导致诸如降低图像质量和不切实际的计算时间等折衷。为了解决这些问题，我们引入了VideoGuide，这是一个新颖的框架，可以增强预训练的T2V模型的时间一致性，而无需额外的训练或微调。相反，VideoGuide在推理的早期阶段利用任何预训练视频扩散模型（VDM）或自身作为指导，通过将指导模型的去噪样本插值到采样模型的去噪过程中，提高时间质量。所提出的方法显著改善了时间一致性和图像保真度，提供了一种成本效益和实用的解决方案，将各种视频扩散模型的优势进行了协同。此外，我们展示了先前的蒸馏，揭示了基础模型可以通过利用所提出的方法中指导模型的优越数据先验，实现增强的文本连贯性。项目页面：http://videoguide2025.github.io/

GSM-Symbolic：理解大型语言模型中数学推理的局限性
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Oct 7

ByIman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

最近大型语言模型（LLMs）的进展引起了人们对其形式推理能力的兴趣，特别是在数学方面。GSM8K基准被广泛用于评估模型在小学水平问题上的数学推理能力。尽管近年来LLMs在GSM8K上的表现显著提高，但它们的数学推理能力是否真正进步仍不清楚，这引发了对报告指标可靠性的质疑。为了解决这些问题，我们对几种最先进的开放和封闭模型进行了大规模研究。为了克服现有评估的局限性，我们引入了GSM-Symbolic，这是一个改进的基准，由符号模板创建，可以生成多样化的问题集。GSM-Symbolic实现了更可控的评估，提供了衡量模型推理能力的关键见解和更可靠的指标。我们的研究结果显示，LLMs在回答同一问题的不同实例时表现出明显的差异。具体来说，当仅改变GSM-Symbolic基准中问题中的数值时，所有模型的表现都会下降。此外，我们调查了这些模型数学推理的脆弱性，并表明随着问题中子句数量的增加，它们的表现显著恶化。我们假设这种下降是因为当前的LLMs无法进行真正的逻辑推理；它们只是复制来自训练数据的推理步骤。即使一个似乎与问题相关的单个子句也会导致所有最先进模型的显著性能下降（高达65%），尽管该子句并不对最终答案所需的推理链有贡献。总的来说，我们的工作提供了对LLMs在数学推理中的能力和局限性更细致的理解。

ScienceAgentBench：朝着数据驱动科学发现的语言代理严格评估的方向前进
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

Oct 7

ByZiru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun

语言模型（LLMs）的进展引起了越来越多的人对开发基于LLM的语言代理以实现科学发现的全自动化的兴趣，这引发了人们对这类代理真正能力的兴奋和怀疑。在这项工作中，我们认为，要使代理完全自动化科学发现，它必须能够完成工作流程中的所有基本任务。因此，我们呼吁在对全自动化提出大胆声明之前，对代理在科学工作流中的各项任务进行严格评估。为此，我们提出了ScienceAgentBench，这是一个用于评估基于数据驱动科学发现的语言代理的新基准。为确保我们基准的科学真实性和现实相关性，我们从四个学科的44篇同行评议出版物中提取了102个任务，并邀请了九位学科专家对其进行验证。我们将每个任务的目标输出统一为一个独立的Python程序文件，并采用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮注释者和学科专家的手动验证，以确保其注释质量和科学合理性。我们还提出了两种有效策略来减轻数据污染的担忧。利用我们的基准，我们评估了五个开源和专有LLMs，每个LLM使用三种框架：直接提示、OpenHands和自我调试。每个任务有三次尝试，表现最佳的代理只能独立解决32.4%的任务，而在专家提供知识的情况下可解决34.3%。这些结果突显了当前语言代理在为数据驱动发现生成代码方面的有限能力，更不用说全自动化进行科学研究了。

像人类一样在数字世界中导航：GUI代理的通用视觉基础
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Oct 7

ByBoyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su

多模态大型语言模型（MLLMs）正在改变图形用户界面（GUI）代理的能力，促进它们从受控模拟过渡到跨各种平台的复杂实际应用。然而，这些代理的有效性取决于它们的基础能力的稳健性。当前的GUI代理主要利用诸如HTML或可访问性树之类的基于文本的表示，尽管它们很实用，但往往会引入噪音、不完整性和增加计算开销。在本文中，我们主张为GUI代理赋予类似人类的具象化，完全通过视觉感知环境并直接在GUI上进行像素级操作。关键在于视觉基础模型，它能够准确地将GUI元素的各种指称表达映射到不同平台上的GUI坐标。我们展示了一个简单的方法，包括基于网络的合成数据和对LLaVA架构的轻微调整，对于训练这种视觉基础模型是非常有效的。我们迄今收集了迄今为止最大的GUI视觉基础数据集，包含1000万GUI元素及其指称表达在130万屏幕截图上，用它来训练UGround，一种强大的通用GUI代理视觉基础模型。在涵盖三个类别（基础、离线代理和在线代理）的六个基准测试上的实证结果显示，1）UGround在GUI代理的视觉基础模型中明显优于现有模型，绝对优势高达20%，2）具有UGround的代理优于最先进的代理，尽管现有代理使用额外的基于文本的输入，而我们的只使用视觉感知。这些结果为像人类一样在数字世界中导航的GUI代理的可行性和前景提供了有力支持。

UniMuMo: 统一文本、音乐和动作生成
UniMuMo: Unified Text, Music and Motion Generation

Oct 6

ByHan Yang, Kun Su, Yutong Zhang, Jiaben Chen, Kaizhi Qian, Gaowen Liu, Chuang Gan

我们介绍UniMuMo，这是一个统一的多模态模型，能够接受任意文本、音乐和动作数据作为输入条件，以生成跨越所有三种模态的输出。为了解决缺乏时间同步数据的问题，我们根据节奏模式对不配对的音乐和动作数据进行对齐，以利用现有的大规模仅音乐和仅动作数据集。通过将音乐、动作和文本转换为基于标记的表示，我们的模型通过统一的编码器-解码器变压器架构连接这些模态。为了支持单个框架内的多个生成任务，我们引入了几项架构改进。我们建议使用音乐码书对动作进行编码，将动作映射到与音乐相同的特征空间。我们提出了一种音乐-动作并行生成方案，将所有音乐和动作生成任务统一到单个变压器解码器架构中，通过单个训练任务实现音乐-动作联合生成。此外，该模型经过微调现有的预训练单模态模型而设计，显著降低了计算需求。大量实验证明UniMuMo在音乐、动作和文本模态的所有单向生成基准测试中取得了竞争性结果。定量结果可在{项目页面}上找到。

MonST3R：一种在运动存在的情况下估计几何形状的简单方法
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion

Oct 4

ByJunyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang

从动态场景中估计几何形状，其中物体随时间移动和变形，仍然是计算机视觉中的一个核心挑战。当前的方法通常依赖于多阶段流程或全局优化，将问题分解为深度和光流等子任务，导致复杂系统容易出现错误。在本文中，我们提出了Motion DUSt3R（MonST3R），这是一种新颖的以几何为先的方法，直接从动态场景中估计每个时间步的几何形状。我们的关键洞察是，通过简单地为每个时间步估计一个点地图，我们可以有效地将DUST3R的表示适应到动态场景中，而该表示先前仅用于静态场景。然而，这种方法面临着一个重大挑战：适用的训练数据稀缺，即带深度标签的动态姿势视频。尽管如此，我们展示了通过将问题定位为微调任务，识别几个合适的数据集，并在这些有限数据上策略性地训练模型，我们可以令模型出人意料地处理动态，即使没有显式的运动表示。基于此，我们为几个下游视频特定任务引入了新的优化，并在视频深度和相机姿态估计方面展示了强大的性能，优于先前的工作在鲁棒性和效率方面。此外，MonST3R在主要的前馈4D重建方面显示出有希望的结果。

快速！压缩步骤和层以加速音乐生成
Presto! Distilling Steps and Layers for Accelerating Music Generation

Oct 7

ByZachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan

尽管基于扩散的文本转音乐（TTM）方法取得了进展，但高效、高质量的生成仍然是一个挑战。我们介绍了Presto！，这是一种通过减少采样步骤和每步成本来加速基于乐谱的扩散变压器的推理方法。为了减少步骤，我们为EDM系列扩散模型开发了一种新的基于乐谱的分布匹配蒸馏（DMD）方法，这是第一个基于GAN的TTM蒸馏方法。为了减少每步成本，我们对最近的层蒸馏方法进行了简单但强大的改进，通过更好地保留隐藏状态方差来改善学习。最后，我们将我们的步骤和层蒸馏方法结合起来，形成一个双重方法。我们独立评估了我们的步骤和层蒸馏方法，并展示它们各自具有最佳性能。我们的组合蒸馏方法可以生成高质量的输出，具有改进的多样性，将我们的基础模型加速了10-18倍（32秒单声道/立体声44.1kHz的延迟为230/435毫秒，比可比的SOTA快15倍）-- 据我们所知，这是最快的高质量TTM。声音示例可在https://presto-music.github.io/web/找到。

简要总结：大规模视觉语言模型的令牌级侦探奖励模型
TLDR: Token-Level Detective Reward Model for Large Vision Language Models

Oct 7

ByDeqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen

尽管奖励模型在改进多模态大语言模型方面取得了成功，但奖励模型本身仍然粗糙且包含最少信息。值得注意的是，现有的奖励模型只通过为任何文本分配一个二进制反馈来模仿人类注释，而不管文本的长度如何。在多模态语言模型的领域中，模型需要处理图像和文本，一个天真的奖励模型可能会学习对文本的隐性偏见，并且与图像联系较少。在本文中，我们提出了一个基于标记级别的侦探奖励模型（TLDR），为每个文本标记提供细粒度注释。我们首先介绍了一种基于扰动的方法，用于生成合成的困难负例及其标记级别标签，以训练TLDR模型。然后我们展示了TLDR模型的丰富用途，既可以帮助现成模型自我纠正生成，也可以作为幻觉评估工具。最后，我们展示了TLDR模型可以将人类注释的速度显著提高3倍，以获取更广泛范围的高质量视觉语言数据。

临床实体识别基准数据集
Named Clinical Entity Recognition Benchmark

Oct 7

ByWadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Clément Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan

本技术报告介绍了一项命名临床实体识别基准，用于评估医疗保健领域的语言模型，解决了从临床叙述中提取结构化信息的关键自然语言处理（NLP）任务，以支持自动编码、临床试验队列识别和临床决策支持等应用。排行榜提供了一个标准化平台，用于评估不同语言模型（包括编码器和解码器架构）在识别和分类跨多个医学领域的临床实体方面的能力。利用了一组经过精心筛选的开放可用的临床数据集，涵盖疾病、症状、药物、程序和实验室测量等实体。重要的是，这些实体根据观察性医学结果合作伙伴关系（OMOP）通用数据模型进行了标准化，确保在不同医疗保健系统和数据集之间的一致性和互操作性，并对模型性能进行全面评估。模型的性能主要通过F1分数进行评估，并辅以各种评估模式，以提供对模型性能的全面洞察。报告还包括对迄今为止评估的模型的简要分析，突出观察到的趋势和局限性。通过建立这一基准框架，排行榜旨在促进透明度，促进比较分析，并推动临床实体识别任务的创新，解决医疗保健NLP中健壮评估方法的需求。

MathHay：一种用于LLM中长文本数学推理的自动化基准测试
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

Oct 7

ByLei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo

最近的大型语言模型（LLMs）展示了在长文本情境中的多功能能力。尽管一些最近的基准已经被开发用于评估LLMs的长文本能力，但缺乏评估LLMs在长文本情境下数学推理能力的基准，这对于LLMs在实际场景中的应用至关重要。在本文中，我们介绍了MathHay，一个旨在评估LLMs长文本数学推理能力的自动化基准。与之前的基准（如“草堆中的针”）不同，后者主要关注长文本中的信息检索，MathHay要求模型具备信息搜索和复杂数学推理能力。我们在MathHay上进行了大量实验，评估了八个表现最佳的LLMs的长文本数学推理能力。即使是表现最佳的模型Gemini-1.5-Pro-002，在长文本数学推理方面仍然存在困难，在128K个标记时仅达到51.26%的准确率。这突显了在MathHay基准上有很大的改进空间。

TurtleBench：通过现实世界的是/否谜题评估顶级语言模型
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles

Oct 7

ByQingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li

随着大型语言模型（LLMs）的应用范围扩大，对可靠评估的需求也在增加。现有的LLM评估基准主要依赖静态数据集，这使得在模型与用户动态交互中评估模型性能变得具有挑战性。此外，这些基准通常依赖于特定的背景知识，使衡量模型逻辑推理能力变得复杂。基于强模型或人工努力的其他动态评估方法可能会引入偏见，并带来高成本和时间需求，从而阻碍大规模应用。为解决这些问题，我们提出了TurtleBench。TurtleBench从我们开发的在线Turtle Soup Puzzle平台收集了真实用户猜测。这种方法允许相对动态地生成评估数据集，减少模型作弊的风险，同时更贴近真实用户对推理能力的需求，从而提高评估的可靠性。TurtleBench包括1,532个用户猜测以及注释后的猜测正确性。利用这一数据集，我们对当今最先进的九个LLMs进行了全面评估。值得注意的是，OpenAI o1系列模型在这些评估中并未取得领先的结果。我们提出了几个进一步研究的假设，比如“o1的潜在推理利用了琐碎的Chain-of-Thought（CoT）技术”和“增加CoT长度不仅提供推理好处，还带来噪声成本”。

OmniBooth：使用多模态指导学习图像合成的潜在控制
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

Oct 7

ByLeheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen

我们提出了OmniBooth，这是一个图像生成框架，可以实现空间控制并具有实例级多模态定制功能。对于所有实例，多模态指令可以通过文本提示或图像参考来描述。在给定一组用户定义的掩模和相关文本或图像指导的情况下，我们的目标是生成一幅图像，其中多个对象位于指定坐标，并且它们的属性与相应的指导精确对齐。这种方法显著扩展了文本到图像生成的范围，并将其提升到更具多功能性和实用性的可控维度。在本文中，我们的核心贡献在于提出的潜在控制信号，这是一个高维空间特征，提供了一个统一的表示，可以无缝地整合空间、文本和图像条件。文本条件扩展了ControlNet，以提供实例级开放词汇生成。图像条件进一步实现了对个性化身份的细粒度控制。在实践中，我们的方法赋予用户更多的灵活性，因为用户可以根据需要从文本或图像中选择多模态条件。此外，通过彻底的实验，我们展示了在图像合成保真度和在不同任务和数据集上对齐方面的增强性能。项目页面：https://len-li.github.io/omnibooth-web/

在规模上合并模型时有哪些要点？
What Matters for Model Merging at Scale?

Oct 4

ByPrateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai

模型合并旨在将多个专家模型合并为一个更强大的单一模型，提供诸如减少存储和服务成本、改善泛化能力以及支持分散式模型开发等优点。尽管具有潜力，先前的研究主要集中在合并少量小型模型上。这导致了许多关于扩展模型规模的影响以及与其他关键因素（如基础模型质量和专家模型数量）的相互作用如何影响合并模型性能的问题尚未解答。本研究系统地评估了规模化模型合并的效用，考察了这些不同因素的影响。我们尝试使用4种流行的合并方法（平均、任务算术、Dare和TIES）合并完全微调的模型，涵盖了从10亿到640亿参数的模型规模，并合并了多达8个不同的专家模型。我们在专家的训练任务和对未见过的任务进行零样本泛化的情况下评估了合并模型。我们的实验为规模化模型合并和不同因素之间的相互作用提供了一些新的见解。首先，我们发现，当专家模型基于具有良好零样本性能的强基础模型时，合并效果更好。其次，更大的模型有助于更容易地进行合并。第三，合并一致地提高了泛化能力。值得注意的是，当合并8个大型专家模型时，合并模型通常比多任务训练的模型具有更好的泛化能力。第四，在处理更大的模型时，我们可以更好地合并更多的专家模型。第五，不同的合并方法在更大规模下的行为非常相似。总的来说，我们的研究结果揭示了模型合并的一些有趣特性，同时也突出了一些局限性。我们希望这项研究能成为未来研究中关于大规模合并的参考点。

从文本指令中实现角色-场景自主交互合成
Autonomous Character-Scene Interaction Synthesis from Text Instruction

Oct 4

ByNan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu

在3D环境中合成人类动作，尤其是那些涉及复杂活动如行走、伸手以及人-物体交互的动作，对用户定义的航点和阶段转换提出了重大要求。这些需求对当前模型构成挑战，导致了自简单人类输入自动化角色动画存在显著差距。本文通过引入一个全面的框架，直接从单一文本指令和目标位置合成多阶段场景感知交互动作来解决这一挑战。我们的方法采用自回归扩散模型来合成下一个动作片段，同时使用一个自主调度器来预测每个动作阶段的过渡。为了确保合成的动作能够无缝融入环境中，我们提出了一个考虑起始和目标位置的局部感知的场景表示。我们通过将帧嵌入与语言输入相结合，进一步增强了生成动作的连贯性。此外，为支持模型训练，我们提出了一个包含120个室内场景中16小时运动序列的全面动作捕捉数据集，涵盖40种类型的动作，每个动作都用精确的语言描述进行了注释。实验结果表明，我们的方法在生成与环境和文本条件密切相关的高质量多阶段动作方面的有效性。

选择：图像分类数据整理策略的大规模基准测试
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification

Oct 7

ByBenjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde

数据整理是如何收集和组织样本以支持高效学习的问题。尽管这项任务至关重要，但很少有工作致力于对各种整理方法进行大规模系统比较。在这项工作中，我们迈出了正式评估数据整理策略的步伐，并推出了SELECT，这是首个用于图像分类的大规模整理策略基准测试。为了为SELECT基准测试生成基准方法，我们创建了一个新数据集ImageNet++，这是迄今为止最大的ImageNet-1K的超级集。我们的数据集通过5种新的训练数据偏移扩展了ImageNet，每种偏移大约与ImageNet-1K本身的大小相当，并且每种都是使用不同的整理策略组装而成。我们以两种方式评估我们的数据整理基准线：(i) 使用每种训练数据偏移来从头开始训练相同的图像分类模型 (ii) 使用数据本身来拟合预训练的自监督表示。我们的研究结果显示了一些有趣的趋势，特别是与数据整理的最新方法有关，例如合成数据生成和基于CLIP嵌入的查找。我们发现，尽管这些策略在某些任务上具有很高的竞争力，但用于组装原始ImageNet-1K数据集的整理策略仍然是金标准。我们期待我们的基准测试可以为新方法开辟道路，进一步缩小差距。我们在https://github.com/jimmyxu123/SELECT 上发布了我们的检查点、代码、文档和数据集链接。

在视频传播中重新定义时间建模：矢量化时间步进方法
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

Oct 4

ByYaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel

扩散模型已经彻底改变了图像生成的方式，将其拓展到视频生成领域也显示出了潜力。然而，当前的视频扩散模型（VDMs）依赖于在剪辑级别应用的标量时间步变量，这限制了它们对于像图像到视频生成这样需要复杂时间依赖性的任务的建模能力。为了解决这一局限性，我们提出了一种帧感知视频扩散模型（FVDM），引入了一种新颖的矢量化时间步变量（VTV）。与传统的VDMs不同，我们的方法允许每一帧遵循独立的噪声时间表，增强了模型捕捉细粒度时间依赖性的能力。FVDM的灵活性在多个任务中得到展示，包括标准视频生成、图像到视频生成、视频插值和长视频合成。通过多样的VTV配置，我们在生成的视频质量上取得了卓越的表现，克服了在微调过程中的灾难性遗忘和零样本方法中有限的泛化能力等挑战。我们的实证评估表明，FVDM在视频生成质量方面优于最先进的方法，同时在扩展任务中也表现出色。通过解决现有VDMs的基本缺陷，FVDM在视频合成领域树立了新的范式，提供了一个具有重要生成建模和多媒体应用意义的强大框架。

SePPO：半策略偏好优化用于扩散对齐
SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

Oct 7

ByDaoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao, Xiaoman Pan, Hongming Zhang, Mingxiao Li, Pengcheng Chen, Yu Dong, Christopher Brinton, Jiebo Luo

人类反馈强化学习（RLHF）方法正逐渐成为微调扩散模型（DMs）用于视觉生成的一种方式。然而，常用的在线策略受限于奖励模型的泛化能力，而脱机策略则需要大量难以获取的配对人工注释数据，尤其是在视觉生成任务中。为了解决在线和脱机RLHF的限制，我们提出了一种偏好优化方法，该方法通过将DMs与偏好对齐，而无需依赖奖励模型或配对的人工注释数据。具体而言，我们引入了半策略偏好优化（SePPO）方法。SePPO利用先前的检查点作为参考模型，同时利用它们生成在线策略参考样本，这些样本取代了偏好对中的“失败图像”。这种方法使我们能够仅使用脱机的“获胜图像”进行优化。此外，我们设计了一种参考模型选择策略，以扩展策略空间中的探索。值得注意的是，我们并不简单地将参考样本视为学习的负面示例。相反，我们设计了一种基于锚点的标准，以评估参考样本是否可能是获胜或失败图像，使模型能够有选择地从生成的参考样本中学习。这种方法减轻了由于参考样本质量的不确定性而导致的性能下降。我们在文本到图像和文本到视频基准测试中验证了SePPO。SePPO在文本到图像基准测试中超越了所有先前的方法，并且在文本到视频基准测试中也表现出色。代码将在https://github.com/DwanZhang-AI/SePPO发布。

在多视角指代交流中对语言进行基础化
Grounding Language in Multi-Perspective Referential Communication

Oct 4

ByZineng Tang, Lingjun Mao, Alane Suhr

我们引入了一个任务和数据集，用于在多智能体实体环境中进行指代表达生成和理解。在这个任务中，共享场景中的两个智能体必须考虑彼此的视觉角度，这可能与它们自己的视角不同，以便产生和理解关于场景中物体及它们之间空间关系的指代。我们收集了一个包含2,970个人类编写的指代表达的数据集，每个表达都与人类理解判断配对，并评估了自动模型作为发言者和听众与人类伙伴配对时的表现，发现模型在指代生成和理解方面的表现都落后于人类智能体组合。最后，我们尝试训练一个开放权重的发言者模型，当与一个听众配对并表现出沟通成功的证据时，使沟通成功率从58.9%提高到69.3%，甚至胜过最强专有模型。

SwiftKV：具有知识保留模型转换的快速预填充优化推断
SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation

Oct 4

ByAurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong He

对于流行的企业用例，如摘要、RAG和代码生成，LLM推理通常观察到比生成长度长几个数量级的提示长度。这一特征导致预填充的高成本和响应延迟增加。在本文中，我们提出了SwiftKV，这是一种新颖的模型转换和蒸馏过程，专门设计用于减少处理提示标记的时间和成本，同时保持生成标记的高质量。SwiftKV结合了三个关键机制：i）SingleInputKV，使用较早层的输出填充后续层的KV缓存，使提示标记能够跳过大部分模型计算，ii）AcrossKV，合并相邻层的KV缓存以减少内存占用并支持更大的批处理大小以提高吞吐量，以及iii）一种保留知识的蒸馏过程，可以通过最小的准确性影响和低计算和数据需求，使现有的LLMs适应SwiftKV。对于Llama-3.1-8B和70B，SwiftKV将预填充的计算需求降低了50％，将KV缓存的内存需求降低了62.5％，同时在各种任务中产生了最小的质量降级。在使用经过优化的vLLM实现的端到端推理服务中，SwiftKV实现了高达2倍的总吞吐量和60％更低的每个输出标记的时间。它可以实现惊人的560 TFlops/GPU的标准化推理吞吐量，这相当于在4个H100 GPU上以16位精度为Llama-3.1-70B每秒处理16K标记。

AI研究论文每日精选

每日精选AI研究论文及翻译

差动变压器
Differential Transformer

Oct 7

ByTianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei

180

LLaMA-Berry：O1级奥林匹克水平数学推理的成对优化
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

Oct 3

ByDi Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou

LLM知道的比它们展示的更多：关于LLM内在表示的幻觉
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

Oct 3

ByHadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov

FAN：傅立叶分析网络
FAN: Fourier Analysis Networks

Oct 3

ByYihong Dong, Ge Li, Yongding Tao, Xue Jiang, Kechi Zhang, Jia Li, Jing Su, Jun Zhang, Jingjing Xu

视频指导：通过教师指导改进视频扩散模型，无需训练
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

Oct 6

ByDohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye

GSM-Symbolic：理解大型语言模型中数学推理的局限性
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Oct 7

ByIman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

ScienceAgentBench：朝着数据驱动科学发现的语言代理严格评估的方向前进
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

Oct 7