每日精选AI研究论文及翻译
我们引入了一种新方法,系统地映射稀疏自编码器在大型语言模型的连续层中发现的特征,扩展了早期研究对层间特征链接的探讨。通过使用无数据的余弦相似度技术,我们追踪特定特征在每个阶段是如何持续存在、转变或首次出现的。这种方法产生了特征演变的细粒度流图,实现了对模型计算的细粒度可解释性和机制洞察。至关重要的是,我们展示了这些跨层特征映射如何促进通过放大或抑制选择的特征来直接引导模型行为,在文本生成中实现有针对性的主题控制。总的来说,我们的研究结果突显了一种因果、跨层可解释性框架的实用性,不仅阐明了特征如何通过前向传递发展,还提供了透明操纵大型语言模型的新手段。
我们介绍AlphaGeometry2,这是Trinh等人(2024年)介绍的AlphaGeometry的显着改进版本,已经超越了解决奥林匹克几何问题的平均金牌得主。为了实现这一点,我们首先扩展了原始的AlphaGeometry语言,以解决涉及物体运动以及包含角度、比例和距离线性方程的更难问题。这些改进与其他增强功能一起,显着提高了AlphaGeometry语言在2000-2024年国际数学奥林匹克几何问题上的覆盖率,从66%提高到88%。AlphaGeometry2的搜索过程也通过使用Gemini架构进行了极大改进,以获得更好的语言建模,并采用结合多个搜索树的新颖知识共享机制。再加上对符号引擎和合成数据生成的进一步增强,我们将AlphaGeometry2对过去25年所有几何问题的整体解决率显着提高到84%,而之前为54%。AlphaGeometry2还是在IMO 2024年获得银牌标准的系统的一部分。最后,我们报告了使用AlphaGeometry2作为完全自动化系统的一部分,可可靠地直接从自然语言输入解决几何问题的进展。
多模态扩散Transformer(DiTs)的丰富表示是否具有增强其可解释性的独特属性?我们引入了ConceptAttention,这是一种利用DiT注意力层的表达能力生成高质量显著性地图的新方法,精确定位图像中的文本概念。ConceptAttention利用DiT注意力层的参数重新生成高度上下文化的概念嵌入,无需额外训练,这是一个重大发现,即在DiT注意力层的输出空间中执行线性投影相比常用的交叉注意力机制产生明显更清晰的显著性地图。值得注意的是,ConceptAttention甚至在零样本图像分割基准上取得了最先进的性能,在ImageNet-Segmentation数据集上和PascalVOC的单类子集上,优于其他11种零样本可解释性方法。我们的工作首次证明了像Flux这样的多模态DiT模型的表示对于分割等视觉任务是高度可迁移的,甚至优于像CLIP这样的多模态基础模型。
随着语言模型(LM)能力的提升,对其进行规模化评估和监督对人类来说变得更加困难。人们希望其他语言模型能够自动化这两项任务,这被称为“AI监督”。我们研究了模型相似性如何影响AI监督的两个方面,提出了一种基于模型错误重叠的LM相似性的概率度量。利用这一度量,我们首先展示了LLM作为评判者的评分偏好于与评判者相似的模型,从而概括了最近的自我偏好结果。然后,我们研究了在LM注释上的训练,并发现弱监督者和强学生模型之间的互补知识在“从弱到强的泛化”中起着至关重要的作用。随着模型能力的增强,发现其错误变得更加困难,我们可能会更多地依赖AI监督。然而,我们观察到一个令人担忧的趋势——随着能力的增强,模型的错误变得更加相似,指向了由相关故障带来的风险。我们的工作强调了报告和纠正模型相似性的重要性,特别是在AI监督新兴范式中。
最近在大型语言模型方面的进展,特别是在GPT-4o之后,引发了对开发全模态模型的越来越浓厚兴趣,这些模型能够理解更多的模态。虽然一些开源替代方案已经出现,但在性能上仍然明显落后于专门的单模态模型。本文介绍了Ola,一种全模态语言模型,与专门的对应模型相比,在图像、视频和音频理解方面取得了竞争性能。Ola的核心设计在于其渐进式模态对齐策略,逐步扩展语言模型的支持模态。我们的训练流程从最不同的模态开始:图像和文本,然后逐渐扩展模型的技能集,使用连接语言和音频知识的语音数据,以及连接所有模态的视频数据。渐进式学习流程还使我们能够保持跨模态对齐数据的相对较小规模,使得从现有的视觉-语言模型开发全模态模型变得简单且成本较低。此外,为了实现类似GPT-4o的高级交互体验,我们进一步设计了一种逐句解码解决方案,用于流式语音生成。大量实验证明,Ola在所有模态上均超越了现有的开源全模态LLMs,同时与同等规模的最先进专门模型相比取得了高度竞争性能。我们的目标是将Ola打造成一个完全开放的全模态理解解决方案,推动这一新兴领域的未来研究。模型权重、代码和数据已在https://github.com/Ola-Omni/Ola上开源。
我们提出了一种用新生成的动态内容增强现实世界视频的方法。给定一个输入视频和一个简单的用户提供的描述所需内容的文本指令,我们的方法合成动态对象或复杂场景效果,这些对象或效果会随着时间自然地与现有场景互动。新内容的位置、外观和运动被无缝地整合到原始镜头中,同时考虑了摄像机运动、遮挡以及与场景中其他动态对象的互动,从而产生连贯且逼真的输出视频。我们通过一个零-shot、无需训练的框架实现了这一点,该框架利用了一个预训练的文本到视频扩散变压器来合成新内容,以及一个预训练的视觉语言模型来详细展现增强场景。具体来说,我们引入了一种基于推理的新方法,该方法在注意机制内操作特征,实现了对新内容的准确定位和无缝整合,同时保持了原始场景的完整性。我们的方法是完全自动化的,只需要一个简单的用户指令。我们展示了它在应用于现实世界视频的各种编辑上的有效性,涵盖了涉及摄像机和物体运动的各种对象和场景。
最近在基于文本的大型语言模型(LLMs)方面取得的进展,特别是GPT系列和o1模型,展示了在训练时间和推理时间计算方面扩展的有效性。然而,当前最先进的TTS系统利用LLMs往往是多阶段的,需要单独的模型(例如,在LLM之后的扩散模型),这使得在训练或测试期间决定是否扩展特定模型变得复杂。本文提出以下贡献:首先,我们探讨了语音合成的训练时间和推理时间计算的扩展。其次,我们提出了一个简单的框架Llasa用于语音合成,采用单层向量量化器(VQ)编解码器和单个Transformer架构,以完全与标准LLMs(如Llama)保持一致。我们的实验显示,为Llasa扩展训练时间计算始终提高了合成语音的自然度,并实现了更复杂和准确的韵律模式生成。此外,从扩展推理时间计算的角度来看,我们在搜索过程中使用语音理解模型作为验证器,发现扩展推理时间计算将采样模式转向特定验证器的偏好,从而提高了情感表达能力、音色一致性和内容准确性。此外,我们公开发布了我们的TTS模型(1B、3B、8B)和编解码器模型的检查点和训练代码。
大型语言模型(LLMs),如OpenAI的o1,展示了出色的推理能力。o1在回答问题之前生成了一个长的思维链(LongCoT)。LongCoT使LLMs能够有效地分析问题,制定计划,反思和回溯。这些行为赋予LLM解决复杂问题的能力。在o1发布后,许多团队尝试复制其LongCoT和推理能力。在方法上,他们主要依赖于使用来自具有LongCoT能力的现有模型的数据进行知识蒸馏(例如OpenAI-o1,Qwen-QwQ,DeepSeek-R1-Preview),这在系统地开发这种推理能力方面存在重大不确定性。在数据领域方面,这些工作主要集中在数学上,而少数其他工作包括编码,从而限制了其泛化能力。本文介绍了一种新方法,可以实现LLM的LongCoT能力,而无需从类似o1的模型或昂贵的人工注释中蒸馏,我们从标准指导模型中引导LongCoT(BOLT)。BOLT包括三个阶段:1)使用标准指导模型上的上下文学习引导LongCoT数据;2)LongCoT监督微调;3)在线训练以进一步完善LongCoT能力。在BOLT中,在引导阶段只需要构建少量上下文示例;在我们的实验中,我们创建了10个示例,展示了这种方法的可行性。我们使用Llama-3.1-70B-Instruct引导LongCoT,并将我们的方法应用于各种模型规模(7B,8B,70B)。我们在各种基准测试中取得了令人印象深刻的表现,包括Arena-Hard,MT-Bench,WildBench,ZebraLogic,MATH500,评估不同任务解决和推理能力。
指导原则:现代大型语言模型(LLMs)已成为有用的助手,能够遵循指令。然而,如何驯服LLMs以执行复杂指令仍然是个谜,因为开源社区训练的模型与领先公司训练的模型之间存在巨大差距。为了弥合这一差距,我们提出了一种简单且可扩展的方法UltraIF,用于构建能够遵循复杂指令的LLMs,而且只使用开源数据。UltraIF首先将真实世界用户提示分解为更简单的查询、约束以及与约束相关的评估问题。然后,我们训练一个UltraComposer来组合与约束相关的提示和评估问题。这种提示组合器使我们能够合成复杂的指令,并通过评估问题过滤响应。在我们的实验中,我们首次成功地使LLaMA-3.1-8B-Base与其指令版本在5个指令遵循基准测试中保持同步,而且仅使用8B模型作为响应生成器和评估器,而没有任何基准信息。对齐的模型还在其他基准测试中取得了竞争性得分。此外,我们还展示了UltraIF可以通过自对齐进一步改进LLaMA-3.1-8B-Instruct,激发了该方法更广泛的用例。我们的代码将在https://github.com/kkk-an/UltraIF 上提供。
扩散生成模型的目标是通过梯度分数匹配将学习到的分布与真实数据分布对齐。然而,在训练数据质量、建模策略和架构设计方面的固有限制导致生成输出与真实数据之间存在不可避免的差距。为了减小这一差距,我们提出了弱到强扩散(Weak-to-Strong Diffusion,W2SD)的新框架,该框架利用现有弱模型和强模型之间的估计差异(即弱到强差异)来近似理想模型与强模型之间的差距。通过采用交替进行去噪和反演的反射操作,我们从理论上理解到,W2SD将潜变量沿着采样轨迹引导至真实数据分布的区域。W2SD具有高度灵活性和广泛适用性,通过策略性地选择弱到强模型对(例如,DreamShaper vs. SD1.5,MoE 中的优秀专家 vs. 糟糕专家),可以实现多样化的改进。大量实验证明,W2SD显著提高了人类偏好、美学质量和提示遵从性,在各种形式(例如图像、视频)、架构(例如基于 UNet、DiT、MoE)和基准测试中实现了 SOTA 性能。例如,搭配 W2SD 的 Juggernaut-XL 可以将 HPSv2 获胜率提高至原始结果的 90%。此外,W2SD 实现的性能增益明显超过了额外的计算开销,而来自不同弱到强差异的累积改进进一步巩固了其实际效用和可部署性。
尽管大型语言模型在各种任务中具有显著的能力,但它们持续扩展面临一个关键挑战:高质量的预训练数据稀缺。虽然模型架构不断发展,但自然语言数据难以扩展。为了解决这一瓶颈,我们提出了大规模类型-受众(MAGA)重构方法,系统地从现有语料库中合成多样化、上下文丰富的预训练数据。这项工作有三个主要贡献:(1)我们提出了MAGA重构方法,这是一种轻量级且可扩展的预训练语料库扩展方法,并构建了一个包含770B标记的MAGACorpus。 (2)我们使用不同的数据预算扩展策略评估了MAGACorpus,展示了在各种模型规模(134M-13B)上持续改进,确立了下一代大规模合成预训练语言模型的必要性。 (3)通过全面分析,我们研究了提示工程对合成训练崩溃的影响,并揭示了传统崩溃检测指标在验证损失方面的局限性。我们的工作表明,MAGA能够大幅扩展训练数据集,同时保持质量,为超越数据限制扩展模型提供了可靠的途径。
最近的研究利用大型语言模型多智能体系统进行复杂问题解决,同时试图减少构建这些系统所需的手动工作量,推动了自动化智能体工作流优化方法的发展。然而,由于表征限制、缺乏适应性以及依赖离散优化技术时的可扩展性差,现有方法仍然缺乏灵活性。我们通过ScoreFlow来解决这些挑战,这是一个简单但高性能的框架,利用连续空间中高效的基于梯度的优化。ScoreFlow集成了Score-DPO,这是直接偏好优化方法的一种新变体,考虑了定量反馈。在涵盖问答、编码和数学推理的六个基准测试中,ScoreFlow相对现有基准线提高了8.2%。此外,它使较小的模型能够以更低的推理成本胜过较大的模型。项目链接:https://github.com/Gen-Verse/ScoreFlow
人类动作生成和编辑是计算机图形学和视觉的关键组成部分。然而,当前在这一领域的方法往往提供针对特定任务量身定制的孤立解决方案,这可能对实际应用效率低且不切实际。虽然一些努力旨在统一与动作相关的任务,但这些方法仅仅使用不同形式作为条件来引导动作生成。因此,它们缺乏编辑能力、细粒度控制,并且未能促进跨任务的知识共享。为了解决这些限制并提供一个能够处理人类动作生成和编辑的多功能统一框架,我们引入了一种新范式:动作-条件-动作,它能够统一表达多样的任务,包括三个概念:源动作、条件和目标动作。基于这一范式,我们提出了一个统一框架MotionLab,它结合了矫正流来学习从源动作到目标动作的映射,由指定条件引导。在MotionLab中,我们引入了1)MotionFlow Transformer来增强有条件的生成和编辑,而无需特定任务模块;2)对齐旋转位置编码以确保源动作和目标动作之间的时间同步;3)任务指定指令调制;以及4)动作课程学习,用于有效的多任务学习和跨任务的知识共享。值得注意的是,我们的MotionLab展示了在多个人类动作基准测试中具有良好的泛化能力和推理效率。我们的代码和额外的视频结果可在以下网址获取:https://diouo.github.io/motionlab.github.io/。
本文提出了一种方法,允许用户在图像到视频生成的背景下设计电影视频镜头。镜头设计是电影制作的关键方面,涉及精心规划场景中的摄像机移动和物体运动。然而,在现代图像到视频生成系统中实现直观的镜头设计面临两个主要挑战:首先,有效捕捉用户对运动设计的意图,在这里必须共同指定摄像机移动和场景空间物体运动;其次,表示可以被视频扩散模型有效利用以合成图像动画的运动信息。为了解决这些挑战,我们引入了MotionCanvas,这是一种将用户驱动控制集成到图像到视频(I2V)生成模型中的方法,允许用户以场景感知的方式控制场景中的物体和摄像机运动。通过结合经典计算机图形学和当代视频生成技术的见解,我们展示了在I2V合成中实现3D感知运动控制的能力,而无需昂贵的3D相关训练数据。MotionCanvas使用户能够直观地描绘场景空间运动意图,并将其转化为视频扩散模型的时空运动调节信号。我们在各种真实世界图像内容和镜头设计场景上展示了我们方法的有效性,突显了它在数字内容创作的创意工作流程中增强的潜力,并适应各种图像和视频编辑应用。
大型语言模型(LLMs)在各种任务中展现出显著的能力,其真实世界的有效性通常受到提示设计的驱动。虽然最近的研究集中在优化提示内容上,但提示格式的作用,作为一个关键但经常被忽视的维度,却受到了有限的系统性调查。在本文中,我们介绍了内容-格式一体化提示优化(CFPO),这是一种创新方法,通过迭代的优化过程共同优化提示内容和格式。CFPO利用自然语言变异来探索内容变化,并采用动态格式探索策略,系统评估各种格式选项。我们在多个任务和开源LLMs上进行了广泛评估,结果显示CFPO相较于仅优化内容的方法表现出可衡量的性能改进。这突显了整合内容-格式优化的重要性,并提供了一个实用的、与模型无关的方法来增强LLM的性能。代码将在https://github.com/HenryLau7/CFPO 上提供。
随着大型语言模型在推动现实世界应用方面的作用日益增强,将其与人类价值观保持一致变得至关重要。从人类反馈中进行强化学习(RLHF)已经成为一种关键技术,当神谕式人类价值观无法获得时,将偏好数据转化为奖励模型。在实践中,RLHF 主要依赖于近似奖励模型,这些模型可能无法始终引导策略朝向最大化潜在的人类价值观。我们提出了一种名为Policy-Interpolated Learning for Aligned Feedback(PILAF)的新型响应采样策略,用于偏好标记,明确将偏好学习与最大化潜在的神谕奖励保持一致。PILAF 在理论上得到了充分的支撑,从优化和统计角度均展现出最优性。该方法易于实施,并在反馈策划至关重要的迭代和在线 RLHF 环境中展现出强大的性能。
我们提出了一种新颖的视频生成框架,该框架集成了三维几何和动态意识。为实现这一目标,我们通过在像素空间中增加三维点轨迹来扩充二维视频。得到的三维感知视频数据集PointVid,然后用于微调潜在扩散模型,使其能够跟踪具有三维笛卡尔坐标的二维物体。在此基础上,我们对视频中的物体形状和运动进行规范化,消除不良伪影,例如非物理变形。因此,我们提高了生成的RGB视频质量,并减轻了常见问题,如由于缺乏形状感知而普遍存在于当前视频模型中的物体变形。通过我们的三维扩充和规范化,我们的模型能够处理接触丰富的场景,例如面向任务的视频。这些视频涉及固体的复杂相互作用,其中三维信息对于感知变形和接触至关重要。此外,我们的模型通过促进移动物体的三维一致性并减少形状和运动的突变,提高了视频生成的整体质量。
大型语言模型(LLMs)可以执行图表问答任务,但通常会生成未经验证的虚构响应。现有的答案归因方法由于受限于有限的视觉-语义上下文、复杂的视觉-文本对齐要求以及跨复杂布局的边界框预测困难,因此很难将响应与源图表联系起来。我们提出了ChartCitor,这是一个多代理框架,通过在图表图像中识别支持证据来提供细粒度的边界框引用。该系统协调LLM代理执行图表到表格的提取、答案重构、表格增强、通过预过滤和重新排序进行证据检索,以及表格到图表的映射。ChartCitor在不同类型的图表上优于现有基线。定性用户研究表明,ChartCitor通过为LLM辅助图表问答提供增强的可解释性,有助于增加用户对生成式AI的信任,并使专业人士更加高效。
我们提出了用于建模动作视频动态的异构掩码自回归(Heterogeneous Masked Autoregression,HMA)方法,以生成高质量数据,并在扩展机器人学习中进行评估。为机器人技术构建交互式视频世界模型和策略具有挑战性,因为需要处理多样化的场景设置,同时保持计算效率以实时运行。HMA利用来自不同机器人实体、领域和任务的观察和动作序列进行异构预训练。HMA采用掩码自回归来生成视频预测的量化或软标记。相较于先前的机器人视频生成模型,\ourshort 在视觉保真度和可控性方面表现更好,在现实世界中运行速度快15倍。在后期训练后,该模型可用作从低级动作输入生成视频模拟器,用于评估策略和生成合成数据。有关更多信息,请访问以下链接:https://liruiw.github.io/hma。
科学数据可视化对于将原始数据转化为可理解的视觉表达至关重要,实现模式识别、预测以及呈现基于数据的见解。然而,新手用户常常面临困难,因为选择适当工具和掌握可视化技术的复杂性。大型语言模型(LLMs)最近展示了在辅助代码生成方面的潜力,尽管它们在准确性方面存在困难,并需要迭代调试。在本文中,我们提出了PlotGen,这是一个旨在自动化创建精确科学可视化的新型多代理框架。PlotGen协调多个基于LLM的代理,包括一个查询规划代理,将复杂用户请求分解为可执行步骤,一个代码生成代理,将伪代码转换为可执行的Python代码,以及三个检索反馈代理 - 数值反馈代理、词汇反馈代理和视觉反馈代理 - 利用多模式LLMs通过自我反思迭代地改进生成图的数据准确性、文本标签和视觉正确性。大量实验证明,PlotGen优于强基线,在MatPlotBench数据集上实现了4-6%的改进,提高了用户对LLM生成的可视化的信任,并由于减少了用于处理图表错误所需的调试时间,提高了新手用户的生产效率。
大型语言模型(LLMs)的出现显著推动了自动生成代码领域的发展。LLMs依赖于庞大且多样的数据集,以学习编程语言的语法、语义和使用模式。对于低资源语言(即特点是训练数据稀缺的小众编程语言),这些数据的有限可用性阻碍了模型有效泛化的能力,导致生成代码的性能较高资源语言要差。因此,人们正在寻求能够弥合这一性能差距的技术。我们提出了一项实证研究,探讨了几种提升LLMs在低资源语言上性能的方法,包括:(i)经典微调,但由于训练数据稀缺而受到大小限制;(ii)三种上下文学习的变体,通过设计提示信息为LLM提供有关低资源语言的额外信息(例如,展示目标语言特征的少样本示例);以及(iii)一个预训练目标,教导模型如何在高资源语言和低资源语言之间进行翻译。我们研究的背景是两种低资源语言(R和Racket)和六种具有不同架构和规模的LLMs。我们的发现显示,对于较小的LLMs,微调通常是最佳选择,可能是因为即使是小数据集也足以训练其有限数量的参数。随着模型规模的增大,上下文学习变得越来越有效,代表着一种安全且廉价的选择(即总是有所帮助,但效果有所不同)。与此不同的是,当进行微调时,非常大的LLMs可能会在低资源语言上降低性能,可能是因为缺乏足够的数据来有效更新其权重。
尽管进行了大量的安全对齐工作,但大型语言模型(LLMs)仍然容易受到越狱攻击的影响,从而引发有害行为。尽管现有研究主要集中在需要技术专业知识的攻击方法上,但仍有两个关键问题尚未得到充分探讨:(1)越狱响应是否真正有助于普通用户执行有害行为?(2)在更常见、简单的人-LLM交互中是否存在安全漏洞?在本文中,我们展示了LLM响应在促成有害行为时最有效的方式是同时具有可操作性和信息性——这两个属性在多步骤、多语言交互中很容易引发。基于这一见解,我们提出了HarmScore,一个衡量LLM响应有效促成有害行为程度的越狱度量标准,以及Speak Easy,一个简单的多步骤、多语言攻击框架。值得注意的是,通过将Speak Easy纳入直接请求和越狱基线,我们观察到在四个安全基准中,无论是开源还是专有LLMs,攻击成功率平均绝对增加了0.319,HarmScore增加了0.426。我们的工作揭示了一个关键但常被忽视的漏洞:恶意用户可以轻易利用常见的交互模式实现有害意图。