每日精选AI研究论文及翻译
尽管近年来取得了巨大进展,生成式视频模型仍然难以捕捉真实世界的运动、动态和物理特性。我们表明,这一限制源于传统的像素重建目标,使模型偏向外观保真度,而牺牲了运动连贯性。为了解决这一问题,我们引入了VideoJAM,这是一个新颖的框架,通过鼓励模型学习联合外观-运动表示,为视频生成器注入了有效的运动先验。VideoJAM由两个互补单元组成。在训练过程中,我们扩展了目标,以预测生成像素及其对应运动,从单个学习表示中获得。在推断过程中,我们引入了Inner-Guidance,一种机制,通过利用模型自身不断演化的运动预测作为动态引导信号,引导生成向连贯的运动。值得注意的是,我们的框架可以应用于任何视频模型,只需进行最少的调整,无需修改训练数据或扩展模型。VideoJAM在运动连贯性方面实现了最先进的性能,超越了高度竞争的专有模型,同时提升了生成物的视觉质量。这些发现强调了外观和运动可以是互补的,有效集成时可以增强视频生成的视觉质量和连贯性。项目网站:https://hila-chefer.github.io/videojam-paper.github.io/
近年来编码器模型的大部分进展都是通过监督微调(SFT)推动的,而强化学习(RL)的潜力仍然大部分未被开发,主要是由于在代码领域缺乏可靠的奖励数据/模型。本文通过利用自动化大规模测试用例合成来增强代码模型训练来解决这一挑战。具体来说,我们设计了一个流程,从现有代码数据中生成大量(问题,测试用例)对。利用这些测试用例,我们基于对采样程序的通过率构建偏好对,以训练具有Bradley-Terry损失的奖励模型。通过最佳的32次采样,结果显示Llama-3.1-8B-Ins平均提升10分,Qwen2.5-Coder-7B-Ins提升5分,使得7B模型与236B DeepSeek-V2.5持平。此外,我们使用两种奖励模型和测试用例通过率进行强化学习,导致在HumanEval、MBPP、BigCodeBench和LiveCodeBench(V4)上持续改进。值得注意的是,我们采用R1风格的训练,直接从Qwen2.5-Coder-base开始,并展示我们的RL训练可以使HumanEval-plus模型提高超过25\%,MBPP-plus提高6%,仅需80次优化步骤。我们相信我们的结果突显了强化学习在编码器模型中的巨大潜力。
学习扩散桥模型很容易;使其快速和实用则是一门艺术。扩散桥模型(DBMs)是扩散模型的一个有前途的延伸,可用于图像到图像的翻译应用。然而,像许多现代扩散和流模型一样,DBMs存在推断速度慢的问题。为了解决这个问题,我们提出了一种基于逆桥匹配公式的新型提炼技术,并推导出可行的目标以在实践中解决它。与先前开发的DBM提炼技术不同,所提出的方法可以提炼条件和无条件类型的DBMs,提炼模型在一个步骤生成器中,并且仅使用损坏的图像进行训练。我们在一系列设置中评估了我们的方法,包括超分辨率、JPEG 恢复、素描到图像等任务,并展示了我们的提炼技术使我们能够将DBMs的推断加速从4倍到100倍,甚至根据特定设置提供比使用的教师模型更好的生成质量。
大型语言模型(LLMs)展示了在不同领域具有显著推理能力的能力。最近的研究表明,增加测试时计算可以增强LLMs的推理能力。这通常涉及在推理时进行大量采样,由外部LLM验证器指导,形成一个双人系统。尽管有外部指导,但该系统的有效性展示了单个LLM处理复杂任务的潜力。因此,我们提出了一个新的研究问题:我们能否内部化搜索能力以从根本上增强单个LLM的推理能力?本文探讨了一个正交方向,专注于用于自回归搜索的后训练LLMs(即,具有自我反思和自我探索新策略的扩展推理过程)。为实现这一目标,我们提出了“行动思维链”(COAT)推理和一个两阶段训练范式:1)一个小规模格式调整阶段,以内部化COAT推理格式;2)一个利用强化学习的大规模自我改进阶段。我们的方法产生了Satori,一个基于开源模型和数据训练的7B LLM。广泛的实证评估表明,Satori在数学推理基准上实现了最先进的性能,同时对领域外任务具有很强的泛化能力。代码、数据和模型将完全开源。
语言代理已成为复杂交互任务的一种有前途的解决方案。语言代理成功的关键因素之一是代理工作流轨迹上的奖励模型,该模型在训练或推理过程中提供有价值的指导。然而,由于中间交互的缺乏注释,大多数现有作品使用结果奖励模型来优化整个轨迹上的策略。这可能导致次优策略并阻碍整体性能。为了解决这个问题,我们提出了QLASS(Q引导的语言代理逐步搜索),通过逐步估计Q值为开放语言代理自动生成注释。通过引入推理树和执行过程奖励建模,QLASS为每个步骤提供了有效的中间指导。借助逐步指导,我们提出了一种Q引导的生成策略,使语言代理能够更好地适应长期价值,从而在复杂交互代理任务的模型推理过程中实现显著性能改进。值得注意的是,即使使用了几乎一半的注释数据,QLASS仍保持强大的性能,展示了其在处理有限监督方面的效率。我们还通过定性分析实证证明了QLASS可以导致更有效的决策制定。我们将发布我们的代码和数据。
本文研究了大型语言模型(LLMs)中一个鲜为人知的挑战:KV缓存压缩方法对LLMs基本能力的影响。尽管现有方法在长上下文基准上实现了令人印象深刻的压缩比,但它们对核心模型能力的影响仍未得到充分研究。我们展示了一项全面的实证研究,评估了不同任务中突出的KV缓存压缩方法,涵盖世界知识、常识推理、算术推理、代码生成、安全性以及长上下文理解和生成。我们的分析表明,KV缓存压缩方法表现出特定任务的性能下降。算术推理任务对激进压缩尤为敏感,不同方法显示出17.4%-43.3%的性能下降。值得注意的是,DeepSeek R1 Distill模型相比于经过指令调整的模型表现出更强的压缩容忍度,仅显示出9.67%-25.53%的性能下降。基于我们对注意力模式和跨任务压缩性能的分析,我们提出了ShotKV,一种独特处理预填充和解码阶段的新型压缩方法,同时保持了shot级语义连贯性。实证结果表明,ShotKV在激进压缩比下长上下文生成任务中实现了9%-18%的性能改进。
将来自不同来源的输出进行集成是一种简单但有效的提升性能的方法。混合式代理(MoA)是一种流行的集成方法,它聚合了多个不同的大型语言模型(LLMs)的输出。本文在语言模型的背景下提出了一个问题:混合不同的LLMs是否真的有益?我们提出了自我MoA——一种只聚合来自单个表现最佳的LLM的输出的集成方法。我们的大量实验表明,令人惊讶的是,自我MoA在许多场景中优于混合不同LLMs的标准MoA:在AlpacaEval 2.0基准测试中,自我MoA比MoA提高了6.6%,在包括MMLU、CRUX和MATH在内的各种基准测试中平均提高了3.8%。将Self-MoA应用于AlpacaEval 2.0中排名靠前的模型,直接实现了排行榜上的最新最佳性能。为了了解Self-MoA的有效性,我们系统地研究了在各种MoA设置下多样性和输出质量之间的权衡。我们确认MoA的性能对质量非常敏感,混合不同的LLMs通常会降低模型的平均质量。为了补充这项研究,我们确定了混合不同LLMs可能有益的情景。本文进一步介绍了Self-MoA的顺序版本,能够在多轮中动态地聚合大量LLM输出,其效果与一次性聚合所有输出一样有效。
尽管文本到图像生成模型取得了显著进展,但它们容易受到对抗性攻击,并无意中生成不安全、不道德的内容。现有方法通常依赖于微调模型以去除特定概念,这在计算上昂贵、缺乏可扩展性,并且可能损害生成质量。在这项工作中,我们提出了一种新颖的框架,利用 k-稀疏自编码器(k-SAEs)来实现扩散模型中的高效且可解释的概念操作。具体来说,我们首先在文本嵌入的潜在空间中识别可解释的单语义概念,并利用它们精确地引导生成远离或朝向给定概念(例如裸露)或引入新概念(例如摄影风格)。通过大量实验证明,我们的方法非常简单,无需重新训练基础模型或使用 LoRA 适配器,不会损害生成质量,并且对对抗性提示操作具有鲁棒性。我们的方法在不安全概念去除方面提高了20.01%,在风格操作方面有效,并且比当前最先进的方法快5倍。
基于抽样的搜索是一种利用测试时计算的简单范式,涉及生成多个候选响应并选择最佳响应 —— 通常通过验证每个响应的正确性来完成。本文研究了影响基于抽样搜索的扩展趋势。我们的研究发现之一是,简单地扩展仅使用随机抽样和直接自验证的最小实现,将导致持续的性能改进,例如,将 Gemini v1.5 Pro 模型的推理能力提升到流行基准测试中 o1-Preview 之上。我们部分归因于基于抽样搜索的可扩展性,其中抽样更大的响应池进而提高验证准确性。我们进一步确定了两个有用的原则,用于通过测试时计算改进自验证能力:(1) 跨响应比较提供有关错误和幻觉位置的有用信号,(2) 不同的模型输出风格适用于不同的情境 —— 思维链对推理有用但更难验证。我们还发现,尽管可以引发准确的验证,但前沿模型展示了明显薄弱的开箱即用验证能力,并引入了一个基准来衡量这些缺陷上的进展。
本文介绍了COCONut-PanCap数据集,旨在增强全景分割和基于图像的描述生成。该数据集在COCO数据集基础上构建,使用先进的COCONut全景掩模,旨在克服现有图像文本数据集的局限,这些数据集通常缺乏详细的、全面的场景描述。COCONut-PanCap数据集融入了基于全景分割掩模的细粒度、区域级描述,确保一致性并提高生成描述的细节。通过人工编辑的密集注释描述,COCONut-PanCap支持改进视觉语言模型(VLMs)的训练,用于图像理解和文本到图像任务的生成模型。实验结果表明,COCONut-PanCap显著提升了理解和生成任务的性能,为大规模数据集提供了互补优势。该数据集为评估模型在联合全景分割和基于图像的描述生成任务上设立了新的基准,满足多模态学习中高质量、详细的图像文本注释的需求。
创建计算机辅助设计(CAD)模型需要相当的专业知识和努力。将文本转换为CAD,将文本描述转换为CAD参数序列,在简化这一过程中至关重要。最近的研究已经利用了称为顺序信号的地面实况参数序列作为监督来实现这一目标。然而,CAD模型本质上是多模态的,包括参数序列和相应的渲染视觉对象。此外,从参数序列到视觉对象的渲染过程是多对一的。因此,序列信号和视觉信号对于有效训练至关重要。在这项工作中,我们介绍CADFusion,这是一个使用大型语言模型(LLMs)作为骨干,并在顺序学习(SL)阶段和视觉反馈(VF)阶段之间交替的框架。在SL阶段,我们使用地面实况参数序列训练LLMs,使其能够生成逻辑连贯的参数序列。在VF阶段,我们奖励将渲染为视觉上优选对象的参数序列,并惩罚那些没有的,使LLMs学会如何感知和评估渲染的视觉对象。这两个阶段在训练过程中交替进行,确保平衡学习并保留两种信号的优势。实验证明,CADFusion显著提高了性能,无论是在质量上还是在数量上。
定制文本到图像模型使用户能够插入自定义概念并在未见过的环境中生成这些概念。现有方法要么依赖昂贵的测试时间优化,要么在单图像训练数据集上训练编码器而缺乏多图像监督,导致图像质量较差。我们提出了一种简单的方法来解决这两个限制。我们首先利用现有的文本到图像模型和三维数据集创建高质量的合成定制数据集(SynCD),其中包含同一对象在不同光照、背景和姿势下的多个图像。然后,我们提出了一种基于共享注意机制的新编码器架构,更好地整合了输入图像中的细粒度视觉细节。最后,我们提出了一种新的推理技术,通过对文本和图像引导向量进行归一化来减轻推理过程中的过曝问题。通过大量实验,我们展示了我们的模型,在合成数据集上训练,采用所提出的编码器和推理算法,优于现有的无调整方法在标准定制基准测试中的表现。
在设备上对大型语言模型(LLMs)进行微调越来越受到关注。最近的研究将低秩适应(LoRA)技术与联邦微调相结合,以减轻与设备模型大小和数据稀缺性相关的挑战。然而,计算资源的异质性仍然是一个关键瓶颈:尽管更高秩的模块通常会提高性能,但不同的设备能力限制了LoRA的可行秩范围。现有方法试图解决这个问题,但要么缺乏分析上的合理性,要么会增加额外的计算开销,为高效且理论基础的解决方案留下了很大的空间。为了解决这些挑战,我们提出了联邦草图LoRA(FSLoRA),它利用草图机制使设备能够选择性地更新服务器维护的全局LoRA模块的子矩阵。通过调整决定设备上子矩阵秩的草图比例,FSLoRA能够灵活适应设备特定的通信和计算约束。我们对FSLoRA进行了严格的收敛分析,描述了草图比例如何影响收敛速度。通过在多个数据集和LLM模型上进行全面实验,我们展示了FSLoRA相对于各种基线的卓越性能。
大型语言模型(LLMs)在各个领域展示了卓越的能力。随着LLMs不断发展的能力和不断扩大的部署场景,由于其庞大规模和先进而复杂的激活设计(如Llama、Gemma和Mistral等知名模型系列),它们的部署挑战也在不断升级。这些挑战在资源受限的部署场景中尤为突出,因此缓解推理效率瓶颈至关重要。在各种最近的努力中,激活近似已经成为追求推理效率的一个有前途的途径,有时被认为在私密推理等应用中是不可或缺的。尽管在实用性上取得了实质性的加速,对实际部署而言看起来既合理又实用,但激活近似的安全性影响仍不明确。在这项工作中,我们通过对激活近似进行首次系统化安全评估来填补LLM安全领域的重要空白。我们的安全审查涵盖了三个流行类别中的七种最新技术,揭示了十个与安全对齐的LLMs中一致的安全降级情况。