每日精选AI研究论文及翻译
测试时间缩放是一种有前途的语言建模新方法,利用额外的测试时间计算来提高性能。最近,OpenAI的o1模型展示了这种能力,但未公开分享其方法,导致了许多复制努力。我们寻求实现测试时间缩放和强大推理性能的最简单方法。首先,我们筛选了一个包含1,000个问题和推理过程的小数据集s1K,依赖于我们通过消融验证的三个标准:难度、多样性和质量。其次,我们开发了预算强制方法来控制测试时间计算,通过强制终止模型的思考过程或在模型试图结束时多次附加“等待”来延长它。这可以促使模型重新检查其答案,通常修正不正确的推理步骤。在对Qwen2.5-32B-Instruct语言模型在s1K上进行监督微调并配备预算强制后,我们的模型s1在竞赛数学问题上超过了o1-preview最多27%(MATH和AIME24)。此外,通过预算强制对s1进行扩展缩放,使其在AIME24上的表现从50%提高到57%,无需测试时间干预。我们的模型、数据和代码在https://github.com/simplescaling/s1上开源。
我们介绍了奖励引导的推测解码(RSD),这是一个旨在提高大型语言模型(LLMs)推理效率的新框架。RSD将一个轻量级草稿模型与一个更强大的目标模型协同结合,引入受控偏差以优先考虑高奖励输出,与现有的强制无偏解码方法形成对比。RSD利用一个过程奖励模型评估中间解码步骤,并动态决定是否调用目标模型,优化计算成本和输出质量之间的权衡。我们在理论上证明了基于阈值的混合策略实现了资源利用和性能之间的最佳平衡。对具有挑战性的推理基准测试进行了广泛评估,包括奥林匹克级任务,结果显示RSD相比仅使用目标模型解码可以实现显著的效率提升(FLOPs减少高达4.4倍),同时平均实现比并行解码方法更高的准确性(高达+3.5)。这些结果突显了RSD作为在资源密集型场景中部署LLMs的一种强大且具有成本效益的方法。
不依赖辅助的人类视频抠像方法通常仅依赖输入帧,在处理复杂或模糊背景时常常遇到困难。为了解决这一问题,我们提出了MatAnyone,这是一个专为目标指定视频抠像而设计的强大框架。具体而言,我们基于基于记忆的范式,引入了一个一致的记忆传播模块,通过区域自适应记忆融合,自适应地整合前一帧的记忆。这确保了核心区域的语义稳定性,同时保留了沿着物体边界的细粒度细节。为了进行稳健的训练,我们提出了一个更大、高质量和多样化的视频抠像数据集。此外,我们还融入了一种新颖的训练策略,有效利用大规模分割数据,提升抠像的稳定性。通过这种新的网络设计、数据集和训练策略,MatAnyone在各种真实场景中提供了强大而准确的视频抠像结果,优于现有方法。
由于知识图谱(KG)结构与自然语言之间存在天然差距,将KG的整体结构信息有效地与大型语言模型(LLMs)进行整合已成为一个重要问题。为此,我们提出了一个两阶段框架,用于学习和应用每个实体的量化编码,旨在实现KG与LLMs的无缝整合。首先,提出了一种自监督量化表示(SSQR)方法,将KG的结构和语义知识压缩为离散代码(即,标记),以使其与语言句子的格式对齐。我们进一步设计了KG指令跟随数据,将这些学习到的代码视为特征直接输入LLMs,从而实现无缝整合。实验结果表明,SSQR优于现有的无监督量化方法,产生更具区分性的代码。此外,经过微调的LLaMA2和LLaMA3.1在KG链接预测和三元分类任务上也表现出色,仅利用每个实体16个标记,而不是传统提示方法中的数千个。
随着输入向量大小的增加,Softmax函数输出的向量中的最大元素逐渐接近零。基于Transformer的语言模型依赖Softmax来计算注意力分数,导致随着上下文大小的增长,注意力分布变得更加平坦。这降低了模型有效优先处理关键信息的能力,潜在地限制了其长度泛化能力。为解决这一问题,我们提出了可扩展Softmax(SSMax),用于取代Softmax在输入向量大小变化的情况下。SSMax可以无缝集成到现有的基于Transformer的架构中。在语言建模方面的实验结果显示,使用SSMax的模型不仅在预训练期间实现更快的损失减少,而且在处理长上下文和关键信息检索方面显著提高性能。此外,注意力分数的分析显示,SSMax使模型能够在长上下文中集中注意力于关键信息。此外,尽管从预训练开始就使用SSMax的模型实现了更好的长度泛化,但那些已经开始预训练的模型仍可以通过在注意力层中在预训练期间或之后用SSMax替换Softmax来获得这种能力的一部分。
现有的基础模型通常将视觉输入处理为像素,将文本输入处理为标记,这与人类感知形式相反,人类会统一处理这两种模态。随着具身和主体 AI 的兴起,其中输入主要来自摄像头像素,统一感知框架的需求变得日益明显。在本文中,我们提出统一所有模态(文本、表格、代码、图表、图像等)为像素输入的概念,即“将所有事物视为像素”(PEAP)。我们引入了PixelWorld,一个新颖的评估套件,将所有提到的模态统一到像素空间中,以评估现有模型的性能。我们的研究结果表明:(1)PEAP在多模态数据集中的表现优于基于标记输入的基准模型,受益于统一输入以获得更好的消歧能力;(2)在处理基于像素的输入时,所有模型在推理和编码能力方面都出现显著下降,突显了增强基础模型感知能力的必要性;(3)较大的模型可以在PEAP下保持非推理任务的强劲表现,而像Phi-3.5-V这样的较小模型则会遭受显著的性能下降;(4)PEAP的注意模式与文本标记输入高度一致;(5)通过利用空间稀疏性,PEAP的加速效果显著。我们得出结论,现有的前沿模型在像素感知方面表现出色,但仍有改进空间。我们的代码和数据集将在接受后发布。
预测未来结果的能力在物理推理中至关重要。然而,这种被称为世界模型的预测模型往往难以学习,并且通常是为具有在线策略学习的特定任务解决方案而开发的。我们认为,世界模型的真正潜力在于其能够利用仅有的被动数据进行跨多样问题的推理和规划。具体而言,我们要求世界模型具备以下三个特性:1)能够在离线、预先收集的轨迹上进行训练,2)支持测试时行为优化,3)促进任务无关的推理。为了实现这一目标,我们提出了DINO世界模型(DINO-WM),这是一种新的方法,可以在不重建视觉世界的情况下对视觉动态进行建模。DINO-WM利用使用DINOv2预训练的空间块特征,使其能够通过预测未来块特征来从离线行为轨迹中学习。这种设计使得DINO-WM能够通过将期望的目标块特征视为预测目标,通过行动序列优化实现观察目标。我们在各个领域对DINO-WM进行了评估,包括迷宫导航、桌面推动和粒子操纵。我们的实验表明,DINO-WM能够在测试时生成零样本行为解决方案,而无需依赖专家演示、奖励建模或预先学习的逆模型。值得注意的是,与先前的最新工作相比,DINO-WM表现出强大的泛化能力,适应各种任务系列,如任意配置的迷宫、带有不同物体形状的推动操纵以及多粒子场景。
大型语言模型(LLMs)容易受到通用越狱攻击的影响,这些攻击策略系统性地绕过模型保障措施,使用户能够执行需要多次模型交互的有害流程,比如大规模制造非法物质。为了抵御这些攻击,我们引入了宪法分类器:在合成数据上训练的保障措施,通过用自然语言规则(即宪法)提示LLMs生成指定的允许和受限内容。在超过3,000个估计小时的红队行动中,没有一个红队成员找到一种通用越狱方法,可以从早期经过分类器保护的LLM中提取信息,且在大多数目标查询中与未受保护的模型具有相似的详细程度。在自动化评估中,增强的分类器展示了对领域特定越狱攻击的强大防御能力。这些分类器还保持了部署可行性,在生产流量拒绝率上绝对增加了0.38%,推理开销增加了23.7%。我们的工作表明,抵御通用越狱攻击并同时保持实际部署可行性是可行的。
扩散模型虽然功能强大,但可能会无意中生成有害或不良内容,引发重大的伦理和安全关注。最近的机器遗忘方法提供了潜在的解决方案,但往往缺乏透明度,使人难以理解它们对基础模型引入的变化。在这项工作中,我们介绍了SAeUron,一种利用稀疏自动编码器(SAEs)学习的特征来消除文本到图像扩散模型中不需要的概念的新方法。首先,我们证明了在多个去噪时间步的激活上无监督训练的SAEs能够捕获对应特定概念的稀疏且可解释的特征。在此基础上,我们提出了一种特征选择方法,使模型激活上的精确干预能够阻止目标内容,同时保持整体性能。通过在对象和风格遗忘上进行竞争性UnlearnCanvas基准测试,突显了SAeUron的最先进性能。此外,我们展示了单个SAE可以同时移除多个概念,并且与其他方法相比,SAeUron减轻了即使在对抗攻击下也可能生成不需要的内容的可能性。代码和检查点可在以下链接找到:https://github.com/cywinski/SAeUron。
我们展示了用于大型模型训练的学习率调度表现出与非光滑凸优化理论中性能上界惊人相似的行为。我们为具有线性冷却的恒定调度提供了一个上界;特别地,由于缺少对数项,冷却的实际好处体现在该上界中。此外,我们展示了优化理论与实践之间这种惊人的接近匹配可以用于学习率调整:我们通过(i)扩展用于最优学习率继续训练的调度,以及(ii)在调度之间传递最优学习率,实现了对124M和210M Llama类型模型训练的显着改进。
目前,从稀疏姿态图像进行三维场景重建的方法采用中间的三维表示,如神经场、体素网格或三维高斯,以实现多视角一致的场景外观和几何。在本文中,我们介绍了MVGD,这是一种基于扩散的架构,能够直接从新视角生成图像和深度图,给定任意数量的输入视图。我们的方法使用射线映射条件来增强视觉特征,从不同视角提取空间信息,以及引导从新视角生成图像和深度图。我们方法的一个关键方面是多任务生成图像和深度图,使用可学习的任务嵌入来引导扩散过程朝向特定模态。我们在公开可用数据集中的超过6000万个多视角样本集合上训练该模型,并提出了一些技术,以实现在这种多样化条件下的高效且一致的学习。我们还提出了一种新颖的策略,通过逐步微调较小的模型来实现更大模型的高效训练,具有有希望的扩展行为。通过大量实验,我们在多个新视角合成基准测试中报告了最先进的结果,以及多视角立体和视频深度估计。
我们对增加推理时间计算对推理模型(具体为OpenAI o1-preview和o1-mini)对抗性攻击鲁棒性的影响进行实验。我们发现,在各种攻击中,增加推理时间计算会提高模型的鲁棒性。在许多情况下(但也存在重要的例外情况),随着测试时间计算量的增加,攻击成功的模型样本比例趋近于零。我们对所研究任务未进行任何对抗性训练,并通过简单地允许模型在推理过程中花费更多计算资源来增加推理时间计算,而不考虑攻击形式。我们的结果表明,推理时间计算有潜力提高大型语言模型的对抗性鲁棒性。我们还探讨了针对推理模型的新攻击,以及推理时间计算并未提高可靠性的情况,并推测了这些情况的原因以及解决方法。
鉴于最近引入了多个语言模型以及对改进自然语言处理任务,特别是摘要生成的持续需求,本研究提供了对20个最新语言模型的全面基准测试,重点关注较小的模型在新闻摘要生成任务中的表现。在本研究中,我们系统地测试了这些模型在总结不同风格的新闻文章文本以及在三个不同数据集中呈现的能力和有效性。具体而言,我们在本研究中专注于零样本学习和少样本学习设置,并应用了一种结合了自动评估指标、人工评估和以LLM为评判者的强大评估方法。有趣的是,在少样本学习设置中包含演示示例并没有提升模型的性能,在某些情况下甚至导致生成摘要的质量变差。这个问题主要是由于所使用的参考摘要的质量较差,从而对模型的性能产生负面影响。此外,我们研究的结果突出了GPT-3.5-Turbo和GPT-4的出色表现,通常由于其先进的能力而占据主导地位。然而,在评估的公共模型中,某些模型如Qwen1.5-7B、SOLAR-10.7B-Instruct-v1.0、Meta-Llama-3-8B和Zephyr-7B-Beta展现出了有希望的结果。这些模型显示出了显著的潜力,使它们成为新闻摘要生成任务的大模型的有竞争力的替代选择。
本文解决了从具有动态内容的视频中重建3D结构的长期挑战。目前针对这一问题的方法并非旨在处理由标准摄像机录制的非正式视频,或需要长时间的优化。 为了显著提高以前方法的效率,我们提出了TracksTo4D,这是一种基于学习的方法,可以通过单次高效的前向传递推断出源自非正式视频的动态内容的3D结构和摄像机位置。为实现这一目标,我们建议直接处理2D点轨迹作为输入,并设计了一个专门用于处理2D点轨迹的架构。我们设计的架构考虑了两个关键原则:(1)考虑输入点轨迹数据中存在的固有对称性,以及(2)假设可以使用低秩逼近有效地表示运动模式。TracksTo4D在一个非监督方式的数据集上进行训练,该数据集利用了仅从视频中提取的2D点轨迹,而没有任何3D监督。我们的实验表明,TracksTo4D可以重建出底层视频的时间点云和摄像机位置,其准确性可与最先进的方法相媲美,同时将运行时间大幅缩短高达95%。我们进一步展示,TracksTo4D在推断时对未见过的语义类别的未见视频具有良好的泛化能力。
通用任务提示图像分割旨在通过仅利用一个通用任务提示,在单个任务描述下实现多样样本的分割。当前方法利用视觉-语言模型(VLMs)的泛化能力,从这些通用任务提示中推断出特定实例的提示,以引导分割过程。然而,当VLMs难以泛化到某些图像实例时,预测特定实例的提示效果不佳。为解决这一问题,我们引入了适用于通用任务提示分割的实例特定负采样(INT)。INT的关键思想是在生成特定实例的提示时,自适应地减少无关(负面)先验知识的影响,同时增加通过带有更高对比度的负采样选择的最合理先验知识的使用,以优化特定实例的提示生成。具体而言,INT包括两个组成部分:(1)特定实例提示生成,逐渐过滤提示生成中的错误信息;(2)语义掩模生成,确保每个图像实例的分割正确匹配特定实例提示的语义。INT在六个数据集上进行验证,包括伪装对象和医学图像,展示了其有效性、稳健性和可扩展性。
为了减少大型语言模型(LLMs)中长上下文推理的内存成本,许多最近的研究侧重于压缩不同标记的键-值(KV)缓存。然而,我们发现先前的KV缓存压缩方法单独衡量标记的重要性,忽视了现实世界语言特征中不同标记之间的依赖关系。基于此,我们引入了ChunkKV,将块中的标记作为基本压缩单元,并保留最具信息量的语义块,同时丢弃不太重要的块。此外,观察到ChunkKV在保留的索引在不同层之间表现出更高的相似性,我们提出了逐层索引重用以进一步减少计算开销。我们在包括LongBench和Needle-In-A-HayStack在内的尖端长上下文基准测试以及GSM8K和JailbreakV上下文学习基准测试中评估了ChunkKV。我们对指令调优和多步推理(O1和R1)LLMs的实验表明,在与现有方法相比的激进压缩比下,性能提高高达10\%。