每日精选AI研究论文及翻译
自回归模型(ARMs)被广泛视为大语言模型(LLMs)的基石。我们对此提出挑战,引入了LLaDA,一种在预训练与监督微调(SFT)范式下从头训练的扩散模型。LLaDA通过前向数据掩码过程及由标准Transformer参数化的反向过程来建模分布,预测被掩码的标记。通过优化似然边界,它提供了一种基于原则的生成式概率推理方法。在广泛的基准测试中,LLaDA展现了强大的可扩展性,超越了自建的ARM基线。值得注意的是,LLaDA 8B在上下文学习方面与LLaMA3 8B等强劲LLMs不相上下,且在SFT后,于多轮对话等案例研究中展现出卓越的指令遵循能力。此外,LLaDA解决了反转诅咒问题,在反转诗歌补全任务中超越了GPT-4o。我们的研究确立了扩散模型作为ARMs可行且有前景的替代方案,挑战了上述关键LLM能力必然与ARMs绑定的假设。
大推理模型(LRMs)代表了人工智能问题解决能力的突破,但它们在交互环境中的有效性可能受限。本文介绍并分析了LRMs中的过度思考现象,即模型更倾向于延长内部推理链而非与环境互动。通过在使用SWE Bench Verified的软件工程任务上进行实验,我们观察到三种反复出现的模式:分析瘫痪、流氓行为和过早脱离。我们提出了一个框架来研究这些行为,该框架与人类专家评估相关,并分析了4018条轨迹。我们观察到,较高的过度思考得分与性能下降相关,推理模型相较于非推理模型更倾向于过度思考。我们的分析揭示了在主动环境中减轻过度思考的简单努力,例如选择具有较低过度思考得分的解决方案,可以将模型性能提高近30%,同时将计算成本降低43%。这些结果表明减轻过度思考具有重要的实际意义。我们建议通过利用本地函数调用能力和选择性强化学习来减轻过度思考倾向。我们还开源了我们的评估框架和数据集,以促进在这个方向上的研究,网址为https://github.com/AlexCuadron/Overthinking。
我们推出Step-Video-T2V,这是一款拥有300亿参数、能够生成长达204帧视频的先进文本到视频预训练模型。为视频生成任务,我们设计了一种深度压缩变分自编码器——Video-VAE,实现了16x16的空间压缩比和8x的时间压缩比,同时保持了卓越的视频重建质量。用户提示通过双语文本编码器处理,支持中英双语输入。采用Flow Matching训练的三维全注意力DiT模型,用于将输入噪声去噪转化为潜在帧。我们还应用了基于视频的DPO方法——Video-DPO,以减少生成视频中的伪影,提升视觉质量。文中详细阐述了训练策略,并分享了关键观察与洞见。Step-Video-T2V的性能在一个新颖的视频生成基准——Step-Video-T2V-Eval上进行了评估,与开源及商业引擎相比,展现了其顶尖的文本到视频生成质量。此外,我们探讨了当前基于扩散模型范式的局限性,并展望了视频基础模型的未来发展方向。Step-Video-T2V及Step-Video-T2V-Eval已发布于https://github.com/stepfun-ai/Step-Video-T2V,在线版本亦可访问https://yuewen.cn/videos。我们的目标是加速视频基础模型的创新,赋能视频内容创作者。
扩散模型(DMs)已成为跨领域生成任务的首选方法。然而,其依赖多次顺序前向传播的特性严重限制了实时性能。以往的加速方法主要集中于减少采样步数或重用中间结果,由于卷积U-Net结构的限制,未能充分利用图像内各空间区域的变化。借助扩散变换器(DiTs)在处理可变数量标记上的灵活性,我们提出了RAS,一种无需训练的新型采样策略,它根据DiT模型的关注点动态分配图像内不同区域的采样比例。我们的核心观察是,在每一步采样过程中,模型集中于语义显著的区域,且这些关注区域在连续步骤间展现出强烈的连续性。基于这一洞察,RAS仅更新当前关注的区域,而其他区域则使用上一步缓存的噪声进行更新。模型关注点的确定基于前一步的输出,充分利用了我们观察到的时间一致性。我们在Stable Diffusion 3和Lumina-Next-T2I上评估了RAS,分别实现了高达2.36倍和2.51倍的加速,且生成质量下降极小。此外,用户研究表明,RAS在人类评估下提供了可比的生成质量,同时实现了1.6倍的加速。我们的方法为更高效的扩散变换器迈出了重要一步,增强了其在实时应用中的潜力。
大型多模态模型(LMMs)在图像理解方面存在显著不足,在某些衡量标准下,其空间认知能力甚至不及幼童或动物。尽管如此,这些模型在许多流行的视觉基准测试中仍能取得高分,而模型性能的持续快速提升正迅速缩小这一差距。为解决这一问题,亟需开发难度更高且能长期保持相关性的基准测试。我们将这一理念推向极致,推出了ZeroBench——一个轻量级的视觉推理基准测试,对当前最前沿的LMMs而言完全无法解答。该基准测试包含100道精心设计的问题及334道难度较低的次级问题。我们对20个LMMs进行了ZeroBench评估,所有模型得分均为0.0%,并对错误进行了深入分析。为促进视觉理解领域的进步,我们公开了ZeroBench基准测试。
尽管多模态大语言模型(MLLMs)已取得显著进展,但大多数顶尖模型尚未与人类偏好进行充分对齐。这一差距的存在,是因为当前的对齐研究主要在特定领域(如减少幻觉)取得了进展,而关于对齐模型与人类偏好是否能系统性提升MLLM能力这一更广泛的问题,仍很大程度上未被探索。为此,我们推出了MM-RLHF数据集,包含12万条细粒度的人工标注偏好对比对。该数据集在规模、多样性、标注粒度及质量上均显著超越现有资源,标志着重大进步。基于此数据集,我们提出了多项关键创新,旨在提升奖励模型的质量及对齐算法的效率。特别值得一提的是,我们引入了基于评论的奖励模型,该模型在评分前先对模型输出进行评论,相较于传统的标量奖励机制,提供了更强的可解释性和信息反馈。此外,我们提出了动态奖励缩放方法,根据奖励信号调整每个样本的损失权重,从而优化高质量对比对的使用。我们的方法在10个不同维度和27个基准测试中进行了严格评估,结果显示模型性能得到了显著且一致的提升。具体而言,使用MM-RLHF及我们的对齐算法微调LLaVA-ov-7B,使对话能力提升了19.5%,安全性提高了60%。 我们已开源偏好数据集、奖励模型、训练与评估代码,以及奖励建模与安全基准。更多详情,请访问我们的项目页面:https://mm-rlhf.github.io。
扩散模型能够实现高质量且多样化的视觉内容合成。然而,它们在生成罕见或未见过的概念时表现欠佳。为解决这一挑战,我们探索了将检索增强生成(RAG)与图像生成模型结合使用的方法。我们提出了ImageRAG,该方法能够根据给定的文本提示动态检索相关图像,并将其作为上下文来引导生成过程。以往利用检索图像改进生成效果的方法,通常需要专门训练基于检索的生成模型。与之不同,ImageRAG充分利用了现有图像条件模型的能力,无需进行RAG特定训练。我们的方法具有高度的适应性,可应用于不同类型的模型,显著提升了使用不同基础模型生成罕见和细粒度概念的效果。 项目页面地址:https://rotem-shalev.github.io/ImageRAG
诸如OpenAI的o1、o3及DeepSeek R1等推理型大语言模型在数学与编程领域已取得显著进展,但在应对国际数学奥林匹克(IMO)组合问题、抽象与推理语料库(ARC)谜题及“人类终极考试”(HLE)等高级任务时仍面临挑战。我们采用了一种多样化的推理策略,在测试时融合了多种模型与方法。研究发现,对数学与编程问题进行验证,以及对其他问题实施拒绝采样,既简便又有效。我们通过Lean自动验证IMO问题的解答正确性,通过代码验证ARC谜题,并发现最佳N选一策略能有效回答HLE问题。我们的方法将IMO组合问题的解答准确率从33.3%提升至77.8%,HLE问题的准确率从8%提高至37%,并解决了948名人类未能破解的80%的ARC谜题,以及o3高算力模型未能解决的26.5%的ARC谜题。通过测试时模拟、强化学习及结合推理反馈的元学习,我们通过调整代理图表示、变换提示、代码及数据集,提升了模型的泛化能力。我们的方法可靠、鲁棒且可扩展,秉承可复现研究的精神,我们将在论文发表后将其公开。
大型语言模型(LLMs)在各类自然语言处理任务中取得了显著成功。然而,其庞大的计算成本限制了其广泛应用,特别是在实时应用场景中。结构化剪枝提供了一种有效的解决方案,通过压缩模型并直接带来端到端的速度提升,且不受硬件环境限制。同时,模型的不同组件对剪枝表现出不同的敏感性,这要求进行非均匀的模型压缩。然而,剪枝方法不仅需要识别出有效的子结构,还需考虑压缩后的训练过程。为此,我们提出了\sysname,一种训练感知的结构化剪枝方法。\sysname基于进化搜索过程,在每一代中通过变异生成多个子代模型,并选择最适应者存活。为了评估训练后的效果,我们在子代群体中引入了一个轻量级的多步训练过程,逐步增加训练数据量,并在每个选择阶段淘汰表现不佳的模型。我们通过在Llama-2-7B、Llama-3.1-8B和Qwen-2.5-14B-Instruct上的广泛实验验证了该方法,实现了结构化剪枝的最先进性能。例如,\sysname在压缩后训练阶段所需训练数据量仅为ShearedLlama的五分之一,同时性能更优。
大型语言模型(LLMs)通常使用多个标记来表示数字,这要求模型聚合这些标记以解释数值。这种分散性使得训练和推理效率降低,并对模型在数字相关任务上的表现产生不利影响。受预训练LLMs内部学习数字标记的类傅里叶特征这一观察的启发,我们提出了傅里叶数字嵌入(FoNE),这是一种直接将数字映射到嵌入空间并利用其傅里叶特征的新方法。FoNE将每个数字编码为仅需每位数两个嵌入维度的单一标记,有效捕捉数值而无需分散表示。这种紧凑的表达方式加速了训练和推理过程。与传统的子词和逐位嵌入相比,FoNE不仅减少了计算开销,还在包括加法、减法和乘法在内的多种数值任务中实现了更高的准确率。在6位十进制加法任务中,FoNE达到99%准确率所需的数据量比子词和逐位嵌入少64倍,同时每个数字使用的标记数分别减少了3倍和6倍。此外,FoNE是唯一在超过10万个测试样本上对加法、减法和乘法实现100%准确率的方法。代码和可视化内容可在https://fouriernumber.github.io/获取。
新颖的扩散模型能够合成集成高质量文本的逼真图像。令人惊讶的是,我们通过注意力激活修补表明,仅不到1%的扩散模型参数,全部包含在注意力层中,影响图像中文本内容的生成。基于这一观察,我们通过瞄准扩散模型的交叉和联合注意力层,提高文本生成效率和性能。我们介绍了几个受益于定位负责文本内容生成的层的应用。首先,我们展示了LoRA的微调仅针对本地化层,进一步增强了大型扩散模型的通用文本生成能力,同时保留了扩散模型生成的质量和多样性。然后,我们演示了如何使用本地化层编辑生成图像中的文本内容。最后,我们将这一想法扩展到实际用例,以无成本方式防止生成有毒文本。与先前的工作相比,我们的本地化方法广泛适用于各种扩散模型架构,包括U-Net(例如,LDM和SDXL)和基于Transformer的模型(例如,DeepFloyd IF和Stable Diffusion 3),利用各种文本编码器(例如,从CLIP到像T5这样的大型语言模型)。项目页面请访问https://t2i-text-loc.github.io/。
这份立场文件认为,为了理解人工智能,我们不能依赖现有的人类词汇。相反,我们应努力发展新词:代表我们想教给机器的精确人类概念,或者我们需要学习的机器概念的新词。我们从一个前提出发,即人类和机器有不同的概念。这意味着可解释性可以被构建为一个沟通问题:人类必须能够引用和控制机器概念,并将人类概念传达给机器。通过发展新词来创建共享的人机语言,我们相信可以解决这一沟通问题。成功的新词实现了一定程度的抽象化:不要过于详细,以便在许多情境中重复使用,也不要过于高层次,以便传达精确信息。作为概念验证,我们展示了如何通过“长度新词”实现控制LLM响应长度,而“多样性新词”则允许采样更多变化的响应。综上所述,我们认为不能用现有词汇理解人工智能,通过新词的拓展为更好地控制和理解机器创造了机会。
预训练基础模型(FMs)在单变量时间序列预测任务中展现了卓越的性能。然而,仍存在若干实际挑战,包括处理特征间复杂的依赖关系以及量化预测中的不确定性。本研究旨在通过引入适配器来解决这些关键限制;适配器作为特征空间转换工具,能够有效利用预训练的单变量时间序列FMs处理多变量任务。适配器的工作原理是将多变量输入投影至合适的潜在空间,并独立地对每个维度应用FM。受表示学习和部分随机贝叶斯神经网络文献的启发,我们提出了一系列适配器及优化/推理策略。在合成和真实世界数据集上的实验验证了适配器的有效性,相较于基线方法,在预测精度和不确定性量化方面均实现了显著提升。我们的框架AdaPTS将适配器定位为一种模块化、可扩展且高效的解决方案,用于在多变量场景中利用时间序列FMs,从而推动其在现实世界应用中的广泛采用。代码已发布于https://github.com/abenechehab/AdaPTS。
低资源语言(LRLs)在自然语言处理(NLP)领域面临显著挑战,主要源于数据稀缺。尽管当前最先进的大型语言模型(LLMs)在处理LRLs时仍显吃力,但较小的多语言模型(mLMs),如mBERT和XLM-R,因其模型容量与有限训练数据更为匹配而展现出更大潜力。本研究系统探讨了基于适配器的参数高效方法,用于将mLMs适配至LRLs,评估了三种架构:序列瓶颈、可逆瓶颈和低秩适配。利用GlotCC的非结构化文本及ConceptNet的结构化知识,我们证明,即使是小规模的适配数据集(例如,最多1GB的自由文本或几MB的知识图谱数据),也能在内在任务(掩码语言建模)和外在任务(主题分类、情感分析和命名实体识别)上带来性能提升。研究发现,序列瓶颈适配器在语言建模方面表现优异,而可逆瓶颈适配器由于更好的嵌入对齐和更多的参数数量,在下游任务上略胜一筹。基于适配器的方法在参数使用远少于全微调的情况下,性能相当或更优,且较小的mLMs在处理LRLs时比LLaMA-3、GPT-4及基于DeepSeek-R1的蒸馏模型等大规模LLMs更为有效。尽管适配提升了性能,预训练数据规模仍是决定性因素,尤其对于预训练覆盖广泛的语言而言。
针对特定数据集对大型语言模型(LLMs)进行微调是提升目标任务性能的常见做法。然而,这种性能提升往往会导致过拟合,即模型在任务或训练数据特征上过于专门化,从而丧失泛化能力。本文提出了一种选择性自监督微调方法(Selective Self-to-Supervised Fine-Tuning, S3FT),该微调方法在保持优于标准监督微调(Supervised Fine-Tuning, SFT)性能的同时,提升了模型的泛化能力。S3FT利用了一个查询存在多个有效响应的特性,通过使用模型自身的正确响应,在微调阶段减少了模型的专门化程度。具体而言,S3FT首先通过部署合适的评判机制,从训练集中识别出模型的正确响应;随后,对于其余样本,使用这些正确响应与黄金响应(或其释义)对模型进行微调。通过在数学推理、Python编程及阅读理解任务上的实验,验证了S3FT的有效性。结果显示,标准SFT在MMLU和TruthfulQA等多个基准测试上平均性能下降可达4.4,而S3FT则将此下降幅度减半至2.5,表明其在微调任务上表现显著更优的同时,具备更强的泛化能力。
本文提出了一种高效的多层次卷积架构,用于三维视觉定位任务。传统方法由于采用两阶段或基于点的架构,难以满足实时推理的需求。受多层次全稀疏卷积架构在三维物体检测中成功的启发,我们旨在沿此技术路线构建一个新的三维视觉定位框架。然而,在三维视觉定位任务中,三维场景表示需要与文本特征深度交互,而基于稀疏卷积的架构因体素特征数量庞大,在此交互中效率低下。为此,我们提出了文本引导剪枝(TGP)和基于补全的添加(CBA),通过逐步区域剪枝和目标补全,高效地深度融合三维场景表示与文本特征。具体而言,TGP迭代地稀疏化三维场景表示,从而通过交叉注意力机制高效地交互体素特征与文本特征。为减轻剪枝对精细几何信息的影响,CBA通过体素补全自适应修复过度剪枝区域,且计算开销可忽略不计。与以往单阶段方法相比,我们的方法实现了顶尖的推理速度,较之前最快方法提升了100%的帧率。同时,在准确率上也达到了最先进水平,即便与两阶段方法相比,在ScanRefer数据集上[email protected]指标领先+1.13,在NR3D和SR3D数据集上分别领先+2.6和+3.2。代码已公开于https://github.com/GWxuan/TSP3D。
具身智能的一个核心目标是使智能体能够在动态环境中执行长期任务,同时保持稳健的决策能力和适应性。为实现这一目标,我们提出了时空记忆智能体(STMA),这是一个旨在通过整合时空记忆来增强任务规划与执行的全新框架。STMA建立在三个关键组件之上:(1) 一个实时捕捉历史与环境变化的时空记忆模块,(2) 一个促进自适应空间推理的动态知识图谱,以及(3) 一个迭代优化任务策略的规划-评估机制。我们在TextWorld环境中对STMA进行了评估,涉及32项任务,这些任务需要在不同复杂度下进行多步规划与探索。实验结果表明,与最先进的模型相比,STMA在任务成功率上提升了31.25%,平均得分提高了24.7%。这些结果凸显了时空记忆在提升具身智能体记忆能力方面的有效性。
掩码图像建模(MIM)为自监督表示学习提供了一种极具前景的方法,然而现有的MIM模型仍落后于当前最先进水平。本文中,我们系统性地分析了目标表示、损失函数及架构,进而提出了CAPI——一种基于潜在聚类预测的全新纯MIM框架。我们的方法采用了一种基于聚类的损失函数,该函数训练稳定,并展现出良好的扩展性。我们的ViT-L骨干网络CAPI,在ImageNet上实现了83.8%的准确率,在ADE20K上达到了32.1%的mIoU,仅使用简单的线性探测便显著超越了以往的MIM方法,并接近当前最先进的DINOv2的性能。我们已公开所有代码与模型。
在扩散模型的应用中,可控生成不仅具有实际意义,同时也面临挑战。当前的可控生成方法主要集中于修改扩散模型的评分函数,而均值回归(MR)扩散则直接调整了随机微分方程(SDE)的结构,使得图像条件的融入更为简便自然。然而,现有的无需训练快速采样器并不直接适用于MR扩散,因此MR扩散需要数百次函数评估(NFEs)才能获得高质量样本。本文提出了一种名为MRS(MR采样器)的新算法,旨在减少MR扩散的采样NFEs。我们求解了与MR扩散相关的反向时间SDE及概率流常微分方程(PF-ODE),并推导出半解析解。这些解由一个解析函数和一个由神经网络参数化的积分组成。基于此解,我们能够在更少的步骤中生成高质量样本。我们的方法无需训练,并支持所有主流参数化方式,包括噪声预测、数据预测和速度预测。大量实验表明,MR采样器在十种不同的图像修复任务中,均能保持高采样质量,同时实现10至20倍的加速。本算法显著提升了MR扩散的采样效率,使其在可控生成领域更具实用性。
CLaMP 3 是一个为解决音乐信息检索中跨模态与跨语言泛化挑战而开发的统一框架。通过对比学习,它将所有主要音乐模态——包括乐谱、演奏信号和音频录音——与多语言文本对齐于一个共享的表示空间,实现了以文本为桥梁在未对齐模态间的检索。该框架配备了一个可适应未见语言的多语言文本编码器,展现出强大的跨语言泛化能力。借助检索增强生成技术,我们构建了M4-RAG,这是一个包含231万音乐-文本对的网络规模数据集,该数据集富含详细元数据,广泛代表了全球多样的音乐传统。为推进未来研究,我们发布了WikiMT-X基准,包含1000组乐谱、音频及丰富多样的文本描述三元组。实验表明,CLaMP 3在多项音乐信息
当前,自动驾驶车辆主要依赖其独立传感器来理解周围环境并规划未来轨迹,然而当传感器出现故障或被遮挡时,这种依赖便显得不可靠。为解决这一问题,基于车对车(V2V)通信的协同感知方法被提出,但这些方法多集中于检测与跟踪领域,它们对整体协同规划性能的贡献仍有待深入探索。受近期利用大型语言模型(LLMs)构建自动驾驶系统进展的启发,我们提出了一种新颖的问题设定,将LLM融入协同自动驾驶中,并推出了车对车问答(V2V-QA)数据集及基准。同时,我们提出了基线方法——车对车大型语言模型(V2V-LLM),该模型利用LLM融合来自多辆联网自动驾驶车辆(CAVs)的感知信息,以回答驾驶相关的问题:包括场景理解、显著物体识别及规划。实验结果表明,我们提出的V2V-LLM作为一种统一模型架构,在协同自动驾驶中执行多种任务方面展现出潜力,并优于采用不同融合策略的其他基线方法。我们的工作还开辟了一个新的研究方向,有望提升未来自动驾驶系统的安全性。项目网站:https://eddyhkchiu.github.io/v2vllm.github.io/。
大型语言模型(LLMs)的拒绝训练旨在防止有害输出,然而这一防御机制仍易受自动化及人工设计的越狱攻击。我们提出了一种新颖的LLM作为红队方法,即通过人工越狱一个经过拒绝训练的LLM,使其愿意自我越狱或协助其他LLM越狱。我们将这些被越狱的LLM称为J_2攻击者,它们能够运用多种红队策略系统评估目标模型,并通过从先前失败中进行的上下文学习提升其性能。实验表明,Sonnet 3.5和Gemini 1.5 pro作为J_2表现优于其他LLM,在Harmbench上对GPT-4o(及其他类似能力的LLM)分别达到了93.0%和91.0%的攻击成功率(ASR)。我们的工作不仅借鉴人类红队经验,引入了一种可扩展的战略性红队方法,还揭示了“越狱以越狱”作为安全防护机制中被忽视的失效模式。具体而言,一个LLM可通过利用其自身愿意协助进一步越狱的越狱版本,绕过自身的安全防护。为防止J_2的直接滥用,同时推动AI安全研究,我们公开了方法论,但保留了具体提示细节的私密性。
蛋白质是动态的分子机器,其生物功能——包括酶催化、信号传导和结构适应——与其运动状态密不可分。然而,由于序列、结构与分子运动之间复杂且多对一的关系,设计具有特定动态特性的蛋白质仍面临挑战。本文介绍VibeGen,一种生成式AI框架,它能够基于正常模式振动进行端到端的全新蛋白质设计。VibeGen采用了一种双模型代理架构,包含一个根据指定振动模式生成序列候选的蛋白质设计器,以及一个评估这些序列动态准确性的蛋白质预测器。这一方法在设计过程中实现了多样性、准确性和新颖性的协同。通过全原子分子模拟作为直接验证,我们展示了所设计的蛋白质在保持主链上规定的正常模式振幅的同时,能够形成多种稳定且功能相关的结构。值得注意的是,生成的序列是全新的,与天然蛋白质无显著相似性,从而将可探索的蛋白质空间扩展至进化限制之外。我们的工作将蛋白质动力学整合到生成式蛋白质设计中,并在序列与振动行为之间建立了直接的双向联系,为工程化具有定制动态和功能特性的生物分子开辟了新途径。这一框架对柔性酶、动态支架和生物材料的理性设计具有广泛意义,为基于动力学的AI驱动蛋白质工程铺平了道路。