每日精选AI研究论文及翻译
大型语言模型(LLMs)的出现催化了人工智能领域的变革性转变,为能够在多样化领域中实现复杂推理、强大感知和多功能行动的先进智能体铺平了道路。随着这些智能体日益推动AI研究和实际应用,其设计、评估与持续改进带来了错综复杂、多层面的挑战。本综述提供了一个全面的概览,将智能体置于一个模块化、受大脑启发的架构中,该架构整合了认知科学、神经科学和计算研究的原理。我们将探索分为四个相互关联的部分。首先,深入探讨智能体的模块化基础,系统性地将其认知、感知和操作模块映射到类似的人类大脑功能上,并阐明诸如记忆、世界建模、奖励处理及类情感系统等核心组件。其次,讨论自我增强与适应性进化机制,探索智能体如何自主优化其能力、适应动态环境,并通过包括新兴的AutoML和LLM驱动优化策略在内的自动化优化范式实现持续学习。第三,考察协作与进化的多智能体系统,研究智能体互动、合作及社会结构中涌现的集体智能,强调其与人类社会动态的相似之处。最后,探讨构建安全、可靠且有益的AI系统的关键必要性,着重于内在与外在的安全威胁、伦理对齐、鲁棒性以及实现可信赖实际部署所需的实用缓解策略。
训练大型语言模型(LLMs)面临诸多挑战,其中包括梯度不稳定性和损失值突增。这些现象可能导致灾难性发散,需要昂贵的检查点恢复和数据批次跳过操作。传统的梯度裁剪技术,如固定值或基于范数的方法,由于依赖固定阈值或启发式规则,无法有效解决这些问题,导致学习效率低下且需要频繁的人工干预。在本研究中,我们提出了ZClip,一种自适应梯度裁剪算法,它根据梯度范数随时间的统计特性动态调整裁剪阈值。与以往的反应式策略不同,ZClip无需对梯度范数的规模及时间演变做出任何先验假设,便能主动适应训练动态。其核心在于利用基于z分数的异常检测来识别并缓解大幅梯度突增,从而防止恶性损失值突增,同时不影响模型的正常收敛。我们的代码已公开于:https://github.com/bluorion-com/ZClip。
大型多模态模型(LMMs)在视觉理解和生成方面取得了显著进展,但在通用视觉编辑领域仍面临挑战,尤其是在遵循复杂指令、保持外观一致性以及支持灵活输入格式方面。为填补这一空白,我们推出了RISEBench,这是首个用于评估推理引导视觉编辑(RISE)的基准。RISEBench聚焦于四种关键推理类型:时序推理、因果推理、空间推理和逻辑推理。我们为每种类别精心策划了高质量测试案例,并提出了一个评估框架,该框架结合人类评审与LMM作为评审的方法,从指令推理、外观一致性和视觉合理性三个维度进行评估。实验表明,尽管GPT-4o-Native显著优于其他开源和专有模型,但即便是这一顶尖系统在逻辑推理任务上仍显吃力,凸显了该领域尚待深入探索。作为初步尝试,RISEBench旨在为推理感知的视觉编辑提供基础性洞见,并推动未来研究。尽管仍处于早期阶段,我们承诺将持续扩展和完善该基准,以支持对下一代多模态系统进行更全面、可靠和可扩展的评估。我们的代码和数据将在https://github.com/PhoenixZ810/RISEBench发布。
OpenAI的GPT4o模型近期取得的突破性进展,在图像生成与编辑方面展现出了令人惊喜的强大能力,引发了业界的广泛关注。本技术报告首次提出了名为GPT-ImgEval的评估基准,从定量与定性两个维度,对GPT-4o在三个关键领域的表现进行了全面诊断:(1)生成质量,(2)编辑能力,以及(3)基于世界知识的语义合成。在所有三项任务中,GPT-4o均表现出色,在图像生成控制与输出质量上显著超越现有方法,同时展示了卓越的知识推理能力。此外,基于GPT-4o生成的数据,我们提出了一种基于分类模型的方法来探究其底层架构,实证结果表明该模型采用了自回归(AR)与扩散模型相结合的头部进行图像解码,而非类似VAR的架构。我们还对GPT-4o的整体架构进行了完整推测。此外,我们开展了一系列分析,识别并可视化了GPT-4o在图像生成中的特定局限性和常见的合成伪影。我们还对比研究了GPT-4o与Gemini 2.0 Flash在多轮图像编辑上的表现,并探讨了GPT-4o输出的安全性问题,特别是现有图像取证模型对其的检测能力。我们期望本工作能为未来研究提供有价值的洞见,并建立一个可靠的基准,以促进图像生成及其他领域的可重复性研究与创新加速。用于评估GPT-4o的代码与数据集可在https://github.com/PicoTrex/GPT-ImgEval获取。
本文介绍了JavisDiT,一种新颖的联合音视频扩散Transformer,专为同步音视频生成(JAVG)而设计。基于强大的扩散Transformer(DiT)架构,JavisDiT能够从开放式用户提示中同时生成高质量的音频和视频内容。为确保最佳同步性,我们通过分层时空同步先验(HiST-Sypo)估计器引入了一种细粒度的时空对齐机制。该模块提取全局和细粒度的时空先验,指导视觉和听觉组件之间的同步。此外,我们提出了一个新的基准测试集JavisBench,包含10,140个高质量带文本描述的声画视频,涵盖多样场景和复杂现实世界情境。进一步地,我们专门设计了一种稳健的指标,用于评估生成音视频对在现实世界复杂内容中的同步性。实验结果表明,JavisDiT在确保高质量生成和精确同步方面显著优于现有方法,为JAVG任务树立了新标准。我们的代码、模型和数据集将在https://javisdit.github.io/上公开提供。
强化学习(RL)在大规模语言模型(LLMs)的后训练中已被广泛采用。近期,通过RL激励LLMs的推理能力表明,恰当的学习方法能够实现有效的推理时扩展性。RL的一个关键挑战在于,在可验证问题或人工规则之外的多种领域中,为LLMs获取准确的奖励信号。本研究中,我们探讨了如何通过增加推理计算资源来提升通用查询的奖励建模(RM),即通用RM的推理时扩展性,并进一步探索了如何借助适当的学习方法提高性能与计算资源的扩展效率。在RM方法上,我们采用点式生成奖励建模(GRM),以增强对不同输入类型的灵活性及推理时扩展的潜力。在学习方法上,我们提出了自原则批判调优(SPCT),通过在线RL促进GRM中可扩展的奖励生成行为,自适应地生成原则并准确地进行批判,从而得到DeepSeek-GRM模型。此外,为了有效实现推理时扩展,我们利用并行采样扩大计算资源使用,并引入元RM指导投票过程,以优化扩展性能。实验证明,SPCT显著提升了GRM的质量与扩展性,在多个RM基准测试中超越现有方法与模型,且无明显偏差,相比训练时扩展能取得更优性能。尽管DeepSeek-GRM在某些任务中仍面临挑战,我们相信未来在通用奖励系统上的努力将能解决这些问题。相关模型将公开发布并开源。
说话头合成技术对于虚拟化身和人机交互至关重要。然而,现有方法大多局限于单一主模态的控制,限制了其实际应用价值。为此,我们提出了ACTalker,一个端到端的视频扩散框架,支持多信号和单信号控制以生成说话头视频。针对多信号控制,我们设计了一种并行mamba结构,包含多个分支,每个分支利用独立的驱动信号控制特定面部区域。所有分支间采用门控机制,为视频生成提供灵活控制。为确保生成视频在时间和空间上的自然协调,我们采用mamba结构,使驱动信号能够在每个分支中跨维度操控特征标记。此外,我们引入了一种掩码丢弃策略,允许每个驱动信号在mamba结构内独立控制其对应的面部区域,避免控制冲突。实验结果表明,我们的方法能够生成由多种信号驱动的自然面部视频,且mamba层能够无缝整合多种驱动模态而不产生冲突。
本文介绍了SkyReels-A2,一个可控的视频生成框架,能够根据文本提示将任意视觉元素(如角色、物体、背景)组合成合成视频,同时严格保持每个元素与参考图像的一致性。我们将此任务称为元素到视频(E2V),其主要挑战在于保持每个参考元素的保真度、确保场景的连贯组合以及实现自然的输出。为解决这些问题,我们首先设计了一个全面的数据管道,用于构建提示-参考-视频三元组以进行模型训练。接着,我们提出了一种新颖的图像-文本联合嵌入模型,将多元素表示注入生成过程,平衡元素特定的一致性与全局连贯性及文本对齐。我们还优化了推理管道,以提高速度和输出稳定性。此外,我们引入了一个精心策划的基准,即A2 Bench,用于系统评估。实验表明,我们的框架能够生成多样化的高质量视频,并实现精确的元素控制。SkyReels-A2是首个开源的商业级E2V生成模型,在性能上优于先进的闭源商业模型。我们预期SkyReels-A2将推动诸如戏剧和虚拟电子商务等创意应用的发展,拓展可控视频生成的边界。
我们提出了一项具有挑战性的任务:自动生成一篇高层次的维基百科风格文章,该文章需整合来自多个多样化视频中关于现实世界事件(如自然灾害或政治选举)的信息。视频作为检索增强生成(RAG)的直观来源,但当前大多数RAG工作流程主要侧重于文本,而现有的基于视频的摘要方法则聚焦于低层次的场景理解而非高层次的事件语义。为填补这一空白,我们引入了WikiVideo,一个由专家撰写的文章和密集标注的视频组成的基准数据集,这些视频为文章中的主张提供了证据,促进了视频与RAG管道的整合,并支持创建基于多模态来源的深度内容。此外,我们提出了协作文章生成(CAG),一种新颖的从多个视频中创建文章的交互式方法。CAG利用r1风格推理模型与VideoLLM之间的迭代交互,对目标事件做出比单独使用VideoLLM更高层次的推断,后者往往局限于低层次的视觉特征。我们在理想检索和RAG设置下对最先进的VideoLLM和CAG进行了基准测试,发现CAG始终优于其他方法,同时为未来研究指出了引人入胜的方向。
强化学习(RL)近期在提升大型语言模型的推理能力方面展现出显著潜力,并正积极扩展至视觉-语言模型(VLMs)领域。然而,现有VLMs中的RL应用多依赖于高度工程化的框架,这不仅阻碍了研究的可复现性和可访问性,还缺乏标准化的评估协议,使得结果对比或训练动态解读变得困难。本研究提出了一种透明、从零开始的RL应用于VLMs的框架,提供了一个经过多个模型和数据集验证的简洁四步流程。此外,还引入了一套标准化评估方案,用以衡量训练动态及反思行为。在视觉推理任务上的大量实验揭示了关键实证发现:响应长度对随机种子敏感,反思与输出长度相关,且即便使用高质量数据,RL在泛化能力上持续超越监督微调(SFT)。这些发现连同所提出的框架,旨在建立一个可复现的基准,并支持更广泛的基于RL的VLM研究参与。
现有的语音语言模型(SLM)扩展分析描绘了一幅黯淡的图景。它们预测,与文本相比,SLM需要更多的计算资源和数据,这使一些人质疑训练高质量SLM的可行性。然而,现代SLM通常通过语音-文本交错初始化自预训练的文本语言模型(TextLM),以实现知识迁移。这引发了一个问题——交错式SLM是否比无文本SLM扩展得更高效?在本文中,我们给出了一个响亮的肯定回答!我们通过对数十个交错式SLM进行训练并分析其扩展趋势,开展了扩展分析。我们发现,在这种设置下,SLM在计算资源上的扩展效率更高。此外,我们的结果表明,其扩展动态与无文本SLM显著不同,这意味着应将更多的计算预算用于增加模型规模,而非训练数据量。我们还研究了合成数据和TextLM模型系列在释放这一潜力中的作用。结果表明,我们扩展后的模型在语音语义指标上达到了领先模型的相当性能,同时使用的计算资源和数据量少于其他方法。我们开源了模型、样本和数据——https://pages.cs.huji.ac.il/adiyoss-lab/sims。
多模态大语言模型(MLLMs)因其庞大的模型规模及海量的视觉标记而面临高昂的计算成本。本文通过引入一种新颖的度量标准——层贡献度(Layer Contribution, LC),来探究MLLMs中的层级冗余问题。LC量化了某一层变换对视觉与文本标记分别产生的影响,其计算涉及移除该层对指定标记的变换后,模型输出差异的测量。初步实验表明,在处理视觉标记时,MLLMs的许多层级贡献微乎其微。基于这一发现,我们提出了ShortV,一种无需额外训练的方法,它利用LC识别无效层级,并在这些层级中冻结视觉标记的更新。实验结果显示,ShortV能在约60%的MLLM层级中冻结视觉标记,从而显著降低与更新视觉标记相关的计算开销。例如,在LLaVA-NeXT-13B模型上,它实现了50%的浮点运算(FLOPs)削减,同时保持了卓越的性能。相关代码将公开发布于https://github.com/icip-cas/ShortV。
扩散模型在图像任务中展现出卓越的可控性,这主要得益于其噪声预测机制,该机制编码了任务特定信息,并通过无分类器引导实现了可调节的缩放。这种缩放机制隐含地定义了一个“缩放空间”,其在细粒度语义操控方面的潜力尚未得到充分探索。我们深入研究了这一空间,首先从基于反转的编辑入手,发现条件与非条件噪声预测之间的差异承载着关键的语义信息。我们的核心贡献源于对噪声预测的傅里叶分析,揭示了其低频与高频成分在扩散过程中呈现不同的演变规律。基于这一洞见,我们提出了FreSca方法,该方法在傅里叶域内独立地对不同频段应用引导缩放。FreSca显著增强了现有图像编辑方法的效果,且无需重新训练。令人振奋的是,其有效性还延伸至图像理解任务,如深度估计,在多个数据集上均取得了量化提升。
模型选择是时间序列预测中的关键步骤,传统上需要跨多个数据集进行广泛的性能评估。元学习方法旨在自动化这一过程,但它们通常依赖于预先构建的性能矩阵,而这些矩阵的构建成本高昂。在本研究中,我们提出利用大型语言模型(LLMs)作为模型选择的轻量级替代方案。我们的方法通过利用LLMs的固有知识和推理能力,消除了对显式性能矩阵的需求。通过对LLaMA、GPT和Gemini的广泛实验,我们证明了该方法优于传统的元学习技术和启发式基线,同时显著降低了计算开销。这些发现凸显了LLMs在时间序列预测中高效模型选择的潜力。
自基于推理的大型语言模型问世以来,许多研究通过将推理能力蒸馏到学生模型中取得了显著成功。此类技术极大地缩小了推理模型与标准大语言模型在编码任务上的差距。尽管如此,推理模型蒸馏的许多进展仍受限于专有数据集,或缺乏关于数据整理、筛选及后续训练的详细说明。为解决这一问题,我们构建了一个卓越的监督微调(SFT)数据集,并利用它在不同规模的模型中实现了最先进的编码能力。我们的蒸馏模型仅通过SFT就在LiveCodeBench上达到了61.8%的准确率,在CodeContests上达到了24.6%,超越了采用强化学习训练的替代方案。随后,我们对构建数据集所用的数据源、代码执行筛选的影响以及指令/解决方案多样性的重要性进行了分析。我们发现,执行筛选对基准准确性产生了负面影响,这促使我们优先考虑指令多样性而非解决方案的正确性。最后,我们还分析了这些模型在token效率和推理模式上的表现。我们将向社区开源这些数据集和蒸馏模型。
近期在大语言模型(LLMs)领域的进展表明,利用过程奖励模型(PRMs)作为验证器来提升LLMs性能具有广阔前景。然而,当前的PRMs面临三大关键挑战:(1)过程监督与泛化能力有限;(2)依赖标量值预测而未充分利用LLMs的生成能力;(3)无法扩展PRMs在测试时的计算资源。本研究中,我们提出了GenPRM,一种生成式过程奖励模型,它在对每个推理步骤做出判断前,通过代码验证执行显式的思维链(CoT)推理。为了获得高质量的过程监督标签和推理数据,我们引入了相对进度估计(RPE)及融合代码验证的推理合成框架。在ProcessBench及多项数学推理任务上的实验结果显示,仅使用MATH数据集中23K训练数据的GenPRM显著超越了先前的PRMs。通过测试时扩展,1.5B参数的GenPRM超越了GPT-4o,而7B参数的GenPRM在ProcessBench上超越了Qwen2.5-Math-PRM-72B。此外,GenPRM展现了作为策略模型精炼的批评模型的强大能力。本研究为过程监督建立了新范式,弥合了PRMs与LLMs中批评模型之间的鸿沟。我们的代码、模型及数据将在https://ryanliu112.github.io/GenPRM 上公开。
我们首次提供了机制性证据,表明无模型强化学习智能体能够学会规划。这一发现是通过将基于概念的可解释性方法应用于Sokoban——一个常用于研究规划的基准测试——中的无模型智能体实现的。具体而言,我们展示了由Guez等人(2019年)引入的通用无模型智能体DRC,利用学习到的概念表征在内部制定计划,这些计划不仅预测了行动对环境的长期影响,还影响了行动选择。我们的方法包括:(1)探测与规划相关的概念,(2)研究智能体表征中的计划形成过程,以及(3)通过干预验证发现的计划(在智能体表征中)对智能体行为具有因果效应。我们还展示了这些计划的出现与一种类似规划能力的涌现相吻合:即能够从额外的测试时间计算中获益。最后,我们对智能体学习到的规划算法进行了定性分析,发现其与并行化双向搜索具有高度相似性。我们的研究增进了对智能体规划行为内部机制的理解,鉴于近期大型语言模型(LLMs)通过强化学习展现出规划与推理能力的趋势,这一理解尤为重要。
科学发现正通过先进的机器人技术和人工智能迎来快速发展的契机。当前的科学实践面临显著局限,手工实验既耗时又耗费资源,而跨学科研究则要求整合超出个体研究者专业范围的知识。在此,我们构想了一种自主全能科学家(AGS)的概念,它将代理型人工智能与具身机器人技术相结合,旨在自动化整个研究生命周期。该系统能够动态地与物理和虚拟环境互动,同时促进跨学科知识的融合。通过在研究的各个阶段——从文献综述、假设生成、实验到论文撰写——部署这些技术,并结合内部反思与外部反馈,该系统有望大幅减少科学发现所需的时间和资源。基于从虚拟AI科学家向多功能通用型AI机器人科学家的演进,AGS展现出突破性的潜力。随着这些自主系统日益融入研究过程,我们推测科学发现可能遵循新的规模定律,这些定律或许由这些自主系统的数量与能力所塑造,从而为知识的生成与演变提供全新视角。具身机器人对极端环境的适应能力,加上科学知识积累的飞轮效应,预示着持续突破物理与智力边界的无限可能。
3D高斯泼溅(3DGS)展现了卓越的质量与渲染速度,但伴随数百万个3D高斯分布及显著的存储与传输成本。近期3DGS压缩方法主要聚焦于压缩Scaffold-GS,虽取得显著成效,却引入了额外的体素结构及复杂的编码与量化策略。本文旨在开发一种名为NeuralGS的简洁而高效的方法,探索以另一种途径将原始3DGS压缩为紧凑表示,无需体素结构及复杂量化策略。我们观察到,如NeRF等神经场能够利用多层感知机(MLP)神经网络仅以数兆字节表示复杂3D场景。因此,NeuralGS有效采用神经场表示,通过MLPs编码3D高斯属性,即便对于大规模场景也仅需极小存储空间。为此,我们采用聚类策略,并根据高斯的重要性评分作为拟合权重,为每个聚类适配不同的小型MLPs来拟合高斯分布。我们在多个数据集上进行实验,实现了平均45倍的模型大小缩减,且无损视觉质量。本方法对原始3DGS的压缩性能与专为Scaffold-GS设计的压缩方法相当,这展示了直接利用神经场压缩原始3DGS的巨大潜力。
稀疏自编码器(SAEs)近期被证明能够提升大型语言模型(LLMs)的可解释性与可控性。在本研究中,我们将SAEs的应用扩展至视觉-语言模型(VLMs),如CLIP,并引入了一套全面的框架来评估视觉表示中的单义性。实验结果表明,在VLMs上训练的SAEs显著增强了单个神经元的单义性,同时展现出与专家定义结构(例如,iNaturalist分类体系)高度契合的层次化表示。尤为突出的是,我们展示了通过SAEs干预CLIP视觉编码器,无需对底层模型进行任何修改,即可直接引导多模态LLMs(如LLaVA)的输出。这些发现凸显了SAEs作为一种无监督方法,在增强VLMs可解释性与控制力方面的实用性与有效性。
自动语音识别系统无疑随着多语言多任务模型(如Whisper)的整合而取得了显著进展,这些模型展现出了理解和处理多种语言语音的广阔潜力。尽管这些模型表现出强大的鲁棒性,但在处理少数民族语言的细微差别时往往力有未逮。本研究通过将传统与新型语言模型与经过精细调优的Whisper模型相结合,填补了这一空白,旨在提升其在较少被研究语言上的表现。通过对多个数据集进行严格的微调和评估,我们展示了在词错误率上的显著改进,尤其是在低资源场景下。我们的方法不仅充分利用了Whisper预训练所依赖的大量数据,还通过引入语言模型增强了其语言适应能力。使用统计语言模型时,我们在分布内数据集上获得了高达51%的改进,在分布外句子上也实现了最高34%的提升;而大型语言模型则在多样化的语言环境中提供了虽温和但始终稳健的改进。研究结果表明,尽管整合对所有模型规模均带来可靠效益,改进程度却有所不同,凸显了优化语言模型参数的重要性。最后,我们强调了在使用基于Transformer的ASR模型报告结果时,选择合适评估参数的关键性。总之,本研究通过丰富ASR技术的语言知识,为开发更具包容性、跨语言表现更优的ASR技术铺平了道路。关于本研究的进一步实施细节,技术文档和源代码可在http://www.github.com/hitz-zentroa/whisper-lm获取。
学习根据任务描述和架构规范生成神经网络参数,对于提升模型适应性和迁移学习能力至关重要。现有方法,尤其是基于扩散模型的技术,在扩展到大型架构时面临可扩展性限制,处理不同网络深度时缺乏灵活性,且参数生成过程割裂,损害了层间一致性。本研究提出IGPG(指令引导参数生成),一种自回归框架,统一了跨多样任务和架构的参数合成。IGPG利用VQ-VAE和自回归模型,在任务指令、数据集及架构细节的指导下生成神经网络参数。通过自回归地生成神经网络权重的token,IGPG确保了层间一致性,并实现了跨模型和数据集的高效适应。在token级别操作,IGPG有效捕捉了从广泛预训练模型中汇总的复杂参数分布。在多个视觉数据集上的大量实验表明,IGPG将多样化的预训练模型整合进一个灵活生成框架中。相较于最先进方法,合成参数在性能上达到竞争或超越水平,特别是在应用于大型架构时的可扩展性和效率方面。这些成果凸显了IGPG作为预训练权重检索、模型选择及快速任务特定微调强大工具的潜力。
无监督全景分割旨在无需依赖人工标注数据进行训练的情况下,将图像划分为具有语义意义的区域和独立的对象实例。与以往的无监督全景场景理解研究不同,我们摒弃了对以对象为中心的训练数据的依赖,从而实现了对复杂场景的无监督理解。为此,我们提出了首个直接在场景中心图像上进行训练的无监督全景分割方法。具体而言,我们提出了一种结合视觉表征、深度和运动线索的方法,以在复杂的场景中心数据上获取高分辨率全景伪标签。通过伪标签训练与全景自训练策略的结合,我们开发了一种新颖的方法,能够准确预测复杂场景的全景分割,而无需任何人工标注。我们的方法显著提升了全景分割的质量,例如,在Cityscapes数据集上的无监督全景分割任务中,以9.4%的PQ分数超越了当前的最新技术水平。