每日精选AI研究论文及翻译
诸如深度研究系统等自主搜索技术,其中大型语言模型能够自主浏览网页、整合信息并返回带有全面引用的答案,代表了用户与网络规模信息交互方式的重大转变。尽管这类技术承诺带来更高的效率和认知负荷减轻,但其日益增长的复杂性和开放性已超越了现有的评估基准和方法论,这些基准和方法论大多假设搜索范围较短且答案静态不变。本文中,我们推出了Mind2Web 2,这是一个包含130项现实、高质量且长期任务的数据集,这些任务要求实时网页浏览和广泛的信息整合,构建过程耗费了超过1000小时的人力。为了应对评估随时间变化且复杂答案的挑战,我们提出了一种新颖的“代理即裁判”框架。我们的方法基于树形结构评分标准设计,构建特定任务的裁判代理,以自动评估答案的正确性和来源归属。我们对九种前沿自主搜索系统及人类表现进行了全面评估,并进行了详细的错误分析,为未来发展提供洞见。表现最佳的系统——OpenAI深度研究,已能在花费一半时间的情况下达到人类表现的50-70%,展现出巨大潜力。总之,Mind2Web 2为开发和基准测试下一代自主搜索系统奠定了坚实基础。
我们开发了一种成本效益高的神经符号代理,用于应对复杂的多轮图像编辑任务,例如“检测图像中的长椅并将其重新着色为粉色。同时,移除猫以获得更清晰的视野,并将墙壁重新着色为黄色。”该代理结合了大型语言模型(LLMs)快速、高层次的子任务规划能力,以及针对每个子任务使用工具和局部A*搜索的慢速但精确的方法,以寻找成本效益最优的工具路径——即一系列AI工具调用的序列。为了节省在相似子任务上A*搜索的成本,我们通过LLMs对先前成功的工具路径进行归纳推理,持续提取并精炼常用子程序,将其作为新工具在未来的任务中重复使用,实现了一种自适应快慢规划策略:首先探索高层次的子程序,仅当它们失败时,才激活低层次的A*搜索。这些可重用的符号子程序显著降低了在相似图像上应用相同类型子任务时的探索成本,从而打造了一个类人类的快慢工具路径代理“FaSTA^*”:首先由LLMs尝试快速子任务规划及基于规则的子程序选择,预计能覆盖大多数任务,而慢速的A*搜索仅针对新颖且具挑战性的子任务触发。通过与近期图像编辑方法的对比,我们展示了FaSTA^*在保持与最先进基线成功率相当的同时,显著提升了计算效率。
近期场景重建技术的进步推动了利用3D高斯溅射实现自动驾驶(AD)环境的高度真实建模。然而,这些重建结果仍紧密依赖于原始观测数据,难以支持对显著改变或全新驾驶场景的逼真合成。本研究提出了MADrive,一种记忆增强型重建框架,旨在通过从大规模外部记忆库中检索视觉相似的3D资产来替换观测到的车辆,从而扩展现有场景重建方法的能力。具体而言,我们发布了MAD-Cars,一个包含约70K段360度野外拍摄的汽车视频的精选数据集,并介绍了一个检索模块,该模块能在记忆库中找到最相似的汽车实例,从视频中重建相应的3D资产,并通过方向对齐和重光照技术将其整合到目标场景中。替换后的车辆在场景中提供了完整的多视角表示,使得大幅改变的配置也能实现逼真合成,如我们的实验所展示。项目页面:https://yandex-research.github.io/madrive/
我们提出了WorldVLA,一种自回归动作世界模型,它统一了动作与图像的理解与生成。我们的WorldVLA将视觉-语言-动作(VLA)模型与世界模型整合于单一框架之中。该世界模型通过结合动作与图像理解来预测未来图像,旨在学习环境的底层物理规律以优化动作生成。同时,动作模型基于图像观察生成后续动作,辅助视觉理解,进而促进世界模型的视觉生成。我们证明,WorldVLA在性能上超越了独立的动作模型和世界模型,凸显了世界模型与动作模型之间的相互增强效应。此外,我们发现,当以自回归方式生成动作序列时,动作模型的性能会下降。这一现象可归因于模型在动作预测上的泛化能力有限,导致早期动作的错误向后续动作传播。为解决此问题,我们提出了一种注意力掩码策略,在生成当前动作时选择性地屏蔽先前动作,这在动作片段生成任务中展现了显著的性能提升。
在神经网络训练中,近期观察到的“顿悟”现象(即训练损失收敛后,测试性能仍持续提升)使得泛化机制及其他新兴能力(如推理)变得神秘莫测。以往研究通常针对少量玩具任务或高度特定任务训练小型模型数千个周期,而我们的研究首次在7B大规模语言模型(LLM)——OLMoE的单次预训练过程中,对检查点上的“顿悟”现象进行了探究。我们计算了训练损失,并在多样化的基准任务上评估了泛化能力,包括数学推理、代码生成以及常识/领域知识检索任务。 我们的研究首次证实,在大规模基础模型的预训练中,“顿悟”现象依然存在,尽管不同数据可能异步进入“顿悟”阶段。通过深入探究LLM的内部动态,我们进一步揭示了“顿悟”中“泛化涌现”的奥秘。具体而言,我们发现训练样本的路径(即跨层的专家选择)在“顿悟”过程中从随机、实例特定逐渐演变为更加结构化且样本间可共享。同时,尽管损失已收敛,样本路径的复杂度却有所降低。这些现象表明了一种从记忆到泛化的转变,为延迟泛化提供了机制上的解释。 在本研究中,我们开发了两项新颖的指标,用于量化路径距离及单一路径的复杂度,并展示了它们预测多样化下游任务上泛化提升的能力。这些指标高效、计算简便,且仅依赖于训练数据,因此在预训练中具有实用价值,使我们无需微调和测试即可监控泛化性能。理论上,我们证明了更结构化的路径能够降低模型复杂度并提升泛化边界。
条件计算是提升Transformer效率的一种流行策略。现有方法通常针对单个模块(如专家混合层)或独立地跳过某些层。然而,可解释性研究表明,Transformer的中间层表现出更高的冗余性,且早期层将信息聚合到特定token位置。基于这些洞见,我们提出了一种新颖的架构,该架构能够动态地从中间向外跳过可变数量的层。具体而言,一个学习到的门控机制根据输入决定是否绕过中心块的对称跨度,而门控注意力机制则防止后续token关注被跳过的token位置。残差范数通过“三明治”或“每层归一化”方案进行控制,门控稀疏性则通过自适应正则化损失来调节。我们原本旨在降低“较简单”token的计算需求,并可能促进一种多级表征层次结构的自然形成,但在所研究的规模下,与层数较少的密集基线相比,我们的方法在验证交叉熵与估计的浮点运算次数之间的权衡上并未取得改进。我们的代码已发布于https://github.com/tim-lawson/skip-middle。
我们推出了SAM4D,这是一个多模态时序基础模型,专为跨摄像头与激光雷达数据流的可提示分割而设计。通过引入统一多模态位置编码(UMPE),实现了摄像头与激光雷达特征在共享三维空间中的对齐,从而支持无缝的跨模态提示与交互。此外,我们提出了运动感知跨模态记忆注意力机制(MCMA),该机制利用自运动补偿来增强时序一致性及长时程特征检索能力,确保在动态变化的自动驾驶场景中实现稳健的分割。为规避标注瓶颈,我们开发了一套多模态自动化数据引擎,该引擎融合了视觉基础模型(VFM)驱动的视频片段掩码、时空四维重建以及跨模态片段掩码融合技术。这一框架以远超人工标注的速度生成摄像头与激光雷达对齐的伪标签,同时保持了点云表示中源自VFM的语义保真度。我们在构建的Waymo-4DSeg数据集上进行了大量实验,验证了SAM4D在跨模态分割能力上的强大表现及其在数据标注方面的巨大潜力。
蒙皮与骨骼绑定是动画、关节物体重建、动作迁移及四维生成中的核心要素。现有方法主要依赖于线性混合蒙皮(LBS),因其简洁性与可微性。然而,LBS会引发体积损失及不自然形变等问题,且无法有效模拟如软组织、毛发及柔性附属物(如象鼻、耳朵及脂肪组织)等弹性材料。本研究中,我们提出了PhysRig:一种基于物理的可微蒙皮与骨骼绑定框架,通过将刚性骨骼嵌入体积表示(如四面体网格)中,将其模拟为由动画骨骼驱动的可变形软体结构,从而克服了上述局限。我们的方法运用连续介质力学,将物体离散化为嵌入欧拉背景网格的粒子,确保了对材料属性与骨骼运动两方面的可微性。此外,我们引入了材料原型,在保持高表现力的同时显著缩减了学习空间。为评估该框架,我们利用来自Objaverse、The Amazing Animals Zoo及MixaMo的网格构建了一个全面的合成数据集,涵盖了多样化的物体类别与运动模式。我们的方法在生成更真实、物理上更合理的结果方面,持续超越传统基于LBS的方法。更进一步,我们展示了该框架在姿态迁移任务中的适用性,凸显了其在关节物体建模中的多功能性。
随着大型语言模型(LLMs)的迅速普及——每种模型都针对不同的优势、风格或延迟/成本特性进行了优化——路由技术已成为有效利用不同模型的关键手段。然而,现有的LLM路由方法存在两个主要局限:它们通过基准测试评估性能,而这些基准往往无法捕捉由主观评价标准驱动的人类偏好;并且它们通常仅从有限的模型池中进行选择。在本研究中,我们提出了一种偏好对齐的路由框架,该框架通过将查询与用户定义的领域(如旅游)或操作类型(如图像编辑)相匹配来指导模型选择,为在路由决策中编码偏好提供了一种实用机制。具体而言,我们引入了Arch-Router,这是一个紧凑的1.5B模型,它学习将查询映射到领域-操作偏好,以支持模型路由决策。我们的方法还支持无缝添加新模型进行路由,而无需重新训练或修改架构。在对话数据集上的实验表明,我们的方法在将查询与人类偏好匹配方面达到了最先进(SOTA)水平,超越了顶级专有模型。我们的方法能够捕捉主观评价标准,使路由决策更加透明和灵活。我们的模型可在以下网址获取:https://huggingface.co/katanemo/Arch-Router-1.5B。
我们训练模型以预测基于人类动作的自我中心视频(PEVA),该模型接收过去的视频和由相对3D身体姿态表示的动作作为输入。通过以由身体关节层次结构组织的运动学姿态轨迹为条件,我们的模型学习从第一人称视角模拟物理人类动作如何塑造环境。我们在Nymeria数据集上训练了一个自回归条件扩散变换器,这是一个包含大规模真实世界自我中心视频和身体姿态捕捉的数据集。此外,我们设计了一个层次化评估协议,包含逐步增加难度的任务,从而能够全面分析模型的具身预测与控制能力。我们的工作代表了从人类视角出发,通过视频预测来应对复杂现实世界环境建模和具身代理行为挑战的初步尝试。
罕见病在全球范围内影响着超过3亿人,然而及时准确的诊断仍是一个普遍存在的挑战。这主要源于其临床异质性、个体发病率低以及大多数临床医生对罕见病认知有限。在此,我们推出DeepRare,这是首个基于大型语言模型(LLM)的罕见病诊断代理系统,能够处理异质性的临床输入。该系统为罕见病生成排序的诊断假设,每个假设都附有透明的推理链,将中间分析步骤与可验证的医学证据相连接。 DeepRare由三个关键组件构成:一个配备长期记忆模块的核心主机;负责特定领域分析任务的专用代理服务器,整合了超过40种专业工具和网络规模的、最新的医学知识源,确保访问最新的临床信息。这种模块化和可扩展的设计支持复杂的诊断推理,同时保持可追溯性和适应性。我们在八个数据集上对DeepRare进行了评估。该系统在2,919种疾病中展现出卓越的诊断性能,对1013种疾病达到了100%的准确率。在基于HPO的评估中,DeepRare显著优于其他15种方法,如传统的生物信息学诊断工具、LLM及其他代理系统,平均Recall@1得分为57.18%,比第二佳方法(推理LLM)高出23.79个百分点。在多模态输入场景下,DeepRare在109个案例中的Recall@1达到70.60%,而Exomiser为53.20%。临床专家对推理链的手动验证达成95.40%的一致率。此外,DeepRare系统已实现为一个用户友好的网络应用程序,网址为http://raredx.cn/doctor。
我们提出FairyGen,一个从单幅儿童绘画自动生成故事驱动卡通视频的系统,同时忠实保留其独特的艺术风格。与以往主要关注角色一致性和基础动作的叙事方法不同,FairyGen明确地将角色建模与风格化背景生成分离,并融入电影镜头设计,以支持富有表现力且连贯的叙事。给定一幅角色草图,我们首先利用MLLM生成带有镜头级描述的结构化故事板,这些描述详细说明了环境设定、角色动作及摄像机视角。为确保视觉一致性,我们引入了一种风格传播适配器,捕捉角色的视觉风格并将其应用于背景,在合成风格一致的场景时,忠实保留角色的完整视觉特征。镜头设计模块通过基于故事板的画面裁剪和多视角合成,进一步提升了视觉多样性和电影质感。为动画化故事,我们重建角色的3D代理以推导物理上合理的动作序列,随后用于微调基于MMDiT的图像到视频扩散模型。我们还提出了一种两阶段动作定制适配器:第一阶段从时间无序的帧中学习外观特征,分离身份与动作;第二阶段采用时间步移策略,在固定身份权重的情况下建模时间动态。训练完成后,FairyGen能直接渲染与故事板对齐的多样且连贯的视频场景。大量实验表明,我们的系统生成的动画在风格上忠实,叙事结构自然,动作流畅,凸显了其在个性化且引人入胜的故事动画中的潜力。代码将发布于https://github.com/GVCLab/FairyGen。
我们提出生成积木世界,通过操控简单的几何抽象体来与生成图像中的场景进行交互。我们的方法将场景表示为凸面三维基元的组合,同一场景可由不同数量的基元构成,使编辑者既能移动整体结构,也能调整细微之处。场景几何编辑完成后,图像通过一种基于流的方法生成,该方法以深度和纹理提示为条件。我们的纹理提示考虑了修改后的三维基元,超越了现有键值缓存技术提供的纹理一致性。这些纹理提示(a)支持精确的对象和相机移动,(b)在很大程度上保留了所描绘对象的身份。定量与定性实验表明,我们的方法在视觉保真度、可编辑性及组合泛化能力上均优于先前工作。
基础模型,尤其是大规模语言模型(LLMs)的分布式训练,对通信要求极高,因而高度依赖于具备快速可靠互连的集中式集群。我们能否在低速网络上进行训练,从而在处理超过1000亿参数的模型时,释放去中心化集群的潜力?本文提出DiLoCoX,一种低通信的大规模去中心化集群训练框架。它结合了流水线并行与双优化器策略、通信与本地训练的一步延迟重叠,以及自适应梯度压缩方案。这一组合显著提升了参数规模与模型预训练速度。通过收敛性的理论分析,我们论证了一步延迟重叠通信与本地训练以及自适应梯度压缩方案的优势。实验表明,DiLoCoX能够在1Gbps网络上预训练1070亿参数的基础模型。与传统的AllReduce相比,DiLoCoX在分布式训练中实现了357倍的加速,同时保持模型收敛性的可忽略下降。据我们所知,这是首个成功应用于超过1000亿参数模型的去中心化训练框架。
本文提出了一种新颖的奖励建模框架——DuaShepherd,该框架整合了正确性与潜力这两类互补的奖励信号,旨在增强大语言模型(LLMs)的数学推理能力。其中,基于正确性的信号着重于识别步骤中的错误,而基于潜力的信号则关注于最终获得正确答案的可能性。我们开发了一套自动化流程,用于构建包含这两类信号的大规模奖励建模数据集。通过探索一种统一的多头架构,在多任务设置下训练这两个奖励模型,证明了同时学习正确性与潜力的优势。通过将这两类信号结合为复合概率,我们的模型在多个基准测试中实现了持续的性能提升。在MATH500和ProcessBench上的实证评估表明,这种组合奖励显著优于仅使用单一奖励类型训练的模型,在资源约束相当的情况下达到了最先进的性能水平。
我们提出了MuseControlLite,一种轻量级机制,旨在通过多种时变音乐属性和参考音频信号对文本到音乐生成模型进行精确条件微调。关键发现是,在文本到音乐生成模型中,对于文本条件,位置嵌入在条件器中很少被使用,但当关注的条件是时间函数时,位置嵌入至关重要。以旋律控制为例,我们的实验表明,只需在解耦的交叉注意力层中添加旋转位置嵌入,即可将控制准确率从56.6%提升至61.1%,同时所需的可训练参数比最先进的微调机制少6.75倍,使用的是相同的预训练扩散Transformer模型Stable Audio Open。我们评估了多种音乐属性控制、音频修复和音频扩展形式,展示了在显著降低微调成本的情况下,相较于MusicGen-Large和Stable Audio Open ControlNet,具有更高的可控性,仅需85M可训练参数。源代码、模型检查点和演示示例可在以下网址获取:https://musecontrollite.github.io/web/。
启发式算法在解决组合优化(CO)问题中扮演着至关重要的角色,然而传统设计高度依赖人工经验,难以在不同实例间实现泛化。我们提出了HeurAgenix,一个由大型语言模型(LLMs)驱动的两阶段超启发式框架,它首先进化启发式方法,随后自动从中进行选择。在启发式进化阶段,HeurAgenix利用LLM比较初始启发式解与更高质量的解,并提取可复用的进化策略。在问题求解过程中,它根据LLM的感知能力动态选取每个问题状态下最有前景的启发式方法。为了灵活性,这一选择器既可以是先进的LLM,也可以是经过微调、推理成本较低的轻量级模型。针对组合优化复杂性导致的可靠监督稀缺问题,我们采用双奖励机制微调轻量级启发式选择器,该机制联合利用选择偏好与状态感知的信号,确保在噪声标注下实现稳健选择。在经典基准测试上的广泛实验表明,HeurAgenix不仅超越了现有的基于LLM的超启发式方法,还达到或超越了专用求解器的性能。代码已发布于https://github.com/microsoft/HeurAgenix。