每日精选AI研究论文及翻译
角色扮演语言代理(RPLAs)应演绎随剧情推进而价值观与行为不断演变的角色,而非维持固定人设。现有基准仅测评单章内的事实回忆能力,并未检验回应是否符合角色的心理演变轨迹,尤其当场景超出源文本探索范围时。我们提出ArcANE(弧光感知叙事评估),这是一个自动构建的基准,涵盖17部小说与80位主要角色。角色弧光将叙事按心理轴线切分为多个阶段,每个探针在跨阶段场景中提出相同情境,这些场景既包含源文本内的情境,也包含超越源文本的情境。在六种模型与六种上下文模式中,所有模型在源文本外场景上的最大差距均出现在以角色弧光为条件时——此时检索已无据可查。我们进一步对开源权重模型进行相同数据微调,获得ArcANE-8B/32B模型,其在源文本外场景上进一步扩大了弧光策略的优势。
智能体被广泛部署为文档、工具和代码的助手。然而,它们通常仅对显式用户请求做出响应,而这些请求只反映了用户已注意到的问题,与此同时,许多其他重要问题共存于更广泛的用户上下文中,隐藏在显而易见之处,其总数事前未知。我们将此定义为从上下文中发现多个隐藏问题的任务——需揭示共存问题,将其锚定于支撑证据,并配以具体行动。为此,我们提出TIDE,一个模板引导的迭代框架,包含两种互补机制。具体而言,基于“单次预测倾向于聚焦最显著案例并产生泛化断言”这一观察,我们提出迭代发现机制:每轮揭露一小批候选,同时基于已有发现进行条件化,使后续轮次扩展覆盖范围;以及思维模板机制:从先前解决的案例中提炼出可复用的模式,指明应关注哪些上下文信号以及如何连接它们,将每次预测锚定于一个可识别的问题类别。我们在个人工作空间与软件仓库两个现实场景中,基于四种模型主干对TIDE进行验证,结果显示其在任务覆盖率、问题识别与解决方面均大幅优于单次预测和并行多智能体基线。
语言模型在规划现实世界问题时通常需要考虑环境约束和用户约束,这些约束在初始阶段可能未被完全明确,而是通过交互逐步显现。然而,现有基准测试对这类渐进式揭示的双重约束下的自适应规划探索仍显不足。为填补这一空白,我们提出了AdaPlanBench——一个动态交互式基准测试,用于评估大语言模型(LLM)智能体在逐步揭示的环境约束和用户约束下能否进行自适应规划与重新规划。AdaPlanBench基于307项家务任务构建,其可扩展的约束构造流程可为每项任务附加双重约束。运行时,智能体通过多轮交互协议与环境互动:只有当智能体提出的规划违反隐藏约束时,该约束才会被揭示,迫使智能体在累积反馈中迭代修正规划。这种设计使得规划极具挑战性——智能体必须从反馈中推断并追踪约束,同时高效地重新规划。对十个主流大语言模型的实验表明,在双重约束下进行自适应规划仍具挑战,最佳模型仅达到67.75%的准确率。我们进一步观察到,随着约束累积,模型性能持续下降,其中用户约束构成尤为严峻的挑战,而模型失效常源于物理基础推理薄弱与效能降低。这些结果证明了AdaPlanBench作为双重约束交互式规划测试平台的价值,并凸显了LLM智能体在动态揭示约束下实现可靠适应的关键难题。
我们提出VideoKR,这是首个专门用于增强知识与推理密集型视频理解能力的大规模训练语料库。该语料库包含31.5万个视频推理示例,涵盖14.5万个新收集的、采用CC许可协议的专家领域视频。我们开发了一种人在回路中、面向技能的示例生成流程,该流程针对渐进式加深视频推理能力进行设计,同时确保示例及其思维链推理过程的难度、多样性和可靠性。我们还构建了VideoKR-Eval基准,这是一个经专家标注的新基准,其问题要求基于真实的视频理解与知识密集型推理,而非依赖文本捷径。实验表明,在标准SFT→GRPO训练流程下,基于VideoKR进行后训练的模型在知识密集型视频推理任务上优于此前所有后训练方法,同时在通用视频推理任务上保持竞争力,这凸显了数据设计作为视频推理进步关键驱动因素的价值。我们进一步开展了全面的消融实验,以分离VideoKR的贡献,为未来研究提供可操作的指导。
先前研究表明,大语言模型(LLMs)可通过持续训练乃至在上下文中编码语法书的方式,实现未见过语言或低资源语言的翻译。然而,这两种方法通常对特定语言过度拟合,在测试时零样本迁移能力有限。为实现对极低资源语言的大规模翻译,我们认为LLMs必须掌握利用上下文语言知识的元技能,而非单纯记忆特定语言。本文提出一种基于强化学习(RL)的方法,在提供丰富语言上下文的前提下进行未见过语言翻译,以表层翻译指标(chrF)作为奖励信号。实验表明,尽管奖励函数较为轻量,经RL训练的模型能有效从给定上下文中提取并应用相关语言信息,在对完全未见语言进行翻译时表现优于上下文学习或有监督微调方法。我们的分析表明,基于结果的强化学习可超越数学、编程等传统推理任务范畴,成为从上下文中学习语言的有效范式。
尽管家用机器人通常基于任务完成情况进行评估,但日常家庭环境中常出现价值冲突的情境,此时机器人应选择优先考虑任务成功之外的其他价值(如人类自主性、效率或社会适宜性)的行动。然而,目前尚无针对此类场景中机器人价值偏好的评估基准。我们提出RobotValues——一个用于在1万种价值冲突场景中评估家用机器人规划器的基准。每个实例包含一张逼真的家庭环境图像,以及多个体现不同人类价值优先级的合理机器人行动。我们通过大语言模型辅助的场景生成、基于利益相关者的价值提取、图像生成及自动质量控制构建了RobotValues。利用RobotValues评估机器人领域使用的视觉-语言模型后,我们发现模型表现出默认价值偏好(包括安全性和适应性),但较少选择优先考虑隐私的行动。当要求模型优先处理与其自身偏好冲突的特定价值时,它们往往无法覆盖默认行动,在80%的情况下选择了错误行动。这些发现表明,家用机器人评估不仅应衡量任务完成或安全合规性,还应评估机器人在人类价值冲突时能否从合理行动中做出选择。
我们研究了个人相机胶卷视觉问答任务。在该任务中,对话式AI助手能够访问用户的个人相机胶卷,检索相关照片以回答各类问题——从简单的事实性问题(例如“我昨天尝试的食物叫什么?”)到更开放的问题(例如“推荐一些我从未吃过的菜肴”)。由于个人相机胶卷涵盖内容广泛(跨越多年,包含数百至数千张照片),一个成功的AI助手需要理解长期跨度、高度个性化的视觉内容流,以便在大量图像中定位并找到正确或相关信息。为此,我们收集并手工标注了模拟真实使用场景的问题。最终数据集camroll包含50名用户、31,476张图像和2,500个问答对。我们进一步设计了camroll-agent,这是一个配备分层记忆和最少工具集的对话式AI智能体,能够高效地在大规模个性化视觉记忆中导航。实验结果表明,camroll-agent在多个基线方法和用于长上下文理解的AI智能体系统中表现更优。camroll数据集与camroll-agent共同揭示了AI智能体在长上下文推理方面的差距:个性化视觉记忆需要与标准长上下文文本记忆不同的方法,尤其是在一致性、视觉细节和用户特定上下文存在的情况下。
开发能够解读交错多模态输入的统一视频生成与编辑模型是一个前景广阔但富有挑战的前沿领域。现有统一框架主要依赖大规模模型(通常拥有130亿参数以上),并通过拼接序列令牌的方式引入源视频条件以实现编辑。这种拼接不可避免地使序列长度翻倍,导致自注意力机制的计算复杂度呈四倍增长,带来难以承受的开销。为解决这些瓶颈,我们提出了LoomVideo——一种高效、拥有50亿参数、适用于视频生成与编辑的统一架构。LoomVideo用多模态大语言模型替换标准文本编码器,并采用深层堆叠注入机制将多模态大语言模型的跨层特征与扩散变换器对齐。关键之处在于,我们为零开销的缩放-加条件添加方法设计了视频编辑方案。通过缩放并直接将干净源视频潜变量添加到带噪目标潜变量上,这一优雅设计省去了令牌拼接的必要性,大幅降低计算成本,同时保持了对复杂非刚性编辑的稳健能力。此外,我们无缝集成了负时间旋转位置编码策略以处理多张参考图像。大量实验表明,我们紧凑的50亿参数模型在综合基准测试中达到了最先进或极具竞争力的性能,在电商与时尚生成场景中展现出卓越优势。得益于零开销条件机制,LoomVideo在推理速度上相较同类模型至少获得了5.41倍的加速,为打造高度实用且高效的视频基础模型铺平了道路。
标准的连续时间生成模型依赖于单一架构,必须应对从各向同性噪声到复杂数据分布等截然不同的信号区域。虽然扩大模型容量可以提升性能,但在整个生成时间线上均匀部署一个大型网络本质上效率低下。在本工作中,我们提出复杂度平衡分割方法(CBS),这是一种时间容量分配的原则性框架,通过将生成工作负载分布到多个专业化子网络来实现。基于函数逼近理论和De Boor等分布原理,CBS将扩散时间线划分为近似负担相等的片段,将更多表示能力分配给生成动力学更难建模的区域。为了估计这种局部复杂度,我们引入了两种互补且可计算的监测函数:一种基于流形狄利克雷能量的空间测度,另一种基于采样轨迹加速度的几何测度。通过使用轻量级辅助模型估计这些复杂度轮廓,我们的方法消除了对启发式时间分割或计算昂贵的搜索过程的需求。在多种架构(SiT、JiT和UNet)和数据集上的广泛评估表明,CBS能够在不增加每步推理成本的情况下持续提升合成质量。特别地,在采用CFG的SiT-XL上,CBS相对于朴素时间分割将FID改善了约35%。项目页面见https://noamissachar.github.io/CBS/。
经验内化将过往交互中的上下文经验转化为可复用的参数化能力,为大语言模型的持续学习提供了一条有前景的路径。虽然先前研究主要集中于单次迭代迁移,但我们发现,在多轮经验学习场景下,现有方法会遭遇渐进能力退化而非复合式提升。我们通过经验内化的三个关键维度系统审视了这一失效现象:(1)经验粒度:研究发现,原则级经验比实例级经验更具持久性,因为它能有效从轨迹特定细节中提炼可迁移策略;(2)经验注入模式:分析表明,逐步注入通过将经验与中间决策状态对齐,显著优于全局注入,这一特性对于长时程工具使用至关重要;(3)内化范式:我们证明,基于高质量教师轨迹的离策略上下文蒸馏比在策略上下文蒸馏能提供更稳定的训练信号,后者本质上受限于对学生诱发错误状态的局部修正。综合这些洞见,我们提出了一个简洁而稳健的可持续经验内化方案,为构建自我演化且持续学习的大语言模型提供了具体指导。
现有自动驾驶数据集虽取得重大进展,但在传感器保真度、地图完整性和地理多样性方面仍存在不足。我们提出KITScenes Multimodal——一个基于高保真传感器与地图构建的欧洲数据集。该数据集采用全同步传感器套件,集成高分辨率全局快门相机、探测距离超400米的远距激光雷达、4D成像雷达及冗余GNSS/INS定位系统。据我们所知,其高清地图是现有传感器数据集中最完整的,已通过基于开源软件的自动驾驶测试验证。本数据集首次在公开数据集中,将所有驾驶相关交通要素(如交通信号灯)以三维形式精确映射至重投影精度级别,并具备完整拓扑连通性。数据采集于街道布局不规则、交通模式混合的城市,通过拓展地理多样性对现有数据集形成补充。我们还引入四项基准测试,旨在推进具身智能的空间学习:在线高清地图构建、远距离深度估计、新视角合成及端到端驾驶。项目页面:https://kitscenes.com/
视频生成模型在合成视觉上引人入胜的内容方面取得了令人瞩目的进展,但其输出仍然局限于虚拟领域。一个自然的问题随之而来:当这些模型生成的视频离开屏幕进入现实世界时,它们在多大程度上反映了物理世界?我们提出将机器人操作作为这一问题的具体且可量化的窗口:若模型真正内化了物理定律,它所描绘的运动应当转化为可执行的机器人行为。我们引入Dream.exe,一个通过视频到执行流程将此标准操作化的评估框架。给定场景图像和任务描述,Dream.exe合成操作视频,将生成的运动转换为机器人轨迹,并在物理模拟器中执行,从而提供纯视觉指标无法给出的基础信号。利用此流程,我们评估了8个模型,涵盖前沿闭源生成器、开源生成器和机器人专用模型。我们的基准测试包括101个精心策划的操作任务,分为三个物理复杂度级别,从视觉质量、轨迹保真度和执行成功率三个方面进行衡量。令人鼓舞的是,多个模型取得了可测量的执行成功率,表明从互联网规模数据中学习到的生成先验已编码了有意义的物理知识。然而,视觉质量并不能很好地预测可执行性,这揭示了标准视觉评估所无法捕捉到的模型能力维度。Dream.exe将在 https://github.com/showlab/Dream.exe 开源。
推理时技能增强提供了一种轻量级的方法,通过注入可复用的程序性知识来改进数据分析智能体,而无需更新模型参数。然而,在数据分析中发掘有效的技能仍然具有挑战性,因为可靠的监督信号成本高昂,且成功标准因分析格式而异。这引出了一个关键问题:如何仅通过无标注探索来发现可复用的数据分析技能。我们提出DataCOPE,一种面向数据分析智能体的无监督验证器引导的技能发现框架。DataCOPE从探索轨迹中推导出验证器信号,并利用这些信号刻画轨迹之间的相对质量或一致性。它通过迭代协调三个组件:用于轨迹生成的数据分析智能体、用于信号提取的无监督验证器,以及用于对比技能蒸馏的技能管理器。针对报告式分析,我们将验证器实例化为自适应检查表验证器,该验证器推导出任务特定标准,根据可验证的覆盖率为报告评分,并迭代优化检查表。针对推理式分析,我们将其实例化为答案一致性验证器,该验证器根据答案一致性对轨迹进行分组,并将自一致性作为辅助信号。我们在Deep Data Research的报告式分析和DABStep的推理式分析上评估了DataCOPE。在两种设定下,DataCOPE在留出性能上均持续优于基线方法。在四种模型设定下取平均,DataCOPE在报告式任务和推理式任务上的平均得分分别提升了9.71%和32.30%。
大型语言模型能够复现训练数据,但现有记忆评估大多衡量模型是否能在强制条件下复现数据,而非在常规使用中真实复现。我们提出PropMe——一种基于倾向感知的记忆评估框架,将基于前缀的能力攻击与非对抗性评估进行对比。我们设计了一种度量转换方法,将其应用于现有函数能够生成倾向性指标。我们进一步提出SimpleTrace——基于infini-gram构建的轻量级追踪流水线,可确定性溯源模型生成内容至大规模训练语料库,并计算逐字匹配、近似匹配及倾向性转换后的记忆指标。通过对两语言环境下两个数据集(Common Pile和Dynaword)上两个完全开源模型(Comma和DFM Decoder)的评估,我们发现能力与倾向性之间存在持续差距:前缀攻击引发的记忆信号显著强于通用提示或特定数据集提示,而倾向性得分整体保持较低水平。这表明模型在直接诱导下能够暴露训练数据,但在更常见的非对抗性设置中很少发生。我们还发现,从Comma持续预训练得到的DFM Decoder在Common Pile上的记忆能力与记忆倾向性均有所降低,证实当后续训练侧重部分不同数据时记忆能力可能减弱。我们的研究结果表明(并建议)记忆审计应同时报告最坏情况下的可提取性和常规泄漏倾向性,以更全面地认知该现象。
在线策略蒸馏(OPD)仅通过匹配下一个词元的概率在输出空间监督学生模型。这种纯输出范式存在两个局限:(1) 在大词汇表(例如Qwen的约15万词元)上,蒙特卡洛KL估计产生的采样方差在整个训练过程中持续存在;(2) 它将教师模型视为黑箱,丢弃了语言模型头之后的所有中间隐状态。我们提出在线策略表示蒸馏(OPRD),通过在相同轨迹上对齐选定层的学生与教师表示,将蒸馏提升至隐状态空间,完全绕过语言模型头。理论上,OPRD消除了采样方差,并提供了更丰富的每层结构信息。实验上,OPRD在AIME 2024/2025和AIMO上缩小了学生与教师之间的差距,而输出空间OPD基线在教师水平以下停滞不前。与Top-k OPD相比,OPRD训练速度提升1.44倍,内存使用减少54%。代码:https://github.com/ShenzhiYang2000/OPRD。
选择操作是交互式图像编辑中的核心环节。在实际应用中,用户应能通过文本或点击交互来指定并消除所期望选择区域的歧义,系统不仅要支持对象选择,还需覆盖其他维度,如材质选择。基于材质的选择对于重纹理化表面或编辑特定材质实例等任务具有重要价值。然而,现有基于视觉-语言模型的选择方法通常以对象为中心,且仅支持单一交互模式,限制了其实用性。为此,我们提出MAOAM(掩膜任意对象与材质)——一个统一的选取框架,支持文本和点击两种交互方式,实现精确的对象级与材质级选择。MAOAM利用带有分割头的视觉-语言模型,从用户提示中生成像素级精度的掩膜:视觉-语言模型解读用户的选择意图(对象级或材质级)并编码视觉实体、属性及空间关系,而分割头则将输出令牌解码为掩膜。一个关键挑战在于缺乏带有文本标注的材质选择数据集。我们提出可扩展的数据生成流程:收集带有材质掩膜的实景与合成图像,并利用视觉-语言模型生成富含视觉语义的材质描述。通过多任务目标训练MAOAM,涵盖基于点击和文本的选择,并结合从材质描述中导出的辅助视觉问答任务,以促进对材质的深层理解。尽管仅使用单模态提示训练,我们的模型在推理时结合文本与点击后展现出涌现性的选择能力提升,从而支持灵活的图像编辑工作流。实验表明,该模型在多样化对象、材质及交互场景下均能实现准确且连贯的选择,凸显了实际应用中的鲁棒性。
推理时扩展已成为提升大语言模型性能的关键途径,但在实际部署中仍受到严格计算预算的约束。本文将推理预算分配问题形式化为一个受经济学原理支配的全局约束优化问题。通过采用偏移激增函数对每次查询的推理效用进行建模,我们推导出一种基于全局影子价格的最优分配策略,该价格在资源稀缺条件下实现边际效用的均衡。基于这一理论,我们提出了约束潜在效用均衡分配推理方法(CLEAR)。该方法执行理性舍弃,并将资源从不可行查询重新分配给接近其涌现阈值的可解查询。 在多种推理任务及不同流量场景下的大量实验表明,CLEAR显著改善了总令牌成本与平均准确率之间的帕累托前沿。在资源稀缺场景中,与均匀分配相比,CLEAR的全局准确率提升高达3倍。
视频事件预测要求模型从部分视频证据中推断未观察到的未来状态。现有视频多模态大语言模型通常将中间未来推理过程以文本形式表述:一旦视觉证据被转化为文字,细粒度的运动、几何及交互线索就可能丢失,从而产生看似合理但缺乏视觉依据的幻觉。我们提出 Future-L1——一种交错潜在视觉推理框架,该框架让多模态大语言模型在自回归解码过程中能够在语言标记与连续潜在视觉片段之间交替。为训练这一能力,我们构建了 Future-L1-50K 数据集,通过选取那些未来视觉提示有助于预测的样本,并将潜在状态与未来帧嵌入对齐,随后利用 LA-DAPO(一种融合结果对比和时间多样性奖励的潜在感知强化学习目标)对采样出的潜在轨迹进行进一步优化。Future-L1 在两项基准测试上均取得了新的最佳结果:在 FutureBench 上,它将 Qwen3-VL-8B 的得分从 61.0 提升至 85.4,并超出此前最优模型 Video-CoE 10.4 个百分点;在 TwiFF-Bench 上,它将平均得分从 2.44 提升至 3.04。这些结果表明,面向未来的视频推理更受益于在潜在空间中保留中间视觉语义,而非将每一步推理都转化为文本。
我们提出世界-语言-动作(WLA)模型,作为一类新型的具身基础模型。WLA将文本指令、图像和机器人状态作为输入,联合预测文本子任务、子目标图像和机器人动作,融合了世界建模接口(如世界-动作模型WAM)从大规模自我中心视频中学习的能力,以及语言推理能力(如视觉-语言-动作VLA模型)解决复杂长时程任务的能力。WLA的核心是一个自回归(AR)Transformer主干网络(而非WAM中的双向扩散Transformer),用于预测下一状态,包括语义层面的文本意图和互补的细粒度物理动态。物理动态通过基于专用世界专家(World Expert)的世界建模目标进行监督,并用于简化动作专家(Action Expert)对状态-动作相关性的刻画。WLA利用元查询(meta-queries)使世界预测隐式地影响动作生成,从而在推理阶段可禁用世界预测功能;同时,世界预测也可被激活以实现测试时扩展(test-time scaling),提升机器人控制性能。我们的WLA-0原型模型拥有20亿活跃参数,在NVIDIA RTX 5090上每次推理仅需40毫秒。在模拟与真实环境中的评估表明,WLA-0在多任务与长时程学习能力上达到最先进水平,例如在RoboTwin2.0 Clean数据集上成功率达92.94%,在RMBench上成功率达56.5%。WLA-0还具备直接从跨形态机器人视频中学习新任务的潜力,且无需动作标注。
记忆增强型LLM代理通过递归地将交互轨迹摘要为紧凑记忆,以应对复杂的长期任务。然而,现有方法通常采用基于结果的强化学习来训练这些记忆策略,未能定位中间记忆质量退化之处。随着交互展开,模糊的递归摘要会逐步丢弃任务相关信息并引入语义噪声,这加剧了信念偏差,模糊了代理对潜在任务状态的估计,最终扰乱长期推理。因此,我们认为记忆优化的重点不应仅局限于轨迹级别的成功,而应关注中间摘要所引发的信念清晰度。为此,我们引入信念熵(Belief Entropy),一种自监督代理指标,用于探测模型在当前记忆下对潜在任务状态的不确定程度。基于这一指标,我们提出了元认知记忆策略优化(MMPO)。不同于仅依赖稀疏的基于结果的信号,MMPO通过显式惩罚引发高认知不确定性的摘要,提供细粒度的、针对记忆的监督。实验表明,MMPO在多种长期任务上始终优于现有方法,即使在扩展到175万token的上下文时,仍能保持97.1%的性能。
时间定位(Temporal Grounding, TG)旨在定位与文本查询对应的视频片段。现有研究主要集中在单片段检索上。然而,真实场景中往往需要为单个查询定位多个不连续的片段——我们将这一设定称为一对多时间定位(One-to-Many Temporal Grounding, OMTG)。先前在最先进的多模态大语言模型(MLLMs)针对一对一的设定进行了优化,在此背景下表现不佳,常因缺乏事件基数感知而给出近乎为零的分数。为填补这一空白,我们提出了一套系统性解决方案,包含三项关键贡献。首先,我们建立了首个全面的OMTG基准,引入计数准确率(C-Acc)和有效时间F1值(EtF1)作为评估指标。其次,我们通过一个精密的构建流程,整理了一个包含5.6万个样本的高质量OMTG数据集。第三,我们针对OMTG设计了新颖的时间奖励和描述奖励函数。特别地,描述奖励利用基于密集视频描述的思维链推理,显式引导策略优化同时兼顾精确性与完整性。大量实验表明,我们的模型在OMTG基准上达到了43.65%的最新EtF1值,分别比Gemini 2.5 Pro和Seed-1.8高出15.85%和15.61%。
大型语言模型(LLM)智能体被越来越多地应用于科学发现和机器学习工程(MLE)等长周期任务,在这些任务中,持续自我进化成为关键能力。然而,现有MLE智能体存在分支间信息隔离、无记忆搜索以及缺乏层次化控制等问题,这些问题共同阻碍了长周期优化。我们提出MLEvolve——一个基于LLM的自进化多智能体框架,用于端到端的机器学习算法发现。通过将树搜索扩展为渐进式MCGS,MLEvolve借助基于图的参考边实现跨分支信息流动,并利用熵启发的渐进式调度,使搜索逐步从广泛探索过渡到聚焦利用。为了让智能体随着经验积累而进化,我们引入了回顾性记忆,该机制将冷启动领域知识库与用于任务特定经验检索和复用的动态全局记忆相结合。为实现稳定的长周期迭代,我们进一步将战略规划与代码生成解耦,并采用自适应编码模式。在MLE-Bench上的评估表明,MLEvolve在多个维度上取得了最先进的性能,包括在12小时预算(标准运行时的一半)下的平均奖牌率和有效提交率。此外,MLEvolve在数学算法优化任务上还超越了包括AlphaEvolve在内的专门算法发现方法,展现出强大的跨域泛化能力。我们的代码已在https://github.com/InternScience/MLEvolve公开。
视频存在时序冗余:相邻帧通常共享大部分物体、背景和布局。然而,现有的视频多模态大语言模型(视频MLLMs)通常将每个采样帧编码为独立的RGB图像,导致视觉令牌重复包含前一帧已有的内容。这表明存在一种更直接的视频交互方式:仅在场景无法通过先前上下文较好预测时发送完整参考帧,否则传输帧间变化的紧凑描述。我们将这种交互方式命名为预测性视觉编码,并将其在视频MLLMs中具体实现为AdaCodec。AdaCodec仅在条件预测代价较高时为参考帧分配完整视觉令牌;反之,它则将帧间变化(包括运动信息和预测残差)编码为紧凑的P令牌。在全部11个基准测试中,AdaCodec在匹配的视觉令牌预算下,均优于基于Qwen3-VL-8B逐帧RGB的基线模型。即使在1/7的预算下,使用32k令牌的AdaCodec在所有长视频基准测试中仍超越224k基线的表现;在五项通用视频基准测试中,它平均分数提升的同时,将首令牌延迟从9.26秒显著缩短至1.62秒。
系统提示优化可在不修改底层模型的前提下改善智能体行为,生成人类可读且与模型无关的指令。现有方法通过构建一个提示体来优化任务智能体的系统提示,但提示体自身的系统提示仍采用手工设计并固定不变。为此,我们提出自进化提示优化(SePO)方法,将提示体自身的系统提示与任务智能体的系统提示共同作为优化目标。SePO采用自指设计:单个提示体在开放式进化搜索中同时改进任务智能体的系统提示和自身系统提示,该搜索维护一个候选提示存档作为垫脚石。训练分两阶段:预训练阶段在多任务池上演化提示体,微调阶段将其应用于目标任务。在涵盖数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生级科学(GPQA)、代码生成(MBPP)和逻辑谜题(数独)的五项基准测试中,SePO始终优于Manual-CoT、TextGrad和MetaSPO,相较于Manual-CoT平均准确率提升4.49个百分点。预训练获得的提示优化能力还可泛化至训练混合任务之外的新任务,而非记忆各任务的特定提示。
多模态大语言模型(MLLMs)在二维语义理解方面表现优异,但本质缺乏三维空间感知能力,导致其表示在视频帧间无法保持几何与空间一致性。针对大规模三维数据稀缺的问题,我们提出了GeoVR——一种仅利用二维视频序列学习几何表示的新型框架。该方法通过重构MLLM内部的语义潜在空间来解锁空间智能,并非采用浅层特征融合策略,而是通过从预训练三维基础模型中蒸馏几何知识来重塑MLLM的内部表征。这一过程通过多目标学习策略实现,由四个互补几何目标驱动:(1)估计帧间相机位姿以嵌入视角动态变化,(2)回归稠密深度图以锚定物理距离,(3)预测度量尺度因子以实现真实世界校准,(4)蒸馏多尺度三维特征以对齐中间特征空间。在显式物理与几何约束引导下,模型内部表征自然形成强大的三维感知能力。在空间推理基准上的大量实验表明,GeoVR取得了最优性能,为赋予基础模型空间智能建立了新范式。
自动语音识别(ASR)已成为人机交互的关键技术。然而,语码转换语音识别(CS-ASR)仍面临特殊挑战,主要原因在于不同语言对之间多语言语码转换语音资源的严重匮乏。现有方法主要通过合成语码转换语音生成或在有限双语数据集上进行针对特定语言对的微调来提升CS-ASR性能。然而,这些方法存在固有的可扩展性限制,因为对语码转换的支持必须针对不同语言对单独开发,而语言对的数量会随支持的语言种类呈组合增长。在本研究中,我们探究通过模型合并和领域泛化方法,从有限的已见语言对中学到的语码转换能力是否能够泛化到未见语言对。实验表明,合并后的双语CS-ASR模型对未见语言对的泛化能力有限,这表明双语语码转换能力在不同语言对之间的迁移较为有限。
视觉-语言-动作(VLA)模型利用预训练视觉-语言模型(VLM)丰富的世界知识,实现指令跟随的机器人操作。然而,VLM语义空间与具身控制策略之间的结构错位往往阻碍精确感知-动作映射的学习。为解决这一挑战,我们提出AffordanceVLA——一个统一框架,通过引入结构化的可操作性预测作为任务导向的中间表征,构建更精确稳健的感知-动作映射。具体而言,我们通过三个互补组件渐进式建模操作先验:1)Which2Act:通过视觉潜在预测实现以物体为中心的语义锚定,抑制环境干扰;2)Where2Act:通过可操作图估计实现二维交互定位;3)How2Act:通过三维几何推理引导操作策略。这些可操作线索提供了空间锚定、语义约束且与动作耦合的中间表征,从而自然衔接视觉、语言与动作。我们将这些模块集成到具有专用专家的混合Transformer架构中,并采用渐进式数据课程的三阶段训练策略进行模型训练。为解决机器人数据集中密集可操作标签稀缺的问题,我们还开发了稳健的自动化数据增强流水线。在仿真与真实世界的广泛实验表明,AffordanceVLA在多种操作场景中均实现了优异性能。
世界-动作模型(WAM)通过迭代扩散联合生成未来视频与机器人动作,在操作基准测试中表现优异,但需要数十步去噪过程,这一成本使其无法用于实时控制。步蒸馏自然成为解决方案,但现成方法在视频-动作联合设定中失效——因为视频和动作流使用不同的信噪比偏移噪声调度,训练时噪声边际分布显著不同,这种不对称性使得单模态蒸馏方法无法适应。我们提出Flash-WAM,这是一种受一致性蒸馏启发的模态感知步蒸馏框架,它为每个模态选择与其噪声环境匹配的一致性函数:基于一致性函数族的结构分析,该分析刻画了一致性边界条件下可实现的梯度缩放,为动作流的低噪声环境采用线性梯度缩放参数化,为视频流的高噪声环境采用方差保持参数化。在LingBot-VA上实例化后,Flash-WAM将推理压缩至每个模态单步。在RoboTwin 2.0上,这使每个块的延迟从8.1秒降至NVIDIA L40S上的348毫秒,实现了23倍加速,达到实时推理能力。Flash-WAM在仿真基准测试中保持了任务成功率(RoboTwin 2.0上85.5%,LIBERO上95.7%),并在宇树G1人形机器人上大幅恢复了真实世界性能(平均60%),而采用相同步数预算的朴素一致性蒸馏仅达到24%。
在机器人系统中,低成本、低功耗硬件可轻松捕获高分辨率的大量视觉数据。然而,有限的带宽和机载计算资源使得通过JPEG/MPEG等传统编解码器传输时无法充分利用这些数据。AV1/AVIF等新型编解码器改善了率失真权衡,但编码所需资源大幅增加,缺乏专用ASIC时难以实用。近期提出的非对称自编码器在极端功耗和带宽约束下实现了高质量,但带来了高昂的解码成本,且采用定制格式,忽视了围绕JPEG等标准构建的数十年基础设施。为解决这些局限性,我们提出了一种基于传感器嵌入式自编码器配合一次性转码高效重建(SEAOTTER)的云端机器人压缩框架。由于传感器、云端和消费端面临截然不同的功耗与带宽预算,SEAOTTER将学习型潜表示的紧凑性与标准JPEG文件的广泛可用性相结合。鉴于直接转码会降低性能,我们提出一种可学习的JPEG色彩和量化变换,从而提升全局、密集及基于视觉语言的感知任务的精度。通过SEAOTTER,我们为预训练且冻结的编码器训练了通用型及任务感知型转码流水线。在200:1的压缩比下,与AVIF相比,编码速度提升7倍,解码速度提升3.5倍,ImageNet Top-1准确率提高8%,同时保持与JPEG基础设施的兼容性。我们的代码开源于 https://github.com/UT-SysML/seaotter。
多模态大语言模型(MLLMs)在通用视觉问答(VQA)任务中已展现出显著成就。然而,在面对机械工程图纸时,这些模型仍显脆弱:高标注密度与弱领域知识并存,加之在严格投影规则和几何约束下进行空间关系推理的不可靠性,使得关键线索极易被忽略,常导致错误答案。为填补这一空白,我们首次提出综合性机械图纸理解数据集MechVQA,该数据集通过半自动构建与质量控制流程生成。MechVQA包含3.3万张高密度图像及2.1万对问答,涵盖识别、推理、判断三个能力层级下的10种细粒度任务,为评估和提升MLLM在真实机械图纸上的理解能力提供了测试平台。基于MechVQA,我们进一步通过多阶段训练范式开发MechVL模型,构建了强领域专用基线。大量实验结果表明,MechVL在MechVQA总分上超越最强闭源基线7.57个百分点,显著增强了机械图纸理解能力,并为在机械设计与检测场景中部署MLLM提供了可复用基础。
大型语言模型日益被用于模拟社交媒体用户,并推断个体可能如何回应在线讨论。然而,目前尚不清楚这些模拟是反映了精确的用户特定信念,还是对对话语境中语义无关的变化高度敏感。在本研究中,我们探讨了反事实语境修订作为一种审计基于大语言模型立场模拟的框架。给定一段原始在线对话,我们首先推断目标用户对特定话题的立场。然后,我们对对话语境应用受控的修订策略,并在修订后的语境下再次模拟用户的立场。我们比较了纯文本修订策略与融入模因语境的多模态策略,并评估了两个主要有效性指标,即平均方向性立场偏移和立场转变率。结果表明,在不同的极化偏好机制下,纯文本和多模态策略均能实现有效且稳健的立场转变。我们的研究贡献了一个评估框架,用于理解基于大语言模型的立场模拟对语境的敏感性。更广泛而言,它突显了使用大语言模型模拟在线舆论动态的前景与风险。
大语言模型通常通过生成显式思维链(CoT)来提升推理能力,这体现了中间计算的重要性。然而,文本形式的CoT强制要求计算过程通过离散、串行且面向通信的令牌流来执行:即使底层更新具有语义性、不确定性或仅部分形成,模型也必须在每个推理步骤被语言化后才能继续推进。潜在推理通过将中间计算压缩至连续的紧凑状态(再将其转化为文本)提供了更高带宽的替代方案。然而,现有潜在推理方法往往牺牲了使CoT在自回归语言模型中有效的关键优势,包括原生从左到右生成、概率采样、键值缓存解码兼容性以及可处理的似然估计。我们提出NF-CoT,一种保留这些优势的潜在推理框架,通过归一化流对连续思维进行建模。NF-CoT在LLM主干内部实例化了一种TARFlow风格的归一化流,为从显式CoT提炼出的紧凑连续思维定义了可处理的概率模型。连续思维位置由NF头生成,而文本位置则由同一因果流中的标准LM头生成。这种设计为潜在思维提供了精确的似然估计,支持使用原始键值缓存进行概率性从左到右解码,并在潜在推理空间中实现直接策略梯度优化。在代码生成基准测试中,NF-CoT相比显式CoT及先前的潜在推理基线方法提升了通过率,同时显著降低了中间推理成本。
大语言模型(LLM)智能体的最新进展已推动自动化数据科学取得显著突破。然而,现有方法仍受限于静态动作集和缺乏原则性的长程上下文管理,这阻碍了它们在多阶段迭代式数据科学流程中积累可复用经验并可靠运行的能力。为应对这些挑战,我们提出EvoDS——一种通过智能体强化学习实现技能自扩展与长程上下文自适应管理的自进化自主数据科学智能体。具体而言,EvoDS引入两项关键策略:(1)自主技能获取(ASA)机制,使智能体能够合成、验证并复用可执行技能;(2)自适应上下文压缩(ACC)策略,将上下文管理视为一个可学习的控制问题而非被动截断。这些策略通过两阶段多智能体训练方案协同运作,使EvoDS能够随时间自主提升。理论上,我们证明EvoDS的层级化设计降低了工具选择误差,其优化目标与信息瓶颈原则一致,确保上下文的高效利用。实验表明,EvoDS在四个多样化基准测试中平均性能优于最先进的开源数据科学智能体28.9%,同时完全消除了令牌溢出故障。我们的代码与数据已开源:https://github.com/usail-hkust/EvoDS。
像“林伟在哪”这类情境化查询,其含义往往超出字面内容:用户可能还想知道林伟是否有空、心情如何,或者现在是否值得打扰他。标准的工具使用智能体只会回答字面问题并就此停止。AURA在场景感知与工具使用之间插入了一个推理步骤,生成一个意图框架(IntentFrame),该框架包含对隐含需求的结构化估计,以及一个标量缺口分数(scalar gap score),用于控制每条查询的探测预算和工具选择。在一个包含100条查询、四个场景的隐含意图基准测试中,AURA在隐含需求覆盖率上优于ReAct风格的探测方法(Delta = +0.07, p < 10^-6);其中三个场景单独表现显著,该提升在第二个骨干模型上得到复现,且提示消融实验表明,这一增益来自缺口校准而非答案记忆。在事实查询任务中,控制器在隐私敏感数据切片上以牺牲原始准确性为代价,实现了减少82%的探测次数以及零违禁工具违规。适用范围详见局限性部分。代码、模拟器和基准测试已发布在 https://github.com/innovation64/AURA。
自动驾驶需要对自车行为如何影响周围世界的演变进行推理。然而,大多数端到端方法依赖于直接的状态到动作映射,虽然捕捉了相关性,但未能显式建模以动作为条件的世界动态。相比之下,连续潜空间世界模型往往缺乏用于跨反事实未来进行因果推理的组合结构。我们提出了Discrete-WAM,一种统一的潜空间视觉-动作世界策略,将未来视觉状态和自车行为表示为对齐的离散标记,从而能够跨多个替代未来进行组合因果推理。基于这一统一离散对齐,Discrete-WAM建立了共享的离散扩散框架与统一的生成任务,共同构建世界建模、世界-动作策略和分层决策策略,支持跨多样化驾驶场景的组合泛化。在大规模自动驾驶基准上的实验表明,Discrete-WAM在实现竞争性能的同时,支持可控生成和反事实推理,为更可靠的决策制定提供了一条原则性路径。
基于扩散模型的图像编辑在自然语言指令下实现了较强的视觉保真度,然而现有大多数系统仍停留在表面指令遵循层面,未能对真实用户请求中所蕴含的隐式上下文约束进行推理。这常常导致编辑结果在视觉上看似合理但在逻辑上不一致。在本工作中,我们提出了RE-Edit——一个面向推理感知图像编辑的基准测试,该基准从五个互补的推理维度评估图像编辑系统:物理、环境、文化、因果和指代。RE-Edit包含1,000个精心策划的样本,每个样本的设计都确保仅凭视觉合理性不足以完成正确编辑,正确编辑需要满足隐式逻辑约束。为支持细粒度分析,我们建立了维度对齐的评价标准,并对十个开源模型和两个商业图像编辑模型进行了全面研究。我们的结果表明,即使是先进的系统,尽管能生成高质量的视觉结果,也常常在隐式多维推理上遇到困难。我们进一步提出了一种轻量级的推理引导后编辑基线作为初步探索,展示了插入显式推理如何以模型无关的方式帮助缓解此类失败。
离策略强化学习对预训练流策略进行微调仍面临挑战,其根源在于多步采样过程导致优化不稳定。近期,伴随匹配Q学习(QAM)通过将问题转化为带学习评论家的无记忆随机最优控制(SOC)问题解决了这一难题。然而,QAM继承了评论家引导改进的固有脆弱性:当评论家处于病态时,微小的评论家误差会被放大,常导致模型崩塌。本文提出信任域伴随匹配Q学习(TRQAM)——一种稳定的离策略微调算法,通过投影对偶下降自适应控制预训练流策略的路径空间KL散度。具体而言,我们优化SOC动力学中的信任域参数λ,并从理论上证明路径空间KL散度可由λ的闭式函数表示。由此,本方法能精确控制与预训练流策略的偏差量,实现稳定的离策略强化学习。在50项OGBench任务上的实验表明,TRQAM在离线强化学习和离线到在线强化学习场景中均持续超越现有方法。特别地,TRQAM在离线强化学习中实现了68%的整体成功率,较最强基线(46%)取得显著提升。
本文研究了在与自适应对手(可根据历史博弈过程做出反应)进行重复博弈时的遗憾最小化问题。已知在线学习中的标准外部遗憾指标无法捕捉这种自适应性。为考量参与者的反事实推理,我们引入了 {\tt 重复策略遗憾(RP-Regret)},这是一种博弈论指标,用于衡量当所有参与者都能对博弈历史做出反应时,实际累积效用与历史最优累积效用之间的差异。相较于现有该情境下的遗憾概念,我们的指标更贴近重复博弈的原始特性,允许更强的比较器与约束更少的对手,同时保持所有参与者最小化该指标时能发现更优均衡的可能性。我们首先确定了实现时间亚线性 {\tt RP-Regret} 的必要条件:这些条件涉及遗憾定义中参与者比较器策略的变异性,以及比较器与对手策略的记忆范围。随后,我们研究了最小化 {\tt RP-Regret} 的其他条件与可证明算法——该指标在策略空间上天然具有非凸性。为应对这一挑战,我们提出三种算法:(i)基于优化预言机的方法(部分先前在线非凸学习研究曾采用此假设);(ii)每次迭代中最小化 {\tt RP-Regret} 凸线性化代理变量的方法;(iii)当对手策略缓慢变化时直接最小化 {\tt RP-Regret} 的方法。此外,当所有参与者运行最小化 {\tt RP-Regret}(或其线性化变体)的算法时,可习得重复博弈的特定子博弈完美均衡。实验表明,最小化我们的遗憾指标可引导出诸如“猎鹿博弈”等游戏中的更高效用合作解。
基准测试通过提供标准化且明确的性能度量,对于评估和推进大语言模型及多模态大语言模型至关重要。然而,其构建过程劳动密集且难以复用,引发了对可持续性和可扩展性的担忧。此外,现有基准测试在发布后往往迅速达到性能饱和,导致对先进模型的区分能力不足。为应对这些挑战,我们提出基准测试智能体(Benchmark Agent),一种专用于基准构建的完全自主智能体系统。该框架统筹管理从用户查询分析、子任务设计到数据标注和质量控制的完整基准构建流程。为评估基准测试智能体,我们将其应用于生成15个代表性基准,涵盖文本理解、多模态理解及领域特定推理等多种评估场景。通过人类评估、大语言模型作为裁判的评估以及一致性检查等大量实验表明,基准测试智能体能够以最少人工参与生成高质量的基准样本。更重要的是,通过持续评估,我们观察到若干富有洞见的发现,包括当前模型在特定领域推理任务中仍存在困难。我们相信,快速演进的基准测试将为研究社区做出重要贡献。预览版本和代码将在演示页面和代码仓库中公开提供。
大型语言模型在基础算术运算中表现出矛盾的脆弱性,暗示内部计算与离散输出之间存在脱节。通过分析多操作数加法过程中的残差流几何结构,我们识别出等原始和轨迹(IRST)——一种表示由语义数字锚定并由连续进位纤维调制的几何结构。我们提出噪声量化模型来解释这一几何形态,将算术错误归因于几何滑移,即内部神经噪声推动连续的潜在进位势跨越量化阈值。该几何框架进一步阐明了探针多功能性,解释了轻量探针如何从单一激活向量中解开共存的潜在信号(如真实值与幻觉)。最后,我们通过一种几何一致性检查方法验证这些洞见,该方法能在推理过程中有效检测并纠正这些量化失败。我们的代码可在 https://github.com/RL-MIND/Shape-of-Addition 获取。
具备网络搜索能力的自主型LLM改变了文本匿名化的威胁模型:微弱的上下文线索可能成为可交叉引用的重新识别证据,但同样的细节也承载着文本的下游分析价值。现有防御手段要么移除显式标识符,要么对文本进行扰动以实现形式化隐私保护,要么针对非网络推理模型测试改写文本,均未充分探索在抵御自主型网络搜索重新识别与保留实用价值之间的操作空间。我们提出AURA(保留实用性的自适应匿名化框架),这是一个基于LLM的掩码-重构框架,将隐私定位与保留实用性的重构解耦,并通过对抗性隐私检查与实用性保留检查筛选候选方案。我们利用网络搜索代理执行的重新识别攻击对真实用户访谈记录进行AURA评估,同时基于受访者档案事实、编码手册事实及联合上下文实用性网格开展实用性评估。结果表明,AURA通过自适应隐私范围增强对自主型重新识别的抵抗能力,并在固定隐私范围内采用掩码-重构匿名化方法更好地保留上下文实用性,从而优化了隐私-实用性边界。
在视觉-语言模型中处理视频成本高昂:每一帧占用数百个令牌,推理成本随每一帧和每次重复查询而增加。我们提出Video2LoRA,一种用于参数化视频内化的方法。感知器超网络在冻结的视觉-语言模型编码视频时,逐层读取其生成的中间表示,并在单次前向传播中生成低秩适配器。与需要迭代梯度更新的标准LoRA微调不同,Video2LoRA直接从视频预测这些权重。该模型针对SmolVLM2 500M和2.2B参数版本进行视频摘要和字幕生成训练后,使得相同的冻结视觉-语言模型能够仅凭适配器回答查询,在查询时上下文中包含零个视觉令牌。在所有五个字幕生成基准测试中,Video2LoRA在两个模型规模上均与直接视频上下文推理在统计上非劣效且等价;在八个视频问答基准测试-模型规模配对中的七个上也是如此。尽管仅基于12帧、分辨率为384像素进行训练,Video2LoRA在多达1024帧和1024像素分辨率下仍保持稳定,而直接视频上下文推理在此条件下往往退化。通过这一扫描实验,它将回答时的视觉令牌负载最多减少1500倍,查询首令牌延迟减少6-80倍,同时保持视频忠实输出。我们还发现,针对非重叠视频片段独立生成的适配器可以在秩空间中组合,这为分块长视频内化开辟了路径。
金融AI智能体常因一个简单原因而失败:它们让用户承担复杂性。用户必须反复陈述目标、风险偏好、投资组合情境、过往判断及不断变化的市场假设,而智能体则执行应答、检索、操作并遗忘。在金融领域,这不仅是便利性问题——在市场分析、跟单交易审查及交易准备等任务中,被遗忘的情境和过时的记忆会引发延迟、重复错误、审计能力薄弱及不安全决策。 我们提出交互原生知识整合框架(InKH),这是一种金融LLM智能体架构,将复杂性吸收至系统内部。InKH将用户、市场、投资组合及工具事件转化为结构化运行知识。它采用被动知识注入,在主模型步骤前构建有界工作上下文缓冲区;运用时序图记忆实现低延迟检索;构建维基审计界面支持人类可读治理;并实现背景提取机制,具备成熟度、衰减及写入时失效特性。 我们在可复现的受控合成基准上对InKH进行评估,采用24个随机种子、4轮次、每轮80个回合及6个基线,生成46,080个基线条件评估。InKH在900毫秒延迟下达到0.815的平均任务质量。与智能体驱动的维基漫步记忆相比,延迟降低82.95%,令牌成本降低82.29%,过时知识使用率降低96.58%,同时质量提升0.108,可追溯性提升0.461。与无失效机制的时序图系统相比,质量提升0.050,过时记忆使用率降低96.58%,服务成本相当。 研究结果支撑金融AI的设计核心理念:当复杂性被系统而非用户承担时,采用率才会提升。该基准验证的是架构层级的行为表现,而非实盘交易性能。
基于可验证奖励的强化学习(RLVR)近期已成为塑造大语言模型(LLMs)卓越编码能力的关键技术。然而,RLVR的可扩展性受到严重制约,其根源在于针对模型能力边界附近、具备充分挑战性且可验证的代码任务极度匮乏。现有研究常依赖启发式种子扩展进行数据合成,严重限制了任务的新颖性与难度,导致此类数据的训练价值无法随合成规模同步提升。为此,我们提出原子分解与重组框架(ADR),通过将任务分解为原子元素并进行可控重组来生成可验证的代码任务,从而能够生成真正新颖且具有挑战性的可验证代码任务。实验与分析表明,相较于现有基线方法,ADR在原创性、难度、多样性和测试质量方面均具有显著优势,并在算法编程、工具使用和数据科学等多样化下游领域的RLVR训练中持续带来更显著的代码能力提升。本研究为新型代码任务合成与可扩展RLVR训练开辟了新范式。
音乐推荐系统通常将歌曲视为不透明标识符,依赖协同交互历史,这忽视了语义或声学内容。已有研究探索了大语言模型增强、多模态和文本增强的序列推荐方法,虽然部分方法结合了语义、声学或参与度信号,但尚无工作在统一的基于大语言模型的序列推理框架中联合建模这三种信号,并使推荐扎根于实际歌曲内容。在本研究中,我们提出了一种用于会话式音乐推荐的多模态框架,通过三种互补信号丰富了LastFM-1K数据集:(1) 利用预训练音乐和文本表示模型提取的音频与歌词嵌入;(2) 采用MGPHot标注架构生成的大语言模型语义元数据;(3) 收听完成率。我们采用E4SRec框架,通过扩展多模态特征及不同项目ID编码器主干(包括SASRec、BERT4Rec和GRU4Rec)进行实现。此外,我们在零样本和微调设置中进一步扩展了大语言模型主干选项,包含LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B。实验表明,整合基于内容的特征相比仅使用ID的基线方法,在召回率上提升最高达95%,在归一化折损累计增益上提升最高达79%。同时,实验显示朴素的多模态融合并不总能带来累加性改进,凸显了跨模态整合的挑战。我们发布了一个用于音乐推荐的大规模多模态基准数据集。
大型语言模型正越来越多地被部署为编码代理,从而使安全性关注点从单个响应转向动作序列。然而,现有基准主要评估模型是否拒绝不安全提示,极少检验模型对带状态工作空间的实际影响。为此,我们提出SABER基准,这是一种面向环境感知的操作安全性评估框架,它将模型置于真实的代理风格项目中,通过一系列动作后的最终环境状态来评估安全性。除了二元的安全违规报告外,SABER还按原因对违规进行分类,从而能够分析不同模型的特定安全特征。我们的评估表明,即使性能最佳的模型,其有害安全违规率(HSR)也超过54%,这表明当前的模型对齐策略仍不足以应对真实项目环境。SABER还揭示了不同模型间截然不同的安全特征。本基准已公开于https://github.com/sssr-lab/saber。
AI研究往往需要在尚未获得未来证据时做出决策:攻击哪个瓶颈、探索哪个方向,或项目应如何定位。我们提出ForeSci——一个时间可控的基准测试,用于评估LLM智能体能否基于历史证据做出这类前瞻性研究判断。ForeSci包含覆盖四个快速发展的AI领域和四种决策类型的500项任务。每项任务配有时间节点对齐的离线知识库;截止日期后的论文在生成阶段被隐藏,仅用于验证。为避免随机预测未来事件,任务基于截止日期前的分类分支和证据信号构建,且答案生成主干的选择先于任务截止时间。我们评估了原生LLM、混合RAG以及四种主干模型下的三种研究智能体适配方案。结果表明,显式证据组织提升了可追溯性和事实支撑能力,但提升效果高度依赖决策类型。诊断揭示出反复出现的"证据-决策解耦"现象:智能体在预测错误的研究对象时可能引用相关证据。ForeSci将前瞻性AI研究判断转化为可控基准,用于评估研究智能体作为决策系统的表现。
训练精确的医学图像分割模型需要大量密集标注数据,获取这类数据成本高昂且耗时。半监督学习通过同时利用大量未标注数据和少量标注数据进行学习,有效缓解了这一问题。然而,现有大多数半监督方法依赖伪标签处理未标注数据,并通常通过模型置信度或不确定性评估其可靠性——这些评估方式具有自我参照性,缺乏对分割质量的明确判定依据。为此,我们提出了一种质量引导的半监督学习框架,该框架训练专用网络从图像-掩膜对中估计分割质量。质量预测器基于通过合成数据损坏生成的变质量掩膜(结合部分训练分割模型产生的不完美输出)进行训练,能够捕获训练过程中出现的真实错误模式。我们通过两种互补机制将质量预测器融入半监督学习:质量感知正则化损失与基于质量的伪标签样本重加权方案。实验表明,该方法可作为即插即用式增强模块嵌入现有半监督框架。在五个数据集和多种架构上的广泛实验证明,该方法相较于现有半监督方法具有持续优势,推动了半监督医学图像分割领域的最新技术水平发展。
学习CAD模型的表示在很大程度上是一个尚未解决的问题。尽管三维表示学习已围绕点云和网格蓬勃发展,但CAD的原生格式——边界表示(BReps),即编码精确参数化曲面、曲线及其拓扑结构的方式,作为表示学习的基底却鲜受关注。我们提出BRepCLIP,这是首个通过对比预训练将BRep几何与语言及图像嵌入对齐的框架。我们将每个CAD对象建模为一系列面片和边标记序列,并分别为曲面和曲线几何建立独立的离散词汇表,同时辅以捕捉曲面类型(如圆柱面、圆环面、NURBS曲面)和曲线基元(如直线、圆弧、B样条曲线)的空间与语义描述符。一个Transformer编码器将这些标记聚合为全局BRep嵌入,并通过联合对比目标与CLIP的文本和图像编码器对齐。BRepCLIP生成的嵌入比现有基于点云的替代方法更具判别性和语义基础,在ABC、CADParser和Automate数据集上,Top-1检索性能相较于OpenShape分别提升40.4%、22.0%和23.9%,并在FabWave数据集上的零样本分类Top-1得分提升15%。我们进一步展示了其作为CAD感知相似度度量在评估文本和图像条件CAD生成中的实用性,突显了结构感知预训练对于多模态CAD理解的重要性。项目页面见https://muhammadusama100.github.io/BrepClip2026/。