每日精选AI研究论文及翻译
奖励反馈学习(ReFL)已被证明能有效对齐图像生成与人类偏好,但其在视频生成领域的扩展面临重大挑战。现有视频奖励模型依赖为像素空间输入设计的视觉语言模型,这导致ReFL优化被限制在计算成本高昂的VAE解码后接近完成的去噪阶段。这种像素空间方法不仅带来巨大的内存开销和训练时间延长,其后期优化缺乏早期监督机制,仅能改善视觉质量而无法优化基础运动动态与结构连贯性。本研究证明,预训练视频生成模型天然适用于噪声潜在空间的奖励建模,因为它们专为处理任意时间步的噪声潜在表示而设计,且通过序列建模能力固有地保留时序信息。基于此,我们提出过程奖励反馈学习(PRFL),该框架完全在潜在空间中进行偏好优化,无需VAE解码即可实现全去噪链的高效梯度反向传播。大量实验表明,PRFL在显著提升人类偏好对齐度的同时,相较RGB ReFL实现了内存消耗与训练时间的大幅降低。
尽管现代扩散模型在生成高质量、多样化图像方面表现出色,但在实现高保真度的组合式与多模态控制方面仍存在挑战,特别是当用户需要同时指定文本提示、主体参照、空间布局、姿态约束和版式标注时。我们推出Canvas-to-Image这一统一框架,将异构控制信号整合至单一画布界面,使用户能够生成精准反映创作意图的图像。其核心创新在于将多样控制信号编码为复合画布图像,使模型能够直接进行视觉空间推理。我们进一步构建了多任务数据集,并提出多任务画布训练策略,通过统一学习范式优化扩散模型对异构控制信号的理解与整合能力。这种联合训练使Canvas-to-Image能够跨多控制模态进行推理,而非依赖任务特定启发式方法,并在推理阶段对多控制场景展现出优秀泛化能力。大量实验表明,在多人组合、姿态控制合成、布局约束生成及多控制生成等挑战性基准测试中,Canvas-to-Image在身份保持与控制遵循度方面显著优于现有最优方法。
具身认知理论主张智能源于感知运动交互而非被动观察。这引发了一个耐人寻味的问题:主要在非具身方式下训练的现代视觉语言模型(VLM)是否展现出具身认知的特征?我们推出ENACT基准测试,通过视觉问答(VQA)形式将具身认知评估转化为基于第一人称交互的世界建模。该框架被构建为动作即场景图变化的部分可观测马尔可夫决策过程(POMDP),包含两项互补的序列重组任务:前向世界建模(根据动作重排乱序观察)和逆向世界建模(根据观察重排乱序动作)。这些任务虽概念简洁,但求解过程隐含着对具身认知核心能力的要求——可供性识别、动作效果推理、具身意识,以及从部分可观测的第一人称输入中实现交互式长时程记忆,同时规避可能干扰评估的低层级图像合成。我们开发了可扩展流程,从机器人仿真平台(BEHAVIOR)生成问答对,并在涵盖长时程家庭场景活动的8,972组问答对上评估模型。实验显示前沿VLM与人类表现存在差距,且该差距随交互时长增加而扩大。模型在逆向任务中的表现持续优于前向任务,并显现出人类中心偏见——包括对右手动作的偏好,以及当相机参数或视角偏离人类视觉时性能下降。项目网站:https://enact-embodied-cognition.github.io/。
语言理解不仅需要提取语言输入的表层含义,更需构建其所描述情境的丰富心智模型。本文提出,由于大脑核心语言系统的处理能力存在根本局限,深度理解语言需要将信息从语言系统输出至其他脑区——这些区域负责计算感知与运动表征、构建心智模型,并存储我们的世界知识与自传体记忆。我们回顾了支持该假说的现有证据,指出认知神经科学的最新进展既提供了理论基础,也创造了直接验证假说的研究方法,从而开辟了新路径以揭示语言理解在认知与神经层面的本质内涵。
指令引导的图像编辑为用户提供了一种直观的自然语言图像修改方式。然而,基于扩散的编辑模型往往难以准确解析复杂的用户指令——特别是涉及组合关系、上下文线索或指代表达的指令,导致编辑结果出现语义偏差或无法体现预期修改。我们通过提出MIRA(多模态迭代推理智能体)来解决这一问题:该轻量级即插即用多模态推理智能体通过"感知-推理-行动"的迭代循环执行编辑,有效模拟了多轮人机交互过程。与单次提示或静态规划不同,MIRA通过视觉反馈逐步预测原子级编辑指令。基于15万规模的多模态工具使用数据集MIRA-Editing及"SFT+GRPO"两阶段训练流程,MIRA能够对复杂编辑指令进行推理和编辑。当与Flux.1-Kontext、Step1X-Edit、Qwen-Image-Edit等开源图像编辑模型配合使用时,MIRA在语义一致性和感知质量上均实现显著提升,其性能达到甚至超越了GPT-Image、Nano-Banana等专有系统。
大型多模态模型(LMMs)因其强大的指令遵循能力以及与人类偏好的一致性,正日益被用作多模态评估系统的评判者。然而,这些模型在遵循多样化、细粒度评估标准方面的能力仍有待深入探索。我们开发了Multi-Crit基准,用于评估多模态评判者在遵循多元化标准并生成可靠标准级判断方面的能力。该基准涵盖开放式生成与可验证推理任务,通过严格的数据筛选流程构建,收集了具有多标准人工标注的挑战性响应对,并引入三项创新指标系统评估:多元标准遵循度、标准切换灵活性以及识别标准级偏好冲突的能力。对25个LMM模型的综合分析表明:1)专有模型在保持对多元标准的一致性遵循方面仍存在困难——尤其在开放式评估中;2)开源模型在灵活遵循多样化标准方面差距更为显著;3)基于整体判断信号的评判微调虽能增强视觉定位能力,但无法泛化至多元标准级判断。针对推理微调、测试时扩展以及开源与专有模型边界一致性的进一步分析,揭示了当前多模态评判者的能力局限。作为开创性研究,Multi-Crit为构建可靠且可调控的多模态人工智能评估体系奠定了基础。
多模态大语言模型在独立查询中展现出强大的推理能力,但其运行方式仍处于"从零开始"状态——每个问题都独立求解,且常常重复相同错误。现有的记忆增强智能体主要存储过往轨迹以供复用,然而基于轨迹的记忆存在简略性偏差,会逐渐丢失关键领域知识。更严重的是,即使在真正的多模态问题解决场景中,此类记忆也仅记录单模态的行为轨迹,未能保留视觉注意力与逻辑推理如何协同促成解决方案。这与人类认知存在根本性错位:语义记忆具有多模态与集成化特性,通过协调而独立的表征流同时保存视觉与抽象知识。 为此,我们提出ViLoMem双流记忆框架,构建基于图式的紧凑型记忆系统。该框架分别编码视觉分心模式与逻辑推理错误,使多模态大语言模型能够从成功与失败经验中学习。遵循"生长-优化"原则,系统以增量方式积累并更新多模态语义知识——在保持稳定、可泛化策略的同时避免灾难性遗忘。在六大多模态基准测试中,ViLoMem持续提升pass@1准确率,并显著减少重复性视觉与逻辑错误。消融实验证实了具有显式分心-幻觉分离的双流记忆的必要性,证明了错误感知型多模态记忆在终身学习与跨领域智能体学习中的价值。项目页面详见https://weihao-bo.github.io/ViLoMeo-page。