每日精选AI研究论文及翻译
记忆对于人工智能代理至关重要,然而广泛采用的静态记忆机制,旨在预先创建随时可用的记忆,不可避免地会遭受严重的信息损失。为解决这一局限,我们提出了一种名为通用代理记忆(GAM)的新框架。GAM遵循“即时编译(JIT)”原则,在运行时专注于为其客户端创建优化的上下文,同时在离线阶段仅保留简单但有用的记忆。为此,GAM采用了一种双组件设计,包括:1)记忆器,通过轻量级记忆突出关键历史信息,同时在通用页面存储中维护完整的历史信息;2)研究者,在预构建记忆的指导下,从页面存储中检索并整合有用信息以响应在线请求。这一设计使GAM能够有效利用前沿大语言模型(LLMs)的代理能力和测试时扩展性,同时通过强化学习促进端到端性能优化。在我们的实验研究中,我们展示了GAM在各种基于记忆的任务完成场景中,相较于现有记忆系统,实现了显著的性能提升。
人类能够通过在不同动态、观测和奖励结构的世界中学习底层规则,自然适应多样化环境。相比之下,现有智能体通常通过在单一领域内自我进化实现改进,这种模式隐含着环境分布固定的前提假设。跨环境学习能力至今缺乏系统评估:既没有可控异构环境的标准集合,也缺乏统一表征智能体学习过程的方法。我们通过两个步骤填补这些空白:首先提出AutoEnv自动化框架,将环境建模为可分解的转移函数、观测空间和奖励结构的概率分布,实现低成本(平均4.12美元)生成异构世界。基于该框架,我们构建了包含36个环境、358个验证场景的AutoEnv-36数据集,七个语言模型在该数据集上仅获得12-49%的标准化奖励,证明了其挑战性。其次,我们将智能体学习形式化为以组件为核心的进程,包含选择、优化、评估三个阶段作用于可改进的智能体组件。基于此形式化框架,我们设计了八种学习方法并在AutoEnv-36上进行评估。实验表明,随着环境数量增加,任何单一学习方法的收益都会快速衰减,揭示固定学习方法无法适应异构环境扩展。虽然环境自适应学习方法选择能显著提升性能,但随着方法空间扩展会出现收益递减。这些结果既凸显了智能体学习对可扩展跨环境泛化的必要性,也揭示了当前方法的局限性,从而将AutoEnv与AutoEnv-36确立为研究跨环境智能体学习的测试平台。代码已开源:https://github.com/FoundationAgents/AutoEnv。
像素扩散方法旨在以端到端方式直接在像素空间生成图像。该方法规避了双阶段潜在扩散中VAE的局限性,具备更高的模型容量。现有像素扩散模型因通常采用单一扩散变换器同时建模高频信号与低频语义,存在训练和推理速度缓慢的问题。为探索更高效的像素扩散范式,我们提出频率解耦像素扩散框架。基于高低频分量生成解耦的直觉,我们利用轻量级像素解码器在DiT语义引导下生成高频细节,从而使DiT专注于低频语义建模。此外,我们引入频率感知流匹配损失函数,强化视觉显著频率的生成同时抑制非显著分量。大量实验表明,DeCo在像素扩散模型中实现卓越性能,在ImageNet上达到1.62(256×256)和2.22(512×512)的FID指标,显著缩小了与潜在扩散方法的差距。进一步地,我们预训练的文本到图像模型在系统级对比中以0.86的综合得分在GenEval榜单领先。代码已开源:https://github.com/Zehong-Ma/DeCo。
深度研究模型通过多步骤研究过程生成具有充分引证的长篇答案。然而当前多数开源深度研究模型基于可验证奖励的强化学习(RLVR)在易于验证的短问答任务上训练,这种模式难以扩展到现实中的长篇任务。我们提出"基于演化评估标准的强化学习"(RLER)解决方案,通过构建与策略模型协同演进的评估体系,使评估标准能够整合模型新探索的信息并提供具有区分度的同策略反馈。基于RLER方法,我们开发出Deep Research Tulu(DR Tulu-80亿参数),这是首个专门针对开放式长篇深度研究任务直接训练的开源模型。在科学、医疗和通用领域的四大长篇深度研究基准测试中,DR Tulu显著超越现有开源深度研究模型,与商用深度研究系统持平或更优,而模型体积和单次查询成本显著降低。为促进后续研究,我们完整开源所有数据、模型及代码,包括基于MCP的新型深度研究系统智能体架构。
计算机使用代理(CUA)通过图形用户界面(GUI)自主操作数字环境的能力日益增强。然而,大多数GUI仍主要面向人类设计——优先考虑美观性和可用性——迫使代理采用对人类必要但不利于高效任务执行的操作方式。与此同时,面向编程的语言模型(Coder)的快速发展正在改变自动GUI设计范式。这引出一个核心问题:能否以CUA作为评判者来辅助Coder进行自动GUI设计?为探索该问题,我们推出AUI-Gym基准测试集,涵盖52个跨领域应用的自动GUI开发任务。基于语言模型,我们合成了模拟真实场景的1560项任务。为确保任务可靠性,我们进一步开发了可通过编程验证各任务在对应环境中可执行性的检查器。在此基础上,我们提出“编码者-代理协同”框架:Coder担任设计者角色,生成并迭代网站方案;CUA作为评判者,评估功能实现并优化设计。成功标准并非视觉呈现,而是以任务可解性与CUA导航成功率为衡量依据。为将CUA反馈转化为可操作指导,我们设计了CUA仪表盘,将多步导航历史压缩为简洁的可视化摘要,为迭代重设计提供可解释的指引。通过让代理同时担任设计者与评判者,我们的框架将界面设计推向面向代理原生效率与可靠性的新范式。本研究推动代理从被动使用转向数字环境的主动参与。代码与数据集详见https://github.com/showlab/AUI。
扩散变换器近期已在约1K分辨率下实现了强大的文本到图像生成,但我们发现将其原生扩展至4K分辨率并覆盖多种宽高比时,会暴露出一个涉及位置编码、VAE压缩和优化策略的紧密耦合失效模式。单独解决其中任一因素仍会遗留大量质量问题。为此,我们采用数据-模型协同设计视角,推出基于Flux架构的UltraFlux扩散变换器——该模型在MultiAspect-4K-1M数据集上原生训练至4K分辨率。该数据集包含100万张4K图像,具备可控的多宽高比覆盖、双语标注文本,以及丰富的视觉语言模型/图像质量评估元数据,支持分辨率与宽高比感知的采样策略。在模型层面,UltraFlux融合了四大创新:(i) 采用Resonance 2D RoPE与YaRN相结合的位置编码技术,实现训练窗口感知、频率感知及宽高比感知的4K位置编码;(ii) 通过简洁的非对抗式VAE训练后优化方案提升4K重建保真度;(iii) 设计信噪比感知的Huber小波损失函数,重新平衡不同时间步与频带间的梯度分布;(iv) 引入分阶段美学课程学习策略,将高美学质量的监督信号集中作用于模型先验主导的高噪声步。这些组件共同构建出稳定且细节保持能力出色的4K扩散变换器,可泛化至宽屏、方形及竖屏等多种宽高比。在4096分辨率的美学评估基准测试及多宽高比4K生成任务中,UltraFlux在保真度、美学品质与语义对齐指标上持续超越主流开源基线模型,结合大型语言模型提示词优化器后,其性能更可媲美或超越商用模型Seedream 4.0。
近期,大规模视频生成模型展现出强大的视觉能力,能够根据当前观察中的逻辑与物理线索预测符合逻辑的未来帧。本研究探讨如何将这种能力应用于可控的图像到视频生成——通过将帧内嵌入的视觉信号解读为指令,我们将其称为"视频内指令"范式。与基于文本提示的全局性粗粒度控制不同,视频内指令通过叠加文字、箭头或轨迹等元素,将用户引导直接编码至视觉域。该方法通过为不同物体分配独立指令,在视觉主体与预期动作之间建立显式、空间感知且无歧义的对应关系。在Veo 3.1、Kling 2.5和Wan 2.2三种前沿生成器上的大量实验表明,视频模型能够可靠地解析并执行此类视觉嵌入指令,尤其在复杂多物体场景中表现突出。
扩展测试时计算量可提升大语言模型(LLM)在不同任务上的表现,这一策略已被延伸至工具增强型智能体领域。对于这类智能体而言,扩展不仅涉及基于标记的“思考”,还包括通过工具调用的“行动”。工具调用次数直接制约着智能体与外部环境的交互程度。然而我们发现,单纯增加工具调用预算并不能提升性能,因为智能体缺乏“预算意识”,会迅速触及性能天花板。为解决该问题,我们以网络搜索智能体为研究对象,探索在明确工具调用预算下如何有效扩展智能体能力。我们首先提出预算追踪器——一种轻量级插件,可为智能体提供持续的预算感知,实现简单而有效的扩展。进一步我们开发了BATS(预算感知型测试时扩展)框架,该高级框架利用预算意识动态调整其规划与验证策略,根据剩余资源决定是沿着有效线索“深入挖掘”还是“转向”新路径。为系统分析成本与性能的缩放关系,我们建立了统一成本度量标准,同步计算标记与工具消耗。我们首次对预算约束型智能体开展系统性研究,表明具备预算意识的方法能产生更优的扩展曲线,并推动成本-性能帕累托边界外移。本研究通过实证分析为工具增强型智能体的扩展机制提供了更透明、更规范的理解路径。
视觉语言模型(VLMs)在语言空间推理方面表现出色,但在需要密集视觉感知的认知理解(如空间推理与几何意识)方面仍存在不足。这一局限源于当前视觉语言模型缺乏跨空间维度捕捉密集视觉信息的有效机制。我们提出视觉思维链(COVT)框架,使视觉语言模型不仅能通过语言推理,还能借助连续视觉标记——一种编码丰富感知线索的紧凑潜在表征。在约20个标记的有限预算内,COVT从轻量级视觉专家模型中蒸馏知识,捕获二维外观、三维几何、空间布局和边缘结构等互补特性。训练过程中,搭载COVT的视觉语言模型通过自回归预测这些视觉标记,以重建密集监督信号(如深度图、分割图、边缘图和DINO特征)。推理阶段,模型直接在连续视觉标记空间中进行推理,在保持高效性的同时可选择性解码密集预测结果以提升可解释性。在涵盖CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA、HRBench等十余个多样化感知基准测试中,将COVT集成至Qwen2.5-VL和LLaVA等强视觉语言模型后,性能持续提升3%至16%,证明紧凑的连续视觉思维能实现更精准、可落地且可解释的多模态智能。
我们推出HunyuanVideo 1.5——一款轻量而强大的开源视频生成模型,仅83亿参数即可实现业界领先的视觉质量与运动连贯性,并能在消费级GPU上高效推理。这一成果基于多项核心技术:精细化的数据筛选、采用选择性滑动分块注意力机制(SSTA)的先进DiT架构、通过字形感知文本编码增强的双语理解能力、渐进式预训练与后训练策略,以及高效的视频超分网络。依托这些设计,我们构建了能够跨时长与分辨率生成高质量文生视频/图生视频的统一框架。大量实验表明,这款紧凑而精悍的模型在开源视频生成领域树立了全新标杆。通过公开代码与模型权重,我们为社区提供了高性能基础平台,显著降低视频创作与研究门槛,使更广泛的用户能够接触尖端视频生成技术。所有开源资源已发布于https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5。
可靠的奖励函数对于图像生成中的强化学习至关重要。当前大多数强化学习方法依赖于预训练的偏好模型,这些模型通过输出标量奖励来近似人类偏好。然而,这些奖励往往难以准确捕捉人类感知,且容易遭受奖励破解——即更高的分数并不对应更好的图像质量。为此,我们提出Adv-GRPO框架,该框架采用对抗性奖励机制,通过迭代更新奖励模型和生成器来解决问题。奖励模型以参考图像作为正样本进行监督训练,能有效规避破解风险。与通过KL散度正则化约束参数更新的方式不同,我们学习的奖励直接通过视觉输出指导生成器,从而产生更高质量的图像。 尽管优化现有奖励函数可缓解奖励破解问题,但其固有偏差依然存在。例如PickScore可能降低图像质量,而基于OCR的奖励常会损害美学保真度。为解决这一问题,我们将图像本身作为奖励信号,利用参考图像和视觉基础模型(如DINO)提供丰富的视觉奖励。这些密集的视觉信号替代单一标量奖励,在图像质量、美学评价和任务特定指标上实现持续提升。此外,结合参考样本与基础模型奖励的方法支持分布迁移和灵活的风格定制。在人类评估中,我们的方法在图像质量和美学维度分别以70.0%和72.4%的胜率超越Flow-GRPO与SD3。代码和模型均已开源。
尽管放射学在现代医学中扮演着关键角色,但影像检查量的增长速度已远超放射科医师队伍的增长。基础模型为辅助完成各类放射学任务提供了可行路径,但现有医学模型仍存在局限:将三维CT和MRI视为低分辨率二维切片处理、丢弃关键灰度对比信息,且缺乏反映真实临床场景的评估框架。我们推出Pillar-0放射学基础模型——基于某大型学术中心的42,990例盆腹部CT、86,411例胸部CT、14,348例头部CT及11,543例乳腺MRI预训练而成,同时提出RATE框架,能利用大语言模型以近100%准确率提取366种放射学征象的结构化标签。在包含14,230例盆腹部CT、10,646例胸部CT、4,906例头部CT及1,585例乳腺MRI的内部测试集上,Pillar-0创下性能新纪录,平均AUROC分别达86.4、88.0、90.1和82.9,以7.8-15.8个AUROC分值优势超越MedGemma(谷歌)、MedImageInsight(微软)、灵枢(阿里巴巴)及Merlin(斯坦福),并在87.2%(319/366)的任务中位列第一。在斯坦福腹部CT数据集的外部验证中,Pillar-0同样以82.2对80.6的AUROC值超越所有基线模型。该模型还能胜任预训练范围之外的任务,例如在肺癌长期风险预测中,其于NLST数据集上较当前最优模型Sybil提升3.0个C指数,在MGH和CGMH数据集分别实现5.9和1.9的泛化增益;在脑出血检测任务中,仅需次优基线模型1/20的数据量即可获得超过95的AUROC。Pillar-0与RATE共同构建了开放、临床严谨的高性能放射学系统基础,突破了以往因算力、数据及评估限制难以实现的应用场景。
扩散变换器在视觉合成领域展现出卓越能力,但在高级语义推理和长程规划方面仍存在不足。这种局限性常导致视觉幻觉现象以及与用户指令的错位,尤其涉及复杂场景理解、人物-物体交互、多阶段动作和情境运动推理的场景。为应对这些挑战,我们提出Plan-X框架,通过显式强化高级语义规划来指导视频生成过程。其核心是语义规划器——一个可学习的多模态语言模型,能够基于文本提示和视觉上下文对用户意图进行推理,并自回归生成一系列基于文本的时空语义标记。这些语义标记与高级文本提示引导形成互补,随时间推移构成视频扩散模型的结构化"语义草图",而后者擅长合成高保真视觉细节。Plan-X有效融合了语言模型在多模态情境推理与规划方面的优势,以及扩散模型在逼真视频合成方面的特长。大量实验表明,我们的框架能显著减少视觉幻觉,实现与多模态语境一致、符合指令要求的细粒度视频生成。
多智能体系统在通用推理任务中表现出色,但在专业领域的训练缺失制约了其准确性。当前训练方法为系统中所有智能体训练统一的大语言模型(LLM),由于不同智能体底层数据分布的差异,这种模式可能限制系统性能。因此,采用差异化LLM训练多智能体系统应成为下一步研究方向。然而该方法会引入新的优化挑战:智能体运行频率不同、任务执行过程中涉及可变子智能体调用、且智能体常部署于独立服务器导致端到端梯度流中断。针对这些问题,我们提出M-GRPO——面向垂直多智能体系统(包含主智能体规划器和多轮工具执行子智能体)的群组相对策略优化分层扩展框架。M-GRPO通过计算主智能体与子智能体的群组相对优势度实现分层信用分配,并设计轨迹对齐方案以应对可变子智能体调用产生的批次尺寸差异。我们部署了去耦合训练管道,使智能体可在独立服务器运行,仅通过共享存储交换最小统计量,实现无需跨服务器反向传播的可扩展训练。在真实场景基准测试(如GAIA、XBench-DeepSearch和WebWalkerQA)中,M-GRPO在稳定性和样本效率上均优于单智能体GRPO及子智能体冻结的多智能体GRPO。结果表明,对齐异构轨迹与去耦合专业化智能体优化能有效增强工具增强型推理任务性能。
我们推出首个基于模型上下文协议的多模态工具使用评估基准M^3-Bench。该基准针对需要视觉定位与文本推理、跨工具依赖关系以及中间资源跨步骤持久化的现实场景多跳多线程工作流。我们提出相似度驱动的对齐方法:序列化每个工具调用,通过句子编码器嵌入函数签名,并执行基于相似度分桶的匈牙利匹配以获取可审计的一一对应关系。在此对齐基础上,我们报告可解释的度量指标,将语义保真度与工作流一致性解耦分析。该基准涵盖28个服务器共231个工具,通过经过人工验证的"执行器-评判器"流水线提供标准化轨迹;辅助性四大语言模型评审团同步报告终端任务完成度与信息锚定质量。对代表性前沿多模态大模型的评估表明,其在多模态MCP工具使用中存在持续性短板,尤其在参数保真度和结构一致性方面,这凸显了需要联合推理图像、文本与工具图的新方法。基准匿名仓库地址:https://github.com/EtaYang10th/Open-M3-Bench
我们提出One4D——一个统一的四维生成与重建框架,能够生成同步的RGB帧与点云图的动态四维内容。通过统一掩码条件机制(UMC)对输入帧的不同稀疏度进行一致性处理,该框架可实现从单张图像的四维生成、完整视频的四维重建到稀疏帧混合生成与重建的无缝切换。我们基于强大的视频生成模型,通过精心设计的网络架构实现了RGB与点云的联合生成。传统基于扩散模型的深度图或点云重建微调策略在联合生成任务中常导致基础视频模型性能退化,为此我们提出解耦LoRA控制技术(DLC),采用两个模态特定的LoRA适配器构建RGB帧与点云的解耦计算分支,并通过轻量级零初始化控制链接逐步学习像素级一致性。在有限算力下使用合成与真实四维数据集进行训练后,One4D在生成与重建任务中均能产出高质量RGB帧与精确点云。这项研究标志着基于视频扩散模型实现通用高质量几何四维世界建模的重要进展。项目页面:https://mizhenxing.github.io/One4D
多项选择题(MCQA)作为评估和强化微调(RFT)现代多模态语言模型的常用形式,其受限的输出格式支持简化的确定性自动验证。然而,我们发现选项可能泄露可被利用的线索,导致准确率指标无法可靠反映真实能力,并助长RFT过程中的显性或隐性猜答行为。为此,我们提出ReVeL(基于大语言模型的重写与验证)框架,将多选题改写为开放式问题,同时尽可能保持答案的可验证性。该框架根据不同答案类型对问题进行分类,并分别应用差异化的重写与验证方案。在RFT应用场景中,我们转换了2万个MCQA样本,并采用GRPO方法对Qwen2.5-VL模型进行微调。实验表明:基于ReVeL-OpenQA训练的模型在多选题基准测试中保持原有准确率,并将开放式问答准确率提升约6个百分点,这证明其相比基于MCQA的训练具有更优的数据效率和更稳健的奖励信号。用于评估时,ReVeL还揭示了MCQA基准测试中高达20个百分点的分数虚高(相对于开放式问答),同时提升评判准确率并降低成本和延迟。我们将公开代码与数据。
尽管网络数据质量对大语言模型至关重要,但现有数据筛选工作多集中于过滤与去重处理,将HTML到文本的提取视为固定预处理环节。当前主流网络语料库依赖基于启发式规则的提取器(如Trafilatura),这类工具难以保持文档结构完整性,且经常破坏公式、代码、表格等结构化元素。我们提出假设:提升提取质量对下游任务性能的影响可能不亚于激进的数据过滤策略。为此我们推出MinerU-HTML——一种将内容提取重构为序列标注问题的新型提取流程,该方案通过60亿参数的语言模型实现。与传统基于文本密度的启发式方法不同,MinerU-HTML利用语义理解能力,采用两阶段格式化流程:先对语义元素进行显式分类,再转换为Markdown格式。关键优势在于,这种基于模型的方法具有内在可扩展性,而启发式方法的改进路径有限。在包含7,887个标注网页的基准测试集MainWebBench上,MinerU-HTML的ROUGE-N F1值达到81.8%,显著优于Trafilatura的63.6%,且在结构化元素保留方面表现卓越(代码块90.9%,公式94.0%)。基于该技术,我们从两份Common Crawl快照构建了AICC多语言语料库(规模达7.3万亿词元)。在严格控制预训练实验中,对AICC与Trafilatura提取的TfCC施加相同过滤后,使用AICC(620亿词元)训练的模型在13个基准测试中平均准确率达50.8%,较TfCC提升1.08个百分点,这为"提取质量显著影响模型能力"提供了直接证据。AICC在关键基准上也超越了RefinedWeb与FineWeb。我们公开发布了MainWebBench、MinerU-HTML和AICC,证明HTML提取是网络语料构建中至关重要却常被低估的环节。
本研究提出可控分层分解(CLD)方法,实现栅格图像的精细化可控多层分离。在实际设计流程中,设计师通常先独立生成并编辑各RGBA图层,再合成为最终栅格图像。但这一过程不可逆:一旦合成,便无法进行图层级编辑。现有方法多依赖图像抠图与修复技术,但在可控性与分割精度方面仍存在局限。为解决这些挑战,我们提出两个核心模块:LayerDecompose-DiT(LD-DiT)通过解耦图像元素至独立图层实现精细化控制;多层条件适配器(MLCA)将目标图像信息注入多层标记以实现精准条件生成。为进行全面评估,我们构建了新基准数据集并定制了专用评估指标。实验结果表明,CLD在分解质量与可控性方面均优于现有方法。此外,CLD分离出的图层可直接在PowerPoint等常用设计工具中进行编辑,凸显了其在现实创作流程中的实用价值与适用性。
我们提出了一种全数据驱动的互信息估计器设计方法。鉴于任何互信息估计器都是两个随机变量观测样本的函数,我们采用神经网络(MIST)对该函数进行参数化,并通过端到端训练来预测互信息值。训练基于包含62.5万个已知真实互信息值的合成联合分布元数据集进行。为处理可变样本量与维度,我们采用二维注意力机制确保输入样本的排列不变性。在不确定性量化方面,通过优化分位数回归损失函数,使估计器能够逼近互信息的抽样分布而非返回单一估计值。这一研究方案突破了传统范式,通过全经验化路径以理论普适性换取灵活性与效率。实证表明,学习得到的估计器在不同样本量和维度下均显著优于经典基线方法,包括在训练阶段未出现的联合分布上亦表现优异。基于分位数的置信区间校准良好,比自助法置信区间更可靠,且推理速度较现有神经基线提升数个数量级。除直接实证优势外,该框架可生成可训练、完全可微的估计器,能嵌入更大型学习流程。此外,利用互信息对可逆变换的不变性,可通过标准化流将元数据集适配至任意数据模态,从而为不同目标元分布实现灵活训练。
信息寻求是智能代理的核心能力,要求其在长轨迹任务中收集并推理工具生成的信息。然而,对于基于语言模型的代理而言,这类多步骤信息寻求任务仍具挑战性。虽然过程奖励模型(PRM)可通过在测试时对候选步骤排序来指导代理,但现有PRM专为二元判断的短程推理设计,既无法捕捉信息寻求步骤的丰富维度(如工具交互和工具输出推理),也难以处理长视野任务中快速增长的上下文。为解决这些局限,我们提出PRInTS——一种具备双重能力的生成式PRM:(1)基于模型在多维度步骤质量(如工具输出解读、工具调用信息量)上的推理进行密集评分;(2)通过轨迹摘要压缩增长中的上下文,同时保留步骤评估所需的关键信息。在FRAMES、GAIA(1-3级)和WebWalkerQA(易-难)基准上的多模型广泛评估及消融实验表明,采用PRInTS的n选优采样能增强开源模型与专用代理的信息寻求能力,使小型骨干代理达到甚至超越前沿模型性能,并优于其他强奖励模型基线。
我们提出Upsample Anything,一种轻量级测试时优化框架,无需任何训练即可将低分辨率特征恢复为高分辨率像素级输出。尽管视觉基础模型在多样化下游任务中展现出强大的泛化能力,但其表征通常会被下采样14倍/16倍(如ViT),这限制了其在像素级应用中的直接使用。现有特征上采样方法依赖于数据集特定的重训练或繁重的隐式优化,制约了可扩展性和泛化能力。Upsample Anything通过简单的逐图像优化解决这些问题,该优化学习结合空间与范围信息的各向异性高斯核,有效衔接了高斯泼溅与联合双边上采样。学习得到的高斯核可作为通用、边缘感知的算子,无缝迁移于不同架构与模态,实现特征、深度或概率图的精确高分辨率重建。该方法处理224x224图像仅需约0.419秒,在语义分割、深度估计以及深度图与概率图上采样任务中均达到最先进性能。项目页面:https://seominseok0429.github.io/Upsample-Anything/
视觉语言模型(VLMs)在标准视频任务中表现优异,但在涉及运动动力学与空间交互的物理推理方面存在局限。这一缺陷削弱了其对真实或AI生成内容(AIGC)视频的解析能力,也影响了生成物理一致性内容的效果。我们提出一种解决方案:将物理世界上下文线索转化为符合VLM感知、理解与推理机制的可解释表征。本文推出MASS-Bench综合基准,包含4,350个真实场景与AIGC视频及8,361个自由形式视频问答对,聚焦物理相关理解任务,并提供包含视觉检测、子片段定位、全序列实体三维运动追踪的精细标注。我们进一步提出MASS——一种模型无关方法,通过基于深度的三维编码与视觉定位将时空信号注入VLM语言空间,并结合用于物体动态追踪的运动跟踪器。为增强跨模态对齐与推理能力,我们采用强化微调策略。实验与消融研究表明,优化后的VLMs以8.7%和6.0%的优势超越同类及更大规模基线模型,并与Gemini-2.5-Flash等闭源前沿VLM在物理推理与理解任务上达到相当性能,验证了本方法的有效性。
尽管视觉-语言-动作模型在零样本泛化和仿真到现实迁移方面取得进展,但长周期机器人操作仍是其面临的重要挑战。现有模型存在阶段幻觉问题——智能体利用粗糙的评估信号投机完成多步任务,虽报告高进展却未真正完成任务。我们提出EvoVLA,一种通过三个互补组件解决该问题的自监督VLA框架:采用三元对比学习与Gemini生成难负样本的阶段对齐奖励机制,可防止视觉捷径;基于相对物体-夹爪位姿而非原始像素的位姿驱动探索策略,将好奇心建立在空间关系上;通过选择性上下文保留与门控融合的长周期记忆模块,稳定长时运行中的内在塑造。在包含三项多阶段任务的Discoverse-L长周期操作基准测试中,EvoVLA较最强基线(OpenVLA-OFT)平均任务成功率提升10.2个百分点,达69.2%。该框架同时实现1.5倍的样本效率提升,并将阶段幻觉率从38.5%降至14.8%。在实体机器人上的实际部署显示,四项操作任务平均成功率达54.6%,较OpenVLA-OFT提升11个百分点,证明了有效的仿真到现实迁移能力与强泛化性。代码与项目网站详见:https://github.com/AIGeeksGroup/EvoVLA 与 https://aigeeksgroup.github.io/EvoVLA。
当前顶尖的流模型虽能生成卓越质量的结果,但依赖缓慢的迭代采样。为加速这一过程,可从预训练教师模型中蒸馏出流映射,而传统方法需依赖外部数据集进行采样。我们认为这种数据依赖性会引发根本性的"教师-数据失配"风险——静态数据集可能无法完整甚至偏离教师模型完整的生成能力。这促使我们反思:流映射蒸馏是否必须依赖数据?本文探索了一种无数据替代方案,仅从先验分布中采样(该分布通过构造确保与教师模型保持一致),从而彻底规避失配风险。为验证这一理念的可行性,我们提出了一个原则性框架:该框架既能预测教师模型的采样路径,又能主动修正自身误差累积以确保高保真度。我们的方法显著超越了所有基于数据的方案,以较大优势确立了新的技术标杆。具体而言,基于SiT-XL/2+REPA的蒸馏在ImageNet 256×256分辨率上达到1.45的FID指标,在512×512分辨率上达到1.49,且均仅需1次采样步数。本研究有望为生成模型加速建立更稳健的范式,推动无数据流映射蒸馏技术的广泛应用。
尽管当前的世界模型能生成高度逼真的视频,但其在机器人路径规划方面的能力仍不明确且缺乏量化评估。我们推出Target-Bench——首个专为评估世界模型在真实环境中无地图语义目标路径规划能力而设计的基准测试。该基准提供450段机器人采集的视频序列,涵盖45个语义类别,并配备基于SLAM技术的真实轨迹数据。我们的评估流程从生成视频中还原相机运动,并通过五个互补指标量化模型的目标抵达能力、轨迹精度和方向一致性,进而衡量其规划性能。我们对包括Sora 2、Veo 3.1及Wan系列在内的前沿模型进行评估,发现最佳现成模型(Wan2.2-Flash)总体得分仅为0.299,揭示了当前世界模型在机器人规划任务中的显著局限性。实验表明,仅使用本数据集中的325个场景对开源50亿参数模型进行微调,即可获得0.345的综合评分——较其基础版本(0.066)提升超400%,并优于最佳现成模型15%。我们将开源相关代码与数据集。
我们提出一种从推荐系统的用户与物品嵌入中提取单语义神经元的方法,该神经元定义为与连贯可解释概念对齐的潜在维度。我们的方法采用稀疏自编码器(SAE)来揭示预训练表征中的语义结构。与语言模型研究不同,推荐系统中的单语义性需保持用户与物品嵌入间的交互关系。为此,我们引入具有预测感知的训练目标,通过冻结的推荐器进行反向传播,并使学习到的潜在结构与模型的用户-物品亲和度预测保持一致。所得神经元可捕捉类型、流行度、时间趋势等属性,支持包括定向过滤和内容推广在内的后置控制操作,且无需修改基础模型。本方法适用于不同推荐模型与数据集,为可解释可控的个性化推荐提供了实用工具。代码与评估资源详见https://github.com/DeltaLabTLV/Monosemanticity4Rec。
解释保真度——用于衡量解释反映模型真实推理过程的准确性——在推荐系统中仍属关键性未充分探索领域。本文提出SPINRec(神经推荐解释的随机路径积分方法),这一模型无关的框架将路径积分技术适配于推荐数据稀疏性与隐式性特点。为突破现有方法的局限,SPINRec采用随机基线采样策略:通过从经验数据分布中抽取多个合理用户画像并选择最具可信度的归因路径,取代传统固定或不切实际的基线积分方式。该设计能同时捕捉已观测与未观测交互的影响,生成更稳定且个性化的解释。我们在三种模型(矩阵分解、变分自编码器、神经协同过滤)、三个数据集(MovieLens 1M、雅虎音乐、Pinterest)及一套包含基于AUC的扰动曲线和定长诊断的反事实指标上开展了迄今最全面的保真度评估。SPINRec在所有基线方法中均表现优异,为推荐系统的可信解释建立了新基准。代码与评估工具已开源:https://github.com/DeltaLabTLV/SPINRec。
手物交互生成技术在推动动画与 robotics 应用发展中具有关键作用。当前基于视频的方法主要局限于单视角,这阻碍了全面的三维几何感知,并常导致几何畸变或非真实运动模式。虽然三维手物交互方法能生成动态合理的运动,但其对实验室受控环境下采集的高质量三维数据的依赖性,严重限制了其在真实场景中的泛化能力。为突破这些局限,我们提出SyncMV4D——首个通过统一视觉先验、运动动力学与多视角几何来联合生成同步多视角手物交互视频及四维运动的模型。我们的框架具有两大核心创新:(1) 协同生成交互视频与中间运动的多视角联合扩散模型;(2) 将粗粒度中间运动优化为全局对齐的四维度量点轨迹的扩散点对齐器。为实现二维外观与四维动态的紧密耦合,我们建立了闭环式相互增强机制:在扩散去噪过程中,生成视频为四维运动优化提供条件,而对齐后的四维点轨迹通过重投影指导下一步联合生成。实验表明,本方法在视觉真实感、运动合理性与多视角一致性方面均优于现有最优方法。
大型语言模型(LLMs)在处理事实性任务时被广泛应用,例如“哮喘的治疗方法有哪些?”或“拉脱维亚的首都是哪里?”。然而,这些模型在其内部概率表征中如何稳定地区分真实、虚假以及非真非假内容,目前尚不明确。我们提出表征稳定性的概念,即LLM对真实性表征在操作定义扰动下的鲁棒性。我们通过以下方式评估表征稳定性:(i)在LLM的激活值上训练线性探针以区分真实与非真实陈述;(ii)在受控标签变化下测量其学习到的决策边界偏移程度。通过分析16个开源模型在三个事实性领域的激活数据,我们比较了两类非真非假陈述:第一类是关于我们确信未出现在任何训练数据中的实体的事实性断言,称为陌生型非真陈述;第二类是从知名虚构语境中提取的非事实主张,称为熟悉型非真陈述。研究发现,陌生型陈述会引发最大的边界偏移,在脆弱领域(如词汇定义)导致高达40%的真值判断反转,而熟悉的虚构陈述则保持更连贯的聚类特征,仅产生较小变化(≤8.2%)。这些结果表明,表征稳定性更多源于认知熟悉度而非语言形式。更广泛而言,我们的方法为审计和训练LLMs提供了一种诊断工具,使其在语义不确定性下保持连贯的真值分配,而非仅优化输出准确性。
伪装目标检测是一项新兴且具有挑战性的计算机视觉任务,其核心在于识别并分割那些因颜色、纹理及尺寸高度相似而与环境融为一体的目标。该任务在弱光条件、部分遮挡、小目标尺寸、复杂背景图案及多目标共存等复杂场景下尤为困难。尽管已有多种精密方法被提出,现有技术仍难以在复杂场景中精准检测伪装目标,特别是在处理小目标和多目标时表现不佳,表明该领域仍有提升空间。我们提出一种多尺度递归网络,通过金字塔视觉Transformer主干网络提取多尺度特征,并利用基于注意力的尺度融合单元进行选择性特征融合。为实现更精确的目标检测,解码器通过多粒度融合单元递归优化特征。我们还开发了新颖的递归反馈解码策略以增强全局上下文理解,帮助模型克服任务中的挑战。通过联合利用多尺度学习和递归特征优化,所提方法实现了性能提升,成功检测出小尺寸及多目标伪装物体。我们的模型在两个伪装目标检测基准数据集上取得了最先进的结果,并在其余两个数据集上位列第二。相关代码、模型权重及结果已开源:https://github.com/linaagh98/MSRNet。