每日精选AI研究论文及翻译
人类以渐进方式绘制图像:先规划整体布局,再勾勒粗略草图,继而审视并细化细节,最关键的是每个步骤都基于不断演变的视觉状态。然而,在文本-图像交错数据集上训练的统一多模态模型,是否也能构想出中间状态的链条?本文提出过程驱动的图像生成方法——一种多步骤范式,将合成过程分解为思维与行动交错的推理轨迹。我们的方法并非单步生成图像,而是通过多轮迭代展开,每轮包含四个阶段:文本规划、视觉草拟、文本反思与视觉精修。文本推理显式地规定了视觉状态的演变方向,而生成的视觉中间结果又反过来约束并锚定下一轮文本推理。过程驱动生成的核心挑战在于中间状态的模糊性:模型如何评估每幅部分完成的图像?我们通过密集的逐步监督来解决这一问题,该监督保持两个互补约束:对于视觉中间状态,我们强化空间与语义一致性;对于文本中间状态,我们在保留先前视觉知识的同时,使模型能够识别并修正违反提示的元素。这使得生成过程具有显式性、可解释性和直接可监督性。为验证所提方法,我们在多种文本到图像生成基准测试中开展了实验。
多轮大语言模型智能体的强化学习训练天然具有不稳定性,而推理质量直接决定任务表现。熵值常被用于追踪推理稳定性,但该方法仅能衡量同一输入内部的多样性,无法判断推理是否真正响应不同输入。在RAGEN-2研究中我们发现,即使熵值保持稳定,模型仍可能依赖看似多样但实则与输入无关的固定模板。我们将这种失效模式称为"模板坍塌",该现象无法通过熵值或现有任何指标被察觉。为诊断此问题,我们将推理质量分解为输入内多样性(熵)和跨输入区分度(互信息),并引入一系列互信息代理指标进行实时诊断。在多样化任务中,互信息与最终性能的相关性远强于熵值,使其成为更可靠的推理质量代理指标。我们进一步通过信噪比机制解释模板坍塌现象:低奖励方差会削弱任务梯度,使正则化项占据主导地位,从而抹平跨输入推理差异。为此,我们提出SNR感知过滤法,通过奖励方差作为轻量级代理指标,在每轮迭代中筛选高信号提示。该方法在规划、数学推理、网页导航和代码执行等任务中,持续提升了输入依赖性与任务性能。
自回归语言模型逐令牌生成文本,即使后续令牌在给定上文语境下具有高度可预测性。我们提出MARS(掩码自回归)方法,通过轻量级微调使指令调优后的自回归模型具备单次前向预测多令牌的能力。该方法无需修改模型架构或增加参数,所得模型仍可完全兼容原始自回归模型的调用方式且性能无损。不同于需要额外维护草稿模型的推测解码技术,或类似Medusa等多头预测方案,MARS仅需在现有指令数据上继续训练。在单步单令牌生成模式下,MARS在六项标准基准测试中达到或超越自回归基线水平;当允许单步接收多令牌时,在保持基线精度的同时实现1.5-1.7倍吞吐量提升。我们进一步开发了面向批量推理的块级KV缓存策略,在Qwen2.5-7B模型上相比带KV缓存的自回归推理实现最高1.71倍实际加速。此外,MARS支持通过置信度阈值进行实时速度调节:在高负载场景下,服务系统无需切换模型或重启即可动态提升吞吐量,为实际部署提供了灵活的延迟-质量调节机制。
构建具有空间一致性与实时交互性的世界模型仍是计算机视觉领域的核心挑战。当前视频生成范式常因缺乏空间持久性和视觉真实感而难以支持复杂环境中的无缝导航。为解决这些问题,我们提出INSPATIO-WORLD——一种能够从单段参考视频中复原并生成高保真动态交互场景的新型实时框架。该方法的核心理念是时空自回归(STAR)架构,通过两个紧密耦合的组件实现可控的场景演化:隐式时空缓存模块将参考帧与历史观测聚合为潜在世界表征,确保长时序导航中的全局一致性;显式空间约束模块则强化几何结构,将用户交互转化为精确且物理合理的相机轨迹。此外,我们提出联合分布匹配蒸馏(JDMD)技术,通过以真实世界数据分布作为正则化指导,有效克服了因过度依赖合成数据导致的保真度下降问题。大量实验表明,INSPATIO-WORLD在空间一致性与交互精度上显著超越现有最优模型,在WorldScore-Dynamic基准测试的实时交互方法中位列第一,为单目视频重建的四维环境导航建立了实用化技术路径。
基于强化学习的后训练技术近期已成为将文本到图像扩散模型与人类偏好对齐的重要范式。最新研究表明,增大采样批次规模能带来显著性能提升,预示着对齐效果仍存巨大优化空间。然而,在FLUX.1-12B等大规模基础扩散模型上扩展采样过程会带来沉重计算负担。为突破此瓶颈,我们探索将FP4量化技术融入扩散强化学习的采样环节。但研究发现,简单量化流程会固有地引入性能退化风险。为破解效率与训练完整性之间的两难困境,我们提出Sol-RL(光速强化学习)——一种创新性的FP4赋能双阶段强化学习框架。首先采用高吞吐NVFP4采样生成海量候选样本池,并提取高对比度子集;随后以BF16精度重新生成选定样本,并仅基于这些样本优化策略模型。通过将候选探索与策略优化解耦,Sol-RL既融合了扩展采样规模的算法机制,又获得了NVFP4在系统层面的吞吐增益。这种算法-硬件协同设计在加速采样阶段的同时,为优化环节保留了高保真样本。实验证实,我们的框架在充分挖掘FP4算力吞吐优势的同时,完整保持了BF16精度流程的训练完整性。在SANA、FLUX.1和SD3.5-L上的大量实验表明,该方法在多项指标上均实现更优的对齐性能,并将训练收敛速度最高提升4.64倍,以极低成本释放了大规模采样扩展的潜力。
近期研究表明,自演进大语言模型智能体在程序修复和科学发现等任务中展现出卓越效能。该范式下,规划器大模型通过综合调用包含大语言模型在内的参数化模型来构建智能体程序,这些参数化模型会针对具体任务进行调优以提升性能。然而现有自演进智能体框架缺乏对安全性与正确性的形式化保证。由于此类程序常需在未见输入上自主执行,这种保证缺失引发了可靠性与安全性的担忧。我们将智能体代码生成构建为约束学习问题,将硬性形式规约与捕捉任务效用的软性目标相结合。提出形式化守护生成模型(FGGM),使规划器大语言模型能够使用一阶逻辑为每个生成模型调用指定形式化输出契约。每个FGGM调用将底层模型封装在带有可验证回退机制的拒绝采样器中,确保所有返回输出在任何输入和参数设置下均满足契约要求。基于FGGM,我们提出三阶段框架SEVerA(自演进可验证智能体):搜索阶段合成包含FGGM调用的候选参数化程序;验证阶段针对所有参数值证明程序满足硬约束的正确性,将问题简化为无约束学习;学习阶段采用基于梯度的可扩展优化(包括GRPO式微调)来提升软性目标同时保持正确性。我们在Dafny程序验证、符号数学合成及策略合规的智能体工具使用(τ^2-bench)任务上评估SEVerA。在所有任务中,SEVerA在实现零约束违反的同时,性能优于无约束和SOTA基线方法,表明形式化行为约束不仅能保证正确性,还能引导合成过程生成更高质量的智能体。
近期提示学习技术的进步使得大语言模型智能体能够在无需调整参数的情况下,从推理时上下文中获取任务相关知识。例如,现有方法(如ACE或GEPA)可通过学习系统提示来基于先前的智能体运行记录提升准确率。然而这些方法主要聚焦于单智能体或低并行度场景,这从根本上限制了其从海量智能体运行轨迹中高效学习的能力。随着从多智能体轨迹或并行智能体执行中学习的趋势日益显著,开展并行化提示学习将兼具高效性与实用性。但若缺乏系统化的扩展策略,现有方法在高并行度下会出现质量衰减问题。为同时提升提示学习的效率与质量,我们提出Combee框架——一种面向自进化智能体的并行提示学习扩展方案。该框架通过并行扫描技术与增强型混洗机制加速学习进程,在保持质量不衰减的前提下支持大量智能体并行运行并聚合学习其轨迹。Combee还引入了动态批次大小控制器以平衡质量与延迟。在AppWorld、Terminal-Bench、Formula和FiNER等基准上的实验表明,Combee在保持相当或更优准确率及同等成本的前提下,相较现有方法可实现最高17倍的加速效果。
我们提出一个新前沿:神经计算机(NCs)——一种新兴的机器形态,它将计算、内存和输入/输出统一于学习生成的运行时状态中。与传统计算机执行显式程序、智能体在外部执行环境中行动、世界模型学习环境动力学不同,NCs致力于让模型自身成为运行的计算机。我们的长期目标是实现完全神经计算机(CNC):这一新兴机器形态的成熟通用版本,具备稳定执行、显式重编程和可持续能力复用的特性。作为初步探索,我们研究早期NC基元是否能仅从采集的I/O轨迹中学习获得,而无需插桩程序状态。具体而言,我们将NC实例化为视频模型,在命令行和图形界面设置中根据指令、像素和用户操作(若可用)推演屏幕帧序列。这些实现表明,学习型运行时可以掌握早期交互基元,特别是I/O对齐和短时程控制,但常规复用、受控更新和符号稳定性仍是待解难题。我们围绕这些挑战规划了通往CNC的路线图。若能突破这些障碍,CNC有望建立超越现有智能体、世界模型和传统计算机的新型计算范式。
我们推出Qualixar OS——全球首个面向通用AI智能体编排的应用层操作系统。与内核级方案(AIOS)或单框架工具(AutoGen、CrewAI)不同,Qualixar OS为异构多智能体系统提供完整运行时环境,覆盖10家LLM供应商、8+种智能体框架及7种通信传输协议。我们的核心贡献包括:(1)支持网格、森林、网状及制造者模式等12种多智能体拓扑的执行语义;(2)Forge智能设计引擎,具备历史策略记忆的LLM驱动团队构建能力;(3)融合Q学习、五种策略及贝叶斯POMDP的三层模型路由机制,支持动态多供应商发现;(4)基于共识的评判管道,集成古德哈特检测、JSD漂移监测与对齐三元悖论导航;(5)采用HMAC签名和隐写水印的四层内容溯源体系;(6)通过Claw桥接器实现通用兼容性,支持MCP与A2A协议及25条指令的通用命令协议;(7)配备可视化工作流构建器和技能市场的24标签页生产看板。Qualixar OS经过217种事件类型、8大质量模块的2,821个测试用例验证。在自定义的20项任务评估套件中,系统实现100%准确率,单任务平均成本仅0.000039美元。源码基于Elastic License 2.0开放可用。
我们提出TC-AE——一种基于ViT的深度压缩自编码器架构。现有方法通常通过增加潜在表征的通道数来维持高压缩比下的重建质量,但这种策略容易导致潜在表征坍塌,进而削弱生成性能。TC-AE并未依赖日益复杂的架构或多阶段训练方案,而是从像素与图像潜在表征的关键桥梁——令牌空间的角度出发,通过两项互补性创新应对这一挑战:首先,我们在固定潜在表征预算下通过调整ViT的补丁尺寸研究令牌数量缩放规律,发现激进的令牌到潜在表征压缩是限制有效缩放的关键因素。为此,我们将令牌到潜在表征的压缩分解为两个阶段,既减少了结构信息损失,又实现了适用于生成的令牌数量有效缩放。其次,为进一步缓解潜在表征坍塌,我们通过联合自监督训练增强图像令牌的语义结构,从而获得更利于生成的潜在表征。凭借这些设计,TC-AE在深度压缩条件下实现了显著提升的重建与生成性能。我们希望本研究能推动基于ViT的视觉生成令牌化器的发展。
通过强化学习扩展思维链技术已被广泛用于增强大语言模型的推理能力。然而,由于奖励信号的稀疏性,这种方法也可能引发不良思维模式,例如过度思考——即生成冗余的中间推理内容。本文指出,此类冗余的主要来源是低效反思,通常表现为两种问题模式: indiscriminate reflection( indiscriminate reflection)指模型在推理过程中进行广泛但低效的检查,repetitive reflection( repetitive reflection)则指模型对已确立的结论进行反复验证。针对这一问题,我们提出了一种基于图的思维链优化框架。具体而言,我们将线性思维链转换为带有显式依赖边的有向无环图,并设计双重剪枝策略:分支级剪枝剔除贡献较弱的反思分支,深度级剪枝消除后期重复验证。我们通过三阶段流程蒸馏该行为:(1)使用监督微调在剪枝后的简洁轨迹上初始化策略;(2)通过直接偏好优化筛选正确但冗余更少的轨迹;(3)采用带长度惩罚的组策略优化联合优化答案正确性与效率。实验表明,该方法在保持或提升准确率的同时,将平均推理标记数量减少了42%。
多元对齐已成为大型语言模型发展的关键前沿,奖励模型作为捕捉多样化人类价值观的核心机制。尽管通用响应质量的基准测试已十分普遍,但如何评估奖励模型对个体用户偏好的建模能力仍是一个开放挑战。为填补这一空白,我们推出个性化奖励基准测试——一种专为严格评估奖励模型个性化偏好建模能力而设计的新型基准。我们基于对用户特定标准的严格遵守(或违反)构建优选与拒选响应配对,确保偏好区分具有完全个性化的特性。特别是人工评估证实,配对样本间的主要区分因素严格遵循个人偏好,且两个响应均保持较高的通用质量(如正确性、相关性和帮助性)。广泛测试表明,现有前沿奖励模型在个性化任务上表现欠佳,最高准确率仅为75.94%。关键的是,由于有效的奖励模型基准应能预测其在下游任务中的表现,我们通过实验证明:相较于现有基线,该基准在BoN采样和近端策略优化两种下游任务中均展现出显著更高的性能相关性。这些发现确立了个性化奖励基准作为评估奖励模型下游应用性能的稳健且精确的代理指标。
通过知识蒸馏(KD)从交叉编码器教师模型迁移知识已成为训练检索模型的标准范式。现有研究主要集中于挖掘困难负样本来提升判别力,而对训练数据的系统构建及由此产生的教师评分分布关注相对不足。本研究指出,仅关注困难负样本会阻碍学生模型学习教师完整的偏好结构,可能影响泛化能力。为有效模拟教师评分分布,我们提出一种分层采样策略,实现对评分全谱系的均匀覆盖。在领域内和跨领域基准测试上的实验表明,保持教师评分方差与熵的分层采样可作为稳健基线,在多种场景下显著优于Top-K采样和随机采样。这些发现表明,蒸馏的本质在于保留教师所感知的相对评分多样性。
思维链监控的可行性依赖于模型无法在其潜在表征中进行有效推理。然而,我们对大语言模型中此类潜在推理的局限性知之甚少。通过研究模型能否在无中间步骤监督的情况下发现多步规划策略,并在单次前向传播中隐式执行这些策略,我们测试了这些局限性。利用可精确控制潜在规划步数的图路径寻找任务,我们发现了大规模缩放仍无法解决的显著局限:从头训练的小型变压器最多能发现需要三步潜在推理的策略,经微调的GPT-4o和Qwen3-32B可达五步,而GPT-5.4在少量示例提示下能达到七步。尽管模型在训练时能习得的最大潜在规划深度为五步,但所发现的策略在测试时能泛化至八步潜在推理。这揭示了模型仅通过最终答案监督发现潜在策略的能力,与策略发现后的执行能力之间存在分离。若类似局限性普遍存在,则需要多步协同潜在规划的复杂策略可能需要显式教学或外部化处理,这为思维链监控提供了理论依据。
长期以来,多模态生成领域始终由文本驱动范式主导——语言虽能指导视觉生成,却无法在视觉空间中进行推理与创作。我们通过探索能否将文本描述、空间布局和编辑指令等所有模态统一为单一视觉表征,对这一范式提出挑战。本文提出FlowInOne框架,将多模态生成重构为纯粹视觉流处理:所有输入被转化为视觉提示,形成由单一流匹配模型控制的简洁"图像进-图像出"流程。这种以视觉为核心的范式天然消除了跨模态对齐瓶颈、噪声调度机制和任务特定架构分支,将文生图、布局引导编辑和视觉指令跟随统一在连贯的体系下。为此我们构建了VisPrompt-5M数据集(包含500万视觉提示对,涵盖物理感知力动力学、轨迹预测等多样化任务)以及VP-Bench基准(从指令遵循度、空间精度、视觉真实性和内容一致性四个维度进行严格评估)。大量实验表明,FlowInOne在所有统一生成任务中均达到最先进性能,超越开源模型与商业竞品,为完全以视觉为中心的生成建模奠定了新基础——使感知与创作在连续视觉空间中共存。
预测多样化的未来状态是视频世界建模的核心挑战。判别式世界模型生成确定性预测,隐式地平均了所有可能未来;而现有生成式世界模型仍存在计算成本过高的问题。最新研究表明,在视觉基础模型(VFM)的特征空间(而非为像素重建优化的潜空间)中进行未来预测,可大幅减少世界模型参数量。然而,此类方法大多仍属判别式。本文提出DeltaTok——一种将连续帧间VFM特征差异编码为连续"差值"标记的标记器,以及DeltaWorld——基于这些标记运行的生成式世界模型,可高效生成多样化的合理未来。差值标记将视频从三维时空表示简化为一维时间序列,例如对512x512帧序列可实现1024倍的标记压缩。这种紧凑表征使得可并行生成多个未来假设、仅监督最优结果的多假设训练成为可能。在推理阶段,该方法能通过单次前向传播实现多样化预测。在密集预测任务上的实验表明,DeltaWorld预测的未来与现实结果吻合度更高,同时参数量比现有生成式世界模型减少35倍以上,计算量减少2000倍。代码与权重:https://deltatok.github.io。
大型语言模型(LLMs)日益依赖智能体能力——迭代检索、工具使用与决策制定——来突破静态参数化知识的局限。然而现有智能体框架将外部信息视为非结构化文本,未能利用现实世界数据固有的拓扑依赖关系。为弥补这一差距,我们提出智能体图学习(AGL)范式,将图学习重新定义为拓扑感知导航与基于LLM推理的交织过程。具体而言,我们开发了首个强化学习(RL)驱动的AGL框架AgentGL。该框架为LLM智能体配备图原生工具以实现多尺度探索,通过搜索约束思维调控工具使用以平衡精度与效率,并采用图条件课程RL策略稳定长周期策略学习而无需逐步监督。在多样化文本属性图(TAG)基准测试和多重LLM骨干网络中,AgentGL显著优于先进的GraphLLM与GraphRAG基线,在节点分类和链接预测任务上分别实现最高17.5%和28.4%的绝对性能提升。这些结果表明AGL是使LLM能够自主导航和推理复杂关系环境的前沿方向。代码已开源:https://github.com/sunyuanfu/AgentGL。
大型语言模型(LLMs)在处理具有复杂情境特定规则的推理任务时仍面临挑战。在法律和政策场景中,这种挑战表现为道义推理:即在明确规则下对义务、权限和禁令进行推理。尽管当前多数基准测试侧重于短文本数学推理,但针对长文本高风险道义推理的研究仍显不足。为填补这一空白,我们推出DEONTICBENCH基准测试集,涵盖美国联邦税法、航空行李政策、美国移民管理及州级住房法律等领域的6,232项任务。这些任务可通过多种方式解决,包括直接语言推理或借助符号计算。除自由形式的思维链推理外,DEONTICBENCH还支持可选的基于求解器的工作流程:模型将法规和案例事实转化为可执行的Prolog代码,从而形成形式化问题解释和显式程序追踪。我们为所有实例发布了参考Prolog程序。在顶尖LLMs和代码模型中,硬性子集的最佳表现仅为SARA数值任务的44.4%准确率和住房法律任务的46.6宏F1分数。我们进一步研究了基于监督微调和强化学习的符号程序生成训练。虽然训练提升了Prolog生成质量,但现有强化学习方法仍无法可靠解决这些任务。总体而言,DEONTICBENCH为研究现实领域中基于情境的规则推理提供了符号化与非符号化双轨并行的基准测试框架。
群体相对策略优化(GRPO)在可验证奖励的强化学习中应用广泛,但其常面临优势坍缩问题:当组内所有轨迹获得相同奖励时,群体相对优势为零,导致学习信号缺失。例如当问题对推理器难度过高时,所有采样轨迹可能均出现错误而获得零奖励。近期研究通过向此类难题添加提示或辅助支架来应对该问题,使推理器产生差异化结果并恢复非零梯度更新。然而现有提示通常是固定预设的,未能适配当前推理器状态,且在提示输入下产生学习信号的提示未必能提升测试时使用的无提示策略。 为此,我们提出提示学习强化框架(HiLL),在强化学习过程中联合训练提示策略与推理策略。针对每个难题,提示器会根据当前推理器的错误轨迹在线生成提示,使提示生成能动态适配推理器的演化错误。我们进一步提出提示依赖度指标,用于衡量正确提示轨迹对提示的依赖程度。通过推导可迁移性定理证明:较低的提示依赖度意味着从提示成功向无提示成功的更强迁移能力,并基于该结论构建用于训练提示器的迁移加权奖励。因此HiLL框架不仅青睐能产生有效GRPO分组的提示,更优先选择那些能提升原始无提示策略的迁移友好型提示。 在多基准测试中的实验表明,HiLL持续优于GRPO及现有提示基线,验证了自适应且具备迁移意识的提示学习对强化学习的价值。代码已开源:https://github.com/Andree-9/HiLL。
随着多语言文档可获取性与使用率的不断提升,跨语言信息检索(CLIR)已成为重要研究领域。传统CLIR任务通常在文档语言与查询语言相异、且文档采用单一连贯语言的设定下进行。本文指出,此类设定可能无法充分评估模型的跨语言对齐能力。具体而言,我们发现在英语与其他语言共存的文档库中,多数多语言检索模型倾向于优先选择不相关的英文文档,而非与查询语言相同的相关文档。为系统分析和量化该现象,我们设计了多种评估场景与指标,用于衡量多语言检索模型的跨语言对齐性能。此外,为提升模型在挑战性条件下的跨语言表现,我们提出一种旨在增强跨语言对齐的新型训练策略。仅使用包含2.8千样本的小型数据集,该方法在显著提升跨语言检索性能的同时,有效缓解了模型对英语文档的倾向性问题。大量实验分析表明,所提方法能显著增强多数多语言嵌入模型的跨语言对齐能力。
针对文档理解、密集场景感知等细粒度任务,多模态大模型(MLLMs)需要高分辨率视觉输入。然而,当前全局分辨率缩放范式会 indiscriminately 向二次自注意力机制 flooding 视觉冗余令牌,在忽略空间稀疏性与查询意图的同时严重制约推理吞吐量。为此,我们提出Q-Zoom——一种查询感知的自适应高分辨率感知框架,采用高效的由粗到细处理机制。首先,轻量化动态门控网络在粗粒度全局特征足够时安全绕过高分辨率处理;其次,针对需要细粒度感知的查询,自蒸馏区域提议网络(SD-RPN)直接从中间特征空间精确定位任务相关感兴趣区域(RoI)。为高效优化这些模块,门控网络采用一致性感知生成策略推导确定性路由标签,而SD-RPN则通过全自监督蒸馏范式进行训练。通过连续时空对齐方案与定向微调,稠密局部RoI可与粗粒度全局布局无缝融合。大量实验表明,Q-Zoom建立了优势帕累托边界:以Qwen2.5-VL-7B为主要测试平台,在文档OCR基准上推理速度提升2.52倍,高分辨率场景下加速达4.39倍,同时保持基线峰值精度;当配置为最大感知保真度时,Q-Zoom在上述基准的峰值性能分别超越基线1.1%和8.1%。这些稳健改进可无缝迁移至Qwen3-VL、LLaVA及新兴的基于强化学习的图像思维模型。项目页面详见https://yuhengsss.github.io/Q-Zoom/。
大块测试时训练(LaCT)在长上下文三维重建中表现出色,但其完全可塑的推理时更新仍易受灾难性遗忘和过拟合影响。因此,LaCT通常采用覆盖完整输入序列的单一大数据块进行实例化,未能实现单次处理任意长序列的更高目标。受弹性权重巩固启发,我们提出弹性测试时训练,通过围绕锚定状态的费舍尔加权弹性先验来稳定LaCT的快速权重更新。该锚定点通过历史快速权重的指数移动平均实现演化,以平衡稳定性与可塑性。基于此改进架构,我们引入快速空间记忆(FSM)——一种高效可扩展的四维重建模型,能从长观测序列中学习时空表征并渲染新视角-时间组合。我们在大规模精选3D/4D数据上对FSM进行预训练,以捕捉复杂空间环境的动态特性与语义信息。大量实验表明,FSM支持长序列的快速自适应,通过更小的数据块实现高质量3D/4D重建,并有效缓解相机插值捷径问题。本研究旨在推动LaCT突破有限单数据块设定的限制,实现鲁棒的多数据块自适应——这是泛化至真正长序列的必要步骤,同时显著缓解激活值内存瓶颈。
精确点云配准(PCR)是三维数据处理中的重要任务,涉及两个点云间刚性变换的估计。尽管深度学习方法解决了传统非学习方法对噪声、异常值、遮挡和初始化的敏感性问题,但这些方法均在洁净、稠密的合成数据集上开发评估(限制了其在真实工业场景中的泛化能力)。本文提出R3PM-Net——一种轻量化、全局感知的物体级点匹配网络,通过兼顾泛化性与实时效率来弥合这一差距。为支持此转型,我们构建了Sioux-Cranfield和Sioux-Scans两个数据集,为不完美摄影测量/事件相机扫描数据与数字CAD模型的配准提供评估基准,并已公开共享。大量实验表明,R3PM-Net在保持竞争力的精度下实现了无与伦比的速度:在ModelNet40上仅用0.007秒即达到1的完美匹配度与0.029厘米的内点RMSE,比最先进方法RegTR快约7倍;该性能在Sioux-Cranfield数据集上得以延续,保持1的匹配度与0.030厘米内点RMSE,且延迟同样极低;在极具挑战性的Sioux-Scans数据集上,R3PM-Net能在50毫秒内成功解决边缘案例。这些结果证实了R3PM-Net为精度与实时性至关重要的工业应用提供了鲁棒的高速解决方案。代码与数据集详见https://github.com/YasiiKB/R3PM-Net。
生成运动控制视频——即用户通过指定动作在自由选择的视角下驱动符合物理规律的场景动态——需要具备两项核心能力:(1)解耦运动控制,允许用户分别控制物体运动并调整摄像机视角;(2)运动因果性,确保用户驱动的动作能触发其他物体的连贯反应而非简单位移像素。现有方法在这两方面均存在不足:它们将相机与物体运动混叠为单一跟踪信号,并将运动视为运动学位移而忽略物体间的因果关系。我们提出MoRight这一统一框架,通过解耦运动建模解决上述局限。物体运动在静态标准视角下被定义,并通过时序跨视角注意力机制转移至任意目标摄像机视角,从而实现相机与物体控制的解耦。我们进一步将运动分解为主动(用户驱动)与被动(结果响应)分量,训练模型从数据中学习运动因果关系。在推理阶段,用户既可提供主动运动由MoRight预测响应结果(正向推理),也可指定期望的被动效果由MoRight反推合理驱动动作(逆向推理),同时全程支持自由调整摄像机视角。在三个基准测试上的实验表明,该方法在生成质量、运动可控性和交互感知方面均达到最先进性能。
近期,大型推理模型通过在高质量大规模数据集上的监督微调,在需要长链条思维推理的复杂任务中展现出强大性能。为构建此类数据集,现有流程通常从能力更强的大型语言模型生成长推理数据,并采用人工启发式或自然度筛选方法来过滤高质量样本。尽管基于自然度的数据选择方法(即通过LLM赋予的平均对数概率对数据排序)已被证明有效,但我们的分析表明,当应用于LLM推理数据集时,该方法会系统性地偏好推理步骤更长(即每步包含更多标记)的样本而非更高质量的样本,我们将此现象称为步长混淆。通过量化分析,我们将此现象归因于推理步骤中首标记的低概率特性:更长的步骤会稀释其影响,从而抬升平均对数概率。为解决该问题,我们提出两种改进方法:ASLEC-DROP在计算平均对数概率时剔除首标记概率,ASLEC-CASL则采用因果去偏回归消除首标记的混淆效应。在四个LLM和五个评估基准上的实验表明,我们的方法能有效缓解步长混淆问题。
等变性是计算机视觉模型的基本属性,然而现实数据中严格等变条件很少满足,这会限制模型性能。因此控制等变程度具有重要价值。我们提出通用框架,通过将模型权重投影至设计子空间来构建软等变模型。该方法适用于任何预训练架构,并为诱导等变误差提供理论边界。实验方面,我们在包括ViT和ResNet在内的多个预训练骨干网络上验证了方法有效性,涵盖图像分类、语义分割和人体轨迹预测任务。值得注意的是,在竞争激烈的ImageNet基准测试中,我们的方法在提升性能的同时显著降低了等变误差。
我们提出GenLCA——一种基于扩散模型的生成方法,能够通过文本和图像输入生成并编辑具有照片级真实感的全身虚拟形象。生成的虚拟形象在忠实反映输入内容的同时,支持高保真度的面部与全身动画。其核心创新在于一种新型训练范式,使得能够从部分可观测的2D数据中训练全身3D扩散模型,从而将训练数据集扩展至数百万真实世界视频。这种可扩展性显著提升了GenLCA的视觉真实感与泛化能力。具体而言,我们通过改造预训练的前馈式虚拟形象重建模型作为可动画的3D标记器,将非结构化视频帧编码为结构化3D标记,从而实现数据集的大规模扩展。然而,多数真实视频仅提供身体部位的局部观测,导致3D标记中出现过度模糊或透明伪影。为此,我们提出一种可见性感知的扩散训练策略:用可学习标记替换无效区域,并仅在有效区域计算损失函数。随后我们在标记数据集上训练基于流的扩散模型,天然继承预训练虚拟形象重建模型所提供的真实感与可动性。该方法有效实现了利用大规模真实视频数据直接训练3D扩散模型。通过多样化的高保真生成与编辑结果,我们验证了本方法的卓越性能,其效果大幅超越现有解决方案。项目页面详见https://onethousandwu.com/GenLCA-Page。
随着音视频多模态大语言模型(MLLMs)在安全关键应用中的日益普及,理解其脆弱性变得至关重要。为此,我们提出多模态排版攻击研究,系统性地探究跨模态的排版攻击如何对MLLMs产生不利影响。现有研究多局限于单模态攻击,而本文揭示了MLLMs的跨模态脆弱性。通过分析音频、视觉和文本扰动之间的相互作用,我们发现协同多模态攻击构成的威胁远超单模态攻击(攻击成功率83.43% vs 34.93%)。我们在多个前沿MLLMs、不同任务以及常识推理与内容审核基准测试中的实验结果表明,多模态排版攻击是多模态推理领域中至关重要却尚未被充分探索的攻击策略。相关代码与数据将公开共享。
当前移动端GUI智能体的在线基准测试大多以应用为中心且任务同质化,难以反映真实移动使用场景的多样性与不稳定性。为此,我们推出VenusBench-Mobile——一个在真实用户中心化场景下评估通用移动GUI智能体的挑战性在线基准。该基准构建两大核心评估支柱:通过反映真实使用场景的用户意图驱动型任务设计定义评估内容,借助面向能力维度的标注体系实现细粒度智能体行为分析。对前沿移动GUI智能体的大规模评估表明,其性能表现与既有基准存在显著差距,证明VenusBench-Mobile能提供更具挑战性和真实性的任务,且当前智能体距实际可靠部署仍有距离。诊断分析进一步揭示,感知与记忆能力缺陷是主要失败原因,而粗粒度评估往往掩盖这些问题。此外,即便最强智能体在环境变化下的成功率也趋近于零,凸显其在真实场景中的脆弱性。基于这些发现,我们认为VenusBench-Mobile为推进移动GUI智能体的实际稳健部署提供了重要基石。代码与数据详见:https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile。