每日精选AI研究论文及翻译
大型推理模型已展现出强大的问题解决能力,然而现实任务往往需要外部工具和长程交互。现有智能体框架通常遵循预设流程,这限制了任务的自主性与全局完成度。本文提出DeepAgent——一种端到端深度推理智能体,可在单一连贯的推理过程中实现自主思考、工具发现与动作执行。针对长程交互中多工具调用引发的上下文长度爆炸及交互历史累积问题,我们引入自主记忆折叠机制,将过往交互压缩为结构化的情景记忆、工作记忆与工具记忆,在保留关键信息的同时减少误差累积。为高效稳定地训练通用工具使用能力,我们开发了端到端强化学习策略ToolPO,通过LLM模拟的API环境并应用工具调用优势归因方法,对工具调用令牌进行细粒度奖励分配。在八大基准测试(包括通用工具使用任务ToolBench、API-Bank、TMDB、Spotify、ToolHop以及下游应用ALFWorld、WebShop、GAIA、HLE)上的实验表明,DeepAgent在标注工具和开放集工具检索场景中均持续优于基线方法。该研究为构建适用于现实场景的通用智能体迈出重要一步。代码与演示见https://github.com/RUC-NLPIR/DeepAgent。
前沿推理模型通过强化学习对大型语言模型进行后训练,已在多学科领域展现出惊人能力。然而尽管该范式已取得广泛成功,现有研究大多致力于解析强化训练过程中涌现、但基础模型原本不具备的全新行为。本文从不同角度切入探讨该问题,转而研究是否能在推理阶段仅通过纯采样方式,从基础模型中激发出与之相当的推理能力。受马尔可夫链蒙特卡洛方法从锐化分布中采样的启发,我们提出一种利用基础模型自身似然度的简单迭代采样算法。在不同基础模型上的实验表明,该算法在MATH500、HumanEval、GPQA等单次任务中的推理能力提升显著,几乎达到甚至超越强化学习的效果。更重要的是,我们的采样器避免了强化学习后训练中常见的多样性与多样本崩溃问题。该方法无需额外训练、精选数据集或验证器,表明其具有超越易验证领域的广泛适用性。
统一且可泛化的语义控制视频生成仍是关键的开放性挑战。现有方法要么通过强加基于结构控制的像素级先验而引入伪影,要么依赖不可泛化的条件特定微调或任务专用架构。我们提出Video-As-Prompt(VAP)这一新范式,将该问题重新定义为上下文生成任务。VAP利用参考视频作为直接语义提示,通过即插即用的混合专家Transformer(MoT)引导冻结的视频扩散Transformer(DiT)。该架构可防止灾难性遗忘,并采用具有时序偏置的位置编码进行引导,消除虚假映射先验以实现鲁棒的上下文检索。为支撑该方法并推动未来研究,我们构建了VAP-Data——目前最大的语义控制视频生成数据集,包含100种语义条件下超过10万组配对视频。作为单一统一模型,VAP为开源方法设立了新标杆,获得38.7%的用户偏好率,媲美领先的条件专用商业模型。VAP强大的零样本泛化能力及对多种下游应用的支持,标志着向通用可控视频生成迈出了重要一步。
我们致力于解决无限扩展三维世界的生成难题——即创建具有连贯几何结构与逼真外观的大规模连续环境。现有方法面临关键挑战:基于二维提升的方法存在多视角间的几何与外观不一致问题,三维隐式表示难以扩展规模,而当前三维基础模型大多以物体为中心,限制了其在场景级生成中的应用。我们的核心思路是利用预训练三维模型中的强生成先验进行结构化场景块生成。为此,我们提出WorldGrow这一支持无边界三维场景合成的分层框架。该方法包含三大核心组件:(1)通过数据筛选流程提取高质量场景块进行训练,使三维结构化潜在表征适用于场景生成;(2)采用三维场景块修复机制实现上下文感知的场景扩展;(3)通过由粗到细的生成策略确保全局布局合理性与局部几何/纹理保真度。在大规模3D-FRONT数据集上的评估表明,WorldGrow在几何重建方面达到业界最优性能,同时独树一帜地支持生成具有照片级真实感与结构一致性的无限场景。这些成果彰显了其构建大规模虚拟环境的能力,以及构建未来世界模型的潜力。
当前对通用人工智能(AGI)缺乏明确定义,导致人们难以看清当今专用人工智能与人类水平认知之间的差距。本文提出一种可量化的评估框架,将AGI定义为达到受过良好教育的成年人的认知广度与熟练度。为实现这一目标,我们将方法论建立在卡特尔-霍恩-卡罗尔理论——这一经过最广泛实证验证的人类认知模型之上。该框架将通用智能分解为十大核心认知领域(包括推理、记忆和感知),并采用成熟的人类心理计量测试工具来评估人工智能系统。应用该框架发现,当代模型呈现出高度"锯齿状"的认知能力分布:虽然现有AI系统在知识密集型领域表现优异,但在基础认知机制(尤其是长期记忆存储)方面存在严重缺陷。由此得出的AGI评分(如GPT-4为27%,GPT-5为58%)既量化了技术的飞速进步,也清晰标定了当前与AGI之间的实质性差距。
群体相对策略优化(GRPO)在基于流匹配的文本到图像生成中展现出强大潜力,但仍面临两个关键局限:优势归因不准确,以及忽略生成的时间动态性。本研究提出将优化范式从步进层级转向块级可有效缓解这些问题。基于此思路,我们提出Chunk-GRPO——首个基于块级GRPO的文本到图像生成方法。其核心思想是将连续步骤分组为捕捉流匹配内在时间动态的连贯"块",并在块级进行策略优化。此外,我们引入可选的加权采样策略以进一步提升性能。大量实验表明,Chunk-GRPO在偏好对齐和图像质量方面均取得更优结果,彰显了块级优化对GRPO类方法的应用前景。
离散扩散模型已成为视觉语言任务的重要研究方向,其双向上下文建模能力与理论并行化优势令人瞩目。然而,训练与推断之间的差异严重制约了其实际应用:并行解码过程中初始令牌的错误会污染生成上下文,引发错误连锁反应,导致语法错误与语义幻觉。为攻克这一根本性挑战,我们将生成过程从被动去噪重构为主动精修。本文提出ReDiff——一种增强精修能力的扩散框架,使模型具备识别并修正自身错误的能力。该方案采用两阶段训练策略:首先通过修正合成错误训练模型掌握基础修订能力;随后引入创新的在线自校正循环,让模型通过专家校正样本学习对自身缺陷草稿的修订。这种错误驱动学习使模型获得关键的自省能力,能够对已生成内容进行迭代优化,从而有效阻断错误传播链。大量实验表明,ReDiff显著提升了生成内容的连贯性与事实准确性,实现了远超传统去噪方法的稳定高效并行生成。代码与模型已开源:https://rediff-hku.github.io/。
扩展大型语言模型(LLM)的上下文长度虽能带来显著优势,但计算成本高昂。这一开销主要源于自注意力机制——其相对于序列长度的O(N²)复杂度成为内存和延迟的主要瓶颈。幸运的是,注意力矩阵通常具有稀疏性,尤其在长序列场景下,这为优化提供了契机。块稀疏注意力通过将序列划分为块并跳过部分块的计算,成为一种颇具前景的解决方案。然而,该方法的效果高度依赖于底层的注意力模式,可能导致次优的块级稀疏度。例如,单个块内查询所需的重要键令牌可能分散在多个其他块中,从而导致计算冗余。本文提出置换块稀疏注意力(PBS-Attn),这是一种即插即用方法,利用注意力的置换特性增强块级稀疏度,提升LLM预填充阶段的计算效率。我们在具有挑战性的真实长上下文数据集上进行了全面实验,证明PBS-Attn在模型准确性上持续优于现有块稀疏注意力方法,并与全注意力基准结果高度吻合。借助我们定制的置换FlashAttention内核,PBS-Attn在长上下文预填充中实现了最高2.75倍的端到端加速,验证了其实际可行性。代码已开源:https://github.com/xinghaow99/pbs-attn
图形用户界面基础任务(GUI Grounding)作为GUI智能体的核心能力,其本质是将自然语言指令映射为可操作的界面元素。现有研究大多将指令视为用户意图的静态代理,忽视了指令多样性与质量对基础任务性能的影响。通过对现有基础任务数据集的细致分析,我们发现其中23.3%的指令存在缺陷,并证明在推理阶段利用指令多样性可实现高达76%的相对性能提升。本文提出"指令即推理"新范式,将指令视为提供独特视角的动态分析路径,使模型能够在推理过程中选择最优路径。为实现这一目标,我们设计了两阶段训练框架:首先通过基于合成多样化指令的监督微调(SFT)注入多视角推理能力,随后采用强化学习(RL)优化路径选择与组合策略。最终得到的UI-Ins-7B和UI-Ins-32B模型在五大挑战性基础任务基准上取得最先进性能,并展现出新兴推理能力——在推理时能选择性组合并生成新颖指令路径。其中UI-Ins-32B获得最佳基础任务准确率:在UI-I2E-Bench达87.3%,ScreenSpot-Pro达57.0%,MMBench-GUI L2达84.9%。此外,我们的模型展现出强大智能体潜力,使用UI-Ins-7B作为执行器在AndroidWorld环境中实现74.1%的任务成功率。深度分析揭示了更多洞见:如何构建推理机制以增强而非阻碍基础任务性能,以及我们的方法如何缓解SFT+RL框架中的策略坍塌问题。所有代码与模型检查点将公开于https://github.com/alibaba/UI-Ins。
本文首次证明视觉扩散模型可作为有效的几何求解器:它们能直接在像素空间中对几何问题进行推理。我们首先以"内接正方形问题"(该几何学百年难题探讨是否所有若尔当曲线都包含可构成正方形的四个点)验证此能力,随后将该方法拓展至斯坦纳树问题和简单多边形问题这两大著名几何难题。 我们的方法将每个问题实例视为图像,并训练标准视觉扩散模型将高斯噪声转换为表征有效近似解(与精确解高度吻合)的图像。该模型学会将含噪几何结构转换为正确配置,实质上把几何推理重构为图像生成任务。 与先前研究在应用扩散模型处理参数化几何表示时需定制专用架构和领域适配不同,我们采用标准视觉扩散模型直接处理问题的视觉表征。这种简洁性揭示了生成建模与几何问题求解之间令人惊异的桥梁。除本文研究的特定问题外,我们的成果指向更广泛的范式:在图像空间中操作为逼近著名难题提供了通用实用框架,并为攻克更广泛挑战性几何任务开辟了新途径。
视频大语言模型(VideoLLMs)将视觉语言模型的能力拓展至时空输入领域,实现了视频问答等任务。尽管VideoLLMs近期取得显著进展,但其内部关于视频与文本信息的提取和传递机制仍待深入探索。本研究采用机理可解释性技术,系统剖析了VideoLLMs的内部信息流。我们在多样化视频问答任务中发现一致规律:(1)时序推理始于早期至中层网络中的跨帧交互;(2)随后在中层网络实现渐进式视频-语言融合,该过程由视频表征与含时序概念的语言嵌入之间的对齐实现;(3)完成融合后,模型在中层至深层网络具备生成正确答案的能力;(4)基于此发现,我们证明VideoLLMs可通过选择有效信息路径(如LLaVA-NeXT-7B-Video-FT模型可削减58%注意力边)保持视频问答性能。这些发现揭示了VideoLLMs进行时序推理的内在机制,为提升模型可解释性与下游泛化能力提供了实践指导。项目页面及源代码详见https://map-the-flow.github.io。
模型融合是一种高效的后训练策略,用于整合共享基础模型多个微调检查点的知识。现有方法在参数空间中进行操作,通过组合任务向量来缓解冲突,但仍受限于参数不一致性。我们提出功能双锚点(FDA)框架,该方法转而对输入表示空间进行建模。FDA是合成的输入样本,其诱导的梯度与任务向量对齐,能够捕捉相对于预训练模型的任务特定功能偏移。这一视角搭建了联合多任务训练与事后融合的桥梁,兼具鲁棒性与灵活性。我们进一步引入理论驱动的初始化方案,并证明FDA与参数空间模型融合具有互补性。综合实验验证了FDA在模型融合中的有效性。
提示词设计在文本到视频(T2V)生成中至关重要,但用户提供的提示词往往简短、非结构化且与训练数据不匹配,限制了基于扩散的T2V模型的生成潜力。我们提出RAPO++,一种跨阶段提示词优化框架,通过统一训练数据对齐优化、测试时迭代缩放和大语言模型(LLM)微调,在不修改生成主干模型的情况下显著提升T2V生成质量。第一阶段采用检索增强提示词优化(RAPO),通过从关系图中检索语义相关的修饰词丰富用户提示,并重构提示以匹配训练数据分布,从而增强组合性与多对象保真度。第二阶段引入样本特定提示词优化(SSPO),该闭环机制利用多源反馈(包括语义对齐、空间保真度、时序连贯性及光流等任务特定信号)迭代优化提示词,逐步提升视频生成质量。第三阶段利用SSPO产生的优化提示词对微调重写器LLM,将任务特定优化模式内化,实现推理前即可生成高效高质量的提示词。在五个前沿T2V模型和五个基准测试上的大量实验表明,RAPO++在语义对齐、组合推理、时序稳定性和物理合理性方面取得显著提升,大幅超越现有方法。我们的研究成果确立了RAPO++作为模型无关、成本高效且可扩展的解决方案,为T2V生成领域的提示词优化树立了新标准。代码已开源:https://github.com/Vchitect/RAPO。
我们揭示了大语言模型(LLMs)的内部表征可作为所学知识的可靠代理,并提出了RECALL——一种无需历史数据即可实现持续学习的表征感知模型融合新框架。该框架通过聚类典型样本上的分层隐藏表征计算模型间相似度,执行自适应的层次化参数融合以实现知识对齐。该设计能保留浅层的领域通用特征,同时允许深层进行任务特异性适配。与需要任务标签或牺牲性能的现有方法不同,RECALL实现了多领域无缝集成与强大的抗灾难性遗忘能力。在五个NLP任务和多种持续学习场景下的大规模实验表明,RECALL在知识保留与泛化能力上均超越基线方法,为LLMs的持续演进提供了可扩展的无数据解决方案。
传统信息检索(IR)指标(如nDCG、MAP和MRR)基于用户按顺序检视文档且对低排名文档关注度递减的假设。这一假设在检索增强生成(RAG)系统中不再适用,因为检索结果由大语言模型(LLM)处理——与人类不同,LLM会将所有检索文档作为整体处理而非顺序检视。此外,传统IR指标未考虑相关但无关的文档会主动降低生成质量,而非仅被忽略。由于这两大错配因素(即人类与机器的位置衰减差异、人类相关性标准与机器效用标准的差异),经典IR指标无法准确预测RAG性能。我们提出一种基于效用的标注框架,可同时量化相关段落的正面贡献和干扰段落的负面影响。在此基础上,我们设计了UDCG(效用与干扰感知累积增益)指标,采用面向LLM的位置衰减机制,直接优化与端到端答案准确率的关联性。在五个数据集和六种LLM上的实验表明,UDCG相较于传统指标将相关性提升最高达36%。本研究为IR评估与LLM消费者对齐迈出关键一步,为RAG组件提供了更可靠的评估方法。
近年来,检索增强生成和思维链推理等技术导致上下文长度增加及推理成本上升。虽然上下文压缩技术能降低这些成本,但最有效的方法需要对目标模型进行微调甚至修改其架构,这可能会影响模型在非特定用途下的通用能力。本文探索了一种替代方案:通过编码器将上下文压缩为连续表征,以替代解码器型大语言模型中的词元嵌入。首先,我们系统研究了编码器的训练策略与架构选择,据此设计出名为ARC-Encoder的自适应文本表征压缩器,其输出的连续表征数量可比原始文本词元减少x倍(通常x∈{4,8})。我们在指令调优型和基础型解码器上,从上下文学习到上下文窗口扩展等多种大语言模型使用场景中对ARC-Encoder进行评估。结果表明,该编码器在多个基准测试中达到最先进性能,同时提升了推理时的计算效率。最后,我们证明该模型可同时适配多个解码器,实现单一编码器跨不同大语言模型的泛化应用,使ARC-Encoder成为可无缝对接多种大语言模型的便携式高效解决方案。训练代码已发布于https://github.com/kyutai-labs/ARC-Encoder ,微调数据集与预训练模型详见https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 。
近期,多模态持续学习领域取得重要进展,其目标是在多模态环境中顺序学习新任务的同时保持对已学任务的性能。然而现有方法主要聚焦粗粒度任务,在解决细粒度持续学习场景中的模态纠缠问题上存在局限。为填补这一空白,我们提出新型持续音视频分割任务(CAVS),旨在通过音频引导持续分割新类别。经综合分析,我们识别出两大关键挑战:1)多模态语义漂移,即发声物体在连续任务中被误标为背景;2)共现混淆,即频繁共现的类别易产生混淆。本研究设计基于碰撞的多模态回放框架(CMR)应对这些挑战。具体而言,针对多模态语义漂移,提出多模态样本选择策略(MSS),筛选具有高模态一致性的样本进行回放;针对共现混淆,设计基于碰撞的样本回放机制(CSR),在训练过程中提升易混淆类别的回放样本频率。此外,我们构建了三种音视频增量场景验证方法有效性。综合实验表明,本方法显著优于单模态持续学习方法。
大型语言模型(LLMs)在面向外部环境的智能体系统中日益普及,这使其在处理不可信数据时易受提示注入攻击。为突破此局限,我们提出SIC(软指令控制)——一种面向工具增强型LLM智能体的简洁高效迭代式提示净化循环机制。该方法通过多重循环检测输入数据中可能干扰智能体行为的指令内容,若发现恶意内容则进行重写、屏蔽或删除处理,并对结果进行再次评估。该流程持续至输入数据净化完成或达到最大迭代次数;若仍存在强制性指令类内容,系统将中止运行以确保安全。通过允许多轮处理,本方法承认单次改写可能失败,但能在后续步骤中捕获并修正遗漏的注入攻击。尽管具备即时实用性,最坏情况分析表明SIC并非无懈可击:强大攻击者仍可通过嵌入非强制性工作流程实现15%的攻击成功率。但这一方案显著提升了防御门槛。
近期大型推理模型的进步在生成最终答案前引入了中间"思考"过程,显著提升了处理复杂下游任务的推理能力。然而,这类模型作为机器翻译质量评估工具的潜力尚未得到充分探索。我们首次系统分析了LRM作为评判者在机器翻译评估中的应用,发现关键挑战包括:需要定制化评估材料、对简单实例易出现"过度思考",以及评分机制导致的高估倾向。为解决这些问题,我们提出通过合成类人思考轨迹对LRM进行校准训练。在WMT24指标基准测试中,该方法在将思考预算降低约35倍的同时,使7B至32B不同规模的模型评估性能均获提升(如R1-Distill-Qwen-7B模型相关度提升8.7个百分点)。这些发现表明,经过高效校准的大型推理模型有望推动细粒度自动机器翻译评估的发展。
交互式世界模型能够模拟物体动力学,在机器人、虚拟现实和增强现实领域具有关键作用。然而从有限的真实世界视频数据中学习物理一致的动力学模型仍面临重大挑战,尤其对于具有空间变化物理属性的可变形物体。为克服数据稀缺难题,我们提出PhysWorld新型框架,利用模拟器合成物理合理且多样化的演示数据以学习高效世界模型。具体而言,我们首先通过本构模型选择和物理属性全局到局部优化,在MPM模拟器中构建物理一致的数字孪生体;随后对物理属性施加部件感知扰动,为数字孪生体生成多样化运动模式,从而合成大规模异质演示数据;最后基于这些演示数据训练嵌入物理属性的轻量级图神经网络世界模型,并可利用真实视频进一步优化物理参数。PhysWorld实现了对各类可变形物体的精准快速未来预测,且对新交互场景具有良好泛化能力。实验表明,PhysWorld在保持竞争力的同时,推理速度较当前最优方法PhysTwin提升47倍。
我们运用范畴论来提取多模态文档结构,由此发展出信息论测度、内容摘要与扩展方法,以及大型预训练模型的自监督改进技术。首先,我们建立了将文档表示为问答对范畴的数学框架。其次,开发了正交化流程,将单个或多个文档包含的信息分解为互不重叠的组成部分。前两步提取的结构特征促使我们创建了文档信息度量与枚举方法,并以此为基础开发出新型摘要技术,同时解决了"注疏生成"这一新问题——即实现对原始文档的扩展性解读。我们的问答对方法为摘要技术提供了全新的率失真分析视角。基于大型预训练模型实现了相关技术,并提出了整体数学框架的多模态扩展方案。最后,通过RLVR技术开发出创新的自监督方法,利用组合性及特定运算下的封闭性等一致性约束(这些约束自然衍生自我们的范畴论框架)来优化大型预训练模型。
强化学习已成为提升大语言模型能力的关键方法。然而在混合专家模型中,路由机制常引发训练不稳定性,甚至导致灾难性的强化学习训练崩溃。我们分析了MoE模型的训练-推理一致性,发现两个阶段的路由行为存在显著差异。即使在相同条件下,路由框架在多次前向传播中也可能产生不同的专家选择。针对这一根本性不一致问题,我们提出滚动路由重放法:通过记录推理引擎的路由分布并在训练阶段重放,该方法显著降低了训练-推理策略的KL散度,在保持训练速度的同时有效缓解了极端差异。多场景实验表明,R3成功稳定了强化学习训练,避免了崩溃现象,其性能优于GSPO和TIS等方法。我们相信这项工作能为MoE模型的强化学习稳定性提供新的解决方案。
Foley Control是一种轻量级的视频引导拟音方法,该方法保持预训练的单模态模型参数冻结,仅学习模型间的小型交叉注意力桥接模块。我们通过将V-JEPA2视频嵌入与冻结的Stable Audio Open DiT文生音频模型相连接——在现有文本交叉注意力层后插入紧凑的视频交叉注意力层,使得文本提示设定全局语义,而视频则细化时间动态与局部特征。冻结的主干网络保留了强大的边缘分布特性(视频模态;给定文本时的音频分布),而桥接模块则学习了同步所需的音视频依赖关系,无需重新训练音频先验模型。为降低内存消耗并稳定训练,我们在条件化前对视频标记进行池化处理。在精选的音视频基准测试中,Foley Control以远少于当前多模态系统的可训练参数量,实现了具有竞争力的时序对齐与语义对齐效果,同时保留了提示驱动的可控性及生产友好的模块化特性(无需端到端重训练即可替换/升级编码器或文生音频主干)。尽管当前聚焦于视频拟音任务,该桥接设计同样具备扩展至其他音频模态(如语音)的潜力。
人工智能代理有望通过自动化文献综述、实验复现、数据分析和提出新研究方向来彻底改变科研生产力。目前已有从通用型"深度研究"系统到专业科学代理(如AI Scientist和AIGS)等多种此类代理。对这些代理进行严格评估对领域发展至关重要,但现有基准测试存在多重不足:其一,未能针对科学研究等实际应用场景提供整体性、产品化的衡量标准;其二,缺乏可复现的代理工具以进行核心代理能力的受控比较;其三,未考虑模型成本与工具访问等混杂变量;其四,未提供标准化接口以支持快速代理原型设计与评估;其五,缺乏识别真实进展所需的全面基线代理。为此,我们提出了更严格代理基准测试的原则与工具集,并据此推出AstaBench——首个全面衡量科研能力的测试套件,包含2400多个覆盖完整科研流程与多学科领域的问题,其中许多问题源自已部署Asta代理的实际用户需求。该套件配备了首个具备生产级搜索工具的科研环境,支持受控可复现的评估,能更好控制混杂因素。同时我们提供了九类经科学优化的Asta代理及大量基线模型。通过对22类57种代理的广泛评估,我们发现了若干重要结论,最关键的是:尽管在特定方面取得实质性进展,人工智能仍远未达到解决科研辅助挑战的水平。
多模态大语言模型(MLLMs)的视觉推理研究主要集中于静态、全观测场景,这限制了其在现实环境中的有效性——现实中因遮挡或视野受限常导致信息不完整。与之相反,人类通过整合感知、推理与行动的闭环过程,主动探索并与环境互动(如移动、检视和操控物体)来收集信息。受此人类能力启发,我们提出主动视觉推理(AVR)任务,将视觉推理扩展至部分可观测的交互式环境。AVR要求智能体具备以下能力:(1)通过序列化物理动作主动获取信息;(2)整合多步观测以进行连贯推理;(3)基于动态视觉反馈实时调整决策。为系统评估AVR,我们推出仿真基准CLEVR-AVR,其多轮交互环境可同时评估推理正确性与信息获取效率。我们构建的大规模数据集AVR-152k提供丰富的思维链标注,详细阐释不确定性识别中的迭代推理、动作条件化信息增益预测及信息最大化动作选择,这对训练高阶马尔可夫决策过程中的智能体至关重要。基于此,我们开发了PhysVLM-AVR模型,该MLLM在CLEVR-AVR、具身推理(OpenEQA、RoboVQA)及被动视觉推理(GeoMath、Geometry30K)任务中均达到最先进性能。分析还表明,当前具身MLLM虽能检测信息不完整性,却难以通过交互主动获取并整合新信息,这揭示了主动推理能力的根本性缺陷。
三维激光雷达传感器在遥感应用中对于自主导航、环境监测及高精度测绘至关重要。为高效处理这些传感器生成的海量点云数据,常将激光雷达数据投影至二维距离图像,通过角度位置与距离对点进行有序组织。尽管这类距离图像表征能实现高效处理,但传统投影方法存在固有几何不一致性,导致不可逆信息损失,影响高保真应用。本文提出ALICE-LRI(无损距离图像自动激光雷达内参标定估计),这是首个通用、传感器无关的方法,无需制造商元数据或标定文件即可实现旋转式激光雷达点云的无损距离图像生成。我们的算法通过推断激光束配置、角度分布及逐光束标定校正等关键参数,自动逆向解析任意旋转式激光雷达传感器的内部几何结构,实现无损投影与零点数损失的完整点云重建。在完整KITTI和DurLAR数据集上的综合评估表明,ALICE-LRI实现了完美点云保留,所有点云均无点数损失。几何精度严格保持在传感器精度极限内,以实时性能确立几何无损特性。我们还通过压缩案例研究验证了下游应用的显著优势,展示了实际应用中质的提升。这种从近似投影到无损投影的范式转变,为需要完整几何保真的高精度遥感应用开辟了新可能。