每日精选AI研究论文及翻译
近期视频生成领域的进展揭示了一个意外现象:基于扩散的视频模型展现出非平凡推理能力。先前研究将其归因于帧间链式推理机制,即假设推理过程在视频帧间顺序展开。本文挑战了这一假设,揭示了一种根本不同的机制。我们发现视频模型的推理能力主要沿扩散去噪步骤涌现:通过定性分析和针对性探测实验,发现模型在早期去噪步骤中探索多个候选解,并逐步收敛至最终答案,这一过程被我们称为步骤链式推理。除核心机制外,我们还识别出对模型性能至关重要的若干涌现行为:(1)工作记忆,实现持续参照;(2)自我校正与增强,允许从错误中间解恢复;(3)先感知后操作,即早期步骤建立语义基础,后期步骤执行结构化处理。在单步扩散过程中,我们进一步发现扩散Transformer内部自演进的功能分化:早期层编码密集感知结构,中间层执行推理,后期层整合潜在表征。基于这些发现,我们提出一种无需训练的简易策略作为概念验证,通过集成相同模型在不同随机种子下的潜在轨迹来提升推理能力。总体而言,本研究系统阐释了视频生成模型中推理能力的涌现机制,为未来研究如何更好地利用视频模型固有推理动态作为智能新基质奠定了理论基础。
近期,代码大语言模型在通用编程任务上取得了显著进展。然而,在需要理解硬件语义、专用语言结构及严格资源约束的工业场景中,其性能明显下降。为应对这些挑战,我们推出InCoder-32B(工业级代码生成器-32B),这是首个320亿参数规模的代码基础模型,可统一支持芯片设计、GPU内核优化、嵌入式系统、编译器优化及三维建模等领域的代码智能。通过采用高效架构,我们采用通用代码预训练、工业代码精炼、中期训练(将上下文长度从8K逐步扩展至128K并辅以合成工业推理数据)以及基于执行验证的后训练四阶段策略,对InCoder-32B进行从零开始的全程训练。我们在14个主流通用代码基准测试和涵盖4个专业领域的9个工业基准测试上开展广泛评估。结果表明,InCoder-32B在通用任务中表现出强大竞争力,同时为各工业领域建立了坚实的开源基线。
全模态大语言模型(OLMs)通过原生整合音频、视觉与文本,重新定义了人机交互范式。然而现有OLM基准仍固守静态的、以准确率为核心的任务范式,未能有效评估自然对话中处理动态社交线索的关键能力——社会交互性。为此,我们提出SocialOmni基准框架,从三个核心维度系统化评估对话交互能力:(一)说话人分离与身份识别(谁在说话),(二)插话时机控制(何时介入),(三)自然插话生成(如何表达)。该基准包含2,000个感知样本及经质控的209个交互生成诊断实例,这些实例具有严格的时序与上下文约束,并辅以受控的视听不一致场景以检验模型鲁棒性。我们对12个主流OLM进行测试,发现其社交交互能力存在显著差异。更关键的是,分析表明模型的感知准确度与生成情境适配插话的能力存在明显解耦,这预示着仅靠理解导向的指标不足以表征对话社交能力。值得期待的是,SocialOmni的诊断结果为未来OLM弥合感知与交互的鸿沟提供了可操作的改进方向。
我们推出MiroThinker-1.7,这是一款专为复杂长程推理任务设计的新型研究智能体。基于此基础,我们进一步推出MiroThinker-H1,通过增强重型推理能力扩展了智能体功能,实现更可靠的多步骤问题求解。特别值得一提的是,MiroThinker-1.7通过强调结构化规划、情境推理与工具交互的智能体中期训练阶段,提升了每个交互步骤的可靠性。这使得智能体能在复杂任务中实现更有效的多步交互与持续推理。MiroThinker-H1更进一步将验证机制直接融入推理过程,涵盖局部与全局层面:在推理过程中可评估并优化中间决策,同时审计整体推理轨迹以确保最终结论由连贯的证据链支撑。在涵盖开放网络研究、科学推理与金融分析的基准测试中,MiroThinker-H1在深度研究任务上达到最先进性能,同时在专业领域保持强劲表现。我们还开源发布了MiroThinker-1.7与MiroThinker-1.7-mini模型,以显著提升的效率提供具备竞争力的研究智能体能力。
我们推出千帆-OCR,这是一个40亿参数端到端视觉语言模型,将文档解析、版面分析与文档理解统一于单一架构。该模型支持直接图像到Markdown的转换,并能通过多样化提示驱动任务,包括表格提取、图表理解、文档问答及关键信息抽取。为解决端到端OCR中显式版面分析缺失的问题,我们提出"布局即思维"机制——通过特殊思考令牌触发的可选推理阶段,在生成最终输出前先产生结构化版面表征(包含边界框、元素类型和阅读顺序),既恢复了布局定位能力,又提升了复杂版面的处理精度。千帆-OCR在OmniDocBench v1.5(93.12分)和OlmOCR Bench(79.8分)端到端模型中排名第一,在OCRBench、CCOCR、DocVQA和ChartQA上取得与同规模通用VLM相媲美的成绩,并在公开关键信息抽取基准测试中平均得分最高,超越Gemini-3.1-Pro、Seed-2.0和Qwen3-VL-235B。该模型已通过百度智能云千帆平台对外开放。
近期,多模态大推理模型(MLRMs)的显著进展极大提升了视觉问答任务的性能。然而我们观察到,转折词(如"因为""但是""且慢")与幻觉现象密切关联,且易呈现高熵状态。我们认为,充足的上下文推理信息可直接从词元概率分布中提取。受叠加表征理论启发,我们提出利用潜在叠加推理技术来融合多候选语义并维持潜在推理轨迹。研究假设认为,对离散文本输入的依赖可能使模型倾向于序列化显式推理,在高熵推理阶段未能充分利用密集的上下文线索。因此,我们提出基于词元概率分布构建丰富语义表征以增强上下文推理能力。基于此目标,我们提出潜在熵感知解码(LEAD)——一种高效的即插即用解码策略,通过语义上下文实现可靠推理。该方法的核心在于熵感知推理模式切换:模型在高熵状态下采用概率加权的连续嵌入,随熵值降低切换回离散词元嵌入。此外,我们提出先验引导的视觉锚点注入策略,促使模型聚焦视觉信息。大量实验表明,LEAD能在多个基准测试中有效缓解各类MLRMs的幻觉现象。
模拟机器人-世界交互是具身人工智能的基石。近期少数研究展现出利用视频生成技术突破传统模拟器刚性视觉/物理约束的潜力。然而,这些方法主要基于二维空间或静态环境线索,忽略了机器人-世界交互本质上是需要精确交互建模的四维时空事件。为恢复这种四维本质并确保精确的机器人控制,我们提出Kinema4D——一种新型动作条件化四维生成式机器人模拟器,其将机器人-世界交互解耦为:i)机器人控制的精确四维表征:通过运动学驱动基于URDF的三维机器人,生成精确的四维机器人控制轨迹;ii)环境反应的生成式四维建模:将四维机器人轨迹投影为点云图的时空视觉信号,控制生成模型将复杂环境的反应动力学合成为同步的RGB/点云序列。为促进训练,我们构建了大规模数据集Robo4D-200k,包含201,426个具有高质量四维标注的机器人交互片段。大量实验表明,我们的方法能有效模拟物理合理、几何一致且与具体载体无关的交互行为,精准反映多样化的真实世界动力学特性。该方法首次展现出零样本迁移的潜力,为推进下一代具身模拟技术奠定了高保真基础。
视频扩散变换器的最新进展催生了交互式游戏世界模型,使得用户能够在扩展时间跨度内探索生成环境。然而,现有方法在精确动作控制和长时序3D一致性方面仍存在不足。多数先前研究将用户动作视为抽象条件信号,忽略了动作与3D世界之间根本的几何耦合关系——即动作引发相对相机运动,最终累积形成3D世界中的全局相机位姿。本文提出将相机位姿作为统一几何表征,以共同支撑即时动作控制与长期3D一致性。首先,我们定义了基于物理的连续动作空间,并在李代数中表示用户输入以推导精确的六自由度相机位姿,通过相机嵌入器将其注入生成模型以确保动作精准对齐。其次,我们采用全局相机位姿作为空间索引来检索相关历史观测数据,实现长时序导航过程中几何一致的位置重访。为支持本研究,我们构建了包含3000分钟真实人类游戏录像的大规模数据集,并标注了相机轨迹与文本描述。大量实验表明,本方法在动作可控性、长时序视觉质量和3D空间一致性方面显著优于当前最先进的交互式游戏世界模型。
当前提升大语言模型的主流范式依赖于基于人工标注或模拟环境的离线训练,完全未能利用现实部署中积累的丰富经验。我们提出在线体验学习框架,使语言模型能够从其自身部署经验中持续改进。该框架通过两个阶段运作:首先从用户端收集的交互轨迹中提取并积累可迁移的体验知识;随后通过基于策略的上下文蒸馏将这些知识固化到模型参数中,整个过程无需访问用户端环境。这两个阶段循环迭代形成在线学习闭环:改进后的模型能收集更高质量的交互轨迹,从而为后续轮次提供更丰富的体验知识。我们在基于文本的游戏环境中对多种模型规模、含思考模块与不含思考模块的变体进行了评估。实验表明,在线体验学习在连续迭代中实现了稳定提升,不仅提高了任务准确率和令牌使用效率,还保持了分布外性能。进一步分析显示,提取的体验知识比原始交互轨迹更有效,且知识源与策略模型之间的策略一致性对有效学习至关重要。
在完整模式假设下,文本到SQL解析已取得显著进展。然而,这一前提在真实企业环境中并不成立——此类数据库往往包含数百个具有海量噪声元数据的表格。我们提出的解决方案不是预先注入完整模式,而是让智能体主动识别并验证相关子集,由此催生了本文研究的未知模式场景。为此,我们提出TRUST-SQL框架(基于工具的真实模式未知推理)。我们将该任务建模为部分可观测马尔可夫决策过程,其中自主智能体采用结构化四阶段协议,将推理过程锚定于经过验证的元数据。该协议的关键作用是为我们新颖的双轨GRPO策略提供结构化边界:通过应用令牌级掩码优势度,该策略将探索奖励与执行结果相分离以解决信用分配问题,最终实现相比标准GRPO 9.9%的相对提升。在五个基准测试上的大量实验表明,TRUST-SQL的4B和8B变体相比基础模型分别实现了30.6%和16.6%的平均绝对提升。值得注意的是,尽管完全无需预加载元数据,我们的框架始终达到甚至超越了依赖模式预填充的强基线模型。
大型语言模型(LLMs)在金融领域的融合正推动着从被动信息检索到动态智能交互的范式转变。尽管通用工具学习领域已涌现大量基准测试,但具有高风险、强合规性和数据快速演变特性的金融领域仍缺乏关键性评估体系。现有金融评估主要聚焦静态文本分析或文档问答,忽视了工具执行的复杂现实;而通用工具基准又缺乏金融领域所需的专业严谨性,往往依赖模拟环境或极少量的金融API。为弥补这一空白,我们推出首个面向真实场景、可运行的金融工具学习智能体评估基准——FinToolBench。与先前仅支持少量模拟工具的研究不同,FinToolBench构建了包含760个可执行金融工具与295项严格工具化查询的拟真生态体系,并提出超越二元执行成功率的创新评估框架,从时效性、意图类型及监管领域匹配等金融关键维度进行多方位评估。此外,我们提出增强稳定性与合规性的金融感知工具检索推理基线方法FATR。通过提供首个可审计的金融智能执行测试平台,FinToolBench为可信金融AI设立了新标准。工具清单、执行环境及评估代码将开源以推动后续研究。
许多大型语言模型应用需要以长上下文为条件。Transformer通常通过存储庞大的逐层KV缓存来支持这一功能,但这会带来显著的内存开销。一种理想的替代方案是压缩记忆:一次性读取上下文,将其存储为紧凑状态,并基于该状态响应多个查询。我们在上下文移除场景下研究这一问题,该场景要求模型在推理时无法访问原始上下文的情况下生成答案。我们提出GradMem方法,通过逐样本的测试时优化将上下文写入记忆。给定上下文后,GradMem在保持模型权重冻结的前提下,对一小组前缀记忆标记执行数步梯度下降。与仅前向传播的方法不同,GradMem显式优化模型级别的自监督上下文重建损失,形成具有迭代误差校正功能的损失驱动写入机制。在关联键值检索任务中,GradMem在相同记忆容量下优于仅前向传播的记忆写入方法,且额外梯度步数对容量的提升效果远优于重复前向写入。我们进一步证明GradMem可迁移至合成基准测试之外:在预训练语言模型上,仅依靠记忆编码信息即可在bAbI和SQuAD变体等自然语言任务中取得具有竞争力的结果。
尽管近期流匹配模型通过直接在像素空间操作避免了潜在自编码器的重建瓶颈,但像素流形中语义连续性的缺失导致最优传输路径严重纠缠。这会在路径交叉点附近引发剧烈的轨迹冲突,从而产生次优解。我们并未通过有信息损失的潜在表征来规避该问题,而是提出路径点扩散变压器(WiT)直接解耦像素空间轨迹。WiT通过预训练视觉模型投影的中间语义路径点对连续向量场进行因子分解,将最优传输拆分为先验到路径点和路径点到像素的两段式路径,有效解耦生成轨迹。具体而言,在迭代去噪过程中,轻量级生成器根据当前含噪状态动态推断这些中间路径点,随后通过仅像素自适应层归一化机制持续调节主扩散变压器的条件,引导其向下一状态演化,最终生成RGB像素。在ImageNet 256×256数据集上的评估表明,WiT超越了强像素空间基线,将即时训练收敛速度提升2.2倍。代码已公开于https://github.com/hainuo-wang/WiT.git。
统一多模态模型(UMMs)的视觉生成组件通常受限于预训练过程,这类预训练往往依赖低效范式且缺乏高质量图文配对数据。本文系统分析了UMM视觉生成的预训练方案,发现上述两个问题是主要瓶颈。 为此,我们提出面向UMM的纯图像训练框架(IOMM)——一种数据高效的双阶段训练方法。第一阶段仅利用海量无标注纯图像数据对视觉生成组件进行预训练,从而在这一高成本阶段消除对配对数据的依赖。第二阶段使用无标注图像与少量精选图文配对数据混合微调模型,显著提升指令对齐能力与生成质量。 大量实验表明,IOMM不仅提升了训练效率,更实现了最先进性能。例如,我们的IOMM-B(36亿参数)模型仅消耗约1050 H800 GPU小时即完成从头训练(其中1000小时用于高效的纯图像预训练阶段),在GenEval和WISE评估中分别取得0.89和0.55的分数,超越BAGEL-70亿(0.82和0.55)及BLIP3-o-40亿(0.84和0.50)等强基线模型。 代码已开源:https://github.com/LINs-lab/IOMM。
在多轮多智能体大语言模型游戏评估中,运行间方差往往较为显著。在长程交互过程中,早期微小的偏差会随着回合数累积,并被多智能体耦合效应放大,导致胜率估计产生偏差,也使重复锦标赛中的排名可靠性降低。提示词选择通过生成不同的有效策略进一步加剧了这一问题。我们提出MEMO(记忆增强的模型上下文优化框架),通过耦合记忆保留与探索机制来优化推理时上下文,同时解决不稳定性与性能不足的问题。该自博弈框架中,记忆保留模块维护持久化记忆库,存储自博弈轨迹中的结构化洞见,并在后续对局中将其作为先验知识注入;探索模块采用锦标赛式提示词进化机制,通过TrueSkill进行不确定性感知选择,并利用优先级回放重访关键决策状态。在五款文本游戏中,MEMO将GPT-4o-mini的平均胜率从25.1%提升至49.5%,将Qwen-2.5-7B-Instruct的胜率从20.9%提升至44.3%(每项任务使用2,000场自博弈)。运行间方差显著降低,使不同提示词变体下的排名稳定性增强。结果表明,通过上下文优化可大幅提升多智能体大语言模型游戏的性能与鲁棒性。MEMO在谈判类和不完全信息游戏中提升最为显著,而在完全信息场景下强化学习仍更具优势。
尽管大语言模型(LLMs)已发展为工具使用型智能体,但在长周期交互中仍显脆弱。与数学推理中错误常可通过回溯修正不同,工具使用失败往往引发不可逆的连锁效应,这使得精确的步骤级验证至关重要。然而现有流程级基准测试主要局限于封闭世界的数学领域,未能捕捉工具执行的动态性和开放性。为弥补这一空白,我们推出AgentProcessBench——首个专注于评估现实场景中工具增强轨迹的步骤级效能的基准测试。该基准包含1,000条多样化轨迹和8,509个人工标注的步骤级注释,标注者间一致性达89.1%。其特色包括:采用三元标注方案以捕捉探索行为,设立错误传播规则以降低标注模糊性。大量实验揭示关键发现:(1)较弱策略模型因提前终止而虚增正确步骤比例;(2)区分中性动作与错误动作仍是当前模型的重大挑战;(3)流程衍生的信号为结果监督提供互补价值,显著提升测试时扩展能力。我们期望AgentProcessBench能推动奖励模型的未来研究,为通用智能体的发展铺平道路。代码与数据详见https://github.com/RUCBM/AgentProcessBench。
高质量机器翻译(MT)已能覆盖数百种语言,为多语言系统设定了高标准。但相较于全球7000种语言,现有系统的覆盖范围仍十分有限:目标端约支持200种语言,借助跨语言迁移技术,源端或许能多支持几百种。由于缺乏可靠的基准指标,就连这些数字都难以准确评估。 我们推出全语种机器翻译(OMT)系统,这是首个支持1600余种语言的机器翻译系统。此规模得益于综合数据策略的实现——该策略将大型公共多语言语料库与新创建的数据集(包括人工校对的MeDLEY双语语料)相融合。 我们探索了大型语言模型(LLM)专用于机器翻译的两种路径:作为仅解码器模型(OMT-LLaMA),或作为编码器-解码器架构中的模块(OMT-NLLB)。值得注意的是,我们所有10亿至80亿参数的模型均达到或超越700亿参数LLM基线的机器翻译性能,展现出明显的专业化优势,并能在低算力环境下实现强劲的翻译质量。 此外,我们对英语至1600种语言翻译的评估进一步表明:基线模型虽能理解低资源语言,但常无法生成具有实质保真度的译文;OMT-LLaMA模型则大幅扩展了可生成连贯译文的语言范围。同时,OMT模型在跨语言迁移方面取得进展,近乎解决1600种语言评估中机器翻译"理解"环节的难题。我们的排行榜及主要人工评估数据集(BOUQuET与Met-BOUQuET)正动态向全语种方向演进,并免费开放。
具备思维链推理能力的大语言模型在复杂问题解决任务中实现了最优性能,但其冗长的推理轨迹和庞大的上下文需求导致其难以在边缘设备部署。这些挑战包括高昂的令牌生成成本、庞大的键值缓存占用空间,以及将推理能力蒸馏到移动端小模型时的效率低下问题。现有方法通常依赖将大模型的推理轨迹蒸馏至小模型,但这些轨迹存在风格冗余,不适用于设备端推理。本文提出一种轻量级方法,通过结合LoRA适配器与监督微调实现小参数语言模型的推理能力。我们进一步引入基于强化学习的预算约束机制,在精度损失最小化的同时显著缩短响应长度。针对内存受限的解码场景,采用并行测试时缩放技术,以微小延迟代价提升精度。最后提出动态适配器切换机制(仅在需要时激活推理)及提示编码期间的键值缓存共享策略,降低设备端推理的首令牌响应时间。基于Qwen2.5-7B的实验表明,本方法可在严格资源限制下实现高效精准的推理,使大语言模型推理在移动场景中具备实用性。演示移动设备运行效果的视频已发布于项目页面。
智能体技能(即在推理时注入的结构化程序知识包)正日益广泛地用于增强LLM智能体处理软件工程任务的能力。然而,其在端到端开发环境中的实际效用仍不明确。我们推出SWE-Skills-Bench——首个需求驱动的基准测试框架,专门用于衡量智能体技能在真实软件工程场景中的边际效用。该基准将49个公开的软件工程技能与固定提交点的真实GitHub仓库、以及包含明确验收标准的需求文档进行配对,在六大软件工程子领域生成约565个任务实例。我们引入确定性验证框架,将每个任务的验收标准映射为基于执行的测试,从而实现有/无技能注入的受控配对评估。研究结果表明技能注入的收益远低于快速普及所暗示的水平:49项技能中有39项未带来通过率提升,平均增益仅为+1.2%。令牌开销从适度节省到激增451%不等,而通过率维持不变。仅七项专业技能产生显著增益(最高+30%),三项技能因版本不匹配的指导与项目上下文冲突导致性能下降(最高-10%)。这些发现表明智能体技能属于窄域干预手段,其效用高度依赖领域适配性、抽象层级和上下文兼容性。SWE-Skills-Bench为评估软件工程智能体的技能设计、选择与部署提供了测试平台。项目地址:https://github.com/GeniusHTX/SWE-Skills-Bench。
我们提出SegviGen框架,该框架通过重构原生3D生成模型的用途来实现三维部件分割。现有技术方案要么通过蒸馏或多视角掩码聚合将强大的二维先验提升至三维,但常受跨视角不一致性和边界模糊问题困扰;要么探索原生3D判别式分割方法,这类方法通常需要大规模标注的3D数据和大量训练资源。相比之下,SegviGen利用预训练3D生成模型中编码的结构化先验,通过差异化部件着色机制诱导分割,建立了一种新颖高效的分割框架。具体而言,SegviGen对三维资产进行编码,并在几何对齐重建的活跃体素上预测部件指示色彩。该框架在统一架构下支持交互式部件分割、完整分割以及带二维引导的完整分割。大量实验表明,SegviGen在交互式部件分割任务上比现有最优技术提升40%,在完整分割任务上提升15%,且仅需0.32%的标注训练数据。这证明预训练的3D生成先验可有效迁移至3D部件分割任务,在有限监督条件下实现强劲性能。项目页面详见:https://fenghora.github.io/SegviGen-Page/。
视频超分辨率(VSR)技术旨在从低分辨率视频帧中恢复高质量画面,然而现有方法在推理时往往如同黑箱:用户难以可靠地修正意外伪影,只能被动接受模型输出。本文提出名为SparkVSR的新型交互式VSR框架,将稀疏关键帧转化为简洁而富有表现力的控制信号。具体而言,用户可先使用任意现成的图像超分辨率模型处理少量关键帧,随后SparkVSR在保持原始低分辨率视频运动约束的同时,将关键帧先验信息传播至整个视频序列。我们设计了一种关键帧条件化的潜空间-像素双阶段训练流程,通过融合低分辨率视频潜特征与稀疏编码的高分辨率关键帧潜特征,实现稳健的跨空间传播并优化感知细节。在推理阶段,SparkVSR支持灵活的关键帧选择(手动指定、编解码器I帧提取或随机采样)以及无参考引导机制,持续平衡关键帧遵循度与盲复原效果,即使参考关键帧缺失或不完善也能确保稳健性能。在多组VSR基准测试中,该方法展现出更优的时间一致性与强复原质量,在CLIP-IQA、DOVER和MUSIQ指标上分别较基线提升24.6%、21.8%和5.6%,实现了可控的关键帧驱动视频超分辨率。此外,我们验证了SparkVSR作为通用交互式关键帧条件化视频处理框架的潜力,可直接应用于老胶片修复、视频风格迁移等未见任务。项目页面详见:https://sparkvsr.github.io/
我们完成了Vlasov-Maxwell-Landau(VML)系统中平衡态特征的完整Lean 4形式化,该系统描述了带电等离子体的运动。该项目展示了全流程AI辅助数学研究闭环:AI推理模型(Gemini DeepThink)根据猜想生成证明,智能编码工具(Claude Code)通过自然语言提示将其转化为Lean代码,专用证明器(Aristotle)完成了111条引理的闭合,最终由Lean内核验证结果。整个流程仅由一名数学家在10天内监督完成,成本200美元,且未编写任何代码。 项目开发过程完全公开:所有229条人类提示与213次git提交均存档于代码库。我们详细记录了AI的失效模式(假设蔓延、定义对齐错误、智能体规避行为)与成功经验(抽象/具体证明分离、对抗性自审、关键定义与定理陈述的人工审核)。值得注意的是,该形式化工作先于对应数学论文终稿的完成。
长文本处理始终是语言模型的核心挑战:即使具备扩展的上下文窗口,模型仍难以可靠地提取、推理和利用长文本中的信息。近期提出的递归语言模型(RLM)通过智能代理方式,在推理时以程序化交互将长文本分解为递归子调用来解决这一难题。虽然前景可观,但RLM的成功关键取决于上下文交互程序的选择策略,而这一领域尚未得到充分探索。本文针对该问题提出SRLM框架,通过引入具备不确定性感知的自反思机制来增强程序化上下文交互。SRLM利用三种内在信号——自洽性、推理长度和显性置信度——作为模型内部不确定性的互补指标,借此评估和比较候选的上下文交互程序。在多样化基准数据集、文本长度和骨干模型上的大量实验表明,SRLM始终优于最先进的基线模型,在相同时间预算下较RLM提升达22%。我们的研究发现:递归本身并非RLM性能提升的主因,简单的自反思程序搜索即可匹配或超越RLM,且无需自查询或显式递归机制;对于模型窗口内的文本长度,带递归的RLM反而会降低基线模型性能,而SRLM在长短文本中均能稳定提升;在语义密集型任务中,RLM的启发式程序搜索效果有限,而SRLM的自反思机制能提供语义信号,更有效地引导推理过程。
基于未标定单目视频的流式三维重建仍面临挑战,该任务需在动态环境中同时实现高精度位姿估计与高效在线优化。尽管将三维基础模型与SLAM框架结合是前景广阔的范式,但核心瓶颈依然存在:多数多视角基础模型以前馈方式估计位姿,生成的像素级对应关系难以满足严格几何优化的精度要求。为此,我们提出M³模型,通过为多视角基础模型增设专用匹配头来获取细粒度密集对应关系,并将其集成至鲁棒的单目高斯溅射SLAM系统中。M³还引入动态区域抑制与交叉推理内参对齐机制以提升跟踪稳定性。在多样化室内外基准测试上的大量实验表明,该方法在位姿估计与场景重建方面均达到最先进精度。值得注意的是,在ScanNet++数据集上,M³相较VGGT-SLAM 2.0将ATE均方根误差降低64.3%,并在PSNR指标上以2.11 dB优势超越ARTDECO。
可靠评估对于大型语言模型的开发与部署至关重要,然而实践中往往需要大量人工投入:开发者需筛选合适基准、复现异构评估代码库、配置数据集模式映射并解读聚合指标。为应对这些挑战,我们推出One-Eval——一个能将自然语言评估请求转化为可执行、可追溯、可定制评估流程的智能代理系统。该系统集成三大核心模块:(一)NL2Bench通过意图结构化与个性化基准规划实现需求解析;(二)BenchResolve负责基准解析、自动数据采集及模式规范化以确保可执行性;(三)度量与报告模块支持任务感知的指标选择及超越标量分数的决策导向报告。系统还引入人工校验节点用于审核、编辑与回滚操作,同时保留样本证据链以支持调试与审计。实验表明,One-Eval能以最小用户投入完成多样自然语言请求的端到端评估,为工业场景提供更高效、可复现的评估方案。本框架已开源:https://github.com/OpenDCAI/One-Eval。
随着视觉语言模型的快速发展,越来越多研究开始探索其在SVG生成任务中的潜力。尽管现有方法通过构建大规模SVG数据集和引入SVG专用标记符来提升性能,但仍存在泛化能力有限、代码输出路径冗余以及缺乏显式推理等问题。本文提出CTRL-S(SVG思维链强化学习框架),通过引入思维链机制在SVG生成过程中显式呈现模型的推理逻辑。为支撑这种结构化推理,我们构建了包含14.5万样本的高质量数据集SVG-Sophia,涵盖SVG代码优化、文本转SVG和图像转SVG三类任务。通过训练模型生成组级结构化SVG代码,CTRL-S显著提升了结构连贯性与视觉保真度。此外,我们采用GRPO算法并设计多奖励优化框架,整合DINO视觉特征、图文相似度、格式规范及代码效率等多维度奖励信号。通过联合多奖励优化与多任务训练,该方法系统提升了整体生成能力。大量实验表明,CTRL-S在任务成功率、SVG代码质量和视觉保真度方面均优于现有方法。
从分类分布中采样在数学上很简单,但在大词汇表解码任务中,通常会引发额外的内存流量和LM头部之后的多核计算。我们提出FlashSampling——一种精确的采样原语,它将采样过程融合到LM头部的矩阵乘法运算中,且无需在HBM中实例化逻辑张量。该方法原理简单:在芯片上逐块计算逻辑值,添加Gumbel噪声,每个行和词汇块仅保留一个最大值定位器,最后通过小块归约完成操作。这种融合分块核函数的精确性源于argmax在分区上的可分解性;针对在线和并张量并行设置的分组变体,则通过分类分布的层次化分解保持精确性。在H100、H200、B200和B300 GPU上的测试表明,FlashSampling能加速核级解码工作负载。在端到端vLLM实验中,对于测试模型,其每个输出令牌的生成时间最高可减少19%。这些结果证明,无需任何近似处理的精确采样可以直接融入矩阵乘法运算,将原本受带宽限制的后处理步骤转化为轻量级的收尾操作。项目页面:https://github.com/FlashSampling/FlashSampling。
机器人学习领域的主流观点认为,仅靠仿真模拟是远远不够的;学界普遍认为要实现有效的仿真到现实迁移,至少需要采集真实世界数据或进行任务特定微调,以弥合虚拟环境与物理环境之间的鸿沟。我们对此假设提出了挑战。通过使用足够大规模且多样化的模拟合成训练数据,我们证明了零样本现实迁移不仅可能实现,而且能有效应用于静态与移动操作任务。我们推出MolmoBot-Engine——一个在MolmoSpaces中为各类机器人、任务及多样化仿真环境提供程序化数据生成的全开源流程。基于此,我们发布MolmoBot-Data数据集,包含180万条针对关节物体操作和抓取放置任务的专家轨迹数据。我们训练了三类策略模型:基于Molmo2多帧视觉语言模型并配备流匹配动作头的MolmoBot;复现π_0架构以实现直接对比的MolmoBot-Pi0;以及适合边缘部署且支持强化学习微调的轻量级策略MolmoBot-SPOC。我们在两个机器人平台上进行评估:用于桌面操作任务的Franka FR3,以及用于开门、抽屉操作、柜体交互和移动抓取放置的Rainbow Robotics RB-Y1移动机械臂。在未经任何现实世界微调的情况下,我们的策略实现了对未见过的物体和环境的零样本迁移。在桌面抓取放置任务中,MolmoBot在4种场景的真实世界评估中达到79.2%的成功率,显著优于π_{0.5}的39.2%。我们的结果表明,程序化环境生成与多样化关节资产相结合,能够产生可广泛泛化至现实世界的鲁棒操作策略。技术博客:https://allenai.org/blog/molmobot-robot-manipulation
精确的过程监控仍是长周期机器人操作领域的核心挑战。当前主要瓶颈在于,基于监督微调范式训练的视频多模态大语言模型仅能作为被动"观察者"识别进行中的事件,而无法评估当前状态与最终任务目标的差距。本文提出PRIMO R1(过程推理诱导监控框架),这一70亿参数架构将视频多模态大语言模型转化为主动"评判者"。我们利用基于结果的强化学习技术,激励模型生成显式的思维链进行进度评估。此外,通过将视频序列明确锚定在初始状态与当前状态图像之间,本架构构建了结构化时序输入。基于提出的PRIMO数据集与基准测试,在多样域内环境及域外仿人机器人场景中的大量实验表明,PRIMO R1实现了最先进性能。量化数据显示,我们的70亿参数模型将专业推理基线的平均绝对误差降低50%,相对720亿参数通用多模态大语言模型实现显著精度提升。PRIMO R1在复杂故障检测任务中展现出强大的零样本泛化能力,在RoboFail基准测试中以67.0%的准确率创下新纪录,较OpenAI o1等闭源模型提升6.0%。
尽管原生3D生成模型已实现卓越的生成质量与速度,但其存在一个关键缺陷:无法实现精确的结构化姿态控制,且在原生3D空间内进行精准结构调控的研究尚不充分。本文提出SK-Adapter——一个简洁高效的新型框架,通过解锁骨骼操控能力实现精准的原生3D生成。相较于文本或图像提示在结构控制上的模糊性,我们将3D骨骼作为首要控制信号。该框架采用轻量化结构适配器网络,将关节坐标与拓扑关系编码为可学习令牌,通过交叉注意力机制注入到冻结的3D生成主干网络中。这一精巧设计使模型既能有效"关注"特定3D结构约束,又可保留原始生成先验。为弥补数据空白,我们构建了Objaverse-TMS数据集,包含2.4万组文本-网格-骨骼三元组。大量实验表明,本方法在保持基础模型几何与纹理质量的同时实现了稳健的结构控制,显著优于现有基线方案。此外,我们将该能力拓展至局部3D编辑领域,首次实现基于骨骼引导的现有模型区域化编辑,这是以往方法无法达成的突破。项目页面:https://sk-adapter.github.io/
尽管跨学科研究能带来更广泛和更长远的影响,但大多数学术工作仍局限于单一学科领域。近期基于人工智能的科学发现方法虽展现出跨学科研究的潜力,但多数方案侧重于快速设计实验与解决方案,绕过了驱动创造性跨学科突破所需的探索性协作推理过程。这导致现有研究主要聚焦于自动化科学发现,而非增强科学突破背后的推理能力。我们提出"创意催化剂"新框架,通过系统识别跨学科洞见来支持人类与大型语言模型的创造性推理。该框架从抽象研究目标出发,专门辅助头脑风暴阶段,明确避免过早锚定具体解决方案。其体现了跨学科推理的三个元认知特征:(a)界定与评估研究目标;(b)洞察学科领域的机遇与未解难题;(c)基于潜在影响力对跨学科思想进行策略性探索。具体而言,该框架将抽象目标(如"提升人机协作效能")分解为核心研究问题,以此指导目标领域的进展分析与挑战定位;继而将这些挑战转化为领域无关的概念性问题,从而能从外部学科(如心理学、社会学)检索同类问题的解决方案。通过将跨学科洞见重新语境化并整合至目标领域,框架可依跨学科潜力对源领域进行排序。实证表明,这种定向整合策略在保持研究问题锚定性的同时,能将创新性平均提升21%,启发性提升16%。
尽管多模态大语言模型在自动化心电图解读方面展现出良好性能,但其是否真正执行逐步推理还是仅依赖表层视觉特征仍不明确。为探究这一问题,我们推出ECG-Reasoning-Benchmark——一个包含6,400余个样本的新型多轮评估框架,系统评估涵盖17项核心心电图诊断的逐步推理能力。对前沿模型的综合评估揭示了其在执行多步骤逻辑推导方面存在严重缺陷:尽管模型具备检索诊断所需临床标准的医学知识,但在维持完整推理链方面成功率趋近于零(完成度仅6%),主要失败于将对应心电图发现与实际信号中的视觉证据相锚定。这些结果表明当前MLLMs规避了真正的视觉解读,暴露出现有训练范式的关键缺陷,同时凸显了构建以推理为核心的强健医疗AI的必要性。代码与数据详见https://github.com/Jwoo5/ecg-reasoning-benchmark。
近期研究已明确指出,残差路径并非仅仅是优化管道,它本质上是模型表征机制的重要组成部分。我们认同这一观点,但主张通过双轴视角来梳理Transformer的设计空间是更为清晰的路径。解码器沿着两个有序维度演进信息:序列位置和层间深度。自注意力机制已在序列轴上实现自适应混合,而残差流通常沿深度轴执行固定加法运算。若固定某个标记位置并将层索引视为有序变量,那么因果深度残差注意力读取与因果短滑动窗口注意力(ShortSWA)本质上是相同的局部算子,区别仅在于前者沿深度维度展开而后者沿序列维度展开。这正是Transformer²背后的核心残差流对偶性。这一视角也为近期研究提供了新的阐释:ELC-BERT和DenseFormer已证明深度维度的学习式聚合可超越均匀残差累积,而垂直注意力、深度交叉注意力(DCA)、MUDDFormer及注意力残差等研究则进一步实现了对浅层特征的显式注意力路由。但关键在于,算子层面的对偶性并不等同于系统层面的对称性。对于大规模自回归模型,序列轴ShortSWA通常更具硬件友好性,因其可复用标记侧滑动窗口核函数、KV缓存布局和分块执行机制。若目标在于改变快捷连接本身,深度增量学习(DDL)是更简洁的干预方案,它直接修改残差算子而非添加独立的跨层检索路径。因此我们的建议很明确:当快捷连接是研究对象时采用DDL,当需要局部自适应混合时采用序列轴ShortSWA。
像素空间扩散模型近期重新成为潜空间扩散的重要替代方案,无需预训练自编码器即可实现高质量生成。然而,标准像素空间扩散模型获得的语义监督相对较弱,且未显式设计用于捕捉高层视觉结构。近期表征对齐方法(如REPA)表明,预训练视觉特征能显著改进扩散训练,视觉协同去噪已成为将此类特征融入生成过程的重要方向。但现有协同去噪方法常混杂多种设计选择,难以辨明关键要素。为此,我们提出V-Co——基于统一即时训练框架的视觉协同去噪系统研究。该受控设置可分离出影响协同去噪效果的核心要素。研究发现有效视觉协同去噪需具备四个关键要素:首先,保持特征专属计算并实现灵活跨流交互需采用完全双流架构;其次,有效的无分类器引导需结构化的无条件预测;第三,最强语义监督应通过感知漂移混合损失实现;第四,稳定协同去噪还需跨流校准,我们通过基于RMS的特征重缩放实现。这些发现共同构成了视觉协同去噪的简明方案。ImageNet-256实验表明,在模型规模相近时,V-Co在减少训练轮次的情况下超越了基础像素空间扩散基线及先进先验像素扩散方法,为未来表征对齐生成模型提供了实用指导。
基于扩散模型的风格化技术已取得显著进展,但现有方法多局限于色彩驱动的转换,未能兼顾复杂语义与材质细节。本文提出StyleExpert——一种基于专家混合模型(MoE)的语义感知框架。该框架采用通过大规模内容-风格-风格化三元组数据集训练的统一风格编码器,将多样风格嵌入至统一潜在空间。该嵌入向量随后用于驱动相似性感知门控机制,动态地将风格分配至MoE架构中的特定专家。借助MoE架构,我们的方法能娴熟处理从浅层纹理到深层语义的多层级风格。大量实验表明,StyleExpert在保持语义完整性与材质细节方面优于现有方法,并对未见风格具备良好泛化能力。代码及收集图像详见项目页面:https://hh-lg.github.io/StyleExpert-Page/。
当前提升语言模型数学推理能力的主流范式依赖于可验证奖励的强化学习。然而现有方法孤立处理每个问题实例,未能充分利用训练过程中涌现并积累的可复用策略。为此,我们提出ARISE(基于内在技能演化的智能体推理)——一种分层强化学习框架,其共享策略既在高层管理技能(称为技能管理器),又在低层生成应答(称为工作者)。管理器通过专设的技能生成推演模块,对成功解题轨迹进行结构化总结(执行后),同时采用策略驱动的选择机制检索相关技能以指导后续推演(执行前)。分层奖励设计引导推理能力与技能库质量的协同进化。在两种基础模型和涵盖竞赛数学与Omni-MATH的七个基准测试中,ARISE始终优于GRPO系列算法及记忆增强基线方法,尤其在分布外任务上提升显著。消融实验证实各组件均对性能提升有所贡献,且技能库质量与推理性能在训练过程中同步增强。代码已开源:https://github.com/Skylanding/ARISE。
尽管多模态智能体在计算机交互与工具使用方面取得了新进展,但现有系统大多仍停留于被动响应模式,仅针对孤立动作进行优化,缺乏对未来状态或长期目标的推理能力。这种局限性导致规划连贯性不足,难以可靠完成高层次、多步骤任务。我们提出TraceR1双阶段强化学习框架,通过在执行前预测短期轨迹来显式训练前瞻推理能力。第一阶段实施轨迹级强化学习,其奖励机制确保预测动作序列的全局一致性;第二阶段进行接地强化微调,利用冻结工具智能体的执行反馈来提升步骤级精度与可执行性。在涵盖在线/离线计算机使用基准及多模态工具推理任务的七项测试中,TraceR1在规划稳定性、执行鲁棒性和泛化能力上较被动响应及单阶段基线模型实现显著提升。这些结果表明,前瞻轨迹推理是构建能够有效推理、规划并作用于复杂现实环境的多模态智能体的关键原则。
持久记忆是智能代理的核心能力,然而记忆检索、生命周期管理与一致性的数学基础尚未得到探索。现有系统采用余弦相似度进行检索,使用启发式衰减衡量显著性,且缺乏形式化的矛盾检测机制。 我们通过三项贡献建立了信息几何基础框架:首先提出基于对角高斯族费舍尔信息结构的检索度量,满足黎曼度量公理,具有充分统计量不变性,并可在O(d)时间内计算;其次将记忆生命周期建模为黎曼流形上的朗之万动力学,通过福克-普朗克方程证明稳态分布的存在唯一性,以理论支撑的收敛保证替代人工调参的衰减机制;最后建立细胞层模模型,其非平凡第一上同调类精确对应记忆语境间不可调和的矛盾。 在LoCoMo基准测试中,数学基础层在六组对话任务上较工程基线提升12.7个百分点,在最具挑战性对话中提升达19.9个百分点。四通道检索架构在无云依赖条件下实现75%准确率,云端增强结果达87.7%。零大语言模型配置通过架构设计满足欧盟《人工智能法案》数据主权要求。本研究首次为智能代理记忆系统建立了信息几何、层论及随机动力学的理论基础。
现实世界中的决策(从税务合规评估到医疗诊断)需要聚合多个存在噪声且可能相互矛盾的证据源。现有方法要么缺乏明确的不确定性量化(神经聚合方法),要么依赖人工设计的离散谓词(概率逻辑框架),限制了在非结构化数据上的扩展性。 我们提出隐变量后验因子(LPF)框架,将变分自编码器(VAE)的隐变量后验转化为和积网络(SPN)推理的软似然因子,从而在保持校准化不确定性估计的同时,实现对非结构化证据的可处理概率推理。我们具体实现了LPF-SPN(基于结构化因子的推理)和LPF-Learned(端到端学习式聚合)两种架构,为显式概率推理与学习式聚合在统一不确定性表征下的原理性比较提供了基础。 在八个领域(七个合成数据集和FEVER基准测试)中,LPF-SPN实现了高准确率(最高达97.8%)、低校准误差(ECE为1.4%)和强概率拟合度,在15个随机种子下显著超越证据深度学习、大语言模型和图神经网络基线方法。 核心贡献包括:(1)建立隐变量不确定性表征与结构化概率推理的桥梁;(2)双架构设计实现推理范式的受控比较;(3)包含种子选择的可复现训练方法;(4)与证据深度学习、BERT、R-GCN及大语言模型基线的系统性对比;(5)跨领域验证;(6)在配套论文中提供形式化理论保证。
我们提出对潜在后验因子(LPF)的完整理论刻画,该框架为概率预测任务中聚合多源异构证据提供了原则性方法。多证据推理普遍存在于高风险领域,如医疗诊断、金融风险评估、法律案例分析和监管合规等,然而现有方法要么缺乏理论保证,要么在架构上无法处理多证据场景。LPF通过变分自编码器将每个证据项编码为高斯潜在后验分布,利用蒙特卡洛边际化将后验转化为软因子,并借助精确的和积网络推理(LPF-SPN)或习得神经网络聚合器(LPF-Learned)实现因子聚合。 我们证明了涵盖可信人工智能关键需求的七项形式化保证:校准保持性(预期校准误差≤ε+C/√K_eff);蒙特卡洛误差以O(1/√M)速率衰减;在N=4200时获得训练-测试差距为0.0085的非平凡PAC-贝叶斯界;运行效率达信息理论下界的1.12倍;在半数证据被对抗替换时仍保持88%性能的优雅退化特性(退化速率O(εδ√K));校准衰减速率O(1/√K)且决定系数R²=0.849;以及误差低于0.002%的精确认知-偶然不确定性分解。所有定理均在包含4200个训练样本的受控数据集上得到实证验证。我们的理论框架确立了LPF作为安全关键应用中可信多证据人工智能的基础方法。
我们推出VAREX(多模式表单模式提取基准),该基准用于评估多模态基础模型从政府表格中提取结构化数据的性能。VAREX采用逆向标注流程,通过编程方式将合成数据填入PDF模板,生成经过三重质量验证的确定性标注真值。该基准包含1,777份文档,涵盖1,771种独特模式,涉及三种结构类别,每份文档提供四种输入模态:纯文本、保留布局文本(通过空格对齐模拟列位置)、文档图像、以及文本与图像结合。与现有仅评估单一输入表示的基准不同,VAREX为每份文档提供四种受控模态,可系统分析输入格式如何影响提取精度——这是现有基准所缺乏的能力。我们评估了从前沿专有模型到小型开源模型共20个模型,特别关注参数量≤40亿的模型,这类模型适合成本敏感和延迟受限的部署场景。实验结果表明:(1)在40亿参数以下,结构化输出合规性(而非提取能力)是主要瓶颈,特别是模式回声现象(模型生成符合模式的结构而非提取值)使受影响模型的得分降低45-65个百分点;(2)对20亿参数模型进行提取专项微调可实现+81个百分点的提升,表明指令跟随缺陷无需扩大规模即可解决;(3)保留布局文本带来最大精度增益(+3-18个百分点),超越像素级视觉线索;(4)本基准在60%-95%精度区间对模型区分度最高。数据集与评估代码已公开。
在明确约束条件下通过工具使用解决问题,对大型语言模型(LLMs)而言是极具挑战性却又不可避免的场景,这需要模型具备函数调用、指令遵循和自我修正等能力。然而,由于缺乏专项评估体系,相关进展一直受阻。为此,我们推出CCTU基准测试,用于评估复杂约束下的LLM工具使用能力。该基准基于涵盖资源、行为、工具集和响应四个维度的12类约束条件构建,包含200个经过精心设计的跨领域工具使用场景测试案例,每个案例平均涉及七类约束类型,提示词平均长度超过4700个词元。为实现可靠评估,我们开发了可执行的约束验证模块,能在模型与环境的多轮交互过程中执行步骤级验证并确保约束合规性。我们在思考模式与非思考模式下评估了九款前沿LLMs,结果显示:当要求严格遵守所有约束时,所有模型的任务完成率均未超过20%。进一步分析表明,模型在超过50%的案例中违反约束,尤其在资源与响应维度。此外,即使获得详细的违规反馈,LLMs仍表现出有限的自我修正能力,这凸显了开发鲁棒性工具使用代理的关键瓶颈。为促进后续研究,我们公开了数据集与代码。
基于视觉Transformer(ViT)的视觉基础模型(VFM)已在多种视觉任务中取得显著性能,但其二次计算复杂度限制了长序列场景的可扩展性。现有ViT线性注意力方法通常需从头训练,消耗大量计算资源,而针对大语言模型解码器开发的线性化方法难以有效迁移至ViT。为解决这些挑战,我们提出ViT-AdaLA——一种创新框架,能够将视觉基础模型的先验知识高效适配并迁移至线性注意力ViT。该框架包含三阶段:注意力对齐、特征对齐和监督微调。在注意力对齐阶段,我们逐模块对齐普通线性注意力与原始基于softmax的注意力,以逼近后者的行为模式。然而,残差近似误差会随网络层数累积。为此,我们通过微调线性化ViT,使其最终层特征与冻结的softmax-VFM教师模型对齐来缓解该问题。最终,适配后的先验知识通过监督微调迁移至下游任务。在分类和分割任务上的大量实验表明,ViT-AdaLA在不同前沿线性注意力对比模型中均具有卓越有效性和通用性。
基于激光雷达点云的人体理解因其与行人安全的密切关联,成为自动驾驶领域最核心的任务之一。然而在复杂人-物交互和杂乱背景的干扰下,该任务仍面临严峻挑战。现有方法大多忽视了利用人-物交互构建鲁棒三维人体姿态估计框架的潜力。引入人-物交互主要基于两大挑战:其一,人-物交互会导致人体与物体点云的空间模糊性,常引发交互区域的三维人体关键点预测错误;其二,交互与非交互身体部位的点云数量存在严重类别不平衡,手、足等高频交互部位在激光雷达数据中观测稀疏。为此,我们提出人-物交互学习框架(HOIL),用于从激光雷达点云实现鲁棒的三维人体姿态估计。针对空间模糊性问题,我们提出交互感知对比学习(HOICL),通过增强人体与物体点云的特征区分度来精准识别交互区域。针对类别不平衡问题,我们设计接触感知部件引导池化(CPPool),在压缩过表征点云的同时保留交互部位的有效信息,实现表征能力的自适应重分配。此外,我们还提出基于接触关系的时序优化模块,利用连续帧间的接触线索修正单帧关键点估计误差。实验表明,HOIL框架能有效利用人-物交互关系解决交互区域的空间模糊性与类别不平衡问题。代码将开源发布。
掩码扩散模型(MDM)在采用部分掩码策略(Prime)进行学习时展现出卓越的泛化能力。该方法将词元转化为子词元,并在子词元级别对扩散过程进行建模。我们发现MDM-Prime框架存在两个局限性:首先,缺乏指导子词元化器中词元粒度超参数选择的工具;其次,当与常用的字节对编码(BPE)词元化器结合时,子词元化器的函数形式会显著降低似然估计的准确性。针对这些局限,我们研究了MDM-Prime中变分下界的紧致性,并开发出融合二进制编码与索引重排技术的MDM-Prime-v2掩码扩散语言模型。缩放分析表明,该模型的计算效率比自回归模型(ARM)提升21.8倍。在计算最优对比中,MDM-Prime-v2在OpenWebText数据集上达到7.77的困惑度,优于ARM(12.99)、MDM(18.94)和MDM-Prime(13.41)。当模型参数扩展至11亿时,我们的模型在多种常识推理任务中进一步展现出卓越的零样本准确率。
现有基于扩散模型的3D场景生成方法主要在2D图像/视频隐空间中进行操作,这导致保持跨视角外观与几何一致性存在固有挑战。为弥补这一缺陷,我们提出OneWorld框架,该框架在连贯的3D表征空间内直接执行扩散过程。我们方法的核心是3D统一表征自动编码器(3D-URAE),它利用预训练的3D基础模型,通过将外观信息注入并提炼语义特征到统一3D隐空间,增强其以几何为中心的特性。此外,我们引入令牌级跨视角对应(CVC)一致性损失来显式加强视角间的结构对齐,并提出流形漂移强制(MDF)方法,通过混合漂移表征与原始表征来缓解训练-推理曝光偏差,从而构建稳健的3D流形。综合实验表明,与当前最先进的基于2D的方法相比,OneWorld能生成具有更优跨视角一致性的高质量3D场景。代码将在https://github.com/SensenGao/OneWorld开源。
我们推出Polyglot-Lion系列紧凑型多语言自动语音识别(ASR)模型,专为新加坡多语言场景设计,涵盖英语、华语、泰米尔语和马来语。该模型通过仅使用公开语音语料库对Qwen3-ASR-0.6B和Qwen3-ASR-1.7B进行微调获得,采用平衡采样策略确保各语言训练语句数量均等,并刻意省略语言标签条件机制,使模型能够从音频中隐式识别语言。在涵盖四种目标语言的12个基准测试中,Polyglot-Lion-1.7B实现了14.85的平均错误率,与体积大6倍的MERaLiON-2-10B-ASR模型(14.32)性能相当,而训练成本仅需单张RTX PRO 6000 GPU耗费81美元,远低于128卡基准模型的18,862美元。推理吞吐量达到0.10秒/样本,较MERaLiON的2.02秒/样本提升约20倍。这些结果表明,对中等规模预训练模型进行语言平衡的微调,能以极低成本获得可投入实际应用的多语言ASR系统,其成本远低于大型专业系统。
扩散模型在反射性的系统1模式下运行,受限于固定且内容无关的采样规划。这种刚性源于状态维度的诅咒——高维噪声流形中可能状态的组合爆炸使得显式轨迹规划难以实现,并导致系统性的计算资源错配。为此,我们提出轨迹链(CoTj)这一免训练框架,实现系统2的审慎规划能力。其核心是扩散DNA:一种量化各阶段去噪难度的低维特征标识,可作为高维状态空间的代理表征,使我们能够将有向无环图上的图规划重构为采样过程。通过"预测-规划-执行"范式,CoTj将计算资源动态分配给最具挑战性的生成阶段。在多类生成模型上的实验表明,CoTj能发现上下文感知的轨迹,在提升输出质量与稳定性的同时减少冗余计算。本研究为基于资源感知与规划思维的扩散建模奠定了新基础。代码已开源:https://github.com/UnicomAI/CoTj。
检索增强生成(RAG)系统在处理复杂的多跳问题时面临挑战,研究者提出了迭代式智能体框架(如Search-R1)以应对此类复杂性。然而,这类方法可能引发效率问题:包括对已处理信息的重复检索,以及在当前生成提示中有效整合检索结果的语境化难题。这些问题会导致不必要的检索轮次、次优推理、答案不准确及令牌消耗增加。 本文研究通过测试阶段改进Search-R1流程来缓解上述缺陷。具体而言,我们探索了两种模块的集成及其组合方案:一是语境化模块,用于将检索文档中的相关信息更有效地融入推理过程;二是去重模块,用次相关文档替换已检索内容。我们在HotpotQA和Natural Questions数据集上评估方案,采用精确匹配分数、LLM即裁判的答案正确性评估以及平均检索轮次作为指标。 性能最优的改进方案采用GPT-4.1-mini实现语境化,与Search-R1基线相比,精确匹配分数提升5.6%,检索轮次减少10.5%,显著提高了答案准确性与检索效率。
我们推出HistoAtlas——一个泛癌种计算图谱,该图谱从21种TCGA癌症类型的6745张诊断性H&E切片中提取出38个可解释的组织学特征,并系统性地将每个特征与生存率、基因表达、体细胞突变及免疫亚型相关联。所有关联均经过协变量校正、多重检验校正,并按证据强度分级。该图谱不仅重现了从免疫浸润、预后判断到增殖活性和激酶信号传导等已知生物学过程,还揭示了具有不同预后的区域特异性免疫信号和形态学亚型。每项结果均可空间溯源至组织区域和单个细胞,经过统计校准并支持开放查询。HistoAtlas无需特殊染色或测序技术,即可从常规H&E切片中实现系统性、大规模生物标志物发现。数据及交互式网络图谱可通过https://histoatlas.com 免费获取。
化学语言模型(CLM)已成为分子性质预测(MPP)任务中传统经典机器学习模型的有力竞争者。然而,越来越多研究报道CLM在不同MPP基准任务中的性能存在不一致甚至相互矛盾的结果。本研究通过数百项精密控制的实验,系统考察了数据集规模、模型体量及标准化等因素对CLM在MPP任务中预训练与微调性能的影响。针对目前尚无明确标度律适用于仅编码器的掩码语言模型这一现状,我们的目标是提供全面的数值证据,并深入理解影响CLM在MPP任务性能的内在机制——其中某些机制似乎已被现有文献完全忽视。
为投机性巨型开发项目进行的大规模圈地构成一种非均衡空间过程,其演变速度、拓扑形态与不可逆性至今缺乏量化研究。我们利用2017-2024年八年间10米分辨率的哨兵二号土地利用/覆被数据,对印度尼西亚雅加达北部Pantai Indah Kapuk 2(PIK2)沿海巨型开发区进行实证分析。通过将景观投影至马克思概率单纯形,将地表像元划分为公域、农业和资本三类组分。基于该单纯形的Fisher-Rao测地距离分析显示,2019-2020年间出现0.405弧度/年的转型脉冲,与主体工程建设期高度吻合。吸收态马尔可夫链分析表明,耕地和乔木覆盖地转化为建成环境的预期吸收时间分别为46.0年和38.1年,建成区自我维持率高达96.4%。渗流分析发现,在占据概率p∈[0.096,0.162]区间始终存在包含89-95%建成像元的巨型连通组件,该阈值远低于随机渗流临界值p_c≈0.593,证实空间增长具有规划性而非随机性。城市边界的盒维数从d_f=1.316增至1.397,与前沿扩张不规则性增强的趋势一致。这些结果表明,信息几何与统计力学工具能以定量精度刻画资本空间积累的运动学与拓扑特征。