每日精选AI研究论文及翻译
构建能够学习、模拟并推演客观物理规律的世界模型,是追求通用人工智能过程中的基础性挑战。以Sora为代表的视频生成模型的最新进展,展现了数据驱动尺度定律在逼近物理动力学方面的潜力,而新兴的统一多模态模型则为整合感知、语言与推理提供了有前景的架构范式。尽管取得这些进步,该领域仍缺乏界定通用世界模型必备属性的原则性理论框架。本文提出,世界模型必须植根于"三位一体一致性":作为语义接口的模态一致性、作为几何基础的空间一致性,以及作为因果引擎的时间一致性。通过这一三重透镜,我们系统回顾多模态学习的演进历程,揭示出从松散耦合的专用模块向能协同涌现内部世界模拟器的统一架构的发展轨迹。为补充这一概念框架,我们推出以多帧推理与生成场景为核心的CoW-Bench基准测试平台。该平台在统一评估协议下对视频生成模型与统一多模态模型进行测评。本研究为通向通用世界模型建立了原则化路径,既明晰了现有系统的局限性,也指明了未来进展所需的架构要求。
随着大规模多模态模型(LMMs)的规模扩展与强化学习(RL)方法的成熟,LMMs在复杂推理与决策方面取得了显著进展。然而当前训练仍依赖静态数据和固定范式,难以诊断能力盲区或实现动态精准强化。受测试驱动型错误暴露与反馈校正优于重复训练的启发,我们提出诊断驱动的渐进式演进(DPE)——一种以诊断引导数据生成与模型强化、并通过迭代重诊断更新模型驱动下一轮定向改进的螺旋循环框架。DPE包含两个核心组件:首先,多智能体通过网页搜索、图像编辑等工具对海量无标注多模态数据进行标注与质控,生成多样化的真实样本;其次,DPE将模型失败归因于特定弱点,动态调整数据配比,并指导智能体生成针对弱点的聚焦数据以实现精准强化。在Qwen3-VL-8B-Instruct和Qwen2.5-VL-7B-Instruct上的实验表明,DPE在十一个基准测试中实现稳定持续的性能提升,证明其可作为开放任务分布下持续训练LMM的可扩展范式。我们的代码、模型及数据已开源:https://github.com/hongruijia/DPE。
基于大语言模型的路线规划智能体,通过自然语言交互和工具辅助决策支持人类日常出行的新兴范式已展现出广阔前景。然而,现实出行场景中多样化的路线需求、非确定性的地图服务以及有限的可复现性,阻碍了系统性评估的开展。本研究提出MobilityBench——一个面向真实出行场景的可扩展基准测试框架,用于评估基于大语言模型的路线规划智能体。该框架基于从Amap收集的大规模匿名真实用户查询构建,覆盖全球多个城市中广泛存在的路线规划意图。为实现可复现的端到端评估,我们设计了确定性API回放沙箱,消除了实时服务带来的环境变异。我们进一步提出以结果有效性为核心的多维评估方案,辅以指令理解、规划能力、工具使用效率和系统效能评估。通过MobilityBench,我们在多样化真实出行场景下对多款基于大语言模型的路线规划智能体进行评估,并深入解析其行为模式与性能表现。研究发现,当前模型在基础信息检索和常规路线规划任务中表现合格,但在偏好约束路线规划方面存在显著困难,这表明个性化出行应用仍有巨大改进空间。我们已公开基准数据集、评估工具包及技术文档,详见https://github.com/AMAP-ML/MobilityBench。
人类智能天然融合了全模态感知(涵盖视觉、音频与语言)与复杂推理及工具使用能力,以此与世界互动。然而当前多模态大语言模型主要局限于双模态交互(如视觉-语言),缺乏通用AI助手所需的统一认知能力。为弥补这一差距,我们推出OmniGAIA——一个综合性基准测试平台,旨在评估全模态智能体在处理视频、音频和图像模态任务时所需的深度推理与多轮工具执行能力。通过创新的全模态事件图谱构建方法,OmniGAIA基于真实世界数据生成需要跨模态推理和外部工具整合的复杂多跳查询。此外,我们提出OmniAtlas:一种工具集成推理范式下的原生全模态基础智能体,具备主动全模态感知能力。该模型通过 hindsight 引导的树状探索策略合成训练轨迹,并采用OmniDPO进行细粒度纠错,有效提升了现有开源模型的工具使用能力。本工作标志着面向真实场景的新一代原生全模态AI助手迈出了重要一步。
潜在视觉推理旨在通过多模态大语言模型的隐状态进行冥想,从而模拟人类的想象过程。尽管该范式被公认为视觉推理的前沿方向,但其有效性背后的运作机制仍不明确。为揭示其效能根源,我们采用因果中介分析对潜在推理的有效性进行验证。我们将该过程建模为因果链:输入作为处理变量,潜在标记作为中介变量,最终答案作为结果变量。研究发现两个关键脱节现象:(a) 输入-潜在脱节:对输入施加剧烈扰动时,潜在标记仅产生可忽略的变化,表明潜在标记未能有效关注输入序列;(b) 潜在-答案脱节:扰动潜在标记对最终答案影响微弱,揭示潜在标记对结果变量的因果效应有限。进一步的大规模探针分析表明,潜在标记仅编码有限视觉信息且呈现高度相似性。基于此,我们对潜在推理的必要性提出质疑,并提出名为CapImagine的简洁替代方案——通过文本教导模型进行显式想象。在视觉中心基准测试上的实验表明,CapImagine显著优于复杂的隐空间基线,彰显了通过显式想象实现视觉推理的卓越潜力。
探索能力仍是基于强化学习训练的大型语言模型智能体的关键瓶颈。现有方法虽利用预训练知识,但在需要发现新状态的环境中表现不佳。我们提出探索性记忆增强同策略与异策略优化框架(EMPO²),该混合强化学习框架利用记忆进行探索,并结合同策略与异策略更新机制,使LLM既能充分发挥记忆优势,又能在无记忆条件下保持稳健性能。在ScienceWorld和WebShop环境中,EMPO²相较GRPO分别实现128.6%和11.3%的性能提升。此外在分布外测试中,EMPO²展现出卓越的任务适应能力,仅需少量带记忆的试验且无需参数更新即可适应新任务。这些成果表明EMPO²是构建更具探索性和泛化能力的LLM智能体的前瞻性框架。
尽管多智能体系统在复杂推理方面表现出色,但其个体参与者产生的错误信息会引发级联影响。现有解决方案往往依赖僵化的结构工程或昂贵的微调,限制了部署灵活性与适应性。我们提出AgentDropoutV2——一种测试时校正或剔除的剪枝框架,无需重新训练即可动态优化多智能体系统的信息流。该框架作为主动防火墙,通过截取智能体输出并采用检索增强的校正器,基于故障驱动指标池迭代修正错误。该机制利用提炼的故障模式作为先验知识,精准识别潜在错误:可修复的输出经过逐轮校正,不可修复的输出则被剔除以防止错误传播,同时回退策略保障系统完整性。在大量数学基准测试上的实证结果表明,AgentDropoutV2显著提升了多智能体系统的任务性能,在数学基准上平均准确率提升6.3个百分点。该系统还展现出强大的泛化与自适应能力,能根据任务难度动态调整校正强度,并利用上下文感知指标解决广泛错误模式。代码与数据集已发布于https://github.com/TonySY2/AgentDropoutV2。
我们推出MediX-R1,这是一个面向医学多模态大语言模型(MLLMs)的开放式强化学习框架,能够生成基于临床依据的自由形式答案,突破传统多选题形式的限制。该框架通过分组强化学习对基线视觉语言主干进行微调,并采用专为医学推理设计的复合奖励机制:基于大语言模型的准确性奖励通过严格的是/否判断评估语义正确性;基于医学嵌入的语义奖励用于捕捉同义表述和术语变体;轻量级的格式与模态奖励则用于强化可解释推理和模态识别能力。这种多信号设计为开放式输出提供了稳定且信息丰富的反馈机制,弥补了传统可验证或仅限多选题奖励机制的不足。为量化进展,我们提出了统一评估框架,适用于纯文本及图文混合任务,采用基于参考的大语言模型作为评判者替代脆弱的字符串重叠指标,全面评估语义正确性、推理能力和上下文对齐度。尽管仅使用5.1万条指令样本,MediX-R1在标准医学大语言模型(纯文本)和视觉语言模型(图文混合)基准测试中均取得优异表现,超越主流开源基线模型,尤其在开放式临床任务上实现显著提升。我们的研究表明,结合综合奖励信号与大语言模型评估的开放式强化学习,是实现多模态模型可靠医学推理的可行路径。训练模型、精选数据集及源代码已发布于https://medix.cvmbzuai.com。
近期深度研究智能体主要通过扩展推理深度来提升性能,但这在搜索密集型场景中会导致高昂的推理成本和延迟。此外,在异构研究设置中的泛化能力仍面临挑战。本文提出"多搜索、少思考"(SMTL)框架,针对长周期自主搜索任务同时优化效率与泛化能力。SMTL采用并行证据获取替代串行推理,在受限上下文预算下实现高效上下文管理。为支持跨任务类型的泛化,我们进一步引入统一数据合成流程,构建涵盖确定性问答与开放式研究场景的搜索任务,并配备任务适配的评估指标。通过监督微调与强化学习联合训练端到端智能体,在BrowseComp(48.6%)、GAIA(75.7%)、Xbench(82.0%)和DeepResearch Bench(45.9%)等基准测试中取得强劲且常达顶尖水平的性能。相较于Mirothinker-v1.0,在最大100次交互步骤限制下,SMTL将BrowseComp上的平均推理步骤减少70.7%,同时提升准确率。
我们提出了一种可扩展的三维重建模型,该模型解决了离线前馈方法的关键局限:其计算和内存需求随输入图像数量呈平方级增长。我们的方法基于一个重要发现——这一瓶颈源于场景几何体可变长度的键值空间表示,我们通过测试时训练将其蒸馏为固定大小的多层感知机。VGG-T³(视觉几何基测试时训练)模型在处理输入视图时具有线性计算复杂度,与在线模型类似,仅需54秒即可完成千张图像集的重建,相比基于softmax注意力的基线方法实现11.6倍加速。由于本方法保留了全局场景聚合能力,我们的点云重建误差显著优于其他线性时间复杂度方法。最后,我们通过用未见过的图像查询场景表示,验证了模型具备视觉定位能力。
扩散模型在高保真图像、视频及音频生成领域取得显著进展,但其推理过程仍存在计算成本高昂的问题。当前基于分布式并行的扩散加速方法存在明显生成伪影,且未能实现与GPU数量成正比的实质性加速。为此,我们提出一种混合并行框架,通过结合新型数据并行策略——基于条件的划分方法,与最优流水线调度技术——自适应并行切换机制,在条件扩散模型中实现低延迟生成与高质量输出的平衡。该框架的核心创新在于:(i)利用条件化与非条件化去噪路径作为数据划分的新视角;(ii)根据两条路径的去噪差异自适应启用最优流水线并行。在双NVIDIA RTX~3090 GPU环境下,我们的框架在SDXL和SD3模型上分别实现2.31倍和2.07倍的延迟降低,同时保持图像质量。这一结果验证了我们的方法对基于U-Net的扩散模型和基于DiT的流匹配架构具有普适性。在高分辨率合成场景下,本方法的加速效果亦优于现有技术。代码已开源:https://github.com/kaist-dmlab/Hybridiff。
通用智能体(即在陌生环境中无需领域特定工程即可执行任务的系统)的承诺目前基本尚未实现。现有智能体多为专用系统,尽管新兴实现如OpenAI SDK智能体和Claude代码已展现出更广泛的能力,但尚未对其通用性能进行系统性评估。当前智能体基准测试均预设领域特定集成,其任务信息编码方式无法公平评估通用智能体。本文首次将通用智能体评估确立为一级研究目标,提出通用评估的概念性原则、实现智能体-基准测试统一集成的协议,以及实用化评估框架Exgentic。我们通过对六大环境中的五种主流智能体进行基准测试,创建了首个开放通用智能体排行榜。实验表明通用智能体能在多样环境中实现泛化,其性能在无需环境特定调优的情况下媲美领域专用智能体。我们公开评估协议、框架及排行榜,为通用智能体的系统性研究奠定基础。
现实世界中的人类行为天然地编码着丰富的长期上下文信息,这些信息可用于训练具身智能体进行感知、理解与行动。然而现有采集系统通常依赖昂贵的影棚设备与可穿戴装置,限制了野外场景条件化人体运动数据的大规模收集。为此,我们提出EmbodMocap——一种基于两部移动iPhone的便携经济型数据采集方案。核心思路是通过联合标定双路RGB-D序列,在统一的世界度量坐标系中重建人体与场景。该方法无需固定摄像头或标记点即可实现日常环境中的度量级场景一致性采集,无缝衔接人体运动与场景几何。通过与光学捕捉基准数据对比,我们证明双视角设置具有显著缓解深度歧义的能力,在对齐精度与重建效果上均优于单iPhone或单目模型。基于采集数据,我们赋能了三项具身AI任务:单目人-场景重建任务中,我们微调前馈模型以输出度量级世界空间对齐的人体与场景;基于物理的角色动画任务中,我们验证了数据在扩展人物-物体交互技能与场景感知运动跟踪方面的价值;机器人运动控制任务中,我们通过仿真到实物的强化学习训练人形机器人复现视频中的人类动作。实验结果验证了本方案的有效性及其对推进具身AI研究的贡献。
在技术飞速发展的时代,如何严格评估机器智能相对于人类广泛通用智能的水平已变得日益重要且充满挑战。传统AI基准通常仅能评估有限人类活动领域中的狭窄能力,且多数属于静态测试——当开发者显性或隐性地针对这些基准进行优化时,其评估效果会迅速饱和。我们提出,评估AI系统类人通用智能更具前景的方法在于采用一种特殊形式的通用游戏博弈:通过研究AI系统如何游玩及学习所有可想象的人类游戏,并与具有同等经验、时间或其他资源的人类玩家进行比较,从而衡量其智能水平。我们将"人类游戏"定义为人类为人类设计的游戏,并论证以这个包含所有人类可想象且乐于游玩的游戏集合——"人类游戏多元宇宙"——作为评估维度的合理性。为实现这一愿景,我们开发了AI GameStore这一可扩展的开放式平台,通过采用大语言模型与人机协同循环机制,从主流数字游戏平台自动采集标准化、容器化的游戏环境变体,进而生成具有代表性的人类新游戏。作为概念验证,我们基于苹果应用商店和Steam平台热门榜单生成了100款此类游戏,并对七款前沿视觉语言模型进行了短时游戏测试。结果显示,最佳模型在大部分游戏中的得分不足人类平均水平的10%,尤其在挑战世界模型学习、记忆与规划能力的游戏中表现欠佳。最后我们提出了完善AI GameStore的后续步骤,将其构建为衡量并推动机器实现类人通用智能发展的实用工具。
基于能量的预测性世界模型通过潜在能量空间的推演而非像素生成,为多步视觉规划提供了强大方法。然而现有方法面临两大挑战:其一,其潜在表征通常在欧几里得空间中学习,忽略了状态间固有的几何与层次结构;其二,长时程预测能力不足,导致扩展推演中出现快速性能退化。为解决这些问题,我们提出GeoWorld——一种通过双曲JEPA将潜在表征从欧氏空间映射到双曲流形,从而保持几何结构与层次关系的几何世界模型。我们进一步引入基于能量的几何强化学习优化方法,实现双曲潜在空间中稳定的多步规划。在CrossTask和COIN数据集上的大量实验表明,相较于最先进的V-JEPA 2模型,3步规划任务中成功率提升约3%,4步规划任务中提升2%。项目网站:https://steve-zeyu-zhang.github.io/GeoWorld。
近期运动扩散模型的进展显著提升了人体运动合成的真实感。然而,现有方法要么依赖具有双向生成能力的全序列扩散模型(这会限制时间因果性与实时应用),要么采用存在不稳定性和累积误差的自回归模型。本研究提出因果运动扩散模型(CMDM),这是一个基于因果扩散变换器的统一自回归运动生成框架,该框架在语义对齐的潜空间中进行操作。CMDM建立在运动-语言对齐因果变分自编码器(MAC-VAE)基础上,该编码器将运动序列转换为具有时间因果性的潜表示。在此潜表示之上,我们通过因果扩散强制训练自回归扩散变换器,实现跨运动帧的时间有序去噪。为达成快速推理,我们引入具有因果不确定性的逐帧采样策略,即基于部分去噪的前序帧预测后续帧。该框架支持高质量文本驱动运动生成、流式合成以及交互速率下的长序列运动生成。在HumanML3D和SnapMoGen数据集上的实验表明,CMDM在语义保真度和时间平滑度上均优于现有扩散模型与自回归模型,同时显著降低了推理延迟。
全分片数据并行(FSDP),亦称零冗余优化器(ZeRO),因其灵活性高且对模型代码侵入性小的特点,被广泛用于大规模模型训练。然而,现有FSDP系统难以适配结构感知训练方法(如分块量化训练),也无法有效支持前沿模型(如Gemini、Kimi K2)采用的非逐元素优化器(如Shampoo、Muon)。FSDP固定的逐元素或逐行分片格式与块状结构计算模式存在冲突。此外,当前实现方案在通信和内存效率方面存在不足,限制了其向数万张GPU的扩展能力。我们推出veScale-FSDP——通过耦合灵活分片格式RaggedShard与结构感知规划算法,重新设计的FSDP系统在保证灵活性的同时实现大规模高性能训练。该系统原生支持FSDP所需的高效数据布局,赋能分块量化和非逐元素优化器。实验表明,veScale-FSDP相比现有FSDP系统可实现5~66%的吞吐量提升和16~30%的内存占用降低,并能高效扩展至数万张GPU规模。
开放词汇分割(OVS)将视觉语言模型(VLM)的零样本识别能力扩展至像素级预测,实现了基于文本提示的任意类别分割。尽管近期取得进展,但由于VLM训练采用的粗粒度图像级监督与自然语言的语义模糊性两大挑战,OVS仍落后于全监督方法。我们通过引入少样本设置来解决这些局限,该设置利用带有像素标注图像的支持集来增强文本提示。基于此,我们提出一种检索增强的测试时适配器,通过融合文本和视觉支持特征来学习轻量级的单图像分类器。与依赖后期手工融合的现有方法不同,我们的方法实现了基于查询的实时学习式融合,达成了模态间更强的协同效应。该方法支持持续扩展的支持集,并适用于个性化分割等细粒度任务。实验表明,我们在保持开放词汇能力的同时,显著缩小了零样本与监督分割之间的性能差距。
可验证奖励强化学习(RLVR)已成为增强大语言模型推理能力的主流范式。然而标准RLVR算法存在一个公认的缺陷:虽然通过锐化采样提高了Pass@1准确率,却同时收窄了模型的推理边界并降低了生成多样性。我们发现现有方法忽视了一个根本原因——对错误的均匀惩罚机制。无论是按难度筛选提示的数据过滤方法,还是优势值归一化方案,当前方法都对同一组内的错误推理路径进行无差别处理。这种均匀性使得过度自信错误(被RL过程虚假强化的错误推理路径)持续存在并垄断概率质量,最终压制了有效的探索轨迹。针对此问题,我们提出非对称置信感知错误惩罚机制(ACE)。该方法通过每个推理路径的置信度偏移量c_i = log(π_θ(y_i|x) / π_ref(y_i|x))动态调节负优势值。理论分析表明,ACE梯度可分解为仅限于过度自信错误的选择性正则项梯度,加上一个能部分调节正则项强度的良定残差项。我们在VERL框架下使用GRPO和DAPO对Qwen2.5-Math-7B、Qwen3-8B-Base及Llama-3.1-8B-Instruct模型进行DAPO-Math-17K数据集的微调实验。在MATH-500和AIME 2025基准测试中,ACE与现有方法无缝兼容,持续提升所有三个模型族在全Pass@k谱系上的表现。
大语言模型的幻觉现象通常被归因于模型或其解码策略的缺陷。借鉴经典语言学理论,我们认为查询语句的形式同样会影响听者(及模型)的响应。我们通过构建22维查询特征向量来具象化这一观点,该向量涵盖从句复杂度、词汇稀缺性、指代关系、否定结构、可答性及意图锚定等已知影响人类理解能力的维度。基于369,837条真实场景查询数据,我们探究:是否存在特定类型的查询更易诱发幻觉?大规模分析揭示出稳定的"风险图谱":深度从句嵌套和指代模糊等特征与高幻觉倾向正相关,而明确的意图锚定和可答性则与低幻觉率相关。其他如领域特异性等特征则呈现混合效应,其影响因数据集和模型而异。这些发现构建了与幻觉风险实证相关的查询特征表征体系,为定向查询重构及未来干预研究奠定基础。
我们推出DLT-Corpus——迄今为止分布式账本技术(DLT)研究领域规模最大的专业文本集合:该语料库涵盖科学文献(37,440篇出版物)、美国专利商标局(USPTO)专利(49,023项申请)及社交媒体(2200万条帖文),总计22.12百万份文档,包含29.8亿个词汇单元。现有DLT领域的自然语言处理(NLP)资源多集中于加密货币价格预测和智能合约等狭窄方向,尽管该领域市值已达约3万亿美元且技术迭代迅速,其专业领域语言特性仍未被充分探索。 通过分析技术涌现模式与市场创新关联性,我们验证了DLT-Corpus的实用价值。研究发现:技术演进遵循传统转化路径,先出现于科学文献,再延伸至专利与社交媒体领域;即便在加密货币寒冬期,社交媒体情绪仍保持高度乐观,而科研与专利活动则独立于市场波动持续增长,形成研究先行推动经济增长、经济增长反哺技术创新的良性循环——这些活动最终与整体市场扩张形成正向关联。 我们全面公开DLT-Corpus语料库、领域自适应模型LedgerBERT(在DLT特定命名实体识别任务上较BERT-base提升23%性能)及全部配套工具与代码。
大型语言模型(LLM)的先进推理能力导致幻觉现象愈发频繁,然而现有缓解方法多集中于开源模型的事后检测与参数编辑。由于闭源模型在机构部署中占据绝大多数,针对其幻觉问题的研究匮乏尤为值得关注。我们提出QueryBandits——一个模型无关的上下文赌博框架,该框架通过经验验证且校准的奖励函数,自适应地在线学习选择最优查询重写策略。在16个问答场景中,顶级QueryBandit(汤普森采样)相比无重写基线达到87.5%的胜率,并分别以42.6%和60.3%的优势超越零样本静态策略(如复述或扩展)。此外,所有上下文赌博算法在所有数据集上均优于基础赌博算法,特征方差越大,臂选择方差也越大。这证实了不存在适用于所有查询的最优重写策略。我们还发现某些静态策略比无重写策略产生更高累积遗憾,表明僵化的查询重写策略可能加剧幻觉。因此,通过QueryBandits基于语义特征学习在线策略,可仅通过前向传播机制改变模型行为,使其适用于闭源模型,并规避重新训练或基于梯度的适配需求。
随着模仿学习和大规模驾驶数据集的发展,端到端自动驾驶技术近年来取得显著进展。当前基于模仿学习的方法已成为主流范式:模型依赖专家提供的标准驾驶行为,通过最小化自身动作与专家动作的差异进行学习。然而这种"仅模仿专家驾驶"的目标存在泛化局限性:当遇到专家示范分布之外的长尾场景时,模型因缺乏先验经验易产生不安全决策。这引出一个根本性问题:端到端自动驾驶系统能否在没有专家动作监督的情况下做出可靠决策?基于此,我们提出名为风险感知世界模型预测控制(RaWMPC)的统一框架,通过鲁棒控制解决泛化困境,且无需依赖专家示范。具体而言,RaWMPC利用世界模型预测多组候选动作的后果,并通过显式风险评估选择低风险动作。为使世界模型具备预测危险驾驶行为后果的能力,我们设计了风险感知交互策略,系统性地让世界模型接触危险行为,使灾难性后果可预测从而可避免。此外,为在测试时生成低风险候选动作,我们提出自评估蒸馏方法,将训练完备的世界模型中的风险规避能力蒸馏至生成式动作提议网络,整个过程无需专家示范。大量实验表明,RaWMPC在分布内和分布外场景中均优于现有最优方法,同时提供更优的决策可解释性。
医学图像分割因训练标注有限、解剖特征模糊及域偏移等问题仍具挑战。尽管CLIP等视觉语言模型具备强大的跨模态表征能力,其在文本引导的密集医学图像分割领域的潜力尚未充分发掘。我们提出MedCLIPSeg新型框架,通过概率化跨模态注意力机制适配CLIP模型,实现鲁棒、数据高效且具备不确定性感知的医学图像分割。该方法利用块级CLIP嵌入,建立图像与文本标记的双向交互,并显式建模预测不确定性。结合软块级对比学习损失函数促进多样化文本提示下的精细化语义学习,MedCLIPSeg显著提升了数据利用效率与领域泛化能力。在涵盖5种影像模态和6个器官的16个数据集上的实验表明,该方法在精度、效率和鲁棒性上均优于现有技术,同时可生成凸显分割结果局部可靠性的可解释不确定性图谱。本研究揭示了概率化视觉语言模型在文本驱动医学图像分割中的应用潜力。
生成逼真的对话手势对于实现与数字人自然、具有社交吸引力的互动至关重要。然而,现有方法通常将单一音频流映射为单说话者的动作,既未考虑社交语境,也未建模对话双方间的互动动态。我们提出DyaDiT——一种多模态扩散变换器,能够从成对音频信号中生成符合语境的人类动作。该模型基于无缝交互数据集训练,通过输入成对音频及可选的社交语境标记,可生成符合情境的动作。它融合双方说话者的信息以捕捉互动动态,采用运动字典编码动作先验,并可选择性利用对话伴侣的手势来生成更具响应性的动作。我们在标准动作生成指标上评估DyaDiT,并开展定量用户研究,证明其不仅在客观指标上超越现有方法,更获得用户显著偏好,凸显了其在社交友好型动作生成方面的鲁棒性。代码与模型将在论文录用后开源。
视频与音频的多模态对齐任务面临规模化挑战,这主要源于数据稀缺以及文本描述与帧级视频信息之间的不匹配。本研究针对多模态到音频生成中的扩展难题,探究在短样本上训练的模型能否在测试时泛化至长样本。为此,我们提出名为MMHNet的多模态分层网络——一种对现有视频转音频前沿模型的增强扩展。该方案通过融合分层方法与非因果Mamba架构,实现了长序列音频生成能力。我们的方法显著提升了长音频生成效果,可支持超过5分钟的生成时长。实验证明,在未进行长样本训练的情况下,视频转音频任务中"短训长测"具有可行性。在长视频转音频基准测试中,本方法取得了显著优于现有视频转音频工作的成果。特别值得注意的是,当先前方法难以生成长时序音频时,我们的模型能成功实现超过5分钟的连续生成。
数据高效的神经解码是语音脑机接口面临的核心挑战。本研究首次实现了基于脑磁图的语音感知与生成模型的跨任务迁移学习解码。我们采用Conformer架构,在单被试50小时的听觉数据上进行预训练,随后对18名被试每人仅用5分钟数据进行微调。迁移学习带来了持续的性能提升:任务内解码准确率提高1-4%,跨任务解码提升幅度更大,达5-6%。预训练不仅提升了各任务内部性能,更实现了感知与生成任务间的可靠跨任务解码。关键发现表明,经过语音生成训练的模型对被动听觉任务也能实现超随机水平的解码,这证实了所学表征反映了共享的神经加工过程,而非任务特定的运动活动。
持续学习是已部署语言模型的核心需求,然而标准训练与微调流程在非稳态数据下仍显脆弱。在线更新常引发灾难性遗忘,而提升稳定性的方法往往以增加延迟、内存占用或密集计算为代价,难以适应长上下文场景。我们提出TRC²(丘脑路由皮层柱)——一种专为解决持续学习架构难题的解码器主干网络。该架构通过稀疏丘脑路由机制整合皮层柱的调制、预测、记忆与反馈功能,并配备支持快速适应的校正通路,在保持慢速参数稳定性的同时实现敏捷调整。该模块具备稀疏性与分块并行特性,在保证各子系统可独立验证的同时实现高效训练与推理。我们构建了可复现的训练评估框架及持续学习测试环境,用于量化流式领域迁移下的代理遗忘指标。在语言建模与持续学习基准测试中,TRC²在同等算力下优化了稳定性与可塑性的平衡,既能实现流式数据的快速适应,又能有效保留已习得的行为模式。