每日精选AI研究论文及翻译
本报告介绍了Kandinsky 5.0,一系列面向高分辨率图像及10秒视频合成的尖端基础模型。该框架包含三大核心模型系列:Kandinsky 5.0 Image Lite——一组拥有60亿参数的图像生成模型;Kandinsky 5.0 Video Lite——快速轻量、具备20亿参数的文本转视频及图像转视频模型;以及Kandinsky 5.0 Video Pro——拥有190亿参数,能实现卓越视频生成质量的模型。我们全面回顾了多阶段训练管道中的数据策展生命周期,包括收集、处理、过滤与聚类,这一过程涉及广泛的预训练,并融合了自监督微调(SFT)和基于强化学习(RL)的训练后优化等质量提升技术。此外,我们展示了新颖的架构、训练及推理优化策略,使Kandinsky 5.0在多项任务中实现高速生成并达到业界领先性能,这一点已通过人工评估得到验证。作为一个大规模、公开可用的生成框架,Kandinsky 5.0充分发挥其预训练及后续阶段的潜力,适用于广泛的生成应用场景。我们期望,本报告连同开源代码及训练检查点的发布,将极大地推动高质量生成模型的发展与研究界的可及性。
视频模型已在生成高保真度视频与连贯运动动态方面取得显著成就。类比语言建模从文本生成到基于文本推理的发展历程,视频模型的进步促使我们思考:视频模型能否通过视频生成进行推理?与离散的文本语料相比,视频将推理锚定于显式的空间布局与时间连续性中,这使其成为空间推理的理想载体。本文探索"通过视频推理"的新范式,推出VR-Bench——一个系统化评估视频模型推理能力的综合基准。该基准以 inherently 需要空间规划与多步推理的迷宫求解任务为基础,包含5种迷宫类型、多种视觉风格下程序化生成的7,920个视频。实证分析表明,监督微调能高效激发视频模型的推理潜能。视频模型在推理过程中展现出更强的空间感知能力,其表现超越主流视觉语言模型,并能泛化至多样场景、任务及复杂度层级。我们还发现测试时扩展效应:推理阶段采用多样化采样可使推理可靠性提升10%-20%。这些发现凸显了"通过视频推理"范式在空间推理任务中的独特潜力与可扩展性。
人工智能研究智能体通过自动化机器学习模型的设计、实现与训练流程,为加速科研进程提供了可能。然而该领域仍处于起步阶段,驱动智能体轨迹成败的关键因素尚未被完全认知。本研究重点探讨构思多样性对智能体表现的影响机制。首先,我们在MLE-bench(评估AI研究智能体的知名基准)上分析了不同模型与智能体框架的运行轨迹,发现不同配置会催生差异化的构思多样性水平,且表现更优的智能体往往展现出更高的构思多样性。进而通过控制实验调节构思多样性程度,证实提升多样性可显著增强智能体性能。最后,我们突破MLE-bench传统的奖牌评分体系,引入更多评估指标进行验证,结果表明研究结论在不同性能度量标准下依然成立。
强化学习(RL)为提升视觉语言模型(VLMs)在复杂推理任务上的表现提供了原则性框架。然而,现有RL方法通常依赖人工标注标签或任务特定启发式规则来定义可验证奖励,这两者均成本高昂且难以扩展。我们提出VisPlay——一种自演化的RL框架,使VLMs能够利用大量无标注图像数据自主提升推理能力。该框架从单一基础VLM出发,将模型分配至两个交互角色:图像条件提问者负责构建具有挑战性但可回答的视觉问题,多模态推理者则生成银标答案。通过群体相对策略优化(GRPO)进行联合训练,该算法引入多样性与难度奖励机制,平衡生成问题的复杂性与银标答案的质量。VisPlay在Qwen2.5-VL和MiMo-VL两个模型系列上均实现高效扩展,在MM-Vet和MMMU等八个基准测试中持续提升视觉推理、组合泛化及幻觉抑制能力,为自演化多模态智能提供了可扩展路径。项目页面详见https://bruno686.github.io/VisPlay/
当前胸片病灶分割模型的应用受限于目标标签数量稀少及依赖冗长专业的文本输入,这为实际应用设置了障碍。为解决这些局限性,我们提出了一种新范式:指令引导病灶分割(ILS),该范式能够基于简洁的用户指令实现多类型病灶分割。在此框架下,我们通过全自动多模态流程构建了首个大规模胸片病灶分割指令-答案数据集MIMIC-ILS,该流程可从胸片图像及对应报告中自动生成标注。MIMIC-ILS包含源自19.2万张图像和9.1万个独立分割掩模的110万条指令-答案对,覆盖七种主要病灶类型。为实证其效用,我们推出了基于MIMIC-ILS微调的视觉语言模型ROSALIA。该模型能根据用户指令实现多类型病灶分割并提供文本解释。在我们新提出的任务中,该模型实现了高水平的分割精度与文本描述准确性,充分证明了我们流程的有效性,也彰显了MIMIC-ILS作为像素级胸片病灶定位基础资源的价值。
时长一小时视频内容(如讲座、播客、纪录片)的激增,对高效内容结构化提出了更高需求。然而,现有方法受限于小规模训练数据,其标注通常简短粗糙,难以泛化到长视频中细微的内容转换。我们推出ARC-Chapter——首个基于百万级长视频章节训练的大规模视频分章模型,其特点在于具备双语、时间锚定和层次化的章节标注体系。为实现这一目标,我们通过结构化流程构建了英汉双语章节数据集,将语音转录文本、场景文字和视觉描述统一整合为从简短标题到详细摘要的多层级标注。实验证明,随着数据规模(包括数据量和标注密度)的提升,模型性能呈现明显改善。此外,我们设计了名为GRACE的新型评估指标,该指标融合了多对一分段重叠度与语义相似度,能更准确地反映实际应用中的分章灵活性。大量实验表明,ARC-Chapter以显著优势刷新了当前最优水平,F1分数和SODA分数分别较之前最佳结果提升14.0%和11.3%。更值得注意的是,该模型展现出卓越的迁移学习能力,在YouCook2密集视频描述等下游任务中也实现了性能突破。
我们推出MHR参数化人体模型,该模型融合了ATLAS的解耦骨骼/形态架构理念与受Momentum库启发的灵活现代绑定及姿态校正系统。该模型能够实现富有表现力且解剖学合理的人体动画,支持非线性姿态校正功能,专为增强现实/虚拟现实和图形流水线的稳健集成而设计。
我们提出状态混合(MoS),一种面向多模态扩散模型的新型融合范式,通过基于状态的灵活交互实现模态融合。MoS的核心是可学习的令牌级路由器,它在不同模态的隐状态间建立去噪时间步长与输入依赖的交互关系,将令牌级特征与扩散轨迹精准对齐。该路由器通过稀疏选择Top-k隐状态,并采用ε-贪婪策略进行训练,能以极少的可学习参数和可忽略的计算开销高效选取上下文特征。我们在文本到图像生成(MoS-Image)和编辑(MoS-Editing)任务上验证了该设计,取得了最先进的性能。仅需30亿至50亿参数,我们的模型即可媲美甚至超越参数规模达4倍以上的同类模型。这些发现确立了MoS作为可扩展多模态扩散模型的灵活且计算高效的范式。
随着具身智能成为人工智能研究的核心前沿,仿真平台必须超越低阶物理交互,转向捕捉以人为中心的复杂社会行为。我们提出FreeAskWorld交互式仿真框架,该框架融合大语言模型实现高阶行为规划与语义 grounded 的交互机制,并基于意图理论与社会认知理论构建。本框架支持可扩展的逼真人机仿真,包含针对多样化具身任务设计的模块化数据生成流水线。为验证框架效能,我们将经典视觉语言导航任务拓展为交互增强的定向问询场景,使智能体能够主动寻求并解析导航指引。我们公开推出FreeAskWorld大规模基准数据集,包含重构环境、六类任务形态、16种核心物体类别、63,429帧标注样本及逾17小时交互数据,以支持具身AI系统的训练与评估。通过对VLN模型与人类参与者在开环与闭环设置下的基准测试,实验结果表明:基于FreeAskWorld微调的模型在语义理解与交互能力上均超越原模型。这些发现印证了社会 grounded 仿真框架在推动具身AI系统实现高阶规划与自然人机交互方面的有效性。尤为重要的是,本研究揭示了交互本身可作为独立的信息模态这一核心洞见。
密集特征匹配旨在估计两幅3D场景图像间的所有对应关系,因其高精度与强鲁棒性已成为当前黄金标准。然而现有密集匹配器在诸多复杂现实场景中仍存在失效或性能不佳的问题,且高精度模型往往速度缓慢,限制了其应用范围。本文通过一系列系统性改进多管齐下攻克这些弱点,最终构建出性能显著提升的新模型。我们特别设计了新颖的匹配架构与损失函数,结合精心构建的多样化训练数据分布,使模型能够解决众多复杂匹配任务。通过解耦的"先匹配后优化"两阶段流程,我们进一步加速训练过程,并借助定制CUDA内核显著降低了优化阶段的内存占用。此外,我们利用近期提出的DINOv3基础模型及其他多项创新洞见,有效提升了模型的鲁棒性与无偏性。大量实验表明,这一新型匹配器创造了最新技术水准,其精度显著超越前代模型。代码已开源:https://github.com/Parskatt/romav2
近期音乐生成式AI在保真度与风格多样性方面取得了显著进展,但由于所采用的特定损失函数,这些系统往往难以契合人类细腻的审美偏好。本文主张将偏好对齐技术系统化应用于音乐生成领域,以弥合计算优化与人类音乐审美之间的根本差距。基于MusicRL的大规模偏好学习、DiffRhythm+中扩散偏好优化等多偏好对齐框架、以及Text2midi-InferAlign等推理时优化技术的最新突破,我们探讨了这些技术如何应对音乐特有的挑战:时序连贯性、和声一致性及主观质量评估。我们指出关键研究挑战包括长篇幅作品的可扩展性、偏好建模的可靠性等。展望未来,我们期待偏好对齐的音乐生成技术能在交互式作曲工具和个性化音乐服务中催生变革性应用。本研究呼吁持续开展跨学科合作,结合机器学习与音乐理论的前沿进展,构建真正服务于人类创作与体验需求的音乐AI系统。
我们推出Medal S——一种支持原生分辨率空间提示与文本提示的端到端可训练医学分割基础模型。与缺乏空间感知的纯文本方法不同,Medal S实现了三维体积提示与文本嵌入的通道级对齐,有效缓解分辨率失配导致的误差。通过保留完整三维上下文,该模型能并行处理多个原生分辨率掩码,显著提升多类别分割性能。轻量化三维卷积模块在双提示引导下实现体素级精度优化,支持BiomedSegFM数据集中CT、MRI、PET、超声及显微影像等模态的243个分割类别。Medal S提供两种提示模式:纯文本模式(以模型预测结果作为空间提示进行自主优化)与混合模式(结合人工标注实现灵活交互)。在24类分割任务中,并行空间提示较顺序提示减少90%以上推理时间。我们提出动态重采样技术解决目标-图像块比例失衡问题,扩展SAT与nnU-Net的数据增强能力,并开发了优化文本预处理、两阶段推理策略及后处理技术以提升内存效率、精度与推理速度。在验证集五模态平均指标上,Medal S以DSC 75.44(对比69.83)、NSD 77.34(对比71.06)、F1 38.24(对比24.88)及DSC TP 65.46(对比46.97)全面超越SAT。该模型通过协调空间精度与语义文本指导,在多类别医学分割任务中展现出较基于顺序提示的方法更优异的效率与准确性。Medal S代码已开源于https://github.com/yinghemedical/Medal-S。