每日精选AI研究论文及翻译
当前高性能图像生成模型领域主要由Nano Banana Pro、Seedream 4.0等专有系统主导。主流开源替代方案如Qwen-Image、Hunyuan-Image-3.0和FLUX.2普遍具有庞大的参数量级(200亿至800亿),导致其在消费级硬件上难以进行推理与微调。为填补这一空白,我们提出Z-Image——基于可扩展单流扩散Transformer架构的60亿参数高效基础生成模型,该设计突破了“不计代价堆叠规模”的传统范式。通过系统优化从数据基础设施到训练流程的完整生命周期,我们仅用31.4万H800 GPU小时(约合63万美元)即完成全流程训练。结合奖励训练后的少步蒸馏方案进一步产出Z-Image-Turbo,既能在企业级H800 GPU上实现亚秒级推理延迟,又兼容消费级硬件(显存<16GB)。我们的全预训练范式还高效培育出具备卓越指令跟随能力的编辑模型Z-Image-Edit。定性与定量实验表明,该模型在多维度性能上达到或超越主流竞品。尤为突出的是,Z-Image在写实图像生成与双语文本渲染方面展现出匹敌顶级商业模型的能力,印证了大幅降低计算成本仍可实现尖端性能的可行性。我们公开代码、权重及在线演示,以推动可访问、低成本且性能领先的生成模型发展。
近期图像编辑模型的研究取得了显著进展。一种常见的架构设计是将多模态大语言模型(MLLM)编码器与扩散解码器相结合,例如Step1X-Edit和Qwen-Image-Edit系统:MLLM负责对参考图像和编辑指令进行编码,但在训练过程中保持参数冻结。本研究证明,释放MLLM的推理能力能够进一步拓展编辑模型的边界。具体而言,我们探索了思维与反思两种推理机制,以增强指令理解与编辑精度。基于此,我们提出的框架实现了"思维-编辑-反思"循环的图像编辑流程:思维机制利用MLLM的世界知识解析抽象指令,而反思机制则通过审查编辑结果、自动修正非预期操作并确定终止时机。大量实验表明,我们的推理方法在Step1X-Edit初始化DiT的设定下(ReasonEdit-S)实现了显著性能提升,在ImgEdit(+4.3%)、GEdit(+4.7%)和Kris(+8.2%)指标上均有进步;当与Qwen-Image-Edit结合时(ReasonEdit-Q),在GEdit和Kris基准上亦超越了既往开源方法。
近期,多人视频生成技术开始崭露头角。尽管已有初步研究探索了音频驱动的多人对话视频生成,但由于多样化多人数据采集成本高昂,以及实现多身份连贯交互存在困难,这些方法往往面临挑战。为应对这些难题,我们提出了AnyTalker——一个具有可扩展多流处理架构的多人生成框架。具体而言,我们通过创新的身份感知注意力机制扩展了扩散变换器的注意力模块,该机制能迭代处理身份-音频配对,实现可驱动身份数量的任意扩展。此外,训练多人生成模型需要海量多人数据,而我们提出的训练流程仅需单人口播视频即可学习多人对话模式,并仅用少量真实多人片段即可优化交互表现。我们还构建了专项评估指标与数据集,用于衡量生成视频的自然度与交互性。大量实验表明,AnyTalker在唇音同步、视觉质量和自然交互方面表现卓越,在数据成本与身份扩展性之间实现了良好平衡。
我们推出视觉桥接变换器(ViBT),这是布朗桥模型的大规模实例化,专为条件生成而设计。与将噪声转化为数据的传统扩散模型不同,桥接模型直接建模输入与输出之间的轨迹,创建高效的数据到数据转换范式。通过将模型规模扩展至200亿和13亿参数,我们验证了其在图像与视频翻译任务中的有效性。为支撑该规模,我们采用变换器架构并提出方差稳定的速度匹配目标以实现稳健训练。这些进展共同彰显了桥接模型在基于指令的图像编辑和复杂视频翻译领域的规模化潜力。
统一多模态模型在图像生成与理解领域代表着迈向通用人工智能的重要一步,已引起研究者的广泛关注。该任务的主要挑战在于,由于理解与生成任务存在内在目标冲突,难以建立最优训练范式。为缓解这些冲突并追求更高性能,许多研究者采用不同程度的模型解耦策略(如双图像编码器、MOE/MOT架构或冻结多模态大语言模型)。然而过度解耦会导致交错生成能力丧失,违背统一模型的初衷。本文旨在探索如何在不依赖模型解耦的情况下缓解任务冲突。首先,我们通过研究模型的跨模态注意力行为,分析了解耦策略缓解冲突的机理。实验发现模型解耦本质上会驱动模型形成任务特定的多模态交互模式(如Qwen-VL与HunyuanImage所示),且解耦越彻底,行为一致性越强。受此启发,我们提出注意力交互对齐损失函数,在训练过程中显式学习任务特定的多模态交互模式。为验证该损失函数的泛化性,我们分别将其应用于Emu3的指令微调阶段和Janus-Pro的后训练阶段。实验表明,无需复杂技巧的AIA损失不仅能优化跨模态注意力模式,还可同步提升生成与理解性能。
大型语言模型在数学推理领域取得了显著进展,该领域不仅是人工智能的重要测试平台,若进一步突破还可能对科学研究产生深远影响。通过采用强化学习对最终正确答案进行奖励的规模化推理训练,LLMs在一年内从表现不佳发展到在AIME、HMMT等定量推理竞赛中达到饱和水平。然而,这种方法存在根本性局限:追求更高的最终答案准确率并未解决关键问题——正确答案并不能保证推理过程的正确性。此外,定理证明等数学任务需要严格的逐步推导而非数值答案,使得最终答案奖励机制失效。为突破深度推理的极限,我们认为必须验证数学推理的完备性与严谨性。自我验证对于扩展测试时计算规模尤为重要,特别是针对尚无已知解的开放性问题。为实现可自我验证的数学推理,我们研究了如何训练基于LLM的精确可靠定理证明验证器,进而以该验证器作为奖励模型训练证明生成器,激励生成器在最终定稿前尽可能识别并修正自身证明中的问题。为防止生成器能力增强导致验证差距扩大,我们提出通过扩展验证计算来自动标注新的难验证证明,从而创建训练数据持续改进验证器。最终形成的DeepSeekMath-V2模型展现出强大的定理证明能力,在IMO 2025和CMO 2024中获得金奖,并在Putnam 2024中通过扩展测试时计算取得118/120的近满分成绩。
扩散模型在生成质量与计算效率之间存在根本性权衡。潜在扩散模型(LDM)虽提供高效解决方案,但存在信息丢失风险且无法进行端到端训练。相比之下,现有像素空间模型绕过了变分自编码器(VAE),但在高分辨率合成场景下计算成本过高。为解决这一困境,我们提出DiP——一种高效的像素空间扩散框架。DiP将生成过程解耦为全局与局部两阶段:采用扩散Transformer(DiT)主干网络对大尺寸图像块进行高效全局结构构建,同时通过协同训练的轻量级细节修复头利用上下文特征恢复细粒度局部细节。这种协同设计在不依赖VAE的情况下实现了与LDM相当的计算效率。DiP在仅增加0.3%参数总量的前提下,推理速度较现有方法提升最高达10倍,并在ImageNet 256×256数据集上取得了1.79的FID分数。
为构建具有强大推理能力的通用视觉-语言-动作模型,通常策略是先通过机器人演示数据训练专业版VLA以掌握可靠操作技能,再融合标注的机器人数据与多模态数据来恢复广泛推理能力。然而我们发现,由此产生的推理型VLA往往会出现动作性能相较于微调前的专业模型退化的问题,这一现象被称为动作退化。为解决该问题,我们提出DualVLA模型,通过精心设计的后训练机制在保持推理能力的同时提升动作性能。我们首先引入双层数据筛选方法,剔除冗余的具身推理数据以防止其对动作学习产生负面影响。为进一步强化动作生成,设计了双教师自适应蒸馏策略,在维持推理能力的同时为不同数据域分配差异化监督信号。为填补通用VLA的评估空白,我们还提出VLA综合评分体系,将模型能力解耦为推理、意图、动作和对齐四个维度进行细粒度评估。实验表明,DualVLA在SimplerEnv中达到61.0%的平均成功率,在八大多模态基准测试中取得65.4的平均分,展现出精准动作执行与多模态理解之间更优的平衡能力。项目网站:https://costaliya.github.io/DualVLA/。
我们提出对抗性流模型,这是一类融合对抗模型与流模型的生成模型。该方法支持原生单步或多步生成,并采用对抗目标进行训练。与传统GAN中生成器学习噪声分布与数据分布间任意传输方案不同,我们的生成器学习确定性噪声-数据映射,这与流匹配模型中的最优传输方式一致,从而显著提升了对抗训练的稳定性。同时,区别于基于一致性的方法,我们的模型直接学习单步或少步生成,无需学习概率流传播的中间时间步,这节省了模型容量、减少了训练迭代次数并避免了误差累积。在ImageNet-256px数据集相同1NFE设置下,我们的B/2模型性能接近基于一致性的XL/2模型,而我们的XL/2模型更是创造了2.38 FID的新纪录。我们还展示了通过深度重复实现56层和112层模型端到端训练的可能性,在无需任何中间监督的情况下,单次前向传播即可分别达到2.08和1.94的FID,超越了对应的2NFE和4NFE模型性能。
本研究探讨了构建"具备记忆能力的机器"这一挑战,将长期记忆问题归结为高效超长上下文建模的核心难题。我们提出该问题需具备三大关键特性:稀疏性、随机访问灵活性及长度泛化能力。为应对超长上下文建模挑战,我们采用新型注意力机制——分层稀疏注意力(HSA),该机制同时满足上述三个特性。通过将HSA集成至Transformer架构,我们构建了HSA-UltraLong模型:这是一个基于8B参数的混合专家模型,在超过8万亿token上完成训练,并在领域内外不同上下文长度的任务中进行了严格评估。实验结果表明,在领域内上下文长度任务上,本模型性能与全注意力基线模型相当,同时在长达1600万token的上下文检索任务中,多数场景下准确率超过90%。本报告系统阐述了实验发现与开放性问题,为超长上下文建模的未来研究奠定了理论基础。
扩散模型蒸馏已成为创建高效少步和单步生成器的强大技术。其中,分布匹配蒸馏(DMD)及其变体凭借卓越性能脱颖而出,传统观点普遍将其归因于学生模型输出分布与预训练教师模型匹配的核心机制。本研究对这一传统认知提出挑战。通过对DMD训练目标的严格解构,我们发现:在文本到图像生成等复杂任务中(通常需要CFG才能实现理想的少步生成性能),少步蒸馏的主要驱动力并非分布匹配,而是一个被长期忽视的组件——我们称之为CFG增强(CA)。研究证明该组件充当蒸馏过程的核心"引擎",而分布匹配(DM)项则作为"正则化器"确保训练稳定性并减少伪影。我们进一步验证了这种解耦关系:虽然DM项是高效的正则化器,但其作用并非不可替代;更简单的非参数约束或基于GAN的目标函数同样能实现稳定功能,尽管存在不同权衡。这种职责解耦促使我们对两项特性的原理进行更系统性分析,从而获得更深入的认知。基于新认知,我们提出了对蒸馏过程的原理性改进,例如对引擎项与正则化项采用解耦的噪声调度策略,从而进一步提升性能。值得关注的是,我们的方法已被Z-Image项目(https://github.com/Tongyi-MAI/Z-Image)采纳用于开发顶级8步图像生成模型,实证验证了本研究结论的普适性与鲁棒性。
语言模型能否自我优化其回答?随着现实应用中用户频繁提出改进需求,这一问题日益重要。然而现有研究大多基于可验证任务(如竞赛数学或带简化框架的符号推理)测试模型优化能力,而用户常提出开放式问题并提供不同程度的反馈。近期推理模型在思维链中展现的自省模式更凸显该问题价值。为此我们推出RefineBench基准,包含11个领域的1000个挑战性问题,并配套基于检查表的评估框架。我们评估两种优化模式:(1)引导式优化,即向模型提供自然语言反馈;(2)自我优化,即模型在无指导下自主改进。在自我优化场景下,即便是Gemini 2.5 Pro和GPT-5等前沿模型也仅获得31.3%和29.1%的基准分数,且多数模型无法在迭代中持续提升(如Gemini 2.5 Pro仅提升1.8%,DeepSeek-R1反而下降0.1%)。相比之下,在引导式优化中,无论是专有模型还是大型开源模型(>700亿参数)都能通过定向反馈在五轮对话内将回答优化至近乎完美。这些发现表明前沿模型需要突破性进展才能自我修正错误回答,而RefineBench为追踪进展提供了重要测试平台。
在严格延迟约束的众多现实应用中,小语言模型(SLM)的高效部署至关重要。现有SLM设计研究主要聚焦于减少参数量以实现参数最优模型,但参数效率未必能转化为实际设备的等比例加速。本研究旨在揭示影响SLM实际延迟的关键因素,并为以实际延迟为首要考量时的SLM设计与训练提供可推广的原则方法。具体而言,我们识别出两个核心架构要素:深度-宽度比和算子选择。前者对小批量处理的延迟至关重要,后者则同时影响延迟和大批量处理的吞吐量。基于此,我们首先研究延迟最优的深度-宽度比,关键发现是:尽管深窄模型在同等参数量下通常能获得更优精度,但它们可能偏离精度-延迟的帕累托前沿。继而探索新兴高效注意力替代方案,评估其作为候选构建算子的潜力。利用识别出的潜力算子,我们构建进化搜索框架以自动发现混合SLM中这些算子的延迟最优组合,从而推进精度-延迟边界。除架构改进外,我们还通过权重归一化技术增强SLM训练,该技术能实现更有效的权重更新并提升最终收敛性。综合这些方法,我们推出了新型混合SLM系列Nemotron-Flash,显著推进了前沿SLM的精度-效率边界:相比Qwen3-1.7B/0.6B模型,平均精度提升超过5.5%,延迟降低1.3倍/1.9倍,吞吐量提升18.7倍/45.6倍。
世界引擎旨在合成支持用户控制相机运动下场景交互式探索的长时、三维一致视频。然而现有系统在激进六自由度轨迹和复杂户外场景中表现不佳:它们会丢失长程几何一致性、偏离目标路径或陷入过度保守的运动模式。为此,我们推出Captain Safari——一种通过从持久化世界记忆库中检索来生成视频的位姿条件化世界引擎。给定相机路径,我们的方法维护动态局部记忆库,并利用检索器获取位姿对齐的世界标记,这些标记进而沿轨迹条件化视频生成。该设计使模型能在精确执行挑战性相机运动的同时保持稳定的三维结构。为评估此设定,我们构建了OpenSafari数据集,这是一个通过多阶段几何与运动学验证流程建立的野外第一人称视角数据集,包含带有已验证相机轨迹的高动态无人机视频。在视频质量、三维一致性和轨迹跟随性方面,Captain Safari显著优于当前最先进的相机控制生成器:将MEt3R指标从0.3703降至0.3690,AUC@30从0.181提升至0.200,且FVD远低于所有相机控制基线。更重要的是,在50人参与的五模型匿名对比研究中,注释者在五个匿名模型中选择最佳结果时,67.6%的偏好指标全面倾向于我们的方法。我们的结果表明,位姿条件化世界记忆是实现长时序可控视频生成的有效机制,并将OpenSafari确立为未来世界引擎研究的新基准。
在全球化的背景下,源自不同文化的元素常常会出现在同一视觉场景中。我们将这类现象称为文化混合场景,然而大型视觉语言模型对其的感知机制仍待探索。本研究将文化混合视为LVLMs面临的关键挑战,系统考察了当多地域文化物品共存时现有模型的表现。为系统分析模型行为,我们构建了CultureMix——一个包含2.3万张扩散生成并经人工核验的文化混合图像的食物视觉问答基准数据集,涵盖四个子任务:(1)纯食物、(2)食物+食物、(3)食物+背景、(4)食物+食物+背景。通过对10个LVLMs的评估,发现模型在混合场景中持续存在文化身份识别失效问题。模型表现出强烈的背景依赖倾向,当纯食物基线添加文化背景后准确率下降14%,且对相同食物在不同语境下会生成矛盾判断。针对这些局限,我们探索了三种鲁棒性提升策略。实验表明,采用多样化文化混合数据集进行监督微调可显著提升模型一致性并降低背景敏感性。我们呼吁学界重视文化混合场景研究,将其作为开发能可靠运用于多元文化现实环境的LVLMs的关键步骤。
多模态大语言模型(MLLMs)已在众多医疗专科领域展现出巨大潜力,然而牙科领域的探索仍显不足,部分原因在于领域专用数据有限、牙科专家标注稀缺、模态特异性建模不足以及可靠性方面的挑战。本文提出OralGPT-Omni——首个面向牙科专业的多模态大语言模型,专为跨多种牙科影像模态和临床任务的全面可信分析而设计。为显式捕捉牙医的诊断推理逻辑,我们构建了TRACE-CoT数据集,该临床导向的思维链数据集复现了牙科放射医师的决策过程。这种推理监督机制结合我们提出的四阶段训练范式,显著增强了模型对牙科影像的理解与分析能力。与此同时,我们推出了MMOral-Uni——首个统一的牙科影像多模态基准测试,包含涵盖5种影像模态和5类临床任务的2,809个开放式问答对,为数字牙科领域的MLLMs提供了迄今最全面的评估体系。OralGPT-Omni在MMOral-Uni基准测试中获得51.84的综合得分,在MMOral-OPG基准测试中取得45.31分,显著超越GPT-5的表现。本研究推动了智能牙科发展,为牙科影像分析的未来进展铺平道路。所有代码、基准测试数据及模型将公开发布。
观察图像中的某些区块会降低其他区块的不确定性。这些区块的显现实质上降低了其余每个区块特征分布的熵值,类似于量子力学中粒子波函数的坍缩。这一现象可直观地称为"区块坍缩"。为识别目标区域坍缩过程中最依赖的区块,我们训练了一种能软性选择区块子集以重建每个目标区块的自编码器。通过绘制每个区块PageRank得分所对应的学习依赖关系,可揭示实现图像重构的最优区块顺序。实验表明遵循该顺序能提升多种掩码图像建模方法的性能:首先,通过重新训练最先进的自回归模型MAR可提升图像生成效果;其次,我们提出一种新的图像分类方案,仅向视觉Transformer暴露坍缩顺序中高排名的区块。实验证明仅观察22%的高排名区块即可实现高精度分类。通过这些实验,我们提出以区块坍缩作为新型图像建模视角,有效提升视觉任务效率。本项目代码已开源:https://github.com/wguo-ai/CoP。
近期,大型语言模型通过生成详尽思维链轨迹实现了强劲的推理性能,但这往往导致令牌使用量激增和推理延迟升高。现有效率优化方法通常聚焦于模型侧干预(如强化学习或监督微调)以降低冗余度。与之相反,我们提出一种免训练、输入侧驱动的创新方案。受认知心理学启发,我们引入聚焦式思维链(F-CoT)方法,将信息提取与推理过程分离。F-CoT首先将查询中的关键信息组织为简洁的结构化上下文,随后引导模型仅基于该上下文进行推理。通过避免关注无关细节,F-CoT自然生成更简短的推理路径。在数学应用题测试中,F-CoT在保持与标准零样本思维链相当准确率的同时,将生成令牌量减少2-3倍。这些结果表明,结构化输入是实现更高效大语言模型推理的简单而有效的关键抓手。
图像标题在多模态系统(如检索、推荐和多步智能推理流程)中作为视觉内容的高效替代品。然而当前的评估方法忽略了一个根本问题:标题能否在实际下游任务中真正替代图像?我们提出基于实用性的基准测试CaptionQA,通过标题对下游任务的支持程度来衡量模型生成标题的质量。该基准涵盖自然图像、文档、电子商务和具身AI四大领域,包含细粒度分类体系(25个主类与69个子类),可识别领域任务所需的关键信息。CaptionQA构建了33,027道密集标注的多选题(平均每图50.3题),这些问题需依赖视觉信息作答,能全面检验标题的实用性。在我们的评估框架中,大语言模型仅依据标题回答问题,直接衡量标题是否保留图像级效用且能被下游LLM有效利用。对前沿多模态大模型的评估显示,图像与其标题效用间存在显著差距:在传统图像QA基准表现相近的模型,其标题效用最大下降达32%。我们开源CaptionQA基准及可扩展至新领域的流水线代码(https://github.com/bronyayang/CaptionQA)。
为在测试时提升扩散模型的性能,使生成样本在用户指定奖励函数下获得高分,常见方法是在扩散动力学中引入奖励函数的梯度。但该操作通常存在不适定性问题,因为用户定义的奖励函数往往仅在生成过程末端的数据分布上才有明确定义。尽管现有解决方案多采用去噪器预估样本的生成终点状态,我们提出一种基于流映射的简洁替代方案。通过利用流映射与主导瞬时传输的速度场之间的数学关系,我们构建了流映射轨迹倾斜算法(FMTT),该算法在理论证明上能比传统依赖奖励梯度的测试时方法实现更优的奖励提升效果。该方法既可通过重要性加权进行精确采样,也能执行原则性搜索以定位奖励倾斜分布的局部极值点。通过与其他前瞻性技术的对比实验,我们验证了本方法的有效性,并展示了流映射如何助力复杂奖励函数的应用——例如通过与视觉语言模型交互,实现新型图像编辑功能。
多模态大语言模型(MLLMs)正日益部署于现实世界的智能体场景中,其输出不仅需确保正确性,还必须符合预定义的数据模式。尽管文本领域的结构化生成已取得进展,目前仍缺乏系统评估视觉输入中基于模式的信息抽取与推理能力的基准。本研究通过精心设计的SO-Bench基准,对MLLMs的视觉结构化输出能力展开全面评估。该基准覆盖界面屏幕、自然图像、文档和图表四大视觉领域,基于超过6500个多样化JSON模式及1800组经人工校验质量的图像-模式配对数据构建。对开源模型与前沿商用模型的基准测试表明,现有模型在生成准确且符合模式要求的输出方面仍存在明显差距,凸显了提升多模态结构化推理能力的必要性。除基准评估外,我们进一步通过训练实验显著提升了模型的结构化输出能力。该基准将向学界开放。
我们提出Split-then-Merge(StM)这一创新框架,旨在增强生成式视频合成的控制能力并解决其数据稀缺问题。与依赖标注数据集或手工规则的传统方法不同,StM将大量未标注视频分解为动态前景层与背景层,继而通过自组合学习动态主体与多样化场景的交互机制。该过程使模型能够掌握逼真视频生成所需的复杂组合动态特性。StM引入了具有感知变换能力的训练流程,通过多层融合与增强技术实现可供性感知的视频合成,同时采用身份保持损失函数确保前景元素在融合过程中的保真度。实验表明,StM在定量基准测试及基于人类/VLLM的定性评估中均优于当前最优方法。更多细节请访问项目页面:https://split-then-merge.github.io
尽管多模态大语言模型(MLLMs)擅长回答图像内容——识别物体并描述场景——但它们往往缺乏理解人类观察者对图像感受的能力。这种差距在涉及主观认知属性时尤为明显,例如图像为何令人难忘、有趣、具有美感或能引发情感共鸣。为系统性地解决这一挑战,我们推出了CogIP-Bench,一个用于评估MLLMs在此类图像认知属性上的综合基准。我们的评估揭示了一个显著差距:当前模型与人类对这些微妙属性的感知存在严重偏差。随后我们证明,通过后训练阶段可有效弥合这一差距,显著提升模型与人类判断的一致性。进一步研究表明,这种习得的认知对齐不仅具有预测性,还能迁移至下游创意任务。通过将认知对齐的MLLM集成至图像生成流程,我们可以引导合成过程生成更能体现预期特质(如更令人难忘或更具视觉吸引力)的图像。本研究不仅提供了衡量类人感知的基准、增强该能力的后训练方案,更通过实践验证这种对齐能够开启更具人性化的人工智能。
参考引导的图像生成技术发展迅速,但当前扩散模型在依据参考图像优化生成结果时,仍难以保持细粒度的视觉细节。这一局限源于VAE潜在压缩机制固有地会丢弃细微纹理信息,导致身份特征与属性相关的视觉线索消失。此外,基于现有方法的局部细节增强后编辑方案,常会产生光照、纹理或形状方面与原图不一致的结果。为此,我们提出了细节感知优化框架,通过连续两阶段的参考驱动校正来提升像素级一致性。我们首先对单图像扩散编辑器进行适配微调,使其能同时处理草图与参考图像,在保持结构保真度的同时实现全局协调优化。随后应用强化学习进一步强化局部编辑能力,显式优化细节精度与语义一致性。大量实验表明,本方法在参考图像对齐和细粒度细节保留方面显著提升,在极具挑战性的参考引导修复基准测试中,生成的忠实且视觉连贯的编辑效果超越了开源与商业模型。
本文提出了一种新颖的混合专家目标检测框架,通过在多路YOLOv9-T专家网络间引入自适应路由机制,实现动态特征 specialization。相较于单一YOLOv9-T模型,该框架在平均精度均值(mAP)和平均召回率(AR)指标上均表现出更优性能。
扩散模型在二维图像、视频及三维形状等多模态生成任务中展现出卓越的生成质量,但其迭代去噪过程导致推理计算成本高昂。尽管近期基于缓存的方法通过复用冗余计算有效加速了二维和视频生成,但直接将此类技术应用于三维扩散模型会严重破坏几何一致性。在三维合成中,缓存潜在特征的微小数值误差会不断累积,进而引发结构伪影和拓扑失配。为突破此局限,我们提出无需训练的几何感知缓存框架Fast3Dcache,在加速三维扩散推理的同时保持几何保真度。该方法通过预测性缓存调度约束(PCSC)根据体素稳定模式动态分配缓存配额,并利用时空稳定性准则(SSC)基于速度幅值和加速度标准筛选稳定特征进行复用。综合实验表明,Fast3Dcache可实现显著加速,推理速度最高提升27.12%,计算量(FLOPs)降低54.8%,且以倒角距离(2.48%)和F-Score(1.95%)衡量的几何质量损失极小。
我们提出了一种仅需视频级监督即可检测监控视频中罕见多样化异常的方法。通过双主干网络架构融合卷积与Transformer特征表示,并采用top-k池化策略,在UCF-Crime数据集上实现了90.7%的曲线下面积(AUC)。
高分辨率磁共振成像在众多临床与科研应用中具有关键作用。然而受限于技术权衡与实验条件,实现高分辨率成像仍成本高昂。超分辨率技术作为一种前景广阔的计算方法,通过从更易获取的低分辨率扫描数据生成高分辨率图像,有望在不增加硬件负担的前提下提升诊断精度与效率。本文系统综述了磁共振超分辨率技术的最新进展,重点探讨深度学习方案,从计算机视觉、计算成像、逆问题及磁共振物理等多维度剖析基于深度学习的磁共振超分辨率方法,涵盖理论基础、架构设计、学习策略、基准数据集与性能指标。我们提出系统分类法对现有方法进行归类,并结合临床与研究场景中的特殊挑战,对成熟及新兴的超分辨率技术展开深入研究。同时指出该领域亟待解决的关键问题与发展方向,并汇总了开源资源、工具及教程集(GitHub: https://github.com/mkhateri/Awesome-MRI-Super-Resolution)。 IEEE关键词:磁共振成像,超分辨率,深度学习,计算成像,逆问题,综述。
我们提出一种基于聚类的帧选择策略,以减轻视频衍生帧数据集中的信息泄露问题。该方法通过在划分训练集、验证集和测试集之前对视觉相似的帧进行分组,从而生成更具代表性、平衡性且可靠的数据集划分。
联邦学习(FL)能够在保护隐私的前提下实现客户端间的协同训练。尽管现有联邦学习方法大多假设采用同构模型架构,但客户端在数据和资源上的异构性使得该假设难以成立,由此催生了模型异构联邦学习。针对该问题,我们提出联邦表示纠缠(FedRE)框架,该框架基于一种称为纠缠表示的新型客户端知识形式。在FedRE中,每个客户端使用归一化随机权重将本地表示聚合成单一纠缠表示,并应用相同权重将对应的独热标签编码整合为纠缠标签编码。这些数据随后上传至服务器用于训练全局分类器。训练过程中,每个纠缠表示通过其对应的纠缠标签编码进行跨类别监督,同时每轮重新采样随机权重以引入多样性,从而缓解全局分类器的过度自信问题并促进更平滑的决策边界。此外,每个客户端仅上传单个跨类别纠缠表示及其纠缠标签编码,既降低了表示反转攻击的风险,又减少了通信开销。大量实验表明,FedRE在模型性能、隐私保护和通信开销之间实现了有效平衡。代码已发布于https://github.com/AIResearch-Group/FedRE。