每日精选AI研究论文及翻译
Sora展现了扩散变换器(DiT)架构在单场景视频生成中的巨大潜力。然而,更具挑战性且应用范围更广的多场景视频生成任务仍相对未被充分探索。为填补这一空白,我们提出了Mask^2DiT,一种新颖的方法,它在视频片段与其对应文本注释之间建立了细粒度的一一对应关系。具体而言,我们在DiT架构的每一注意力层引入对称二进制掩码,确保每个文本注释仅应用于其对应的视频片段,同时保持视觉标记间的时间连贯性。这一注意力机制实现了精确的片段级文本到视觉对齐,使DiT架构能够有效处理固定场景数的视频生成任务。为进一步赋予DiT架构基于现有场景生成额外场景的能力,我们引入了片段级条件掩码,该掩码使每个新生成的片段依赖于先前的视频片段,从而实现自回归场景扩展。定性与定量实验均证实,Mask^2DiT在保持片段间视觉一致性的同时,确保了每个片段与其对应文本描述的语义对齐。我们的项目页面为https://tianhao-qi.github.io/Mask2DiTProject。
在本报告中,我们介绍了Qwen2.5-Omni,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,音频和视觉编码器均采用了分块处理的方法。为了同步视频输入与音频的时间戳,我们以交错的方式顺序组织音频和视频,并提出了一种新颖的位置嵌入方法,称为TMRoPE(时间对齐的多模态RoPE)。为了在生成文本和语音的同时避免两种模态之间的干扰,我们提出了Thinker-Talker架构。在该框架中,Thinker作为一个大型语言模型负责文本生成,而Talker则是一个双轨自回归模型,直接利用Thinker的隐藏表示来生成音频标记作为输出。Thinker和Talker模型均设计为端到端的训练和推理。为了以流式方式解码音频标记,我们引入了一种滑动窗口DiT,限制其感受野,旨在减少初始包延迟。Qwen2.5-Omni与同等规模的Qwen2.5-VL相当,并优于Qwen2-Audio。此外,Qwen2.5-Omni在多模态基准测试(如Omni-Bench)上实现了最先进的性能。值得注意的是,Qwen2.5-Omni在端到端语音指令跟随方面的性能与其在文本输入上的能力相当,这一点在MMLU和GSM8K等基准测试中得到了验证。在语音生成方面,Qwen2.5-Omni的流式Talker在鲁棒性和自然度上优于大多数现有的流式和非流式替代方案。
本报告介绍了Wan,一套全面开放的视频基础模型套件,旨在突破视频生成的边界。基于主流的扩散变换器范式,Wan通过一系列创新实现了生成能力的显著提升,包括我们新颖的VAE架构、可扩展的预训练策略、大规模数据筛选以及自动化评估指标。这些贡献共同增强了模型的性能和多功能性。具体而言,Wan具备四大核心特征:领先性能:Wan的140亿参数模型在包含数十亿图像和视频的庞大数据集上训练,展示了视频生成在数据和模型规模上的扩展规律。它在多个内部和外部基准测试中持续超越现有开源模型及最先进的商业解决方案,展现出显著且明确的性能优势。全面性:Wan提供两个高效能模型,分别为13亿和140亿参数,分别针对效率与效果优化。它覆盖了包括图像转视频、指令引导的视频编辑及个性化视频生成在内的多达八项下游应用。消费级效率:13亿参数模型展现出卓越的资源效率,仅需8.19GB显存,兼容广泛的消费级GPU。开放性:我们开源了Wan全系列,包括源代码及所有模型,旨在促进视频生成社区的发展。这一开放性举措力求大幅扩展行业视频制作的创意可能性,并为学术界提供高质量的视频基础模型。所有代码和模型均可在https://github.com/Wan-Video/Wan2.1获取。
我们推出Gemma 3,这是Gemma系列轻量级开源模型的多模态新成员,参数规模从10亿到270亿不等。此版本新增了视觉理解能力,扩展了语言覆盖范围,并支持至少128K标记的更长上下文。我们还改进了模型架构,通过增加局部注意力层相对于全局注意力层的比例,并保持局部注意力的跨度较短,从而减少了在长上下文场景下易爆炸性增长的KV缓存内存。Gemma 3模型采用蒸馏训练,无论是预训练版还是指令微调版,其性能均优于Gemma 2。特别值得一提的是,我们创新的后训练策略显著提升了数学、对话、指令遵循及多语言能力,使得Gemma3-4B-IT可与Gemma2-27B-IT相媲美,而Gemma3-27B-IT则在各项基准测试中与Gemini-1.5-Pro旗鼓相当。我们向社区开放了所有模型。
尽管近期在多样化机器人数据集上训练的视觉-语言-动作模型展现出在有限领域数据下良好的泛化能力,但其依赖紧凑的动作头来预测离散或连续动作,限制了其对异构动作空间的适应性。我们提出了Dita,一个可扩展的框架,它利用Transformer架构通过统一的多模态扩散过程直接去噪连续动作序列。不同于以往方法通过浅层网络在融合嵌入上进行条件去噪,Dita采用了上下文条件化——使得去噪动作与历史观察中的原始视觉标记之间实现细粒度对齐。这一设计明确建模了动作增量与环境细微差别。通过将扩散动作去噪器与Transformer的可扩展性相结合,Dita有效地整合了跨实体数据集,涵盖多样的相机视角、观察场景、任务及动作空间。这种协同作用增强了对各种变化的鲁棒性,并促进了长时程任务的成功执行。在广泛的基准测试中,Dita在模拟环境中展示了最先进或可比的性能。值得注意的是,Dita通过仅使用第三人称相机输入的10次微调,实现了对环境变化和复杂长时程任务的鲁棒现实世界适应。该架构为通用机器人策略学习建立了一个多功能、轻量级且开源的基线。项目页面:https://robodita.github.io。
我们推出开放深度搜索(Open Deep Search, ODS),旨在弥合专有搜索AI解决方案(如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview)与其开源替代品之间日益扩大的差距。ODS的主要创新在于,通过引入能够明智运用网络搜索工具来解答查询的推理代理,增强了最新开源大语言模型(LLMs)的推理能力。具体而言,ODS包含两个与用户选定的基础LLM协同工作的组件:开放搜索工具和开放推理代理。开放推理代理负责解读给定任务,并通过编排一系列动作(包括调用工具,其中之一便是开放搜索工具)来完成它。开放搜索工具是一种新型网络搜索工具,其性能超越专有同类产品。结合强大的开源推理LLMs,如DeepSeek-R1,ODS在SimpleQA和FRAMES两个基准测试上几乎达到并有时超越现有最先进基线。例如,在FRAMES评估基准上,ODS将最新发布的GPT-4o Search Preview的最佳基线准确率提升了9.7%。ODS是一个通用框架,能够无缝增强任何LLMs——例如,在SimpleQA上取得82.4%、在FRAMES上取得30.1%的DeepSeek-R1——通过赋予其搜索与推理能力,实现最先进性能:在SimpleQA上达到88.3%,在FRAMES上达到75.3%。
多步空间推理涉及对多个连续步骤中空间关系的理解与推理,这对于解决复杂的现实世界应用至关重要,如机器人操作、自主导航和自动化装配。为了评估当前多模态大语言模型(MLLMs)是否已掌握这一基础能力,我们引入了LEGO-Puzzles,一个可扩展的基准测试,旨在通过基于乐高的任务来评估MLLMs的空间理解与序列推理能力。LEGO-Puzzles包含1100个精心策划的视觉问答(VQA)样本,涵盖11项不同任务,从基础的空间理解到复杂的多步推理。基于LEGO-Puzzles,我们对最先进的MLLMs进行了全面评估,并揭示了它们在空间推理能力上的显著局限:即使是最强大的MLLMs也只能回答约一半的测试案例,而人类参与者的准确率超过90%。除了VQA任务外,我们还评估了MLLMs根据组装示意图生成乐高图像的能力。实验表明,仅Gemini-2.0-Flash和GPT-4o展现出有限的指令遵循能力,而其他MLLMs要么复制输入图像,要么生成完全无关的输出。总体而言,LEGO-Puzzles暴露了现有MLLMs在空间理解与序列推理能力上的关键不足,并强调了在多模态空间推理领域进一步发展的必要性。
近期,大型多模态模型的进展催生了数字领域中卓越的通用能力,然而这些能力向物理实体(如机器人)的转化仍面临重大挑战。本报告介绍了一类专为机器人技术设计、基于Gemini 2.0框架的新型AI模型家族。我们推出了Gemini Robotics,这是一种先进的视觉-语言-动作(VLA)通用模型,能够直接控制机器人。Gemini Robotics执行流畅且反应迅速的动作,以应对各种复杂的操作任务,同时对物体类型和位置的变化具有鲁棒性,能够处理未见过的环境,并遵循多样化的开放词汇指令。我们展示,通过额外的微调,Gemini Robotics可被特化以掌握新能力,包括解决长期、高度灵巧的任务,从仅100次演示中学习新的短期任务,以及适应完全新颖的机器人形态。这一成就得益于Gemini Robotics建立在Gemini Robotics-ER模型之上,后者是我们在此工作中引入的第二个模型。Gemini Robotics-ER(具身推理)将Gemini的多模态推理能力扩展至物理世界,增强了空间与时间的理解力。这赋予了机器人技术相关的能力,如物体检测、指向、轨迹与抓取预测,以及多视角对应与三维边界框预测。我们展示了这一新颖组合如何支持多种机器人应用。同时,我们也讨论并解决了与这类新型机器人基础模型相关的重要安全考量。Gemini Robotics家族标志着向开发通用机器人迈出了重要一步,实现了AI在物理世界中的潜力。
无分类器引导(Classifier-Free Guidance, CFG)是训练条件扩散模型的一项基础技术。基于CFG训练的常规做法是使用单一网络同时学习条件与无条件噪声预测,并以较低的丢弃率处理条件信息。然而,我们观察到,在训练中联合学习无条件噪声时,由于带宽受限,导致无条件情况下的先验表现不佳。更重要的是,这些欠佳的无条件噪声预测成为降低条件生成质量的重要原因。受启发于大多数基于CFG的条件模型通过微调具有更优无条件生成能力的基模型进行训练的事实,我们首先证明,仅用基模型预测的无条件噪声替换CFG中的无条件噪声,即可显著提升条件生成效果。此外,我们还展示了,除了微调模型所基于的扩散模型外,其他扩散模型也可用于无条件噪声的替换。我们通过一系列基于CFG的条件模型,包括Zero-1-to-3、Versatile Diffusion、DiT、DynamiCrafter和InstructPix2Pix,在图像与视频生成任务中实验验证了上述观点。
生成模型与判别模型之间的协同效应正受到越来越多的关注。尽管判别式的对比语言-图像预训练(CLIP)在高层语义理解上表现出色,但在感知细粒度视觉细节方面却存在局限。通常,为了增强表征能力,生成模型会将CLIP的视觉特征作为重建的条件。然而,其背后的原理尚未得到充分探索。在本研究中,我们通过实证发现,视觉上完美的生成并不总是表征增强的最佳选择。关键在于从生成模型中有效提取细粒度知识,同时过滤无关信息。为探究关键因素,我们从三个方面展开深入分析:(1)条件机制:我们发现,即使是少量的局部标记也能显著降低重建难度,导致训练崩溃。因此,我们得出结论,仅使用全局视觉标记作为条件是最有效的策略。(2)去噪配置:我们观察到端到端训练会引入冗余信息。为此,我们提出了一种两阶段训练策略,优先学习有用的视觉知识。此外,我们证明了轻量级去噪器也能带来显著改进。(3)生成范式:我们探索了连续与离散去噪器,均取得了理想结果,验证了方法的通用性。通过深入探索,我们最终开发出了一种有效的方法——GenHancer,在MMVP-VLM基准测试中持续超越现有技术,例如在OpenAICLIP上提升了6.0%。增强后的CLIP可进一步集成到多模态大语言模型中,以提升以视觉为中心的性能。所有模型与代码均已公开。
近期,诸如Flux和Ideogram 2.0等顶尖的文本到图像生成模型在句子级别的视觉文本渲染方面取得了显著进展。本文聚焦于更具挑战性的文章级视觉文本渲染场景,并致力于解决一项新颖任务:基于用户提供的文章级描述性提示和超密集布局,生成高质量的商业内容,包括信息图表和幻灯片。这一任务面临两大根本性挑战:显著延长的上下文长度以及高质量商业内容数据的稀缺性。 与以往多数研究局限于有限子区域和句子级提示不同,确保在商业内容中精确遵循包含数十甚至上百个子区域的超密集布局,其难度远胜以往。我们做出了两项关键技术贡献:(一)构建了可扩展的高质量商业内容数据集,即Infographics-650K,通过实施分层检索增强的信息图表生成方案,配备了超密集布局和提示;(二)提出了一种布局引导的交叉注意力机制,该机制根据超密集布局将数十个区域级提示注入一组裁剪后的区域潜在空间,并在推理过程中利用布局条件CFG灵活优化每个子区域。 我们展示了系统相较于Flux和SD3等先前SOTA系统在BizEval提示集上的优异表现。此外,我们进行了详尽的消融实验,以验证各组成部分的有效性。我们期望所构建的Infographics-650K和BizEval能够激励更广泛的社区推动商业内容生成领域的进步。
我们推出LogQuant,这是一项针对大型语言模型(LLM)推理中KV Cache的突破性2位量化技术,在显著节省内存的同时保持了卓越的性能。以往的方法要么假设后续的token更为重要,要么试图基于先前的注意力模式预测重要token。然而,这两种方法都可能导致性能瓶颈或频繁的预测失误。 LogQuant采取了不同的策略。通过应用基于对数的过滤机制,它选择性地在整个上下文中压缩KV Cache,在相同甚至更少的内存占用下实现了更优的性能。在基准测试中,LogQuant将吞吐量提升了25%,并在不增加内存消耗的情况下将批量大小提高了60%。对于数学和代码补全等具有挑战性的任务,LogQuant在相同压缩比下将准确率提升了40%至200%,超越了同类技术。LogQuant能够无缝集成到如Python的transformers库等流行的推理框架中。具体实现可访问https://github.com/Concyclics/LogQuantKV获取。
我们提出了MCTS-RAG,这是一种创新方法,通过结合检索增强生成(RAG)提供相关上下文和蒙特卡洛树搜索(MCTS)优化推理路径,显著提升了小型语言模型在知识密集型任务中的推理能力。MCTS-RAG通过迭代决策过程动态整合检索与推理。与通常独立于推理进行信息检索、导致知识整合欠佳的标准RAG方法不同,也不同于仅依赖内部模型知识、缺乏外部事实支持的常规MCTS推理,MCTS-RAG将结构化推理与自适应检索相结合。这种集成方法不仅增强了决策质量,减少了幻觉现象,还确保了更高的事实准确性和回答一致性。在多个推理和知识密集型数据集(如ComplexWebQA、GPQA和FoolMeTwice)上的实验结果表明,我们的方法通过有效扩展推理时的计算资源,使小型语言模型能够达到与GPT-4o等前沿大模型相媲美的性能,为小型模型的推理能力树立了新标杆。
扩散模型在视频生成领域取得了显著进展。然而,其迭代去噪的特性需要大量推理步骤来生成视频,导致速度缓慢且计算成本高昂。本文首先详细分析了现有扩散蒸馏方法面临的挑战,并提出了一种新颖的高效方法——AccVideo,通过合成数据集减少推理步骤,从而加速视频扩散模型。我们利用预训练的视频扩散模型生成多条有效的去噪轨迹作为合成数据集,这消除了蒸馏过程中无用数据点的使用。基于该合成数据集,我们设计了一种基于轨迹的少步引导方法,利用去噪轨迹中的关键数据点学习噪声到视频的映射,从而在更少的步骤中生成视频。此外,由于合成数据集捕捉了每个扩散时间步的数据分布,我们引入了一种对抗训练策略,使学生模型的输出分布与合成数据集对齐,从而提升视频质量。大量实验表明,与教师模型相比,我们的模型在保持相当性能的同时,生成速度提升了8.5倍。与以往的加速方法相比,我们的方法能够生成更高质量和分辨率的视频,即5秒、720x1280、24帧每秒。
从系统1到系统2推理的转变,在大语言模型(LLMs)中标志着通过深思熟虑、迭代思维处理复杂任务的重大进步。然而,这一进展往往以效率为代价,因为模型倾向于过度思考,生成冗余的推理步骤,而输出质量的提升并不成比例。长到短(L2S)推理作为一种有前景的解决方案应运而生,旨在平衡推理深度与实际效率。尽管现有方法,如监督微调(SFT)、强化学习(RL)和提示工程,已显示出潜力,但它们要么计算成本高昂,要么稳定性不足。相比之下,模型合并提供了一种成本效益高且稳健的替代方案,通过整合系统1模型的快速思维能力和系统2模型的有条理推理。在本研究中,我们对L2S推理的模型合并进行了全面的实证研究,探索了多种方法,包括基于任务向量的、基于奇异值分解(SVD)的和基于激活信息的合并。我们的实验表明,模型合并能够将平均响应长度减少高达55%,同时保持甚至提升基线性能。我们还通过对1.5B/7B/14B/32B模型的广泛评估,发现了模型规模与合并效果之间的强相关性。此外,我们研究了合并模型自我批判和自我修正的能力,以及其根据任务复杂性自适应调整响应长度的特性。我们的发现强调了模型合并作为L2S推理的一种高效且有效的范式,为解决过度思考问题提供了实用方案,同时保持了系统2推理的稳健性。本工作可在Github上找到:https://github.com/hahahawu/Long-to-Short-via-Model-Merging。
近期,大型多模态模型(LMMs)在自动驾驶系统(ADS)中的应用展现出显著潜力。然而,其直接应用于ADS仍面临诸多挑战,如对交通知识的误解、复杂的道路条件以及车辆状态的多样性。为应对这些挑战,我们提出采用知识编辑技术,该技术能够在不需全面重新训练的情况下,对模型行为进行针对性调整。同时,我们推出了ADS-Edit,这是一个专为ADS设计的多模态知识编辑数据集,涵盖了多种现实场景、多样化的数据类型及全面的评估指标。通过一系列详尽的实验,我们得出了若干富有启发性的结论。我们期望本工作能推动知识编辑技术在自动驾驶领域的进一步应用与发展。相关代码与数据已公开于https://github.com/zjunlp/EasyEdit。
过程监督奖励模型作为一种细粒度功能,为模型响应提供详细的逐步反馈,有助于在复杂任务中有效选择推理路径。尽管具有这些优势,对过程奖励模型(PRMs)的评估仍较少被探索,尤其是在多模态领域。为填补这一空白,本文首先将当前视觉大语言模型(VLLMs)作为两种奖励模型进行基准测试:输出奖励模型(ORMs)和过程奖励模型(PRMs),在多个视觉语言基准上的测试表明,无论是ORM还是PRM都无法在所有任务中持续领先,且性能更优的VLLMs未必能带来更好的奖励效果。为进一步推进评估,我们引入了ViLBench,这是一个设计用于需要密集过程奖励信号的视觉语言基准。值得注意的是,OpenAI的GPT-4o结合思维链(CoT)仅达到27.3%的准确率,显示出该基准对当前VLLMs的挑战性。最后,我们初步展示了一条弥合通用VLLMs与奖励模型之间差距的可行路径——通过使用增强的树搜索算法收集73.6K视觉语言过程奖励数据,我们的3B模型在ViLBench上相较于标准CoT平均提升了3.3%,与未训练版本相比最高提升2.5%,通过筛选OpenAI o1的生成结果实现。我们在https://ucsc-vlaa.github.io/ViLBench上发布了实现代码、模型及数据。
计算机视觉模型已被证明在多种数据集和任务中表现出并放大了偏见。现有的量化分类模型偏见的方法主要关注数据集分布和模型在子群体上的表现,而忽视了模型的内部工作机制。我们引入了注意力交并比(Attention-IoU)指标及其相关评分,这些指标利用注意力图来揭示模型内部表征中的偏见,并识别可能导致偏见的图像特征。首先,我们在合成的Waterbirds数据集上验证了Attention-IoU,证明该指标能够准确衡量模型偏见。随后,我们分析了CelebA数据集,发现Attention-IoU揭示了超出准确率差异的相关性。通过对“男性”这一受保护属性的个别属性进行考察,我们探讨了CelebA中偏见的不同表现形式。最后,通过对训练集进行子采样以改变属性相关性,我们展示了Attention-IoU能够揭示数据标签中未出现的潜在混淆变量。
在众多机器人及虚拟/增强现实应用中,快速相机运动导致严重的运动模糊,使得现有相机姿态估计方法失效。本研究中,我们提出了一种创新框架,将运动模糊视为运动估计的丰富线索,而非需要消除的干扰。我们的方法通过直接从单张运动模糊图像预测密集运动流场和单目深度图来实现。随后,在小运动假设下,通过求解线性最小二乘问题恢复瞬时相机速度。本质上,我们的方法生成了一种类似IMU的测量值,能够稳健捕捉快速且剧烈的相机运动。为训练模型,我们构建了一个大规模数据集,其中包含基于ScanNet++v2生成的逼真合成运动模糊,并通过使用完全可微分的管道在真实数据上进行端到端训练,进一步优化模型。在现实世界基准上的广泛评估表明,我们的方法在角速度和线速度估计上达到了业界领先水平,超越了如MASt3R和COLMAP等现有方法。
知识蒸馏作为一种成本效益显著的技术,能够从大型语言模型中提炼知识,前提是教师模型的输出logits可以被预先计算并缓存。然而,将其成功应用于预训练阶段仍是一个尚未充分探索的领域。在本研究中,我们证实了诸如缓存Top-K概率这类直观的稀疏知识蒸馏方法,虽然简单,却会导致学生模型对教师概率分布的估计产生偏差,从而造成性能与校准效果不佳。为此,我们提出了一种基于重要性采样的方法——“随机采样知识蒸馏”,该方法能够提供无偏估计,在期望上保持梯度不变,并且只需存储更为稀疏的logits。与基于交叉熵的训练相比,我们的方法使学生模型的训练速度显著提升,额外开销极小(<10%),同时在模型规模从300M到3B的广泛范围内,保持了与完整蒸馏相媲美的性能表现。
近期,自回归模型和扩散模型的进展在生成包含简短场景文本的图像方面表现出色。然而,对于当前生成模型而言,在图像中生成连贯的长文本(如幻灯片或文档中的段落)仍是一个重大挑战。我们首次提出了专注于长文本图像生成的研究,填补了现有文本到图像系统通常仅处理简短短语或单句的空白。通过对最先进的自回归生成模型进行全面分析,我们发现图像分词器是影响文本生成质量的关键瓶颈。为此,我们引入了一种新颖的、专注于文本的二进制分词器,优化了捕捉详细场景文本特征的能力。基于该分词器,我们开发了\模型名称,一种多模态自回归模型,在生成高质量长文本图像方面表现出前所未有的保真度。我们的模型提供了强大的可控性,支持自定义文本属性,如字体样式、大小、颜色和对齐方式。大量实验表明,\模型名称~在准确、一致且灵活地生成长文本方面显著优于SD3.5 Large~sd3和GPT4o~gpt4o与DALL-E 3~dalle3。除了技术成就外,\模型名称~还为创新应用开辟了令人兴奋的机会,如交错文档和PowerPoint生成,确立了长文本图像生成的新前沿。
强化学习(RL)是大语言模型(LLM)后训练中的关键组成部分。然而,现有用于后训练的同策略算法本质上与经验回放缓冲区的使用不兼容,而后者可通过分布式异策略参与者大规模填充,以在计算资源增加时增强探索能力。我们提出通过异步轨迹平衡(TBA)高效地获取回放缓冲区的这一优势,TBA是一个高度可扩展的LLM RL系统。与现有方法相比,TBA将更大比例的计算资源用于搜索,持续为中心回放缓冲区生成异策略数据。训练节点同时基于奖励或时效性从该缓冲区采样数据,利用轨迹平衡(TB)更新策略,TB是为GFlowNets引入的一种追求多样性的RL目标。TBA具备三大优势:(1)解耦训练与搜索,将训练挂钟时间加速4倍或更多;(2)通过大规模异策略采样提升多样性;(3)在稀疏奖励设置下实现可扩展搜索。在数学推理、偏好调优及自动化红队测试(多样且具代表性的后训练任务)上,TBA相较于强基线模型,均展现出速度与性能的双重提升。
类别级别的3D/6D姿态估计是实现全面3D场景理解的关键步骤,这将推动机器人和具身AI领域的广泛应用。近期研究探索了从分析合成视角出发的神经网格模型,用于处理一系列2D和3D任务。尽管这些方法在应对部分遮挡和领域转移方面显著增强了鲁棒性,但它们严重依赖3D标注进行部分对比学习,这限制了其适用类别范围,并阻碍了高效扩展。在本研究中,我们提出了DINeMo,一种无需3D标注即可训练的新型神经网格模型,它通过利用大型视觉基础模型获得的伪对应关系进行学习。我们采用了一种双向伪对应生成方法,该方法结合局部外观特征与全局上下文信息来生成伪对应。在汽车数据集上的实验结果表明,DINeMo在零样本和少样本3D姿态估计任务上大幅超越先前方法,将与全监督方法的差距缩小了67.3%。此外,DINeMo在训练过程中融入更多未标注图像时,展现出高效且有效的扩展能力,凸显了其相较于依赖3D标注的监督学习方法的优势。我们的项目页面可通过https://analysis-by-synthesis.github.io/DINeMo/访问。
视频中的运动估计是计算机视觉领域的一个核心问题,具有广泛的下游应用,包括可控视频生成和机器人技术。当前的解决方案主要依赖于合成数据进行训练,或需要针对特定情境调整启发式规则,这本质上限制了这些模型在现实世界场景中的能力。尽管近年来在大规模视频自监督学习方面取得了进展,但如何利用这些表示进行运动估计仍相对未被充分探索。在本研究中,我们开发了Opt-CWM,一种基于预训练下一帧预测模型的自监督技术,用于光流和遮挡估计。Opt-CWM通过学习优化反事实探针,从基础视频模型中提取运动信息,从而避免了固定启发式规则的需求,并能在无限制的视频输入上进行训练。我们在无需标注数据的情况下,实现了对真实世界视频运动估计的最先进性能。
基于分数或扩散模型生成高质量表格数据,其表现超越了基于GAN和VAE的模型。然而,这些方法需要大量的训练时间。本文中,我们提出了RecTable,它采用在文本到图像生成和文本到视频生成等领域应用的整流流建模技术。RecTable具有简洁的架构,仅由少量堆叠的门控线性单元块构成。此外,我们的训练策略同样简洁,融合了混合类型噪声分布和对数正态时间步分布。实验表明,与多种最先进的扩散和分数模型相比,RecTable在保持竞争力的同时显著减少了所需的训练时间。我们的代码已发布于https://github.com/fmp453/rectable。
文档结构分析,亦称文档布局分析,对于理解文档的物理布局与逻辑结构至关重要,服务于信息检索、文档摘要、知识提取等任务。层次化文档结构分析(HDSA)特别致力于恢复使用具有层次化模式的创作软件所创建文档的层次结构。以往研究主要遵循两种路径:一是孤立地处理HDSA的特定子任务,如表格检测或阅读顺序预测;二是采用统一框架,通过多个分支或模块分别应对不同任务。在本研究中,我们提出了一种针对HDSA的统一关系预测方法,命名为UniHDSA,它将各类HDSA子任务视为关系预测问题,并将关系预测标签整合至统一标签空间。这使得单一关系预测模块能够同时处理多项任务,无论是页面级还是文档级结构分析。为验证UniHDSA的有效性,我们开发了一个基于Transformer架构的多模态端到端系统。大量实验结果表明,我们的方法在层次化文档结构分析基准Comp-HRDoc上达到了最先进的性能,并在大规模文档布局分析数据集DocLayNet上取得了竞争性成绩,充分展示了该方法在所有子任务上的优越性。Comp-HRDoc基准及UniHDSA的配置已公开于https://github.com/microsoft/CompHRDoc。
在计算病理学中,乳腺癌生存预测因肿瘤异质性而面临显著挑战。例如,同一肿瘤在病理图像的不同区域可能展现出截然不同的形态学和分子特征,这使得从全切片图像(WSIs)中提取真正反映肿瘤侵袭潜力和可能生存结果的特征变得困难。本文提出PathoHR,一种新颖的乳腺癌生存预测流程,通过增强任意尺寸的病理图像,实现更有效的特征学习。我们的方法包括:(1)引入即插即用的高分辨率视觉Transformer(ViT)以提升WSI局部区域的表示能力,从而进行更细致全面的特征提取;(2)系统评估多种先进的相似性度量方法,用于比较WSI提取的特征,优化表示学习过程以更好地捕捉肿瘤特性;(3)证明遵循所提流程增强后的较小图像块,相比原始较大图像块,能达到同等或更优的预测精度,同时显著降低计算开销。实验结果验证,PathoHR通过整合增强的图像分辨率与优化的特征学习,为推进计算病理学提供了潜在途径,为更准确高效的乳腺癌生存预测指明了有前景的方向。代码将发布于https://github.com/AIGeeksGroup/PathoHR。
传统写作助手(如Grammarly、Microsoft Copilot)通常通过运用句法和语义的多样性来描述图像元素,从而生成多样化的图像标题。然而,人类撰写的标题更注重在视觉描述之外,借助语用线索传达核心信息。为了提升语用多样性,探索与视觉内容相结合的其他信息传达方式至关重要。针对这一挑战,我们提出了RONA,一种新颖的多模态大语言模型(MLLM)提示策略,它利用连贯关系作为变化轴。我们证明,与跨多个领域的MLLM基线相比,RONA生成的标题在整体多样性和与真实情况的契合度上表现更优。我们的代码已公开于:https://github.com/aashish2000/RONA。