每日精选AI研究论文及翻译
长上下文自回归建模在语言生成领域取得了显著进展,但视频生成仍难以充分利用扩展的时间上下文。为探究长上下文视频建模,我们引入了帧自回归(Frame AutoRegressive, FAR),作为视频自回归建模的强大基线。正如语言模型学习词元间的因果依赖关系(即Token AR),FAR模型则建模连续帧间的时间因果依赖,实现了比Token AR和视频扩散变换器更优的收敛性。基于FAR,我们观察到长上下文视觉建模面临视觉冗余的挑战。现有的RoPE缺乏对远程上下文的有效时间衰减,且难以良好外推至长视频序列。此外,长视频训练计算成本高昂,因为视觉词元的增长速度远超语言词元。为解决这些问题,我们提出平衡局部性与长程依赖。我们引入了FlexRoPE,一种在测试时向RoPE添加灵活时间衰减的技术,使其能够外推至16倍长的视觉上下文。进一步,我们提出了长短上下文建模,其中高分辨率的短期上下文窗口确保了细粒度的时间一致性,而无限长的长期上下文窗口则用更少的词元编码长程信息。通过这种方法,我们能够在可管理的词元上下文长度下训练长视频序列。我们展示了FAR在短视频和长视频生成中均达到了最先进的性能,为视频自回归建模提供了一个简单而有效的基线。
高分辨率视觉细节感知对于日常任务至关重要。然而,当前的视觉预训练仍受限于低分辨率(如378×378像素),这是由于处理更大图像所需的二次方计算成本。我们提出了PS3,它能够以近乎恒定的成本将CLIP风格的视觉预训练扩展至4K分辨率。PS3不再基于全局图像表示进行对比学习,而是通过选择性处理局部区域并与局部详细描述进行对比来进行预训练,从而在显著降低计算开销的同时实现高分辨率表示学习。预训练后的PS3既能以低分辨率编码全局图像,又能根据显著性或与文本提示的相关性选择性处理局部高分辨率区域。将PS3应用于多模态大语言模型(MLLM)时,所得模型命名为VILA-HD,相较于AnyRes和S^2等未进行高分辨率视觉预训练的基线模型,VILA-HD显著提升了高分辨率视觉感知能力,同时使用的token数量最多减少了4.3倍。PS3还解锁了VILA-HD的诱人扩展特性,包括免费提升分辨率和通过增加测试时计算量以获得更好性能。与现有技术相比,VILA-HD在多个基准测试中超越了NVILA和Qwen2-VL等先前的MLLM,并且在效率上优于最新的token剪枝方法。最后,我们发现当前基准测试并不需要4K分辨率感知,这促使我们提出了4KPro,这是一个新的4K分辨率图像问答基准测试,在该测试中,VILA-HD超越了所有先前的MLLM,包括对GPT-4o的14.5%提升,以及对Qwen2-VL的3.2%提升和2.96倍加速。
我们提出了一种针对预训练流模型的推理时缩放方法。近年来,推理时缩放在大语言模型和扩散模型中获得了广泛关注,通过利用额外的计算资源,提升了样本质量或更好地使输出与用户偏好对齐。对于扩散模型而言,粒子采样因其在中间去噪步骤中的随机性,实现了更高效的缩放。相比之下,尽管流模型作为扩散模型的替代方案日益流行——在顶尖的图像和视频生成模型中提供了更快的生成速度与高质量输出——但由于其确定性生成过程,适用于扩散模型的高效推理时缩放方法无法直接应用于流模型。为了在流模型中实现高效的推理时缩放,我们提出了三个核心构想:1)基于SDE(随机微分方程)的生成,使流模型能够进行粒子采样;2)插值转换,扩大搜索空间并增强样本多样性;3)滚动预算强制(RBF),一种跨时间步自适应分配计算资源以最大化预算利用的方法。实验表明,基于SDE的生成,特别是基于方差保持(VP)插值的生成,提升了流模型中粒子采样方法在推理时缩放的性能。此外,我们证明了结合VP-SDE的RBF方法达到了最佳性能,超越了所有先前的推理时缩放策略。
大型多模态模型(LMMs)的幻觉问题,即提供看似正确实则错误的回答,限制了其可靠性和应用范围。本文旨在研究LMMs在视频模态中的幻觉问题,相较于静态模态如图像和文本,视频模态更为动态且更具挑战性。基于此动机,我们首先提出了一个全面的基准测试HAVEN,用于评估LMMs在视频理解任务中的幻觉现象。该基准从三个维度构建,即幻觉成因、幻觉表现及问题形式,共包含6K个问题。随后,我们通过16个LMMs在基准上的实验,定量研究了影响幻觉的7个关键因素,如视频时长、模型规模及模型推理能力等。此外,受OpenAI o1等最新思维模型启发,我们提出了一种视频思维模型,通过监督推理微调(SRFT)和直接偏好优化(TDPO)来缓解LMMs的幻觉问题——其中SRFT增强推理能力,而TDPO则在思维过程中减少幻觉。大量实验与分析验证了该模型的有效性。显著的是,它在幻觉评估的准确率上较基线提升了7.65%,并将偏差分数降低了4.5%。代码与数据已公开于https://github.com/Hongcheng-Gao/HAVEN。
预训练视觉基础模型(VFMs)为广泛的应用提供了强大的视觉表征。本文中,我们以多模态方式持续预训练主流VFMs,使其能够轻松处理不同尺寸的视觉输入,并生成与语言表征更为对齐的视觉表征,无论其原始预训练过程如何。为此,我们引入了CoMP,一个精心设计的多模态预训练流程。CoMP采用持续旋转位置嵌入以支持原生分辨率的持续预训练,并通过语言原型在视觉与文本特征间引入对齐损失,以实现多模态表征的对齐。通过三阶段训练,我们的VFMs不仅在多模态理解上取得了显著提升,还在分类和分割等其他下游任务中表现优异。值得注意的是,CoMP-SigLIP在配备0.5B大语言模型的情况下,于ChartQA和DocVQA上分别获得了66.7和75.9的分数,同时在冻结块评估下,在ImageNet-1K上保持了87.4%的准确率,在ADE20K上达到了49.5的mIoU。
近期,大型语言模型(LLMs)如OpenAI-o1和DeepSeek-R1的进展,展示了测试时扩展的有效性,其中延长的推理过程显著提升了模型性能。尽管如此,当前模型在处理长文本和强化学习(RL)训练效率方面仍存在局限。为解决这些问题,我们提出了一种简单而有效的测试时扩展方法——多轮思考。该方法通过利用前一轮答案作为后续轮次的提示,迭代优化模型推理。在包括QwQ-32B和DeepSeek-R1在内的多个模型上进行的大量实验,一致显示在AIME 2024、MATH-500、GPQA-diamond和LiveCodeBench等多个基准上的性能提升。例如,QwQ-32B在AIME 2024数据集上的准确率从第一轮的80.3%提升至第二轮的82.1%,而DeepSeek-R1也表现出类似的增长,从79.7%增至82.0%。这些结果证实,多轮思考是一种广泛适用、直接的方法,能够实现模型性能的稳定提升,凸显了其在未来测试时扩展技术发展中的潜力。关键提示:{原始问题提示} 助手的上一轮回答是:<答案> {上一轮答案} </答案>,请重新作答。
随着人工智能生成内容(AIGC)技术的飞速发展,合成图像在日常生活中日益普及,为真实性评估与检测带来了新的挑战。尽管现有方法在评估图像真实性和定位伪造方面效果显著,但这些方法往往缺乏人类可解释性,且未能充分应对合成数据日益增长的复杂性。为应对这些挑战,我们推出了FakeVLM,这是一款专为通用合成图像及DeepFake检测任务设计的大型多模态模型。FakeVLM不仅在区分真实与伪造图像方面表现出色,还能为图像伪影提供清晰、自然的语言解释,增强了可解释性。此外,我们发布了FakeClue,这是一个包含超过10万张图像的综合数据集,涵盖七个类别,并以自然语言标注了细粒度的伪影线索。FakeVLM在性能上可与专家模型相媲美,同时无需额外分类器,成为合成数据检测的强有力解决方案。跨多个数据集的广泛评估证实了FakeVLM在真实性分类和伪影解释任务中的优越性,为合成图像检测设立了新标杆。数据集与代码将发布于:https://github.com/opendatalab/FakeVLM。
文档问答(DocQA)是一项非常常见的任务。现有方法通常采用大型语言模型(LLMs)或大型视觉语言模型(LVLMs)以及检索增强生成(RAG),往往偏重于单一模态的信息,未能有效整合文本与视觉线索。这些方法在处理复杂的多模态推理时表现欠佳,限制了其在现实世界文档上的性能。我们提出了MDocAgent(一种多模态多代理框架用于文档理解),这是一种新颖的RAG和多代理框架,充分利用了文本和图像信息。我们的系统配备了五个专门代理:通用代理、关键代理、文本代理、图像代理和总结代理。这些代理进行多模态上下文检索,结合各自的见解,实现对文档内容更全面的理解。这种协作方式使系统能够综合文本和视觉组件的信息,从而在问答准确性上取得提升。在MMLongBench、LongDocURL等五个基准上的初步实验证明了MDocAgent的有效性,相比当前最先进方法平均提升了12.1%。本工作为开发更强大、更全面的DocQA系统做出了贡献,这些系统能够处理包含丰富文本和视觉信息的现实世界文档的复杂性。我们的数据和代码可在https://github.com/aiming-lab/MDocAgent获取。
大型语言模型(LLMs)在推理方面展现了卓越的能力,OpenAI-o1和DeepSeek-R1的成功便是明证。然而,将推理与外部搜索过程相结合仍具挑战性,特别是对于需要多次检索步骤的复杂多跳问题。我们提出了ReSearch,一个新颖的框架,它通过强化学习训练LLMs进行搜索推理,而无需任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链的组成部分,其中何时及如何执行搜索由基于文本的思考引导,而搜索结果随后影响进一步的推理。我们在Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型上训练ReSearch,并进行了广泛的实验。尽管仅在一个数据集上训练,我们的模型在多个基准测试中展现了强大的泛化能力。分析表明,ReSearch在强化学习过程中自然激发了如反思和自我修正等高级推理能力。
组合图像检索(Composed Image Retrieval, CIR)是一项旨在基于多模态查询检索图像的复杂任务。典型的训练数据由包含参考图像、期望修改的文本描述及目标图像的三元组构成,这些数据的获取既昂贵又耗时。CIR数据集的稀缺性催生了利用合成三元组或借助网络爬取的图像-标题对进行零样本学习的方法。然而,这些方法存在显著局限:合成三元组受限于规模小、多样性不足及修改文本不自然,而图像-标题对由于缺乏三元组数据,阻碍了多模态查询的联合嵌入学习。此外,现有方法在处理需要视觉与语言模态深度融合与理解的复杂且细腻的修改文本时表现欠佳。我们提出了CoLLM,一个一站式框架,有效解决了上述问题。我们的方法从图像-标题对中即时生成三元组,实现了无需人工标注的监督训练。我们利用大语言模型(LLMs)生成参考图像与修改文本的联合嵌入,促进了更深层次的多模态融合。同时,我们引入了多文本CIR(MTCIR)数据集,包含340万样本,并优化了现有CIR基准(CIRR和Fashion-IQ),以提升评估的可靠性。实验结果显示,CoLLM在多个CIR基准和设置下均达到了最先进的性能。MTCIR取得了具有竞争力的结果,性能提升最高达15%。我们优化的基准为CIR模型提供了更可靠的评估指标,推动了这一重要领域的发展。
本文提出了一种新颖的框架LSRNA,通过在潜在空间直接进行超分辨率处理,实现了更高分辨率(超过1K)的图像生成。现有的扩散模型在超越其训练分辨率时往往会出现结构失真或内容重复的问题。基于参考的方法通过上采样低分辨率参考图像来指导高分辨率生成,从而解决这些问题。然而,这些方法面临显著挑战:在潜在空间上采样通常会导致流形偏差,从而降低输出质量;而在RGB空间上采样则容易产生过度平滑的输出。为了克服这些限制,LSRNA结合了潜在空间超分辨率(LSR)以实现流形对齐,以及区域噪声添加(RNA)以增强高频细节。我们的大量实验表明,集成LSRNA在各种分辨率和指标上均优于最先进的基于参考的方法,同时揭示了潜在空间上采样在保持细节和锐度方面的关键作用。代码可在https://github.com/3587jjh/LSRNA获取。
知识发现与收集是智力密集型任务,传统上需要大量人力投入以确保高质量输出。近期研究探索了多智能体框架,通过从互联网检索并整合信息来自动生成维基百科风格的文章。然而,这些方法主要集中于纯文本生成,忽视了多模态内容在提升信息丰富度和吸引力方面的重要性。本研究中,我们引入了WikiAutoGen,一个用于自动化生成多模态维基百科风格文章的新颖系统。与以往方法不同,WikiAutoGen不仅检索并整合相关文本,还融合了相关图像,从而丰富了生成内容的深度与视觉吸引力。为进一步提升事实准确性与全面性,我们提出了一种多视角自我反思机制,该机制从多个角度批判性评估检索到的内容,以增强其可靠性、广度及连贯性等。此外,我们推出了WikiSeek基准,该基准包含配以文本和图像表示的维基百科文章主题,旨在评估更具挑战性主题下的多模态知识生成能力。实验结果表明,WikiAutoGen在我们的WikiSeek基准上较之前方法提升了8%-29%,生成了更为准确、连贯且视觉上更为丰富的维基百科风格文章。部分生成示例展示于https://wikiautogen.github.io/。
当前视频生成基础模型主要集中于文本到视频的任务,在细粒度视频内容创作方面提供的控制较为有限。尽管基于适配器的方法(如ControlNet)通过最小化微调实现了额外控制,但在整合多重条件时仍面临挑战,包括:独立训练的适配器之间的分支冲突、参数冗余导致计算成本增加,以及相比全量微调表现欠佳。为解决这些难题,我们提出了FullDiT,一个统一的基础视频生成模型,它通过统一的全注意力机制无缝整合多重条件。通过将多任务条件融合为统一的序列表示,并利用全自注意力机制的长上下文学习能力捕捉条件动态,FullDiT减少了参数开销,避免了条件冲突,展现了可扩展性和涌现能力。我们还引入了FullBench用于多任务视频生成评估。实验证明,FullDiT取得了最先进的成果,凸显了全注意力机制在复杂多任务视频生成中的有效性。
从单视角图像生成高质量的人头360度视图,对于实现便捷的沉浸式远程呈现应用和可扩展的个性化内容创作至关重要。尽管当前最先进的全头生成方法仅限于建模逼真的人头,而最新的基于扩散的风格全知头部合成技术仅能生成正面视图,且在视角一致性上存在困难,阻碍了其转化为可从任意角度渲染的真实3D模型。我们提出了一种创新方法,能够生成完全一致的360度头部视图,适用于人类、风格化及拟人化形态,包括眼镜和帽子等配饰。该方法基于DiffPortrait3D框架,融入了一个定制ControlNet用于后脑细节生成,以及一个双重外观模块以确保全局前后一致性。通过对连续视角序列的训练并结合后部参考图像,我们的方法实现了稳健、局部连续的视角合成。该模型可用于生成高质量的神经辐射场(NeRFs),支持实时自由视点渲染,在极具挑战性的输入肖像下,于物体合成和360度头部生成方面超越了现有最先进方法。
利用3D资产进行场景生成是一项复杂的挑战,既需要高层次的语义理解,又需低层次的几何推理。尽管多模态大语言模型(MLLMs)在语义任务上表现出色,但其在3D场景生成中的应用却受限于对3D几何的有限理解。本文探讨了如何在物体布局任务中最佳地运用MLLMs。为此,我们提出了一个新颖的框架——FirePlace,该框架将现有MLLMs应用于:(1) 3D几何推理及从3D场景中提取相关几何细节,(2) 构建并解决基于提取的低层次几何的约束条件,以及(3) 筛选出符合常识的最终布局方案。通过将几何推理与MLLMs对现实世界的理解相结合,我们的方法能够提出既满足几何约束又兼顾高层次语义常识考量的物体布局方案。实验结果表明,这些能力使我们的方法在具有复杂几何结构的场景中更有效地布置物体,超越了先前工作的质量。
创建现实世界物体的物理数字孪生体在机器人技术、内容创作和扩展现实(XR)领域具有巨大潜力。本文介绍了一种名为PhysTwin的创新框架,该框架利用交互中动态物体的稀疏视频,生成照片级真实感且物理逼真的实时交互虚拟复制品。我们的方法围绕两个核心组件展开:(1)一种物理信息表示法,结合了弹簧-质量模型以实现逼真的物理模拟,生成式形状模型用于几何构建,以及高斯样条用于渲染;(2)一种新颖的多阶段、基于优化的逆向建模框架,能够从视频中重建完整几何结构,推断密集物理属性,并复制真实外观。我们的方法将逆向物理框架与视觉感知线索相结合,即使在部分遮挡和视角受限的情况下,也能实现高保真重建。PhysTwin支持建模多种可变形物体,包括绳索、毛绒玩具、布料和快递包裹。实验表明,PhysTwin在重建、渲染、未来预测及新交互下的模拟方面均优于竞争方法。我们进一步展示了其在交互式实时仿真和基于模型的机器人运动规划中的应用。
微调使大型语言模型(LLMs)能够适应特定领域,但往往会削弱其先前建立的安全对齐。为了缓解微调过程中模型安全性的退化,我们引入了前瞻调优(LookAhead Tuning),它包含两种简单、低资源且有效的数据驱动方法,通过预览部分答案前缀来修改训练数据。这两种方法旨在通过最小化对初始令牌分布的扰动,来保持模型固有的安全机制。全面的实验表明,前瞻调优在有效维护模型安全性的同时,不牺牲下游任务的稳健性能。我们的研究结果将前瞻调优定位为一种可靠且高效的解决方案,用于LLMs的安全有效适应。代码已发布于https://github.com/zjunlp/LookAheadTuning。
现代大型语言模型(LLMs)在高效更新方面面临挑战,因为每个新预训练模型版本都需要重复昂贵的对齐过程。这一挑战同样适用于特定领域或语言的模型,其中针对专业数据的微调必须在每次新基础模型发布时重新进行。本文探讨了模型版本间微调更新的迁移。具体而言,我们从一个源模型版本中提取差异向量,该向量代表微调带来的权重变化,并将其应用于不同目标版本的基础模型。通过对多个开源权重模型版本的实证评估,我们展示了迁移差异向量能显著提升目标基础模型,通常能达到与其微调版本相当的性能。例如,重用Llama 3.0 8B的微调更新,在无需额外训练的情况下,使GPQA上的绝对准确率比基础Llama 3.1 8B提高了10.7%,超越了Llama 3.1 8B Instruct。在多语言模型开发场景中,我们展示了该方法无需重新训练即可显著提升目标语言任务的表现,与Llama 3.1 8B Instruct相比,在Global MMLU上对马达加斯加语和土耳其语分别实现了4.7%和15.5%的绝对提升。我们的控制实验表明,当源模型和目标模型在参数空间中线性连接时,微调迁移最为有效。此外,我们证明了微调迁移为后续微调提供了一个更强且计算效率更高的起点。最后,我们提出了一种迭代的“回收-再微调”方法,用于持续模型开发,既提高了效率又增强了效果。我们的研究结果表明,微调迁移是一种可行的策略,能在保持模型性能的同时降低训练成本。
我们提出了一种新颖的方法,仅需少量图像即可重建具有逼真动画效果的个性化3D人体化身。由于人体形态、姿势和衣物类型存在巨大差异,现有方法大多需要在推理过程中进行数小时的逐对象优化,这限制了其实际应用。相比之下,我们从上千名着装人体中学习通用先验知识,实现了即时前馈生成和零样本泛化。具体而言,我们不再为化身分配共享的蒙皮权重,而是联合推断个性化化身形状、蒙皮权重及姿势依赖的形变,从而有效提升了整体几何保真度并减少了形变伪影。此外,为了归一化姿势变化并解决规范形状与蒙皮权重之间的耦合模糊性,我们设计了一种3D规范化过程,以生成像素对齐的初始条件,这有助于重建精细的几何细节。随后,我们提出了一种多帧特征聚合方法,稳健地减少了规范化过程中引入的伪影,并融合出一个保留个人特征的合理化身。最后,我们在一个包含多样化人体对象与高质量3D扫描配对的大规模捕捉数据集上,以端到端框架训练模型。大量实验表明,我们的方法比现有技术生成了更为真实的重建与动画效果,并能直接推广至手机随手拍摄的输入。项目页面及代码可在https://github.com/rongakowang/FRESA获取。
具备长上下文窗口的大型语言模型(LLMs)虽能实现强大应用,却需付出高内存消耗的代价,以存储键值状态(KV缓存)。近期研究尝试将多层KV缓存合并为共享表示,但这些方法要么需要昂贵的预训练,要么依赖于层间高余弦相似度的假设,而这一假设在实践中往往不成立。我们发现,KV缓存中主导的奇异向量在多层间表现出极佳的对齐性。基于这一洞察,我们提出了xKV,一种简单的训练后方法,对分组层的KV缓存应用奇异值分解(SVD)。xKV将多层KV缓存整合到一个共享的低秩子空间中,显著减少了KV缓存的大小。通过在RULER长上下文基准测试上对广泛使用的LLMs(如Llama-3.1和Qwen2.5)进行广泛评估,xKV实现了比最先进的层间技术高达6.8倍的压缩率,同时准确率提升了2.7%。此外,xKV与新兴的多头潜在注意力机制(MLA,如DeepSeek-Coder-V2)兼容,在编码任务上实现了显著的3倍压缩率,且无性能损失。这些结果凸显了xKV在解决长上下文LLM推理内存瓶颈方面的强大能力和多功能性。我们的代码已公开于:https://github.com/abdelfattah-lab/xKV。
在连续单纯形中进行流匹配已成为DNA序列设计的一种有前景的策略,但在扩展到肽和蛋白质生成所需的高维单纯形时面临挑战。我们引入了基于新颖Gumbel-Softmax插值(具有时间依赖性温度)的生成框架——Gumbel-Softmax流匹配与得分匹配。利用这一插值,我们通过推导参数化速度场,实现了从平滑分类分布到集中于单纯形单一顶点的分布的传输,从而提出了Gumbel-Softmax流匹配。此外,我们还提出了Gumbel-Softmax得分匹配,该方法学习回归概率密度的梯度。我们的框架支持高质量、多样化的生成,并能高效扩展至高维单纯形。为实现无需训练的引导,我们提出了直通引导流(STGFlow),这是一种基于分类器的引导方法,利用直通估计器将无条件速度场导向单纯形的最优顶点。STGFlow能够利用预训练于纯净序列上的分类器进行高效的推理时引导,并可与任何离散流方法结合使用。这些组件共同构成了一个强大的可控从头序列生成框架。我们在条件性DNA启动子设计、仅基于序列的蛋白质生成以及针对罕见病治疗的靶向结合肽设计中展示了最先进的性能。
在热红外视频中检测和追踪多架无人机(UAV)本质上具有挑战性,主要由于低对比度、环境噪声以及目标尺寸较小。本文提出了一种直接的方法来解决热红外视频中的多无人机追踪问题,利用了检测与追踪领域的最新进展。不同于依赖YOLOv5与DeepSORT的组合,我们构建了一个基于YOLOv12和BoT-SORT的追踪框架,并通过定制化的训练与推理策略进行了增强。我们依据第四届反无人机挑战赛的指标评估了该方法,并展示了其具有竞争力的性能。值得注意的是,我们未采用对比度增强或时域信息融合来丰富无人机特征,却取得了优异成果,这凸显了我们的方法作为多无人机追踪任务的“强基线”地位。文中提供了实现细节、深入的实验分析以及对潜在改进的讨论。代码已公开于https://github.com/wish44165/YOLOv12-BoT-SORT-ReID。
具身决策对于在现实环境中运作的AI代理至关重要。尽管视觉语言模型(VLMs)已在这一能力上取得进展,它们仍难以应对复杂决策,尤其是在需要深入理解人类需求与价值观的人本情境中。本研究系统评估了开源VLMs在多模态人本决策任务上的表现。我们发现,仅接收文本描述的大型语言模型(LLMs)意外地超越了处理实际图像的同等规模VLMs,这表明视觉对齐可能限制了VLMs的能力。为应对这一挑战,我们提出了一种新颖的纯文本训练方法,利用合成文本数据强化VLMs的语言组件,并将习得能力迁移至多模态推理,从而无需昂贵的图文配对数据。此外,我们证明VLMs通过自我改进能实现显著性能提升,即利用其LLM对应模型生成的训练数据,而非依赖如GPT-4等更大的教师模型。我们的研究为增强VLMs的人本决策能力确立了一种更高效、可扩展的途径,通过自我改进机制优化VLMs开辟了新路径。
地球观测(EO)基础模型的进展释放了大规模卫星数据的潜力,使其能够从太空中学习通用表征,从而惠及对地球至关重要的广泛下游应用。然而,现有研究大多局限于固定光谱传感器,仅关注地球表面,并忽视了图像之外的有价值元数据。在本研究中,我们朝着下一代EO基础模型迈出了重要一步,提出了三个核心组件:1)Copernicus-Pretrain,一个大规模预训练数据集,整合了来自所有主要哥白尼哨兵任务的1870万张对齐图像,覆盖从地球表面到大气层的全方位观测;2)Copernicus-FM,一个统一的基础模型,通过扩展的动态超网络和灵活的元数据编码,能够处理任何光谱或非光谱传感器模态;3)Copernics-Bench,一个系统化的评估基准,包含15个层次化的下游任务,从预处理到各哨兵任务的专业应用。我们的数据集、模型和基准显著提升了EO基础模型的可扩展性、多功能性和多模态适应性,同时为连接EO、天气和气候研究开辟了新的机遇。代码、数据集和模型可在https://github.com/zhu-xlab/Copernicus-FM获取。
理解人类行为需要对其行为动作进行测量。鉴于行为的复杂性,将其映射到如语言般丰富的语义结构上是最佳选择。近期发展的多模态大语言模型(MLLMs)为广泛的行为理解任务提供了极具潜力的解决方案。本研究中,我们着重于评估并提升MLLMs在动作识别上的表现。我们将EPIC-KITCHENS-100——最大且最具挑战性的第一人称视角动作数据集之一——重构为视频多问题回答形式(EPIC-KITCHENS-100-MQA)。研究表明,当选取难度较高的错误答案作为干扰项时,领先的MLLMs在识别正确动作方面面临困难。我们提出了一系列方法,显著增强了MLLMs的动作识别能力,不仅在EPIC-KITCHENS-100验证集上达到了最新技术水平,还在EPIC-KITCHENS-100-MQA上以21个百分点的准确率优势超越了GPT-4o。最后,我们在EgoSchema、PerceptionTest、LongVideoBench、VideoMME及MVBench等其他动作相关视频基准测试上也展示了改进效果,表明MLLMs在处理复杂动作任务方面是一条充满希望的发展路径。代码与模型已发布于:https://github.com/AdaptiveMotorControlLab/LLaVAction。
我们推出Any6D,一种无需模型的六维物体姿态估计框架,仅需单张RGB-D锚点图像即可估算新场景中未知物体的六维姿态及尺寸。与依赖纹理化三维模型或多视角的现有方法不同,Any6D通过联合物体对齐过程,强化了二维到三维的对齐及度量尺度估计,从而提升了姿态估计的精确度。我们的方法融合了渲染-比较策略,以生成并优化姿态假设,确保在遮挡、非重叠视角、多样光照条件及大范围跨环境变化等复杂场景下仍能保持稳健性能。我们在五个具有挑战性的数据集——REAL275、Toyota-Light、HO3D、YCBINEOAT和LM-O上进行了评估,结果表明,Any6D在新型物体姿态估计方面显著超越了当前最先进的方法,展现了其卓越效能。项目页面:https://taeyeop.com/any6d
视觉语言模型(VLMs)在三维场景理解方面展现出巨大潜力,但主要应用于室内空间或自动驾驶领域,侧重于分割等低层次任务。本研究通过利用多视角航拍图像的三维重建技术,将其应用扩展至城市尺度环境。我们提出了OpenCity3D方法,专注于解决高层次任务,如人口密度估计、建筑年代分类、房产价格预测、犯罪率评估及噪声污染评价。研究结果表明,OpenCity3D在零样本和少样本学习上表现卓越,展现了其对新情境的适应能力。此研究为语言驱动的城市分析确立了新范式,为规划、政策制定及环境监测等领域开辟了应用前景。访问我们的项目页面:opencity3d.github.io。
近年来,AI模型在描述和回答现实世界图像相关问题的能力上取得了显著进展。同时,它们在使用音频输入与用户实时对话方面也取得了进步。这引发了一个问题:我们是否已经达到了这样的阶段,即连接摄像头和麦克风的AI模型能够就摄像头前实时展开的场景和事件与用户进行对话?这一直是AI领域的一个长期目标,也是现实世界AI助手和人形机器人在日常情境中与人类互动的前提条件。在本研究中,我们引入了一个新的数据集和基准——高通互动视频数据集(IVD),用以评估现有模型在多大程度上支持这些能力,以及通过微调能在何种程度上培养这些能力。该数据集基于一个简单的问答设置,用户提出问题,系统需根据摄像头和音频输入实时作答。我们展示了现有模型在此任务上远落后于人类表现,并识别了性能差距的主要来源。然而,我们也表明,对于许多所需的感知技能,基于此类数据的微调能显著缩小这一差距。
利用大型教师模型指导小型学生模型的训练,已成为实现高效学习的主流范式。然而,教师与学生语言模型之间的词汇不匹配问题在语言建模中带来了显著挑战,导致分词序列和输出分布出现偏差。为克服这些限制,我们提出了词汇无关的教师引导语言建模(VocAgnoLM),这一新颖方法通过两种关键策略弥合了词汇不匹配造成的鸿沟:(1)分词级词汇对齐,它在不匹配的词汇表间对齐分词序列;(2)教师引导损失,它利用教师模型的损失来有效指导学生模型的训练。我们通过使用不同词汇表的多种7B教师模型指导1B学生模型进行语言建模,验证了该方法的有效性。值得注意的是,在与TinyLlama仅共享约6%词汇的Qwen2.5-Math-Instruct教师模型上,VocAgnoLM相比简单的持续预训练实现了46%的性能提升。此外,我们证明VocAgNoLM始终能从更强的教师模型中获益,为语言建模中的词汇不匹配问题提供了稳健的解决方案。
尽管动态卷积(DY-Conv)通过结合多个并行权重与注意力机制实现了自适应权重选择,展现出优异的性能,但这些权重的频率响应往往表现出高度相似性,导致高参数成本却适应性有限。本研究提出频率动态卷积(FDConv),一种在傅里叶域内学习固定参数预算的新方法,有效缓解了上述局限。FDConv将该预算划分为基于频率的组,各组拥有互不重叠的傅里叶索引,从而在不增加参数成本的前提下构建出频率多样化的权重。为进一步提升适应性,我们提出了核空间调制(KSM)和频带调制(FBM)。KSM在空间层面上动态调整每个滤波器的频率响应,而FBM则在频域内将权重分解为不同的频带,并根据局部内容进行动态调制。在目标检测、分割和分类任务上的大量实验验证了FDConv的有效性。我们展示,当应用于ResNet-50时,FDConv仅增加+3.6M参数便实现了更优性能,超越了需要大幅增加参数预算的先前方法(如CondConv +90M,KW +76.5M)。此外,FDConv能够无缝集成到包括ConvNeXt、Swin-Transformer在内的多种架构中,为现代视觉任务提供了一个灵活高效的解决方案。代码已公开于https://github.com/Linwei-Chen/FDConv。
我们提出了一种无需训练的开放词汇语义分割方法,该方法利用视觉与语言模型(VLMs)。我们的方法通过标签传播增强VLMs初始的逐块预测,通过整合块间关系共同优化预测结果。鉴于VLMs主要针对跨模态对齐而非模态内相似性进行优化,我们采用了一个视觉模型(VM),该模型被观察到能更好地捕捉这些关系。针对基于块的编码器固有的分辨率限制,我们在像素级别应用标签传播作为细化步骤,显著提升了类别边界附近的分割精度。我们的方法名为LPOSS+,在整个图像上进行推理,避免了基于窗口的处理方式,从而捕捉到全图范围内的上下文交互。LPOSS+在多种数据集上实现了无需训练方法中的最先进性能。代码地址:https://github.com/vladan-stojnic/LPOSS
时空推理在理解现实世界环境中至关重要,广泛应用于自动驾驶和体育分析等多个领域。尽管近期通过引入大规模数据提升了视觉-语言模型(VLMs)的空间推理能力,这些模型在分析运动物体的行进距离和速度等运动学要素时仍显不足。为弥合这一差距,我们构建了一个包含运动学指令调优的时空推理数据集及基准测试,分别命名为STKit和STKit-Bench。该数据集由带有3D标注的真实世界视频组成,详细记录了物体运动动态:行进距离、速度、移动方向、物体间距离比较及相对移动方向。为进一步扩展此类数据至无3D标签的视频,我们提出了一种自动化流程,利用真实世界尺度的4D重建生成伪标签。基于我们的运动学指令调优数据,我们推出了ST-VLM,这是一款专为时空推理增强的VLM,在STKit-Bench上展现了卓越性能。此外,ST-VLM在跨领域和任务中展现出强大的泛化能力,在其他时空基准测试(如ActivityNet、TVQA+)上超越基线模型。最终,通过将学习到的时空推理能力与现有能力相结合,ST-VLM实现了复杂的多步推理。项目页面:https://ikodoh.github.io/ST-VLM。
理解场景的几何与语义特性对于自主导航至关重要,尤其是在无人机(UAV)导航中,这一任务尤为复杂。此类信息可通过估计周围环境的深度图与语义分割图来获取,而为了在自主导航中实际应用,这一过程必须尽可能接近实时完成。本文中,我们利用空中机器人搭载的单目相机,在低空非结构化环境中预测深度与语义图。我们提出了一种联合深度学习架构,能够准确且快速地执行这两项任务,并在MidAir和Aeroscapes基准数据集上验证了其有效性。我们的联合架构在任务执行速度上表现出色,在单个NVIDIA Quadro P5000 GPU上预测速度达到20.2帧每秒,且内存占用低,其性能与单一或其它联合架构方法相比具有竞争力或更优。所有训练与预测代码可通过以下链接获取:https://github.com/Malga-Vision/Co-SemDepth。