每日精选AI研究论文及翻译
自监督学习有望消除手动数据标注的需求,使模型能够轻松扩展到海量数据集和更大规模的架构。由于不针对特定任务或领域进行定制,这一训练范式有潜力通过单一算法从多样化的来源(从自然图像到航拍图像)中学习视觉表示。本技术报告介绍了DINOv3,这是实现这一愿景的重要里程碑,它采用了简单而有效的策略。首先,我们通过精心准备、设计和优化数据,充分利用了数据集和模型规模扩展的优势。其次,我们引入了一种名为Gram锚定的新方法,有效解决了在长时间训练过程中密集特征图退化这一已知但未解决的问题。最后,我们应用了事后策略,进一步增强了模型在分辨率、模型大小以及与文本对齐方面的灵活性。因此,我们提出了一种多功能的视觉基础模型,在无需微调的情况下,在广泛的设置中超越了专门化的最先进模型。DINOv3生成的高质量密集特征在各种视觉任务上表现出色,显著超越了之前的自监督和弱监督基础模型。我们还分享了DINOv3视觉模型套件,旨在通过为不同的资源限制和部署场景提供可扩展的解决方案,推动广泛任务和数据上的技术前沿。
我们探索了大型语言模型(LLMs)作为强化学习(RL)中智能搜索任务高效模拟器的潜力,从而减少对外部搜索引擎昂贵交互的依赖。为此,我们首先通过结构化提示和重复采样量化了LLMs的固有搜索能力,称之为自我搜索(Self-Search)。研究结果显示,LLMs在推理预算方面展现出显著的扩展性,在问答基准测试中,包括具有挑战性的BrowseComp任务,实现了较高的pass@k指标。基于这些观察,我们引入了自我搜索强化学习(SSRL),通过基于格式和基于规则的奖励机制,增强了LLMs的自我搜索能力。SSRL使得模型能够在内部迭代优化其知识利用,无需访问外部工具。实证评估表明,经过SSRL训练的策略模型为搜索驱动的RL训练提供了一个成本效益高且稳定的环境,降低了对搜索引擎的依赖,促进了从模拟到现实的稳健迁移。我们得出以下结论:1)LLMs具备可有效提取的世界知识,以实现高性能;2)SSRL展示了利用内部知识减少幻觉的潜力;3)经过SSRL训练的模型能够无缝集成外部搜索引擎,无需额外努力。我们的发现凸显了LLMs在支持更具可扩展性的RL代理训练方面的潜力。
继OpenAI提出“图像思维”概念后,近期研究致力于探索在推理过程中激发视觉信息的运用,以提升模型在感知与推理任务中的表现。然而,据我们所知,目前尚无开源工作能提供与专有模型(O3)相媲美的丰富功能集,后者既能执行多样化的图像操作,又能通过代码同步增强逻辑推理能力。本文中,我们在此方向上进行了初步尝试,引入了Thyme(超越图像思考),一种新颖的范式,旨在使多模态大语言模型(MLLMs)超越现有的“图像思维”方法,通过可执行代码自主生成并执行多样化的图像处理与计算操作。此方法不仅支持丰富的实时图像处理(如裁剪、旋转、对比度增强),还允许进行数学计算,同时保持高度自主性,决定何时及如何应用这些操作。我们通过两阶段训练策略激活这一能力:首先在精选的50万样本数据集上进行监督微调(SFT),教授代码生成;随后进入强化学习(RL)阶段,以优化决策过程。在RL阶段,我们手动收集并设计高分辨率问答对以增加学习难度,并提出了GRPO-ATS(基于自适应温度采样的群体相对策略优化),该算法对文本与代码生成应用不同温度,以平衡推理探索与代码执行精度。我们进行了广泛的实验分析与消融研究。在近20个基准上的全面评估显示,Thyme在具有挑战性的高分辨率感知与复杂推理任务中,带来了显著且一致的性能提升。
近期在大语言模型(LLM)预训练领域的研究表明,单纯增加数据量最终会导致收益递减,遭遇数据瓶颈。为此,采用合成数据进行预训练已成为推动性能前沿的一种有前景的范式。尽管如此,影响合成数据质量的因素仍鲜为人知。在本研究中,我们推出了BeyondWeb,一个用于生成高质量预训练合成数据的框架。BeyondWeb显著扩展了传统网络规模数据集的能力,在一套包含14项基准测试的评估中,平均分别超越了当前最先进的合成预训练数据集Cosmopedia和Nemotron-CC的高质量合成子集(Nemotron-Synth)高达5.1个百分点(pp)和2.6个百分点。与开放网络数据相比,它实现了高达7.7倍的训练速度提升,与Nemotron-Synth相比也有2.7倍的提升。值得注意的是,一个在BeyondWeb上训练了180B tokens的3B模型,其表现优于在Cosmopedia上以相同token预算训练的8B模型。我们还从BeyondWeb中提炼出关于预训练合成数据的多项洞见:其优势的驱动因素、哪些数据需要改写及如何改写,以及模型大小和系列对数据质量的影响。总体而言,我们的研究表明,生成高质量的预训练合成数据并无单一妙招。最佳成果需要联合优化众多因素,这是一项既需要严谨科学又需实践经验的挑战性任务。简单的方法可能带来有限的改进,却可能付出高昂代价,而执行得当的方法则能带来变革性的提升,BeyondWeb便是明证。
尽管大语言模型(LLM)推理已成为众多下游应用中的关键工作负载,但由于其庞大的内存占用和带宽需求,实现高效推理颇具挑战。与此同时,过去几十年间,计算能力的提升速度持续超越内存容量与带宽的增长,这一趋势在现代GPU硬件中尤为明显,进一步加剧了LLM推理的难度。因此,新兴算法正通过增加计算量来换取内存操作的减少。为此,我们提出了XQuant,它顺应这一趋势,通过低比特量化实现了内存消耗的显著降低,相较于最先进的KV缓存量化方法,在准确性上具有显著优势。我们通过量化并缓存层输入激活值X,而非采用标准的KV缓存,进而在推理过程中动态重构键(Keys)和值(Values),从而实现了相较于KV缓存立即节省2倍内存的效果。应用XQuant后,我们实现了高达约7.7倍的内存节省,且与FP16基线相比,困惑度下降小于0.1。此外,我们的方法利用了X值在层间相似的特点,基于此观察,我们进一步引入了XQuant-CL,它利用X嵌入的跨层相似性进行极致压缩。在不同模型中,XQuant-CL相对于FP16基线实现了高达10倍的内存节省,且困惑度仅增加0.01;在困惑度增加0.1的情况下,内存节省可达12.5倍。XQuant充分利用了硬件平台计算能力的快速提升,消除了内存瓶颈,同时超越了最先进的KV缓存量化方法,在多种模型上实现了接近FP16的精度。
论文检索是研究人员的一项重要活动,通常涉及使用描述主题的查询来查找相关论文。随着研究的深入,论文检索需求可能变得更加灵活,有时会涉及模块配置等具体细节,而不再局限于粗粒度的主题。然而,以往的论文检索系统无法满足这些灵活粒度的需求,因为这些系统主要收集论文摘要来构建语料库索引,缺乏支持细粒度查询检索的详细信息。在本工作中,我们提出了PaperRegister,它由离线分层索引和在线自适应检索组成,将传统的基于摘要的索引转化为分层索引树,从而支持灵活粒度的论文检索。在一系列粒度上的论文检索任务实验中,PaperRegister展现了最先进的性能,尤其在细粒度场景中表现突出,凸显了其作为实际应用中灵活粒度论文检索有效解决方案的良好潜力。本工作的代码可在https://github.com/Li-Z-Q/PaperRegister获取。
我们推出了TexVerse,这是一个包含高分辨率纹理的大规模3D数据集。尽管近期大规模3D数据集的进展提升了高分辨率几何体的生成能力,但由于缺乏合适的数据集,端到端创建高分辨率纹理的研究仍显不足。TexVerse填补了这一空白,它精心收集了来自Sketchfab的超过858K个独特的高分辨率3D模型,其中包括超过158K个采用基于物理渲染(PBR)材质的模型。每个模型均包含其所有高分辨率变体,总计达1.6M个3D实例。TexVerse还包含专门子集:TexVerse-Skeleton,拥有69K个绑定骨骼的模型;以及TexVerse-Animation,包含54K个动画模型,两者均保留了用户上传的原始骨骼和动画数据。我们还提供了详细的模型注释,描述了整体特征、结构组件及精细细节。TexVerse为纹理合成、PBR材质开发、动画制作以及各类3D视觉与图形任务提供了一个高质量的数据资源,具有广泛的应用潜力。
近期,音频驱动的人物肖像动画技术取得了显著进展。然而,现有方法在满足多维度精细人类偏好方面仍面临挑战,如动作自然度、唇语同步精度及视觉质量等。这主要源于在相互冲突的偏好目标间进行优化的难度,以及缺乏大规模、高质量且带有多维偏好标注的数据集。为解决这些问题,我们首先引入了Talking-Critic,一种多模态奖励模型,它学习与人类对齐的奖励函数,以量化生成视频在多大程度上满足了多维度的期望。基于此模型,我们构建了Talking-NSQ,一个包含41万偏好对的大规模多维人类偏好数据集。最后,我们提出了时间步-层级自适应多专家偏好优化(TLPO),这是一个新颖的框架,旨在将基于扩散的肖像动画模型与精细、多维度的偏好对齐。TLPO将偏好分解为专门的专家模块,随后在时间步和网络层间进行融合,实现了所有维度上全面且精细的增强,而无需相互干扰。实验表明,Talking-Critic在与人偏好评分对齐方面显著优于现有方法。同时,TLPO在唇语同步精度、动作自然度和视觉质量上较基线模型均有大幅提升,在定性和定量评估中均展现出卓越性能。我们的项目页面:https://fantasy-amap.github.io/fantasy-talking2/
我们提出了StyleMM,一个创新框架,能够根据用户定义的文本描述构建风格化的三维可变形模型(3DMM)。该框架基于预训练的网格变形网络和用于原始3DMM真实人脸纹理生成的模型,通过文本引导的图像到图像(i2i)翻译与扩散模型生成的风格化面部图像作为渲染网格的风格化目标,对这些模型进行微调。为了防止在i2i翻译过程中出现身份、面部对齐或表情的不必要变化,我们引入了一种明确保留源图像面部属性的风格化方法。通过在图像风格化过程中保持这些关键属性,所提出的方法确保了通过基于图像的训练在3DMM参数空间内实现一致的3D风格迁移。训练完成后,StyleMM能够前馈生成风格化面部网格,并明确控制形状、表情和纹理参数,生成具有一致顶点连接性和可动画性的网格。定量和定性评估表明,我们的方法在身份级别的面部多样性和风格化能力方面优于现有最先进的方法。代码和视频可在[kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page)获取。
图神经网络(GNNs)通过捕捉数据实例间的结构依赖关系,在计算机视觉和医学图像分类任务中取得了顶尖成果。然而,其决策过程仍大多不透明,这在可解释性至关重要的高风险临床应用中限制了其可信度。现有的GNN可解释性技术通常为事后全局分析,对单个节点决策或局部推理的洞察有限。我们提出了X-Node,一种自解释的GNN框架,其中每个节点在预测过程中生成自身的解释。对于每个节点,我们构建了一个结构化上下文向量,编码其局部拓扑中的可解释线索,如度数、中心性、聚类、特征显著性和标签一致性。一个轻量级的推理模块将此上下文映射为紧凑的解释向量,该向量服务于三个目的:(1) 通过解码器重建节点的潜在嵌入,以确保忠实性;(2) 使用预训练的大型语言模型(如Grok或Gemini)生成自然语言解释;(3) 通过“文本注入”机制将解释反馈回消息传递管道,从而指导GNN本身。我们在源自MedMNIST和MorphoMNIST的两个图数据集上评估了X-Node,并将其与GCN、GAT和GIN骨干网络集成。结果表明,X-Node在保持竞争力的分类准确性的同时,能生成忠实于每个节点的解释。项目仓库:https://github.com/basiralab/X-Node。
随着多模态大语言模型(MLLMs)的广泛应用,根据多样化的用户需求对其进行适配变得愈发重要。本文中,我们研究了通过可控解码来调整MLLMs的方法。为此,我们首次提出了一种基于奖励引导的MLLMs解码方法,并展示了其在提升视觉基础能力上的应用。我们的方法包括构建视觉基础奖励模型,并利用这些模型来指导MLLM的解码过程。具体而言,我们构建了两个独立的奖励模型,分别用于控制模型输出中物体精确度和召回率的程度。我们的方法实现了MLLM推理过程的实时可控性,体现在两个方面:首先,通过在解码过程中赋予用户对每个奖励函数相对重要性的控制权,使其能在图像描述任务中动态权衡物体精确度与召回率;其次,通过控制解码过程中的搜索广度,让用户能在测试时计算量与视觉基础程度之间进行权衡。我们在标准物体幻觉基准上评估了该方法,结果表明它在提供对MLLM推理显著可控性的同时,持续优于现有的幻觉缓解方法。
自监督学习在遥感领域展现出巨大潜力,但标准的自监督方法需针对地球观测数据的独特特性进行调整。我们在此方向上迈出一步,对多模态、多时相及多光谱地球观测数据的融合策略与重建目标归一化方案进行了全面基准测试。基于研究发现,我们提出了MAESTRO,一种基于掩码自编码器的新型改进方案,其特色在于优化了融合策略,并引入了一种定制化的目标归一化方案,该方案将光谱先验作为自监督信号。在四个地球观测数据集上的评估表明,MAESTRO在高度依赖多时相动态的任务中确立了新的技术标杆,同时在以单一单时相模态为主导的任务中仍保持强劲竞争力。重现我们所有实验的代码已发布于https://github.com/ignf/maestro。
深度学习已彻底革新了医学影像领域,但其效能因标注训练数据的不足而受到严重制约。本文提出了一种新颖的基于生成对抗网络(GAN)的半监督学习框架,专为低标注数据场景设计,并在每类5至50个标注样本的多种设置下进行了评估。我们的方法整合了三类专用神经网络——一个用于类条件图像转换的生成器、一个用于真实性评估与分类的判别器,以及一个专门的分类器——构建于一个三阶段训练框架之内。该方法在有限的标注数据上进行监督训练与利用大量未标注图像通过图像到图像转换(而非从噪声生成)的无监督学习之间交替进行。我们采用了基于集成的伪标签技术,该技术结合了判别器和分类器的置信度加权预测,并通过指数移动平均实现时间一致性,从而为未标注数据提供可靠的标签估计。在十一个MedMNIST数据集上的全面评估表明,相较于六种最先进的基于GAN的半监督方法,我们的方法取得了统计学上显著的改进,尤其在极端5样本设置下,当标注数据极度稀缺时表现尤为突出。该框架在所有评估设置(每类5、10、20及50样本)中均保持了其优越性。我们的方法为标注成本高昂的医学影像应用提供了一个实用解决方案,即便在标注数据极少的情况下也能实现稳健的分类性能。代码已发布于https://github.com/GuidoManni/SPARSE。