每日精选AI研究论文及翻译
尽管机器学习研究发展迅速,但相应的代码实现往往难以获取,这使得研究人员在复现结果和基于前人工作构建时既耗时又费力。与此同时,近期的大型语言模型(LLMs)在理解科学文献和生成高质量代码方面表现出色。受此启发,我们推出了PaperCoder,一个多智能体LLM框架,旨在将机器学习论文转化为功能完备的代码库。PaperCoder的工作流程分为三个阶段:规划阶段,构建高层次路线图,设计系统架构图,识别文件依赖关系并生成配置文件;分析阶段,专注于解读实现细节;生成阶段,产出模块化、依赖感知的代码。此外,每个阶段均由一组专门设计的智能体实例化,这些智能体在整个流程中高效协作。随后,我们基于模型评估和人类评估(特别是来自原论文作者的评估),以作者发布的代码库为基准(如可获得),对PaperCoder从机器学习论文生成代码实现的能力进行了评估。我们的结果表明,PaperCoder在创建高质量、忠实于原作的实现方面效果显著。此外,在最新发布的PaperBench基准测试中,PaperCoder持续展现出优势,以显著差距超越强基线模型。
近年来,图像编辑模型取得了显著且迅速的发展。最新发布的多模态前沿模型,如GPT-4o和Gemini2 Flash,展现了极具前景的图像编辑能力。这些模型在满足用户多样化编辑需求方面表现出色,标志着图像处理领域的一大进步。然而,开源算法与这些闭源模型之间仍存在较大差距。因此,本文旨在发布一款名为Step1X-Edit的先进图像编辑模型,其性能可与GPT-4o和Gemini2 Flash等闭源模型相媲美。具体而言,我们采用多模态大语言模型处理参考图像及用户的编辑指令,提取潜在嵌入并与扩散图像解码器结合,以生成目标图像。为训练该模型,我们构建了数据生成管道,生产高质量数据集。评估方面,我们开发了基于真实用户指令的新基准GEdit-Bench。在GEdit-Bench上的实验结果表明,Step1X-Edit大幅超越现有开源基线,并接近领先的专有模型性能,从而为图像编辑领域做出了重要贡献。
主题驱动的文本到图像(T2I)生成旨在根据给定的文本描述生成图像,同时保持参考主题图像的视觉特征。尽管其下游应用广泛——从增强图像生成的个性化到视频渲染中角色的一致性表现——该领域的进展因缺乏可靠的自动评估而受限。现有方法要么仅评估任务的一个方面(即文本对齐或主题保留),要么与人类判断不符,或依赖于成本高昂的API评估。为此,我们引入了RefVNLI,一种成本效益高的评估指标,能够在单一预测中同时评估文本对齐和主题保留。RefVNLI基于大规模视频推理基准和图像扰动数据集训练,在多个基准和主题类别(如动物、物体)上超越或匹配现有基线,在文本对齐上提升高达6.4分,在主题一致性上提升高达8.5分。此外,它在处理较少为人所知的概念时表现优异,与人类偏好的吻合度超过87%。
对比语言-图像预训练(CLIP)框架已成为多模态表示学习中的一种广泛应用方法,尤其在图像-文本检索和聚类任务中表现突出。然而,其有效性受到三个关键限制的制约:(1) 文本标记截断,(2) 孤立的图像-文本编码,以及(3) 因词袋行为导致的组合性不足。尽管最近的多模态大语言模型(MLLMs)在广义视觉-语言理解方面取得了显著进展,但其在学习可迁移多模态表示方面的潜力仍未被充分挖掘。在本研究中,我们提出了UniME(通用多模态嵌入),一种新颖的两阶段框架,该框架利用MLLMs为多样化的下游任务学习判别性表示。第一阶段,我们通过从强大的基于LLM的教师模型进行文本判别知识蒸馏,以增强MLLM语言组件的嵌入能力。第二阶段,我们引入了硬负样本增强的指令微调,以进一步推进判别性表示学习。具体而言,我们首先缓解假负样本污染,然后在每批次中为每个实例采样多个硬负样本,迫使模型关注具有挑战性的样本。这一方法不仅提升了判别力,还增强了模型在下游任务中的指令遵循能力。我们在MMEB基准及多项检索任务上进行了广泛实验,包括短长描述检索和组合检索。结果表明,UniME在所有任务上均实现了性能的持续提升,展现出卓越的判别性和组合能力。
我们提出了一种通过心理意象模拟实现视觉-语言模型(VLMs)视角感知推理的框架。视角转换,即从不同视点感知环境或情境的能力,是衡量人类水平视觉理解的关键基准,对于环境交互及与自主代理的协作至关重要。尽管VLMs在空间推理方面取得了进展,但近期研究表明,现代VLMs在视角感知推理能力上显著不足,且表现出强烈的自我中心解释倾向。为缩小VLMs与人类感知之间的差距,我们聚焦于心理意象的作用,即人类通过抽象表征感知世界,从而促进视角转换。受此启发,我们提出了一个名为抽象视角转换(APC)的视角感知推理框架,该框架有效利用视觉基础模型,如目标检测、分割和方向估计,构建场景抽象并实现视角变换。我们在合成和真实图像基准上的实验表明,与多种VLMs相比,采用我们的框架在视角感知推理方面取得了显著提升,进一步超越了经过微调的空间推理模型和基于新视角合成的方法。
随着大规模三维数据集的兴起,前馈式三维生成模型,如大规模重建模型(LRM),已引起广泛关注并取得了显著成功。然而,我们观察到RGB图像常导致训练目标冲突,且缺乏几何重建所需的清晰度。本文重新审视了网格重建中的归纳偏差,并提出了DiMeR,一种新颖的解耦双流前馈模型,用于稀疏视角下的网格重建。其核心思想是将输入和框架分别解耦为几何与纹理两部分,从而依据奥卡姆剃刀原理降低每部分的训练难度。鉴于法线贴图与几何严格一致并能精确捕捉表面变化,我们将其作为几何分支的唯一输入,以降低网络输入与输出间的复杂性。此外,我们改进了网格提取算法,引入了三维真实值监督。对于纹理分支,则采用RGB图像作为输入,以获取带纹理的网格。总体而言,DiMeR在稀疏视角重建、单图转三维及文本转三维等多种任务中展现出强大的能力。大量实验表明,DiMeR显著超越以往方法,在GSO和OmniObject3D数据集上的Chamfer距离提升了超过30%。
自回归(AR)模型在语言生成领域长期占据主导地位,如今也逐渐应用于图像合成,但常被认为在性能上不及基于扩散的模型。其主要局限在于AR模型需要处理大量图像标记,这限制了训练与推理效率以及图像分辨率。为此,我们提出了Token-Shuffle,一种新颖而简洁的方法,旨在减少Transformer中的图像标记数量。我们的核心洞见在于多模态大语言模型(MLLMs)中视觉词汇的维度冗余,即视觉编码器输出的低维视觉代码直接映射到高维语言词汇。基于此,我们设计了两个关键操作:token-shuffle,通过沿通道维度合并空间局部标记来减少输入标记数量;以及token-unshuffle,在Transformer块后解构推断出的标记,以恢复输出的空间排列。结合文本提示联合训练,我们的策略无需额外预训练文本编码器,使MLLMs能以统一的下一标记预测方式支持极高分辨率图像合成,同时保持高效的训练与推理。我们首次将AR文本到图像生成的边界推至2048x2048分辨率,并展现出令人满意的生成性能。在GenAI基准测试中,我们的2.7B模型在困难提示上获得了0.77的综合评分,分别超越AR模型LlamaGen 0.18分和扩散模型LDM 0.15分。大规模详尽的人类评估也证实了我们在文本对齐、视觉瑕疵及视觉外观方面的卓越图像生成能力。我们希望Token-Shuffle能成为MLLMs内高效高分辨率图像生成的基础设计。
质量与多样性是大型语言模型(LLMs)训练数据的两大关键指标,对模型性能有着积极影响。现有研究往往分别优化这两项指标,通常先进行质量筛选,再调整数据比例。然而,这些方法忽视了质量与多样性之间固有的权衡关系,需要将二者综合考虑。在固定的训练配额下,评估每个数据点的质量及其对整体数据集的互补效应至关重要。本文提出了一种名为QuaDMix的统一数据选择框架,该框架在平衡质量与多样性的同时,自动优化LLM预训练的数据分布。具体而言,我们首先提出了多项标准来衡量数据质量,并通过领域分类区分数据点,以此衡量整体多样性。QuaDMix随后采用了一个统一的参数化数据采样函数,该函数基于这些与质量和多样性相关的标签来确定每个数据点的采样概率。为了加速QuaDMix框架中涉及的最优参数搜索,我们在较小模型上进行了模拟实验,并借鉴RegMix方法,使用LightGBM进行参数搜索。我们在多种模型和数据集上的实验表明,QuaDMix在多个基准测试中平均提升了7.2%的性能。这些结果超越了单独针对质量和多样性的策略,凸显了平衡数据质量与多样性的必要性和能力。
视频试穿技术旨在将视频中的服装替换为目标款式。现有方法在处理复杂服装图案和多样人体姿态时,难以生成高质量且时间一致的结果。我们提出了3DV-TON,一种基于扩散模型的新颖框架,用于生成高保真且时间一致的视频试穿效果。我们的方法采用生成的动画纹理3D网格作为明确的帧级指导,缓解了模型过度关注外观保真度而牺牲运动连贯性的问题。这是通过在整个视频序列中直接参考一致的服装纹理运动实现的。所提方法具备一个自适应管道,用于生成动态3D指导:(1) 选择一个关键帧进行初始2D图像试穿,随后(2) 重建并动画化一个与原始视频姿态同步的纹理3D网格。我们进一步引入了一种鲁棒的矩形掩码策略,有效减轻了在动态人体和服装运动过程中因服装信息泄露导致的伪影传播。为了推动视频试穿研究,我们推出了HR-VVT,一个高分辨率基准数据集,包含130个视频,涵盖多种服装类型和场景。定量与定性结果均表明,我们的方法在性能上优于现有技术。项目页面链接如下:https://2y7c3.github.io/3DV-TON/
逐步验证器——亦称过程奖励模型(PRMs)——是测试时扩展的关键要素。PRMs需要步骤级别的监督,这使得其训练成本高昂。本研究旨在构建数据高效的PRMs,作为通过生成验证链式思维(CoT)来验证解决方案中每一步的言语化逐步奖励模型。我们提出了ThinkPRM,这是一种长链CoT验证器,其微调所需的过程标签数量远少于判别式PRMs。我们的方法充分利用了长链CoT模型固有的推理能力,在多个具有挑战性的基准测试中,仅使用PRM800K中1%的过程标签,便超越了LLM-as-a-Judge和判别式验证器。具体而言,ThinkPRM在ProcessBench、MATH-500和AIME '24上,通过最佳N选和奖励引导搜索,均优于基线模型。在GPQA-Diamond和LiveCodeBench子集的跨域评估中,我们的PRM分别比在完整PRM800K上训练的判别式验证器高出8%和4.5%。最后,在相同的token预算下,ThinkPRM在验证计算扩展方面比LLM-as-a-Judge更为有效,在ProcessBench子集上以7.2%的优势胜出。我们的工作凸显了生成式长链CoT PRMs的价值,它们能够在训练时仅需极少监督的情况下,有效扩展测试时的验证计算。我们的代码、数据和模型将在https://github.com/mukhal/thinkprm 发布。
潜在扩散模型(LDMs)在高质量图像生成领域占据主导地位,然而将表征学习与生成建模相结合仍是一大挑战。我们提出了一种新颖的生成式图像建模框架,通过利用扩散模型共同建模来自变分自编码器的低层次图像潜在特征和来自预训练自监督编码器(如DINO)的高层次语义特征,无缝弥合了这一鸿沟。我们的潜在语义扩散方法能够从纯噪声中学习生成连贯的图像-特征对,显著提升了生成质量和训练效率,且仅需对标准扩散Transformer架构进行最小改动。通过摒弃复杂的蒸馏目标,这一统一设计简化了训练过程,并解锁了一种强大的新推理策略:表征引导,该策略利用学习到的语义来引导和优化图像生成。在条件与非条件设置下的评估中,我们的方法在图像质量和训练收敛速度上均实现了显著提升,为表征感知的生成建模开辟了新的方向。
我们提出了DyMU,这是一种高效、无需训练的动态框架,能够在保持高任务性能的同时,显著降低视觉-语言模型(VLMs)的计算负担。该框架包含两大核心组件。首先,动态令牌合并(DToMe)通过根据图像复杂度合并相似令牌,减少了视觉令牌嵌入的数量,有效解决了视觉Transformer中固定长度输出固有的效率问题。其次,虚拟令牌解合并(VTU)通过高效重构完整序列的注意力动态,模拟了大型语言模型(LLMs)预期的令牌序列,从而在不进行额外微调的情况下,保持了下游任务的性能。与以往方法不同,我们的方法能够根据图像内容动态调整令牌压缩程度,且完全无需训练,使其能够轻松应用于大多数先进的VLM架构。在图像和视频理解任务上的大量实验表明,DyMU能够将平均视觉令牌数量减少32%-85%,同时在包括近期流行的基于AnyRes的视觉编码器在内的多种VLM架构上,实现了与完整长度模型相当的性能。此外,通过定性分析,我们展示了DToMe能够根据图像复杂度有效调整令牌减少量,与现有系统不同,它为用户提供了对计算成本的更多控制。项目页面:https://mikewangwzhl.github.io/dymu/。
在线视频平台,尤其是直播服务的迅猛发展,催生了对实时视频理解系统的迫切需求。这类系统必须处理连续的视频流,并即时响应用户查询,这对当前的视频大语言模型(VideoLLMs)提出了独特挑战。尽管现有的VideoLLMs在处理完整视频方面表现出色,但在流媒体场景中却面临显著局限,主要因其无法高效处理密集且冗余的帧。我们推出了TimeChat-Online,一款革新实时视频交互的新型在线VideoLLM。其核心在于我们创新的差分令牌丢弃(DTD)模块,该模块有效解决了流媒体视频中视觉冗余的根本难题。借鉴人类视觉感知中的变化盲视现象,DTD在保留有意义的时间变化的同时,过滤掉帧间静态冗余内容。令人瞩目的是,我们的实验显示,DTD在StreamingBench上实现了82.8%的视频令牌减少,同时保持了98%的性能,揭示了流媒体视频中超过80%的视觉内容自然冗余,无需语言指导。为了支持无缝实时交互,我们发布了TimeChat-Online-139K,一个包含多样化交互模式的综合流媒体视频数据集,涵盖回溯、当前感知及未来响应等场景。TimeChat-Online独有的主动响应能力,通过DTD持续监控视频场景转换自然实现,使其区别于传统方法。我们广泛的评估表明,TimeChat-Online在流媒体基准测试(StreamingBench和OvOBench)上表现卓越,同时在长视频任务如Video-MME和MLVU上保持竞争力。
大型语言模型(LLMs)的全面评估仍具挑战性,尤其是在非英语语言领域,高质量数据往往有限。现有的基准测试和排行榜主要集中于英语,仅有少数涉及其他语言。这些基准测试在多个关键方面存在不足:忽视了语言多样性,优先考虑基础自然语言处理(NLP)能力而非工业相关任务,且多为静态评估。鉴于此,我们推出了IberBench,一个全面且可扩展的基准测试,旨在评估LLMs在伊比利亚半岛及伊比利亚美洲地区语言中,对基础及工业相关NLP任务的表现。IberBench整合了来自评估活动及近期基准测试的101个数据集,涵盖22个任务类别,如情感与情绪分析、毒性检测及摘要生成等。该基准测试通过支持持续更新及由专家委员会审核的社区驱动模型与数据集提交,解决了当前评估实践中缺乏语言多样性和静态评估设置等关键限制。我们评估了从1亿到140亿参数不等的23个LLMs,并提供了关于其优势与局限的实证洞察。研究发现:(i) LLMs在工业相关任务上的表现逊色于基础任务,(ii) 加利西亚语和巴斯克语的平均表现较低,(iii) 部分任务结果接近随机,(iv) 其他任务中LLMs表现虽高于随机但低于共享任务系统。IberBench提供了整个评估流程的开源实现,包括数据集标准化与托管、LLMs的增量评估,以及一个公开可访问的排行榜。
我们推出ViSMap:通过元提示实现无监督视频摘要,这是一个无需监督即可对长达一小时的视频进行摘要的系统。现有的大多数视频理解模型在处理预先分割的短视频事件时表现良好,但在处理相关事件稀疏分布且未预先分割的长视频时却显得力不从心。此外,长视频理解通常依赖于需要大量标注的监督式分层训练,这些标注成本高、速度慢且易出现不一致性。借助ViSMap,我们弥合了短视频(标注数据丰富)与长视频(标注数据匮乏)之间的鸿沟。我们利用大语言模型(LLMs)基于短视频片段描述生成优化的长视频伪摘要。这些伪摘要作为训练数据,用于生成长视频摘要的模型,从而绕过了对长视频进行昂贵标注的需求。具体而言,我们采用元提示策略,迭代生成并优化长视频的伪摘要。该策略利用从监督式短视频模型获得的短视频片段描述来指导摘要生成。每次迭代依次使用三个大语言模型:一个根据片段描述生成伪摘要,另一个评估其质量,第三个则优化生成器的提示。这种迭代是必要的,因为伪摘要的质量高度依赖于生成器的提示,且在不同视频间差异显著。我们在多个数据集上对摘要进行了广泛评估;结果表明,ViSMap在跨领域泛化的同时,其性能可与完全监督的最先进模型相媲美,且不牺牲性能。代码将在论文发表后公开。
基于自回归的块状图像生成技术近期在图像质量和可扩展性方面展现出竞争力,并能轻松集成并扩展至视觉-语言模型中。然而,自回归模型需要为图像块的生成设定一个明确的顺序。尽管在文本生成中,基于词语顺序的自然排列是合理的,但在图像生成中并不存在固有的生成顺序。传统上,自回归图像生成模型遵循光栅扫描顺序(即从左上到右下)。本文认为,这种顺序并非最优,因为它未能尊重图像内容的因果关系:例如,在基于日落视觉描述的条件下,自回归模型可能会先生成云朵再生成太阳,尽管云朵的颜色应取决于太阳的颜色而非相反。本研究中,我们首先通过训练一个模型以任意给定顺序生成图像块,从而在生成过程中推断每个图像块的内容及其位置(顺序)。其次,我们利用这些提取的顺序对任意顺序生成模型进行微调,以生成质量更优的图像。通过在两套数据集上的实验,我们证明这种新的生成方法相较于传统的光栅扫描方式能生成更高质量的图像,同时保持相似的训练成本且无需额外标注。
大规模标注动态网络视频中的相机姿态对于推动逼真视频生成与仿真等领域的发展至关重要。然而,收集此类数据集颇具挑战,因为大多数网络视频并不适合进行姿态估计。此外,即便是最先进的方法,为动态网络视频标注也面临显著困难。本文中,我们介绍了DynPose-100K,这是一个大规模动态网络视频数据集,其中标注了相机姿态。我们的采集流程通过精心结合任务专用模型与通用模型来解决筛选问题。在姿态估计方面,我们融合了点跟踪、动态掩码以及运动结构恢复等最新技术,实现了对现有最先进方法的改进。我们的分析与实验表明,DynPose-100K不仅在规模上庞大,而且在多个关键属性上展现出多样性,为各类下游应用的进步开辟了新途径。
降维技术是分析和可视化高维数据的基础。现有方法如t-SNE和PCA在表征能力与可解释性之间存在权衡。本文提出了一种新颖方法,通过将线性方法的可解释性与非线性变换的表达力相结合,弥合了这一差距。所提出的算法通过一系列由高斯函数加权的线性变换,构建了高维与低维空间之间的非线性映射。这种架构在保持线性方法可解释性优势的同时,实现了复杂的非线性变换,因为每个变换都可以独立分析。最终模型不仅提供了强大的降维能力,还提供了对变换空间的透明洞察。本文还介绍了解释学习到的变换的技术,包括识别被抑制维度的方法以及空间如何扩展和收缩。这些工具使实践者能够理解算法在降维过程中如何保持和修改几何关系。为确保该算法的实际应用价值,本文强调了开发用户友好软件包的重要性,以促进其在学术界和工业界的采用。