每日精选AI研究论文及翻译
推理时优化通过扩展计算来推导出深思熟虑的推理步骤,以实现高效性能。尽管先前的基于搜索的策略解决了自回归生成的短视问题,但庞大的搜索空间导致了过度探索和不足的利用。为了在推导最优步骤时达到高效平衡,我们将解码策略构建为前瞻采样,利用模拟的未来步骤来获得全局最优的步骤估计。在此基础上,我们提出了一种名为phi-Decoding的新型解码策略。为了提供精确且富有表现力的步骤价值估计,phi-Decoding通过前瞻和聚类来近似两个分布。从联合分布中采样,可以选择最优步骤进行利用。为了支持自适应计算分配,我们提出了宽度和深度剪枝策略,提供了一种轻量级解决方案以实现推理效率。在七个基准测试上的广泛实验表明,phi-Decoding在性能和效率上均优于强基线。进一步的分析展示了其在各种大语言模型上的泛化能力以及在广泛计算预算范围内的可扩展性。代码将在https://github.com/xufangzhi/phi-Decoding发布,开源PyPI包即将推出。
尽管近期如CLIP和SigLIP等图文对比模型取得了显著成功,这些模型在处理需要高保真图像理解的视觉中心任务时仍面临挑战,例如计数、深度估计及细粒度物体识别。这些模型通过执行语言对齐,往往更重视高层语义而非视觉理解,从而削弱了其图像理解能力。另一方面,专注于视觉的模型虽擅长处理视觉信息,却在理解语言方面存在局限,限制了其在语言驱动任务中的灵活性。在本研究中,我们推出了TULIP,一个开源且可直接替换现有CLIP类模型的方案。我们的方法结合了生成式数据增强、强化的图像-图像与文本-文本对比学习,以及图像/文本重建正则化,旨在学习细粒度的视觉特征同时保持全局语义对齐。我们的方法可扩展至超过10亿参数,在多个基准测试中超越了现有最先进(SOTA)模型,在ImageNet-1K上确立了新的SOTA零样本性能,在RxRx1的线性探测少样本分类任务中较SigLIP提升高达2倍,并改进了视觉-语言模型,在MMVP上得分超过SigLIP的3倍。我们的代码/检查点可在https://tulip-berkeley.github.io获取。
三角网格在三维应用中扮演着关键角色,以实现高效的操控与渲染。尽管自回归方法通过预测离散顶点标记来生成结构化网格,但它们常受限于面数不足及网格不完整的问题。为应对这些挑战,我们提出了DeepMesh框架,该框架通过两大创新优化网格生成:(1) 采用一种结合新型标记化算法的高效预训练策略,并改进数据整理与处理流程;(2) 将强化学习(RL)引入三维网格生成,通过直接偏好优化(DPO)实现与人类偏好的对齐。我们设计了一套评分标准,融合人类评估与三维度量指标,以收集用于DPO的偏好对,确保视觉吸引力与几何精度兼备。基于点云和图像条件,DeepMesh能够生成细节丰富、拓扑精确的网格,在精度与质量上均超越了现有最先进方法。项目页面:https://zhaorw02.github.io/DeepMesh/
基于海量数据训练的基础模型在文本、图像、音频和视频领域展现出了卓越的推理与生成能力。Roblox的目标是构建一个面向3D智能的基础模型,该模型能够支持开发者打造Roblox体验的各个方面,从生成3D物体和场景,到为动画角色绑定骨骼,再到编写描述对象行为的程序脚本。我们探讨了构建此类3D基础模型的三大关键设计需求,并介绍了我们迈向这一目标的第一步。我们预期3D几何形状将成为核心数据类型,并详细阐述了我们的3D形状分词器解决方案。我们展示了该分词方案如何应用于文本到形状生成、形状到文本生成以及文本到场景生成等任务中。我们进一步演示了这些应用如何与现有的大型语言模型(LLMs)协作,进行场景分析与推理。最后,我们概述了构建一个完全统一的3D智能基础模型的未来路径。
广义知识图谱(GKG)的构建,包括知识图谱、事件知识图谱和常识知识图谱,是多种自然语言处理任务的基础。当前研究通常分别构建这些类型的图谱,忽视了整体洞察力以及在计算资源和使用视角上可能实现的统一性。然而,开发统一GKG框架的一个关键挑战在于任务特定差异带来的障碍。在本研究中,我们提出了一个构建广义知识图谱的统一框架以应对这一挑战。首先,我们从三类图谱的29个数据集中收集了15个子任务的数据,并将其分类为样本内数据、对抗任务数据和分布外(OOD)数据。随后,我们设计了一个三阶段课程学习微调框架,通过迭代地将三类图谱的知识注入大型语言模型中。大量实验表明,我们提出的模型在域内、OOD及对抗任务数据上均提升了所有三类图谱的构建效果。
时间质量是视频生成的关键要素,它确保了帧间运动的一致性和动态的真实性。然而,实现高度的时间连贯性与多样性仍具挑战性。本研究中,我们首次探索了视频生成中的时间增强技术,并引入了FluxFlow作为初步研究策略,旨在提升时间质量。FluxFlow在数据层面操作,通过施加可控的时间扰动,无需修改模型架构。在UCF-101和VBench基准上的大量实验表明,FluxFlow显著提升了包括U-Net、DiT及基于自回归架构在内的多种视频生成模型的时间连贯性与多样性,同时保持了空间保真度。这些发现凸显了时间增强作为一种简单而有效的方法,在推动视频生成质量提升方面的潜力。
大型语言模型(LLMs)在解决数学推理任务中展现了显著潜力,其中思维链(CoT)数据作为引导答案生成的关键要素。现有范式通常直接针对给定问题生成CoT和答案,这与人类解决问题的策略存在一定差异。人类在解题时,常会回忆类似案例并借鉴其解决方案来推理当前任务。受此认知过程启发,我们提出了MetaLadder这一新颖框架,它明确提示LLMs在解决目标问题前,先回忆并反思元问题——那些在结构或语义上相似的问题及其CoT解决方案。此外,我们引入了一种问题重述机制,通过重新表述原问题来增强模型对目标问题的理解,从而进一步提升推理准确性。因此,模型能够实现从类比问题中的推理迁移,模拟人类“从示例中学习”及泛化能力。在数学基准测试上的大量实验表明,我们的MetaLadder显著提升了LLMs的解题准确率,大幅超越了基于标准CoT的方法(准确率提升10.3%)及其他方法。我们的代码与数据已发布于https://github.com/LHL3341/MetaLadder。
视觉推理是人类认知的核心,使个体能够解读并抽象地理解其周围环境。尽管最近的多模态大语言模型(MLLMs)在语言和视觉-语言任务中展现了令人瞩目的性能,但现有基准主要衡量基于识别的技能,未能充分评估真正的视觉推理能力。为弥合这一关键差距,我们引入了VERIFY,这是一个专门设计用于隔离并严格评估最先进MLLMs视觉推理能力的基准。VERIFY迫使模型主要依赖视觉信息进行推理,提供最少的文本上下文以减少对领域特定知识和语言偏见的依赖。每个问题都附有人工标注的推理路径,使其成为首个深入评估模型决策过程的基准。此外,我们提出了超越单纯准确性的新指标,用以评估视觉推理的忠实度,揭示当前模型推理模式中的关键不平衡。我们对领先MLLMs的全面基准测试揭示了显著局限性,强调了在感知与推理之间采取平衡且整体方法的必要性。更多预告与测试,请访问我们的项目页面(https://verify-eqh.pages.dev/)。
生成技术的快速发展已成为一把双刃剑。在提供强大工具以提升便利性的同时,也引发了显著的社会担忧。作为防御手段,现有的合成图像检测方法往往缺乏在伪影层面的文本可解释性,且过度集中于图像篡改检测,而现有数据集通常面临生成器过时及缺乏细粒度标注的问题。本文中,我们推出了SynthScars,一个高质量且多样化的数据集,包含12,236张全合成图像,并配有专家人工标注。该数据集涵盖4种不同的图像内容类型、3类伪影,以及细粒度标注,包括像素级分割、详细的文本解释和伪影类别标签。此外,我们提出了LEGION(学习定位与解释的合成图像检测框架),这是一个基于多模态大语言模型(MLLM)的图像伪造分析框架,集成了伪影检测、分割与解释功能。基于此能力,我们进一步探索将LEGION作为控制器,整合到图像优化流程中,以指导生成更高质量、更逼真的图像。大量实验表明,LEGION在多个基准测试中均优于现有方法,特别是在SynthScars数据集上,相较于次优的传统专家方法,mIoU提升了3.31%,F1分数提高了7.75%。此外,在其指导下生成的优化图像与人类偏好展现出更强的契合度。代码、模型及数据集将予以公开。
扩散模型在图像合成领域展现了卓越的性能,但其训练、微调及推理过程对计算和内存资源需求巨大。尽管先进的量化技术已成功降低了推理阶段的内存占用,训练和微调这些量化模型仍需大量内存,这可能是由于为了精确计算梯度或基于梯度的算法进行反向传播而进行的去量化操作所致。然而,对于诸如个性化等应用场景,内存高效的微调尤为关键,因为这些应用往往需要在移动设备等边缘设备上运行,处理私人数据。本研究通过结合文本反演技术对扩散模型进行量化,并利用零阶优化方法对个性化令牌进行优化,避免了去量化过程,从而无需存储用于反向传播的梯度和激活值,显著减少了内存消耗。鉴于零阶优化在个性化任务中对单张或少量图像的梯度估计存在较大噪声,我们提出通过将估计梯度投影到由令牌历史构建的子空间上,即子空间梯度,来实现去噪。此外,我们探究了文本嵌入在图像生成中的影响,进而提出了部分均匀时间步采样方法,用于在有效的扩散时间步长上进行采样。我们的方法在仅需前向传播的情况下,为Stable Diffusion模型个性化任务实现了与现有方法相当的图像与文本对齐分数,同时将训练内存需求降低了高达8.2倍。
当前关于评估长篇文本事实性的“分解-验证”范式研究,通常将分解与验证过程孤立对待,忽视了二者间的相互作用及潜在的不匹配问题。我们发现,现有的分解策略,多为手工设计的示例,在原子性(一种量化信息密度的新指标)方面与下游验证器未能良好对齐,导致验证效果欠佳。为此,我们将寻找最优分解策略以实现最佳验证的问题,建模为一个双层优化问题。针对这一强NP难问题,我们提出了动态分解方法,这是一个强化学习框架,它利用验证器的反馈来学习一种策略,动态地将声明分解为验证器偏好的原子性水平。实验结果表明,动态分解策略优于现有分解方法,在不同验证器、数据集及输入声明原子性的条件下,平均提升了0.07的验证置信度和0.12的准确率(基于0-1评分标准)。
开发能够自主操作图形用户界面的AI代理是一项长期且具有挑战性的任务。数据规模定律的最新进展启发我们利用大规模指令集来训练计算机使用代理,然而,采用行为克隆方法训练代理仍需大量高质量轨迹数据。为满足可扩展性需求,我们设计了STEVE,一个用于计算机使用代理训练的步骤验证流程。首先,我们为计算机使用代理建立了一个庞大的指令集,并通过一些次优代理收集轨迹数据。随后,利用GPT-4o根据动作执行前后的屏幕信息验证轨迹中每一步的正确性,并为每一步赋予二元标签。最后,我们采用卡尼曼和特沃斯基优化方法,基于这些二元步骤标签优化代理。大量实验表明,通过充分利用轨迹中的正负动作,我们的代理在性能上超越了监督微调方法。此外,STEVE使我们能够训练一个70亿参数的视觉语言模型作为计算机使用代理,在极具挑战性的实时桌面环境WinAgentArena中取得了领先的性能,同时以更低的成本实现了高效运行。代码与数据详见:https://github.com/FanbinLu/STEVE。
大型语言模型(LLM)代理在现实任务中需进行多轮交互。然而,现有的用于优化LLM代理的多轮强化学习(RL)算法,在利用LLM泛化能力的同时,未能有效实现多轮间的信用分配,且如何开发此类算法仍不明确。为此,我们首先引入了一个新基准——ColBench,其中LLM代理需与人类协作者进行多轮互动,以解决后端编程和前端设计中的实际任务。基于此基准,我们提出了一种新颖的RL算法,SWEET-RL(基于训练时信息的逐步评估强化学习),该算法通过精心设计的优化目标,训练一个能够访问额外训练时信息的评论家模型。该评论家为策略模型提供步骤级奖励以促进其改进。实验表明,相较于其他最先进的多轮RL算法,SWEET-RL在ColBench上的成功率和胜率实现了6%的绝对提升,使Llama-3.1-8B在现实协作内容创作中的表现达到或超越了GPT4-o的水平。
近期,大型语言模型(LLM)预训练领域的一大进展是不断扩展的上下文窗口,以处理更长的序列。然而,我们的初步研究表明,在固定token预算下,使用较短上下文窗口预训练的模型始终优于长上下文窗口的模型。这一发现促使我们探索一种最优的上下文窗口调度策略,以更好地平衡长上下文能力与预训练效率。为此,我们提出了SkyLadder,这是一种简单而有效的方法,实现了从短到长上下文窗口的过渡。SkyLadder在保持强劲标准基准性能的同时,在长上下文任务上匹配或超越了基线结果。通过大量实验,我们在100B token上预训练了1B参数(上下文窗口高达32K)和3B参数(8K上下文)的模型,证明SkyLadder在常见基准上带来了高达3.7%的持续增益,同时相比基线实现了高达22%的训练速度提升。代码已发布于https://github.com/sail-sg/SkyLadder。
我们推出MusicInfuser,一种生成高质量舞蹈视频的方法,这些视频与指定音乐曲目同步。我们并未尝试设计和训练新的多模态音视频模型,而是展示了如何通过引入轻量级的音乐-视频交叉注意力机制和低秩适配器,使现有视频扩散模型能够与音乐输入对齐。与之前需要动作捕捉数据的工作不同,我们的方法仅对舞蹈视频进行微调。MusicInfuser在保持底层模型灵活性和生成能力的同时,实现了高质量的音乐驱动视频生成。我们引入了一个基于视频-LLM的评估框架,用于衡量舞蹈生成质量的多个维度。项目页面和代码可在https://susunghong.github.io/MusicInfuser获取。
三维场景的分解式重建,包含所有物体的完整形状与精细纹理,对于下游应用极具吸引力,但在稀疏视角输入条件下仍面临挑战。近期方法通过引入语义或几何正则化来应对此问题,但在约束不足区域表现显著下降,且难以恢复被遮挡部分。我们认为,解决这一难题的关键在于为这些区域补充缺失信息。为此,我们提出了DP-Recon,它利用扩散先验,以分数蒸馏采样(SDS)的形式,优化新视角下每个独立物体的神经表示。这为约束不足区域提供了额外信息,但直接引入扩散先验可能导致重建与生成指导之间的潜在冲突。因此,我们进一步提出了一种基于可见性的方法,动态调整逐像素SDS损失权重。这些组件共同作用,在保持对输入图像忠实度的同时,提升了几何与外观的恢复效果。在Replica和ScanNet++数据集上的广泛实验表明,我们的方法显著超越了现有最先进技术。尤为突出的是,在仅10个视角下,我们的方法就能实现比基线方法在100个视角下更优的物体重建。通过SDS优化,我们的方法支持基于文本的几何与外观无缝编辑,并生成带有详细UV贴图的分解物体网格,为逼真的视觉特效(VFX)编辑提供了支持。项目页面详见https://dp-recon.github.io/。
近期,大型多模态模型(LMMs)的进展主要集中在离线视频理解上。相比之下,流媒体视频理解因其时效性、全模态和交互性特征,对现有模型提出了巨大挑战。本研究旨在从新视角拓展流媒体视频理解,并提出了一项名为“视觉指令反馈”的新任务,要求模型能够感知视觉内容并从中提取指令。例如,当用户向智能体挥手时,智能体应识别该手势并启动对话,提供欢迎信息。因此,遵循视觉模态中的指令极大地增强了用户与智能体间的互动。为促进研究,我们定义了与视觉模态高度相关的七项关键子任务,并收集了用于训练的ViSpeak-Instruct数据集和用于评估的ViSpeak-Bench。此外,我们提出了ViSpeak模型,这是一款在多种流媒体视频理解基准测试中达到GPT-4o级别性能的顶尖流媒体视频理解LMM。经过在ViSpeak-Instruct数据集上的微调,ViSpeak具备了基本的视觉指令反馈能力,为未来研究奠定了坚实的基础。
自动化特征工程在提升表格学习任务的预测模型性能中扮演着关键角色。传统的自动化特征工程方法受限于对预设变换的依赖,这些变换局限于手动设计的固定搜索空间内,往往忽视了领域知识。近期,利用大型语言模型(LLMs)的进展使得将领域知识融入特征工程过程成为可能。然而,现有的基于LLM的方法要么采用直接提示,要么仅依赖验证分数进行特征选择,未能充分利用先前特征发现实验的洞见,或在特征生成与数据驱动性能之间建立有意义的推理联系。针对这些挑战,我们提出了LLM-FE,一个创新框架,它结合了进化搜索与LLMs的领域知识和推理能力,以自动发现适用于表格学习任务的有效特征。LLM-FE将特征工程表述为程序搜索问题,其中LLMs迭代地提出新的特征转换程序,而数据驱动的反馈则引导搜索过程。我们的实验结果表明,LLM-FE在多种分类和回归基准测试中持续超越现有最先进的基线方法,显著提升了表格预测模型的性能。
音频驱动的单图像说话肖像生成在虚拟现实、数字人创作及电影制作中扮演着关键角色。现有方法主要分为基于关键点与基于图像的两类。基于关键点的方法虽能有效保持角色身份,但因3D可变形模型固定点限制,难以捕捉精细面部细节。此外,传统生成网络在有限数据集上建立音频与关键点间因果关系面临挑战,导致姿态多样性不足。相比之下,基于图像的方法利用扩散网络生成细节丰富的高质量肖像,但存在身份失真及计算成本高昂的问题。本研究中,我们提出了KDTalker,首个结合无监督隐式3D关键点与时空扩散模型的框架。KDTalker通过无监督隐式3D关键点,自适应面部信息密度,使扩散过程能灵活建模多样头部姿态并捕捉精细面部细节。定制设计的时空注意力机制确保了准确的唇形同步,生成时间一致的高质量动画,同时提升了计算效率。实验结果表明,KDTalker在唇形同步精度、头部姿态多样性及执行效率方面均达到了业界领先水平。我们的代码已发布于https://github.com/chaolongy/KDTalker。
我们推出ELTEX(高效大语言模型令牌提取),这是一个面向特定领域的高质量合成训练数据生成框架。尽管大语言模型(LLMs)在通用任务上展现了卓越能力,但在网络安全等专业领域,其性能仍受限于领域特定训练数据的匮乏。ELTEX通过系统性地整合显式领域指示符提取与动态提示技术,确保在生成过程中保留关键领域知识,从而应对这一挑战。我们以区块链相关网络攻击检测为背景,展示了ELTEX的有效性,其中我们利用真实数据与ELTEX生成数据的不同组合对Gemma-2B进行微调。结果表明,ELTEX增强后的模型在标准分类指标和不确定性校准方面均达到了与GPT-4相媲美的性能,同时显著减少了计算资源需求。我们发布了一个精心筛选的社交媒体文本合成数据集,用于区块链中的网络攻击检测。我们的工作证明,领域驱动的合成数据生成能够有效弥合资源高效模型与大型架构在专业领域中的性能差距。
近期,大型语言模型(LLMs)的进展展现了其推理能力的显著提升,从思维链(CoT)提示法演进至如OpenAI o1这样的高级产品化解决方案。在重新实现该模型的过程中,我们注意到,在处理需要视觉输入的多模态任务(如几何问题)时,多模态大型语言模型(MLLMs)难以持续关注视觉信息,换言之,随着推理的深入,MLLMs对视觉信息的注意力逐渐减弱,导致输出过度依赖文本。为探究此现象,我们在长链推理过程中对图像输入进行了消融实验。具体而言,我们在推理中途截断过程,随后移除输入图像并重新完成推理。在MathVista的测试困难子集上,我们仅观察到约2%的准确率下降,这揭示了模型的文本输出主导了后续推理过程。基于此发现,我们提出了“随身视觉条件化”(Take-along Visual Conditioning, TVC)策略,该策略将图像输入转移至关键推理阶段,并通过动态剪枝压缩冗余的视觉标记。此方法有助于模型在整个推理过程中保持对视觉成分的关注。我们的方法在五项数学推理基准测试中平均达到了最先进的性能(较之前最佳提升了3.4%),证明了TVC在增强多模态推理系统方面的有效性。
科学问题解决涉及信息综合与专业知识应用。我们推出CURIE,一个科学长文本理解、推理与信息抽取基准,旨在衡量大型语言模型(LLMs)在科学问题解决及辅助科学家实际工作流程中的潜力。该基准引入了十项挑战性任务,共计580个问题与解答对,由材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质六个领域的专家精心编撰,覆盖了科学实验与理论工作流程。我们评估了一系列封闭与开放LLMs在CURIE任务上的表现,这些任务要求领域专长、长上下文信息理解及多步推理能力。尽管Gemini Flash 2.0和Claude-3在各领域展现出持续的高理解力,但广受欢迎的GPT-4o和command-R+在蛋白质测序任务上表现显著不佳。所有模型的最佳成绩仅为32%,表明仍有巨大提升空间。我们期望CURIE的洞见能指引LLMs在科学领域的未来发展。评估代码与数据详见https://github.com/google/curie。
在复杂的多智能体环境中,实现高效学习与理想行为是多智能体强化学习(MARL)系统面临的一大挑战。本研究探讨了将MARL与大型语言模型(LLM)介导的干预相结合,以引导智能体朝向更理想行为的潜力。具体而言,我们研究了如何利用LLM来解读并促进干预,从而塑造多个智能体的学习轨迹。我们实验了两种干预方式,分别称为自然语言(NL)控制器和基于规则(RB)的控制器。其中,NL控制器通过LLM模拟类人干预,显示出比RB控制器更强的影响力。我们的研究结果表明,智能体尤其受益于早期干预,这不仅提升了训练效率,还提高了整体性能。两种干预方式均优于无干预的基线情况,凸显了LLM介导的指导在加速训练和提升MARL在复杂环境中的性能方面的巨大潜力。