每日精选AI研究论文及翻译
东南亚(SEA)是一个语言与文化多样性极为丰富的地区,然而在视觉-语言(VL)研究领域却显著缺乏代表性。这常常导致人工智能(AI)模型难以捕捉东南亚文化的细微差别。为填补这一空白,我们推出了SEA-VL,一个致力于为东南亚语言开发高质量、文化相关数据的开源项目。通过吸纳东南亚国家的贡献者,SEA-VL旨在确保更好的文化相关性与多样性,促进VL研究中未被充分代表语言的更大包容性。除了众包之外,我们的项目更进一步探索了通过爬取和图像生成自动收集文化相关图像的方法。首先,我们发现图像爬取在实现约85%文化相关性的同时,比众包更具成本和时间效益。其次,尽管生成视觉模型取得了显著进展,合成图像在准确反映东南亚文化方面仍不可靠,往往无法体现该地区细腻的传统和文化背景。总体而言,我们收集了128万张东南亚文化相关图像,规模超过现有其他数据集的50倍。通过SEA-VL,我们旨在弥合东南亚在代表性上的差距,推动开发更具包容性的AI系统,真实地展现东南亚多元文化。
提升大型多模态模型(LMMs)的推理能力面临独特挑战,这源于视觉感知与逻辑推理之间复杂的相互作用,尤其是在参数规模为3B的紧凑架构中,架构限制制约了推理能力和模态对齐。尽管基于规则的强化学习(RL)在纯文本领域表现出色,但其多模态扩展却遭遇两大关键障碍:(1)由于答案模糊及复杂推理示例稀缺导致的数据限制;(2)多模态预训练引发的基础推理能力下降。 为应对这些挑战,我们提出了\method,一个两阶段框架,通过基础推理增强(FRE)随后进行多模态泛化训练(MGT),将基于规则的RL适应于多模态推理。FRE阶段首先利用纯文本数据和基于规则的RL强化推理能力,随后MGT阶段将这些推理能力泛化至多模态领域。 在Qwen2.5-VL-Instruct-3B上的实验表明,\method在多模态和纯文本基准测试中分别实现了4.83%和4.5%的平均提升,在复杂的足球比赛任务中更是取得了3.63%的增益。这些结果验证了基于文本的推理增强能够有效促进多模态泛化,提供了一种绕过昂贵高质量多模态训练数据的高效范式。
我们致力于解决长篇幅音乐生成任务,尤其是极具挑战性的歌词转歌曲问题,为此引入了基于LLaMA2架构的开放基础模型系列——YuE。具体而言,YuE能够处理数万亿个标记,生成长达五分钟的音乐,同时保持歌词与旋律的精准对齐、连贯的音乐结构以及引人入胜的声乐旋律与恰当的伴奏。这一成就得益于以下三大创新:(1)采用音轨解耦的下一个标记预测技术,以克服密集混合信号带来的难题;(2)运用结构渐进式条件化方法,实现长上下文歌词对齐;(3)设计多任务、多阶段的预训练方案,确保模型收敛并具备良好的泛化能力。此外,我们重新设计了音乐生成中的上下文学习技术,使其能够灵活进行风格转换(例如,将日本城市流行乐转换为英语说唱,同时保留原伴奏)并支持双向生成。通过广泛的评估,我们证明YuE在音乐性和声乐灵活性方面与某些专有系统相当,甚至更胜一筹。此外,对YuE进行微调还能实现更多控制功能,并增强对少数语言的支持。更进一步,YuE不仅限于生成任务,其学习到的表示在音乐理解任务上也表现出色,在MARBLE基准测试中,YuE的结果达到或超越了当前最先进的方法。关键词:歌词转歌曲、歌曲生成、长篇幅、基础模型、音乐生成
训练模型以有效利用测试时计算资源,对于提升大语言模型(LLMs)的推理性能至关重要。当前方法主要通过基于搜索轨迹的微调或采用0/1结果奖励的强化学习(RL)来实现,但这些方法是否高效利用了测试时计算?随着计算预算的增加,这些方法能否持续扩展?本文旨在解答这些问题。我们将优化测试时计算的问题形式化为一个元强化学习(meta-RL)问题,这为合理分配测试时计算提供了理论依据。这一视角使我们能够将LLM生成的长时间输出流视为测试时运行的多个片段,并引导我们采用输出令牌上的累积遗憾作为衡量测试时计算效能的指标。类似于RL算法在训练中最佳地权衡探索与利用,最小化累积遗憾也能在令牌流中实现探索与利用的最佳平衡。尽管我们展示了现有顶尖模型并未最小化遗憾,但通过结合0/1结果奖励RL并最大化一个密集的奖励加成,可以实现这一目标。此加成是输出流中每个后续模块所取得的“进展”,通过最终成功概率的变化来量化。基于这些洞见,我们开发了元强化微调(Meta Reinforcement Fine-Tuning, MRT),这是一类新的用于优化测试时计算的微调方法。与结果奖励RL相比,MRT在数学推理任务上实现了2-3倍的性能相对提升,以及约1.5倍的令牌效率增益。
在本报告中,我们介绍了Gemini Embedding,这是一款利用Gemini强大能力的尖端嵌入模型,Gemini是谷歌目前最先进的大型语言模型。依托Gemini固有的多语言理解和代码处理能力,Gemini Embedding能够为跨越多种语言及文本模态的文本生成高度泛化的嵌入表示。由Gemini Embedding生成的表示可预先计算,并应用于多种下游任务,包括分类、相似度计算、聚类、排序及检索。在涵盖超过250种语言、包含百余项任务的大规模多语言文本嵌入基准测试(MMTEB)中,Gemini Embedding显著超越了以往的最先进模型,展现了在嵌入质量上的显著提升。我们的统一模型在MMTEB的多语言、英语及代码基准测试中均达到了业界领先水平,展现了在广泛任务选择上的强大能力,并超越了专注于特定领域的专业模型。
扩散模型的快速发展极大地推动了图像生成领域的显著进步。然而,当前主流模型如Flux、SD3.5和Midjourney仍面临模型偏差、文本渲染能力有限以及对中华文化细节理解不足等问题。为应对这些局限,我们推出了Seedream 2.0,一款原生中英双语图像生成基础模型,其在多个维度上表现卓越,能够熟练处理中英文文本提示,支持双语图像生成与文本渲染。我们构建了一个强大的数据系统,促进知识整合,并开发了一个平衡描述准确性与丰富性的图像标注系统。特别地,Seedream集成了自主研发的双语大语言模型作为文本编码器,使其能够直接从海量数据中学习本土知识,从而生成高保真图像,精准展现中英文描述的文化细节与美学表达。此外,采用Glyph-Aligned ByT5实现灵活的字级文本渲染,而Scaled ROPE则能良好泛化至未训练的分辨率。通过包括SFT和RLHF迭代在内的多阶段后训练优化,进一步提升了整体能力。大量实验表明,Seedream 2.0在提示跟随、美学表现、文本渲染及结构正确性等多个方面均达到了业界领先水平。同时,经过多轮RLHF优化,Seedream 2.0的输出与人类偏好高度契合,其卓越的ELO评分便是明证。此外,该模型易于适配为基于指令的图像编辑模型,如SeedEdit,具备强大的编辑能力,在指令遵循与图像一致性之间取得良好平衡。
我们推出MagicInfinite,一种创新的扩散Transformer(DiT)框架,突破了传统肖像动画的限制,能够在多种角色类型——包括写实人类、全身形象及风格化动漫角色——上实现高保真效果。该框架支持多样化的面部姿态,如背面视角,并能通过输入掩码对单角色或多角色进行动画处理,确保多角色场景中说话者的精准指定。我们的方法通过三项创新解决关键挑战:(1) 采用3D全注意力机制结合滑动窗口去噪策略,实现无限视频生成,保证跨多种角色风格的时间连贯性与视觉质量;(2) 实施两阶段课程学习方案,整合音频用于唇形同步、文本增强表现力动态、参考图像维护身份一致性,从而灵活控制长序列的多模态输出;(3) 应用区域特定掩码与自适应损失函数,平衡全局文本控制与局部音频引导,支持特定说话者的动画生成。通过创新的统一步骤与cfg蒸馏技术,效率显著提升,推理速度较基础模型提升20倍:在8块H100 GPU上,10秒内生成540x540p的10秒视频,或30秒内生成720x720p视频,且无质量损失。基于我们新基准的评估显示,MagicInfinite在音频-唇形同步、身份保持及动作自然度方面,在多种场景下均展现出卓越性能。该框架已公开于https://www.hedra.com/,示例可见于https://magicinfinite.github.io/。
两个人在执行相同动作时有何差异?在本研究中,我们提出了视频动作差异识别(VidDiff)这一新颖任务,旨在识别同一动作视频间的细微差别,该任务在教练指导与技能学习等领域具有广泛应用。为促进这一新任务的开发,我们首先构建了VidDiffBench基准数据集,包含549对视频,并提供了4,469条细粒度动作差异的人工标注以及2,075个定位时间戳,指明这些差异出现的位置。实验表明,VidDiffBench对GPT-4o和Qwen2-VL等当前最先进的大型多模态模型(LMMs)构成了显著挑战。通过分析LMMs在VidDiffBench上的失败案例,我们揭示了该任务面临的两大关键挑战:跨视频相关子动作的定位与细粒度帧对比。为克服这些挑战,我们提出了VidDiff方法,一种将任务分解为三个阶段的代理工作流程:动作差异提议、关键帧定位及帧差异分析,每个阶段均采用专门的基础模型。为鼓励未来在这一新任务上的研究,我们已在https://huggingface.co/datasets/jmhb/VidDiffBench发布基准数据集,并在http://jmhb0.github.io/viddiff公开了代码。
统一多模态模型(UMMs)已成为基础计算机视觉研究中的一个强大范式,在图像理解和生成方面展现出显著潜力。然而,现有的人脸领域研究主要集中于粗粒度面部属性的理解,处理细粒度面部属性的能力有限,且未涉及生成能力。为克服这些局限,我们提出了UniF^2ace,这是首个专为细粒度人脸理解与生成量身定制的UMM。总体而言,我们利用两种互补的扩散技术和两级专家混合架构,在自建的专业数据集上训练UniF^2ace。具体来说,我们首先构建了一个大规模人脸数据集UniF^2ace-130K,包含13万张图像-文本对及覆盖广泛面部属性的百万级问答对。其次,我们建立了离散扩散评分匹配与掩码生成模型之间的理论联系,同时优化两者的证据下界,显著提升了模型合成面部细节的能力。最后,我们引入了令牌级和序列级的专家混合机制,为理解和生成任务实现了高效的细粒度表示学习。在UniF^2ace-130K上的大量实验表明,UniF^2ace在理解和生成任务上均超越了现有的UMMs和生成模型,展现出卓越的性能。
尽管多模态大语言模型(MLLMs)已展现出足够的图像理解能力,但在像素级理解方面仍存在局限,制约了其实际应用。当前的评估任务,如视觉问答(VQA)和视觉定位,仍过于粗略,难以准确评估细粒度的像素理解。虽然分割是像素级理解的基础,但现有方法通常要求MLLMs生成隐含标记,并通过外部像素解码器解码。这种方法扰乱了MLLM的文本输出空间,可能损害语言能力,降低灵活性和可扩展性,同时未能反映模型内在的像素级理解能力。 因此,我们引入了类人掩码标注任务(HLMAT),这是一种新范式,MLLMs在此任务中模仿人类标注者使用交互式分割工具。将分割建模为多步马尔可夫决策过程,HLMAT使MLLMs能够迭代生成基于文本的点击点,无需改变架构或生成隐含标记即可获得高质量掩码。通过这一设置,我们开发了SegAgent模型,该模型在类人标注轨迹上进行了微调,其性能与最先进(SOTA)方法相当,并支持掩码精炼和标注过滤等附加任务。 HLMAT为评估MLLMs的细粒度像素理解提供了一种协议,并引入了一个以视觉为中心的多步决策任务,促进了探索MLLMs视觉推理能力的研究。我们对策略改进方法StaR和PRM引导的树搜索的适应,进一步增强了模型在复杂分割任务中的鲁棒性,为未来MLLMs在细粒度视觉感知和多步决策方面的进步奠定了基础。
尽管近期文本到视频扩散模型的进展使得从单一提示生成高质量短视频成为可能,但在单次生成中创建现实世界的长视频仍面临数据有限和计算成本高的挑战。为解决这一问题,多项研究提出了无需调优的方法,即扩展现有模型以生成长视频,特别是通过使用多个提示来实现动态且可控的内容变化。然而,这些方法主要侧重于确保相邻帧之间的平滑过渡,往往导致内容漂移和语义连贯性在较长序列中逐渐丧失。针对此问题,我们提出了同步耦合采样(SynCoS),一种新颖的推理框架,它同步整个视频的去噪路径,确保相邻及远距离帧之间的长期一致性。我们的方法结合了两种互补的采样策略:反向采样和基于优化的采样,分别保证了局部过渡的无缝性和全局一致性的强化。然而,直接交替使用这两种采样会导致去噪轨迹错位,破坏提示引导并引入非预期的内容变化,因为它们独立运作。为解决这一问题,SynCoS通过一个固定的时间步长和基线噪声实现同步,确保采样完全耦合且去噪路径对齐。大量实验表明,SynCoS在多事件长视频生成方面显著提升,实现了更平滑的过渡和更优的长期一致性,在定量和定性评估上均超越了先前的方法。
测试时计算正成为一种新兴范式,用于增强语言模型在复杂多步推理任务中的表现,这一点在OpenAI的o1和o3模型以及DeepSeek的R1模型取得的成功中得到了验证。与测试时计算中的显式推理相比,隐式推理在推理效率上更具优势,所需生成的标记更少。然而,为何这种高级推理能力在隐式推理风格中未能显现?在本研究中,我们从头训练GPT-2模型,使用精心挑选的多步数学推理数据集,并通过分析性实验探讨语言模型如何在多步任务中执行隐式推理。我们的发现揭示:1)语言模型能够通过隐式推理进行逐步推理,并在领域内及跨领域测试中达到高准确率,但这一能力仅在固定模式数据训练下显现。2)相反,基于非固定模式数据训练所获得的隐式推理能力,往往过度拟合特定模式,难以进一步泛化。值得注意的是,这一局限在当今最先进的大型语言模型中也同样存在。这些发现表明,语言模型通过捷径学习获得隐式推理能力,使其在相似模式任务上表现强劲,却缺乏泛化能力。
近期,文本到图像生成领域的进展主要依赖于大规模数据集和参数密集的架构。这些要求严重限制了缺乏充足计算资源的研究者和实践者的可及性。本文提出了一种高效的图像生成模型训练范式——\model,它结合了知识蒸馏(KD)和直接偏好优化(DPO)技术。借鉴多模态大语言模型(MLLMs)中广泛采用的数据知识蒸馏技术的成功经验,LightGen将最先进的(SOTA)文本到图像模型的知识蒸馏至仅含0.7B参数的紧凑型掩码自回归(MAR)架构中。通过使用一个仅包含200万张由多样化描述生成的高质量图像的紧凑合成数据集,我们证明了数据多样性在决定模型性能方面远胜于数据量。这一策略大幅降低了计算需求,并将预训练时间从可能的上千GPU天缩短至仅88GPU天。此外,针对合成数据固有的缺陷,尤其是高频细节不足和空间定位不准确的问题,我们引入了DPO技术,以提升图像的逼真度和位置精度。全面的实验证实,LightGen在显著减少计算资源的同时,实现了与SOTA模型相当的图像生成质量,从而为资源受限的环境拓宽了应用可能性。代码已发布于https://github.com/XianfengWu01/LightGen。
近期,统一多模态理解与视觉生成(或多模态生成)模型的发展,受限于其二次方的计算复杂度及对大规模训练数据的依赖。我们推出了OmniMamba,首个基于线性架构的多模态生成模型,通过统一的下一标记预测范式,同时生成文本与图像。该模型充分利用了Mamba-2的高计算与内存效率,将其能力从文本生成扩展至多模态生成。针对现有统一模型的数据效率低下问题,我们提出了两项关键创新:(1) 解耦词汇表以指导特定模态的生成,(2) 任务特定的LoRA实现参数高效适配。此外,我们引入了解耦的两阶段训练策略,以缓解两项任务间的数据不平衡。得益于这些技术,OmniMamba在仅训练2百万图文对的情况下,性能与JanusFlow相当,并在多个基准测试中超越Show-o,而训练数据量仅为后者的千分之一。尤为突出的是,OmniMamba在推理效率上表现卓越,相比基于Transformer的模型,在长序列生成上实现了高达119.2倍的加速,并减少了63%的GPU内存占用。代码与模型已发布于https://github.com/hustvl/OmniMamba。
指令跟随检索器已与大型语言模型(LLMs)一同广泛应用于现实场景中,然而,针对其日益增强的搜索能力所带来的安全风险,相关研究却相对匮乏。我们通过实证研究,探讨了检索器在直接使用及基于检索增强生成(RAG)框架下满足恶意查询的能力。具体而言,我们考察了包括NV-Embed和LLM2Vec在内的六种主流检索器,发现面对恶意请求时,多数检索器能够(针对超过50%的查询)筛选出相关有害段落。例如,LLM2Vec在我们的恶意查询中,正确选取段落的比例高达61.35%。此外,我们揭示了一种新兴风险,即通过利用指令跟随检索器的指令遵循特性,可以轻易获取高度相关的有害信息。最后,我们证明,即便是经过安全对齐的LLMs,如Llama3,在上下文中接收到有害检索段落时,也能满足恶意请求。综上所述,我们的研究结果凸显了随着检索器能力提升而伴随的恶意滥用风险。
代码定位——精确识别代码库中需要修改的位置——是软件维护中一项基础但极具挑战性的任务。现有方法在识别相关代码段时,难以高效地导航复杂的代码库。这一挑战的核心在于如何将自然语言描述的问题与相应的代码元素有效关联,通常需要跨越层次结构和多重依赖关系进行推理。我们提出了LocAgent框架,通过基于图的表示方法来解决代码定位问题。LocAgent将代码库解析为有向异构图,构建了一个轻量级的表示,捕捉代码结构(文件、类、函数)及其依赖关系(导入、调用、继承),使大语言模型(LLM)代理能够通过强大的多跳推理有效搜索和定位相关实体。在真实世界基准测试中的实验结果表明,我们的方法显著提高了代码定位的准确性。值得注意的是,采用微调后的Qwen-2.5-Coder-Instruct-32B模型,我们的方法以大幅降低的成本(约减少86%),在文件级定位上达到了92.7%的准确率,同时将下游GitHub问题解决成功率在多尝试(Pass@10)情况下提升了12%。我们的代码已公开于https://github.com/gersteinlab/LocAgent。
人类与外部世界的互动本质上涉及个人记忆的交换,无论是与他人、网站、应用程序,还是未来与AI代理的交流。这种互动中有很大一部分是重复的,要求用户在不同场景下反复提供相同的信息。现有的解决方案,如浏览器存储的凭证、自动填充机制和统一认证系统,旨在通过作为存储和检索常用用户数据的中介来减少这种冗余。大型语言模型(LLMs)的出现为重新定义记忆管理提供了一个AI原生的范式:SECOND ME。SECOND ME作为一个智能、持久的记忆卸载系统,保留、组织并动态利用用户特定的知识。通过充当用户互动的中介,它能够自主生成上下文感知的响应、预填所需信息,并促进与外部系统的无缝沟通,显著降低认知负荷和互动摩擦。与传统的记忆存储解决方案不同,SECOND ME通过基于LLM的记忆参数化,超越了静态数据保留,实现了结构化组织、上下文推理和自适应知识检索,推动了记忆管理向更系统化和智能化的方向发展。随着像SECOND ME这样的AI驱动个人代理日益融入数字生态系统,SECOND ME进一步代表了向增强人类与外界互动迈出的关键一步,通过持久、上下文感知和自我优化的记忆系统。我们已在GitHub上开源了完全可本地化的部署系统:https://github.com/Mindverse/Second-Me。
我们提出了一种新颖的视觉标记化框架,该框架将可证明的类似PCA(主成分分析)结构嵌入到潜在标记空间中。现有的视觉标记化方法主要优化重建保真度,却往往忽视了潜在空间的结构特性——这对于可解释性和下游任务至关重要。我们的方法为图像生成一维因果标记序列,其中每个后续标记贡献的信息互不重叠,且具有数学保证的递减解释方差,类似于主成分分析。这种结构约束确保了标记化器首先提取最显著的视觉特征,随后每个标记添加的信息虽逐渐减少但互为补充。此外,我们识别并解决了语义-频谱耦合效应,该效应导致高级语义内容与低级频谱细节在标记中不必要地纠缠,通过利用扩散解码器解决了这一问题。实验表明,我们的方法在重建性能上达到了最新水平,并实现了与人类视觉系统更好对齐的可解释性。此外,基于我们标记序列训练的自回归模型,在训练和推理所需标记更少的情况下,性能与当前最先进方法相当。
随着多模态基础模型开始在自动驾驶汽车中进行实验性部署,我们不禁要问:这些系统在特定驾驶情境下的反应与人类有多相似——尤其是在那些分布外的情况下?为了研究这一问题,我们创建了Robusto-1数据集,该数据集使用了秘鲁的行车记录仪视频数据。秘鲁是全球驾驶行为最为激进的国家之一,交通指数高,且街道上出现的奇异物体与非奇异物体的比例极高,这些物体很可能从未在训练中出现过。具体而言,为了初步测试基础视觉语言模型(VLMs)在驾驶认知层面与人类的对比表现,我们摒弃了边界框、分割图、占据图或轨迹估计等方法,转而采用多模态视觉问答(VQA),通过系统神经科学中广为人知的表征相似性分析(RSA)来比较人类与机器的表现。根据我们提出的问题类型以及这些系统给出的答案,我们将展示在哪些情况下VLMs与人类的表现趋同或相异,从而探究它们的认知对齐程度。我们发现,对齐程度显著取决于向每种系统(人类与VLMs)提出的问题类型,这凸显了它们在对齐上的差距。
本文介绍了CineBrain,这是首个在动态视听刺激下同步记录脑电图(EEG)和功能磁共振成像(fMRI)的大规模数据集。认识到EEG高时间分辨率与fMRI深脑空间覆盖的互补优势,CineBrain为六名参与者分别提供了约六小时来自热门电视剧《生活大爆炸》的叙事驱动内容。基于这一独特数据集,我们提出了CineSync,一种创新的多模态解码框架,该框架将多模态融合编码器与基于扩散的神经潜在解码器相结合。我们的方法有效融合了EEG和fMRI信号,显著提升了复杂视听刺激的重建质量。为了促进严格评估,我们引入了Cine-Benchmark,这是一个全面的评估协议,从语义和感知维度对重建结果进行评估。实验结果表明,CineSync在视频重建性能上达到了业界领先水平,并展示了我们首次成功结合fMRI和EEG重建视频和音频刺激的初步成果。项目页面:https://jianxgao.github.io/CineBrain。
大型视觉语言模型(LVLMs)已展现出显著的成就,但在事实探寻问答(QA)中,生成非事实性回答的现象依然普遍。当前的多模态事实探寻基准主要集中于将模型输出与标准答案进行对比,对模态特定模块的性能提供有限洞察。为填补这一空白,我们引入了VisualSimpleQA,这是一个具备两大关键特征的多模态事实探寻基准。首先,它支持对LVLMs在视觉与语言模态上进行简化且解耦的评估。其次,该基准融入了明确的难度标准,以指导人工标注,并便于提取出更具挑战性的子集——VisualSimpleQA-hard。对15个LVLMs的实验表明,即便是如GPT-4o这样的顶尖模型,在VisualSimpleQA上的多模态事实探寻QA中正确率也仅略高于60%,而在VisualSimpleQA-hard上则刚过30%。此外,跨这些模型的解耦评估揭示出视觉与语言模块均存在显著的改进空间。该数据集可通过https://huggingface.co/datasets/WYLing/VisualSimpleQA获取。
基准测试对于确保评估的一致性和结果的可复现性至关重要。人工智能与软件工程的融合(AI4SE)催生了众多针对代码生成和缺陷修复等任务的基准测试。然而,这一激增也带来了挑战:(1) 基准测试知识分散于不同任务中,(2) 选择相关基准测试的难度增加,(3) 缺乏统一的基准测试开发标准,以及(4) 现有基准测试的局限性。本文回顾了173项研究,识别出204个AI4SE基准测试。我们对这些基准测试进行了分类,分析了它们的局限性,并揭示了实践中的空白。基于此,我们开发了BenchScout,一个通过自动聚类相关研究上下文来寻找相关基准测试的语义搜索工具。我们邀请了22名参与者进行用户研究,评估BenchScout的可用性、有效性和直观性,平均得分分别为4.5、4.0和4.1(满分5分)。为了推进基准测试标准,我们提出了BenchFrame,一种提升基准测试质量的统一方法。作为案例研究,我们将BenchFrame应用于HumanEval基准测试,解决了其主要限制,从而产生了HumanEvalNext,其特点包括:(1) 错误修正,(2) 语言转换优化,(3) 测试覆盖范围扩大,以及(4) 难度提升。随后,我们在HumanEval、HumanEvalPlus和HumanEvalNext上评估了十种最先进的代码语言模型。在HumanEvalNext上,模型的pass@1得分相较于HumanEval和HumanEvalPlus分别降低了31.22%和19.94%。
在大规模语言模型中,神经元往往表现出多义性,同时编码多个不相关的概念,从而模糊了可解释性。我们提出了MoE-X,一种混合专家(Mixture-of-Experts, MoE)语言模型,旨在实现内在的可解释性,而非依赖事后分析方法。我们的方法基于一个观察:在语言模型中,具有稀疏激活的宽网络更有可能捕捉到可解释的因素。然而,直接训练如此大规模且稀疏的网络在计算上是不可行的。MoE架构通过仅激活针对特定输入的专家子集,提供了一种可扩展的替代方案,天然地与可解释性目标相契合。在MoE-X中,我们通过将MoE层重写为等效的稀疏大型多层感知机(MLP),建立了这种联系。这种方法在保持稀疏性的同时,实现了隐藏层规模的高效扩展。为了进一步增强可解释性,我们在每个专家内部强制稀疏激活,并重新设计路由机制,以优先选择激活稀疏度最高的专家。这些设计确保了只有最显著的特征会被路由并由专家处理。我们在国际象棋和自然语言任务上评估了MoE-X,结果显示它在保持与密集模型相当性能的同时,显著提升了可解释性。MoE-X的困惑度优于GPT-2,其可解释性甚至超越了基于稀疏自编码器(SAE)的方法。
联合音视频(AV)生成在生成式人工智能领域仍面临重大挑战,主要源于三大关键需求:生成样本的质量、无缝的多模态同步与时间一致性——即音频与视觉数据的相互匹配,以及无限时长的视频生成。本文提出了一种基于Transformer的创新架构,全面应对AV生成中的核心难题。我们探索了三种不同的跨模态交互模块,其中轻量级的时间融合模块脱颖而出,成为对齐音频与视觉模态最为有效且计算高效的方法。实验结果表明,该模型在多模态AV生成任务中超越了现有的最先进模型。我们的代码与模型检查点已公开于https://github.com/ErgastiAlex/R-FLAV。
尽管基于学习的运动插值技术近期取得了进展,但一个关键限制却被忽视了:对角色特定数据集的依赖。在本研究中,我们提出了AnyMoLe,一种创新方法,通过利用视频扩散模型为任意角色生成运动插值帧,无需外部数据,从而解决了这一局限。我们的方法采用两阶段帧生成过程以增强上下文理解。此外,为了弥合现实世界与渲染角色动画之间的领域差距,我们引入了ICAdapt,一种针对视频扩散模型的微调技术。同时,我们提出了一种“运动-视频模仿”优化技术,使得利用2D和3D感知特征为具有任意关节结构的角色实现无缝运动生成成为可能。AnyMoLe显著降低了对数据的依赖,同时生成平滑且逼真的过渡,使其适用于广泛的运动插值任务。
先前的研究已证实,语言模型存在刻板偏见。现有的去偏策略,如使用反事实数据重新训练模型、表示投影和提示技术,往往无法有效消除偏见或直接改变模型内部的偏见表征。为解决这些问题,我们提出了BiasEdit,一种高效的模型编辑方法,通过轻量级网络作为编辑器生成参数更新,从而去除语言模型中的刻板偏见。BiasEdit采用去偏损失指导编辑器网络对语言模型的部分参数进行局部编辑,同时通过保留损失确保编辑过程中语言建模能力不受影响。在StereoSet和Crows-Pairs数据集上的实验表明,相较于切线去偏基线方法,BiasEdit在消除偏见方面展现出高效性、有效性和鲁棒性,且对语言模型的通用能力影响微乎其微。此外,我们还进行了偏见追踪,探究了不同模块中的偏见分布,并探索了偏见编辑对语言模型各组成部分的影响。
在计算机视觉领域,人类无疑是最重要的参与者,而根据自然语言描述检测特定个体的能力——我们将其定义为“指向任意人物”的任务——具有重要的实用价值。然而,我们发现现有模型普遍难以实现实际应用中的可用性,且当前基准测试因局限于一对一的指向关系而阻碍了这一领域的进展。在本研究中,我们从三个关键视角重新审视这一任务:任务定义、数据集设计和模型架构。首先,我们明确了可指向实体的五个方面及该任务的三个显著特征。接着,我们引入了HumanRef,这是一个旨在应对这些挑战并更好地反映现实世界应用场景的新颖数据集。从模型设计角度出发,我们将多模态大语言模型与目标检测框架相结合,构建了一个名为RexSeek的稳健指向模型。实验结果表明,在RefCOCO/+/g等常用基准测试上表现优异的现有模型,由于无法检测多个个体,在HumanRef上表现欠佳。相比之下,RexSeek不仅在人物指向任务中表现出色,还能有效泛化至常见物体的指向任务,使其广泛适用于多种感知任务。代码已发布于https://github.com/IDEA-Research/RexSeek。
扩散模型和流匹配方法虽能生成高质量样本,但在推理时速度较慢,且将其蒸馏为少步模型常导致不稳定性和大量调参需求。为解决这些权衡问题,我们提出了归纳矩匹配(IMM),这是一种专为一步或少数步采样设计的新型生成模型,采用单阶段训练流程。与蒸馏不同,IMM无需预训练初始化及双网络优化;相较于一致性模型,IMM确保了分布层面的收敛性,并在多种超参数及标准模型架构下保持稳定。在ImageNet-256x256数据集上,IMM仅用8步推理便以1.99的FID超越了扩散模型,并在CIFAR-10上实现了从零训练模型的最优两步FID,达到1.98,创下新纪录。
先前的研究发现,基于预训练语言模型(PLM)的检索模型对大型语言模型(LLM)生成的内容表现出偏好,即使这些文档的语义质量与人类撰写的相当,也会赋予其更高的相关性评分。这一现象被称为来源偏差,威胁着信息获取生态系统的可持续发展。然而,来源偏差的根本原因尚未得到深入探讨。本文通过因果图解释了信息检索的过程,发现基于PLM的检索器在学习用于相关性估计的困惑度特征时,倾向于将低困惑度的文档排名更高,从而导致了来源偏差。理论分析进一步揭示,这一现象源于语言建模任务与检索任务中损失函数梯度之间的正相关性。基于此分析,我们提出了一种因果启发的推理时去偏方法,称为因果诊断与校正(CDC)。CDC首先诊断困惑度的偏差效应,随后从整体估计的相关性评分中分离出这一偏差效应。跨三个领域的实验结果展示了CDC卓越的去偏效果,验证了我们所提出的解释框架的有效性。源代码可在https://github.com/WhyDwelledOnAi/Perplexity-Trap获取。
扩散模型在多个领域取得了显著成功。然而,其生成速度缓慢仍是一个关键挑战。现有的加速方法虽然旨在减少采样步骤,但往往以牺牲样本质量、可控性或引入训练复杂性为代价。为此,我们提出了RayFlow,一种新颖的扩散框架,以解决这些局限。与以往方法不同,RayFlow引导每个样本沿着独特路径向实例特定的目标分布前进。该方法在最小化采样步骤的同时,保持了生成的多样性和稳定性。此外,我们引入了时间采样器(Time Sampler),一种重要性采样技术,通过聚焦于关键时间步来提升训练效率。大量实验表明,与现有加速技术相比,RayFlow在生成高质量图像方面具有更优的速度、控制性和训练效率。
随着大型语言模型(LLMs)的出现,神经机器翻译(NMT)领域发生了显著变化。近期自然语言处理(NLP)的研究重点多集中于利用单一预训练的Transformer解码器来建模机器翻译及其他诸多问题,而早先NMT模型中作为标准的编码器-解码器架构则相对较少受到关注。本文中,我们通过融合LLMs与NMT的世界,探索了通用、高效且易于优化的翻译模型。我们将LLMs应用于NMT编码,同时保持NMT解码器不变,并开发了使LLMs更好地与NMT解码器协同工作的方法。此外,我们构建了一个包含多任务的新数据集,以评估机器翻译系统在各类任务上的泛化能力。在WMT及我们数据集上的评估表明,采用我们的方法在翻译质量上达到或超越了一系列基线模型,同时实现了2.4至6.5倍的推理加速,以及KV缓存内存占用减少75%。该方法还展示出在多种翻译相关任务上的强大泛化能力。
近期在长视频理解领域的进展通常通过基于注意力分布的视觉令牌剪枝来缓解视觉冗余。然而,现有方法虽然在解码器层采用事后低响应令牌剪枝,却忽视了视觉令牌与指令(查询)之间在输入层面的语义关联。本文提出QuoTA,一种无需训练的事前模块,它扩展了现有的大规模视频-语言模型(LVLMs),基于查询导向的帧级重要性评估进行视觉令牌分配。查询导向的令牌选择至关重要,因为它使视觉处理与任务特定需求对齐,优化令牌预算利用的同时保留语义相关内容。具体而言,(i) QuoTA根据查询相关性策略性地分配帧级重要性评分,使得在解码器层跨模态交互前一次性完成视觉令牌分配,(ii) 我们通过思维链推理解耦查询,以促进更精确的基于LVLM的帧重要性评分,以及(iii) QuoTA提供即插即用功能,可扩展至现有LVLMs。大量实验结果表明,在LLaVA-Video-7B上实施QuoTA,在保持与基线相同视觉令牌预算的情况下,在包括Video-MME和MLVU在内的六个基准测试中平均性能提升了3.2%。代码已开源,地址为https://github.com/MAC-AutoML/QuoTA。
看似简单,将图像中的物体移动到另一位置实际上是一项极具挑战性的图像编辑任务,它需要重新协调光照、根据视角调整姿态、精确填充被遮挡区域,并确保阴影与反射的同步一致性,同时保持物体身份不变。本文提出了ObjectMover,一种能够在高度复杂场景中执行物体移动的生成模型。我们的核心见解是将此任务建模为序列到序列问题,并通过微调视频生成模型,利用其在视频帧间一致物体生成方面的知识。我们展示了采用此方法后,模型能够适应复杂的现实场景,处理极端光照协调与物体效果移动。鉴于缺乏大规模物体移动数据,我们利用现代游戏引擎构建了一个数据生成管道,以合成高质量的数据对。此外,我们提出了一种多任务学习策略,通过在真实世界视频数据上训练,提升模型的泛化能力。大量实验证明,ObjectMover取得了卓越成果,并能很好地适应现实世界场景。
专家混合模型(Mixture of Experts, MoE)通过利用稀疏专家激活,在性能与效率之间取得平衡,是扩展大规模语言模型的有效架构。然而,在专家并行机制下,MoE因令牌到专家分配不均而面临推理效率低下的问题,即部分专家过载而其他专家利用率不足。这种不平衡导致资源利用不佳和延迟增加,其中最繁忙的专家决定了整体延迟,这一现象我们定义为“拖尾效应”。为缓解此问题,我们提出了容量感知推理,包含两项关键技术:(1)容量感知令牌丢弃,通过舍弃过载令牌来调控MoE的最大延迟;(2)容量感知令牌重定向,将溢出的令牌重新分配给利用率低的专家,平衡令牌分布。这些技术共同优化了高负载与低负载专家的利用率,使得MoE推理管道更为高效。大量实验验证了我们方法的有效性,展示了推理效率的显著提升,例如在Mixtral-8×7B-Instruct模型上实现了0.2%的平均性能提升和1.94倍的推理加速。
密集检索模型在信息检索(IR)应用中广泛使用,例如检索增强生成(RAG)。由于它们通常作为这些系统的第一步,其鲁棒性对于避免故障至关重要。在本研究中,我们通过重新利用关系抽取数据集(如Re-DocRED),设计了控制实验,以量化Dragon+和Contriever等检索器中启发式偏差(如偏好较短文档)的影响。我们的发现揭示了显著的脆弱性:检索器往往依赖表面模式,如过度优先考虑文档开头、较短文档、重复实体和字面匹配。此外,它们倾向于忽略文档是否包含查询答案,缺乏深层次的语义理解。值得注意的是,当多种偏差结合时,模型表现出灾难性的性能下降,在不到3%的情况下选择包含答案的文档,而非偏向于不包含答案的偏差文档。此外,我们展示了这些偏差对下游应用(如RAG)有直接影响,其中检索偏好的文档可能误导大型语言模型(LLMs),导致性能下降34%,甚至比不提供任何文档更差。
智能是物种在有限次试错中寻找解决方案的关键特质。基于这一理念,我们引入了“生存游戏”作为评估智能的框架,该框架以试错过程中的失败次数为衡量标准。失败次数越少,表明智能水平越高。当失败次数的期望值和方差均为有限值时,这标志着系统能够持续找到应对新挑战的解决方案,我们将其定义为“自主智能水平”。通过“生存游戏”,我们对现有AI系统进行了全面评估。结果显示,尽管AI系统在简单任务中达到了自主智能水平,但在视觉、搜索、推荐和语言等更复杂的任务中,它们仍远未达标。虽然扩展当前AI技术可能有所帮助,但这将带来天文数字般的成本。预测表明,实现通用任务的自主智能水平需要10^{26}个参数。为了直观理解这一规模,加载如此庞大的模型所需的H100 GPU总量,其总价值是苹果公司市值的10^{7}倍。即便遵循摩尔定律,支持如此规模的参数也需要70年。这一惊人成本凸显了人类任务的复杂性及当前AI技术的不足。为了深入探究这一现象,我们对“生存游戏”及其实验结果进行了理论分析。研究发现,人类任务具有临界性特征。因此,达到自主智能水平需要深刻理解任务的内在机制。然而,当前AI系统并未完全掌握这些机制,而是依赖于表面的模仿,这使得它们难以达到自主水平。我们相信,“生存游戏”不仅能指导AI的未来发展,还能为理解人类智能提供深刻的洞见。
在医疗领域,语言模型产生的幻觉输出对非专业受众做出健康相关决策构成风险。现有的真实性评估方法,如基于蕴含和问答(QA)的方法,在处理通俗语言摘要(PLS)生成时面临挑战,这主要归因于解释性扩展现象——即引入源文档中未包含的外部内容(如定义、背景、示例)以增强理解。为解决这一问题,我们提出了PlainQAFact框架,该框架基于精细标注的人工数据集PlainFact进行训练,旨在评估源简化句和解释性扩展句的真实性。PlainQAFact首先分类真实性类型,随后采用检索增强的QA评分方法评估真实性。我们的方法轻量且计算高效。实证结果表明,现有真实性指标难以有效评估PLS中的真实性,特别是对于解释性扩展内容,而PlainQAFact则实现了最先进的性能。我们进一步分析了其在不同外部知识源、答案提取策略、重叠度测量及文档粒度层次上的有效性,从而优化了其整体真实性评估能力。
在当今数字化时代,随着摄像头数量的不断增长,隐私问题日益凸显。尽管现有的匿名化方法能够隐藏身份信息,但它们往往难以保持图像的实用性。在本研究中,我们提出了一种无需训练的匿名化方法,用于面部处理,同时保留关键的非身份相关属性。我们的方法利用预训练的文本到图像扩散模型,无需优化或训练。首先,通过反转输入图像恢复其初始噪声。随后,通过一个基于身份条件的扩散过程对噪声进行去噪,其中修改后的身份嵌入确保匿名化后的面部与原始身份不同。我们的方法还支持局部匿名化,让用户能够控制哪些面部区域被匿名化或保持原样。与最先进方法的全面对比评估显示,我们的方法在匿名化、属性保留和图像质量方面表现出色。其灵活性、鲁棒性和实用性使其非常适合实际应用。代码和数据可在https://github.com/hanweikung/nullface 获取。
近年来,通过生成式预训练,基础模型取得了显著进展,然而该领域的算法创新主要停滞在针对离散信号的自回归模型和针对连续信号的扩散模型上。这种停滞形成了一个瓶颈,阻碍了我们充分挖掘丰富多模态数据的潜力,进而限制了多模态智能的发展。我们认为,采用“推理优先”的视角——即在推理阶段优先考虑跨序列长度和优化步骤的扩展效率——能够激发新型生成式预训练算法的诞生。以归纳矩匹配(IMM)为例,我们展示了如何通过针对性修改来解决扩散模型推理过程中的局限性,从而开发出一种稳定的单阶段算法,该算法不仅实现了更优的样本质量,还将推理效率提升了一个数量级以上。
视觉-语言-动作(VLA)模型旨在根据视觉观察和语言指令预测机器人动作。现有方法需要对预训练的视觉语言模型(VLM)进行微调,因为视觉和语言特征被独立输入到下游策略中,这削弱了预训练的语义对齐效果。我们提出了OTTER,一种新颖的VLA架构,通过显式的、文本感知的视觉特征提取来利用这些现有的对齐关系。OTTER并非处理所有视觉特征,而是选择性地提取并仅传递与语言指令语义对齐的任务相关视觉特征至策略变换器。这使得OTTER能够保持预训练的视觉语言编码器冻结,从而保留并利用从大规模预训练中学到的丰富语义理解,实现强大的零样本泛化能力。在仿真和真实世界实验中,OTTER显著超越了现有的VLA模型,展示了对新物体和环境的强大零样本泛化能力。视频、代码、检查点和数据集请访问:https://ottervla.github.io/。