每日精选AI研究论文及翻译
. 尽管面部交换任务最近在学术界引起了广泛关注,但与之相关的头部交换问题却仍鲜有研究。除了肤色迁移外,头部交换还带来了额外的挑战,例如在合成过程中需要保留整个头部的结构信息,以及填补交换后的头部与背景之间的空隙。本文中,我们通过GHOST 2.0系统解决了这些问题,该系统包含两个针对特定问题的模块。首先,我们引入了增强版的Aligner模型用于头部重现,该模型能在多个尺度上保留身份信息,并对极端姿态变化具有鲁棒性。其次,我们采用了一个Blender模块,通过肤色迁移和修复不匹配区域,将重现的头部无缝融入目标背景。这两个模块在各自的任务上均超越了基线模型,使得头部交换达到了业界领先水平。我们还处理了复杂情况,如源图像与目标图像在发型上存在显著差异的情形。相关代码已发布于https://github.com/ai-forever/ghost-2.0。
我们推出Kanana系列双语语言模型,其在韩语表现上超越同类,在英语表现上具有竞争力。与同等规模的顶尖模型相比,Kanana的计算成本显著降低。本报告详细阐述了在预训练阶段采用的技术,以实现计算高效且性能优异的模型,包括高质量数据过滤、分阶段预训练、深度扩展以及剪枝与蒸馏。此外,报告还概述了Kanana模型在训练后阶段所采用的方法,涵盖有监督微调和偏好优化,旨在提升其与用户无缝交互的能力。最后,报告深入探讨了语言模型适应特定场景的可行方法,如嵌入、检索增强生成和函数调用。Kanana模型系列参数规模从21亿到325亿不等,其中21亿参数模型(基础版、指令版、嵌入版)已公开发布,以促进韩语语言模型的研究。
科学发现依赖于科学家提出新颖假设并经过严格的实验验证。为增强这一过程,我们引入了一位AI科研助手,这是一个基于Gemini 2.0构建的多智能体系统。该AI科研助手旨在协助揭示新的原创知识,并基于现有证据,结合科学家提供的研究目标和指导,制定出可证明新颖的研究假设与提案。系统设计采用了生成、辩论与进化的假设生成方法,灵感源自科学方法,并通过扩展测试时计算资源加速实现。主要贡献包括:(1) 采用多智能体架构及异步任务执行框架,以实现灵活的计算扩展;(2) 引入锦标赛式进化过程,促进假设生成的自我优化。自动化评估显示,增加测试时计算资源持续提升假设质量。尽管系统通用,我们着重于三个生物医学领域的开发与验证:药物再利用、新靶点发现以及细菌进化与抗微生物耐药性机制的阐释。在药物再利用方面,系统提出的候选药物展现出有前景的验证结果,包括针对急性髓系白血病的候选药物,在体外实验中于临床适用浓度下显示出肿瘤抑制作用。在新靶点发现方面,AI科研助手提出了肝纤维化的新表观遗传靶点,通过人源肝类器官中的抗纤维化活性及肝细胞再生得到验证。最后,AI科研助手通过并行计算机模拟,重现了未发表的实验结果,发现了一种细菌进化中的新基因转移机制。这些成果,详见同期发布的独立报告,展示了增强生物医学与科学发现的潜力,预示着AI赋能科学家时代的到来。
理解特定领域的定理通常不仅需要基于文本的推理;通过结构化视觉解释进行有效沟通对于深入理解至关重要。尽管大型语言模型(LLMs)在基于文本的定理推理方面表现出色,但其生成连贯且具有教学意义的视觉解释的能力仍是一个未解决的挑战。在本研究中,我们提出了TheoremExplainAgent,一种利用Manim动画生成长篇定理解释视频(超过5分钟)的代理方法。为了系统评估多模态定理解释,我们提出了TheoremExplainBench,一个涵盖多个STEM学科240个定理的基准,以及5个自动化评估指标。我们的结果表明,代理规划对于生成详细的长篇视频至关重要,o3-mini代理的成功率达到93.8%,总体得分为0.77。然而,我们的定量和定性研究表明,大多数生成的视频在视觉元素布局上存在轻微问题。此外,多模态解释揭示了基于文本的解释未能暴露的更深层次推理缺陷,凸显了多模态解释的重要性。
尽管希腊在全球经济中扮演着关键角色,但由于希腊语的语言复杂性及领域特定数据集的稀缺,大型语言模型(LLMs)在希腊金融语境中的应用仍未被充分探索。以往的多语言金融自然语言处理(NLP)研究已揭示出显著的性能差异,然而,迄今为止,尚未开发出专门的希腊金融基准测试或希腊特定的金融LLMs。为填补这一空白,我们推出了Plutus-ben,首个希腊金融评估基准,以及Plutus-8B,首款基于希腊领域特定数据微调的希腊金融LLM。Plutus-ben涵盖了希腊金融NLP的五大核心任务:数值与文本命名实体识别、问答、摘要生成及主题分类,从而促进了LLM的系统化与可重复性评估。为支撑这些任务,我们提供了三个全新的高质量希腊金融数据集,这些数据集由希腊语母语专家精心标注,并补充了两个现有资源。我们对22个LLMs在Plutus-ben上的全面评估显示,希腊金融NLP因语言复杂性、领域特定术语及金融推理差距而仍具挑战性。这些发现凸显了跨语言迁移的局限性、希腊训练模型中金融专业知识的必要性,以及将金融LLMs适应于希腊文本的挑战。我们公开了Plutus-ben、Plutus-8B及所有相关数据集,以推动可重复性研究并促进希腊金融NLP的发展,从而在金融领域实现更广泛的多语言包容性。
多语言语言模型(LMs)被期望能够在不同语言间一致地回忆事实知识,然而它们往往无法在语言间有效传递知识,即便在某一语言中已掌握正确信息。例如,我们发现,当用阿拉伯语询问时,一个LM可能正确识别出Rashed Al Shashai来自沙特阿拉伯,但在用英语或斯瓦希里语询问时却屡屡失败。为了系统性地探究这一局限,我们引入了一个包含13种语言的10,000条国家相关事实的基准,并提出了三个新颖的度量标准:事实回忆分数、知识可转移性分数及跨语言事实知识可转移性分数,用以量化LMs在不同语言间的事实回忆与知识转移能力。我们的研究结果揭示了当前最先进LMs的根本弱点,尤其是在跨语言泛化方面,模型未能有效地在不同语言间传递知识,导致其表现因所用语言而异,缺乏一致性。这些发现强调了LMs需识别语言特定的事实可靠性,并跨语言利用最可信信息的重要性。我们公开了我们的基准与评估框架,以推动未来在多语言知识转移领域的研究。
近期,o1类模型引起了广泛关注,这类模型通过生成长链思维(CoT)推理步骤,旨在提升现有大型语言模型(LLMs)的推理能力。本文中,为了深入理解这些长链CoT的质量,并评估现有LLMs对这类长链CoT的批判能力,我们引入了DeltaBench。DeltaBench包含了来自不同o1类模型(如QwQ、DeepSeek-R1)针对多种推理任务(如数学、编程、通用推理)所生成的长链CoT,用以衡量模型在检测长链CoT推理错误方面的能力。基于DeltaBench,我们首先对生成的长链CoT进行了细致分析,以揭示不同o1类模型的有效性与效率。随后,我们对现有的过程奖励模型(PRMs)及批判模型进行了广泛评估,旨在检测每个标注过程中的错误,从而探究现有PRMs和批判模型的边界与局限。最后,我们期望DeltaBench能够引导开发者更深入地理解其模型在长链CoT推理方面的能力。
我们推出了Rank1,这是首个利用测试时计算进行训练的重新排序模型。Rank1展示了在检索领域应用推理语言模型(如OpenAI的o1、深度求索的R1等)进行蒸馏以快速提升较小模型性能的可行性。我们收集并开源了一个包含超过60万条来自MS MARCO查询和段落R1推理轨迹的数据集。基于此数据集训练的模型展现出:(1)在高级推理和指令遵循数据集上的最先进性能;(2)由于能够响应用户输入提示,在分布外数据上表现尤为出色;(3)具备可解释的推理链,可提供给用户或基于RAG的系统。此外,我们证明了这些模型的量化版本在减少计算/内存使用的同时仍保持强劲性能。总体而言,Rank1表明,测试时计算为搜索领域带来了一种全新类型的、兼具可解释性与高性能的重新排序模型。
奖励模型(RMs)对于大规模语言模型(LLMs)的训练及推理阶段的扩展至关重要。然而,现有的奖励模型主要聚焦于人类偏好,忽视了可验证的正确性信号,而这些信号在训练LLMs中已展现出强大的潜力。本文提出了一种代理式奖励建模方法,该系统将奖励模型与来自不同方面的可验证正确性信号相结合,以提供更可靠的奖励。我们实证性地实现了一个名为RewardAgent的奖励代理,它结合了人类偏好奖励与两种可验证信号:事实性和指令遵循,从而提供更为可靠的奖励。我们在现有奖励模型基准上进行了全面实验,并在现实世界下游任务中进行了推理时的最佳-n搜索。RewardAgent显著优于传统奖励模型,证明了其有效性。进一步,我们利用RewardAgent构建训练偏好对,并采用DPO目标训练了一个LLM,在多种NLP基准测试中均取得了优于传统奖励模型的性能。我们的代码已公开发布,以促进进一步研究(https://github.com/THU-KEG/Agentic-Reward-Modeling)。
人们对语言模型(LMs)加速科学发现的潜力日益感到振奋。证伪假设是科学进步的关键,因为它使得主张能够随时间迭代精炼。这一过程需要研究者投入大量精力、运用推理与创造力。然而,当前对LMs的基准测试主要评估其生成解决方案的能力,而非挑战这些方案。我们主张开发能够评估这种逆向能力的基准——即为微妙错误的解决方案构建反例。为展示这一方法,我们首先聚焦算法问题解决领域,其中反例可通过代码执行自动评估。具体而言,我们引入了REFUTE,一个动态更新的基准,包含来自编程竞赛的最新问题及错误提交,这些错误提交已由人类专家成功识别出反例。我们的分析发现,即便是配备了代码执行反馈的OpenAI o3-mini(高)这样的顶级推理代理,也只能为REFUTE中不到9%的错误解决方案创建反例,尽管其评分显示它能够从零开始解决高达48%的这些问题。我们期望本工作能推动在评估和增强LMs证伪错误解决方案能力方面的进展——这一能力对于加速研究及通过可靠的反思推理实现模型自我提升至关重要。
付费墙、许可协议和版权规则常常限制了科学知识的广泛传播与再利用。我们主张,从法律和技术层面提取学术文本中的科学知识都是可行的。现有方法,如文本嵌入,未能可靠地保留事实内容,而简单的改写在法律上可能站不住脚。我们呼吁学界采纳一个新理念:利用大语言模型(LLMs)将学术文献转化为知识单元。这些单元采用结构化数据,捕捉实体、属性及关系,而不包含风格化内容。我们提供的证据表明,知识单元:(1)基于对德国版权法和美国合理使用原则的法律分析,构成了分享受版权保护研究文本知识的法律上可辩护的框架;(2)在四个研究领域内,通过多项选择题(MCQ)对原版权文本事实的测试,保留了约95%的事实知识。将科学知识从版权束缚中解放出来,通过允许语言模型重用受版权保护文本中的重要事实,有望为科学研究和教育带来变革性益处。为此,我们分享了将研究文献转化为知识单元的开源工具。总体而言,我们的工作论证了在尊重版权的同时,实现科学知识民主化获取的可行性。
训练面向图形用户界面(GUI)代理的视觉-语言模型(VLMs)通过强化学习(RL)面临关键挑战:基于环境的RL需要高成本的交互,而无环境方法则难以应对分布偏移和奖励泛化问题。我们提出了一种无环境RL框架,该框架利用预训练的价值环境模型(VEM)将价值估计与策略优化解耦。VEM直接从离线数据中预测状态-动作价值,提炼出类似人类对GUI交互结果的先验知识,而无需预测下一状态或环境反馈。这避免了误差累积,并通过专注于语义推理(例如,此操作是否推进了用户目标?)增强了对UI变化的适应能力。该框架分两个阶段运行:(1)预训练VEM以估计长期动作效用;(2)利用冻结的VEM信号引导策略探索,实现布局无关的GUI自动化。在Android-in-the-Wild基准测试中,VEM在离线和在线设置下均达到了最先进的性能,显著优于无环境基线,并与基于环境的方法相媲美,且无需交互成本。重要的是,VEM证明了语义感知的价值估计能够达到与在线训练方法相当的性能。
单目深度估计(MDE)旨在从单一RGB图像中预测场景深度,在三维场景理解中扮演着关键角色。近期,零样本MDE的进展通过归一化深度表示和基于蒸馏的学习方法,提升了模型在多样化场景中的泛化能力。然而,当前用于蒸馏的深度归一化方法依赖全局归一化,可能会放大噪声伪标签,降低蒸馏效果。本文系统分析了不同深度归一化策略对伪标签蒸馏的影响。基于研究发现,我们提出了跨上下文蒸馏方法,该方法融合全局与局部深度线索以提升伪标签质量。此外,我们引入了一种多教师蒸馏框架,利用不同深度估计模型的互补优势,从而获得更稳健且精确的深度预测。在多个基准数据集上的大量实验表明,我们的方法在定量与定性评估上均显著超越了现有最先进技术。
语言模型的高效运行高度依赖于优质数据。现有方法依赖于人工设计的启发式规则、现有模型的困惑度、训练分类器或精心设计的提示工程,这些方法不仅需要丰富的专家经验和大量的人工标注工作,还容易引入偏差。我们提出了CritiQ,一种新颖的数据选择方法,它仅需30对人工标注样本即可自动从人类偏好中挖掘数据质量标准,并实现高效的数据筛选。其核心组件CritiQ Flow采用一个管理代理来演化质量标准,并利用多个工作代理进行成对判断。我们构建了一个知识库,从先前工作中提取质量标准,以增强CritiQ Flow的性能。相较于基于困惑度和分类器的方法,语言描述的标准更具可解释性,且具备复用价值。在确定标准后,我们训练CritiQ评分器来赋予数据质量分数,并执行高效的数据选择。我们在代码、数学和逻辑领域验证了该方法的有效性,在人工标注的测试集上达到了高准确率。为了验证所选数据质量,我们持续训练Llama 3.1模型,并观察到在下游任务上的性能相较于均匀采样有所提升。消融实验验证了知识库和反思过程带来的益处。我们还分析了标准如何演化以及多数投票的有效性。
大型语言模型(LLMs)正日益广泛应用于日常应用中,这要求其具备强大的通用推理能力和多样化的推理技能。然而,当前的LLM推理基准主要集中于数学和编程能力,在评估更广泛的推理熟练度方面存在不足。BIG-Bench数据集是一个例外,它作为评估LLMs通用推理能力的关键基准,得益于其多样化的挑战性任务集,这些任务允许在一个统一框架内对跨多种技能的通用推理进行全面评估。然而,LLMs的最新进展导致其在BIG-Bench及其更难版本BIG-Bench Hard(BBH)上趋于饱和。顶尖模型在BBH的许多任务中接近满分,从而削弱了其实用性。为应对这一局限,我们引入了BIG-Bench Extra Hard(BBEH),这是一个旨在拓展LLM推理评估边界的新基准。BBEH将BBH中的每个任务替换为一个探究相似推理能力但难度显著提升的新任务。我们在BBEH上评估了多种模型,观察到最佳通用模型的(调和)平均准确率为9.8%,而最佳推理专用模型为44.8%,这表明仍有很大的改进空间,并突显了实现LLMs稳健通用推理的持续挑战。我们已将BBEH公开发布于:https://github.com/google-deepmind/bbeh。
LLM(大语言模型)的有效个性化对于虚拟助手和内容推荐等广泛的用户交互应用至关重要。受LLM强大的上下文学习能力启发,我们提出了少样本偏好优化(FSPO),将奖励建模重新定义为元学习问题。在此框架下,LLM通过少量来自用户的标注偏好快速适应该用户,为其构建个性化的奖励函数。此外,鉴于现实世界中的偏好数据稀缺且难以大规模收集,我们提出了精心设计的方法来构建用于个性化的合成偏好数据集,利用公开可用的LLM生成了超过100万条合成个性化偏好。特别地,为了成功地将合成数据迁移到真实用户,我们发现数据必须同时具备高度多样性和连贯、自洽的结构。我们在三个领域(电影评论、基于教育背景的教学适应以及通用问答)上对多达1,500个合成用户进行了个性化开放生成评估,并进行了受控的人体研究。总体而言,FSPO在生成针对合成用户的个性化响应方面平均获得了87%的Alpaca Eval胜率,在开放问答任务中与真实人类用户的胜率达到72%。
混合专家(MoE)架构相较于同等容量的密集模型,显著降低了训练和推理成本。升级再利用(Upcycling)是一种利用预训练密集模型初始化和训练MoE模型的方法。尽管升级再利用在初期能带来性能提升,但其训练进度较从零开始训练更为缓慢,导致长期性能欠佳。我们提出了一种名为“丢弃式升级再利用”(Drop-Upcycling)的方法,有效解决了这一问题。该方法巧妙结合了两种看似矛盾的方式:既利用预训练密集模型的知识,又对部分权重进行统计意义上的重新初始化。这一策略性地促进了专家专业化,显著提升了MoE模型在知识获取上的效率。大规模实验表明,Drop-Upcycling在长期训练中,特别是在处理数千亿乃至更多标记时,显著优于以往的MoE构建方法。因此,我们的MoE模型仅需5.9亿活跃参数,就能实现与同一模型家族中130亿参数密集模型相当的性能,同时训练所需的浮点运算量(FLOPs)大约仅为后者的四分之一。所有实验资源,包括源代码、训练数据、模型检查点和日志,均已公开,以促进MoE研究的可重复性和未来探索。
空中交通管制(ATC)中的有效沟通对保障航空安全至关重要,然而带有口音的英语在自动语音识别(ASR)系统中带来的挑战仍未得到充分解决。现有模型在转录东南亚口音(SEA-accented)语音时,尤其是在嘈杂的ATC环境中,表现欠佳。本研究通过使用新构建的数据集,开发了专门针对东南亚口音进行微调的ASR模型。我们的研究取得了显著进展,在东南亚口音的ATC语音上实现了0.0982(即9.82%)的词错误率(WER)。此外,本文强调了区域特定数据集和以口音为重点的训练的重要性,为在资源受限的军事行动中部署ASR系统提供了路径。研究结果强调了采用抗噪训练技术和区域特定数据集以提高非西方口音在ATC通信中转录准确性的必要性。
随着AI模型在多样化现实场景中的广泛应用,确保其安全性仍是一项关键但尚未充分探索的挑战。尽管在评估和提升AI安全方面已投入大量努力,但标准化框架与全面工具集的缺失,为系统性研究和实际应用带来了显著障碍。为弥合这一差距,我们推出了AISafetyLab,一个集成了代表性攻击、防御及评估方法的统一框架与工具包。AISafetyLab具备直观界面,使开发者能够无缝应用多种技术,同时保持代码库结构清晰、易于扩展,以支持未来进步。此外,我们在Vicuna上进行了实证研究,分析不同攻防策略,为比较其有效性提供了宝贵见解。为促进AI安全领域的持续研究与开发,AISafetyLab已在https://github.com/thu-coai/AISafetyLab公开,我们承诺将持续维护与改进该平台。
建立三维结构与分子系统能量状态之间的关系已被证明是学习三维分子表征的一种有前景的方法。然而,现有方法仅限于从经典力学角度建模分子能量状态。这一限制导致了对量子力学效应的重大忽视,例如量子化(离散)能级结构,这些效应能更精确地估算分子能量,并可通过能谱实验测量。本文提出利用能谱来增强三维分子表征(MolSpectra)的预训练,从而将量子力学知识融入分子表征中。具体而言,我们提出了SpecFormer,一种通过掩码补丁重建来编码分子能谱的多谱编码器。通过进一步使用对比目标对齐三维编码器和能谱编码器的输出,我们增强了三维编码器对分子的理解。在公开基准上的评估表明,我们的预训练表征在预测分子特性和建模动力学方面超越了现有方法。
知识编辑技术已成为更新大型语言模型(LLMs)和多模态模型(LMMs)事实知识的关键工具,使它们能够在不从头训练的情况下纠正过时或错误的信息。然而,现有的多模态知识编辑基准主要关注以简单三元组表示的实体级知识,未能捕捉现实世界多模态信息的复杂性。为解决这一问题,我们引入了MMKE-Bench,一个全面的多模态知识编辑基准,旨在评估LMMs在真实场景中编辑多样化视觉知识的能力。MMKE-Bench通过整合三种编辑任务来应对这些局限:视觉实体编辑、视觉语义编辑和用户特定编辑。此外,MMKE-Bench采用自由形式的自然语言来表示和编辑知识,提供了一种更为灵活有效的格式。该基准包含33个广泛类别下的2,940条知识和8,363张图像,评估问题自动生成并经人工验证。我们在三个领先的LMMs上评估了五种最先进的知识编辑方法,发现没有一种方法在所有标准上都表现出色,且视觉和用户特定编辑尤为具有挑战性。MMKE-Bench为评估多模态知识编辑技术的稳健性设定了新标准,推动这一快速发展领域的进步。
大型语言模型(LLMs)已成为自然语言处理任务中不可或缺的一部分。然而,自回归采样已成为效率瓶颈。多草案推测解码(MDSD)是近期提出的一种方法,在生成每个词元时,小型草案模型会生成多个草案,并由目标LLM并行验证,确保最终输出符合目标模型的分布。MDSD中的两个主要设计选择是草案采样方法和验证算法。对于固定的草案采样方法,最优接受率是一个最优传输问题的解,但该问题的复杂性使得求解最优接受率并衡量现有验证算法与理论上限之间的差距变得困难。本文讨论了最优传输问题的对偶问题,提供了一种高效计算最优接受率的方法。我们首次测量了词汇量在数千级别时MDSD效率的理论上限,并量化了现有验证算法与此上限之间的差距。我们还基于最优接受率比较了不同的草案采样方法。结果表明,草案采样方法对最优接受率有显著影响,其中无放回采样优于有放回采样。此外,现有验证算法在无放回和有放回采样下均未达到理论上限。我们的研究结果表明,精心设计的草案采样方法有望提高最优接受率,并推动开发出更接近理论上限的验证算法。
从多模态文档中生成准确且简洁的文本摘要具有挑战性,尤其是在处理如科学海报等视觉复杂度高的内容时。我们推出了PosterSum,一个旨在推动视觉语言模型发展的新颖基准,这些模型能够理解科学海报并将其总结为研究论文摘要。我们的数据集包含16,305张会议海报及其对应的摘要作为总结。每张海报以图像格式提供,并呈现了多样化的视觉理解挑战,如复杂布局、密集文本区域、表格和图表。我们在PosterSum上对当前最先进的多模态大语言模型(MLLMs)进行了基准测试,结果表明这些模型在准确解读和总结科学海报方面存在困难。我们提出了“分段与总结”这一分层方法,在自动化指标上超越了现有MLLMs,实现了ROUGE-L分数3.14%的提升。这将成为未来海报摘要研究的一个起点。
弱监督语义分割(WSSS)通常利用有限的语义标注来获取初始的类激活图(CAM)。然而,由于高维空间中类激活响应与语义信息之间的耦合不足,CAM容易出现对象共现或激活不足的问题,导致识别精度较低。为解决这一问题,我们提出了DOEI(双重优化嵌入信息),这是一种通过语义感知注意力权重矩阵重构嵌入表示的新方法,以优化嵌入信息的表达能力。具体而言,DOEI在类别到局部区域的交互过程中,放大高置信度的标记并抑制低置信度的标记。这种激活响应与语义信息的对齐增强了目标特征的传播与解耦,使得生成的嵌入能在高级语义空间中更准确地表示目标特征。此外,我们在DOEI中提出了一种混合特征对齐模块,该模块结合了RGB值、嵌入引导特征和自注意力权重,以提高候选标记的可靠性。全面的实验表明,DOEI是一个有效的即插即用模块,它赋能了基于视觉Transformer的最先进WSSS模型,在包括PASCAL VOC(+3.6%、+1.5%、+1.2% mIoU)和MS COCO(+1.2%、+1.6% mIoU)在内的流行基准上显著提升了CAM质量和分割性能。代码将发布于https://github.com/AIGeeksGroup/DOEI。