每日精选AI研究论文及翻译
本报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指导调整的语言模型,涵盖参数范围从0.5到720亿,包括密集模型和专家混合模型。Qwen2超越了大多数先前的开放权重模型,包括其前身Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中表现出竞争力。 旗舰模型Qwen2-72B展示了卓越的性能:在MMLU上为84.2,在GPQA上为37.9,在HumanEval上为64.6,在GSM8K上为89.5,在BBH上为82.4,作为基础语言模型。指导调整的变体Qwen2-72B-Instruct,在MT-Bench上达到9.1,在Arena-Hard上为48.1,在LiveCodeBench上为35.7。此外,Qwen2展示了强大的多语言能力,在大约30种语言中表现出色,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。 为促进社区创新和可访问性,我们已经在Hugging Face和ModelScope上公开提供了Qwen2模型权重,以及在GitHub上包括示例代码在内的补充材料。这些平台还包括量化、微调和部署资源,促进了广泛的应用和研究工作。
大型语言模型(LLMs)在理解和生成自然语言方面表现出卓越的能力。然而,这些模型可能会无意中记忆私人信息,带来重大的隐私风险。本研究解决了使LLMs能够保护特定个人私人数据的挑战,而无需完全重新训练的问题。我们提出了一个名为\return 的真实世界个人数据去除(MU)数据集,包括来自维基百科的2,492个个人及其相关的问答对,用于评估在现实场景中保护个人数据的机器去除方法。此外,我们引入了基于姓名的去除框架(NAUF)用于隐私保护,使模型能够学习应保护哪些个人信息,而不影响其回答与其他不相关个人相关的问题的能力。我们的广泛实验表明,NAUF实现了最先进的平均去除分数,超过最佳基准方法5.65个点,有效保护目标个人的个人数据,同时保持模型的通用能力。
最近的研究一直在探索具身体AI领域的规模定律。考虑到收集真实世界数据的成本很高,我们认为“从模拟到真实”(Sim2Real)范式是扩展具身体模型学习的关键一步。本文介绍了GRUtopia项目,这是第一个为各种机器人设计的模拟互动3D社会。它具有几项先进之处:(a) 场景数据集GRScenes包括10万个互动、精细注释的场景,可以自由组合成城市规模的环境。与以往主要关注家庭的作品不同,GRScenes涵盖了89种不同的场景类别,弥合了服务导向环境与普通机器人最初部署的差距。(b) GRResidents是一个由大型语言模型(LLM)驱动的非玩家角色(NPC)系统,负责社交互动、任务生成和任务分配,从而为具身体AI应用模拟社交场景。(c) 基准测试GRBench支持各种机器人,但主要关注四肢机器人作为主要代理,并提出涉及物体定位导航、社交导航和定位操作的适度具有挑战性的任务。我们希望这项工作可以缓解该领域高质量数据的稀缺问题,并提供对具身体AI研究更全面的评估。该项目可在https://github.com/OpenRobotLab/GRUtopia找到。
目前对大型语言模型(LLMs)的评估经常忽视了非确定性,通常集中在每个示例的单个输出上。这限制了我们对LLM在实际应用中性能变化的理解。我们的研究通过探讨贪婪解码和抽样之间的性能差异等关键问题,识别基准测试在非确定性方面的一致性,并检查独特的模型行为来解决这个问题。通过大量实验,我们观察到贪婪解码通常在大多数评估任务中优于抽样方法。我们还观察到在不同LLM大小和对齐方法之间有一致的性能表现,指出对齐可以减少抽样方差。此外,我们的N次抽样方法表明,较小的LLMs可以匹敌或超越像GPT-4-Turbo这样的更大模型,突显了较小LLMs的潜力。这项研究显示了在LLM评估中考虑非确定性的重要性,并为未来LLM的发展和评估提供了见解。
我们介绍了 Q-Sparse,一种简单而有效的方法,用于训练稀疏激活的大型语言模型(LLMs)。Q-Sparse 可以实现LLMs中激活的完全稀疏,这可以在推理中带来显著的效率提升。这是通过对激活应用前K稀疏化和应用直通估计器进行训练来实现的。这项工作的关键结果有:(1)Q-Sparse 可以在推理时间效率大大提高的同时实现与基准LLMs相当的结果;(2)我们提出了适用于稀疏激活的LLMs的推理最优缩放定律;(3)Q-Sparse 在不同设置下都很有效,包括从头开始训练、继续训练现成的LLMs以及微调;(4)Q-Sparse 适用于全精度和1位LLMs(例如,BitNet b1.58)。特别是,BitNet b1.58 和 Q-Sparse 的协同作用(可以配备MoE)为未来LLMs的效率革新提供了基石和明确路径,包括成本和能耗。
随着大型语言模型(LLMs)的进步,由于人工评估的高成本,可靠地评估它们的输出变得更具挑战性。为了朝着更好的LLM评分器迈进,我们引入了FLAMe,即基础大型评分器模型家族。FLAMe经过训练,使用我们的100多个质量评估任务的大而多样的收集,包括500万个人类判断,这些任务经过策展并标准化,使用了先前研究中公开发布的人类评估。FLAMe显著提高了对各种未知任务的泛化能力,在许多任务上优于使用专有数据训练的LLMs,如GPT-4和Claude-3。我们展示了FLAMe也可以作为进一步下游微调的强大起点,以奖励建模评估为案例研究(FLAMe-RM)。值得注意的是,在RewardBench上,我们的FLAMe-RM-24B模型(准确率为87.8%)是排名第一的生成模型,仅使用许可数据进行训练,优于GPT-4-0125(85.9%)和GPT-4o(84.7%)。此外,我们探索了一种更具计算效率的方法,使用一种新颖的尾部补丁微调策略来优化我们的FLAMe多任务混合,用于奖励建模评估(FLAMe-Opt-RM),在要求大约25倍更少的训练数据点的情况下,提供具有竞争力的RewardBench性能。总的来说,我们的FLAMe变体在我们考虑的12个评分器评估基准中的8个中表现优于所有流行的专有LLM评分器模型,涵盖了53个质量评估任务,包括RewardBench和LLM-AggreFact。最后,我们的分析显示,FLAMe在CoBBLEr评分器偏见基准上明显比这些LLM评分器模型更少偏见,同时有效地识别了用于代码生成的高质量响应。
我们能否仅凭所需行为的一次演示作为提示,像从文本描述中创建图像一样轻松地为代理生成控制策略?在本文中,我们提出了Make-An-Agent,这是一种新颖的策略参数生成器,利用条件扩散模型的强大功能进行行为到策略的生成。在行为嵌入的指导下,编码轨迹信息,我们的策略生成器合成潜在参数表示,然后可以解码为策略网络。在策略网络检查点及其对应轨迹上进行训练后,我们的生成模型展示了在多个任务上的出色多功能性和可扩展性,并且在未见任务上具有强大的泛化能力,能够仅凭少量演示输入输出表现良好的策略。我们展示了它在各种领域和任务上的有效性和效率,包括不同目标、行为,甚至跨不同机器人操作器的情况。除了模拟外,我们还将Make-An-Agent生成的策略直接部署到真实世界的机器人上进行运动任务。
尽管文本到图像扩散模型已被证明在图像合成方面取得了最先进的结果,但它们尚未证明在下游应用中的有效性。先前的研究提出在有限真实数据访问的情况下生成图像分类器训练数据。然而,这些方法在生成符合分布的图像或描绘细粒度特征方面存在困难,从而阻碍了在合成数据集上训练的分类模型的泛化。我们提出了DataDream,这是一个框架,用于合成更忠实地代表真实数据分布的分类数据,当受到目标类别的少样本示例引导时。DataDream 在生成训练数据之前,通过少量真实图像对图像生成模型的 LoRA 权重进行微调,然后使用适应后的模型生成训练数据。然后,我们通过使用合成数据对 CLIP 进行 LoRA 权重微调,以改善在大量数据集上的下游图像分类,超越先前方法的分类准确性。我们通过大量实验展示了 DataDream 的有效性,在 10 个数据集中的 7 个数据集中,使用少样本数据的分类准确性超过了最先进水平,而在其他 3 个数据集上具有竞争力。此外,我们提供了有关各种因素的影响见解,例如真实样本和生成图像的数量以及对模型性能的微调计算。代码可在 https://github.com/ExplainableML/DataDream 找到。
视频到音频(V2A)生成利用仅视觉视频特征来生成与场景相匹配的合理声音。重要的是,生成的声音起始点应与与之对齐的视觉动作相匹配,否则会出现不自然的同步问题。最近的研究探索了在静止图像和视频特征上进行条件化声音生成器的进展,侧重于质量和语义匹配,而忽略了同步,或者通过牺牲一定程度的质量来专注于改善同步。在这项工作中,我们提出了一个名为MaskVAT的V2A生成模型,它将全频高质量通用音频编解码器与序列到序列的掩码生成模型相互连接。这种组合允许同时建模高音频质量、语义匹配和时间同步性。我们的结果表明,通过将高质量编解码器与适当的预训练音频-视觉特征以及序列到序列并行结构相结合,我们能够在一方面产生高度同步的结果,同时在另一方面与非编解码器生成音频模型的最新技术相竞争。示例视频和生成的音频可在https://maskvat.github.io 上找到。
我们介绍了一种新的视频预测模型系列,旨在支持下游控制任务。我们将这些模型称为视频占用模型(VOCs)。VOCs在紧凑的潜在空间中运行,因此无需对单个像素进行预测。与先前的潜在空间世界模型不同,VOCs直接预测未来状态的折扣分布,一步到位,避免了多步预测。我们展示了在构建视频预测模型以用于下游控制时,这两个特性都是有益的。代码可在https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}获取。
数据科学和工程工作流通常涵盖多个阶段,从数据仓库到编排,使用诸如BigQuery、dbt和Airbyte之类的工具。随着视觉语言模型(VLMs)在多模态理解和代码生成方面的进展,基于VLM的代理可能通过生成SQL查询、Python代码和GUI操作来自动化这些工作流程。这种自动化可以提高专家的生产力,同时使大规模数据分析变得更加民主化。在本文中,我们介绍了Spider2-V,这是第一个专注于专业数据科学和工程工作流的多模态代理基准,包括在真实计算机环境中的494个真实世界任务,涵盖了20个企业级专业应用程序。这些任务源自真实用例,评估了多模态代理通过编写代码和管理企业数据软件系统中的GUI来执行数据相关任务的能力。为了在现实仿真和评估简易性之间取得平衡,我们致力于为任务设置开发自动配置,并为每个任务精心制定评估指标。此外,我们为这些企业数据软件系统提供了全面的文档,以补充多模态代理的功能。我们的实证评估显示,现有的最先进的LLM/VLM基于代理不能可靠地自动化完整的数据工作流程(成功率为14.0%)。即使在逐步指导下,这些代理在需要精细、知识密集型GUI操作(16.2%)和涉及远程云托管工作空间(10.6%)的任务中仍表现不佳。我们希望Spider2-V为自主多模态代理改变数据科学和工程工作流的自动化铺平道路。我们的代码和数据可在https://spider2-v.github.io获取。
人们普遍乐观地认为,前沿的大型语言模型(LLMs)和LLM增强系统有潜力快速推动跨学科科学发现。如今,存在许多基准来衡量LLM在类似教科书的科学问题上的知识和推理能力,但几乎没有基准旨在评估语言模型在科学研究所需的实际任务上的表现,比如文献检索、方案规划和数据分析。为了构建这样的基准,我们引入了语言代理生物学基准(LAB-Bench),这是一个包含超过2,400道多项选择题的广泛数据集,用于评估人工智能系统在一系列实际生物学研究能力上的表现,包括文献回忆和推理、图表解释、数据库访问和导航,以及对DNA和蛋白质序列的理解和操作。值得注意的是,与以往的科学基准相比,我们期望一个能够在更困难的LAB-Bench任务上始终取得高分的人工智能系统将成为研究人员在文献检索和分子克隆等领域的有用助手。作为对前沿语言模型新兴科学任务能力的初步评估,我们对几个模型在我们的基准上的表现进行了评估,并将结果与人类专家生物学研究人员进行了比较。我们将继续随时间更新和扩展LAB-Bench,并期望它成为未来自动化研究系统开发中的有用工具。LAB-Bench的公共子集可在以下网址使用:https://huggingface.co/datasets/futurehouse/lab-bench
参数高效迁移学习(PETL)已成为一个蓬勃发展的研究领域,用于将大型预训练模型调整到下游任务,大大减少可训练参数,同时解决微调过程中的内存挑战。为了解决这一问题,内存高效系列(METL)避免通过大型主干网络反向传播梯度。然而,它们通过仅依赖冻结的中间输出并限制对预训练模型先前知识的详尽探索来进行妥协。此外,跨层特征之间的依赖性和冗余性经常被忽视,从而淹没更具有区分性的表示,并导致与传统PETL方法相比的固有性能差距。因此,我们提出了一种名为SHERL的创新METL策略,用于资源有限的场景,将整个适应过程分解为两个连续且互补的过程。在早期路径中,通过反冗余操作合并中间输出,增强它们对后续交互的兼容性;因此在晚期路径中,利用最少的晚期预训练层可以减轻内存开销的高峰需求,并将这些相当灵活的特征调整为更适应和强大的表示,以适应新领域。对视觉与语言以及仅语言任务进行的广泛消融实验表明,SHERL结合了参数和内存高效技术的优势,在微调过程中跨多种架构表现出与更低内存相媲美或更好的性能。我们的代码可在以下网址公开获取:https://github.com/Paranioar/SHERL。
相互强化效应(MRE)代表了信息提取和多任务研究中的一个有前景的途径。然而,由于仅有日语MRE混合数据集的独占性可用性,全球研究社区对其进行全面探索的可能性受到了限制。为了解决这一局限性,我们引入了一个跨语言MRE混合数据集(MMM),包括英语、日语和中文在内的21个子数据集。在本文中,我们还提出了一种数据集翻译方法,借助大型语言模型(LLMs)显著减少了数据集构建所需的手动注释时间,通过利用LLMs来翻译原始的日语数据集。此外,我们通过整合开放领域命名实体识别(NER)和句子分类任务来丰富数据集。利用这个扩展的数据集,我们开发了一个统一的输入-输出框架来训练一个开放领域信息提取大型语言模型(OIELLM)。OIELLM模型展示了有效处理新的MMM数据集的能力,表现出性能的显著提升。
目前大多数部署的大型语言模型(LLMs)都经历持续训练或额外微调。相比之下,大多数关于LLMs内部机制的研究集中在某个时间点的模型(即预训练结束时),这引发了一个问题,即它们的结果是否适用于实际环境。现有关于随时间推移的机制的研究集中在仅编码器或玩具模型上,这些模型与大多数部署模型有显著差异。在本研究中,我们追踪了解码器-仅LLMs在训练3000亿个标记的过程中如何形成和演变的模型机制,这些模型的参数范围从7000万到28亿个。我们发现任务能力及其支持它们的功能组件在不同规模下的标记数上始终一致地出现。此外,尽管这些组件可能随时间由不同的注意力头实现,但它们实现的总体算法保持不变。令人惊讶的是,这些算法和其中涉及的组件类型都可以在模型规模上复制。这些结果表明,在预训练结束时对小型模型进行的电路分析可以提供仍然适用于额外预训练和模型规模的见解。
为了提高合成视频的质量,目前一种主要的方法涉及重新训练专家扩散模型,然后实施噪声去噪过程进行细化。尽管训练成本高昂,但在原始视频和增强视频之间保持内容一致性仍然是一个重大挑战。为了解决这一挑战,我们提出了一种考虑视觉质量和内容一致性的新颖公式。内容一致性通过一个保持输入结构的损失函数来确保,而视觉质量则通过利用预训练扩散模型的去噪过程来改善。为了解决所制定的优化问题,我们开发了一种即插即用的噪声优化策略,称为噪声校准。通过通过几次迭代对初始随机噪声进行细化,可以在很大程度上保留原始视频的内容,并且增强效果表现出显著改善。大量实验证明了所提方法的有效性。