每日精选AI研究论文及翻译
近年来,大型语言模型(LLMs)在各种任务(例如长文本理解)中展现出显著的能力,并提出了许多基准。然而,我们观察到长文本生成能力并未得到充分研究。因此,我们引入了分层长文本生成基准(HelloBench),这是一个全面的、野外的、开放式基准,用于评估LLMs在生成长文本方面的性能。基于布鲁姆的分类法,HelloBench将长文本生成任务分为五个子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。此外,我们提出了分层长文本评估(HelloEval),这是一种与人类对齐的评估方法,可以显著减少人类评估所需的时间和精力,同时与人类评估保持高度相关性。我们在大约30个主流LLMs上进行了广泛实验,观察到当前LLMs缺乏长文本生成能力。具体来说,首先,无论指令是否包含明确或隐含的长度约束,我们观察到大多数LLMs无法生成超过4000个字的文本。其次,我们观察到虽然一些LLMs可以生成更长的文本,但存在许多问题(例如严重的重复和质量下降)。第三,为了展示HelloEval的有效性,我们将HelloEval与传统指标(例如ROUGE、BLEU等)和LLM作为评判者方法进行了比较,结果显示HelloEval与人类评估之间具有最高的相关性。我们在 https://github.com/Quehry/HelloBench 上发布了我们的代码。
角色视频合成旨在生成逼真的动画角色视频,使其置身逼真场景中。作为计算机视觉和图形学领域的一个基础问题,3D作品通常需要多视角捕获进行个案训练,这严重限制了其对于在短时间内对任意角色建模的适用性。最近的2D方法通过预训练扩散模型打破了这一限制,但它们在姿势普遍性和场景交互方面存在困难。为此,我们提出了MIMO,这是一个新颖的框架,不仅可以根据简单用户输入合成具有可控属性(即角色、动作和场景)的角色视频,还可以同时实现对任意角色的高度可扩展性、对新颖3D动作的普适性以及适用于交互式现实场景的能力。其核心思想是将2D视频编码为紧凑的空间代码,考虑到视频发生的固有3D性质。具体而言,我们使用单目深度估计器将2D帧像素提升为3D,并根据3D深度将视频剪辑分解为三个空间组件(即主要人物、底层场景和浮动遮挡),这些组件进一步编码为规范身份代码、结构化动作代码和完整场景代码,这些代码被用作合成过程的控制信号。空间分解建模的设计实现了灵活的用户控制、复杂的动作表达,以及对场景交互的3D感知合成。实验结果证明了所提方法的有效性和鲁棒性。
具有仅解码器架构的大型语言模型(LLMs)展现出出色的上下文学习(ICL)能力。这一特性使它们能够通过利用输入上下文中提供的示例,有效地处理熟悉和新颖的任务。认识到这一能力的潜力,我们提议利用LLMs中的ICL特性来增强文本嵌入生成过程。为此,我们引入了一种新颖的模型bge-en-icl,它利用少量示例生成高质量的文本嵌入。我们的方法将与任务相关的示例直接整合到查询侧,从而在各种任务中实现显著改进。此外,我们还研究了如何有效利用LLMs作为嵌入模型,包括各种注意机制、池化方法等。我们的研究结果表明,保留原始框架通常会产生最佳结果,强调简单即是最好的。在MTEB和AIR-Bench基准测试上的实验结果表明,我们的方法取得了新的最先进性能。我们的模型、代码和数据集可在https://github.com/FlagOpen/FlagEmbedding 免费获取。
最近,多模态大型语言模型(MLLMs)的最新进展旨在整合和解释跨多种形式的数据。然而,这些模型同时处理和推理多种形式的能力仍然未被充分探索,部分原因是缺乏全面的形式化基准。我们引入了OmniBench,这是一个新颖的基准,旨在严格评估模型同时识别、解释和推理视觉、声学和文本输入的能力。我们将能够进行三模态处理的模型定义为全语言模型(OLMs)。OmniBench的独特之处在于具有高质量的人类注释,确保准确的响应需要跨三种形式进行整合理解和推理。我们的主要发现表明:i)开源OLMs在三模态环境中的遵循指令和推理能力存在关键限制;ii)即使为图像和音频提供替代文本表示,基准模型的表现也不佳(低于50%的准确率)。这些结果表明,在现有的MLLM训练范式中,构建文本、图像和音频的一致上下文的能力经常被忽视。我们主张未来的研究应专注于开发更强大的三模态整合技术和训练策略,以提高OLM在多种形式上的性能。代码和实时排行榜可在https://m-a-p.ai/OmniBench找到。
开放权重的LLM的质量已经显著提高,但它们仍然主要集中在英语上。在本文中,我们介绍了EuroLLM项目,旨在开发一套能够理解和生成所有欧盟官方语言以及其他几种相关语言文本的开放权重多语言LLM。我们概述了迄今为止取得的进展,详细介绍了我们的数据收集和过滤过程,规模定律的发展,多语言分词器的创建,以及数据混合和建模配置。此外,我们发布了我们的初始模型:EuroLLM-1.7B和EuroLLM-1.7B-Instruct,并报告了它们在多语言通用基准和机器翻译上的表现。
随着不断推出新的、更好的图像生成模型,对合成图像检测器的需求不断增加。在这样一个充满活力的领域中,检测器需要能够广泛泛化并且对未受控制的变化具有稳健性。本研究受到这种背景的启发,关注时间、图像转换和数据来源在检测器泛化中的作用。在这些实验中,没有一个评估过的检测器被发现是通用的,但结果表明一个集成模型可能是。在野外收集的数据上进行的实验表明,这一任务比大规模数据集定义的任务更具挑战性,指向实验和实际实践之间存在差距。最后,我们观察到一种竞争平衡效应,即更好的生成器导致更好的检测器,反之亦然。我们假设这推动了领域朝着生成器和检测器之间永远接近的竞赛方向发展。
大多数现有的多模态方法使用单独的主干网络进行基于自回归的离散文本生成和基于扩散的连续视觉生成,或者通过对视觉数据进行离散化,使用自回归来进行文本和视觉生成。在本文中,我们提出研究一个简单的想法:共享一个Transformer用于自回归和扩散。这种可行性来自两个主要方面:(i) Transformer成功应用于视觉生成的扩散,以及(ii) 用于自回归和扩散的Transformer训练非常相似,区别仅在于扩散使用双向注意力掩码,而自回归使用因果注意力掩码。实验结果表明,我们的方法实现了与当前最先进方法相当的图像生成性能,并保持了文本生成能力。该项目可在https://monoformer.github.io/ 上公开获取。
遮蔽变换器模型用于有条件类别的图像生成,已成为扩散模型的一个引人注目的替代方案。通常包括两个阶段 - 初始的VQGAN模型用于在潜在空间和图像空间之间过渡,以及随后的变换器模型用于在潜在空间内进行图像生成 - 这些框架为图像合成提供了有前途的途径。在这项研究中,我们提出了两个主要贡献:首先,对VQGAN进行经验和系统化的检验,从而形成现代化的VQGAN。其次,提出了一种新颖的无嵌入式生成网络,直接在位元标记上运行 - 一种具有丰富语义的二进制量化表示的标记。第一个贡献提供了一个透明、可复现且性能优越的VQGAN模型,增强了可访问性,并匹配了当前最先进方法的性能,同时揭示了以前未披露的细节。第二个贡献表明,使用位元标记的无嵌入式图像生成实现了ImageNet 256x256基准测试中新的最先进FID为1.52,生成器模型仅有305M参数。
人类视觉系统经过良好调整,能够检测各种形状和大小的面孔。虽然这带来明显的生存优势,比如更容易在丛林中发现未知的捕食者,但也会导致虚假的面部检测。"面孔错觉"描述了在其他随机刺激中察觉到类似面孔结构的现象:比如在咖啡渍或天空中看到面孔。本文从计算机视觉的角度研究了面孔错觉。我们提出了一个“物中面”图像数据集,包括五千张网络图像,其中包含人工标注的错觉面孔。利用这个数据集,我们检验了最先进的人脸检测器展现的错觉现象程度,并发现人类和机器之间存在显著的行为差距。我们发现,人类需要检测动物面孔以及人类面孔的进化需求可能解释了部分差距。最后,我们提出了一个关于图像中错觉的简单统计模型。通过对人类受试者和我们的错觉面孔检测器的研究,我们确认了我们模型关于哪些图像条件最有可能诱发错觉的一个关键预测。数据集和网站:https://aka.ms/faces-in-things
在过去几十年里,用于时间序列预测的深度学习取得了显著进展。然而,尽管在语言和视觉领域大规模预训练取得成功,预训练的时间序列模型在规模上仍然受限且成本高昂,阻碍了在实际应用中开发更大能力的预测模型。为此,我们引入了Time-MoE,这是一个可扩展且统一的架构,旨在预训练更大、更有能力的预测基础模型,同时降低推断成本。通过利用稀疏的专家混合(MoE)设计,Time-MoE通过仅激活每次预测的网络子集来增强计算效率,降低计算负载同时保持高模型容量。这使得Time-MoE能够有效扩展,而无需相应增加推断成本。Time-MoE包括一系列仅解码器的变压器模型,以自回归方式运行,并支持具有不同输入上下文长度的灵活预测时间跨度。我们在我们新引入的大规模数据Time-300B上预训练了这些模型,该数据跨越9个领域,包含超过3000亿个时间点。我们首次将时间序列基础模型扩展到24亿参数,实现了显著改进的预测精度。我们的结果验证了在时间序列预测环境中训练标记和模型规模的扩展定律的适用性。与具有相同激活参数数量或等效计算预算的密集模型相比,我们的模型始终表现出色。这些进展使Time-MoE成为解决实际时间序列预测挑战的最先进解决方案,具有卓越的能力、效率和灵活性。
在这份技术报告中,我们记录了我们在训练 NovelAI Diffusion V3,我们最先进的动漫图像生成模型时对 SDXL 进行的更改。
机器人操纵策略如何能够泛化到涉及未见过的物体类型和新动作的新任务?本文提出了一种解决方案,即通过人类视频生成预测运动信息,并将机器人策略条件化为生成的视频。我们展示了如何利用在易获得的网络数据上训练的视频生成模型,而不是尝试扩展昂贵的机器人数据收集,以实现泛化。我们的方法Gen2Act将语言条件下的操纵视为零样本人类视频生成,然后执行一个仅条件于生成视频的策略。为了训练该策略,我们使用的机器人交互数据量比视频预测模型训练数据量少一个数量级。Gen2Act根本不需要微调视频模型,我们直接使用预训练模型生成人类视频。我们在各种真实场景中的结果展示了Gen2Act如何实现操纵未见过的物体类型,并执行机器人数据中不存在的新任务。视频链接:https://homangab.github.io/gen2act/
与大型语言模型(LLMs)相比,大型视觉-语言模型(LVLMs)还可以接受图像作为输入,因此展示出更有趣的新兴能力,并在各种视觉-语言任务上展现出令人印象深刻的性能。受LLMs中文本提示的启发,已经探索了视觉提示以增强LVLMs感知视觉信息的能力。然而,先前的视觉提示技术仅处理视觉输入,而未考虑文本查询,限制了模型遵循文本指令完成任务的能力。为填补这一空白,在本研究中,我们提出了一种名为“图像上的注意力提示”的新提示技术,简单地在原始输入图像上叠加一个文本查询引导的注意力热图,从而有效增强LVLM在各种任务上的表现。具体而言,我们使用类似CLIP的辅助模型为输入图像生成依赖于文本查询的注意力热图。然后,该热图简单地将原始图像的像素值相乘,以获得LVLM的实际输入图像。在各种视觉-语言基准测试上进行了大量实验,验证了我们技术的有效性。例如,“图像上的注意力提示”在LLaVA-1.5基准测试上分别使MM-Vet和LLaVA-Wild基准测试提高了3.8%和2.9%。
随着大型语言模型(LLMs)不断向更高级智能发展,从人类反馈中进行强化学习(RLHF)越来越被视为实现人工通用智能(AGI)的关键途径。然而,基于奖励模型(RM)的对齐方法的依赖引入了重大挑战,这是由于奖励模型(RMs)固有的不稳定性和缺陷,可能导致严重问题,如奖励欺骗和与人类意图不一致。在本文中,我们介绍了一个旨在解决这些基本挑战的奖励鲁棒的RLHF框架,为LLMs中更可靠和弹性的学习铺平道路。我们的方法引入了一个新颖的优化目标,通过整合贝叶斯奖励模型集成(BRME)来模拟奖励函数的不确定性集合,从而谨慎平衡性能和鲁棒性。这使得框架能够整合名义性能和最小奖励信号,确保即使在不完美的奖励模型下也能实现更稳定的学习。实证结果表明,我们的框架在各种基准测试中始终优于传统的RLHF,表现出更高的准确性和长期稳定性。我们还提供了理论分析,证明了奖励鲁棒的RLHF方法接近恒定奖励设置的稳定性,在随机案例分析中证明其有效性。这些贡献共同突显了该框架提升LLMs与RLHF对齐的性能和稳定性的潜力。
传统的命名实体识别(NER)方法将任务框定为一个BIO序列标记问题。尽管这些系统在手头的下游任务中通常表现出色,但它们需要大量的标注数据,并且难以推广到超出分布输入领域和未见过的实体类型。相反,大型语言模型(LLMs)展示了强大的零-shot能力。虽然有几项工作致力于英语中的零-shot NER,但在其他语言中所做的工作很少。在本文中,我们为零-shot NER 定义了一个评估框架,并将其应用于意大利语。此外,我们介绍了SLIMER-IT,SLIMER的意大利语版本,这是一种利用富含定义和指南的提示进行调整的零-shot NER方法。与其他最先进的模型进行比较,展示了SLIMER-IT在以前从未见过的实体标签上的优越性。
奖励模型(RMs)在将大型语言模型(LLMs)与人类偏好保持一致方面发挥着关键作用。然而,传统的奖励模型训练依赖于与特定提示相关联的响应对,很难将由响应长度和格式等提示无关因素引起的偏好与提示驱动的偏好区分开来。在这项工作中,我们揭示了当前奖励模型训练方法的一个根本局限,即当确定偏好时,奖励模型未能有效区分上下文信号和无关因素。为了解决这一问题,我们引入了一个因果框架,该框架学习与这些无关因素无关的偏好,并提出了一种旨在消除这些因素的新颖数据增强技术。大量实验证明,我们的方法成功地滤除了不良因素,产生了更强大的奖励模型(RRM)。我们的RRM提高了在RewardBench上训练的Gemma-2-9b-it上的成对奖励模型的性能,将准确率从80.61%提高到84.15%。此外,我们使用RM和RRM训练了两个DPO策略,结果表明RRM显著增强了DPO对齐策略,将MT-Bench得分从7.27提高到8.31,并将AlpacaEval-2中的长度控制胜率从33.46%提高到52.49%。
模仿学习已被证明是训练复杂视觉动作策略的强大工具。然而,目前的方法通常需要数百到数千个专家演示来处理高维视觉观测。造成这种数据效率低的一个关键原因是,视觉表示主要是预训练在域外数据上或直接通过行为克隆目标进行训练。在这项工作中,我们提出了DynaMo,一种新的域内自监督学习视觉表示方法。给定一组专家演示,我们共同学习一个潜在的逆动力学模型和一个正向动力学模型,通过一系列图像嵌入来预测潜在空间中的下一帧,无需增强、对比采样或访问地面真实动作。重要的是,DynaMo 不需要任何域外数据,如互联网数据集或跨体数据集。在六个模拟和真实环境套件中,我们展示了使用DynaMo学习的表示显著改善了先前自监督学习目标和预训练表示的下游模仿学习性能。使用DynaMo获得的收益在行为变换器、扩散策略、MLP 和最近邻等策略类别中都适用。最后,我们对DynaMo的关键组件进行了消融实验,并测量其对下游策略性能的影响。机器人视频最佳观看网址为 https://dynamo-ssl.github.io
在机器学习中,生成合成表格数据至关重要,特别是在真实数据有限或敏感的情况下。传统生成模型通常面临挑战,因为表格数据具有独特的特征,如混合数据类型和不同的分布,需要复杂的预处理或大型预训练模型。本文介绍了一种新颖的、无损的二进制转换方法,将任何表格数据转换为固定大小的二进制表示,并提出了一种名为二进制扩散的新生成模型,专门用于二进制数据。二进制扩散利用XOR操作的简单性进行噪声添加和去除,并采用二进制交叉熵损失进行训练。我们的方法消除了对大量预处理、复杂噪声参数调整和在大型数据集上进行预训练的需求。我们在几个流行的表格基准数据集上评估了我们的模型,结果表明,二进制扩散在旅行、成年人收入和糖尿病数据集上优于现有的最先进模型,同时体积显著更小。