每日精选AI研究论文及翻译
GPT-4o是一种自回归全模型,可以接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。它在文本、视觉和音频领域端到端地进行训练,意味着所有输入和输出都由同一神经网络处理。GPT-4o可以在232毫秒内对音频输入做出响应,平均为320毫秒,与人类对话中的响应时间相似。在英文和代码文本方面,它与GPT-4 Turbo的性能相当,而在非英语文本方面有显著改进,同时在API方面速度更快,成本降低50%。相比现有模型,GPT-4o在视觉和音频理解方面表现特别出色。为了积极构建安全的人工智能,并与我们对白宫的自愿承诺保持一致,我们分享了GPT-4o系统卡,其中包括我们的应对框架评估。在这个系统卡中,我们详细介绍了GPT-4o的能力、限制和安全评估,涵盖多个类别,重点关注语音对话,同时评估文本和图像能力,以及我们实施的措施,以确保模型的安全和一致性。我们还包括第三方对危险能力的评估,以及讨论GPT-4o文本和视觉能力可能对社会产生的影响。
我们介绍了Bielik 7B v0.1,这是一个70亿参数的生成文本模型,用于波兰语处理。该模型在经过筛选的波兰语语料库上进行训练,通过创新技术解决了语言模型开发中的关键挑战。这些技术包括加权指令交叉熵损失,平衡不同指令类型的学习,以及自适应学习率,根据训练进展动态调整学习率。为了评估性能,我们创建了Open PL LLM排行榜和波兰MT-Bench,这是评估各种自然语言处理任务和对话能力的新框架。Bielik 7B v0.1展示了显著的改进,与Mistral-7B-v0.1在RAG Reader任务中的平均得分相比,提高了9个百分点。它在波兰MT-Bench中表现出色,特别是在推理(6.15/10)和角色扮演(7.83/10)类别中。该模型代表了波兰语言人工智能领域的重大进步,为各种语言应用提供了强大工具,并在该领域设立了新的基准。
由于其高效性和性能,小型语言模型(SLMs)变得越来越重要,能够利用最少的计算资源执行各种语言任务,使其在包括设备端、移动设备、边缘设备等各种环境中成为理想选择。在本文中,我们提供了对SLMs的全面调查,重点关注它们的架构、训练技术和模型压缩技术。我们提出了一个新颖的分类法,用于对优化SLMs的方法进行分类,包括模型压缩、修剪和量化技术。我们总结了用于对SLMs进行基准测试的基准数据集,以及常用的评估指标。此外,我们强调了仍需解决的关键挑战。我们的调查旨在成为对开发和部署小型且高效语言模型感兴趣的研究人员和从业者的宝贵资源。
由于其巨大潜力来增强人机交互,能够自动化复杂计算机任务的数字代理引起了广泛关注。然而,现有的代理方法在泛化和专业化能力方面存在不足,特别是在处理真实环境中的开放式计算机任务时。受App商店丰富功能的启发,我们提出AgentStore,这是一个可扩展的平台,旨在动态整合异构代理以自动化计算机任务。AgentStore赋予用户整合第三方代理的能力,使系统能够不断丰富其功能并适应快速演化的操作系统。此外,我们提出了一种新颖的核心元代理MetaAgent,采用AgentToken策略来高效管理各种代理,并利用它们的专业和通用能力来执行特定领域和系统范围的任务。在三个具有挑战性的基准测试上进行的大量实验表明,AgentStore超越了先前具有狭窄能力的系统的局限性,特别是在OSWorld基准测试中,从11.21%显著提高到23.85%,结果翻了一番多。全面的定量和定性结果进一步证明了AgentStore在泛化和专业化方面增强代理系统的能力,突显了其发展专业通用计算机助手的潜力。我们所有的代码将在https://chengyou-jia.github.io/AgentStore-Home 上公开。
文档解析对于将非结构化和半结构化文档(如合同、学术论文和发票)转换为结构化、可机器阅读的数据至关重要。文档解析从非结构化输入中提取可靠的结构化数据,为众多应用程序提供了巨大的便利。特别是随着大型语言模型的最新成就,文档解析在知识库构建和训练数据生成中发挥着不可或缺的作用。本调查全面审视了当前文档解析的现状,涵盖了从模块化流水线系统到由大型视觉-语言模型驱动的端到端模型的关键方法论。详细讨论了诸如布局检测、内容提取(包括文本、表格和数学表达式)以及多模态数据集成等核心组件。此外,本文还讨论了模块化文档解析系统和视觉-语言模型在处理复杂布局、集成多个模块和识别高密度文本时面临的挑战。强调了开发更大规模和更多样化数据集的重要性,并概述了未来的研究方向。
我们介绍了MarDini,这是一种新型视频扩散模型系列,将掩蔽自回归(MAR)的优势融入统一的扩散模型(DM)框架中。在这里,MAR处理时间规划,而DM专注于在不对称网络设计中的空间生成:i)基于MAR的规划模型包含大部分参数,使用低分辨率输入为每个掩蔽帧生成规划信号;ii)轻量级生成模型利用这些信号通过扩散去噪生成高分辨率帧。MarDini的MAR使视频生成能够根据任意数量的掩蔽帧和任何帧位置进行条件化:单个模型可以处理视频插值(例如,掩蔽中间帧),图像到视频生成(例如,从第二帧开始掩蔽),以及视频扩展(例如,掩蔽一半帧)。这种高效设计将大部分计算资源分配给低分辨率规划模型,使得在规模上能够实现计算昂贵但重要的时空注意力。MarDini在视频插值方面树立了新的技术标准;同时,在少数推理步骤内,它能够高效生成视频,与更昂贵的先进图像到视频模型相媲美。
FP8 训练已经成为提高训练效率的一种有前途的方法。现有的框架通过将 FP8 计算应用于线性层来加速训练,同时保留更高精度的优化器状态和激活,但未能充分优化内存使用。本文介绍了 COAT(Compressing Optimizer States and Activations for FP8 Training),这是一种新颖的 FP8 训练框架,旨在在训练大型模型时显著减少内存占用。COAT 通过两个关键创新解决了当前的限制:(1)动态范围扩展,将优化器状态分布更紧密地与 FP8 表示范围对齐,从而减少量化误差;(2)混合粒度激活量化,使用每张量和每组量化策略的组合来优化激活内存。实验证明,与 BF16 相比,COAT 能够有效地将端到端训练内存占用减少 1.54 倍,同时在各种任务(如大型语言模型预训练和微调以及视觉语言模型训练)中实现几乎无损性能。与 BF16 相比,COAT 还实现了 1.43 倍的端到端训练加速,性能与或超过 TransformerEngine 的加速相当。COAT 能够在更少的 GPU 上实现大型模型的高效全参数训练,并在分布式训练设置中使批量大小翻倍,为大规模模型训练提供了实用解决方案。代码可在 https://github.com/NVlabs/COAT 获取。
在现实世界的情境中,图像恢复(IR)面临重大挑战,因为缺乏高容量模型和全面数据集。为了解决这些问题,我们提出了双重策略:GenIR,一种创新的数据整理流程,以及DreamClear,基于最新 Diffusion Transformer(DiT)的图像恢复模型。GenIR是我们的开创性贡献,是一种双提示学习流程,克服了现有数据集的局限,这些数据集通常只包含几千张图像,因此对于更大的模型具有有限的泛化能力。GenIR将流程简化为三个阶段:图像-文本对构建、基于双提示的微调和数据生成与过滤。这种方法规避了繁琐的数据抓取过程,确保版权合规性,并为IR数据集构建提供了一种经济实惠、隐私安全的解决方案。其结果是一个包含一百万高质量图像的大规模数据集。我们的第二项贡献,DreamClear,是一种基于DiT的图像恢复模型。它利用文本到图像(T2I)扩散模型的生成先验和多模态大语言模型(MLLMs)的强大感知能力,实现了逼真的恢复。为了增强模型对多样现实世界退化的适应性,我们引入了自适应调制器混合(MoAM)。它利用基于标记的退化先验动态集成各种恢复专家,从而扩大模型可以处理的退化范围。我们的详尽实验证实了DreamClear的卓越性能,突显了我们双重策略在现实世界图像恢复中的有效性。代码和预训练模型将在以下网址提供:https://github.com/shallowdream204/DreamClear。
尽管在开发长文本大语言模型(LLMs)方面取得了重大进展,但LLM合成数据的质量通常会影响监督微调(SFT)的长文本性能,并导致固有限制。原则上,通过适当的奖励信号进行强化学习(RL)可以进一步增强模型的能力。然而,在长文本场景中如何获得可靠的奖励仍未被探索。为此,我们提出了LongReward,这是一种新颖方法,利用现成的LLM为长文本模型的响应提供来自四个人类价值维度的奖励:有用性、逻辑性、忠实度和完整性,每个维度都经过精心设计的评估流程。通过结合LongReward和离线RL算法DPO,我们能够有效改善长文本SFT模型。我们的实验表明,LongReward不仅显著提高了模型的长文本性能,还增强了它们遵循简短指令的能力。我们还发现,长文本DPO与LongReward以及传统的短文本DPO可以一起使用,而不会损害任何一方的性能。
我们引入了一种新颖的无需训练的空间定位技术,用于使用扩散Transformer(DiT)进行文本到图像生成。使用边界框进行空间定位因其简单性和多功能性而受到关注,在图像生成中提供了增强的用户控制。然而,先前的无需训练方法通常依赖于通过自定义损失函数从反向扩散过程中通过反向传播更新嘈杂图像,这经常难以提供对各个边界框的精确控制。在这项工作中,我们利用Transformer架构的灵活性,展示了DiT可以生成与每个边界框对应的嘈杂补丁,完全编码目标对象,并允许对每个区域进行精细控制。我们的方法建立在DiT的一个有趣特性上,我们称之为语义共享。由于语义共享,当一个较小的补丁与可生成大小的图像一起联合去噪时,两者变成了“语义克隆”。每个补丁在生成过程的自己分支中去噪,然后在每个时间步骤将其移植到原始嘈杂图像的相应区域,从而为每个边界框实现了稳健的空间定位。在我们对HRS和DrawBench基准测试的实验中,与先前的无需训练的空间定位方法相比,我们实现了最先进的性能。
搜索引擎可以通过文本检索未知信息。然而,当涉及理解不熟悉的视觉内容时,传统方法存在局限,比如识别模型从未见过的物体。这对大型视觉语言模型(VLMs)尤为明显:如果模型没有接触过图像中所描绘的物体,它将难以为用户关于该图像的问题生成可靠答案。此外,随着新物体和事件不断出现,由于巨大的计算负担,频繁更新VLMs是不切实际的。为了解决这一限制,我们提出了Vision Search Assistant,这是一个新颖的框架,促进了VLMs和网络代理之间的协作。这种方法利用了VLMs的视觉理解能力和网络代理的实时信息访问,通过网络执行开放世界的检索增强生成。通过这种协作整合视觉和文本表示,即使图像对系统是新的,模型也能提供知情回应。在开放集和封闭集问答基准上进行的大量实验表明,Vision Search Assistant明显优于其他模型,并可以广泛应用于现有的VLMs。
大型语言模型(LLMs)的安全有效部署涉及一项关键步骤,称为对齐,该步骤确保模型的响应符合人类偏好。流行的对齐技术,如DPO、PPO及其变体,通过在后训练阶段改变预训练模型权重来对齐LLMs。虽然主流,但这些后训练方法在LLMs部署前增加了相当复杂性。推理时对齐方法避免了复杂的后训练步骤,而是偏向于生成与人类偏好一致的响应。最著名的推理时对齐方法称为Best-of-N,其效果与最先进的后训练程序一样。不幸的是,Best-of-N在推理时需要比标准解码策略更多的资源,这使其在计算上不可行。在这项工作中,我们引入了一种计算上可行的推理时对齐算法,名为Speculative Rejection。它根据给定的奖励模型生成高分响应,类似于Best-of-N,同时在计算效率上更高,效率提高了16到32倍。
我们提出了LARP,这是一种新颖的视频分词器,旨在克服当前自回归(AR)生成模型中视频分词方法的局限性。与直接将局部视觉补丁编码为离散标记的传统分块式分词器不同,LARP引入了一种整体分词方案,通过一组学习到的整体查询从视觉内容中收集信息。这种设计使LARP能够捕获更全局和语义表示,而不仅限于局部补丁级别的信息。此外,它通过支持任意数量的离散标记,实现了根据任务特定要求进行自适应和高效的分词。为了将离散标记空间与下游AR生成任务对齐,LARP集成了一个轻量级AR变换器作为训练时的先验模型,该模型在其离散潜在空间上预测下一个标记。通过在训练过程中整合先验模型,LARP学习到一个不仅针对视频重建进行了优化,而且在结构上更有利于自回归生成的潜在空间。此外,这个过程为离散标记定义了一个顺序,逐渐将它们推向在训练期间的最佳配置,确保推理时更流畅和更准确的AR生成。全面的实验表明LARP表现出色,在UCF101类别条件视频生成基准测试中实现了最先进的FVD。LARP增强了AR模型与视频的兼容性,并为构建统一的高保真度多模态大型语言模型(MLLMs)打开了潜力。
在这项工作中,我们将模型压缩问题重新构建为定制补偿问题:给定一个压缩模型,我们旨在引入残差低秩路径来补偿压缩错误,根据用户的定制需求(例如任务、压缩比),从而在调整整体容量时具有更大的灵活性,而不受特定压缩格式的限制。然而,简单地应用奇异值分解(SVD)来推导残差路径会导致低秩表示容量的次优利用。相反,我们提出了一种名为无训练特征空间低秩逼近(EoRA)的方法,该方法直接最小化压缩引起的错误,无需基于梯度的训练,在几分钟内使用少量校准数据实现快速优化。EoRA将压缩错误投影到输入激活的特征空间中,利用特征值有效地优先重建高重要性的错误组件。此外,EoRA可以与微调和量化轻松集成,以进一步提高效果和效率。在各种任务(如语言生成、常识推理和数学推理任务)中,EoRA在补偿压缩的LLaMA2/3模型错误方面始终优于先前的方法(例如,在将量化为4位且稀疏度为2:4的LLaMA3-8B进行补偿时,在ARC-Easy/ARC-Challenge和MathQA上分别提高了31.31%/12.88%和9.69%)。EoRA提供了一种可扩展的、无训练的解决方案,用于补偿压缩错误,使其成为在各种容量和效率需求下部署LLMs的强大工具。
大型语言模型(LLMs)部署成本高昂。参数共享为减小其规模和成本提供了可能的途径,但在现代LLMs中,其有效性仍然相当有限。在本研究中,我们重新审视了作为Transformer中参数共享形式的“层绑定”,并引入了将现有LLMs转换为更小的“递归Transformer”的新方法,这些模型在层间共享参数,性能损失最小。在这里,我们的递归Transformer是从标准预训练Transformer高效初始化的,但只使用一块独特层的模块,然后在循环中多次重复。我们通过引入Relaxed Recursive Transformers进一步改进性能,通过深度低秩适应(LoRA)模块增加了对层绑定约束的灵活性,同时仍保持整体模型的紧凑性。我们展示了我们的递归模型(例如,递归Gemma 1B)优于类似规模的普通预训练模型(如TinyLlama 1.1B和Pythia 1B)以及知识蒸馏基准模型,甚至可以恢复原始“全尺寸”模型(例如,没有共享参数的Gemma 2B)大部分性能。最后,我们提出了连续深度批处理,这是一种有前景的新推理范式,当与早期退出配对时,递归Transformer可以实现。在理论分析中,我们展示了这有潜力带来显著(2-3倍)的推理吞吐量增益。
视频通常被用于学习或提取完成任务所需的信息,这种方式与仅使用文本和静态图像提供的方式不同。然而,许多现有的智能体基准测试忽视了长上下文视频理解,而是专注于文本或静态图像输入。为了弥补这一差距,我们引入了VideoWebArena(VideoWA),这是一个用于评估长上下文多模态智能体在视频理解方面能力的基准测试。VideoWA包括基于手工制作的视频教程的2,021个网络智能体任务,总计近四个小时的内容。对于我们的基准测试,我们定义了一个长上下文视频为基础的智能体任务分类法,重点关注两个主要领域:技能保留和事实保留。技能保留任务评估智能体是否能够利用给定的人类演示有效地完成任务,而事实保留任务评估智能体是否能够从视频中检索与指导相关的信息以完成任务。我们发现最佳模型在事实保留任务上的成功率为13.3%,在事实保留问答对上为45.8%,远低于人类的73.9%和79.3%。在技能保留任务中,长上下文模型在使用教程时表现不佳,WebArena任务中表现下降了5%,VisualWebArena任务中下降了10.3%。我们的工作突显了改进长上下文多模态模型的智能能力的必要性,并为未来开发长上下文视频智能体提供了一个测试平台。
神经场已经成为计算机视觉和机器人领域中三维场景表示的一种革命性方法,能够从姿态2D数据中准确推断几何、三维语义和动态。利用可微渲染,神经场涵盖了连续隐式和显式神经表示,实现了高保真的三维重建、多模态传感器数据的集成以及新视角的生成。本调查探讨了它们在机器人领域的应用,强调了它们提升感知、规划和控制能力的潜力。神经场的紧凑性、内存效率和可微性,以及与基础和生成模型的无缝集成,使其非常适合实时应用,提高了机器人的适应性和决策能力。本文全面审视了神经场在机器人领域的应用,根据200多篇论文对其在各个领域的应用进行了分类,并评估了其优势和局限性。首先,我们介绍了四个关键的神经场框架:占据网络、有符号距离场、神经辐射场和高斯飞溅。其次,我们详细介绍了神经场在五个主要机器人领域的应用:姿态估计、操作、导航、物理和自动驾驶,重点介绍了关键作品,并讨论了经验教训和面临的挑战。最后,我们概述了神经场在机器人领域的当前局限性,并提出了未来研究的有前景的方向。项目页面:https://robonerf.github.io
在计算语言学中,从未经注释的对话中高效地推导结构化工作流程仍然是一个未被充分探讨且艰巨的挑战。自动化这一过程可以显著加快在新领域中手动设计工作流程的速度,并实现大型语言模型在特定领域流程图中的基础,增强透明度和可控性。本文介绍了Dialog2Flow(D2F)嵌入,它与传统的句子嵌入不同,通过将话语映射到一个潜在空间,根据其交际和信息功能(即它们代表的动作)对其进行分组。D2F允许将对话建模为潜在空间中的连续轨迹,其中包含不同的与动作相关的区域。通过对D2F嵌入进行聚类,潜在空间被量化,对话可以转换为区域/动作ID序列,有助于提取潜在的工作流程。为了预训练D2F,我们通过统一二十个面向任务的对话数据集,并标准化每轮动作注释,构建了一个全面的数据集。我们还引入了一种新颖的软对比损失,利用这些动作的语义信息来引导表示学习过程,表现出比标准监督对比损失更优越的性能。与包括特定于对话的句子嵌入在内的各种句子嵌入进行评估,结果显示D2F在各种领域中产生了优越的定性和定量结果。
本研究测试了大型语言模型(LLMs)在专业决策中作为正式第二意见工具的作用,特别关注复杂医疗案例,即使经验丰富的医生也会寻求同行咨询的情况。该研究分析了来自Medscape的183个具有挑战性的医疗案例,历时20个月,测试了多个LLMs在与众包医生回应相比的表现。一个关键发现是在最新的基础模型中可能获得的高整体得分(>80%的准确率,与共识意见相比),这超过了同一临床案例(450页的患者档案、检测结果)上报告的大多数人类指标。研究评估了LLMs在简单案例(>81%的准确率)和复杂场景(43%的准确率)之间的性能差距,特别是在这些引发人类医生之间广泛讨论的案例中。研究表明,LLMs可能有助于生成全面的不同诊断,而不是作为主要诊断工具,潜在地有助于抵消临床决策中的认知偏见,减少认知负荷,从而消除一些医疗错误的来源。第二个比较性法律数据集(最高法院案例,N=21)的纳入为促进第二意见的AI使用提供了额外的实证背景,尽管这些法律挑战对LLMs来说分析起来相当容易。除了为LLMs准确性提供原始证据之外,该研究还汇总了一个新颖的基准,供他人评估LLMs和持不同意见的人类从业者之间高度争议的问题和答案的可靠性。这些结果表明,在专业环境中最佳部署LLMs的方式可能与当前强调自动化例行任务的方法有很大不同。
考虑到在现实世界中收集机器人数据的高成本,样本效率一直是机器人领域中一个持续引人注目的追求。在本文中,我们介绍了SGRv2,这是一个通过改进视觉和动作表示来提高样本效率的模仿学习框架。SGRv2设计的核心是引入了一个关键的归纳偏差 - 动作局部性,该偏差认为机器人的动作主要受目标物体及其与局部环境的相互作用所影响。在模拟和真实世界环境中进行的大量实验表明,动作局部性对于提高样本效率至关重要。SGRv2在RLBench任务中以关键帧控制为特色,仅使用5个演示就超越了26项任务中的23项RVT基线。此外,在ManiSkill2和MimicGen上进行密集控制评估时,SGRv2的成功率是SGR的2.54倍。在真实环境中,仅使用八个演示,SGRv2相比基线模型可以以明显更高的成功率执行各种任务。项目网站:http://sgrv2-robot.github.io
从人体动作捕捉(MoCap)数据进行模仿学习为训练类人机器人提供了一种有前途的方法。然而,由于形态学上的差异,如不同程度的关节自由度和力量限制,对于类人机器人来说,精确复制人类行为可能并非可行。因此,在训练数据集中加入在物理上不可行的MoCap数据可能会对机器人策略的性能产生不利影响。为了解决这个问题,我们提出了一种基于双层优化的模仿学习框架,该框架在优化机器人策略和目标MoCap数据之间交替进行。具体而言,我们首先利用一种新颖的自洽自动编码器开发了一个生成式潜在动力学模型,该模型学习稀疏且结构化的运动表示,同时捕捉数据集中所需的运动模式。然后利用动力学模型生成参考运动,而潜在表示对双层运动模仿过程进行规范化。通过使用类人机器人的真实模型进行的模拟表明,我们的方法通过修改参考运动以使其在物理上一致,提高了机器人策略的性能。