每日精选AI研究论文及翻译
《星际争霸II》是最具挑战性的模拟强化学习环境之一;它是部分可观察的、随机的、多智能体的,掌握《星际争霸II》需要在实时低层执行中进行长期战略规划。它还拥有活跃的专业竞技场景。《星际争霸II》非常适合推动离线强化学习算法的发展,既因为其具有挑战性,也因为暴雪公司发布了数百万局人类玩家对战的《星际争霸II》数据集。本文利用这一点,建立了一个名为AlphaStar Unplugged的基准,为离线强化学习引入了前所未有的挑战。我们定义了一个数据集(暴雪发布的子集),标准化机器学习方法的API工具,以及评估协议。我们还提出了基线智能体,包括行为克隆、演员-评论家的离线变体和MuZero。我们仅利用离线数据改进了智能体的最新技术水平,并在与先前发布的AlphaStar行为克隆智能体对战中获得了90%的胜率。
大型语言模型(LLMs)正变得越来越智能和自主,针对传统自然语言处理任务之外的真实世界实用任务。因此,迫切需要评估LLMs在互动环境中作为代理的挑战性任务能力。我们提出了AgentBench,这是一个多维演进基准,目前包括8个不同环境,用于评估LLM作为代理在多轮开放式生成设置中的推理和决策能力。我们对25个LLMs(包括API和开源模型)进行了广泛测试,结果显示,虽然顶级商业LLMs在复杂环境中作为代理的能力很强,但它们与开源竞争对手之间的性能存在显著差异。这也是一个正在进行的项目的组成部分,该项目具有更广泛的覆盖范围和更深入考虑系统化LLM评估。AgentBench的数据集、环境和集成评估包已发布在https://github.com/THUDM/AgentBench。
从高度定制的文本描述和姿势指导中创建富有表现力、多样化和高质量的3D头像是一项具有挑战性的任务,这是由于在3D建模和纹理方面的复杂性,以确保细节和各种风格(逼真的、虚构的等)。我们提出AvatarVerse,这是一个稳定的流程,可以从纯文本描述和姿势指导中生成富有表现力的高质量3D头像。具体而言,我们引入了一个基于DensePose信号的2D扩散模型,通过2D图像建立头像的3D姿势控制,从而增强了部分观察场景的视图一致性。它解决了臭名昭著的Janus问题,并显著稳定了生成过程。此外,我们提出了一种渐进式高分辨率3D合成策略,显著提高了所创建的3D头像的质量。因此,所提出的AvatarVerse流程实现了对3D头像的零样本3D建模,这些头像不仅更具表现力,而且质量和保真度也比以往的作品更高。严格的定性评估和用户研究展示了AvatarVerse在合成高保真度3D头像方面的优越性,引领了高质量和稳定的3D头像创作新标准。我们的项目页面是:https://avatarverse3d.github.io
最近的文本到图像生成模型使我们能够将文字转化为生动、引人入胜的图像。随之而来的个性化技术激增也使我们能够在新场景中想象独特的概念。然而,一个耐人寻味的问题仍然存在:我们如何生成一个以前从未见过的新奇概念?在本文中,我们提出了创造性文本到图像生成的任务,我们试图生成一个广泛类别的新成员(例如,生成一种与所有现有宠物不同的宠物)。我们利用鲜为人知的扩散先验模型,并展示创造性生成问题可以被表述为对扩散先验输出空间的优化过程,从而产生一组“先验约束”。为了防止我们生成的概念收敛到现有成员,我们将一个问答模型整合进来,自适应地向优化问题添加新约束,鼓励模型发现越来越独特的创作。最后,我们展示我们的先验约束也可以作为一个强大的混合机制,使我们能够创建生成概念之间的混合体,为创造过程引入更多灵活性。
大型语言模型(LLMs)展示了出色的泛化能力,例如理解任意实体和关系。指导调整已被证明对将LLMs提炼为更具成本效益的模型(如Alpaca和Vicuna)非常有效。然而,这样的学生模型在下游应用中仍然远远落后于原始LLMs。在本文中,我们探讨了针对性提炼和以任务为中心的指导调整,以训练能在广泛应用类别(如开放信息提取)中表现出色的学生模型。通过以命名实体识别(NER)为案例研究,我们展示了如何将ChatGPT提炼为更小的UniversalNER模型,用于开放NER。为了评估,我们汇编了迄今为止最大的NER基准,包括来自9个不同领域(如生物医学、编程、社交媒体、法律、金融)的43个数据集。在不使用任何直接监督的情况下,UniversalNER在成千上万种实体类型中实现了出色的NER准确性,平均超过Alpaca和Vicuna等通用指导调整模型30个绝对F1点。只使用极少量参数,UniversalNER不仅具备ChatGPT在识别任意实体类型方面的能力,而且在NER准确性方面平均超过7-9个绝对F1点。值得注意的是,UniversalNER甚至在很大程度上胜过了最先进的多任务指导调整系统(如InstructUIE),后者使用了受监督的NER示例。我们还进行了彻底的消融研究,以评估我们提炼方法中各个组成部分的影响。我们将发布提炼配方、数据和UniversalNER模型,以促进未来针对性提炼研究。
眼见为实,然而,人类视觉知觉与认知相互交织的基本机制仍然是一个谜。由于近年来神经科学和人工智能的快速发展,我们已经能够记录视觉诱发的大脑活动,并通过计算方法模拟视觉知觉能力。本文关注通过基于便携式脑信号(即脑电图(EEG)数据)重建观察到的图像来重建视觉刺激。由于EEG信号以时间序列格式动态变化且因其嘈杂而臭名昭著,处理和提取有用信息需要更多专门的努力;在本文中,我们提出了一个名为NeuroImagen的全面流程,用于从EEG信号中重建视觉刺激图像。具体而言,我们结合了一种新颖的多层次感知信息解码,以从给定的EEG数据中得出多粒度的输出。然后,一个潜在扩散模型将利用提取的信息重建高分辨率的视觉刺激图像。实验结果已经证明了图像重建的有效性以及我们提出的方法在定量性能上的优越表现。
随着自然语言处理的最新进展,大型语言模型(LLMs)已经成为各种现实世界应用的强大工具。尽管它们非常强大,但LLMs的固有生成能力可能不足以处理需要任务规划和外部工具使用相结合的复杂任务。在本文中,我们首先提出了一个专为基于LLMs的人工智能代理量身定制的结构化框架,并讨论了解决复杂问题所必需的关键能力。在这个框架内,我们设计了两种不同类型的代理(即一步代理和顺序代理)来执行推理过程。随后,我们使用各种LLMs实例化了这个框架,并评估它们在典型任务上的任务规划和工具使用(TPTU)能力。通过突出主要发现和挑战,我们的目标是为研究人员和从业者提供一个有用的资源,以利用LLMs在其人工智能应用中的力量。我们的研究强调了这些模型的巨大潜力,同时也确定了需要更多调查和改进的领域。
在尝试更好地了解和减轻相关风险的机器学习模型的可见性时,一个潜在有价值的证据来源是:哪些训练示例对于特定行为起到了最大贡献?影响函数旨在回答一个反事实问题:如果将给定序列添加到训练集中,模型的参数(从而是其输出)会如何变化?虽然影响函数为小型模型提供了洞见,但由于计算逆Hessian矢量乘积(IHVP)的困难,很难将其扩展到大型语言模型(LLMs)。我们使用特征校正的Kronecker分解近似曲率(EK-FAC)来将影响函数扩展到具有高达520亿参数的LLMs。在我们的实验中,EK-FAC在计算IHVP时速度快得多,却实现了与传统影响函数估计器类似的准确性。我们研究了两种算法技术来降低计算候选训练序列梯度的成本:TF-IDF过滤和查询批处理。我们使用影响函数来研究LLMs的泛化模式,包括影响模式的稀疏性、随着规模增大的抽象性、数学和编程能力、跨语言泛化以及角色扮演行为。尽管存在许多看似复杂的泛化形式,我们发现一个令人惊讶的限制:当关键短语的顺序颠倒时,影响会衰减至接近零。总的来说,影响函数为我们提供了一个强大的新工具,用于研究LLMs的泛化特性。
运动放大帮助我们可视化微小、难以察觉的运动。然而,先前的方法仅适用于由固定摄像头拍摄的2D视频。我们提出了一种3D运动放大方法,可以放大由移动摄像头捕捉的场景中微小的运动,同时支持新颖的视角渲染。我们用时间变化的辐射场表示场景,并利用欧拉原理进行运动放大,以提取和放大固定点的嵌入随时间变化的差异。我们研究并验证了我们提出的3D运动放大原理,使用隐式和三平面辐射场作为我们的基础3D场景表示。我们评估了我们的方法在各种摄像头设置下捕捉的合成和真实场景的有效性。
最近大规模视觉语言模型(LVLMs)的最新进展展示了在解决复杂多模态任务方面取得的显著进展。在这些尖端发展中,谷歌的Bard因其卓越的多模态能力而脱颖而出,促进了跨不同领域的全面理解和推理。本研究通过提出LVLMs多模态能力的早期和全面评估,特别关注Bard,提出了LVLM-eHub的轻量级变体,命名为Tiny LVLM-eHub。与原始版本相比,Tiny LVLM-eHub具有几个吸引人的特性。首先,通过对42个标准文本相关视觉基准的定量评估,它提供了对六类多模态能力的系统评估,包括视觉感知、视觉知识获取、视觉推理、视觉常识、物体幻觉和具身智能。其次,它通过ChatGPT集成评估(CEE)对LVLMs的预测进行了深入分析,从而实现了强大而准确的评估,并与单词匹配方法相比展现出更好的与人类评估的一致性。第三,它仅包含2.1K图像文本对,便于从业者评估其自己的离线LVLMs。通过广泛的实验分析,本研究表明,Bard在大多数多模态能力方面优于先前的LVLMs,除了物体幻觉,Bard仍然容易受到影响。Tiny LVLM-eHub为各种LVLMs提供了基准评估,并鼓励旨在推进多模态技术的创新策略。我们的项目可在https://github.com/OpenGVLab/Multi-Modality-Arena 公开获取。
现有的大型语言模型必须运行K次才能生成K个标记的序列。在本文中,我们提出了RecycleGPT,这是一种具有快速解码速度的生成式语言模型,通过回收预先生成的模型状态,而无需在多个步骤中运行整个模型。我们的方法依赖于这样一个观察结果,即序列中相邻的标记通常具有很强的相关性,并且可以根据前面的标记合理猜测或推断出序列中的下一个标记。通过理论评估和对下游文本生成任务的实际测试,我们展示了我们的方法在降低推理延迟方面的有效性,实现了高达1.4倍的加速,同时保持高性能。
最近,神经辐射场(Neural Radiance Fields,NeRF)在新视角合成、表面重建等方面取得了显著成功。然而,由于其渲染流程中未考虑物理反射,NeRF将镜子中的反射错误地视为单独的虚拟场景,导致镜子的重建不准确以及镜子中多视角反射不一致。本文提出了一种新颖的神经渲染框架,名为Mirror-NeRF,能够学习镜子的准确几何和反射,并支持各种镜子场景操作应用,如在场景中添加新对象或镜子,合成这些新对象在镜子中的反射,控制镜子的粗糙度等。为实现这一目标,我们提出了一个统一的辐射场,引入了反射概率,并沿着Whitted光线追踪模型追踪光线,同时开发了几种技术来促进学习过程。在合成和真实数据集上的实验证明了我们方法的优越性。代码和补充材料可在项目网页上找到:https://zju3dv.github.io/Mirror-NeRF/。
在工业控制领域,开发具有少样本和低技术债务的高性能控制器具有吸引力。基础模型具有丰富的先验知识,通过与互联网规模语料库的预训练获得,有潜力成为一个具有适当提示的良好控制器。本文以暖通空调(HVAC,Heating, Ventilation, and Air Conditioning)建筑控制为例,检验了GPT-4(一流基础模型之一)作为控制器的能力。为了控制HVAC,我们将任务包装为一种语言游戏,通过提供包括任务简要描述、几个选定演示以及每一步对GPT-4的当前观察的文本,并执行GPT-4响应的动作。我们进行了一系列实验来回答以下问题:1)GPT-4在HVAC控制方面表现如何?2)GPT-4在HVAC控制的不同场景中能否很好地泛化?3)文本上下文的不同部分如何影响性能?总体而言,我们发现GPT-4在少样本和低技术债务情况下实现了与强化学习方法相媲美的性能,表明直接应用基础模型到工业控制任务具有潜力。
深度学习软件库的发展使该领域取得了重大进展,让用户能够专注于建模,同时让库负责优化执行以适配现代硬件加速器的繁琐且耗时的任务。然而,这仅使某些类型的深度学习模型受益,比如变换器,其基本元素易于映射到向量化计算。那些明确考虑结构化对象(如树和分割)的模型并没有同等受益,因为它们需要定制算法,难以以向量化形式实现。 SynJax 直接解决了这一问题,提供了针对结构化分布的推断算法的高效向量化实现,涵盖了对齐、标记、分割、组成树和跨度树。通过 SynJax,我们可以构建明确对数据结构进行建模的大规模可微分模型。代码可在 https://github.com/deepmind/synjax 获取。
量化已经成为一种主流的压缩技术,用于减小现代深度神经网络(DNNs)的模型大小、计算需求和能耗。随着近期硬件中改进的数字支持,包括多种整数和浮点数的变体,混合精度量化已经成为实现高质量结果和低模型成本的必要手段。先前的混合精度量化方法通常进行后训练量化搜索,这会影响准确性,或者进行可微量化搜索,但会导致分支带来的高内存使用。因此,我们提出了第一个一次性混合精度量化搜索,无需在整数和低精度浮点模型中重新训练。我们在多个卷积网络和视觉Transformer模型上评估了我们的浮点和整数量化搜索(FLIQS),以发现帕累托最优模型。我们的方法发现了优于均匀精度、手动混合精度和最近整数量化搜索方法的模型。通过提出的整数量化搜索,我们将ResNet-18在ImageNet上的准确性提高了1.31个百分点,ResNet-50提高了0.90个百分点,与先前方法相比,模型成本相当。此外,我们首次探索了一种新颖的混合精度浮点搜索,并将MobileNetV2的准确性提高了高达0.98个百分点,与先前最先进的FP8模型相比。最后,我们将FLIQS扩展到同时搜索联合量化和神经架构空间,并在MobileNetV2搜索空间上将ImageNet准确性提高了2.69个百分点,模型成本相似。
深度生成模型能够根据各种类型的表示(例如,梅尔频谱图,梅尔频率倒谱系数(MFCC))生成高保真音频。最近,这些模型已被用于合成受高度压缩表示条件的音频波形。尽管这些方法产生了令人印象深刻的结果,但当条件出现缺陷或不完善时,它们很容易生成可听见的伪影。另一种建模方法是使用扩散模型。然而,这些模型主要被用作语音声码器(即,受梅尔频谱图条件)或生成相对低采样率信号。在这项工作中,我们提出了一个高保真的多频带扩散模型框架,可以从低比特率的离散表示生成任何类型的音频模态(例如,语音,音乐,环境声音)。在相同比特率下,所提出的方法在感知质量方面优于最先进的生成技术。训练和评估代码以及音频样本可在facebookresearch/audiocraft Github页面上找到。