每日精选AI研究论文及翻译
我们提出了一个框架,用于对人工通用智能(AGI)模型及其前身的能力和行为进行分类。该框架引入了AGI性能、通用性和自主性的级别。我们希望这个框架能够类比于自动驾驶的级别,通过提供一个共同的语言来比较模型、评估风险,并衡量通往AGI之路上的进展。为了开发我们的框架,我们分析了现有的AGI定义,并提炼出一个有用的本体论应满足的六个原则。这些原则包括侧重于能力而非机制;分别评估通用性和性能;以及定义通往AGI的阶段,而非专注于终点。牢记这些原则,我们提出了基于能力的深度(性能)和广度(通用性)的“AGI级别”,并反思了当前系统如何符合这一本体论。我们讨论了未来基准的挑战性要求,以量化AGI模型的行为和能力与这些级别的对比。最后,我们讨论了这些AGI级别与部署考虑因素(如自主性和风险)的互动,并强调了谨慎选择人机交互范式对于负责任和安全部署高度能力的AI系统的重要性。
大型多模态模型(LMMs)将大型语言模型扩展到视觉领域。最初针对LMMs的努力使用整体图像和文本提示生成未接地的文本响应。最近,区域级LMMs已被用于生成视觉接地的响应。然而,它们仅限于一次引用单个对象类别,需要用户在输入中指定区域,或无法提供密集的像素级对象接地。在这项工作中,我们提出了接地LMM(GLaMM),这是第一个可以生成自然语言响应并与相应对象分割掩模无缝交织的模型。GLaMM不仅接地出现在对话中的对象,而且足够灵活,可以接受文本和可选视觉提示(感兴趣区域)作为输入。这使用户能够以各种粒度在文本和视觉领域与模型进行交互。由于缺乏用于生成具有视觉接地详细对话的新颖设置的标准基准,我们引入了一个包含我们精心策划的接地对话的全面评估协议。我们提出的接地对话生成(GCG)任务要求在大规模自然场景中密集接地的概念。为此,我们提出了一个密集注释的接地任何事物数据集(GranD),使用我们提出的自动注释流程,其中包含810M个区域的总共750万个独特概念。除了GCG,GLaMM还在几个下游任务上表现出色,例如指代表达分割、图像和区域级字幕以及视觉语言对话。项目页面:https://mbzuai-oryx.github.io/groundingLMM。
最近,视频合成在扩散模型的快速发展带来的显著进展。然而,它仍然面临着语义准确性、清晰度和时空连续性方面的挑战。这些挑战主要源自文本视频数据匮乏以及视频复杂的固有结构,使模型难以同时确保语义和质量上的卓越表现。在本报告中,我们提出了一种级联I2VGen-XL方法,通过解耦这两个因素并利用静态图像作为重要指导形式,增强模型性能并确保输入数据的对齐。I2VGen-XL包括两个阶段:i) 基础阶段通过使用两个分层编码器保证连贯的语义,并保留来自输入图像的内容,ii) 优化阶段通过整合额外简短文本来增强视频的细节,并将分辨率提高到1280x720。为了提高多样性,我们收集了约3500万个单镜头文本视频对和60亿个文本图像对来优化模型。通过这种方式,I2VGen-XL能够同时提高语义准确性、细节连续性和生成视频的清晰度。通过广泛实验,我们研究了I2VGen-XL的基本原理,并将其与当前顶尖方法进行了比较,证明了其在多样数据上的有效性。源代码和模型将在https://i2vgen-xl.github.io 上公开提供。
“先预训练后微调”范式通常被广泛采用在大型语言模型的部署中。低秩适应(LoRA)是一种参数高效的微调方法,经常被用来将基础模型调整到多种任务中,从而产生了大量从一个基础模型派生的LoRA适配器集合。我们观察到这种范式为服务期间的批量推理提供了重要机会。为了充分利用这些机会,我们提出了S-LoRA,这是一个专为可扩展提供多个LoRA适配器而设计的系统。S-LoRA将所有适配器存储在主内存中,并将当前运行查询使用的适配器提取到GPU内存中。为了高效利用GPU内存并减少碎片化,S-LoRA提出了统一分页。统一分页使用统一内存池来管理具有不同秩的动态适配器权重以及具有不同序列长度的KV缓存张量。此外,S-LoRA采用了一种新颖的张量并行策略和高度优化的自定义CUDA核心,用于异构LoRA计算的批处理。总的来说,这些特性使得S-LoRA能够在单个GPU上或跨多个GPU上为数千个LoRA适配器提供服务,而开销很小。与HuggingFace PEFT和vLLM等最先进的库相比(这些库对LoRA服务的支持较为简单),S-LoRA的吞吐量提高了多达4倍,并且服务的适配器数量增加了数个数量级。因此,S-LoRA实现了许多特定任务微调模型的可扩展服务,并为大规模定制微调服务提供了潜力。
我们介绍了CogVLM,这是一个强大的开源视觉语言基础模型。 与流行的浅层对齐方法不同,该方法将图像特征映射到语言模型的输入空间中,CogVLM通过在注意力和前馈神经网络层中引入一个可训练的视觉专家模块来弥合预训练语言模型和图像编码器之间的差距。因此,CogVLM实现了对视觉语言特征的深度融合,而不会在自然语言处理任务上牺牲性能。CogVLM-17B在包括NoCaps、Flicker30k字幕生成、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC在内的10个经典跨模态基准上实现了最先进的性能,并在VQAv2、OKVQA、TextVQA、COCO字幕生成等任务中排名第二,超越或与PaLI-X 55B持平。代码和检查点可在https://github.com/THUDM/CogVLM找到。
在现代机器学习工作负载中,动态形状计算变得至关重要,尤其是在新兴的大型语言模型中。这些模型的成功推动了将它们部署到各种不同的后端环境的需求。本文介绍了一种名为Relax的编译器抽象,用于优化端到端的动态机器学习工作负载。Relax引入了一流的符号形状注释,用于全局跟踪程序中的动态形状计算。它还引入了一个跨级别的抽象,将计算图、循环级张量程序和库调用封装在一个表示中,以实现跨级别的优化。我们使用提出的方法构建了一个端到端的编译框架,用于优化动态形状模型。对大型语言模型的实验结果显示,Relax在各种平台上提供了与最先进的手动优化系统相竞争的性能,并能够将新兴的动态模型部署到更广泛的环境中,包括手机、嵌入式设备和Web浏览器。
近年来提出了各种大型语言模型(LLMs),包括闭源和开源模型,不断在多个基准测试中刷新记录。然而,LLMs的发展仍面临一些问题,如从头开始训练模型的高成本,以及持续的预训练导致灾难性遗忘等。尽管许多研究在LLMs领域解决了许多这类问题,但一个重要且实际的限制是,许多研究过分追求扩大模型规模,而没有全面分析和优化在学习过程中预训练数据的使用,以及在成本有效设置下训练LLMs时适当组织和利用这些数据。在这项工作中,我们提出了Ziya2,这是一个拥有130亿参数的模型,采用LLaMA2作为基础模型,并在7000亿标记上进行了进一步的预训练,我们专注于预训练技术,并使用以数据为中心的优化来增强Ziya2在不同阶段的学习过程。实验表明,Ziya2在多个基准测试中明显优于其他模型,尤其是与代表性开源模型相比具有令人期待的结果。Ziya2(Base)已发布在https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base和https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary。
我们提出了一个端到端系统,用于在虚拟现实中以高保真度捕捉、建模重建和实时渲染可步行空间,采用神经辐射场技术。为此,我们设计并构建了一个定制的多摄像机装置,以高保真度和多视角高动态范围图像密集捕捉可步行空间,质量和密度前所未有。我们通过引入一种新颖的感知色彩空间来扩展即时神经图形基元,用于学习准确的高动态范围外观,以及一种高效的mip-mapping机制,用于带有抗锯齿的细节级别渲染,同时仔细优化质量和速度之间的权衡。我们的多GPU渲染器能够以36 Hz在我们定制的演示机器上以双2K乘2K的全VR分辨率高保真度体积渲染我们的神经辐射场模型。我们展示了我们在具有挑战性的高保真度数据集上的结果质量,并将我们的方法和数据集与现有基准进行了比较。我们在项目网站上发布了我们的数据集。
在人类撰写的文章中,我们经常利用文本样式的微妙之处,比如加粗和斜体,来引导读者的注意力。这些文本强调对于读者理解传达的信息至关重要。当与大型语言模型(LLMs)交互时,我们有类似的需求 - 引导模型更加关注用户指定的信息,例如指令。然而,现有方法受限于处理纯文本,不支持这样的机制。这促使我们引入PASTA - 后续注意力引导方法,一种允许LLMs阅读带有用户指定强调标记的文本的方法。为此,PASTA识别出一小部分注意力头,并对它们应用精确的注意力重加权,将模型的注意力引导到用户指定的部分。类似提示,PASTA应用于推理时期,不需要更改任何模型参数。实验证明,PASTA能够显著增强LLMs遵循用户指令或整合用户输入的新知识的能力,从而在各种任务上实现显著的性能提升,例如在LLAMA-7B上平均准确率提高了22%。我们的代码可以在https://github.com/QingruZhang/PASTA 公开获取。
潜在扩散模型已被证明在生成和操纵视觉输出方面处于最先进水平。然而据我们所知,与RGB同时生成深度图的能力仍然有限。我们引入了LDM3D-VR,这是一个针对虚拟现实开发的扩散模型套件,包括LDM3D-pano和LDM3D-SR。这些模型能够基于文本提示生成全景RGBD,并将低分辨率输入升级为高分辨率RGBD。我们的模型是在包含全景/高分辨率RGB图像、深度图和标题的数据集上,从现有预训练模型微调而来。这两个模型与现有相关方法进行了评估比较。
代码LLMs已经成为一个专门的研究领域,有着显著的研究致力于通过对预训练模型进行微调来增强模型的编码能力。先前的微调方法通常针对特定的下游任务或场景进行定制,这意味着针对每个任务单独进行微调,需要大量的训练资源,并在部署和维护方面存在挑战。此外,这些方法未能利用不同与代码相关任务之间的内在相互关联性。为了克服这些限制,我们提出了一个多任务微调框架,MFTcoder,它可以实现对多个任务进行同时和并行微调。通过结合各种损失函数,我们有效地解决了多任务学习中的常见挑战,如数据不平衡、不同的难度级别和不一致的收敛速度。大量实验证明,我们的多任务微调方法明显优于单个任务的个别微调和混合任务集的微调。此外,MFTcoder提供了高效的训练能力,包括高效的数据标记模式和PEFT微调,相比传统的微调方法,速度显著提高。MFTcoder与几个主流开源LLMs(如CodeLLama和Qwen)无缝集成。利用CodeLLama基础,我们的MFTcoder微调模型CodeFuse-CodeLLama-34B在HumaneEval基准测试中取得了令人印象深刻的74.4\%的pass@1分数,超过了GPT-4的性能(67\%,零-shot)。MFTCoder在https://github.com/codefuse-ai/MFTCOder上开源。
人类的一个显著能力在于组合推理,即能够实现“有限手段的无限应用”。然而,当前的大型视觉-语言基础模型(VLMs)由于其“词袋”行为和无法构建正确代表视觉实体及实体之间关系的单词,而在这种组合能力方面存在不足。为此,我们提出了CoVLM,它可以引导LLM明确地组合视觉实体和文本之间的关系,并动态地与视觉编码器和检测网络进行通信,以实现视觉-语言交流解码。具体而言,我们首先为LLM设计了一组新颖的通信令牌,用于视觉检测系统与语言系统之间的动态通信。LLM生成通信令牌,以通知检测网络提出与迄今为止生成的句子相关的区域,这些区域被提出为感兴趣区域(ROIs),然后反馈到LLM,以便根据相关区域更好地生成语言。LLM因此能够通过通信令牌组合视觉实体和关系。直到整个句子生成完毕,视觉到语言和语言到视觉的通信才会迭代执行。我们的框架无缝地弥合了视觉感知和LLMs之间的差距,并在组合推理基准测试中表现出色,比以往的VLMs表现优异(例如,在HICO-DET mAP上提高了约20%,在Cola top-1准确率上提高了约14%,在ARO top-1准确率上提高了约3%)。我们还在传统的视觉-语言任务中取得了最先进的表现,如指代表达理解和视觉问题回答。
知识蒸馏(KD)通过将知识转移至较小模型,压缩计算昂贵的预训练语言模型(PLMs),使其能够在资源受限或实时环境中使用。然而,大多数较小模型未能超越原始较大模型的性能,导致为改善推理速度而牺牲性能。为解决这一问题,我们提出了协同训练和协同蒸馏(CTCD),这是一个新颖的框架,通过同时协同训练两个模型并相互蒸馏知识来共同提高性能和推理速度。CTCD框架成功实现了这一点基于两个重要发现:1)在协同训练过程中,将知识从较小模型蒸馏到较大模型可以提高较大模型的性能。2)较大模型的增强性能进一步提升了较小模型的性能。CTCD框架显示出潜力,因为它可以与现有技术(如架构设计或数据增强)结合,取代单向KD方法,以实现进一步的性能提升。大量消融研究证明了CTCD的有效性,通过CTCD蒸馏的小模型在GLUE基准测试中的表现明显优于原始较大模型1.66个百分点。
本文介绍了Consistent4D,一种从未校准的单目视频中生成4D动态物体的新方法。独特之处在于,我们将360度动态物体重建视为4D生成问题,消除了繁琐的多视图数据收集和摄像机校准的需求。这是通过利用物体级别的3D感知图像扩散模型作为训练动态神经辐射场(DyNeRF)的主要监督信号来实现的。具体来说,我们提出了级联DyNeRF,以促进在时间轴上离散的监督信号下的稳定收敛和时间连续性。为了实现空间和时间一致性,我们进一步引入了插值驱动的一致性损失。通过最小化DyNeRF渲染帧与预训练视频插值模型的插值帧之间的差异来优化它。大量实验证明,我们的Consistent4D能够与先前的替代方案竞争,并为从单目视频生成4D动态物体开辟新的可能性,同时还展示了在传统文本到3D生成任务中的优势。我们的项目页面是https://consistent4d.github.io/。
大型语言模型(LMs)能够生成自由文本的理由,以帮助问题回答。然而,先前的研究表明:1)有用的自我理性化仅在显著规模(例如,175B参数的GPT-3)下出现;2)主要关注下游性能,忽略了理由本身的语义,例如,它们是否忠实、真实且对人类有帮助?在这项工作中,我们使小规模LMs(约为GPT-3的200倍小)能够生成理由,不仅提高下游任务性能,而且在自动和人工评估中评估更加合理、一致和多样化。我们的方法,MaRio(Multi-rewArd RatIOnalization),是一种多奖励条件化的自我理性化算法,优化多个不同的属性,如合理性、多样性和一致性。在五个困难的问题回答数据集StrategyQA、QuaRel、OpenBookQA、NumerSense和QASC上的结果表明,MaRio不仅提高了任务准确性,还改善了小型LMs在上述轴上的自我理性化质量,优于监督微调(SFT)基线。广泛的人类评估证实,MaRio的理由比SFT的理由更受欢迎,以及在合理性和一致性方面的定性改进。
本文表明,一个简单的自监督预训练音频模型能够达到与具有语音变换器编码器的更复杂预训练模型相媲美的推理效率。这些语音变换器依赖于将卷积模块与自注意力模块相结合。它们在自动语音识别方面取得了最先进的性能,并具有最高的效率。我们首先展示了将这些语音变换器作为编码器的应用显著提高了预训练音频模型的效率。然而,我们的研究表明,仅使用先进的自注意力即可达到可比较的效率。我们证明了这种更简单的方法在使用神经网络的低比特权重量化技术来提高效率时特别有益。我们假设这可以防止在不同量化模块之间传播错误,与最近的语音变换器相比,后者混合了量化卷积和量化自注意力模块。
基于长序列训练的Transformer模型通常比短序列实现更高的准确性。然而,由于巨大的计算和内存需求,传统的Transformer在长序列训练方面存在困难。现有的长序列训练方法提供的加速和内存减少有限,并且可能会影响准确性。本文提出了一种新颖高效的分布式训练方法,即长短序列Transformer(LSS Transformer),用于训练具有长序列的Transformer。它将长序列分割成各个GPU之间的片段,每个GPU计算其片段的部分自注意力。然后,利用融合通信和新颖的双梯度平均技术,避免了聚合部分自注意力的需求,并最小化通信开销。我们在Wikipedia enwik8数据集上评估了LSS Transformer与最先进的Nvidia序列并行方法之间的性能差异。结果表明,相较于144个Nvidia V100 GPU上最先进的序列并行方法,我们提出的方法实现了5.6倍更快和10.2倍更节省内存的效果。此外,我们的算法可扩展到极端序列长度为50,112,使用3,456个GPU时,实现了161%的超线性并行效率和32 petaflops的吞吐量。