每日精选AI研究论文及翻译
企业文档,如表格、发票、收据、报告、合同等类似记录,通常在文本和空间模态的交集处携带丰富的语义。它们复杂的布局所提供的视觉线索在有效理解这些文档中起着关键作用。在本文中,我们介绍了DocLLM,这是传统大型语言模型(LLMs)的一个轻量级扩展,用于推理视觉文档,同时考虑文本语义和空间布局。我们的模型与现有的多模态LLMs不同,它避免了昂贵的图像编码器,专注于利用边界框信息来融合空间布局结构。具体来说,文本和空间模态之间的交叉对齐是通过将经典Transformer中的注意机制分解为一组解耦矩阵来捕获的。此外,我们设计了一个学习填充文本片段的预训练目标。这种方法使我们能够处理在视觉文档中经常遇到的不规则布局和异构内容。经过大规模指令数据集的微调,我们展示了我们的解决方案在所有任务的16个数据集中有14个超越了SotA LLMs,并且在以前未见的5个数据集中有4个表现良好。
本文介绍了一种新颖且简单的方法,仅使用合成数据和不到1k的训练步骤即可获得高质量的文本嵌入。与现有方法不同,后者通常依赖于数十亿个弱监督文本对的多阶段中间预训练,然后再通过少量有标签数据进行微调。我们的方法不需要构建复杂的训练流程,也不依赖于通常受任务多样性和语言覆盖范围限制的手动收集数据集。我们利用专有的LLM生成数十万个文本嵌入任务的多样化合成数据,涵盖近100种语言。然后,我们使用标准对比损失在合成数据上微调开源的仅解码LLM。实验证明,我们的方法在高度竞争的文本嵌入基准测试中表现出色,而无需使用任何有标签数据。此外,当使用合成和有标签数据的混合进行微调时,我们的模型在BEIR和MTEB基准测试中取得了新的最先进结果。
通过监督微调(SFT)利用人工标注数据的能力对于推进大型语言模型(LLMs)至关重要。本文探讨了在不需要获取额外人工标注数据的情况下,如何将一个弱LLM发展成一个强大LLM的可能性。我们提出了一种名为自我对弈微调(SPIN)的新微调方法,该方法从一个经过监督微调的模型开始。SPIN的核心是自我对弈机制,LLM通过与自身实例对弈来提升自身能力。更具体地说,LLM通过从其先前迭代中生成自己的训练数据,通过区分这些自动生成的响应和从人工标注数据中获得的响应来完善其策略。我们的方法逐步将LLM从一个新生模型提升为一个强大模型,释放人工标注示范数据在SFT中的全部潜力。从理论上讲,我们证明了我们方法的训练目标函数的全局最优解仅在LLM策略与目标数据分布一致时才能实现。在经验上,我们在包括HuggingFace开放LLM排行榜、MT-Bench以及Big-Bench数据集在内的几个基准数据集上评估了我们的方法。我们的结果显示,SPIN可以显著提高LLM在各种基准测试中的性能,甚至胜过通过额外GPT-4偏好数据补充的直接偏好优化(DPO)训练的模型。这为自我对弈的前景带来了希望,实现了在LLMs中达到人类水平性能而无需专家对手的可能性。
近年来,大型语言模型(LLMs)取得了显著进展,如ChatGPT所展示的,在各种复杂任务中表现出卓越的能力。然而,许多主流LLMs(例如LLaMA)是在以英语为主的语料库上进行预训练的,这限制了它们在其他非英语语言中的表现。本文关注如何有效地将语言生成和遵循指令的能力转移到非英语语言上。为了回答这个问题,我们基于LLaMA进行了一项持续超过1440个GPU小时的广泛实证调查。我们分析了诸如词汇扩展、进一步预训练和指令调整等关键因素对迁移的影响。为了准确评估模型的知识水平,我们采用了四个广泛使用的标准化测试基准:C-Eval、MMLU、AGI-Eval和GAOKAO-Bench。此外,我们进行了对模型响应质量的全面评估,考虑了准确性、流畅性、信息量、逻辑连贯性和无害性等方面,基于LLM-Eval,这是一个包含来自17个不同类别指令任务的基准。我们的评估结果表明,在知识对齐和响应质量方面,即使使用不到1%的预训练数据,也可以实现与最先进迁移模型相媲美的性能。此外,在十三种低资源语言的实验结果也呈现出类似的趋势。我们预计实验揭示的结论将有助于社区开发非英语LLMs。
大型语言模型(LLM)的扩展规律是经验公式,用于估计随着参数数量和训练数据增加而导致的模型质量变化。然而,这些公式,包括流行的DeepMind Chinchilla扩展规律,在计算时忽略了推理成本。我们修改了Chinchilla扩展规律,以计算最佳的LLM参数数量和预训练数据大小,以训练和部署具有特定质量和推理需求的模型。我们进行了基于计算预算和实际成本的分析,并发现LLM研究人员预期有相当大的推理需求(~10亿请求)时,应该训练比Chinchilla最优模型更小更长的模型。
本研究揭示了大型语言模型(LLMs)在无需微调的情况下处理长文本的固有能力。训练期间训练序列的有限长度可能限制大型语言模型(LLMs)在推理过程中对长输入序列的应用。在本研究中,我们认为现有的LLMs本身具有处理长文本的固有能力。基于这一观点,我们建议通过扩展LLMs的上下文窗口来充分利用这种固有能力。我们提出了自我扩展(Self-Extend)来激发LLMs处理长文本的潜力。基本思想是构建双层注意信息:组级别和邻居级别。这两个级别是通过原始模型的自注意力计算的,这意味着所提出的方法不需要任何训练。只需修改四行代码,所提出的方法就可以轻松地扩展现有LLMs的上下文窗口,而无需任何微调。我们进行了全面的实验,结果表明所提出的方法可以有效地扩展现有LLMs上下文窗口的长度。
大型语言模型(LLMs)的全参数微调(FFT)成本高昂,导致了一系列参数高效微调(PEFT)方法的出现。然而,目前尚不清楚在不同模型规模下,哪种方法能够提供最佳的成本-性能折衷。我们引入了Astraios,这是一套包含28个经过指令调整的OctoCoder模型,使用7种微调方法和4种模型规模,最多达到160亿个参数。通过对涵盖代码理解和代码生成任务的5个任务和8个不同数据集的研究,我们发现FFT通常在各种规模下都能带来最佳的下游性能,而基于模型规模,PEFT方法的有效性存在显著差异。LoRA通常提供了成本和性能之间最有利的折衷。进一步研究这些方法对模型稳健性和代码安全性的影响发现,较大模型往往表现出较低的稳健性和较弱的安全性。最后,我们探讨了更新参数、交叉熵损失和任务性能之间的关系。我们发现,在小型模型中观察到的调整有效性可以很好地推广到较大模型,并且指令调整中的验证损失可以作为整体下游性能的可靠指标。
最近扩散模型的创新和突破显著扩展了为给定提示生成高质量视频的可能性。大多数现有作品处理单场景情景,仅有一个视频事件发生在单一背景中。然而,扩展到生成多场景视频并非简单,并需要在保持视频场景中关键内容的一致视觉外观的同时,巧妙地处理场景之间的逻辑。本文提出了一种新颖的框架,名为VideoDrafter,用于内容一致的多场景视频生成。技术上,VideoDrafter利用大型语言模型(LLM)将输入提示转换为全面的多场景脚本,从中受益于LLM学到的逻辑知识。每个场景的脚本包括描述事件的提示、前景/背景实体以及摄像机移动。VideoDrafter识别整个脚本中的共同实体,并要求LLM详细描述每个实体。然后,将生成的实体描述输入到文本到图像模型中,为每个实体生成一个参考图像。最后,VideoDrafter通过扩散过程输出多场景视频,考虑了参考图像、事件的描述提示和摄像机移动。扩散模型将参考图像作为条件和对齐,以加强多场景视频内容的一致性。大量实验证明,VideoDrafter在视觉质量、内容一致性和用户偏好方面优于SOTA视频生成模型。
大型语言模型(LLMs)展现出在理解和生成文本方面的非凡能力,其文本与人类交流密切相似。然而,其主要限制在于训练过程中存在的巨大计算需求,这是由于其广泛的参数化所导致的。这一挑战进一步加剧了世界动态性的影响,需要经常更新LLMs以纠正过时信息或整合新知识,从而确保其持续相关性。需要指出的是,许多应用需要在训练后持续调整模型以解决缺陷或不良行为。对于即时模型修改,高效轻量级方法的兴趣日益增加。为此,近年来知识编辑技术呈现蓬勃发展,旨在有效修改LLMs在特定领域内的行为,同时保持其在各种输入下的整体性能。在本文中,我们首先定义知识编辑问题,然后全面审视最前沿的方法。借鉴教育和认知研究理论,我们提出一个统一的分类标准,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准,KnowEdit,用于全面实证评估代表性的知识编辑方法。此外,我们对知识定位进行了深入分析,这可以更深入地理解LLMs内在的知识结构。最后,我们讨论了知识编辑的几个潜在应用,概述了其广泛而深远的影响。
在视觉-语言预训练的演变过程中,从短文本理解转向包含扩展文本上下文至关重要。最近的自回归视觉-语言模型如flamingo、palme,利用大型语言模型的长上下文能力,在少样本文本生成任务中表现出色,但在对齐任务中面临挑战。为了解决这一差距,我们将对比损失引入到文本生成模型中,提出了对比流畅多模态框架(\ModelName),将语言模型策略性地划分为专门的单模态文本处理和熟练的多模态数据处理组件。我们的统一框架\ModelName融合了单模态和多模态元素,增强了模型在涉及文本和视觉数据的任务中的性能,同时显著减少了可学习参数。然而,这些模型需要大量的长文本数据集,但高质量的长文本视频数据集的可用性仍然有限。为了弥补这一差距,本研究引入了\VideoDatasetName,这是一个首创的交织视频-文本数据集,具有全面的字幕,标志着重要的一步。通过展示其影响,我们说明了如何提高模型在图像-文本任务中的性能。在34%的可学习参数和利用72%可用数据的情况下,我们的模型在性能上明显优于OpenFlamingo~openflamingo。例如,在4-shot flickr字幕任务中,性能从57.2%显著提高到65%。通过在包括图像-文本和视频-文本任务的14个不同下游数据集上显著提高性能,突显了和的贡献。
在最近的文本到视频(T2V)生成方法中,实现合成视频的可控性通常是一个挑战。通常,这个问题通过提供低级别的逐帧指导,如边缘图、深度图或现有视频以供修改来解决。然而,获取这种指导的过程可能需要大量人力。本文侧重于通过使用简单的边界框来增强视频合成中的可控性,而无需进行神经网络训练、微调、推理时优化或使用预先存在的视频。我们的算法TrailBlazer建立在预训练的(T2V)模型之上,易于实现。主题通过提出的空间和时间注意力图编辑由边界框引导。此外,我们引入了关键帧概念,允许主题轨迹和整体外观由移动边界框和相应提示引导,而无需提供详细的蒙版。该方法高效,与基础预训练模型相比,额外计算几乎可以忽略不计。尽管边界框引导的简单性,但结果运动出奇地自然,出现的效果包括透视和随着边界框大小增加朝虚拟摄像机移动。
大型语言模型(LLMs)在自然语言处理方面取得了重大进展,同时也在将语言能力扩展到其他形式,如语音和视觉。然而,大部分先前的工作侧重于使用听觉理解等感知能力来提示LLMs,而如何有效地增强LLMs的语音合成能力仍然不明确。本文通过将预训练的LLM LLaMA/OPT与文本到语音合成模型VALL-E相结合,对提升LLMs生成语音能力进行了全面的实证探索。我们比较了LLMs和语音合成模型之间的三种集成方法,包括直接微调LLMs、LLMs和VALL-E的叠加层,以及使用LLMs作为强大文本编码器的耦合LLMs和VALL-E。实验结果表明,直接使用LoRA方法对LLMs进行微调以提升语音合成能力并不奏效,而叠加LLMs和VALL-E可以提高生成语音的质量,无论是在说话者相似度还是词错误率(WER)方面。在这三种方法中,利用LLMs作为文本编码器的耦合方法可以实现最佳性能,使其在说话者相似度和显著减少(10.9%)的WER方面优于原始语音合成模型。
在各个领域中,训练大规模语言模型变得日益关键,但由于频繁失败而受阻,导致了重大的时间和经济成本。当前基于云的环境中的失败恢复方法未能充分解决出现的多样化和复杂情况,狭隘地专注于消除个别任务的停机时间,而没有考虑到对整个集群的总体成本影响。我们引入了Unicron,一个专为大规模语言模型训练中高效自愈而设计的工作负载管理器。Unicron通过最小化集群内多个并发任务的与失败相关的成本来优化训练过程。其关键特性包括基于内部的错误检测,实时识别错误而无需额外开销,动态成本感知计划生成机制,用于最佳重配置,以及高效的转换策略,以减少状态变化期间的停机时间。在一个由128个GPU组成的分布式集群上部署,Unicron展示了比最先进方法高达1.9倍的训练效率提升,显著降低了失败恢复成本,并增强了大规模语言模型训练的可靠性。
近年来,随着文本到图像(T2I)模型的快速发展,它们生成的结果仍然存在不尽人意的问题。然而,统一优化不同质量的人工智能生成图像(AIGIs)不仅限制了对低质量AIGIs的优化能力,还给高质量AIGIs带来了负面优化。为了解决这一问题,提出了一种名为Q-Refine的质量奖励精化器。基于人类视觉系统(HVS)的偏好,Q-Refine首次利用图像质量评估(IQA)指标指导精化过程,并通过三个自适应流程修改不同质量的图像。实验证明,对于主流T2I模型,Q-Refine能够有效优化不同质量的AIGIs。它可以作为通用精化器,从保真度和美学质量两个层面优化AIGIs,从而拓展了T2I生成模型的应用。
大型语言模型(LLMs)以其广泛的知识和解决自然语言处理(NLP)中各种任务的能力取得了巨大成功。由于其令人印象深刻的能力,LLMs为利用人工智能(AI for science,AI4S)促进特定领域科学发现的潜在跨学科应用提供了启示。同时,在地球科学研究和实践中广泛而复杂地利用NLP技术,从知识提取和文档分类到问题回答和知识发现都有贡献。在这项工作中,我们迈出了利用LLM进行科学研究的初步步骤,采用了一种相当直接的方法。我们尝试将一个LLM专门用于地球科学,通过进一步对模型进行大量地球科学文本的预训练,以及使用我们自定义收集的指导调整数据集对结果模型进行监督微调(SFT)。这些努力产生了一个包含300亿参数的模型GeoGalactica。据我们所知,这是地球科学领域最大的语言模型。更具体地说,GeoGalactica是对Galactica进行进一步预训练的结果。我们使用从大科学项目Deep-time Digital Earth(DDE)的广泛数据源中筛选出的包含650亿标记的地球科学相关文本语料库对GeoGalactica进行训练,保留为最大的地球科学特定文本语料库。然后,我们使用包含100万对指导调整数据的模型微调数据,其中包含需要专业地球科学知识才能回答的问题。在这份技术报告中,我们将详细阐述GeoGalactica的所有方面,包括数据收集、数据清洗、基础模型选择、预训练、SFT和评估。我们开源我们的数据筛选工具以及GeoGalactica在预训练的前3/4阶段的检查点。
评分蒸馏已成为文本到3D资产合成中最普遍的方法之一。本质上,评分蒸馏通过提升和反向传播在不同视角上平均得分来更新3D参数。在本文中,我们揭示评分蒸馏中的梯度估计固有地具有高方差。通过方差缩减的视角,SDS和VSD的有效性可以被解释为对蒸馏得分的蒙特卡洛估计器应用各种控制变量的应用。受此反思的启发,并基于Stein恒等式,我们提出了一种更一般的解决方案来减少评分蒸馏的方差,称为Stein评分蒸馏(SSD)。SSD结合了由Stein恒等式构建的控制变量,允许任意基线函数。这使我们能够包括灵活的引导先验和网络架构,以明确优化方差缩减。在我们的实验中,名为SteinDreamer的整体流程通过使用单眼深度估计器实例化控制变量来实现。结果表明,SSD能够有效减少蒸馏方差,并持续改善对象和场景级别生成的视觉质量。此外,我们证明SteinDreamer由于更稳定的梯度更新而实现比现有方法更快的收敛。