每日精选AI研究论文及翻译
大型语言模型(LLM)已经彻底改变了自然语言处理(NLP),在许多现有任务上改进了最先进技术,并展示了新兴能力。然而,LLM尚未成功应用于半结构化文档信息提取,这是许多文档处理工作流程的核心,包括从视觉丰富的文档(VRD)中提取关键实体,给定预定义的目标模式。LLM在该任务中应用的主要障碍是LLM内部缺乏布局编码,这对于高质量提取至关重要,并且缺乏确保答案不是虚构的基础机制。在本文中,我们介绍了基于语言模型的文档信息提取和定位(LMDX)方法,用于调整任意LLM以进行文档信息提取。LMDX可以提取单个、重复和分层实体,无论是否有训练数据,同时提供基础保证并定位文档中的实体。特别是,我们将LMDX应用于PaLM 2-S LLM,并在VRDU和CORD基准测试上进行评估,树立了新的最先进技术,并展示了LMDX如何实现高质量、数据高效的解析器的创建。
本文揭示了扩散 U-Net 的潜力,它被视为一种“免费午餐”,可以显著提高实时生成的质量。我们最初研究了 U-Net 架构对去噪过程的关键贡献,并确定其主干主要有助于去噪,而其跳跃连接主要将高频特征引入解码器模块,导致网络忽略主干语义。基于这一发现,我们提出了一种简单而有效的方法,称为“FreeU”,可以在不需要额外训练或微调的情况下增强生成质量。我们的关键洞察是有策略地重新加权源自 U-Net 跳跃连接和主干特征图的贡献,以利用 U-Net 架构的两个组成部分的优势。在图像和视频生成任务上取得的令人期待的结果表明,我们的 FreeU 可以轻松集成到现有的扩散模型中,例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和 ReVersion,只需几行代码即可提高生成质量。在推断过程中,您只需调整两个缩放因子。项目页面:https://chenyangsi.top/FreeU/。
本文介绍了DreamLLM,这是一个学习框架,首次实现了功能强大的多模态大型语言模型(MLLMs),充分利用了多模态理解和创作之间经常被忽视的协同作用。DreamLLM基于两个基本原则运作。第一个原则侧重于通过在原始多模态空间中直接采样来生成语言和图像后验模型。这种方法规避了类似CLIP这样的外部特征提取器固有的限制和信息丢失问题,并实现了更全面的多模态理解。第二,DreamLLM促进了生成原始的交错文档,对文本和图像内容以及非结构化布局进行建模。这使得DreamLLM能够有效地学习所有条件、边际和联合多模态分布。因此,DreamLLM是第一个能够生成自由形式交错内容的MLLM。全面的实验突显了DreamLLM作为零-shot多模态通用主义者的卓越表现,从增强的学习协同作用中获益。
我们介绍了Kosmos-2.5,这是一个用于机器阅读文本密集图像的多模态文学模型。在大规模文本密集图像上进行预训练后,Kosmos-2.5在两个不同但相互合作的转录任务中表现出色:(1)生成具有空间感知的文本块,其中每个文本块被分配其在图像中的空间坐标,以及(2)生成捕捉样式和结构的结构化文本输出,以Markdown格式呈现。这种统一的多模态文学能力是通过共享Transformer架构、任务特定提示和灵活的文本表示实现的。我们对Kosmos-2.5进行了端到端文档级文本识别和图像到Markdown文本生成的评估。此外,该模型可以通过监督微调轻松适应具有不同提示的任何文本密集图像理解任务,使其成为涉及文本丰富图像的实际应用的通用工具。这项工作还为未来多模态大型语言模型的扩展铺平了道路。
在大型语言模型中,生成看似正确但实际错误的事实信息,被称为幻觉,是一个尚未解决的问题。我们研究语言模型在纠正错误时思考其回答的能力。我们开发了“验证链”(CoVe)方法,模型首先(i)起草初始回答;然后(ii)计划验证问题以核实起草内容;(iii)独立回答这些问题,以避免受其他回答的影响;最后(iv)生成最终经过验证的回答。在实验中,我们展示了CoVe在各种任务中减少幻觉的效果,包括来自Wikidata的基于列表的问题、闭卷MultiSpanQA和长文本生成。
AI社区在开发强大的基础模型方面取得了重大进展,这些进展是由大规模多模态数据集驱动的。然而,在音频表示学习社区中,目前的音频-语言数据集存在诸如容量不足、内容过于简单和收集程序繁琐等限制。为了解决这些挑战,我们提出了一种基于一系列公共工具或API的创新自动音频字幕生成流程,并构建了一个名为Auto-ACD的大规模、高质量的音频-语言数据集,包括超过190万个音频-文本对。为了展示所提出数据集的有效性,我们在数据集上训练了流行模型,并展示了在各种下游任务上的性能改进,即音频-语言检索、音频字幕生成、环境分类。此外,我们建立了一个新颖的测试集,并为音频-文本任务提供了一个基准。所提出的数据集将在https://auto-acd.github.io/ 上发布。
近年来,由于其出色的性能和泛化能力,大型语言模型(LLMs)引起了研究界的广泛关注。在本文中,我们介绍了一种新颖的方法,用于将LLMs纳入上下文化语音识别模型中。我们的方法将语音识别视为基于预训练LLMs的混合模态语言建模任务。我们提供音频特征以及可选的文本标记作为上下文,以训练系统以仅解码器方式完成转录。因此,系统会在训练过程中被隐式激励学习如何利用非结构化的上下文信息。我们的实证结果表明,在提供额外文本上下文时,性能显著提高,WER降低了6%。此外,我们发现我们的方法在整体上表现竞争力强,并在罕见词上相对基准上下文化RNN-T系统提高了7.5%的WER,后者在训练时使用了超过25倍大的语音数据集。总体而言,我们证明通过添加少量可训练参数适配器,我们可以为预训练LLMs释放上下文化语音识别能力,同时保持相同的仅文本输入功能。
Languini Kitchen既是一个研究集体,也是一个代码库,旨在赋予计算资源有限的研究人员对语言建模领域做出有意义贡献的能力。我们引入了一种实验性协议,使模型比较基于等效计算,以加速器小时计量。模型训练的标记数量由模型的吞吐量和所选的计算类别定义。值得注意的是,这种方法避免了对影响总参数或浮点运算的关键超参数的限制。为了评估,我们对现有的大型、多样化和高质量的书籍数据集进行预处理,该数据集在质量、多样性和文档长度方面超过了现有的学术基准。我们在此基础上比较基于它们在不同计算级别上的实验估计的经验性扩展趋势的方法。这项工作还提供了两个基准模型:一个是基于GPT-2架构的前馈模型,另一个是以十倍吞吐量的新型LSTM形式的递归模型。尽管GPT基准在我们所有的计算级别上都实现了更好的困惑度,但我们的LSTM基准展现出了可预测且更有利的扩展规律。这是由于改进的吞吐量和需要更少的训练标记来实现相同测试困惑度减少的原因。推断两种模型的扩展规律结果在大约50,000个加速器小时处相交。我们希望这项工作能够成为有意义且可重复的语言建模研究的基础。
最近在神经辐射场(NeRFs)方面取得的进展使得重建和重新激活动态肖像场景成为可能,可以控制头部姿势、面部表情和观看方向。然而,训练这样的模型假定在变形区域上存在光度一致性,例如,面部在随着头部姿势和面部表情变化而变形时必须均匀照亮。即使在工作室环境中,跨视频帧的这种光度一致性也很难维持,因此在重新激活过程中创造的可重新激活的神经肖像容易出现瑕疵。在这项工作中,我们提出了CoDyNeRF,这是一个系统,可以在真实世界的拍摄条件下创建完全可控的3D肖像。CoDyNeRF通过在规范空间中的动态外观模型来学习近似光照相关效果,该模型是根据预测的表面法线、面部表情和头部姿势变形进行条件化的。表面法线的预测是通过作为人头表面法线的粗略先验的3DMM法线来引导的,由于头部姿势和面部表情变化引起的刚性和非刚性变形,直接预测法线是困难的。仅使用智能手机捕获的主体的短视频进行训练,我们展示了我们的方法在具有明确头部姿势和表情控制以及逼真光照效果的肖像场景的自由视图合成方面的有效性。项目页面链接:http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html