每日精选AI研究论文及翻译
本文介绍了边缘书写(WiM),这是一种为大型语言模型设计的新推理模式,旨在优化检索导向任务中长输入序列的处理。该方法利用分块预填充的键-值缓存来执行分段推理,从而实现对广泛上下文的高效处理,同时生成和分类中间信息(“边缘”),以引导模型朝向特定任务。这种方法在略微增加计算开销的同时,显著提升了现成模型的性能,无需进行微调。具体来说,我们观察到WiM对推理技能(HotpotQA,MultiHop-RAG)的准确性平均提升了7.5%,对聚合任务(CWE)的F1分数提升超过30.0%。此外,我们展示了所提出的模式如何融入交互式检索设计,为最终用户提供有关上下文处理进展的持续更新,并准确定位相关信息集成到最终响应中。我们在https://github.com/writer/writing-in-the-margins 上发布了WiM的实现,使用了Hugging Face Transformers库。
我们提出了GameNGen,这是第一个完全由神经模型驱动的游戏引擎,可以在高质量的长轨迹上实现与复杂环境的实时交互。GameNGen可以在单个TPU上以每秒超过20帧的速度交互式模拟经典游戏DOOM。下一帧预测达到了29.4的PSNR,与有损JPEG压缩相当。人类评分者仅略优于随机机会,可以区分游戏的短片段和模拟的片段。GameNGen经过两个阶段的训练:(1)一个RL代理学习玩游戏并记录训练会话,(2)一个扩散模型被训练以在过去帧和动作序列的条件下生成下一帧。条件增强使得在长轨迹上稳定进行自回归生成成为可能。
线性RNN架构,如Mamba,在语言建模方面可以与Transformer模型竞争,同时具有有利的部署特性。鉴于目前对训练大规模Transformer模型的关注,我们考虑将这些预训练模型转换为部署模型的挑战。我们展示了通过重复使用来自注意力层的线性投影权重,将大型Transformer蒸馏为线性RNN是可行的,使用学术GPU资源。由此产生的混合模型,其中包含四分之一的注意力层,实现了与原始Transformer在聊天基准测试中可比的性能,并且在聊天基准测试和通用基准测试中胜过从头开始训练的开源混合Mamba模型,后者使用了数万亿个标记。此外,我们引入了一种硬件感知的推测解码算法,加速了Mamba和混合模型的推理速度。总体而言,我们展示了如何在有限的计算资源下,可以去除许多原始注意力层,并更高效地生成从结果模型。我们的表现最佳模型,从Llama3-8B-Instruct蒸馏而来,在AlpacaEval 2上实现了29.61的长度控制胜率,超过了GPT-4,以及在MT-Bench上的7.35分,超越了最佳指令调整的线性RNN模型。
我们提出了一种生成视频序列的方法,其中包含一对输入关键帧之间连贯运动的内容。我们调整了一个预训练的大规模图像到视频扩散模型(最初是针对从单个输入图像生成向前运动视频的),用于关键帧插值,即在两个输入帧之间生成视频。我们通过一种轻量级微调技术来实现这种调整,该技术生成了一个模型的版本,该模型相反地从单个输入图像预测向后运动的视频。这个模型(以及原始的向前运动模型)随后用于双向扩散采样过程,该过程结合了从两个关键帧开始的重叠模型估计。我们的实验表明,我们的方法优于现有基于扩散的方法和传统的帧插值技术。
为自然语言问题提供服务的人工智能系统承诺释放巨大价值。这样的系统将允许用户利用语言模型(LMs)强大的推理和知识能力,以及数据管理系统的可扩展计算能力。这些结合的能力将赋予用户在自定义数据源上提出任意自然语言问题的能力。然而,现有的方法和基准不足以探索这一情境。Text2SQL方法仅关注可以用关系代数表达的自然语言问题,代表了真实用户希望提出的问题的一小部分。同样,检索增强生成(RAG)考虑了只能通过对数据库中的一个或几个数据记录进行点查找来回答的查询的有限子集。我们提出了表增强生成(TAG),这是一个统一且通用的范式,用于回答关于数据库的自然语言问题。TAG模型代表了LM和数据库之间的各种互动方式,这些方式以前尚未被探索,并为利用LM在数据上的世界知识和推理能力创造了令人兴奋的研究机会。我们系统地开发了基准来研究TAG问题,并发现标准方法最多只能正确回答20%的查询,证实了在这一领域需要进一步研究。我们在https://github.com/TAG-Research/TAG-Bench 上发布了基准的代码。
我们提出了一种基于扩散的文本到图像(T2I)生成方法,具有交互式3D布局控制。布局控制已被广泛研究,以缓解T2I扩散模型在理解对象从文本描述中的放置和关系方面的缺点。然而,现有的布局控制方法仅限于2D布局,需要用户事先提供静态布局,并且无法在布局更改时保留生成的图像。这使得这些方法不适用于需要3D对象控制和迭代细化的应用,例如室内设计和复杂场景生成。为此,我们利用了最近在深度条件T2I模型方面的进展,并提出了一种新颖的交互式3D布局控制方法。我们将布局控制中传统的2D框替换为3D框。此外,我们将T2I任务重新构建为多阶段生成过程,在每个阶段,用户可以在3D中插入、更改和移动对象,同时保留之前阶段的对象。我们通过提出的动态自注意(DSA)模块和一致的3D对象平移策略实现了这一点。实验证明,我们的方法可以基于3D布局生成复杂场景,将对象生成成功率提高了2倍以上,超过了标准深度条件T2I方法。此外,与其他方法相比,在布局更改时保留对象方面表现更优。项目页面:https://abdo-eldesokey.github.io/build-a-scene/
逼真且可控的3D头像对于各种应用至关重要,如虚拟与混合现实(VR/MR)、遥感、游戏和电影制作。传统的头像创建方法通常涉及耗时的扫描和重建过程,限制了其可扩展性。此外,这些方法无法提供采样新身份或修改现有身份的灵活性。另一方面,通过从数据中学习强大的先验知识,生成模型为传统的重建方法提供了一种有希望的替代方案,减轻了数据捕获和处理的时间限制。此外,生成方法使得在重建之外的下游应用成为可能,如编辑和风格化。然而,关于生成3D头像的研究仍处于起步阶段,因此当前方法仍存在诸如创建静态头像、缺乏逼真性、面部细节不完整或驾驶能力有限等局限。为了解决这一问题,我们提出了一种文本条件的生成模型,可以生成多样化身份的逼真面部头像,具有更完整的头发、眼睛和口腔内部等细节,并且可以通过强大的非参数潜在表达空间进行驾驶。具体来说,我们将潜在扩散模型的生成和编辑能力与头像表情驾驶的强大先验模型相结合。 我们的模型可以生成和控制高保真度的头像,甚至可以处理分布之外的头像。我们还强调了其在下游应用中的潜力,包括头像编辑和单次头像重建。
读取图像中的文本(无论是自然场景还是文档)是一个长期存在的研究课题,由于技术挑战高且应用范围广泛。过去,为了解决文本阅读的子任务(例如场景文本识别、手写文本识别和数学表达式识别),通常会开发单独的专家模型。然而,这种专家模型通常无法有效地泛化到不同的子任务上。最近,通用模型(如GPT-4V),在统一方式下训练了大量数据,展现了在各种场景中读取文本的巨大潜力,但存在精度有限和效率低的缺点。在这项工作中,我们提出了Platypus,一个用于文本阅读的通用专家模型。具体而言,Platypus结合了两者的优点:能够用单一统一的架构识别各种形式的文本,同时实现出色的准确性和高效率。为了更好地利用Platypus的优势,我们还构建了一个文本阅读数据集(称为Worms),其中的图像是从先前的数据集中筛选出来并进行了部分重新标记。对标准基准测试的实验表明了所提出的Platypus模型的有效性和优越性。模型和数据将在以下网址公开提供:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus。
我们介绍了SHADOW,这是一个在中间任务上使用关联演绎推理训练的微调语言模型,并通过Wikidata三元组完成任务来衡量其性能。我们在LM-KBC 2024挑战赛上评估了SHADOW,并展示其以68.72%的F1分数优于基准解决方案20%。
We introduce semantic towers, an extrinsic knowledge representation method, and compare it to intrinsic knowledge in large language models for ontology learning. Our experiments show a trade-off between performance and semantic grounding for extrinsic knowledge compared to a fine-tuned model intrinsic knowledge. We report our findings on the Large Language Models for Ontology Learning (LLMs4OL) 2024 challenge.
本文讨论了最近引起环境科学家关注的海鸟的三维重建,它们被视为环境变化的有价值的生物指示物。这种三维信息有助于分析鸟类的行为和生理形态,例如通过跟踪运动、形状和外观变化。从计算机视觉的角度来看,鸟类特别具有挑战性,因为它们的运动往往是快速且非刚性的。我们提出了一种方法,从单眼视频中重建特定品种海鸟——普通海雀的三维姿势和形状。我们的方法包括完整的检测、跟踪、分割和时间一致的三维重建流程。此外,我们提出了一种时间损失,将当前单图像三维鸟类姿势估计器扩展到时间域。此外,我们提供了一个真实世界数据集,平均包含10000帧视频观测,同时捕捉九只鸟,包括各种运动和互动,还包括一个带有鸟类特定关键点标签的较小测试集。通过我们的时间优化,我们在数据集中具有挑战性的序列中实现了最先进的性能。
工业4.0通过推动数字化并将范式转向增材制造(AM),彻底改变了制造业。熔融沉积建模(FDM)作为一种关键的AM技术,通过逐层挤出实现高度定制、成本效益高且材料浪费最小的产品制造,对传统的减法方法构成了重大挑战。然而,材料挤出技术对错误的敏感性通常需要专家干预以检测和减轻可能严重影响产品质量的缺陷。虽然存在自动化错误检测和机器学习模型,但它们在不同的3D打印机设置、固件和传感器之间的泛化能力有限,深度学习方法需要大量标记数据集,限制了可扩展性和适应性。为了解决这些挑战,我们提出了一个过程监控和控制框架,利用预训练的大型语言模型(LLMs)与3D打印机结合,检测和解决打印缺陷。LLM通过分析每一层或打印段后捕获的图像来评估打印质量,识别故障模式并查询打印机相关参数。然后生成并执行纠正行动计划。我们通过将其与具有多样化AM专业知识的工程师控制组进行比较,验证了所提框架在识别缺陷方面的有效性。我们的评估表明,基于LLM的代理不仅能准确识别常见的3D打印错误,如挤出不一致、串珠、翘曲和层粘附,还能有效确定导致这些故障的参数,并在无需人为干预的情况下自主纠正。