每日精选AI研究论文及翻译
大型语言模型(LLMs)和视觉-语言模型(VLMs)已被证明在多个任务上表现出色,如常识推理。尽管这些模型强大,但它们并未基于涉及空间关系、可供性、物理、布局等更丰富概念的三维物理世界。在这项工作中,我们提议将三维世界注入大型语言模型,并引入全新的三维语言模型家族。具体而言,三维语言模型可以接受三维点云及其特征作为输入,并执行各种三维相关任务,包括字幕生成、密集字幕生成、三维问题回答、任务分解、三维定位、三维辅助对话、导航等。通过我们设计的三种提示机制,我们能够收集涵盖这些任务的30万多个三维语言数据。为了有效训练三维语言模型,我们首先利用一个从渲染的多视图图像中获取三维特征的三维特征提取器。然后,我们使用二维视觉-语言模型作为我们的骨干来训练我们的三维语言模型。通过引入三维定位机制,三维语言模型可以更好地捕捉三维空间信息。在ScanQA上的实验表明,我们的模型在很大程度上优于最先进的基线模型(例如,BLEU-1分数超过最先进分数9%)。此外,在我们的三维字幕生成、任务组成和三维辅助对话的保留数据集上的实验表明,我们的模型优于二维视觉-语言模型。定性示例还表明,我们的模型能够执行超出现有大型语言模型和视觉-语言模型范围的更多任务。项目页面:https://vis-www.cs.umass.edu/3dllm/。
最近,预训练的大型语言模型(LLMs)在自主网络导航中取得了更好的泛化能力和样本效率。然而,在真实世界的网站上,性能仍然受到以下问题的影响:(1)开放域性,(2)有限的上下文长度,以及(3)对HTML缺乏归纳偏差。我们引入了WebAgent,这是一个由LLM驱动的代理程序,可以根据自然语言指令在真实网站上完成任务。WebAgent通过将指令分解为规范子指令来提前规划,将长HTML文档总结为与任务相关的片段,并通过生成的Python程序在网站上执行这些操作。我们使用Flan-U-PaLM设计了WebAgent,用于基于代码的生成,还使用了HTML-T5,这是针对长HTML文档的新预训练LLMs,采用本地和全局注意机制以及一种混合长跨度去噪目标,用于规划和总结。我们凭经验证明,我们的方法将在真实网站上的成功率提高了50%以上,并且HTML-T5是解决基于HTML任务的最佳模型;在MiniWoB网络导航基准测试中,成功率比之前的最先进技术高出14.9%,在离线任务规划评估中也具有更高的准确性。
图像生成和编辑中一个鲜为人知的领域是在两个输入图像之间进行插值,这是当前所有部署的图像生成流程中缺失的一个特性。我们认为这样的特性可以扩展这些模型的创意应用,并提出了一种使用潜在扩散模型进行零样本插值的方法。我们在潜在空间中应用插值,在一系列逐渐降低的噪声水平上进行,然后执行以从文本反演和(可选)主体姿势导出的插值文本嵌入为条件的去噪操作。为了获得更大的一致性,或者指定额外的标准,我们可以生成几个候选项,并使用CLIP选择最高质量的图像。我们获得了跨不同主体姿势、图像风格和图像内容的令人信服的插值,并展示了标准的定量指标如FID无法衡量插值的质量。代码和数据可在https://clintonjwang.github.io/interpolation获取。
大型语言模型已经证明自己非常灵活,能够解决各种生成任务,比如抽象摘要和开放式问答。在本文中,我们通过直接连接一个小型音频编码器来扩展LLM的功能,使其能够执行语音识别。通过直接在文本令牌嵌入前附加一系列音频嵌入,LLM可以转换为自动语音识别(ASR)系统,并且可以像其文本对应物一样使用。在多语言LibriSpeech(MLS)上的实验表明,将一个conformer编码器整合到开源的LLaMA-7B中,使其比单语基线表现提高了18%,并且能够执行多语言语音识别,尽管LLaMA主要在英文文本上进行训练。此外,我们进行消融研究,以调查LLM在训练期间是否可以完全冻结以保持其原始功能,扩展音频编码器,并增加音频编码器的跨步以生成更少的嵌入。这些研究结果表明,即使LLM被冻结,或者在音频编码器中使用接近1秒的跨步生成更少的嵌入,多语言ASR也是可能的,从而使LLM能够处理长形式音频。
以ChatGPT为代表,许多公司已开始提供基于大型Transformer模型的服务。然而,使用这种服务不可避免地会泄漏用户的提示给模型提供者。先前的研究已经研究了使用安全多方计算(MPC)来实现Transformer模型的安全推断,其中模型参数和客户端的提示被保密。尽管如此,这些框架在模型性能、效率和部署方面仍然存在局限性。为了解决这些限制,我们提出了PUMA框架,以实现快速且安全的Transformer模型推断。我们的框架设计了昂贵函数的高质量近似,如GeLU和Softmax,大大降低了安全推断的成本,同时保持了模型性能。此外,我们设计了安全的嵌入和LayerNorm过程,忠实地实现所需功能,而不破坏Transformer架构。PUMA比最先进的MPC框架MPCFORMER(ICLR 2023)快大约2倍,并且具有与未经微调的明文模型相似的准确性(先前的工作未能实现)。 另外,PUMA可以在大约5分钟内评估LLaMA-7B以生成1个标记。据我们所知,这是第一次能够在MPC下评估具有这种参数大小的模型。PUMA已在SecretFlow-SPU的Github存储库中开源。
随着大型语言模型(LLMs)执行更加复杂的任务,验证其行为的正确性和安全性变得更加困难。解决这一问题的一种方法是促使LLMs将推理过程外化,例如,让它们在回答问题时生成逐步推理(思维链;CoT)。推理过程可以帮助我们检查模型执行任务所使用的过程。然而,这种方法依赖于所陈述的推理是否忠实地反映了模型的实际推理,而这并非总是成立。为了提高CoT推理的忠实度,我们让模型通过将问题分解为子问题来生成推理。基于分解的方法在问答任务上取得了很好的表现,有时接近于CoT的表现,同时提高了模型在几个最近提出的指标上所陈述推理的忠实度。通过强制模型在不同的上下文中回答更简单的子问题,我们大大提高了模型生成推理的忠实度,同时仍然实现了部分CoT的性能增益。我们的结果表明,有可能提高模型生成推理的忠实度;持续改进可能会导致推理,从而使我们能够验证LLM行为的正确性和安全性。
现代语言模型涵盖了大量的事实知识。然而,一些事实可能被错误地归纳,或随着时间变迁而变得过时,导致生成的内容存在事实错误。这促使各种编辑方法的发展,允许更新模型编码的事实。对这些方法的评估主要集中在测试单个事实是否成功注入,以及其他主题的类似预测是否发生了变化。在这里,我们认为这样的评估是有限的,因为注入一个事实(例如,“Jack Depp是Johnny Depp的儿子”)会引入“涟漪效应”,即模型需要更新的其他事实(例如,“Jack Depp是Lily-Rose Depp的兄弟”)。为了解决这个问题,我们提出了一套新的评估标准,考虑了编辑对相关事实的影响。利用这些标准,我们构建了一个包含5K个事实编辑的诊断基准,捕捉了各种涟漪效应类型。我们评估了主要的编辑方法,展示了当前方法未能在模型知识中引入一致变化。此外,我们发现一个简单的上下文编辑基准在我们的基准测试中获得了最佳分数,表明模型编辑的一个有前途的研究方向。
我们提出了对比蒸馏强化学习(RLCD)方法,用于使语言模型遵循自然语言原则,而无需使用人类反馈。RLCD使用模拟偏好对来训练偏好模型,这些偏好对包含使用对比正负提示生成的高质量和低质量示例。然后,使用偏好模型通过强化学习来改进基础未对齐的语言模型。从经验上看,RLCD在三个不同的对齐任务(无害性、有用性和故事大纲生成)以及对偏好数据模拟的7B和30B模型规模上优于RLAIF(Bai等,2022b)和上下文蒸馏(Huang等,2022)基线。
本文挑战了为训练大型语言模型(LLMs)构建任意到任意网络的成熟范式。我们展示了LLMs表现出独特的通信模式,其中只有少量GPU组需要它们之间的高带宽任意到任意通信,以实现接近最佳的训练性能。在这些GPU组中,通信是微不足道的、稀疏的和均匀的。我们提出了一种新的网络架构,它与LLMs的通信需求密切相关。我们的架构将集群分成一组与非阻塞任意到任意高带宽互连相连的GPU集合,我们称之为HB域。在HB域之间,网络仅连接具有通信需求的GPU。我们将这种网络称为“仅轨道”连接,并展示了我们提出的架构将网络成本降低了高达75%,而不会影响LLMs训练的性能,相比之下,与最先进的任意到任意Clos网络相比。
自监督学习视觉表示一直专注于学习内容特征,而不涵盖物体运动或位置,并专注于识别和区分图像和视频中的对象。另一方面,光流估计是一项不涉及理解图像内容的任务。我们统一了这两种方法,并引入了MC-JEPA,这是一个联合嵌入预测架构和自监督学习方法,可以在共享编码器内共同学习光流和内容特征,表明这两个相关目标;光流估计目标和自监督学习目标;互相受益,从而学习融合运动信息的内容特征。所提出的方法在无监督光流基准测试中表现出与现有方法相当的性能,以及在语义分割图像和视频等下游任务中与常见的自监督学习方法相媲美。
类似DETR的模型显著提升了检测器的性能,甚至超过了传统的卷积模型。然而,在传统的编码器结构中,所有标记都被平等对待,没有区分,这会带来冗余的计算负担。最近的稀疏化策略利用一部分信息丰富的标记来减少注意力复杂度,通过稀疏编码器保持性能。但这些方法往往依赖于不可靠的模型统计。此外,简单地减少标记数量会严重阻碍检测性能,限制了这些稀疏模型的应用。我们提出了Focus-DETR,它专注于更具信息量的标记,以更好地权衡计算效率和模型准确性。具体来说,我们重新构建了具有双重注意力的编码器,其中包括一个标记评分机制,考虑了来自多尺度特征图的对象的定位和类别语义信息。我们有效地放弃了背景查询,并基于分数增强了细粒度对象查询的语义交互。与相同设置下的最先进稀疏DETR-like检测器相比,我们的Focus-DETR在COCO上实现了50.4AP(+2.2)的可比复杂度。代码可在以下链接找到:https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR 和 https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR。
长期活动预测是一个特别具有挑战性的研究问题,因为它需要理解观察到的行为之间的时间关系,以及人类活动的变化和复杂性。尽管依赖于通过昂贵的人类注释进行强监督,但最先进的预测方法通常在未见数据上泛化能力较差。为了缓解这一问题,我们提出了多尺度视频预训练(MVP),这是一种新颖的自监督预训练方法,通过学习在多个时间尺度上预测未来视频片段的情境化表示来学习为预测而设计的稳健表示。MVP基于我们的观察,即视频中的行为具有多尺度性质,其中原子行为通常发生在较短的时间尺度上,而更复杂的行为可能跨越较长的时间尺度。我们将MVP与最先进的自监督视频学习方法进行了比较,应用于包括长期行为预期和视频摘要预测在内的下游长期预测任务。我们在Ego4D和Epic-Kitchens-55/100数据集上进行的全面实验表明,MVP在很大程度上优于最先进的方法。值得注意的是,MVP在视频摘要预测方面相对性能提升超过20%的准确率,超过现有方法。