每日精选AI研究论文及翻译
文本到图像模型个性化旨在向模型引入用户提供的概念,使其能够在不同背景下进行综合合成。然而,当前方法主要集中在从多个图像中学习单个概念的情况,这些图像具有不同的背景和姿势变化,但在适应不同场景时存在困难。在这项工作中,我们引入了文本场景分解任务:给定可能包含多个概念的场景的单个图像,我们旨在为每个概念提取一个不同的文本标记,从而实现对生成场景的精细控制。为此,我们提出了通过指示目标概念存在的蒙版来增强输入图像的方法。这些蒙版可以由用户提供,也可以由预训练分割模型自动生成。然后,我们提出了一种新颖的两阶段定制过程,优化一组专用文本嵌入(句柄)以及模型权重,找到准确捕捉概念并避免过拟合之间的微妙平衡。我们采用掩蔽扩散损失来使句柄能够生成其分配的概念,同时结合一种新颖的交叉注意力图损失以防止纠缠。我们还引入了联合采样,这是一种旨在改善在生成图像中组合多个概念能力的训练策略。我们使用多个自动度量标准定量比较我们的方法与几种基线方法,并通过用户研究进一步确认结果。最后,我们展示了我们方法的几个应用。项目页面链接:https://omriavrahami.com/break-a-scene/
Transformer架构在多个研究领域展现出令人印象深刻的性能,并已成为许多神经网络模型的支柱。然而,对其工作原理仍知之甚少。特别是,在简单的预测损失下,表示是如何从梯度训练动态中出现仍然是个谜。在本文中,针对具有一个自注意层和一个解码器层的1层Transformer,我们以数学严谨的方式分析其随机梯度下降训练动态,用于下一个标记预测任务。我们揭开了自注意层如何结合输入标记的动态过程的黑匣子,并揭示了潜在的归纳偏差的本质。更具体地,基于以下假设(a)没有位置编码,(b)长输入序列,以及(c)解码器层学习速度比自注意层更快,我们证明了自注意层充当了一种辨别式扫描算法:从均匀关注开始,它逐渐更多地关注不同的关键标记,以便预测特定的下一个标记,并减少对出现在不同下一个标记中的常见关键标记的关注。在不同标记中,它逐渐降低注意力权重,遵循训练集中关键标记与查询标记之间的低到高共现顺序。有趣的是,这个过程并不导致胜者通吃,而是由于两层的学习速率控制的相变而减速,最终留下(几乎)固定的标记组合。我们在合成和真实数据(WikiText)上验证了这种“扫描和捕捉”动态。
最近的研究显示,通过使用外部工具,可以提升大型语言模型(LLMs)的问题解决能力的潜力。然而,沿着这一方向的先前工作取决于现有工具的可用性。在这项工作中,我们迈出了一小步,试图通过提出一个封闭循环框架来消除这种依赖,该框架被称为LLMs作为工具制造者(LATM),在这个框架中,LLMs为问题解决创建自己的可重用工具。我们的方法包括两个关键阶段:1)工具制造:LLM充当工具制造者,为给定任务制作工具,其中工具被实现为Python实用函数。2)工具使用:LLM充当工具用户,应用工具制造者构建的工具进行问题解决。工具用户可以是与工具制造者相同或不同的LLM。工具制造使LLM能够持续生成可应用于不同请求的工具,以便将来的请求在解决任务时可以调用相应的API。此外,LLMs在工具制造和工具使用阶段之间的分工引入了实现成本效益而不降低生成的工具和问题解决方案质量的机会。例如,认识到工具制造需要比工具使用更复杂的能力,我们可以将一个功能强大但资源密集型的模型应用为工具制造者,将一个轻量级且具有成本效益的模型应用为工具用户。我们验证了我们的方法在各种复杂推理任务中的有效性,包括Big-Bench任务。通过以GPT-4作为工具制造者和以GPT-3.5作为工具用户,LATM可以实现与同时使用GPT-4进行工具制造和工具使用相当的性能,同时推理成本大幅降低。
本文介绍了ControlVideo,这是一种用于文本驱动视频编辑的新方法。利用文本到图像扩散模型和ControlNet的能力,ControlVideo旨在增强与给定文本对齐的视频的保真度和时间一致性,同时保留源视频的结构。通过合并额外条件,如边缘映射,在源视频文本对上进行关键帧和时间注意力的微调,并采用精心设计的策略,实现了这一目标。对ControlVideo设计的深入探讨有助于未来研究单次调整视频扩散模型。在定量方面,ControlVideo在忠实度和一致性方面优于一系列竞争基线,同时与文本提示保持一致。此外,它提供了具有高视觉逼真度和源内容保真度的视频,展示了利用包含不同程度源视频信息的控制以及多种控制组合的灵活性。项目页面位于https://ml.cs.tsinghua.edu.cn/controlvideo/。
Minsky的“心智社会”和Schmidhuber的“学会思考”都启发了大型多模态神经网络(NNs)的多样化社会,通过在“思维风暴”中相互面试来解决问题。最近基于NN的心智社会的实现包括大型语言模型(LLMs)和其他基于NN的专家通过自然语言界面进行通信。通过这种方式,它们克服了单个LLMs的局限,改善了多模态零样本推理。在这些基于自然语言的心智社会(NLSOMs)中,新的代理人 - 所有人都通过相同的通用符号语言进行通信 - 可以轻松以模块化方式添加。为了展示NLSOMs的力量,我们组装并实验了几个(最多有129名成员),利用其中的思维风暴来解决一些实际的AI任务:视觉问题回答、图像字幕、文本到图像合成、3D生成、自我中心检索、具身AI和一般基于语言的任务解决。我们将此视为迈向拥有数十亿代理人的更大NLSOMs的起点 - 其中一些可能是人类。随着异质思维伟大社会的出现,许多新的研究问题突然变得至关重要,关乎人工智能的未来。NLSOM的社会结构应该是什么样的?拥有君主制而不是民主制的(不)优势会是什么?如何利用NN经济原则来最大化强化学习NLSOM的总奖励?在这项工作中,我们识别、讨论并试图回答其中一些问题。
AI系统中的社会对齐旨在确保这些模型的行为符合既定的社会价值观。然而,与人类不同,人类通过社会互动来达成对价值判断的共识,当前的语言模型(LMs)被训练为在孤立环境中严格复制其训练语料库,导致在陌生情境中泛化能力不足,并容易受到对抗性攻击的影响。本研究提出了一种新颖的训练范式,允许LMs从模拟社会互动中学习。与现有方法相比,我们的方法在可扩展性和效率上都更为出色,在对齐基准测试和人类评估中表现出卓越的性能。LMs训练中的这种范式转变使我们离开发能够稳健准确地反映社会规范和价值观的AI系统更近了一步。
研究表明,从人类反馈中学习可以改善文本到图像模型。这些技术首先学习捕捉人类在任务中关心的奖励函数,然后基于学习的奖励函数改进模型。尽管已经研究了相对简单的方法(例如,基于奖励分数的拒绝抽样),但利用奖励函数对文本到图像模型进行微调仍然具有挑战性。在这项工作中,我们提出使用在线强化学习(RL)来微调文本到图像模型。我们专注于扩散模型,将微调任务定义为一个RL问题,并使用策略梯度来更新预训练的文本到图像扩散模型,以最大化经过反馈训练的奖励。我们的方法,命名为DPOK,将策略优化与KL正则化相结合。我们对RL微调和监督微调的KL正则化进行了分析。在我们的实验中,我们展示了DPOK在图像文本对齐和图像质量方面通常优于监督微调。
随着对话代理在表现上越来越类似人类,我们迫切需要开发有效的方法来用高层次术语描述它们的行为,而不陷入拟人陷阱。在本文中,我们突出了角色扮演的概念。将对话代理的行为描述为角色扮演,使我们能够借鉴熟悉的民间心理学术语,而不将人类特征归因于它们实际上缺乏的语言模型。通过这种方式,我们讨论了对话代理行为的两个重要情况,即(表面上的)欺骗和(表面上的)自我意识。
我们提出了PandaGPT,一种赋予大型语言模型视觉和听觉指令跟随能力的方法。我们的试验表明,PandaGPT能够执行复杂任务,如生成详细的图像描述、根据视频撰写故事以及回答关于音频的问题。更有趣的是,PandaGPT能够同时接收多模态输入并自然地组合它们的语义。例如,PandaGPT能够连接图像/视频中物体的外观和音频中它们的声音。为此,PandaGPT结合了来自ImageBind的多模态编码器和来自Vicuna的大型语言模型。值得注意的是,PandaGPT训练仅需要对齐的图像-文本对。由于ImageBind在将来自不同模态的数据嵌入到相同空间方面的强大能力,PandaGPT展现出了新兴的、即零样本的跨模态行为,适用于除图像和文本之外的数据(例如视频、音频、深度、热像和IMU)。我们希望PandaGPT作为构建能够像人类一样全面感知和理解不同模态输入的AGI的初始步骤。我们的项目页面位于https://panda-gpt.github.io/。
基于大型语言模型(LLM)的决策代理已展现出在多个任务间泛化的能力。然而,它们的表现依赖于大量的数据和计算资源。我们认为这种低效源于遗忘现象,即模型通过训练过程中在参数中记忆其行为。因此,在新任务上的训练可能会降低模型在先前任务上的表现。与LLMs的隐式记忆机制相反,人类大脑利用分布式存储记忆,有助于高效管理和组织多种技能,减轻遗忘现象。受此启发,我们提出了一个内部工作记忆模块,用于存储、融合和检索不同下游任务的信息。评估结果显示,所提出的方法提高了在Atari游戏和元世界物体操作任务中的训练效率和泛化能力。此外,我们证明了记忆微调进一步增强了所提架构的适应性。
我们引入了Three Towers (3T),这是一种灵活的方法,通过整合预训练图像分类器来提高视觉-语言模型的对比学习能力。虽然对比模型通常是从头开始训练的,但LiT (Zhai等,2022) 最近表明利用预训练分类器嵌入可以提高性能。然而,LiT直接用冻结的嵌入替换图像塔,排除了对比训练图像塔的任何潜在好处。通过3T,我们提出了一种更灵活的策略,允许图像塔从预训练嵌入和对比训练中受益。为实现这一目标,我们引入了第三个塔,其中包含冻结的预训练嵌入,并鼓励这第三塔与主要的图像-文本塔之间的对齐。实证结果表明,3T在检索任务中始终优于LiT和CLIP风格的从头开始基线。对于分类任务,3T相对于从头开始的基线可靠地提升,尽管对于JFT预训练模型,它表现不及LiT,但对于ImageNet-21k和Places365预训练,它胜过LiT。
自回归语言模型通过最小化模型分布Q相对于数据分布P的交叉熵来进行训练,即最小化前向交叉熵,这等价于最大似然估计(MLE)。我们观察到以这种方式训练的模型可能会出现“过度泛化”的情况,即它们生成非人类风格的文本。此外,我们认为反向交叉熵,即P相对于Q的交叉熵,更能反映人类如何评估模型生成的文本。因此,我们提出了使用MixCE进行学习,这是一个将前向和反向交叉熵混合的目标。我们在已知P的合成数据设置(合成数据)和真实数据上评估了使用这一目标训练的模型,并展示了由此产生的模型生成的文本更好,而无需复杂的解码策略。我们的代码和模型可在以下网址公开获取:https://github.com/bloomberg/mixce-acl2023
大型语言模型(LLMs)正在改变社会,并渗透到各种应用中。因此,LLMs将经常与我们和其他代理互动。因此,深入了解LLMs在互动社会环境中的行为具有重要的社会价值。在这里,我们建议使用行为博弈论来研究LLM的合作和协调行为。为此,我们让不同的LLMs(GPT-3、GPT-3.5和GPT-4)相互之间以及与其他类似人类的策略进行有限重复博弈。我们的研究结果显示,LLMs通常在这些任务中表现良好,并揭示了持续的行为特征。在大量的两人-两策略博弈中,我们发现LLMs在像重复囚徒困境家族这样重视自身利益的游戏中表现特别出色。然而,在需要协调的游戏中,它们表现不佳。因此,我们进一步关注这两个不同家族的游戏。在经典的重复囚徒困境中,我们发现GPT-4表现得尤为无情,总是在另一个代理者叛变一次后就叛变。在性别之战中,我们发现GPT-4无法与简单的交替选择的行为相匹配。我们验证这些行为特征在稳健性检查中是稳定的。最后,我们展示了如何通过提供有关另一位玩家的更多信息以及要求其在做出选择之前预测另一位玩家的行动来修改GPT-4的行为。这些结果丰富了我们对LLM社会行为的理解,并为机器行为博弈理论铺平了道路。
Transformer在具有固定上下文长度的任务上具有令人印象深刻的泛化能力。然而,它们无法泛化到任意长度的序列,即使是看伿简单的任务,比如复制一个字符串。此外,仅仅在更长的序列上进行训练是低效的,因为全局注意机制的计算复杂度是二次的。在这项工作中,我们展示了这种失败模式与位置编码与更长序列(即使是相对编码)的分布不一臿有关,并引入了一种能够克服这一问题的新型位置编码家族。具体来说,我们的随机位置编码方案模拟了更长序列的位置,并随机选择一个有序子集来适应序列的长度。我们对6000个模型在15个算法推理任务上的大规模实证评估表明,我们的方法使Transformer能够泛化到未见长度的序列(平均测试准确率提高了12.0%)。
Token embeddings,将离散词汇符号映射到连续向量,是任何语言模型(LM)的核心。然而,词汇符号的含义也可以通过它们在长上下文中的结构角色来确定甚至重新定义。本文提出一个问题:语言模型是否可以在没有固定的 token embeddings 的情况下表现良好?这样的语言模型必须完全依赖上下文中 token 的共现和重复,而不是任何 token 的先验身份。为了回答这个问题,我们研究了对词汇符号不变的 lexinvariant 语言模型,因此在实践中不需要固定的 token embeddings。首先,我们证明可以构建一个 lexinvariant LM,以多项式方式收敛到真实语言模型,其收敛速率与上下文长度成正比,常数因子与词汇量大小成亚线性关系。其次,为了构建 lexinvariant LM,我们简单地使用随机高斯向量对 token 进行编码,使得每个 token 在每个序列中映射到相同的表示,但在序列之间具有不同的表示。从经验上讲,我们证明它确实可以在给定足够长的上下文时达到与标准语言模型相媲美的困惑度。我们进一步探讨了 lexinvariant 语言模型的两个特性:首先,给定从英语替代密码生成的文本,它隐含地实现了基于贝叶斯的上下文解密,并以高准确度推断到底层真实 token 的映射。其次,在合成的上下文推理任务中,平均准确率提高了 4 倍。最后,我们讨论了将标准语言模型向 lexinvariance 规范化以及潜在的实际应用。
大型语言模型(LLMs)如GPT-3已经成为通用的语言模型,能够处理许多自然语言生成或理解任务。在机器翻译(MT)任务中,多项研究探讨了少样本提示机制,以引导LLMs生成更好的翻译。然而,对于这些翻译在质量上与标准神经机器翻译(NMT)模型生成的翻译有何不同的研究相对较少。在本研究中,我们从所生成翻译的文字直观性角度探讨了这些差异。通过涉及词对齐和单调性的文字直观性度量,我们发现GPTs生成的英语(E-X)翻译往往不够直观,但在MT质量指标上得分相似或更好。我们证明这一发现在人类评估中也得到了验证。然后,我们展示了在翻译包含惯用表达的句子时,这些差异尤为显著。
我们提出了一种新的神经架构——背包(Backpacks),它将强大的建模性能与可解释性和控制接口结合在一起。背包学习每个词汇中的多个非上下文感知向量,并将序列中的单词表示为该序列中感知向量的上下文相关、非负线性组合。我们发现,在训练后,感知向量会专门化,每个向量编码单词的不同方面。我们可以通过检查感知向量在输出空间上的(非上下文、线性)投影来解释一个感知向量,并通过干预这些可解释的钩子以可预测的方式改变模型的行为。我们在OpenWebText上训练了一个拥有170M参数的背包语言模型,与一个GPT-2 small(124M参数)Transformer的损失相匹配。在词汇相似性评估中,我们发现背包感知向量甚至胜过了一个拥有6B参数的Transformer LM的词嵌入。最后,我们提出了简单的算法,通过干预感知向量来执行可控文本生成和去偏见化。例如,我们可以编辑感知词汇以更倾向于某个主题,或将性别偏见源定位到一个感知向量并全局抑制该感知。
在上下文学习中,这是大型语言模型的一个关键特征,使模型能够在不需要权重更新的情况下即时从输入示例中学习。在这项工作中,我们遵循(Garg等,2022)提出的设置,以更好地了解在简单但基础的线性回归任务的视角下,上下文学习的普遍性和局限性。我们旨在探讨的关键问题是:在不同分布转移下,变压器是否比一些自然且更简单的架构更擅长执行上下文学习?为了比较变压器,我们建议使用基于基于集合的多层感知器(MLPs)的简单架构。我们发现,变压器和基于集合的MLPs在分布内评估下都表现出上下文学习的能力,但变压器更接近普通最小二乘法(OLS)的性能。变压器还表现出更好的抵抗轻微分布转移的能力,而基于集合的MLPs则表现不佳。然而,在严重的分布转移下,两种模型的上下文学习能力都会减弱。
普遍认为,最强大的语言模型(LMs)依赖于大规模、指导数据和人类反馈的结合来执行专门任务,例如总结和改写,无需监督。在本文中,我们提出语言模型可以学习总结和改写句子,而无需这三个因素。我们提出了“不可能蒸馏”(Impossible Distillation)框架,该框架可以直接从现成的LM中蒸馏出一个特定任务的数据集,即使LM本身无法可靠地解决该任务。通过在生成的数据集上训练学生模型,并通过自蒸馏增强其能力,我们的方法可以从低质量的教师模型中产生高质量的模型和数据集,而无需大规模或监督。使用“不可能蒸馏”,我们能够蒸馏出一个数量级更小的模型(仅有770M参数),在质量和可控性方面均优于175B参数的GPT-3,这得到了自动和人工评估的确认。此外,作为我们方法的一个有用副产品,我们获得了DIMSUM+,一个包含3.4M个句子摘要和改写的高质量数据集。我们的分析表明,作为纯LM生成的语料库,这个数据集比所有人类编写的数据集(包括包含4M个样本的Gigaword)更多样化,更有效地泛化到未知领域。
最近在文本到图像生成方面取得的进展使得零样本3D形状生成取得了显著进展。这是通过得分蒸馏实现的,这种方法利用预训练的文本到图像扩散模型来优化3D神经表示的参数,例如神经辐射场(NeRF)。尽管显示出有希望的结果,但现有方法通常无法保留复杂形状(如人体)的几何形状。为了解决这一挑战,我们提出了ZeroAvatar,这是一种方法,它在优化过程中引入了显式的3D人体先验。具体而言,我们首先从单个图像中估计和优化参数化人体,然后在优化过程中,我们使用姿态参数化人体作为额外的几何约束来规范扩散模型以及基础密度场。最后,我们提出了一个UV引导的纹理规范项,进一步引导完成不可见身体部位的纹理。我们展示了ZeroAvatar显著增强了基于优化的图像到3D头像生成的稳健性和3D一致性,优于现有的零样本图像到3D方法。
在当前大多数研究中,大型语言模型(LLMs)能够通过特定提示的引导生成思维链来执行推理任务。然而,它们在解决复杂推理问题的能力与人类之间仍存在显著差距。目前,大多数方法侧重于思维链(COT)和工具使用,而未考虑采用和应用人类认知框架。众所周知,面对复杂推理挑战时,人类通常运用各种认知能力,并需要与工具、知识和外部环境信息的各个方面进行互动,以完成复杂任务。本文介绍了一种新颖的智能框架,称为OlaGPT。OlaGPT仔细研究了认知架构框架,并提出模拟人类认知的某些方面。该框架涉及近似不同认知模块,包括注意力、记忆、推理、学习以及相应的调度和决策机制。受人类主动学习机制启发,它提出了一个学习单元来记录先前的错误和专家意见,并动态地参考它们以增强解决类似问题的能力。该论文还概述了人类问题解决的常见有效推理框架,并相应设计了思维链(COT)模板。还提出了一个全面的决策机制,以最大化模型准确性。OlaGPT的有效性已在多个推理数据集上进行了严格评估,实验结果显示OlaGPT超越了最先进的基准,展示了其卓越性能。我们的OlaGPT实现可在GitHub上获得:https://github.com/oladata-team/OlaGPT。