每日精选AI研究论文及翻译
大型语言模型(LLMs)在各种任务中表现出色,但它们依赖精心设计的提示,这往往需要大量人力。为了自动化这一过程,本文提出了一种用于离散提示优化的新框架,名为EvoPrompt,它借鉴了进化算法(EAs)的思想,因为它们表现出良好的性能和快速收敛。为了让EAs能够处理自然语言表达的离散提示,这些提示需要连贯且易读,我们将LLMs与EAs相连接。这种方法使我们能够同时利用LLMs强大的语言处理能力和EAs高效的优化性能。具体而言,EvoPrompt不涉及任何梯度或参数,它从一组提示的种群开始,并根据进化算子迭代生成新的提示,根据开发集改进种群。我们对包括GPT-3.5和Alpaca在内的闭源和开源LLMs进行提示优化,涵盖了涵盖语言理解和生成任务的9个数据集。EvoPrompt在自动提示生成方面显著优于人工设计的提示和现有方法,分别提高了高达25%和14%。此外,EvoPrompt表明将LLMs与EAs相连接会产生协同效应,这可能激发进一步研究LLMs与传统算法结合的可能性。
先前的研究发现,将注意力softmax替换为诸如ReLU之类的逐点激活时会导致准确性下降。在视觉Transformer的背景下,我们发现通过除以序列长度可以减轻这种下降。我们在ImageNet-21k上训练小到大的视觉Transformer的实验表明,就计算规模函数的缩放行为而言,ReLU-注意力可以接近或与softmax-注意力的性能相匹配。
神经网络内部理解的一个障碍是多义性,即神经元在多个语义上激活。多义性阻碍了我们找到简洁、人类可理解的解释来解释神经网络内部的运作。多义性的一个假设原因是叠加效应,即神经网络通过将特征分配给激活空间中的一个过完备方向集,而不是单个神经元,来表示比神经元更多的特征。在这里,我们尝试识别这些方向,使用稀疏自编码器重建语言模型的内部激活。这些自编码器学习一组稀疏激活特征,比替代方法识别的方向更具可解释性和单一语义性,其中可解释性是通过自动化方法衡量的。消除这些特征可以实现精确的模型编辑,例如通过去除代词预测等功能,同时比先前的技术更少地干扰模型行为。这项工作表明,可以使用可扩展的无监督方法解决语言模型中的叠加效应。我们的方法可能成为未来机械可解释性工作的基础,我们希望这将实现更大的模型透明度和可操纵性。
我们探讨了参数稀疏性对在大规模数据集上训练的Transformer(即“基础模型”)在视觉和语言领域的扩展行为的影响。在这种情况下,我们确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的第一个扩展定律,我们在ViT/JFT-4B和T5/C4模型和数据规模上进行了实证验证。这些结果使我们能够表征“最佳稀疏度”,即为给定有效模型大小和训练预算提供最佳性能的稀疏水平。对于固定数量的非零参数,我们发现最佳稀疏度随着用于训练的数据量的增加而增加。我们还将研究扩展到不同的稀疏结构(如硬件友好的n:m模式)和策略(如从预训练的稠密模型开始)。我们的研究结果揭示了在各种参数和计算设置下权重稀疏性的能力和局限性,为利用稀疏性实现计算效率改进提供了理论理解和实际启示。
为了在具有长期目标的新环境中做出有效决策,跨越空间和时间尺度进行分层推理至关重要。这包括规划抽象的子目标序列,通过视觉推理了解底层计划,并根据设计的计划通过视觉-运动控制执行动作。我们提出了用于分层规划的组合基础模型(HiP),这是一个基础模型,利用分别在语言、视觉和行动数据上训练的多个专家基础模型共同解决长期任务。我们使用大型语言模型构建在环境中扎根的符号计划,通过大型视频扩散模型。生成的视频计划然后通过一个从生成的视频中推断动作的逆动力学模型,扎根到视觉-运动控制。为了在这种层次结构内实现有效推理,我们通过迭代细化强化模型之间的一致性。我们通过三个不同的长期桌面操作任务展示了我们方法的有效性和适应性。
尽管文本转音频(TTA)生成取得了一些进展,我们发现基于数据集(如AudioCaps)训练的AudioLDM等最先进模型在生成性能上存在偏见,因为这些数据集中的类别分布不平衡。具体而言,它们在生成常见音频类别方面表现出色,而在稀有类别方面表现不佳,从而降低了整体生成性能。我们将这一问题称为长尾文本转音频生成。为解决这一问题,我们提出了一种简单的检索增强方法用于TTA模型。具体而言,给定一个输入文本提示,我们首先利用对比语言音频预训练(CLAP)模型检索相关的文本-音频对。然后,检索到的音频-文本数据的特征被用作指导TTA模型学习的附加条件。我们用我们提出的方法增强了AudioLDM,并将结果增强系统标记为Re-AudioLDM。在AudioCaps数据集上,Re-AudioLDM实现了1.37的最先进Frechet音频距离(FAD),远远超过现有方法。此外,我们展示了Re-AudioLDM能够为复杂场景、稀有音频类别甚至未知音频类型生成逼真的音频,表明其在TTA任务中的潜力。
文本到图像扩散模型理解物体之间的空间关系,但它们能否仅通过2D监督表示世界的真实3D结构?我们证明了是的,3D知识被编码在诸如稳定扩散(Stable Diffusion)之类的2D图像扩散模型中,并且我们展示这种结构可以被用于3D视觉任务。我们的方法,视角神经文本反演(ViewNeTI),控制从冻结扩散模型生成的图像中物体的3D视角。我们训练一个小型神经映射器,以获取摄像机视角参数并预测文本编码器潜变量;然后这些潜变量会调节扩散生成过程,以产生具有所需摄像机视角的图像。 ViewNeTI自然地解决了新颖视角合成(NVS)问题。通过利用冻结扩散模型作为先验,我们可以用极少的输入视图解决NVS问题;我们甚至可以进行单视角新颖视角合成。与先前的方法相比,我们的单视角NVS预测具有良好的语义细节和照片级逼真度。我们的方法非常适合建模稀疏3D视觉问题中固有的不确定性,因为它可以高效生成多样化的样本。我们的视角控制机制是通用的,甚至可以在由用户定义的提示生成的图像中改变摄像机视角。