每日精选AI研究论文及翻译
优化是无处不在的。虽然基于导数的算法一直是各种问题的强大工具,但梯度缺失给许多现实世界应用带来了挑战。在这项工作中,我们提出了一种名为PROmpting优化(OPRO)的简单而有效的方法,利用大型语言模型(LLMs)作为优化器,其中优化任务用自然语言描述。在每个优化步骤中,LLM从包含先前生成的解及其值的提示中生成新解,然后评估这些新解并将其添加到下一个优化步骤的提示中。我们首先展示了OPRO在线性回归和旅行推销员问题上的应用,然后转向提示优化,目标是找到最大化任务准确性的指令。通过多种LLM,我们证明了OPRO优化的最佳提示在GSM8K上比人类设计的提示提高了高达8%,在Big-Bench Hard任务上提高了高达50%。
大型语言模型(LLMs)在自然语言处理和多模态任务中取得了显著成功。尽管取得了这些成功,但它们的发展面临两个主要挑战:(i)高计算成本;和(ii)难以进行公平客观的评估。LLMs的成本极高,只有少数主要参与者才能承担它们的训练,从而限制了研究和应用机会。这凸显了成本效益的LLM训练的重要性。在本文中,我们利用一种增长策略来显著降低LLM训练成本。我们展示了一个具有101B参数和0.31TB标记的LLM可以在10万预算下进行训练。我们还采用了系统化评估范式来评估LLMs的智商,以补充现有更注重知识能力的评估。我们引入了我们的基准,其中包括对智能的重要方面进行评估,包括符号映射、规则理解、模式挖掘和抗干扰。这些评估最大程度地减少了记忆的潜在影响。实验结果表明,我们的模型FLM-101B,在10万预算下训练,与强大且知名的模型(如GPT-3和GLM-130B)在IQ基准评估中取得了可比的性能,特别是在训练数据中未见过的上下文中。FLM-101B的检查点将在https://huggingface.co/CofeAI/FLM-101B上开源。
尽管大型语言模型(LLMs)具有令人印象深刻的能力,但容易出现幻觉,即生成与预训练期间观察到的事实偏离的内容。我们提出了一种简单的解码策略,用于减少预训练的LLMs中的幻觉,不需要对检索的外部知识进行调节,也不需要额外的微调。我们的方法通过对比从将后期层与较早层投影到词汇空间中获得的logits之间的差异来获得下一个标记的分布,利用了LLMs中的事实知识通常被显示为局部化到特定的Transformer层的事实。我们发现,这种通过对比层(DoLa)的方法能够更好地展现事实知识并减少生成不正确事实的情况。DoLa在多选任务和开放式生成任务中始终提高了真实性,例如在TruthfulQA上将LLaMA系列模型的性能提高了12-17个绝对百分点,展示了其在使LLMs可靠地生成真实事实方面的潜力。
视频分割的训练数据成本高昂。这阻碍了端到端算法向新的视频分割任务扩展,尤其是在大词汇量的情况下。为了在不为每个单独任务的视频数据进行训练的情况下实现“跟踪任何物体”,我们开发了一种分离式视频分割方法(DEVA),由特定任务的图像级分割和类/任务无关的双向时间传播组成。由于这种设计,我们只需要针对目标任务的图像级模型(训练成本更低),以及一个通用的时间传播模型,只需训练一次即可泛化到各种任务。为了有效地结合这两个模块,我们使用双向传播来(半)在线融合来自不同帧的分割假设,生成连贯的分割结果。我们展示了这种分离式公式在几个数据稀缺任务中与端到端方法相比的优势,包括大词汇量视频全景分割、开放世界视频分割、指代视频分割和无监督视频目标分割。代码可在以下链接找到:https://hkchengrex.github.io/Tracking-Anything-with-DEVA
基于流的传播和时空Transformer是视频修复(VI)中两种主流机制。尽管这些组件有效,但仍存在一些限制影响其性能。先前基于传播的方法在图像或特征域中分别执行。孤立于学习的全局图像传播可能由于不准确的光流导致空间错位。此外,内存或计算约束限制了特征传播和视频Transformer的时间范围,阻止了对来自远处帧的对应信息的探索。为解决这些问题,我们提出了一个改进的框架,称为ProPainter,其中包括增强的ProPagation和高效的Transformer。具体来说,我们引入了结合图像和特征变形优势的双域传播,可可靠地利用全局对应关系。我们还提出了一个基于掩模引导的稀疏视频Transformer,通过丢弃不必要和多余的标记,实现了高效率。凭借这些组件,ProPainter在保持吸引人的效率的同时,PSNR高出先前方法1.46 dB。
我们提出了ImageBind-LLM,这是一种通过ImageBind调整大型语言模型(LLMs)的多模态指令调整方法。现有的工作主要集中在语言和图像指令调整上,与此不同,我们的ImageBind-LLM可以响应多模态条件,包括音频、3D点云、视频,以及它们的嵌入空间算术,仅通过图像文本对齐训练。在训练过程中,我们采用可学习的绑定网络来对齐LLaMA和ImageBind的图像编码器之间的嵌入空间。然后,通过绑定网络转换的图像特征被添加到LLaMA所有层的单词标记中,逐渐通过无注意力和零初始化的门控机制注入视觉指令。在ImageBind的联合嵌入的帮助下,简单的图像文本训练使我们的模型展现出优越的多模态指令遵循能力。在推断过程中,多模态输入被馈送到相应的ImageBind编码器,并通过提出的视觉缓存模型进行进一步的跨模态嵌入增强。这个无需训练的缓存模型从ImageBind提取的三百万图像特征中检索,有效地减轻了训练推断模态差异。值得注意的是,通过我们的方法,ImageBind-LLM可以响应各种模态的指令,并展示出显著的语言生成质量。代码已发布在https://github.com/OpenGVLab/LLaMA-Adapter。
我们提出了InstructDiffusion,这是一个统一且通用的框架,用于将计算机视觉任务与人类指令对齐。与现有方法不同,这些方法整合了先验知识并为每个视觉任务预定义了输出空间(例如类别和坐标),我们将各种视觉任务转化为一个直观的人类图像处理过程,其输出空间是一个灵活且交互式的像素空间。具体而言,该模型建立在扩散过程之上,并经过训练,根据用户指令预测像素,比如用红色圈出男人的左肩或者在左侧的汽车上应用蓝色遮罩。InstructDiffusion可以处理各种视觉任务,包括理解任务(如分割和关键点检测)和生成任务(如编辑和增强)。它甚至展示了处理未见任务的能力,并在新颖数据集上胜过先前的方法。这代表着通向视觉任务通用建模界面的重要一步,推动了计算机视觉领域人工通用智能的发展。
在本文中,我们提出了一种名为SyncDreamer的新型扩散模型,可以从单视角图像生成多视角一致的图像。利用预训练的大规模2D扩散模型,最近的工作Zero123展示了从物体的单视角图像生成合理的新视角的能力。然而,对生成的图像在几何和颜色上保持一致性仍然是一个挑战。为了解决这个问题,我们提出了一种同步多视角扩散模型,该模型建模了多视角图像的联合概率分布,从而能够通过单个逆向过程生成多视角一致的图像。SyncDreamer通过一种3D感知特征注意机制,在逆向过程的每一步同步所有生成图像的中间状态,从而相关联不同视角之间的对应特征。实验表明,SyncDreamer生成的图像在不同视角之间具有高一致性,因此非常适用于各种3D生成任务,如新视角合成、文本到3D和图像到3D。
最近扩散模型的进展,如ControlNet,已实现了几何可控、高保真度的文本到图像生成。然而,它们中没有一个解决了将这种可控性添加到文本到三维生成的问题。为此,我们提出了Text2Control3D,一种可控的文本到三维头像生成方法,其面部表情可在使用手持摄像机随意拍摄的单目视频中进行控制。我们的主要策略是在神经辐射场(NeRF)中构建3D头像,通过一组从ControlNet生成的受控视角感知图像进行优化,其条件输入是从输入视频中提取的深度图。在生成视角感知图像时,我们利用交叉参考注意力通过交叉关注注入良好控制的、参考性的面部表情和外观。我们还对扩散模型的高斯潜变量进行低通滤波,以改善我们从经验分析中观察到的与视角无关的纹理问题,即视角感知图像在相同像素位置包含相同纹理,这在三维中是难以理解的。最后,为了训练NeRF,使其能处理视角感知但在几何上不严格一致的图像,我们的方法将每个图像的几何变化视为从共享的三维规范空间中的变形。因此,我们通过学习一组通过变形场表的每个图像变形来在可变NeRF的规范空间中构建3D头像。我们展示了实证结果并讨论了我们方法的有效性。
大型语言模型(LLMs)已经在各个领域变得无处不在,改变了我们与信息互动和进行研究的方式。然而,大多数表现优异的LLMs仍然被限制在专有墙壁之后,阻碍了科学进展。另一方面,大多数开源LLMs在支持更长序列长度方面存在局限,而这是许多需要在输入上下文上进行推理的任务的关键要求。为了解决这个问题,我们训练了XGen,一系列拥有70亿参数模型,支持长达8K序列长度,最多达1.5T标记。我们还对XGen模型在公共领域的指导性数据上进行了微调,创建了它们的指导性调整版本(XGen-Inst)。我们开源我们的模型,旨在促进研究进展和商业应用。我们在标准基准测试上的评估显示,与最先进的开源LLMs相比,XGen模型取得了可比或更好的结果。我们针对长序列建模任务的定向评估显示,我们的8K序列模型相对于2K序列开源LLMs具有优势。
我们深入研究了一个真实世界的机器人学习系统,先前的工作表明该系统能够与人类进行数百次乒乓球对打,并且能够精确地将球返回到指定目标。该系统整合了高度优化的感知子系统、高速低延迟的机器人控制器、一个可以在真实世界中防止损坏并训练零样本迁移策略的模拟范式,以及自动化的真实世界环境重置,实现了在物理机器人上的自主训练和评估。我们补充了完整的系统描述,包括通常不广泛传播的许多设计决策,以及一系列研究,阐明了减轻各种延迟来源的重要性、考虑训练和部署分布变化、感知系统的稳健性、策略超参数的敏感性以及动作空间的选择。可以在以下链接找到展示系统组件和实验结果细节的视频:https://youtu.be/uFcnWjB42I0。
受潜在扩散模型(LDMs)在图像合成方面显著成功的启发,我们研究了用于文本到视频生成的LDM,这是一个巨大的挑战,因为在模型训练和推断过程中存在计算和内存限制。单个LDM通常只能生成非常有限数量的视频帧。一些现有作品专注于为生成更多视频帧而设计单独的预测模型,但这些模型会导致额外的训练成本和帧级抖动。在本文中,我们提出了一个名为“重用和扩散”的框架,称为VidRD,以在LDM已生成的帧后生成更多帧。在初始视频剪辑的条件下,通过重用原始潜在特征并遵循先前的扩散过程,迭代生成额外帧。此外,对于用于在像素空间和潜在空间之间进行转换的自动编码器,我们向其解码器中注入时间层,并微调这些层以获得更高的时间一致性。我们还提出了一组策略,用于组合视频文本数据,其中包括来自多个现有数据集的多样内容,包括用于动作识别的视频数据集和图像文本数据集。大量实验证明我们的方法在定量和定性评估中取得了良好的结果。我们的项目页面可在https://anonymous0x233.github.io/ReuseAndDiffuse/{here}找到。