每日精选AI研究论文及翻译
我们推出了ShareGPT4Video系列,旨在通过密集而精确的字幕促进大型视频语言模型(LVLMs)对视频的理解,以及文本到视频模型(T2VMs)对视频的生成。该系列包括:1)ShareGPT4Video,其中包含40K个GPT4V注释的视频密集字幕,涵盖各种长度和来源的视频,通过精心设计的数据过滤和注释策略开发而成。2)ShareCaptioner-Video,一种高效而强大的任意视频字幕模型,由其注释的480万高质量美学视频。3)ShareGPT4Video-8B,一种简单而出色的LVLM,在三个先进视频基准测试中达到了最先进的性能。为了实现这一目标,我们发现,抛开不可扩展的昂贵人工注释者,使用GPT4V以天真的多帧或帧串联输入策略为视频加字幕会导致较少详细且有时出现时间混乱的结果。我们认为设计高质量视频字幕策略的挑战在于三个方面:1)帧间精确的时间变化理解。2)帧内详细的内容描述。3)对于任意长度视频的帧数可扩展性。为此,我们精心设计了一种差分视频字幕策略,稳定、可扩展且高效,适用于生成具有任意分辨率、宽高比和长度的视频字幕。基于此,我们构建了ShareGPT4Video,其中包含40K个高质量视频,涵盖各种类别,生成的字幕包含丰富的世界知识、物体属性、摄像机移动,关键是事件的详细和精确的时间描述。基于ShareGPT4Video,我们进一步开发了ShareCaptioner-Video,一种优越的字幕生成器,能够高效生成任意视频的高质量字幕...
最近几年,基于扩散的图像生成模型通过展示合成高质量内容的能力取得了巨大成功。然而,这些模型包含大量参数,导致模型尺寸显著庞大。保存和传输它们对于各种应用来说都是一个主要瓶颈,尤其是在资源受限设备上运行的应用。在这项工作中,我们开发了一种新颖的权重量化方法,将 UNet 从 Stable Diffusion v1.5 量化到 1.99 位,实现了一个模型,尺寸减小了 7.9 倍,同时展现出比原始模型更好的生成质量。我们的方法包括几种新颖技术,如为每个层分配最佳位数,初始化量化模型以获得更好的性能,并改进训练策略以显著减少量化误差。此外,我们广泛评估了我们的量化模型在各种基准数据集上,并通过人类评估展示了其优越的生成质量。
最近,直接偏好优化(DPO)已经将其成功从对齐大型语言模型(LLMs)扩展到将文本到图像扩散模型与人类偏好对齐。与大多数现有的DPO方法不同,这些方法假设所有扩散步骤与最终生成的图像共享一致的偏好顺序,我们认为这种假设忽视了特定步骤的去噪性能,应该为每个步骤的贡献量定制偏好标签。为了解决这一限制,我们提出了一种新颖的后训练方法,即步骤感知偏好优化(SPO),该方法独立评估和调整每个步骤的去噪性能,使用步骤感知偏好模型和逐步重采样器来确保准确的步骤感知监督。具体而言,在每个去噪步骤中,我们对图像池进行抽样,找到合适的胜负对,并且最重要的是,从图像池中随机选择一幅图像来初始化下一个去噪步骤。这种逐步重采样器过程确保下一个胜负图像对来自同一图像,使胜负比较独立于上一步。为了评估每个步骤的偏好,我们训练了一个单独的步骤感知偏好模型,可应用于嘈杂和清晰图像。我们使用Stable Diffusion v1.5和SDXL进行的实验表明,SPO在将生成的图像与复杂详细提示对齐并增强美学方面明显优于最新的Diffusion-DPO,同时在训练效率方面实现了超过20倍的提升。代码和模型:https://rockeycoss.github.io/spo.github.io/
我们介绍了一种名为“思维缓冲区”(Buffer of Thoughts,BoT)的新颖多功能思维增强推理方法,用于提升大型语言模型(LLMs)的准确性、效率和鲁棒性。具体而言,我们提出了元缓冲区,用于存储一系列信息丰富的高层思维,即从各种任务的问题解决过程中提炼出的思维模板。然后针对每个问题,我们检索相关的思维模板,并自适应地将其实例化为具体的推理结构,以进行高效的推理。为了保证可扩展性和稳定性,我们进一步提出了缓冲区管理器,动态更新元缓冲区,从而随着解决更多任务而增强元缓冲区的容量。我们在10个具有挑战性的推理密集型任务上进行了大量实验,并相较于先前的SOTA方法取得了显著的性能改进:在“24点游戏”上提高了11%,在“几何形状”上提高了20%,在“一步将军”上提高了51%。进一步分析表明,我们的BoT具有出色的泛化能力和模型鲁棒性,而平均仅需多次查询提示方法(例如,思维树/图)成本的12%。值得注意的是,我们发现我们的Llama3-8B+BoT有潜力超越Llama3-70B模型。我们的项目可在以下链接找到:https://github.com/YangLing0818/buffer-of-thought-llm
基于扩散的视频生成模型已经展示出在通过迭代去噪过程获取高保真视频方面取得了显著成功。然而,这些模型在采样过程中需要多次去噪步骤,导致计算成本高昂。在这项工作中,我们提出了一种新颖的方法,通过利用对抗训练来微调预训练的视频扩散模型,以获得单步视频生成模型。我们展示通过对抗训练,多步视频扩散模型,即稳定视频扩散(SVD),可以被训练为执行单次前向传递以合成高质量视频,捕捉视频数据中的时间和空间依赖关系。大量实验证明,我们的方法实现了合成视频的竞争性生成质量,同时显著减少了去噪过程的计算开销(即与SVD相比加快了约23倍,与现有作品相比加快了6倍,生成质量更好),为实时视频合成和编辑铺平了道路。更多可视化结果可在https://snap-research.github.io/SF-V 上公开获取。
扩散模型在文本到视频(T2V)生成中取得了巨大成功。然而,现有方法在处理涉及多个对象或对象数量动态变化的复杂(长)视频生成场景时可能面临挑战。为了解决这些限制,我们提出了VideoTetris,这是一个新颖的框架,可以实现组合式T2V生成。具体而言,我们提出了时空组合式扩散,通过在空间和时间上操纵和组合去噪网络的注意力图,以精确地遵循复杂的文本语义。此外,我们提出了增强的视频数据预处理,以增强关于运动动态和及时理解的训练数据,配备了新的参考帧注意力机制,以改善自回归视频生成的一致性。大量实验证明,我们的VideoTetris在组合式T2V生成中取得了令人印象深刻的定性和定量结果。代码可在以下链接找到:https://github.com/YangLing0818/VideoTetris
在人工智能领域,构建能够处理多样任务并在不同环境中自我进化的通用智能体是一个长期目标。大型语言模型(LLMs)被认为是构建这类智能体的有前途的基础,因为它们具有广义能力。目前的方法要么让基于LLM的智能体逐步模仿专家提供的轨迹,需要人类监督,这很难扩展并限制了环境探索;要么让智能体在孤立环境中探索和学习,导致专家智能体的泛化能力有限。本文迈出了建立具备自我进化能力的通用LLM智能体的第一步。我们确定了三个要素:1)多样化环境用于智能体探索和学习,2)轨迹集以赋予智能体基本能力和先验知识,3)有效且可扩展的进化方法。我们提出了AgentGym,一个新框架,具备多样环境和任务,用于广泛、实时、统一格式和并发的智能体探索。AgentGym还包括一个扩展指南数据库、基准套件和跨环境的高质量轨迹。接着,我们提出了一种新方法AgentEvol,探讨智能体在任务和环境中超越先前见过数据的自我进化潜力。实验结果表明,进化后的智能体能够达到与SOTA模型可比的结果。我们发布了AgentGym套件,包括平台、数据集、基准、检查点和算法实现。AgentGym套件可在https://github.com/WooooDyy/AgentGym 上获取。
文本引导的图像生成使得可以从文本描述中创建视觉内容。然而,某些视觉概念无法通过单纯的语言有效传达。这引发了对利用CLIP图像嵌入空间进行更加视觉导向任务的方法(如IP-Adapter)的重新兴趣。有趣的是,已经证明CLIP图像嵌入空间具有语义意义,其中在该空间内的线性操作会产生语义上有意义的结果。然而,这些操作的具体含义在不同图像之间可能会变化不可预测。为了利用这一潜力,我们引入了pOps,这是一个在CLIP图像嵌入上直接训练特定语义操作符的框架。每个pOps操作符都建立在一个预训练的扩散先验模型之上。虽然扩散先验模型最初是用于将文本嵌入和图像嵌入之间进行映射训练的,我们展示了它可以被调整以适应新的输入条件,从而产生一个扩散操作符。直接在图像嵌入上工作不仅提高了我们学习语义操作的能力,还使我们能够在需要时直接使用文本CLIP损失作为额外的监督。我们展示了pOps可以用于学习各种受照片启发的操作符,具有不同的语义含义,突显了我们提出方法的语义多样性和潜力。
近年来,人工智能系统的整体能力出现了巨大增长,主要是通过在互联网规模数据上训练基础模型实现的。然而,创造出开放式、不断自我改进的人工智能仍然是难以实现的。在这篇立场论文中,我们认为现在已经具备了实现人工智能系统相对于人类观察者具有开放性的要素。此外,我们主张这种开放性是任何人工超人类智能的基本属性。我们首先通过新颖性和可学习性的视角提供了开放性的具体形式定义。然后,我们阐明了通过建立在基础模型之上的开放式系统的路径,这些系统能够做出新颖的、与人类相关的发现,从而实现人工超人类智能。最后,我们考察了具有普遍能力的开放式人工智能的安全影响。我们预计,开放式基础模型将在不久的将来证明是一个越来越富有成效和安全关键的研究领域。