每日精选AI研究论文及翻译
我们介绍了GAIA,这是一个通用人工智能助手的基准测试,如果解决了这个问题,将代表着人工智能研究的一个里程碑。GAIA提出了需要一系列基本能力的现实世界问题,如推理、多模态处理、网页浏览以及通用工具使用熟练度。对于人类来说,GAIA的问题在概念上很简单,但对大多数先进的人工智能来说具有挑战性:我们展示了人类回答者获得92\%,而装有插件的GPT-4只有15\%。这种显著的性能差距与最近LLMs在需要专业技能的任务上胜过人类的趋势形成鲜明对比,比如法律或化学领域。GAIA的理念与当前人工智能基准测试的趋势背道而驰,建议针对那些对人类来说越来越困难的任务。我们认为,人工通用智能(AGI)的出现取决于系统在这些问题上展现出与普通人类类似的鲁棒性能。利用GAIA的方法,我们设计了466个问题及其答案。我们发布了这些问题,同时保留了其中300个问题的答案,以支持一个排行榜,网址为https://huggingface.co/gaia-benchmark。
多媒体生成方法在人工智能研究中占据重要地位。在过去几年中,文本到图像模型取得了高质量的结果。然而,最近开始发展视频合成方法。本文提出了一种基于文本到图像扩散模型的新的两阶段潜在扩散文本到视频生成架构。第一阶段涉及关键帧合成,以描绘视频的故事情节,而第二阶段致力于插值帧生成,使场景和物体的移动更加平滑。我们比较了几种用于关键帧生成的时间条件方法。结果显示,与反映视频生成质量方面的指标和人类偏好相比,使用单独的时间块优于时间层。我们的插值模型设计显著降低了计算成本,与其他遮罩帧插值方法相比。此外,我们评估了基于MoVQ的视频解码方案的不同配置,以提高一致性并实现更高的PSNR、SSIM、MSE和LPIPS分数。最后,我们将我们的流水线与现有解决方案进行了比较,并在整体上取得了前两名的成绩,在开源解决方案中排名第一:CLIPSIM = 0.2976,FVD = 433.054。项目页面:https://ai-forever.github.io/kandinsky-video/
随着虚拟现实设备和内容的广泛使用,对3D场景生成技术的需求变得更加普遍。然而,现有的3D场景生成模型将目标场景限制在特定领域,主要是由于它们使用的3D扫描数据集训练策略远离真实世界。为了解决这种限制,我们提出了LucidDreamer,这是一个无域场景生成流程,充分利用现有大规模扩散生成模型的能力。我们的LucidDreamer有两个交替步骤:梦境和对齐。首先,为了从输入生成多视角一致的图像,我们将点云作为每个图像生成的几何指导线。具体来说,我们将点云的一部分投影到所需视角,并将投影作为生成模型进行修补时的指导。修补后的图像通过估计的深度图提升到3D空间,形成新的点。其次,为了将新点聚合到3D场景中,我们提出了一种对齐算法,可以和谐地整合新生成的3D场景部分。最终获得的3D场景作为优化高斯斑点的初始点。LucidDreamer生成的高斯斑点与先前的3D场景生成方法相比更加详细,且不受目标场景领域的约束。
大型语言模型(LLMs)通过使用人类比较数据和强化学习从人类反馈中进行微调,以使它们更好地与用户偏好保持一致。与LLMs相比,在文本到图像扩散模型中,人类偏好学习并没有得到广泛探讨;目前最佳的方法是使用精心策划的高质量图像和标题对预训练模型进行微调,以改善视觉吸引力和文本对齐。我们提出了扩散-DPO,这是一种通过直接优化人类比较数据来使扩散模型与人类偏好保持一致的方法。Diffusion-DPO是从最近开发的直接偏好优化(DPO)中改编而来,这是一种简化的替代方案,直接优化最符合人类偏好的策略,以满足分类目标。我们重新构建了DPO,以考虑扩散模型的似然概念,利用证据下界推导出一个可微分的目标。使用851K众包成对偏好的Pick-a-Pic数据集,我们使用Diffusion-DPO对最先进的稳定扩散XL(SDXL)-1.0模型的基础模型进行微调。我们微调的基础模型在人类评估中明显优于基础SDXL-1.0和包含额外改进模型的更大SDXL-1.0模型,提高了视觉吸引力和提示对齐。我们还开发了一种利用人工智能反馈的变体,并具有与基于人类偏好训练相当的性能,为扩展扩散模型对齐方法打开了大门。
用于概念驱动个性化微调生成模型的方法通常在主题驱动或风格驱动生成方面取得了良好的结果。最近,低秩适应(LoRA)被提出作为实现概念驱动个性化的一种参数高效的方法。虽然最近的研究探讨了结合单独的LoRA以实现学习风格和主题的联合生成,但现有技术并未可靠地解决这个问题;它们经常在主题保真度或风格保真度之间进行妥协。我们提出了ZipLoRA,一种方法,可以廉价且有效地合并独立训练的风格和主题LoRA,以实现在任何用户提供的风格中生成任何用户提供的主题。对各种主题和风格组合的实验显示,ZipLoRA能够生成引人注目的结果,在主题和风格保真度方面有显著改进,同时保留了重新语境化的能力。项目页面:https://ziplora.github.io
利用强化学习与人类反馈(RLHF)在微调扩散模型方面显示出显著的潜力。先前的方法是通过训练与人类偏好一致的奖励模型,然后利用强化学习技术微调基础模型。然而,设计高效的奖励模型需要大量数据集、最佳架构和手动超参数调整,使得这一过程既耗时又昂贵。直接偏好优化(DPO)方法,在微调大型语言模型方面效果显著,消除了奖励模型的必要性。然而,扩散模型去噪过程对大量GPU内存的需求阻碍了DPO方法的直接应用。为解决这一问题,我们提出了直接偏好去噪扩散策略优化(D3PO)方法,以直接微调扩散模型。理论分析表明,尽管D3PO省略了训练奖励模型的步骤,但它实际上作为使用人类反馈数据训练的最佳奖励模型,引导学习过程。这种方法无需训练奖励模型,被证明更为直接、具有成本效益,并最小化计算开销。在实验中,我们的方法使用目标的相对规模作为人类偏好的代理,提供了与使用真实奖励的方法相媲美的结果。此外,D3PO展示了降低图像失真率和生成更安全图像的能力,克服了缺乏稳健奖励模型的挑战。
在大型语言模型(LLMs)中的上下文提示已成为改善零翻译能力的一种普遍方法,但这个想法在视觉领域的探索较少。现有的视觉提示方法侧重于参考分割以分割最相关的对象,但未能解决许多通用视觉任务,如开放集分割和检测。在本文中,我们为这两个任务引入了一种通用的视觉上下文提示框架。具体来说,我们基于编码器-解码器架构,并开发了一个多功能提示编码器,以支持各种提示,如笔画、框和点。我们进一步增强了它,以接受任意数量的参考图像片段作为上下文。我们的广泛探索表明,所提出的视觉上下文提示引发了非凡的指代和通用分割能力,用于指代和检测,产生了与封闭集内领域数据集竞争性能相当的表现,并在许多开放集分割数据集上展现了有希望的结果。通过在COCO和SA-1B上联合训练,我们的模型在COCO上达到了57.7 PQ,在ADE20K上达到了23.2 PQ。代码将在https://github.com/UX-Decoder/DINOv 上提供。
将基于图像的大型多模态模型(LMM)扩展到视频领域是具有挑战性的,这是因为视频数据的固有复杂性。最近将基于图像的LMM扩展到视频的方法要么缺乏基础能力(例如VideoChat、Video-ChatGPT、Video-LLaMA),要么没有利用音频信号来更好地理解视频(例如Video-ChatGPT)。针对这些差距,我们提出了Video-LLaVA,这是第一个具有像素级基础能力的LMM,通过将音频线索转录为文本来丰富视频内容理解。我们的框架使用现成的跟踪器和一种新颖的基础模块,使其能够根据用户指令在视频中空间和时间上定位对象。我们使用基于视频的生成和问答基准测试评估Video-LLaVA,并引入了专门设计用于衡量视频中基于提示的对象基础性能的新基准测试。此外,我们提议在视频对话基准测试中使用Vicuna而不是Video-ChatGPT中使用的GPT-3.5,以确保结果的可重复性,这是由于GPT-3.5的专有性质引起的担忧。我们的框架建立在SoTA基于图像的LLaVA模型基础上,并将其优势扩展到视频领域,在视频对话和基础任务上取得了令人期待的收益。项目页面:https://github.com/mbzuai-oryx/Video-LLaVA
这是关于基于扩散模型的360度全景图像生成任务的技术报告。与普通的2D图像不同,360度全景图像捕捉整个360°×180°的视野。因此,360全景图像的最右侧和最左侧应该是连续的,这是该领域的主要挑战。然而,当前的扩散流程不适合生成这样无缝的360度全景图像。为此,我们提出了一种在去噪和VAE解码阶段都采用圆形混合策略以保持几何连续性的方法。基于此,我们提出了两种模型,用于文本到360全景图和单图像到360全景图的任务。代码已作为开源项目发布在https://github.com/ArcherFMY/SD-T2I-360PanoImage 和 https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary。