每日精选AI研究论文及翻译
我们推出GAIA——一个面向通用人工智能助手的基准测试框架,其解决方案将成为AI研究的重要里程碑。GAIA提出了需要运用推理、多模态处理、网络浏览及工具使用等基础能力的现实世界问题。这些对人类而言概念简单的问题,却对当前最先进的AI系统构成挑战:数据显示人类受访者正确率达到92%,而搭载插件的GPT-4模型仅为15%。这种显著的性能差距与当前大语言模型在法律、化学等专业领域超越人类的发展趋势形成鲜明对比。GAIA的设计理念有别于追求人类难以完成任务的现行AI评测趋势,我们主张通用人工智能(AGI)的实现关键在于系统能否在此类问题上展现出与普通人相当的稳健性。基于GAIA方法论,我们构建了466个测试问题及其参考答案,其中300道题的答案暂不公开以支撑排行榜机制(详见https://huggingface.co/gaia-benchmark)。
多媒体生成方法在人工智能研究领域占据重要地位。文本到图像模型在过去几年已实现高质量成果,而视频合成方法近期才开始发展。本文提出一种基于文本到图像扩散模型的新型两阶段潜在扩散文本到视频生成架构:第一阶段通过关键帧合成构建视频叙事线索,第二阶段专注于插值帧生成以实现场景与物体的平滑运动。我们比较了多种时序条件处理方法在关键帧生成中的表现,结果表明采用独立时序模块的方案在视频生成质量指标和人类偏好评估中均优于时序层集成方案。所设计的插值模型相较于其他掩码帧插值方法显著降低了计算成本。此外,我们评估了基于MoVQ的视频解码方案的不同配置,以提升连贯性并获得更高的PSNR、SSIM、MSE和LPIPS评分。最终通过与现有解决方案的对比,我们的管道在整体评估中位列第二,在开源方案中排名第一:CLIPSIM=0.2976,FVD=433.054。项目页面:https://ai-forever.github.io/kandinsky-video/
随着VR设备与内容的广泛普及,对三维场景生成技术的需求日益增长。然而,现有的三维场景生成模型受限于采用远离真实世界的三维扫描数据集进行训练的策略,通常将目标场景限定在特定领域。为突破这一局限,我们提出LucidDreamer——一种通过充分发挥现有大规模扩散生成模型优势的无领域限制场景生成流程。该流程包含"造梦"与"对齐"两个交替步骤:首先,为从输入生成多视角一致图像,我们将点云作为各视角图像生成的几何指引。具体而言,通过将局部点云投影至目标视角,并利用该投影作为生成模型进行修复绘制的引导。修复后的图像结合预估深度图被提升至三维空间,形成新点云。其次,为将新点云聚合至三维场景,我们提出一种对齐算法,可协调融合新生成的三维场景局部。最终获得的三维场景将作为优化高斯溅射的初始点云。相较于传统三维场景生成方法,LucidDreamer生成的高斯溅射模型具有更高细节度,且对目标场景领域无任何限制。
大型语言模型(LLMs)通常采用基于人类偏好比较数据的强化学习人类反馈(RLHF)方法进行微调,以更好地契合用户偏好。与LLMs相比,人类偏好学习在文生图扩散模型中的探索尚不广泛;现有最佳方法是通过精心筛选的高质量图像-文本对微调预训练模型,以提升视觉吸引力与文本对齐度。我们提出Diffusion-DPO方法,通过直接基于人类比较数据优化来实现扩散模型与人类偏好的对齐。该方法借鉴了新近发展的直接偏好优化(DPO)——一种比RLHF更简洁的替代方案,其通过分类目标直接优化最符合人类偏好的策略。我们重新构建了DPO框架以兼容扩散模型的似然概念,利用证据下界推导出可微优化目标。基于包含85.1万条众包成对偏好的Pick-a-Pic数据集,我们对最先进的Stable Diffusion XL(SDXL)-1.0基础模型进行Diffusion-DPO微调。微调后的基础模型在人类评估中显著优于原始SDXL-1.0基础模型及包含额外优化模块的更大规模SDXL-1.0模型,在视觉吸引力和提示词对齐度上均有提升。我们还开发了采用AI反馈的变体模型,其性能与基于人类偏好的训练相当,为扩散模型对齐方法的规模化扩展开辟了新路径。
针对概念驱动个性化的生成模型微调方法,通常在主体驱动或风格驱动的生成任务中取得优异效果。近期提出的低秩自适应(LoRA)技术为实现概念驱动个性化提供了一种参数高效的解决方案。虽然现有研究探索了组合多个独立LoRA模块以实现风格与主体联合生成的方法,但这些技术尚未能可靠解决该问题,往往需要在主体保真度或风格保真度之间做出妥协。我们提出ZipLoRA方法,通过经济高效地融合独立训练的风格与主体LoRA模块,实现任意用户指定主体与任意用户指定风格的组合生成。在多种主体与风格组合上的实验表明,ZipLoRA能够生成令人信服的结果,在主体和风格保真度方面较基线方法实现显著提升,同时保持场景重构能力。项目页面:https://ziplora.github.io
利用人类反馈进行强化学习(RLHF)在扩散模型微调方面展现出显著潜力。传统方法首先训练符合人类偏好的奖励模型,随后运用强化学习技术对基础模型进行微调。然而,构建高效的奖励模型需要大规模数据集、最优架构及人工超参数调优,导致该过程耗时且成本高昂。直接偏好优化(DPO)方法在大型语言模型微调中表现优异,无需依赖奖励模型,但扩散模型去噪过程对GPU内存的极高需求阻碍了DPO的直接应用。为解决此问题,我们提出去噪扩散策略直接偏好优化(D3PO)方法,实现对扩散模型的直接微调。理论分析表明,尽管D3PO省去了奖励模型训练环节,其实际等效于通过人类反馈数据训练出的最优奖励模型来指导学习过程。该方法无需训练奖励模型,具有更直接、经济且计算开销低的优势。实验中,本方法以目标函数的相对尺度作为人类偏好的代理指标,取得了与使用真实奖励方法相当的结果。此外,D3PO能够有效降低图像失真率并生成更安全的图像,克服了缺乏稳健奖励模型的挑战。
大型语言模型(LLM)中的上下文提示已成为提升零样本能力的常用方法,但这一思路在视觉领域的探索尚不充分。现有视觉提示方法主要聚焦于指代分割任务以分割最相关的对象,却难以应对开放集分割与检测等通用视觉任务。本文提出了一种适用于上述两类任务的通用视觉上下文提示框架。具体而言,我们在编码器-解码器架构基础上构建了支持多种提示(如线条、框选、点选)的通用提示编码器,并进一步扩展其功能以接受任意数量的参考图像片段作为上下文。大量实验表明,所提出的视觉上下文提示方法能够激发卓越的指代分割与通用分割能力,在封闭集领域数据集上达到具有竞争力的性能,并在多个开放集分割数据集上展现出良好效果。通过联合训练COCO和SA-1B数据集,我们的模型在COCO上达到57.7 PQ,在ADE20K上达到23.2 PQ。代码将发布于https://github.com/UX-Decoder/DINOv。
将基于图像的大型多模态模型(LMM)扩展至视频领域面临挑战,这源于视频数据固有的复杂性。现有将图像LMM扩展至视频的方法存在两大局限:要么缺乏实体定位能力(如VideoChat、Video-ChatGPT、Video-LLaMA),要么未能利用音频信号增强视频理解(如Video-ChatGPT)。为弥补这些不足,我们提出首个具备像素级实体定位能力的视频多模态模型Video-LLaVA,通过将音频转录为文本来整合听觉线索以增强视频上下文理解。该框架采用现成的追踪器与新型定位模块,使其能够根据用户指令在视频中实现时空维度的物体定位。我们使用视频生成与问答基准对Video-LLaVA进行评估,并针对视频中基于提示的物体定位性能设计了全新测评基准。此外,相较于Video-ChatGPT采用的GPT-3.5,我们提议使用Vicuna进行视频对话基准测试,以确保结果可复现性——这对具有专有属性的GPT-3.5而言存在隐忧。本框架基于当前最先进的图像LLaVA模型构建,将其优势延伸至视频领域,在视频对话与实体定位任务上展现出显著提升。项目页面:https://github.com/mbzuai-oryx/Video-LLaVA
这是关于基于扩散模型的360度全景图像生成任务的技术报告。与普通的2D图像不同,360度全景图像捕捉整个360°×180°的视野。因此,360全景图像的最右侧和最左侧应该是连续的,这是该领域的主要挑战。然而,当前的扩散流程不适合生成这样无缝的360度全景图像。为此,我们提出了一种在去噪和VAE解码阶段都采用圆形混合策略以保持几何连续性的方法。基于此,我们提出了两种模型,用于文本到360全景图和单图像到360全景图的任务。代码已作为开源项目发布在https://github.com/ArcherFMY/SD-T2I-360PanoImage 和 https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary。