每日精选AI研究论文及翻译
多模式大型语言模型(MLLMs)取得了显著进展,在视觉背景下表现出卓越性能,因此受到了空前关注。然而,它们在视觉数学问题解决方面的能力尚未得到充分评估和理解。我们调查了当前的基准测试,以在文本问题中包含过多的视觉内容,这可能有助于MLLMs在不真正解释输入图表的情况下推断答案。为此,我们引入了MathVerse,这是一个全面的视觉数学基准测试,旨在公平而深入地评估MLLMs。我们精心收集了来自公开来源的2,612个高质量、多学科的数学问题,并由人类注释员将每个问题转换为六个不同版本,每个版本提供不同程度的多模态信息内容,共贡献了15K个测试样本。这种方法使MathVerse能够全面评估MLLMs是否真正理解数学推理中的视觉图表,以及它们理解的程度。此外,我们提出了一种“思维链”(CoT)评估策略,用于对输出答案进行细粒度评估。我们不是简单地判断真或假,而是使用GPT-4(V)自适应地提取关键推理步骤,然后对每个步骤进行详细的错误分析,这可以揭示MLLMs的中间CoT推理质量。我们希望MathVerse基准测试可以提供独特的见解,指导未来MLLMs的发展。项目页面:https://mathverse-cuhk.github.io
最近,从文本提示中创建3D内容取得了显著的成功。然而,当前的文本到3D方法通常生成的3D结果与人类偏好不太一致。本文提出了一个全面的框架,名为DreamReward,用于从人类偏好反馈中学习和改进文本到3D模型。首先,我们收集了25k个专家比较,基于系统化的注释流程,包括评分和排名。然后,我们构建了Reward3D——第一个通用的文本到3D人类偏好奖励模型,有效地编码人类偏好。基于3D奖励模型,最终我们进行了理论分析,并提出了Reward3D反馈学习(DreamFL),这是一种直接调整算法,用于优化具有重新定义评分器的多视角扩散模型。通过理论证明和广泛的实验比较,我们的DreamReward成功生成了高保真度和3D一致性结果,并显著提高了与人类意图对齐的提示。我们的结果展示了从人类反馈中学习以改进文本到3D模型的巨大潜力。
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著成功。然而,作为许多下游任务的基础模型,当前的MLLM由著名的Transformer网络组成,其计算复杂度为二次,效率较低。为了提高这些基本模型的效率,我们提出了Cobra,一个具有线性计算复杂度的MLLM。具体而言,Cobra将高效的Mamba语言模型整合到视觉模态中。此外,我们探索并研究了各种模态融合方案,以创建一个有效的多模态Mamba。大量实验证明:(1)Cobra在速度上比当前计算效率高的最先进方法(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)表现出极具竞争力的性能,因为Cobra具有线性顺序建模,速度更快。 (2)有趣的是,封闭式挑战性预测基准测试结果显示,Cobra在克服视觉错觉和空间关系判断方面表现出色。 (3)值得注意的是,Cobra甚至在参数数量约为LLaVA的43%的情况下,实现了与LLaVA可比较的性能。我们将使Cobra的所有代码开源,并希望所提出的方法能促进未来对MLLM中复杂性问题的研究。我们的项目页面位于:https://sites.google.com/view/cobravlm。
视频到视频编辑涉及编辑源视频以及额外控制(如文本提示、主题或风格),生成一个与源视频和提供的控制相一致的新视频。传统方法受限于特定编辑类型,限制了它们满足广泛用户需求的能力。在本文中,我们介绍了AnyV2V,这是一个新颖的无需训练的框架,旨在将视频编辑简化为两个主要步骤:(1)利用现成的图像编辑模型(例如InstructPix2Pix、InstantID等)修改第一帧,(2)利用现有的图像到视频生成模型(例如I2VGen-XL)进行DDIM反演和特征注入。在第一阶段,AnyV2V可以插入任何现有的图像编辑工具,以支持广泛的视频编辑任务。除了传统的基于提示的编辑方法,AnyV2V还可以支持新颖的视频编辑任务,包括基于参考的风格转移、以主题驱动的编辑和身份操纵,这些是以前的方法无法实现的。在第二阶段,AnyV2V可以插入任何现有的图像到视频模型,执行DDIM反演和中间特征注入,以保持与源视频的外观和运动一致性。在基于提示的编辑方面,我们展示AnyV2V在提示对齐上优于先前的最佳方法35\%,在人类偏好方面优于25\%。在三个新颖任务上,我们展示AnyV2V也取得了高成功率。我们相信AnyV2V将继续蓬勃发展,因为它能够无缝集成快速发展的图像编辑方法。这种兼容性可以帮助AnyV2V增加其多样性,以满足各种用户需求。
最近在文本引导扩散模型方面取得的进展已经解锁了强大的图像处理能力。然而,将这些方法应用于真实图像需要将图像反转到预训练扩散模型的领域。实现忠实的反转仍然是一个挑战,特别是对于最近训练用于生成具有少量去噪步骤图像的模型而言。在这项工作中,我们介绍了一种具有高质量-操作比的反转方法,提高了重建准确性而不增加操作次数。基于扩散采样过程的逆转,我们的方法在每个反转采样步骤中采用迭代去噪机制。这种机制通过迭代应用预训练扩散模型并对这些预测进行平均,改进了沿着正向扩散轨迹的预测点的逼近。我们使用各种采样算法和模型,包括最近的加速扩散模型,评估了我们的ReNoise技术的性能。通过全面的评估和比较,我们展示了它在准确性和速度方面的有效性。此外,我们通过在真实图像上展示文本驱动的图像编辑来确认我们的方法保留了可编辑性。
视频扩散模型最近在生成质量方面取得了巨大进展,但仍然受到高内存和计算需求的限制。这是因为当前的视频扩散模型通常尝试直接处理高维视频。为了解决这个问题,我们提出内容-运动潜在扩散模型(CMD),这是对预训练图像扩散模型进行视频生成的一种新颖高效扩展。具体来说,我们提出了一个自动编码器,将视频简洁地编码为内容帧(类似于图像)和低维运动潜在表示的组合。前者代表通用内容,后者分别代表视频中的潜在运动。我们通过微调预训练图像扩散模型生成内容帧,并通过训练新的轻量级扩散模型生成运动潜在表示。这里的一个关键创新是设计一个紧凑的潜在空间,可以直接利用预训练图像扩散模型,这在以前的潜在视频扩散模型中尚未实现。这导致了更好质量的生成和降低的计算成本。例如,CMD可以比先前方法快7.7倍地对512x1024分辨率和长度为16的视频进行采样,仅需3.1秒。此外,CMD在WebVid-10M上取得212.7的FVD分数,比之前的292.4的最新技术水平提高了27.3%。
最近的大规模视觉-语言模型(VLMs)展示了在理解和生成视觉内容的文本描述方面的显著能力。然而,这些模型缺乏对用户特定概念的理解。在这项工作中,我们迈出了个性化VLMs的第一步,使其能够学习和推理用户提供的概念。例如,我们探讨这些模型是否能够学会在图像中识别您并传达您正在做什么,使模型能够反映您的个人经历和关系。为了有效识别各种用户特定概念,我们通过增加外部概念头来增强VLM,这些头作为模型的开关,使VLM能够识别给定图像中特定目标概念的存在。在识别了概念之后,我们在VLM的中间特征空间中学习一个新的概念嵌入。这个嵌入的任务是引导语言模型自然地将目标概念整合到其生成的响应中。我们将这一技术应用于BLIP-2和LLaVA,用于个性化图像字幕生成,并进一步展示了它在个性化视觉问答方面的适用性。我们的实验表明,我们能够推广到学习概念的未见图像,同时保持模型对不相关输入的行为。
我们介绍了GRM,一个大规模的重建器,能够在约0.1秒内从稀疏视图图像中恢复3D资产。GRM是一个基于前馈变压器的模型,能够高效地整合多视图信息,将输入像素转换为像素对齐的高斯分布,然后将其反投影,创建一组代表场景的密集分布的3D高斯分布。我们的变压器架构和使用3D高斯分布共同解锁了可扩展且高效的重建框架。大量实验结果表明,我们的方法在重建质量和效率方面优于其他替代方案。我们还展示了GRM在生成任务中的潜力,即文本到3D和图像到3D,通过将其与现有的多视图扩散模型集成。我们的项目网站位于:https://justimyhxu.github.io/projects/grm/.
我们提出了高斯糖霜(Gaussian Frosting), 一种新颖的基于网格的表示方法,用于实时渲染和编辑复杂三维效果。我们的方法建立在最近的三维高斯飞溅(3D Gaussian Splatting)框架之上,该框架优化一组三维高斯函数以近似从图像中提取的辐射场。我们首先在优化过程中从高斯函数中提取基础网格,然后构建和细化一个自适应的高斯函数层,围绕网格以可变厚度捕捉表面附近的细节和体积效果,如头发或草。我们将这一层称为高斯糖霜,因为它类似于蛋糕上的一层糖霜。材料越模糊,糖霜越厚。我们还引入了高斯函数的参数化,以强制它们保持在糖霜层内,并在变形、重新缩放、编辑或动画化网格时自动调整其参数。我们的表示方法允许使用高斯飞溅进行高效渲染,同时通过修改基础网格进行编辑和动画制作。我们在各种合成和真实场景上展示了我们方法的有效性,并表明其优于现有的基于表面的方法。我们将发布我们的代码和一个基于网络的查看器作为额外贡献。我们的项目页面如下: https://anttwo.github.io/frosting/
我们引入有界生成作为一种广义任务,用于控制视频生成,仅基于给定的起始帧和结束帧合成任意摄像机和主体运动。我们的目标是充分利用图像到视频模型固有的泛化能力,而无需对原始模型进行额外训练或微调。这是通过提出的新采样策略实现的,我们称之为时间逆转融合,它融合了在起始帧和结束帧上条件化的时间正向和时间反向去噪路径。融合路径产生的视频可以平滑连接这两个帧,生成忠实主体运动的中间帧、静态场景的新视角,以及当两个边界帧相同时无缝视频循环。我们整理了一个多样化的图像对评估数据集,并与最接近的现有方法进行比较。我们发现时间逆转融合在所有子任务上均优于相关工作,展现出生成复杂运动和受有界帧引导的3D一致视图的能力。请查看项目页面:https://time-reversal.github.io。
我们提出了一种方法,可以利用预训练的StyleGAN从静止的风景图像自动生成cinemagraphs。受到最近无条件视频生成成功的启发,我们利用强大的预训练图像生成器来合成高质量的cinemagraphs。与先前主要利用预训练StyleGAN的潜在空间的方法不同,我们的方法利用其深度特征空间进行GAN反演和cinemagraph生成。具体而言,我们提出了多尺度深度特征扭曲(MSDFW),它在不同分辨率下扭曲预训练StyleGAN的中间特征。通过使用MSDFW,生成的cinemagraphs具有高分辨率,并展现出可信的循环动画。我们通过用户研究和与最先进的cinemagraph生成方法以及使用预训练StyleGAN的视频生成方法的定量比较,展示了我们方法的优越性。
研究人员和开发者越来越倚赖毒性评分来调节生成式语言模型的输出,在客户服务、信息检索和内容生成等环境中。然而,毒性评分可能导致相关信息无法获取,使文化规范僵化或“价值锁定”,并阻碍语言重建过程,特别是对边缘化群体而言。在这项工作中,我们将算法补救的概念扩展到生成式语言模型:我们为用户提供一种新机制,通过动态设置毒性过滤的阈值来实现他们期望的预测。用户因此相对于与基线系统的交互增加了主动性。一项试点研究(n = 30)支持我们提出的补救机制的潜力,表明与模型输出的固定阈值毒性过滤相比,在可用性方面有所改善。未来的工作应探讨毒性评分、模型可控性、用户主动性和语言重建过程的交集,特别是关于许多社区在与生成式语言模型交互时遇到的偏见。