每日精选AI研究论文及翻译
本报告介绍了一种新的多模态模型家族Gemini,展示了在图像、音频、视频和文本理解方面的显著能力。Gemini家族包括Ultra、Pro和Nano三种规格,适用于从复杂推理任务到设备内存受限的用例。在广泛的基准测试中,我们最强大的Gemini Ultra模型在32个基准测试中的30个中推动了技术前沿,特别是成为首个在广为人知的考试基准MMLU上实现人类专家水平表现的模型,并在我们研究的所有20个多模态基准测试中改进了技术水平。我们相信Gemini模型在跨模态推理和语言理解方面的新能力将能够支持各种用例,并讨论了我们在向用户负责地部署它们方面的方法。
我们提出了VecFusion,这是一种新的神经架构,可以生成具有不同拓扑结构和精确控制点位置的矢量字体。我们的方法是一个级联扩散模型,包括一个光栅扩散模型和一个矢量扩散模型。光栅模型生成低分辨率的光栅化字体,并带有辅助控制点信息,捕捉字体的全局风格和形状,而矢量模型则根据第一阶段的低分辨率光栅字体合成矢量字体。为了合成长且复杂的曲线,我们的矢量扩散模型采用了变压器架构和一种新颖的矢量表示,使得能够对多样的矢量几何进行建模,并精确预测控制点。我们的实验表明,与先前用于矢量图形的生成模型相比,我们的新级联矢量扩散模型生成了质量更高、具有复杂结构和多样风格的矢量字体。
图像扩散模型已被应用于各种任务,如文本到图像生成和可控图像合成。最近的研究引入了微调方法,对原始模型进行微小调整,取得了在基础生成扩散模型的特定改进方面的有希望的结果。我们不是修改扩散模型的主干,而是深入探讨了 U-Net 中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量产生重大影响。基于这一观察,我们提出了一种高效的生成微调框架,名为 SCEdit,它集成和编辑跳跃连接,使用名为 SC-Tuner 的轻量级调节模块。此外,所提出的框架通过向 Controllable SC-Tuner 注入不同条件,实现了对可控图像合成的简化和统一网络设计,使其能够轻松扩展到多条件输入。我们的 SCEdit 大大减少了训练参数、内存使用和计算开销,因为其轻量级调节器,仅将反向传播传递到解码器块。在文本到图像生成和可控图像合成任务上进行的大量实验表明,我们的方法在效率和性能方面优越。项目页面:https://scedit.github.io/
大型语言模型(LLMs)展现出在人类水平推理和生成能力方面的显著熟练度,这促使人们在数学问题求解应用上进行了广泛研究。然而,目前的工作主要集中在基于文本的数学问题上,对涉及几何信息的问题进行的研究有限。为填补这一空白,我们旨在通过理解图像输入,使LLMs能够解决几何问题。我们首先分析了当前多模态大型语言模型(MLLMs)在这一领域的局限性:它们难以准确理解基本几何元素及其关系。为了克服这些挑战,我们利用几何问题的独特特征(如独特的几何逻辑形式和几何可扩展性)以及文本LLMs的能力,基于现有数据构建了一个丰富的多模态几何数据集。增强的数据集Geo170K包含超过170K个几何图像说明和问题答案对。利用我们构建的Geo170K数据集,我们开发了G-LLaVA,在解决几何问题方面表现出色,仅使用7B参数在MathVista基准测试中明显优于GPT-4-V。
最近的文本到图像(T2I)生成模型,如稳定扩散和Imagen,在基于文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍然存在问题,如瑕疵/不合理性、与文本描述不一致以及美学质量低下。受强化学习与人类反馈(RLHF)在大型语言模型中取得成功的启发,先前的研究收集了人类提供的分数作为对生成图像的反馈,并训练了一个奖励模型来改善T2I生成。在本文中,我们通过(i)标记图像中不合理或与文本不一致的区域,以及(ii)注释文本提示中被错误呈现或缺失在图像上的单词,丰富了反馈信号。我们在1.8万个生成的图像上收集了这样丰富的人类反馈,并训练了一个多模态变压器来自动预测丰富的反馈。我们展示了预测的丰富人类反馈可以用来改善图像生成,例如,通过选择高质量的训练数据来微调和改进生成模型,或者通过使用预测的热图创建掩模来修复问题区域。值得注意的是,这些改进可以推广到超出用于生成人类反馈数据的图像的模型(Muse)上,这些模型超出了用于收集数据的模型(稳定扩散变体)。
高斯飘逸成为一种强大的三维表示形式,充分利用了显式(网格)和隐式(NeRF)三维表示形式的优势。本文旨在利用高斯飘逸从文本描述中生成逼真的可动化角色,解决网格或基于NeRF的表示形式所带来的限制(例如,灵活性和效率)。然而,简单应用高斯飘逸无法生成高质量的可动化角色,并且存在学习不稳定性;它也无法捕捉精细的角色几何结构,通常导致身体部位退化。为了解决这些问题,我们首先提出了基于基元的三维高斯表示,其中高斯定义在受姿势驱动的基元内,以促进动画。其次,为了稳定和分摊数百万高斯的学习,我们建议使用神经隐式场来预测高斯属性(例如颜色)。最后,为了捕捉精细的角色几何结构并提取详细的网格,我们提出了一种基于SDF的隐式网格学习方法,用于三维高斯,该方法规范底层几何结构并提取高度详细的纹理网格。我们提出的方法GAvatar,通过仅使用文本提示实现了大规模生成多样化的可动化角色。GAvatar在外观和几何质量方面显著超越现有方法,并且在1K分辨率下实现了极快的渲染速度(100 fps)。
最近,3D理解变得流行起来,以促进自主代理执行更深入的决策。然而,现有的3D数据集和方法通常局限于特定任务。另一方面,大型语言模型(LLMs)和多模态语言模型(MLMs)的最新进展展示了出色的通用语言和图像任务表现。因此,将MLM的潜力解锁为更广泛任务的3D通才是很有趣的。然而,由于缺乏大规模3D遵循指令数据集,目前MLMs的研究很少关注3D任务。在这项工作中,我们介绍了一个全面的3D遵循指令数据集,名为M3DBench,具有以下特点:1)支持与文本、图像、3D对象和其他视觉提示交织在一起的通用多模态指令。2)统一了不同区域和场景级别的各种3D任务,涵盖了现实世界3D环境中的各种基本能力。3)这是一个大规模的3D遵循指令数据集,拥有超过320k的指令-响应对。此外,我们建立了一个新的基准,用于评估大型模型在理解多模态3D提示方面的表现。大量实验证明了我们数据集和基准线的有效性,支持通用的3D中心任务,这可以激发未来的研究。
对多模态大型语言模型(MLLMs)的兴趣激增,例如来自OpenAI的GPT-4V(ision),标志着学术界和工业界的一个重要趋势。它们赋予大型语言模型(LLMs)强大的视觉理解能力,使它们能够处理多样的多模态任务。谷歌最近发布了Gemini,这是其最新、最具能力的MLLM,从头开始专为多模态而构建。鉴于其卓越的推理能力,Gemini是否能挑战GPT-4V在多模态学习中的领先地位?在本文中,我们对Gemini Pro的视觉理解能力进行了初步探索,全面涵盖了四个领域:基础感知、高级认知、具有挑战性的视觉任务和各种专家能力。我们将Gemini Pro与最先进的GPT-4V进行比较,以评估其上限,同时还考虑了最新的开源MLLM Sphinx,揭示了人工努力和黑匣子系统之间的差距。定性样本表明,虽然GPT-4V和Gemini展示了不同的回答风格和偏好,但它们在视觉推理能力上可以相媲美,而Sphinx在领域泛化方面仍然落后于它们。具体而言,GPT-4V倾向于详细解释和中间步骤,而Gemini更倾向于输出直接而简洁的答案。对流行的MME基准测试的定量评估也显示了Gemini成为GPT-4V强有力挑战者的潜力。我们对Gemini的早期调查还观察到MLLM的一些常见问题,表明距离人工通用智能仍有相当大的距离。我们用于跟踪MLLM进展的项目已发布在https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models。
视觉叙事经常使用非典型纵横比图像,如卷轴画、漫画条和全景图,以创造富有表现力和引人入胜的叙事。虽然生成式人工智能取得了巨大成功并展示了重塑创意产业的潜力,但生成具有任意尺寸和可控风格、概念和布局的连贯且引人入胜的内容仍然是一项挑战,这些对于视觉叙事至关重要。为了克服以往方法的缺点,包括重复内容、风格不一致和缺乏可控性,我们提出了MagicScroll,这是一个多层、渐进扩散式图像生成框架,具有新颖的语义感知去噪过程。该模型使得在对象、场景和背景层面上对生成的图像进行细粒度控制,包括文本、图像和布局条件。我们还建立了首个用于视觉叙事的非典型纵横比图像生成基准,包括绘画、漫画和电影全景等媒介,并针对系统评估定制了指标。通过比较和消融研究,MagicScroll展示了与叙事文本对齐、提高视觉连贯性和吸引观众方面的有希望的结果。我们计划发布代码和基准,希望促进人工智能研究人员与涉及视觉叙事的创意从业者之间更好的合作。
语言模型(LMs)通常在训练中排除的整体数据上报告困惑度。隐式或明确地,这些数据由领域-不同语言分布组成。与其假设一个分布上的困惑度可以推广到其他分布,语言模型评估的困惑度分析(Paloma)衡量LM适应585个文本领域,从nytimes.com到Reddit上的r/depression。我们邀请提交到我们的基准测试,并根据符合指南的结果可比性进行组织,例如去除预训练中的基准污染。提交还可以记录参数和训练令牌计数,以便根据这些成本度量的帕累托效率进行性能比较。我们将我们的基准测试与在流行语料库上预训练的6个基线结果填充。在案例研究中,我们展示了使用Paloma可能进行的分析,例如发现仅使用Common Crawl之外的数据进行预训练会导致对许多领域的适应性不一致。
最近基于扩散的图像编辑方法在简单构图的图像中展现出令人印象深刻的编辑能力。然而,尽管现实世界对于复杂情景下的局部编辑需求不断增长,文献中对于这方面的研究却不够充分。现有基于蒙版的修补方法未能保留编辑区域内的基本结构。与此同时,基于无蒙版的注意力机制方法在更复杂的构图中常常出现编辑泄漏和错位的问题。在本研究中,我们开发了MAG-Edit,这是一种无需训练、在推理阶段进行优化的方法,可以实现复杂情景下的局部图像编辑。具体而言,MAG-Edit通过最大化编辑令牌的两个基于蒙版的交叉注意力约束来优化扩散模型中的噪声潜在特征,从而逐渐增强与所需提示的局部对齐。大量定量和定性实验表明,我们的方法在实现复杂情景下的局部编辑中既能够实现文本对齐,又能够保留结构。
本文探讨了针对大型视觉语言模型(LVLMs)的偏好蒸馏,以提高其生成有用和忠实响应并锚定视觉背景的能力。我们首先构建了一个利用人工智能注释的视觉-语言反馈(VLFeedback)数据集。具体而言,响应是由从各种数据集中获取的多模态指令条件下抽样的12个LVLMs模型生成的。我们采用GPT-4V评估生成的输出在有用性、视觉忠实度和伦理考虑方面。此外,通过直接偏好优化(DPO)方法将偏好监督蒸馏到Qwen-VL-Chat中。由此产生的模型Silkie,在感知和认知能力方面相对提高了6.9%和9.5%的MME基准。Silkie还通过在MMHal-Bench基准上设定了新的最先进得分3.02来展示减少了幻觉。进一步分析显示,DPO与我们的VLFeedback数据集主要增强了LVLMs的细粒度感知和复杂认知能力,相较于人工注释的偏好数据集,导致了更全面的改进。
扩散模型在生成高质量图像方面取得了显著进展,但由于时间运动的复杂性,它们在视频生成方面的应用仍然具有挑战性。零样本视频编辑通过利用预训练的图像扩散模型将源视频转换为新视频,提供了一种解决方案。然而,现有方法在保持严格的时间一致性和高效的内存消耗方面存在困难。在这项工作中,我们提出了一种新颖的方法,通过跨帧合并自注意力标记来增强生成视频的时间一致性。通过在帧间对齐和压缩时间上冗余的标记,我们的方法改善了时间连贯性,并减少了自注意力计算中的内存消耗。合并策略根据帧间的时间对应关系匹配和对齐标记,有助于在生成的视频帧中实现自然的时间一致性。为了管理视频处理的复杂性,我们将视频分成块,并开发了块内局部标记合并和块间全局标记合并,确保短期视频连续性和长期内容一致性。我们的视频编辑方法将图像编辑的进展无缝扩展到视频编辑,相较于最先进的方法,在时间一致性方面取得了良好的结果。
推测性解码通过利用一个草稿模型为更大的目标模型起草,从而提高大型语言模型(LLMs)的效率。然而,在推测性解码中起草涉及缓慢的自回归生成,以及在相同时间分配下生成不同重要性的标记。这两种低效性导致了其表现不佳。为了解决这个问题,我们引入了级联推测起草(CS. Drafting),这是一种新颖的方法,采用了两种级联类型。垂直级联消除了神经模型中的自回归生成。水平级联通过我们的理论分析支持其在起草中的高效时间分配。结合这两种级联,我们的CS. Drafting算法在实验中实现了高达72%的额外加速,同时保持相同的输出分布。
大型语言模型(LLMs)越来越多地用于复杂的多步规划任务中,其中工具检索(TR)步骤对于取得成功结果至关重要。工具检索的两种主要方法是单步检索,利用完整查询,和使用任务分解(TD)的顺序检索,其中完整查询被分割成离散的原子子任务。虽然单步检索缺乏处理“工具间依赖”的灵活性,但TD方法需要保持“子任务-工具原子性对齐”,因为工具箱可以动态演变。为了解决这些限制,我们引入了渐进式工具检索以改进规划(ProTIP)框架。ProTIP是一个基于轻量级对比学习的框架,可以在不需要显式子任务标签的情况下隐式执行TD,同时保持子任务-工具的原子性。在ToolBench数据集上,ProTIP的表现远远优于基于ChatGPT任务分解的方法,TR的Recall@K=10提高了24%,规划生成的工具准确性提高了41%。
大型语言模型的成功已经改变了自然语言处理(NLP)中的评估范式。社区的兴趣已经转向在多个任务、领域和数据集上比较NLP模型,通常是在极端规模上。这带来了新的工程挑战:构建数据集和模型的工作变得分散,它们的格式和接口不兼容。因此,通常需要进行大量的(重新)实现工作才能进行规模化的公平和受控比较。 Catwalk的目标是解决这些问题。Catwalk为广泛范围的现有NLP数据集和模型提供统一接口,包括经典的监督训练和微调,以及更现代的范式,如上下文学习。其精心设计的抽象化允许轻松扩展到许多其他领域。Catwalk大大降低了进行规模化受控实验的障碍。例如,我们使用单个命令对超过86个数据集上的64个模型进行微调和评估,而无需编写任何代码。由AllenNLP团队在Allen人工智能研究所(AI2)维护,Catwalk是一个持续的开源努力:https://github.com/allenai/catwalk。
最近,知识蒸馏方法显示出成为加速大规模扩散模型合成的有前途方向,只需少量推理步骤。尽管最近提出了几种强大的蒸馏方法,但通常学生样本的整体质量相对较低,与教师样本相比,这阻碍了它们的实际使用。在这项工作中,我们调查了教师文本到图像扩散模型及其蒸馏学生版本生成的样本的相对质量。作为我们的主要经验发现,我们发现相当一部分学生样本在保真度上优于教师样本,尽管学生的“近似”性质。基于这一发现,我们提出了一种自适应的学生和教师扩散模型之间的协作,用于有效的文本到图像合成。具体而言,蒸馏模型生成初始样本,然后一个神谕决定是否需要通过慢教师模型进一步改进。大量实验证明,所设计的流程在人类偏好方面超越了各种推理预算下的最先进文本到图像替代方案。此外,所提出的方法可以自然地用于流行应用,如文本引导的图像编辑和可控生成。
在扩散模型中,无需训练的引导采样利用现成的预训练网络,如美学评估模型,来指导生成过程。目前的无需训练的引导采样算法根据对干净图像的一步估计获得引导能量函数。然而,由于现成的预训练网络是在干净图像上训练的,对干净图像的一步估计过程可能不准确,尤其是在扩散模型的生成过程的早期阶段。这导致了早期时间步的引导不准确。为了克服这一问题,我们提出了辛共轭引导(SAG),它在两个内部阶段计算梯度引导。首先,SAG通过n个函数调用估计干净图像,其中n作为一个灵活的超参数,可以根据特定的图像质量要求进行调整。其次,SAG使用辛共轭方法准确高效地获取梯度,从内存需求方面来看。大量实验证明,与引导图像和视频生成任务中的基线相比,SAG生成的图像质量更高。
本文介绍了一种为文本生成3D图像而设计的开创性3D体积编码器。为了扩大扩散模型的训练数据,研发了一种轻量级网络,能够高效地从多视角图像中获取特征体积。然后,利用3D U-Net对这些3D体积进行训练,用于文本生成3D图像。该研究进一步解决了不准确的物体描述和高维特征体积所带来的挑战。所提出的模型在公开的Objaverse数据集上训练,展示了从文本提示生成多样且可识别样本的有希望结果。值得注意的是,它通过文本提示赋予了对物体部分特征的更精细控制,通过在单个物体内无缝结合多个概念来促进模型创造力。这项研究通过引入一种高效、灵活且可扩展的表示方法,对3D生成的进展做出了重大贡献。代码可在https://github.com/tzco/VolumeDiffusion找到。
我们提出了一种用于动态场景重建的方法,使用适用于单目视频的可变形3D高斯模型。在高斯光滑性的基础上,我们的方法通过扩展表示来容纳动态元素,这些元素通过驻留在规范空间中的一组可变形高斯模型和由多层感知器(MLP)定义的时间相关变形场来实现。此外,在假设大多数自然场景具有保持静态的大区域的情况下,我们允许MLP通过另外包括一个静态高斯点云来集中其表示能力。连接的动态和静态点云构成了高斯光滑光栅化器的输入,实现了实时渲染。可微分管道通过自监督渲染损失进行端到端优化。我们的方法实现了与最先进的动态神经辐射场方法可比的结果,同时实现了更快的优化和渲染。项目网站:https://lynl7130.github.io/gaufre/index.html