每日精选AI研究论文及翻译
最近,Transformer作为学习视觉表示的强大工具崭露头角。本文中,我们识别并表征了监督和自监督ViT网络特征图中的伪像。这些伪像对应于推断过程中主要出现在图像低信息背景区域的高范数标记,这些标记被重新用于内部计算。我们提出了一个简单而有效的解决方案,即向Vision Transformer的输入序列提供额外的标记来填补这一角色。我们展示了这一解决方案完全修复了监督和自监督模型的问题,为自监督视觉模型在密集视觉预测任务上树立了新的技术水平,实现了更大模型的对象发现方法,并且最重要的是,使得下游视觉处理的特征图和注意力图更加平滑。
我们提出了Any-Modality Augmented Language Model(AnyMAL),这是一个统一的模型,可以推理各种输入模态信号(即文本、图像、视频、音频、IMU运动传感器),并生成文本响应。AnyMAL继承了最先进的LLM(如LLaMA-2(70B))强大的基于文本的推理能力,并通过一个预训练的对齐器模块将特定于模态的信号转换为联合文本空间。为了进一步增强多模态LLM的能力,我们使用手动收集的多模态指令集对模型进行微调,以涵盖简单问答之外的各种主题和任务。我们进行了全面的实证分析,包括人工和自动评估,并展示了在各种多模态任务上的最先进性能。
最近在3D内容创建领域的最新进展主要利用基于优化的3D生成,通过得分蒸馏采样(SDS)。尽管展示了令人期待的结果,但这些方法通常受到每个样本优化速度缓慢的困扰,限制了它们的实际应用。在本文中,我们提出了DreamGaussian,这是一个新颖的3D内容生成框架,同时实现了效率和质量。我们的关键见解是设计一个生成式3D高斯飞溅模型,配备了UV空间中的伴随网格提取和纹理细化。与神经辐射场中使用的占用修剪相比,我们证明了3D高斯逐渐致密化对于3D生成任务的收敛速度显著更快。为了进一步提高纹理质量并促进下游应用,我们引入了一种将3D高斯转换为带纹理网格的高效算法,并应用了一个微调阶段来细化细节。大量实验证明了我们提出的方法具有卓越的效率和竞争力的生成质量。值得注意的是,DreamGaussian仅需2分钟从单视图图像中生成高质量带纹理的网格,与现有方法相比,加速约为10倍。
大型语言模型(LLMs)已经彻底改变了人工智能领域,使得自然语言处理任务不再仅限于人类。在这项工作中,我们介绍了Qwen,我们大型语言模型系列的第一部分。Qwen是一个全面的语言模型系列,包括具有不同参数数量的独特模型。它包括Qwen,基础预训练语言模型,以及Qwen-Chat,使用人类对齐技术微调的聊天模型。基础语言模型在众多下游任务中始终展现出优越性能,而聊天模型,特别是那些使用人类反馈强化学习(RLHF)训练的模型,具有很高的竞争力。聊天模型具有先进的工具使用和规划能力,用于创建代理应用,在处理复杂任务时表现出色,甚至与更大的模型相比,如使用代码解释器。此外,我们开发了专门针对编码的模型,Code-Qwen和Code-Qwen-Chat,以及专注于数学的模型,Math-Qwen-Chat,这些模型是基于基础语言模型构建的。这些模型在性能上明显优于开源模型,并略逊于专有模型。
本文介绍了基于高斯散点的文本到三维生成(GSGEN)方法,这是一种用于生成高质量三维物体的新颖方法。先前的方法存在几何不准确和保真度有限的问题,因为缺乏三维先验和适当的表示。我们利用了三维高斯散点,这是一种最新的先进表示方法,通过利用明确的特性来解决现有缺陷,从而实现三维先验的整合。具体而言,我们的方法采用了渐进优化策略,包括几何优化阶段和外观细化阶段。在几何优化阶段,建立了一个粗略表示,根据三维几何先验和普通的二维 SDS 损失,确保了合理和三维一致的粗略形状。随后,获得的高斯函数经过迭代细化以丰富细节。在这个阶段,我们通过基于紧凑性的致密化增加高斯函数的数量,以增强连续性并提高保真度。通过这些设计,我们的方法可以生成具有精细细节和更准确几何的三维内容。广泛的评估表明了我们的方法的有效性,特别是在捕捉高频组件方面。视频结果可在 https://gsgen3d.github.io 查看。我们的代码可在 https://github.com/gsgen3d/gsgen 获取。
我们提出了一系列支持长上下文的LLM模型,能够有效地处理长达32,768个标记的上下文窗口。我们的模型系列是通过从Llama 2开始的持续预训练构建的,训练序列更长,数据集中长文本的数量增加。我们对语言建模、合成上下文探测任务以及各种研究基准进行了广泛评估。在研究基准上,我们的模型在大多数常规任务上取得了持续改进,在长上下文任务上明显优于Llama 2。值得注意的是,通过一种经济高效的指导调整程序,无需人工标注的长指导数据,70B变体已经能够在一系列长上下文任务中超越gpt-3.5-turbo-16k的整体性能。除了这些结果,我们还对我们方法的各个组成部分进行了深入分析。我们深入研究了Llama的位置编码,并讨论了其在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练课程 - 我们的消融实验表明,在预训练数据集中有大量长文本并不是实现强大性能的关键,我们经验性地验证了长上下文持续预训练相比于从头开始使用长序列进行预训练更加高效且同样有效。
我们的目标是解决动漫行业中一个重要但研究不足的问题,即卡通线描的中间绘制。中间绘制涉及在两幅黑白线描之间生成中间帧,这是一项耗时且昂贵的过程,可以从自动化中受益。然而,现有依赖于匹配和整体栅格图像变形的帧插值方法不适用于线描的中间绘制,并且常常会产生破坏复杂线结构的模糊伪影。为了保留线描的精确性和细节,我们提出了一种新方法,AnimeInbet,将栅格线描几何化为端点图,并将中间绘制任务重新构建为一个具有顶点重新定位的图融合问题。我们的方法能够有效捕捉线描的稀疏性和独特结构,在中间绘制过程中保留细节。这得益于我们的新颖模块,即顶点几何嵌入、顶点对应Transformer、顶点重新定位的有效机制以及可见性预测器。为了训练我们的方法,我们引入了MixamoLine240,一个具有地面真实矢量化和匹配标签的新线描数据集。我们的实验证明,AnimeInbet合成了高质量、干净且完整的中间线描,从数量和质量上优于现有方法,尤其是在有大幅度运动的情况下。数据和代码可在https://github.com/lisiyao21/AnimeInbet获得。
对比语言-图像预训练(CLIP)是一种方法,推动了计算机视觉领域的研究和应用,推动了现代识别系统和生成模型的发展。我们认为CLIP成功的主要因素是其数据,而不是模型架构或预训练目标。然而,CLIP仅提供了有关其数据以及数据收集方式的非常有限信息,导致了一些研究旨在通过使用其模型参数进行过滤来复现CLIP的数据。在这项工作中,我们打算揭示CLIP的数据策划方法,并且在努力使其对社区开放的过程中引入了元数据策划的语言-图像预训练(MetaCLIP)。MetaCLIP利用原始数据池和元数据(从CLIP的概念中派生)产生一个在元数据分布上平衡的子集。我们的实验研究严格隔离了模型和训练设置,仅集中在数据上。MetaCLIP应用于CommonCrawl的4亿图像文本数据对在多个标准基准测试中优于CLIP的数据。在零样本ImageNet分类中,MetaCLIP实现了70.8%的准确率,超过了ViT-B模型上CLIP的68.3%。在保持相同训练预算的情况下扩展到10亿数据时,准确率达到了72.4%。我们的观察结果适用于各种模型大小,例如ViT-H实现了80.5%的准确率,没有任何花哨的技巧。元数据上的策划代码和训练数据分布可在https://github.com/facebookresearch/MetaCLIP 上获得。
基于视觉-语言模型(如CLIP)构建的分类器在广泛的图像分类任务中展现出卓越的零样本性能。先前的研究探讨了不同的自动创建每个类别描述符集的方式,这些方式基于提示模板,包括手动设计的模板、从大型语言模型中获取的模板,以及从随机单词和字符构建的模板。相比之下,从相应编码的类别描述符中派生零样本分类器几乎没有改变,即:将图像分类到使其平均编码的类别描述符与编码图像之间的余弦相似度最大化的类别。然而,当某些描述符与给定图像上的视觉线索更匹配时,将所有类别描述符权重相同可能不是最佳选择。在这项工作中,我们提出了AutoCLIP,一种用于自动调整零样本分类器的方法。AutoCLIP为每个提示模板分配每个图像权重,这些权重是根据推断时类别描述符-图像相似性的统计数据派生的。AutoCLIP是完全无监督的,开销非常低,并且可以轻松地用几行代码实现。我们展示了对于广泛的视觉-语言模型、数据集和提示模板,AutoCLIP始终比基准表现更好,准确率提高了最多3个百分点。
在自动驾驶车辆的安全规划中,可靠地预测道路代理的未来行为是至关重要的组成部分。在这里,我们将连续轨迹表示为离散运动标记的序列,并将多代理运动预测构建为在该领域上的语言建模任务。我们的模型MotionLM具有几个优势:首先,它不需要锚点或显式潜在变量优化来学习多模态分布。相反,我们利用单一标准语言建模目标,最大化对序列标记的平均对数概率。其次,我们的方法绕过事后交互启发式,其中在交互评分之前进行单个代理轨迹生成。相反,MotionLM通过单一自回归解码过程在交互式代理未来上产生联合分布。此外,模型的序列分解使得时间因果条件展开成为可能。所提出的方法在Waymo Open Motion数据集上为多代理运动预测建立了新的最先进性能,位列交互式挑战排行榜第一。
最近在生成图像方面取得的进展带来了能够在未知区域生成高质量、可信图像内容的外部绘制和修复模型,但这些模型产生的内容是虚构的,因为它们缺乏关于真实场景的足够上下文。在这项工作中,我们提出了RealFill,一种新颖的图像补全生成方法,用于填补图像中缺失的区域,并填充应该存在的内容。RealFill是一种生成修复模型,仅使用少量场景的参考图像进行个性化。这些参考图像不必与目标图像对齐,并且可以采用截然不同的视角、光照条件、相机光圈或图像风格拍摄。一旦个性化,RealFill能够以视觉上引人注目的内容完成目标图像,这些内容忠实于原始场景。我们在一个涵盖一系列多样化和具有挑战性场景的新图像补全基准上评估了RealFill,并发现它在很大程度上优于现有方法。更多结果请查看我们的项目页面:https://realfill.github.io
随着大型语言模型(LLMs)的快速发展,迫切需要一个全面的评估套件来评估它们的能力和局限性。现有的LLM排行榜经常引用其他论文中报告的分数,但缺乏一致的设置和提示,这可能会无意中鼓励选择有利的设置和提示以获得更好的结果。在这项工作中,我们介绍了GPT-Fathom,这是一个建立在OpenAI Evals之上的开源且可复现的LLM评估套件。我们系统地评估了10多个领先的LLMs以及OpenAI的传统模型在20多个经过精心策划的基准测试上的表现,涵盖了7个能力类别,所有测试都在对齐的设置下进行。我们对OpenAI早期模型的回顾性研究为我们提供了有关从GPT-3到GPT-4的演进路径的宝贵见解。目前,社区急于了解GPT-3如何逐步改进到GPT-4,包括技术细节,比如添加代码数据是否提高了LLM的推理能力,LLM的哪些方面可以通过SFT和RLHF进行改进,对齐税是多少等。我们的分析回答了许多这类问题,旨在提高先进LLMs的透明度。
我们考虑生成多样且逼真的视频任务,其以各种语义类别的自然音频样本为指导。对于这一任务,视频需要在全局和时间上与输入音频对齐:在全局上,输入音频与整个输出视频在语义上相关联;在时间上,输入音频的每个片段与视频的相应片段相关联。我们利用现有的文本条件视频生成模型和预训练的音频编码器模型。所提出的方法基于轻量级适配器网络,该网络学习将基于音频的表示映射到文本到视频生成模型期望的输入表示。因此,它还实现了基于文本、音频以及我们所能确定的首次同时基于文本和音频的视频生成。我们在三个数据集上广泛验证了我们的方法,展示了音视频样本的显著语义多样性,并进一步提出了一种新颖的评估指标(AV-Align)来评估生成视频与输入音频样本的对齐情况。AV-Align基于检测和比较两种模态中的能量峰值。与最近的最先进方法相比,我们的方法生成的视频在内容和时间轴方面与输入声音更好地对齐。我们还展示了我们的方法生成的视频具有更高的视觉质量和更多样性。
为了让机器人执行各种任务,它们需要一个在语义上丰富、同时紧凑高效以支持任务驱动的感知和规划的世界的3D表示。最近的方法尝试利用大型视觉-语言模型的特征来对3D表示中的语义进行编码。然而,这些方法往往会生成具有每点特征向量的地图,在更大的环境中不易扩展,也不包含环境中实体之间的语义空间关系,这对下游规划是有用的。在这项工作中,我们提出了ConceptGraphs,这是一种用于3D场景的开放词汇图结构表示。ConceptGraphs是通过利用2D基础模型并通过多视图关联将它们的输出融合到3D中构建的。由此产生的表示可以泛化到新颖的语义类别,而无需收集大量的3D数据集或微调模型。我们通过一些通过抽象(语言)提示指定并需要对空间和语义概念进行复杂推理的下游规划任务展示了这种表示的实用性。(项目页面:https://concept-graphs.github.io/ 解释视频:https://youtu.be/mRhNkQwRYnc)
语言模型的成功,尤其是基于Transformer架构的模型,已经渗透到其他领域,催生了在小分子、蛋白质或聚合物上运行的“科学语言模型”。在化学领域,语言模型有助于加速分子发现周期,正如最近在早期药物发现领域取得的有希望的发现所证明的那样。在这里,我们回顾了语言模型在分子发现中的作用,强调了它们在全新药物设计、性质预测和反应化学方面的优势。我们重点介绍了有价值的开源软件资产,从而降低了科学语言建模领域的准入门槛。最后,我们勾勒了一个未来分子设计的愿景,结合了与计算化学工具的访问权限的聊天机器人界面。我们的贡献为对如何利用语言模型加速化学发现感兴趣的研究人员、化学家和人工智能爱好者提供了宝贵资源。
在这项工作中,我们提出了CCEdit,这是一个多功能框架,旨在解决创意和可控视频编辑的挑战。CCEdit满足了各种用户编辑需求,并通过一种创新方法解耦视频结构和外观,从而实现增强的创意控制。我们利用基础的ControlNet架构来保持结构完整性,同时无缝集成了与文本到图像生成的最新个性化技术兼容的可调节时间模块,如DreamBooth和LoRA。此外,我们引入了基于参考条件的视频编辑,使用户能够通过更易管理的关键帧编辑过程精确控制视频编辑。我们进行了大量实验评估,证实了所提出的CCEdit框架的卓越功能和编辑能力。演示视频可在https://www.youtube.com/watch?v=UQw4jq-igN4 上观看。