每日精选AI研究论文及翻译
扩散模型是生成高质量图像和视频的事实标准方法,但由于计算和优化挑战,学习高维模型仍然是一项艰巨任务。现有方法通常通过在像素空间训练级联模型或使用单独训练的自动编码器的下采样潜空间来解决。本文介绍了Matryoshka扩散模型(MDM),这是一个用于高分辨率图像和视频合成的端到端框架。我们提出了一个扩散过程,同时在多个分辨率上对输入进行去噪,并使用NestedUNet架构,其中小尺度输入的特征和参数嵌套在大尺度输入的内部。此外,MDM实现了从低分辨率到高分辨率的渐进式训练计划,这导致了在高分辨率生成方面的显著优化改进。我们在各种基准测试上展示了我们方法的有效性,包括类别条件图像生成、高分辨率文本到图像和文本到视频应用。值得注意的是,我们可以在高达1024x1024像素分辨率下训练单个像素空间模型,展示了在仅包含1200万图像的CC12M数据集上使用强零样本泛化的能力。
大型语言模型(LLMs)在与视觉模型对齐并集成到视觉语言模型(VLMs)中后,可以在图像推理任务中带来令人印象深刻的改进。最近发布的GPT-4V(ison)、LLaVA-1.5等模型证明了这一点。然而,在这些领先水平的LVLMs中,强大的语言先验可能是一把双刃剑:它们可能忽略图像背景,仅仅依赖于(甚至是矛盾的)语言先验进行推理。相比之下,VLMs中的视觉模块较弱,可能导致误导性的视觉表征,然后被LLMs误译为确信的错误。为研究这两种类型的VLM错误,即语言幻觉和视觉错觉,我们创建了HallusionBench,这是一个图像背景推理基准,即使对于GPT-4V和LLaVA-1.5也具有挑战性。我们对HallusionBench中的示例进行了详细分析,为我们提供了关于VLMs错觉或幻觉以及未来如何改进它们的新见解。该基准和代码库将在https://github.com/tianyi-lab/HallusionBench发布。
我们介绍了DEsignBench,这是一个专为视觉设计场景定制的文本到图像(T2I)生成基准。最近的T2I模型如DALL-E 3等已展示出在生成与文本输入密切相关的逼真图像方面的显著能力。虽然创作引人入胜的图像具有不可抗拒的吸引力,但我们的重点不仅限于纯粹的美学享受。我们旨在探究在真实设计环境中利用这些强大模型的潜力。为了实现这一目标,我们开发了DEsignBench,其中包含旨在评估T2I模型在“设计技术能力”和“设计应用场景”上的测试样本。这两个维度分别由一组特定设计类别支持。我们在DEsignBench上探索DALL-E 3以及其他领先的T2I模型,形成了一个全面的视觉画廊,可进行并排比较。在DEsignBench基准测试中,我们对DEsignBench画廊中生成的图像进行人工评估,评估标准包括图像文本对齐、视觉美感和设计创意。我们的评估还考虑了其他专业设计能力,包括文本渲染、布局组成、色彩和谐、3D设计以及媒体风格。除了人工评估外,我们引入了由GPT-4V驱动的第一个自动图像生成评估器。该评估器提供的评分与人类判断高度一致,同时易于复制且成本效益高。高分辨率版本可在以下链接获取:https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
随着大规模视频数据集的可用性和扩散模型的进步,基于文本驱动的视频生成取得了显著进展。然而,现有的视频生成模型通常是在有限数量的帧上进行训练,导致在推断过程中无法生成高保真度的长视频。此外,这些模型仅支持单文本条件,而实际场景通常需要多文本条件,因为视频内容随时间变化。为了解决这些挑战,本研究探讨了将基于文本驱动的能力扩展到多文本条件下生成更长视频的潜力。首先,我们分析了视频扩散模型中初始噪声的影响。然后,在观察到噪声的基础上,我们提出了FreeNoise,这是一种无需调整且高效的范式,可增强预训练视频扩散模型的生成能力,同时保持内容一致性。具体而言,我们不是为所有帧初始化噪声,而是为长距离相关性重新安排一系列噪声,并通过基于窗口的函数对其执行时间注意力。此外,我们设计了一种新颖的运动注入方法,以支持基于多个文本提示生成视频。大量实验证实了我们的范式在扩展视频扩散模型生成能力方面的优越性。值得注意的是,与之前表现最佳的方法相比,该方法带来了额外255%的时间成本,而我们的方法仅产生大约17%的可忽略时间成本。生成的视频样本可在我们的网站上找到:http://haonanqiu.com/projects/FreeNoise.html。
最近通用领域大型语言模型(LLMs)的成功显著改变了自然语言处理范式,朝向跨领域和应用的统一基础模型。本文重点评估迄今为止最具能力的LLM,即GPT-4,在基于文本的放射学报告应用中的性能,与最先进的放射学特定模型进行比较。通过探索各种提示策略,我们评估了GPT-4在各种常见放射学任务上的表现,发现GPT-4在时间句子相似性分类(准确度)和自然语言推理(F_1)方面要么优于,要么与当前SOTA放射学模型持平。对于需要学习数据集特定风格或模式(例如,发现摘要)的任务,GPT-4通过基于示例的提示得到改进,并与监督式SOTA相匹配。我们与一位获得执照的放射科医生进行了广泛的错误分析,结果显示GPT-4在放射学知识方面具有足够水平,仅在需要微妙领域知识的复杂背景下偶尔出现错误。对于发现摘要,发现GPT-4的输出总体上与现有手工撰写的印象相当。
我们介绍 Habitat 3.0:一个用于研究家庭环境中协作人机任务的仿真平台。Habitat 3.0 在三个方面做出了贡献:(1) 准确的人形仿真:解决了对复杂可变形体和外观动作多样性进行建模的挑战,同时确保高仿真速度。(2) 人在环回基础设施:通过鼠标/键盘或虚拟现实界面实现真实人类与模拟机器人的交互,促进了通过人类输入评估机器人策略的过程。(3) 协作任务:研究了两个协作任务,社交导航和社交重排。社交导航研究了机器人在未知环境中定位和跟随人形化身的能力,而社交重排则涉及人形和机器人在重排场景时的协作。这些贡献使我们能够深入研究人机协作的端到端学习和启发式基线,并通过人在环评估它们。我们的实验表明,学习的机器人策略在与未知人形代理和可能展示机器人之前未见行为的人类合作时,能够高效完成任务。此外,我们观察到在协作任务执行过程中出现的新行为,比如当机器人阻碍人形代理时,机器人会让出空间,从而使人形代理有效地完成任务。此外,我们使用人在环工具进行的实验表明,通过与真实人类合作者一起评估,我们的自动化评估可以提供不同策略的相对排序指示。Habitat 3.0 在具身人工智能模拟器中开启了有趣的新功能,我们希望它为具身人类-人工智能交互能力的新领域铺平道路。
大型语言模型(LLMs)经常用于涉及满足复杂用户约束条件或考虑多个方面和标准的多方面语言生成和评估任务。然而,由于模型缺乏连贯性和无法规划和分解问题,它们的性能可能不尽如人意。我们提出了Branch-Solve-Merge(BSM),这是一个用于应对这类具有挑战性的自然语言任务的大型语言模型程序(Schlag等人,2023年)。它由分支、求解和合并模块组成,这些模块使用特定提示对基本LLM进行参数化。这三个模块规划将任务分解为多个并行子任务,独立解决这些子任务,并将解决方案融合到子任务中。我们将我们的方法应用于LLM响应评估和受限文本生成任务,并使用多个LLMs(包括Vicuna、LLaMA-2-chat和GPT-4)评估其有效性。BSM通过提高人-LLM一致性,使每个LLM的评估正确性和一致性提高了高达26%,将长度和成对位置偏差降低了高达50%,并使LLaMA-2-chat在大多数领域能够与GPT-4相匹敌或胜过它。在约束故事生成任务中,BSM提高了故事的连贯性,同时将约束满足度提高了12%。
我们提出了TexFusion(纹理扩散),这是一种新方法,用于合成给定3D几何形状的纹理,利用大规模文本引导的图像扩散模型。与最近利用2D文本到图像扩散模型来提炼3D对象的作品不同,这些作品使用缓慢且脆弱的优化过程,TexFusion引入了一种新的3D一致生成技术,专门设计用于纹理合成,它采用不同2D渲染视图上的常规扩散模型采样。具体而言,我们利用潜在扩散模型,在3D对象的一组2D渲染上应用扩散模型的去噪器,并将不同的去噪预测聚合在共享的潜在纹理地图上。通过在潜在纹理的2D渲染的解码上优化中间神经颜色场,生成最终的RGB纹理。我们对TexFusion进行了彻底验证,并展示我们可以高效生成多样化、高质量和全局一致的纹理。我们仅使用图像扩散模型实现了最先进的文本引导纹理合成性能,同时避免了以往基于提炼的方法的缺陷。文本调节提供了详细控制,我们也不依赖任何真实的3D纹理进行训练。这使得我们的方法多才多艺,适用于广泛的几何和纹理类型。我们希望TexFusion将推动基于人工智能的3D资产纹理化在虚拟现实、游戏设计、模拟等应用中的发展。
文本到图像扩散模型,如Stable-Diffusion和Imagen,已经在MS-COCO和其他生成基准上取得了空前的逼真质量,具有最先进的FID分数。给定一个标题,图像生成需要关于对象结构、风格、视角等属性的细粒度知识。这些信息在文本到图像生成模型中存储在哪里?在我们的论文中,我们解决了这个问题,并了解了关于不同视觉属性对应的知识如何存储在大规模文本到图像扩散模型中。我们为文本到图像模型调整了因果中介分析,并追踪了关于不同视觉属性的知识如何存储在扩散模型的(i)UNet和(ii)文本编码器中的各个(因果)组件中。特别地,我们表明,与生成大型语言模型不同,关于不同属性的知识并不局限于孤立的组件中,而是分布在条件UNet的一组组件中。这些组件集合通常对于不同的视觉属性是不同的。值得注意的是,我们发现,像Stable-Diffusion这样的公共文本到图像模型中的CLIP文本编码器在不同视觉属性之间只包含一个因果状态,这是对应于标题中属性的最后主题标记的第一个自注意层。这与其他语言模型中的因果状态形成鲜明对比,后者通常是中间MLP层。基于对文本编码器中仅有一个因果状态的观察,我们引入了一种快速的、无数据的模型编辑方法Diff-QuickFix,可以有效地编辑文本到图像模型中的概念。Diff-QuickFix可以在不到一秒的时间内编辑(消融)概念,提供了显著的1000倍加速和与现有微调编辑方法相媲美的编辑性能。
利用上下文学习(ICL)进行数据生成,诸如自我指导(Wang等,2023年)或后续的Alpaca(Taori等,2023年)等技术可以在仅有少量人类监督的情况下训练出强大的对话代理。这些方法的一个局限性在于它们依赖非常庞大的语言模型(约1750亿参数),而且这些模型也是专有的且不公开的。在这里,我们探讨将这些技术应用于参数规模更小(约100亿至400亿参数)且具有宽松许可的语言模型的可能性。我们发现自我指导方法在这些规模下效果较差,并提出了新的ICL方法,这些方法基于两个主要思想:(a)对ICL模板进行分类和简化,以使LM更容易学习提示,以及(b)对多个LM输出进行集成,以帮助选择高质量的合成示例。我们的算法利用175个自我指导种子任务,并为需要输入和不需要输入的指令采用独立的流程。通过对不同LM进行实证研究,我们发现:(1)我们提出的方法产生比自我指导更高质量的指导调整数据,(2)它显著提高了普通LM和经过指导调整的LM的性能,(3)较小的经过指导调整的LM生成比其较大的未调整对应物更有用的输出。我们的代码库可在https://github.com/IBM/ensemble-instruct获取。
人类反馈可以防止对话模型中明显有害的话语,但不一定能自动缓解诸如表达对自我保存或权力的渴望等微妙的问题行为。宪法AI提供了一种替代方案,用AI模型仅根据一系列书面原则来替代人类反馈。我们发现这种方法有效地阻止了这些行为的表达。简单原则的成功激励我们思考:模型是否可以仅从单一书面原则中学习一般的道德行为?为了测试这一点,我们进行了实验,使用一个大致陈述为“为人类做最好的事情”的原则。我们发现最大的对话模型可以从这部简短宪法中推广,产生无害助手,而且不表达对权力等特定动机的兴趣。一个一般原则可能部分地避免了针对潜在有害行为的长列表宪法的需求。然而,更详细的宪法仍然可以提高对特定类型危害的精细控制。这表明,一般和具体原则对安全引导AI都有价值。
随着大型语言模型(LLMs)的发展,我们可以解决跨不同领域,包括电子表格在内的越来越复杂的自然语言处理任务。本研究调查了LLMs是否能够生成代码(Excel OfficeScripts,一种用于在Excel中执行许多任务的TypeScript API),以解决通过自然语言用户指令提供的Excel特定任务。为此,我们引入了一个新的大规模基准测试,InstructExcel,通过利用Excel中的“自动化”功能来自动生成OfficeScripts,从而创建了该基准测试。我们的基准测试包括超过10,000个样本,涵盖了2,000个公开可用的Excel电子表格中的170多个Excel操作。在各种零样本和少样本设置下的实验表明,InstructExcel对于像GPT-4这样的最先进模型来说是一个难度较大的基准测试。我们观察到(1)使用GPT-4而不是GPT-3.5,(2)提供更多上下文示例,以及(3)动态提示可以帮助提高在该基准测试上的性能。