每日精选AI研究论文及翻译
大规模文本到图像扩散模型展现出在生成高质量图像方面的出色能力。然而,将这些模型应用于视频领域时,确保视频帧之间的时间一致性仍然是一个艰巨的挑战。本文提出了一种新颖的零样本文本引导视频到视频翻译框架,以将图像模型调整到视频中。该框架包括两个部分:关键帧翻译和完整视频翻译。第一部分使用经过调整的扩散模型生成关键帧,应用分层交叉帧约束以强制形状、纹理和颜色的连贯性。第二部分通过时间感知补丁匹配和帧混合将关键帧传播到其他帧。我们的框架以较低成本(无需重新训练或优化)实现了全局风格和局部纹理的时间一致性。该适应性与现有图像扩散技术兼容,使我们的框架能够利用它们,例如使用LoRA自定义特定主题,并使用ControlNet引入额外的空间引导。大量实验结果表明,我们提出的框架在呈现高质量和时间连贯的视频方面比现有方法更有效。
我们提出了广义LoRA(GLoRA),这是一种用于通用参数高效微调任务的先进方法。在增强低秩适应性(LoRA)的基础上,GLoRA采用了一个广义提示模块来优化预训练模型的权重并调整中间激活,从而在不同任务和数据集上提供更灵活和强大的能力。此外,GLoRA通过采用可扩展的、模块化的、逐层结构搜索来实现高效的参数适应,学习每一层的单独适配器。源自统一的数学公式,GLoRA展现出强大的迁移学习、少样本学习和领域泛化能力,通过在权重和激活上增加额外维度来适应新任务。全面的实验证明,GLoRA在自然、专业和结构化基准测试中胜过所有先前方法,在各种数据集上以更少的参数和计算实现了更高的准确性。此外,我们的结构重参数化设计确保GLoRA不会产生额外的推断成本,使其成为资源有限应用的实用解决方案。代码可在以下链接找到:https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA。
本文关注人工智能(AI)如何辅助用户在创作动漫肖像时将粗糙草图转换为动漫肖像的过程。输入是一系列逐渐完善的手绘草图,输出是一系列与输入草图对应的高质量动漫肖像,作为指导。尽管最近的生成对抗网络(GANs)可以生成高质量图像,但由于条件图像生成中存在的问题,从完成度较低的草图生成高质量图像是一个具有挑战性的问题。即使使用最新的草图到图像(S2I)技术,对于动漫肖像,由于动漫风格往往比写实风格更抽象,仍然难以从不完整的粗糙草图中创建高质量图像。为了解决这个问题,我们采用了StyleGAN的潜在空间探索和两阶段训练策略。我们认为手绘草图的输入笔画对应于StyleGAN的潜在结构编码中与边缘信息相关的属性,并将笔画与这些属性之间的匹配称为笔画级解缠。在第一阶段,我们使用预训练的StyleGAN模型作为教师编码器训练了一个图像编码器。在第二阶段,我们模拟了生成图像的绘制过程,无需任何额外数据(标签),并训练了用于生成高质量肖像图像的草图编码器,使其特征与教师编码器中解缠表示对齐。我们通过定性和定量评估验证了所提出的渐进式S2I系统,并成功从不完整的渐进草图中生成了高质量动漫肖像。我们的用户研究证明了该系统在动漫风格艺术创作辅助方面的有效性。
我们提出了WebGLM,这是一个基于通用语言模型(GLM)的增强型问答系统,旨在增强预训练的大型语言模型(LLM)的网络搜索和检索能力,同时适用于实际部署。为实现这一目标,我们开发了WebGLM,并采用LLM增强的检索器、引导式生成器和人类偏好感知评分器等策略。具体来说,我们识别并解决了WebGPT(OpenAI)的局限性,使WebGLM在准确性、效率和成本效益方面具有优势。此外,我们提出了评估增强型网络问答系统的系统性标准。我们进行了多维人类评估和定量消融研究,结果表明所提出的WebGLM设计优于现有系统。在人类评估中,具有100亿参数GLM(10B)的WebGLM表现优于相似规模的WebGPT(13B),甚至与WebGPT(175B)相媲美。代码、演示和数据可在https://github.com/THUDM/WebGLM找到。
在网络图像文本对上进行对比预训练是视觉主干中最流行的大规模预训练策略之一,尤其是在大型多模态模型的背景下。与此同时,在这种类型的数据上进行图像字幕生成通常被认为是一种较差的预训练策略。本文对这两种预训练策略进行了公平比较,精心匹配训练数据、计算和模型容量。使用标准的编码器-解码器Transformer,我们发现仅进行字幕生成就能取得令人惊讶的效果:在分类任务上,字幕生成产生的视觉编码器与对比预训练编码器相媲美,同时在视觉与语言任务上超越了它们。我们进一步分析了模型架构和规模,以及预训练数据对表示质量的影响,发现字幕生成在这些方面表现出相同或更好的扩展行为。总体而言,我们的结果表明,普通的图像字幕生成比以前认为的更为强大作为一种预训练策略。
大型语言模型(LLMs)展现出上下文学习能力,使同一模型能够在没有任何特定任务训练的情况下执行多个任务。相比之下,传统的适应方法,如微调,会为每个特定任务修改基础模型。然而,上下文学习在面对相同示例时始终表现不佳,甚至不如特定任务调整方法。虽然大多数现有方法(例如提示工程)侧重于LLM学习的表示以弥补这一性能差距,但我们的分析实际上揭示了LLM表示包含足够信息以进行良好预测。因此,我们关注LLM的推理能力,并证明这一性能差距存在是因为它们无法执行简单的概率推理任务。这引发了一个有趣的问题:LLMs是否真的能够学会以任务无关的方式进行推理?我们肯定回答了这个问题,并提出了TART,通过使用经过合成训练的基于Transformer的推理模块,通用地提高LLM的推理能力。TART以任务无关的方式训练这个推理模块,仅使用合成逻辑回归任务,并将其与任意实际预训练模型组合,无需额外训练。通过单个推理模块,TART提高了不同模型系列(GPT-Neo、Pythia、BLOOM)、模型规模(100M至6B)、任务(14个自然语言处理二元分类任务)甚至不同模态(音频和视觉)的性能。此外,在RAFT基准测试中,TART提高了GPT-Neo(125M)的性能,使其超越了BLOOM(176B),并且与GPT-3(175B)的性能相差不到4%。我们的代码和模型可在 https://github.com/HazyResearch/TART 找到。
文本到三维建模通过将生成式文本到图像模型与图像到三维的方法(如神经辐射场)相结合,取得了令人振奋的进展。DreamFusion 最近取得了高质量的结果,但需要通过冗长的逐提示优化来创建三维对象。为解决这一问题,我们通过在统一模型上同时训练多个提示,而不是分开训练,来分期偿还文本提示的优化。通过这种方式,我们在整个提示集合上共享计算,在比逐提示优化更短的时间内进行训练。我们的框架 - 分期偿还文本到三维(ATT3D)- 可以实现提示之间的知识共享,以便泛化到未见过的设置,并在文本之间实现平滑插值,用于新颖资产和简单动画。
大型语言模型(LLMs)已经展示了执行高级规划的潜力。然而,对于LLMs来说,理解低级指令,比如关节角度目标或电机扭矩,仍然是一个挑战。本文提出了一种方法,利用脚底接触模式作为一个接口,连接自然语言中的人类指令和一个输出这些低级指令的运动控制器。这导致了一个针对四足机器人的交互式系统,允许用户灵活地设计多样化的运动行为。我们提出了一个LLM提示设计,一个奖励函数,以及一种使控制器接触模式的可行分布的方法。结果是一个能够实现多样化运动模式的控制器,可以转移到真实机器人硬件上。与其他设计选择相比,所提出的方法在预测正确接触模式方面拥有超过50%的成功率,并且可以解决30项任务中的额外10项任务。我们的项目网站是:https://saytap.github.io。
在这项工作中,我们旨在从大型地标的互联网照片重建一个能够以独立控制视点、照明和时间的方式呈现逼真照片的时变3D模型。核心挑战有两个。首先,不同类型的时间变化,如照明和场景本身的变化(比如用另一幅涂鸦作品替换一幅),在图像中交织在一起。其次,场景级的时间变化通常是离散且零星地发生,而非连续的。为了解决这些问题,我们提出了一种新的场景表示,配备了一种新颖的时间阶跃函数编码方法,可以将离散的场景级内容变化建模为随时间分段恒定的函数。具体而言,我们将场景表示为一个带有每个图像照明嵌入的时空辐射场,其中通过一组学习到的阶跃函数来编码随时间变化的场景变化。为了促进我们从互联网图像中进行年代重建的任务,我们还收集了一个展示随时间发生各种变化的四个场景的新数据集。我们展示了我们的方法在这个数据集上展现出最先进的视图合成结果,同时实现了对视点、时间和照明的独立控制。
在科学文件中,如果数字数据没有准确转录,科学家就无法得出准确的结论。不幸的是,将数字数据从一份文件复制到另一份文件的过程容易出现人为错误。在本文中,我们提出通过自动表验证(AutoTV)这一新颖任务来解决这一挑战,其目标是通过交叉引用引用来源来验证表格中数字数据的准确性。为支持这一任务,我们提出了一个新的基准,arXiVeri,其中包括从arXiv开放获取的学术论文中提取的表格数据。我们引入了评估表验证器性能的指标,重点关注两个关键领域:(i)表匹配,旨在识别引用文档中对应于目标表的源表,以及(ii)单元匹配,旨在准确定位目标表和源表之间的共享单元,并识别其行和列索引。通过利用现代大型语言模型(LLMs)的灵活能力,我们提出了表验证的简单基准。我们的研究结果突显了这一任务的复杂性,即使对于像OpenAI的GPT-4这样的最先进的LLMs也是如此。代码和基准将公开提供。
大型语言模型(LLMs)已被应用于语音领域,通常由于语音和语言表示之间的不对齐而导致性能下降。为了弥合这一差距,我们提出了一种联合语音和语言模型(SLM),使用Speech2Text适配器,将语音映射到文本令牌嵌入空间,避免了语音信息的丢失。此外,通过基于CTC的空白过滤,我们可以将语音序列长度减少到文本的长度。在语音MultiWoz数据集(DSTC11挑战)中,SLM大大提高了对话状态跟踪(DST)性能(从24.7%提高到28.4%的准确率)。为了解决稀有实体的错误,我们使用Speech2Entity检索器增强了SLM,该检索器使用语音检索相关实体,然后将它们作为前缀添加到原始SLM输入中。通过这种检索增强的SLM(ReSLM),DST性能提升至34.6%的准确率。此外,将ASR任务与对话理解任务相结合,将ASR性能从9.4%提高到8.5%的词错误率(WER)。
我们提出了一种基于评分的新方法,用于生成以原子密度在规则网格上表示的3D分子。首先,我们训练了一个去噪神经网络,该网络学习将具有噪声分子的平滑分布映射到真实分子的分布。然后,我们遵循神经经验贝叶斯框架[Saremi和Hyvarinen,2019],并分两步生成分子:(i)通过欠阻尼朗之万格维金马尔可夫链蒙特卡洛从平滑分布中对噪声密度网格进行采样,(ii)通过一步去噪处理从噪声网格中恢复“干净”的分子。我们的方法VoxMol以一种基本不同于当前技术水平(即应用于原子点云的扩散模型)的方式生成分子。它在数据表示、噪声模型、网络架构和生成建模算法方面有所不同。VoxMol在无条件的3D分子生成方面取得了与技术水平相媲美的结果,同时训练更简单,生成速度更快。
我们认为“相似性”有许多概念,模型应该能够动态地适应这些概念,就像人类一样。这与大多数表示学习方法相反,无论是监督学习还是自监督学习,这些方法学习一个固定的嵌入函数,因此隐含地假设了单一的相似性概念。例如,在ImageNet上训练的模型偏向于对象类别,而用户可能希望模型专注于颜色、纹理或场景中的特定元素。在本文中,我们提出了GeneCIS('genesis')基准测试,该测试衡量了模型适应各种相似性条件的能力。扩展先前的工作,我们的基准测试仅设计用于零样本评估,因此考虑了一个开放的相似性条件集。我们发现,基于强大的CLIP模型的基线在GeneCIS上表现不佳,并且基准测试的性能与ImageNet准确性之间的相关性很弱,这表明简单地扩展现有方法并不有效。我们进一步提出了一种简单、可扩展的解决方案,基于自动从现有图像-标题数据集中挖掘信息。我们发现我们的方法在GeneCIS上比基线提供了显著提升,并进一步改善了相关图像检索基准测试的零样本性能。事实上,尽管进行了零样本评估,我们的模型在MIT-States上超过了最先进的监督模型。项目页面位于https://sgvaze.github.io/genecis/。
我们介绍了Galactic,这是一个用于室内环境中机器人移动操作的大规模模拟和强化学习(RL)框架。具体来说,一个Fetch机器人(配备移动底座、7DoF机械臂、RGBD摄像头、自我运动和板载传感器)被放置在家庭环境中,并被要求重新排列物体 - 通过导航到一个物体,捡起它,导航到目标位置,然后将物体放置在目标位置上。 Galactic速度很快。在模拟速度方面(渲染+物理),Galactic在8-GPU节点上实现了超过421,000步/秒(SPS),比Habitat 2.0(7699 SPS)快54倍。更重要的是,Galactic被设计为优化整个渲染+物理+RL相互作用,因为相互作用中的任何瓶颈都会减慢训练速度。在模拟+RL速度方面(渲染+物理+推理+学习),Galactic实现了超过108,000 SPS,比Habitat 2.0(1243 SPS)快88倍。 这些巨大的加速不仅大大缩短了现有实验的挂钟训练时间,还开启了前所未有的新实验规模。首先,Galactic可以在不到16分钟内将移动拾取技能训练到>80%的准确率,这比在Habitat 2.0中训练相同技能需要超过24小时快了100倍。其次,我们使用Galactic在46小时内执行了迄今为止规模最大的重新排列实验,使用了5B步的经验,相当于20年的机器人经验。这种扩展导致了一个由任务不可知组件组成的单一神经网络在几何目标重新排列中实现了85%的成功率,而在Habitat 2.0中对于相同方法报告的成功率为0%。代码可在github.com/facebookresearch/galactic找到。
目前用于捕获具有密集语义对应关系的3D头部数据集的方法速度较慢,通常通过两个独立步骤来解决问题;即多视图立体(MVS)重建,然后是非刚性配准。为了简化这一过程,我们引入了TEMPEH(Towards Estimation of 3D Meshes from Performances of Expressive Heads),可以直接从经过校准的多视图图像中推断具有密集对应关系的3D头部。通常,注册3D扫描数据集需要手动参数调整,以找到准确拟合扫描表面并对扫描噪声和异常值具有鲁棒性之间的平衡。相反,我们建议在训练TEMPEH的同时联合注册3D头部数据集。具体来说,在训练过程中,我们最小化了一种常用于表面配准的几何损失,有效地利用TEMPEH作为正则化器。我们的多视图头部推断基于体积特征表示,利用摄像机校准信息从每个视图中采样和融合特征。为了考虑部分遮挡和大范围捕捉体积以实现头部运动,我们使用了视图和表面感知特征融合,以及基于空间变换器的头部定位模块。在训练过程中,我们使用原始MVS扫描作为监督,但一旦训练完成,TEMPEH可以直接预测具有密集对应关系的3D头部,而无需扫描。预测一个头部大约需要0.3秒,中位重建误差为0.26毫米,比当前最先进技术低64%。这使得可以高效捕获包含多人和多样面部动作的大型数据集。代码、模型和数据可在https://tempeh.is.tue.mpg.de 上公开获取。
电话录音的转录在销售、客户服务、医疗保健和执法等各个领域具有重要价值。然而,对这些录音对话的分析可能是一个费时费力的过程,特别是在处理延续或多方面对话时。在这项工作中,我们提出了一种新颖的方法,即GPT蒸馏通话分割和标记(GPT-Calls),用于高效准确地进行通话分割和主题提取。GPT-Calls由离线和在线阶段组成。离线阶段仅应用于给定主题列表一次,涉及使用GPT模型为每个主题生成一组合成句子的分布并提取锚定向量。在线阶段应用于每通电话,评分转录对话与离线阶段找到的主题锚定之间的相似性。然后,对相似性评分进行时间域分析,将话语分组为段落并用主题标记。所提出的范式提供了一种准确高效的通话分割和主题提取方法,无需标记数据,因此是一种适用于各个领域的通用方法。我们的算法在Dynamics 365销售对话智能生产环境中运行,我们的研究基于从各个Dynamics 365销售租户收集的真实销售对话。
随着当今在线和离线数据数量的剧增,推荐系统变得尤为重要,帮助用户找到符合其兴趣的物品。当存在社交网络信息时,有一些方法利用这些信息来提供更好的推荐,然而这些方法通常具有复杂的架构和训练程序,显得笨重。此外,许多现有方法使用图神经网络,这些网络训练起来往往很困难。为了解决这个问题,我们提出了基于社交感知的时间因果解码推荐系统(STUDY)。STUDY通过修改后的Transformer解码器网络,在社交网络图中对相邻用户组进行联合推断,只需进行一次前向传播。我们在基于学校教育内容的场景中测试了我们的方法,利用课堂结构定义社交网络。我们的方法在保持单一同质网络设计简单性的同时,胜过了社交和顺序方法,模拟了数据中的所有交互。我们还进行了消融研究,以了解我们性能提升的驱动因素,并发现我们的模型依赖于利用有效模拟用户行为相似性的社交网络结构。