每日精选AI研究论文及翻译
我们介绍了LlamaGen,这是一系列新的图像生成模型,将大型语言模型的原始“下一个标记预测”范式应用于视觉生成领域。这是对于普通自回归模型(例如Llama)在视觉信号上没有归纳偏差的情况下,如果适当扩展,是否可以实现最先进的图像生成性能的肯定回答。我们重新审视了图像分词器的设计空间、图像生成模型的可扩展性特性以及它们的训练数据质量。这一探索的结果包括:(1)一个图像分词器,下采样比率为16,重建质量为0.94 rFID,在ImageNet基准测试中的码书使用率为97%。 (2)一系列类别条件的图像生成模型,参数范围从1.11亿到31亿,在ImageNet 256x256基准测试中实现2.18 FID,优于流行的扩散模型,如LDM、DiT。 (3)一个文本条件的图像生成模型,参数为7.75亿,经过在LAION-COCO和高审美质量图像上的两阶段训练,展示了在视觉质量和文本对齐方面的竞争性表现。 (4)我们验证了LLM服务框架在优化图像生成模型推断速度方面的有效性,并实现了326%至414%的加速。我们发布所有模型和代码,以促进视觉生成和多模态基础模型的开源社区。
语言代理通过使用工具精确执行每个步骤来执行复杂任务。然而,大多数现有代理基于专有模型或设计用于针对特定任务,如数学或多跳问题回答。我们介绍了 Husky,一个全面的、开源的语言代理,它学会了对统一的动作空间进行推理,以解决涉及数字、表格和基于知识的推理的各种复杂任务。Husky在两个阶段之间迭代:1)生成下一个行动以解决给定任务,2)使用专家模型执行行动并更新当前解决方案状态。我们确定了一个详尽的行动本体论,用于解决复杂任务,并筛选高质量数据来训练执行这些行动的专家模型。我们的实验表明,Husky在14个评估数据集上优于先前的语言代理。此外,我们介绍了 HuskyQA,一个新的评估集,用于对语言代理进行混合工具推理的压力测试,重点放在检索缺失知识和进行数字推理上。尽管使用了 7B 模型,Husky 在这些任务上与甚至超过了前沿的语言模型,如 GPT-4,展示了我们全面方法在解决复杂推理问题方面的有效性。我们的代码和模型可在 https://github.com/agent-husky/Husky-v1 获取。
在多模态学习方面的进展,特别是在视频理解和生成方面,需要高质量的视频文本数据集来提高模型性能。Vript通过一个精心注释的语料库,包含12K个高分辨率视频,为超过420K个片段提供了详细、密集且类似脚本的字幕,来解决这一问题。每个片段都有大约145个字的字幕,比大多数视频文本数据集长10倍以上。与以往数据集中仅记录静态内容的字幕不同,我们通过不仅记录内容,还记录摄像机操作(包括镜头类型(中景、特写等)和摄像机移动(平移、倾斜等)),将视频字幕增强为视频脚本。通过利用Vript,我们探索了三种训练范式,即将更多文本与视频模态对齐,而不是片段-字幕对。这导致了Vriptor,一个在开源模型中表现最佳的视频字幕模型,性能与GPT-4V可媲美。Vriptor还是一个强大的模型,能够端到端地生成长视频的密集详细字幕。此外,我们引入了Vript-Hard,一个由三个比现有基准更具挑战性的视频理解任务组成的基准:Vript-HAL是第一个评估视频LLM中动作和物体幻觉的基准,Vript-RR将推理与检索相结合,解决长视频问答中问题歧义的基准,Vript-ERO是一个新任务,评估长视频中事件的时间理解,而不是以往作品中短视频中的动作。所有代码、模型和数据集都可在https://github.com/mutonix/Vript找到。
在健康领域,大多数大型语言模型(LLM)研究集中在临床任务上。然而,移动和可穿戴设备很少整合到这些任务中,为个人健康监测提供了丰富的、纵向的数据。在这里,我们介绍了个人健康大型语言模型(PH-LLM),从Gemini进行了微调,用于理解和推理数值时间序列个人健康数据。我们创建和整理了三个数据集,用于测试:1)从睡眠模式、体育活动和生理反应中产生个性化见解和建议,2)专家领域知识,以及3)预测自我报告的睡眠结果。对于第一个任务,我们与领域专家合作设计了857个案例研究,以评估睡眠和健身领域的实际场景。通过对领域特定评分标准的全面评估,我们观察到Gemini Ultra 1.0和PH-LLM在健身方面与专家表现没有统计学上的差异,而专家在睡眠方面仍然优越,但通过对PH-LLM进行微调,在使用相关领域知识和个性化睡眠见解方面取得了显著改进。我们使用多项选择睡眠医学和健身考试评估了PH-LLM的领域知识。PH-LLM在睡眠方面达到了79%,在健身方面达到了88%,超过了一组人类专家的平均分数。最后,我们训练了PH-LLM,以从可穿戴数据的文本和多模态编码表示中预测自我报告的睡眠质量结果,并证明多模态编码是必需的,以匹配专门的判别模型的性能。尽管在安全关键的个人健康领域中需要进一步的开发和评估,但这些结果既展示了Gemini模型的广泛知识和能力,也展示了将生理数据情境化为个人健康应用的好处,正如PH-LLM所做的那样。
基于体积渲染的方法,如NeRF,在从RAW图像合成HDR视图方面表现出色,尤其是在夜间场景中。然而,它们在训练时间长且由于密集采样要求无法实现实时渲染。3D高斯飞溅(3DGS)的出现实现了实时渲染和更快的训练。然而,直接使用3DGS进行基于RAW图像的视图合成具有挑战性,因为其固有缺点:1)在夜间场景中,极低的信噪比导致远景中的结构运动估计不佳;2)球谐函数(SH)函数的有限表示能力不适合RAW线性色彩空间;3)不准确的场景结构妨碍了诸如重新聚焦之类的下游任务。为了解决这些问题,我们提出了LE3D(用3DGS照亮黑暗)。我们的方法提出了锥散射初始化来丰富SfM估计,并用Color MLP替换SH来表示RAW线性色彩空间。此外,我们引入深度失真和近远规范化来提高场景结构的准确性,以用于下游任务。这些设计使LE3D能够进行实时新视图合成、HDR渲染、重新聚焦和色调映射更改。与先前基于体积渲染的方法相比,LE3D将训练时间缩短至1%,并将渲染速度提高了多达4,000倍,适用于2K分辨率图像的FPS。代码和查看器可在https://github.com/Srameo/LE3D 找到。
开发治疗方法是一个漫长且昂贵的过程,需要满足许多不同的标准,而能够加快这一过程的人工智能模型将是无价的。然而,目前大多数人工智能方法只解决一个狭义任务集,通常局限于特定领域。为了弥合这一差距,我们引入了Tx-LLM,这是一个通用的大型语言模型(LLM),从PaLM-2微调而来,编码了关于多种治疗模式的知识。Tx-LLM使用一组包含709个数据集的训练集,涵盖了药物发现流程各个阶段的66项任务。Tx-LLM使用单一权重集同时处理各种化学或生物实体(小分子、蛋白质、核酸、细胞系、疾病)与自由文本交织在一起,使其能够预测广泛相关属性的范围,在66项任务中有43项达到了与最先进性能(SOTA)相竞争的水平,并在22项任务中超过了SOTA。在这些任务中,Tx-LLM特别强大,并且在结合分子SMILES表示和文本的任务中(如细胞系名称或疾病名称),平均超越了最佳表现,这可能是由于预训练期间学习的上下文。我们观察到在涉及小分子和蛋白质任务的多样化药物类型之间存在积极的任务转移证据,并研究了模型大小、领域微调和提示策略对性能的影响。我们相信Tx-LLM代表了向LLM编码生物化学知识迈出的重要一步,并且可能在整个药物发现开发流程中扮演端到端工具的未来角色。
本文介绍了VALL-E 2,这是神经编解码器语言模型的最新进展,标志着零-shot文本转语音合成(TTS)领域的一个里程碑,首次实现了人类水平。基于其前身VALL-E,新版本引入了两项重大改进:重复感知采样通过考虑解码历史中的标记重复来完善原始核采样过程。它不仅稳定了解码过程,还避免了无限循环问题。编码组建模将编解码器代码组织成组,以有效缩短序列长度,不仅提高了推理速度,还解决了长序列建模的挑战。我们在LibriSpeech和VCTK数据集上的实验表明,VALL-E 2在语音稳健性、自然性和说话者相似性方面超越了先前的系统。它是第一个在这些基准上达到人类水平的模型。此外,VALL-E 2始终合成高质量语音,即使是传统上由于复杂性或重复短语而具有挑战性的句子也能如此。这项工作的优势可能有助于有价值的努力,比如为失语症患者或肌萎缩侧索硬化症患者生成语音。VALL-E 2的演示将发布在https://aka.ms/valle2。
基于人类偏好的现代对齐技术,如RLHF和DPO,通常相对于参考模型采用离散正则化来确保训练稳定性。然而,这往往会限制模型在对齐过程中的灵活性,特别是当偏好数据与参考模型之间存在明显的分布差异时。本文关注最近的文本到图像扩散模型的对齐,如稳定扩散XL(SDXL),发现这种“参考不匹配”确实是对齐这些模型的一个重要问题,因为视觉模态的非结构化特性:例如,对特定风格方面的偏好可能很容易引起这种差异。受到这一观察的启发,我们提出了一种新颖且内存友好的扩散模型偏好对齐方法,不依赖于任何参考模型,命名为边际感知偏好优化(MaPO)。MaPO同时最大化了偏好和非偏好图像集之间的可能性边际以及偏好集的可能性,从而同时学习一般风格特征和偏好。为了评估,我们引入了两个新的成对偏好数据集,包括来自SDXL的自动生成图像对,模拟了参考不匹配的各种情景,分别是Pick-Style和Pick-Safety。我们的实验证实,MaPO在Pick-Style和Pick-Safety上可以显著改善对齐,并在与Pick-a-Pic v2一起使用时,超越了基础SDXL和其他现有方法的一般偏好对齐。我们的代码、模型和数据集可通过https://mapo-t2i.github.io 公开获取。
大型语言模型(LLMs)在语言任务上表现出色,但由于其庞大的参数和对密集乘法的依赖,在资源受限设备上部署时面临挑战,导致内存需求高和延迟瓶颈。移位加法重新参数化通过在LLM的注意力和多层感知器(MLP)层中用硬件友好的基元替换昂贵的乘法,提供了一种有前途的解决方案。然而,当前的重新参数化技术要求从头开始训练或完全参数微调以恢复准确性,这对LLMs来说是资源密集型的。为了解决这个问题,我们提出了通过后训练的移位加法重新参数化来加速预训练的LLMs,创建高效的无乘法模型,称为ShiftAddLLM。具体来说,我们将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵。相关的乘法被重新参数化为(1)激活和缩放因子之间的位移和(2)根据二进制矩阵的查询和加法。为了减少准确性损失,我们提出了一种多目标优化方法,以最小化权重和输出激活重新参数化误差。此外,基于各层对重新参数化的敏感性不同,我们开发了一种自动位分配策略,进一步减少内存使用和延迟。在五个LLM系列和八个任务上的实验一致验证了ShiftAddLLM的有效性,相比于最具竞争力的3位和2位量化LLMs,实现了平均困惑度提高5.6和22.7个点,同时延迟相当或更低,并且比原始LLMs减少了80%以上的内存和能量消耗。代码和模型可在https://github.com/GATECH-EIC/ShiftAddLLM获取。
人类如何高效有效地获取图像一直是一个长久存在的问题。一个典型的解决方案是从现有数据库中根据文本查询进行文本到图像检索;然而,有限的数据库通常缺乏创造性。相比之下,最近在文本到图像生成方面取得的突破使得产生花样繁多的视觉内容成为可能,但在合成知识密集型图像方面面临挑战。在这项工作中,我们重新思考了文本到图像生成和检索之间的关系,并在多模态大型语言模型(MLLMs)的背景下提出了一个统一的框架。具体来说,我们首先探索了MLLMs的内在判别能力,并引入了一种生成检索方法,以无需训练的方式进行检索。随后,我们以自回归生成的方式统一了生成和检索,并提出了一个自主决策模块,以选择在生成和检索的图像中最匹配的一个作为对文本查询的响应。此外,我们构建了一个名为TIGeR-Bench的基准,包括创造性和知识密集型领域,以规范统一的文本到图像生成和检索的评估。在TIGeR-Bench和两个检索基准,即Flickr30K和MS-COCO上的广泛实验结果显示了我们提出的方法的优越性和有效性。
现有的可重光视图合成方法是基于逆渲染的,利用一组对象在未知光照下的图像来恢复一个能够在目标照明下从新视点渲染的三维表示。这些方法尝试分离解释输入图像的对象几何、材质和光照。此外,这通常涉及通过可微分的蒙特卡洛渲染进行优化,这种方法脆弱且计算成本高昂。在这项工作中,我们提出了一种更简单的方法:首先使用一个以光照为条件的图像扩散模型对每个输入图像进行重光,然后利用这些重光图像重建一个神经辐射场(NeRF),从中我们可以在目标光照下渲染新视图。我们展示了这种策略出人意料地具有竞争力,并在多个重光基准测试中取得了最先进的结果。请访问我们的项目页面:https://illuminerf.github.io/。
将大型潜在扩散模型(LDMs)提炼成便于快速采样的模型正吸引着越来越多的研究兴趣。然而,现有方法大多面临一个困境,要么(i)依赖于多个针对不同采样预算的个别提炼模型,要么(ii)在有限的(例如2-4)和/或中等的(例如5-8)采样步骤下牺牲生成质量。为了解决这些问题,我们将最近的多步一致性提炼(MCD)策略扩展到代表性的LDMs,建立了适用于低成本高质量图像合成的多步潜在一致性模型(MLCMs)方法。MLCM作为一个统一模型适用于各种采样步骤,这得益于MCD的潜力。我们进一步采用渐进式训练策略来增强分段间的一致性,以提升少步生成的质量。我们将教师模型采样轨迹的状态作为MLCMs的训练数据,以提高高质量训练数据的要求,并弥合提炼模型的训练和推断之间的差距。MLCM与偏好学习策略兼容,以进一步提升视觉质量和美学吸引力。从经验上看,MLCM可以在仅2-8个采样步骤下生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准测试中,从SDXL提炼的MLCM在仅4步的情况下获得了33.30的CLIP分数,6.19的美学分数和1.20的图像奖励,大大超越了4步LCM [23]、8步SDXL-Lightning [17]和8步HyperSD [33]。我们还展示了MLCM在可控生成、图像风格转移和中文到图像生成等应用中的多功能性。
我们提出了ExtraNeRF,这是一种用于外推神经辐射场(NeRF)处理视图范围的新方法。我们的主要想法是利用NeRF来建模特定场景的细节,并利用扩散模型来对观测数据之外的情况进行外推。关键要素是跟踪可见性,以确定场景的哪些部分尚未被观察到,并专注于使用扩散模型一致地重建这些区域。我们的主要贡献包括一个基于可见性的扩散式修补模块,该模块在输入图像上进行微调,产生一个具有中等质量(通常模糊)修补区域的初始NeRF,然后通过第二个扩散模型对输入图像进行训练,以一致地增强修补图像,显著提高清晰度。我们展示了高质量的结果,能够在少量(通常为六个或更少)输入视图之外进行外推,有效地超越NeRF的输出,以及修补原始观察体积内新出现的未遮挡区域。我们在定量和定性上与相关工作进行了比较,并展示了相比先前技术的显著改进。
我们提出了一种新颖的方法,用于从多视图图像进行三维网格重建。我们的方法受到大型重建模型(如LRM)的启发,该模型使用基于Transformer的三面生成器和在多视图图像上训练的神经辐射场(NeRF)模型。然而,在我们的方法中,我们引入了几项重要修改,使我们能够显著提高三维重建质量。首先,我们检查了原始LRM架构并发现了一些缺点。随后,我们对LRM架构进行了相应修改,这些修改导致了改进的多视图图像表示和更高效的训练。其次,为了改善几何重建并实现在完整图像分辨率下的监督,我们以可微分的方式从NeRF场中提取网格,并通过网格渲染微调NeRF模型。这些修改使我们能够在2D和3D评估指标上实现最先进的性能,例如在Google扫描对象(GSO)数据集上达到28.67的峰值信噪比(PSNR)。尽管取得了这些优越的结果,我们的前馈模型仍然难以重建复杂的纹理,如资产上的文本和肖像。为了解决这个问题,我们引入了一种轻量级的逐实例纹理细化过程。该过程通过在网格表面上使用输入的多视图图像,仅用4秒钟的时间微调三面表示和NeRF颜色估计模型。这种细化将PSNR提高到29.79,并实现了对复杂纹理(如文本)的忠实重建。此外,我们的方法还支持各种下游应用,包括文本或图像到三维生成。