每日精选AI研究论文及翻译
预训练语言模型支撑着多种AI应用,但其高昂的训练计算成本限制了普及性。诸如BLOOM和StarCoder等项目旨在推动预训练模型的民主化,促进社区协作开发。然而,现有模型面临诸多挑战:多语言能力有限、持续预训练导致灾难性遗忘、从头开始预训练计算成本高昂,以及需遵守AI安全与开发法规。本文介绍Aurora-M,一个拥有150亿参数的多语言开源模型,训练数据涵盖英语、芬兰语、印地语、日语、越南语及代码。Aurora-M从StarCoderPlus基础上持续预训练,额外处理了4350亿个标记,总训练标记数超过2万亿。它是首个基于人工审查安全指令进行微调的开源多语言模型,不仅符合传统的红队测试考量,更契合拜登-哈里斯行政命令中关于人工智能安全、可靠和可信开发与使用的具体关切。Aurora-M在多种任务和语言中经过严格评估,展现出对灾难性遗忘的抵抗力,并在多语言环境下特别是在安全评估方面优于其他模型。为推动负责任的开源大型语言模型(LLM)开发,Aurora-M及其变体已在https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 发布。
当前文本到图像(T2I)模型的一个关键不足之处在于,它们无法始终如一地生成忠实遵循文本提示中指定空间关系的图像。本文对此局限性进行了全面探讨,并开发了数据集与方法,以达到最先进的性能水平。首先,我们发现现有的视觉-语言数据集在表现空间关系方面尚显不足;为缓解这一瓶颈,我们通过重新标注来自四个广泛使用的视觉数据集中的600万张图像,创建了首个专注于空间关系的大规模数据集SPRIGHT。通过三重评估与分析流程,我们发现SPRIGHT在捕捉空间关系方面显著优于现有数据集。为展示其效能,我们仅利用了SPRIGHT的约0.25%数据,便在生成空间准确图像方面实现了22%的提升,同时FID和CMMD评分也有所提高。其次,我们发现,在包含大量对象的图像上进行训练,能显著提升空间一致性。特别地,我们通过对少于500张图像进行微调,在T2I-CompBench上达到了0.2133的空间评分,刷新了最先进记录。最后,通过一系列控制实验和消融分析,我们记录了多个发现,相信这些发现将有助于加深对影响文本到图像模型空间一致性因素的理解。我们公开发布了数据集和模型,以促进该领域的进一步研究。
从文本提示或单张图像生成3D内容的质量和速度近期取得了显著进展。其主流范式之一是先生成一致的多视角图像,随后进行稀疏视角重建。然而,由于直接变形网格表示以接近目标拓扑结构的挑战,大多数方法在稀疏视角重建过程中学习隐式表示(如NeRF),并通过后处理提取获得目标网格。尽管隐式表示能有效建模丰富的3D信息,但其训练通常需要较长的收敛时间。此外,从隐式场进行后提取操作也会导致不理想的视觉伪影。本文提出FlexiDreamer,一种新颖的单图转3D生成框架,以端到端方式重建目标网格。通过利用一种名为FlexiCubes的灵活基于梯度的提取方法,我们的方法避免了后处理带来的缺陷,并促进了目标网格的直接获取。此外,我们引入了一种多分辨率哈希网格编码方案,该方案逐步激活FlexiCubes中隐式场的编码层级,以帮助捕捉每一步优化的几何细节。值得注意的是,FlexiDreamer在单张NVIDIA A100 GPU上仅需约1分钟即可从单视角图像恢复密集的3D结构,显著优于以往的方法。
从用户指定条件生成3D场景,为减轻3D应用中的制作负担提供了有前景的途径。以往研究因控制条件有限,实现理想场景需付出巨大努力。我们提出一种在多模态条件下控制并生成3D场景的方法,利用局部图像、俯视图表示的布局信息及文本提示。结合这些条件生成3D场景面临以下重大挑战:(1)创建大型数据集,(2)多模态条件交互的考量,(3)布局条件的领域依赖性。我们将3D场景生成过程分解为从给定条件生成2D图像和从2D图像生成3D场景。2D图像生成通过微调预训练的文本到图像模型,使用少量局部图像和布局的人工数据集实现;3D场景生成则通过布局条件下的深度估计和神经辐射场(NeRF)实现,从而避免创建大型数据集。采用360度图像的通用空间信息表示,有助于考虑多模态条件交互并减少布局控制的领域依赖性。实验结果从定性和定量两方面证明,所提方法能根据多模态条件在室内外多样领域生成3D场景。
生成模型如今被广泛应用于图形设计师和艺术家的创作中。先前的研究已表明,这些模型在生成过程中会记忆并经常复制其训练数据中的内容。因此,随着这些模型的普及度增加,每次在专业用途上使用生成图像之前,进行数据库搜索以确定图像属性是否源自特定训练数据变得尤为重要。现有的工具主要集中于检索语义内容相似的图像。与此同时,许多艺术家对文本到图像模型中的风格复制问题表示关切。我们提出了一种理解和提取图像风格描述符的框架。该框架包含一个新数据集,该数据集的构建基于以下见解:风格是图像的主观属性,它捕捉了包括但不限于颜色、纹理、形状等因素之间的复杂而有意义的交互。我们还提出了一种方法,用于提取风格描述符,这些描述符可用于将生成图像的风格归因于文本到图像模型的训练数据集中的图像。我们在多种风格检索任务中展示了有前景的结果。此外,我们还对Stable Diffusion模型中的风格归因和匹配进行了定量和定性的分析。代码和相关资源可在https://github.com/learn2phoenix/CSD获取。
我们推出了CosmicMan,这是一种专为生成高保真人类图像而设计的文本到图像基础模型。与当前陷入人类图像质量低下和图文不匹配困境的通用基础模型不同,CosmicMan能够生成具有细致外观、合理结构和精确图文对齐的逼真人类图像,且这些图像与详细的密集描述高度一致。CosmicMan成功的核心在于对数据和模型的新思考与新视角:(1) 我们发现,数据质量和可扩展的数据生产流程对于训练模型的最终结果至关重要。因此,我们提出了一种新的数据生产范式——Annotate Anyone,它作为一个持续的数据飞轮,随着时间的推移以准确且成本效益高的方式生成高质量数据。基于此,我们构建了一个大规模数据集,CosmicMan-HQ 1.0,包含600万张高质量的真实世界人类图像,平均分辨率为1488x1255,并附有从1.15亿个多样粒度属性中提取的精确文本注释。(2) 我们认为,专为人类设计的文本到图像基础模型必须实用——易于集成到下游任务中,同时能够有效生成高质量的人类图像。因此,我们提出以分解的方式建模密集文本描述与图像像素之间的关系,并介绍了Decomposed-Attention-Refocusing(Daring)训练框架。该框架无缝分解了现有文本到图像扩散模型中的交叉注意力特征,并通过不增加额外模块的方式强化注意力重聚焦。通过Daring,我们展示了将连续文本空间显式离散化为与人体结构对齐的几个基本组,是轻松解决图文不匹配问题的关键。
一个理想的密集视频字幕生成模型——即在视频中时间定位并预测字幕——应能处理长视频输入,生成丰富、详细的文本描述,并在处理完整视频之前输出结果。然而,当前最先进的模型仅处理固定数量的下采样帧,并在看完整个视频后进行一次全面预测。我们提出了一种流式密集视频字幕生成模型,该模型包含两个创新组件:首先,我们提出了一种基于聚类输入令牌的新型记忆模块,该模块能处理任意长度的视频,因为记忆模块的大小是固定的。其次,我们开发了一种流式解码算法,使模型能在处理完整视频之前进行预测。我们的模型实现了这一流式处理能力,并在三个密集视频字幕生成基准测试(ActivityNet、YouCook2 和 ViTT)上显著提升了最先进水平。我们的代码已在 https://github.com/google-research/scenic 发布。
我们提出了条件感知神经网络(Condition-Aware Neural Network,简称CAN),这是一种为图像生成模型添加控制的新方法。与先前的条件控制方法并行,CAN通过动态操纵神经网络的权重来控制图像生成过程。这一目标通过引入一个条件感知权重生成模块来实现,该模块根据输入条件为卷积/线性层生成条件权重。我们在ImageNet上的类别条件图像生成和COCO上的文本到图像生成任务中测试了CAN。CAN持续为扩散变换器模型带来显著改进,包括DiT和UViT。特别是,结合EfficientViT(CaT)的CAN在ImageNet 512x512上达到了2.78的FID,超越了DiT-XL/2,同时每个采样步骤所需的MACs减少了52倍。
偏好建模技术,如直接偏好优化(DPO),已显示出在增强大型语言模型(LLM)泛化能力方面的有效性。然而,在涉及视频指令跟随的任务中,提供信息反馈,尤其是检测生成响应中的幻觉,仍然是一个重大挑战。先前研究探索了使用大型多模态模型(LMMs)作为奖励模型来指导偏好建模,但其评估生成响应与相应视频事实一致性的能力尚未得到确切证实。本文引入了一种新颖框架,利用详细的视频字幕作为视频内容的代理,使语言模型能够将此信息作为评分视频问答(QA)预测的支持证据。我们的方法展示了与OpenAI GPT-4V模型奖励机制的稳健一致性,该机制直接以视频帧为输入。此外,我们表明,通过DPO应用这种定制奖励显著提升了视频LMMs在视频QA任务中的表现。
近年来,大型语言模型(LLMs)的进步彻底改变了自然语言处理领域,其应用范围逐步扩展至多模态感知与生成。然而,将听觉能力有效融入LLMs面临重大挑战,尤其是在跨不同情境的泛化能力和执行复杂听觉任务方面。本文中,我们提出了WavLLM,一种具备双编码器和提示感知LoRA权重适配器的鲁棒自适应语音大型语言模型,通过两阶段课程学习方法进行优化。借助双编码器,我们分离了不同类型的语音信息,使用Whisper编码器处理语音的语义内容,而WavLM编码器则捕捉说话者身份的独特特征。在课程学习框架下,WavLLM首先通过优化混合基础单一任务构建其基础能力,随后在更复杂的任务上进行高级多任务训练,如基础任务的组合。为提升模型对不同任务和指令的适应性与遵从性,我们在第二阶段高级多任务训练中引入了提示感知LoRA权重适配器。我们在通用语音基准测试中验证了所提出的模型,涵盖ASR、ST、SV、ER等任务,并应用于如高考英语听力理解集等专业数据集进行SQA和语音链式思维(CoT)评估。实验表明,所提出的模型在相同模型规模下,在多种语音任务中达到了最先进水平,展示了使用CoT方法执行复杂任务的强大泛化能力。此外,我们的模型无需专门训练即可成功完成高考任务。代码、模型、音频及高考评估集可通过aka.ms/wavllm访问。
视觉丰富的文档(VRD)利用视觉特征与语言线索来传播信息。训练一个从文档中识别命名实体的自定义提取器,需要大量目标文档类型的实例,这些实例需在文本和视觉模态上进行标注。这在企业场景中是一个昂贵的瓶颈,我们希望以可扩展的方式为成千上万种不同的文档类型训练自定义提取器。在目标文档类型的未标注实例上预训练提取器模型,随后在人工标注的实例上进行微调,在这些场景中并不适用,因为它超出了为提取器分配的最大允许训练时间。本文提出了一种噪声感知训练方法(Noise-Aware Training,简称NAT)来解决这一问题。NAT不依赖昂贵的人工标注文档,而是利用弱标注文档以可扩展的方式训练提取器。为避免因噪声、弱标注样本导致的模型质量下降,NAT估算每个训练样本的置信度,并在训练过程中将其作为不确定性度量纳入考量。我们使用NAT训练了多个最先进的提取器模型。在多个公开和内部数据集上的实验表明,NAT训练的模型不仅在性能上表现稳健——其宏F1分数比迁移学习基线高出最多6%,而且在标注效率上也更高——将获得同等性能所需的人工努力减少了最多73%。
大型语言模型(LLMs)在文本理解和生成方面展现了令人瞩目的能力,促使研究者们致力于开发视频LLMs,以促进在视频层面的人机交互。然而,如何在基于视频的对话系统中有效编码和理解视频仍是一个待解难题。本文探讨了一个直接却未被深入研究的问题:我们能否将所有时空标记输入LLM,从而将视频序列建模的任务委托给LLMs?令人惊讶的是,这种简单的方法在视频理解方面取得了显著的改进。基于此,我们提出了ST-LLM,这是一种有效的视频-LLM基线模型,其在LLM内部进行时空序列建模。此外,为了解决未压缩视频标记引入的计算开销和稳定性问题,我们开发了一种动态掩码策略,并定制了相应的训练目标。对于特别长的视频,我们还设计了一个全局-局部输入模块,以平衡效率和效果。因此,我们利用LLM进行熟练的时空建模,同时保持了效率和稳定性。广泛的实验结果证明了我们方法的有效性。通过更为简洁的模型和训练流程,ST-LLM在VideoChatGPT-Bench和MVBench上创下了新的最优结果。代码已公开于https://github.com/TencentARC/ST-LLM。