每日精选AI研究论文及翻译
我们提出了MM1.5,这是一种新型的多模态大型语言模型(MLLMs),旨在增强文本丰富的图像理解、视觉指称和基础以及多图像推理能力。在MM1架构的基础上,MM1.5采用了以数据为中心的模型训练方法,系统地探索了在整个模型训练生命周期中不同数据混合的影响。这包括高质量的OCR数据和合成字幕用于持续预训练,以及针对监督微调的优化视觉指导调整数据混合。我们的模型参数范围从10亿到30亿,包括密集型和专家混合(MoE)变体,并且表明精心策划的数据整理和训练策略即使在小规模(10亿和30亿)也能产生强大的性能。此外,我们引入了两种专门的变体:MM1.5-Video,用于视频理解,以及MM1.5-UI,专为移动UI理解而设计。通过广泛的实证研究和消融实验,我们提供了有关训练过程和决策的详细见解,这些见解构成了我们最终设计的基础,为未来的MLLM开发研究提供了有价值的指导。
大型语言模型的指令遵循能力使人类能够以自然的方式与人工智能代理进行交互。然而,当需要生成特定长度的响应时,由于其在准确感知数字约束方面固有的困难,大型语言模型经常难以满足用户的需求。为了探索大型语言模型控制生成响应长度的能力,我们提出了目标长度生成任务(TLG),并设计了两个度量标准,即精确匹配(PM)和灵活匹配(FM),以评估模型在遵循指定响应长度方面的性能。此外,我们引入了一种新颖的、与模型无关的方法称为Ruler,它利用元长度标记(MLTs)来增强大型语言模型在受长度约束指令下的指令遵循能力。具体而言,Ruler赋予LLMs生成特定长度响应的能力,基于指令中的长度约束。此外,当长度约束未明确提供时,Ruler可以自动生成适当的MLT,展现出出色的通用性和泛化能力。全面的实验显示了Ruler在不同LLMs上的目标长度生成任务中的有效性,例如,在所有级别上PM平均增益为27.97,FM平均增益为29.57。此外,我们进行了大量消融实验,进一步证实了Ruler的功效和泛化能力。我们的代码和数据可在https://github.com/Geaming2002/Ruler 上获取。
我们提出了超连接,这是一种简单而有效的方法,可以作为残差连接的替代方案。这种方法专门解决了残差连接变体中常见的缺点,比如梯度消失和表示坍塌之间的跷跷板效应。从理论上讲,超连接允许网络调整不同深度特征之间连接的强度,并动态重新排列层。我们进行了重点关注大型语言模型的预训练实验,包括密集模型和稀疏模型,结果显示超连接相比残差连接有显著的性能提升。在视觉任务上进行的额外实验也展示了类似的改进。我们预计这种方法将在广泛的人工智能问题中具有广泛的适用性和益处。
在各个领域中,从学术话题到日常对话,特定领域对话数据集的稀缺性限制了用于各种应用的对话系统的发展。现有研究往往受限于对话数据集要么过于通用,要么是规模不足以训练对话系统所需的规模的利基领域对话数据集。为了填补这一空白,我们引入了DiaSynth - 一种合成对话生成框架,能够跨越各种领域生成高质量、上下文丰富的对话。我们的方法与现有框架不同,通过动态生成对话,结合模拟人物、子主题和多样化的会话特征,利用具有“思维链”推理的大型语言模型(LLM)创建上下文丰富、特定领域的对话,以紧密模仿自然人类互动。DiaSynth生成模拟真实对话的定制对话。我们通过使用不同的LLM和来自DialogSum和SAMSum的少样本示例生成合成数据来进行实验。在合成数据上微调的预训练语言模型的性能优于基础模型16.47%,而在领域内数据和合成数据上微调的模型之间的比较表明,合成数据能够捕捉领域内数据分布的90.48%。生成数据的质量也随着LLM的规模而提高。这些结果验证了DiaSynth作为传统数据收集方法的强大替代方案的潜力。
注意机制,特别是softmax注意力,在基于transformer的模型(如GPT)取得成功方面起到了关键作用。然而,相对于序列长度而言,softmax注意力的二次内存复杂度给处理更长序列带来了重大挑战。我们引入了Cottention,一种新颖的注意力机制,它将softmax操作替换为余弦相似度。通过利用余弦相似度的特性并重新排列注意力方程,Cottention 实现了相对于序列长度的本地线性内存复杂度,使其比softmax注意力更具内在的内存效率。我们证明了Cottention 可以重新构建为具有有限隐藏状态的循环神经网络(RNN),从而允许在推断期间保持恒定的内存使用量。我们在双向BERT和因果GPT任务上评估了Cottention,表明它在显著减少内存需求的同时,性能与softmax注意力相当。为了确保高效计算,我们为Cottention 开发了一个自定义CUDA核心。我们的结果表明,Cottention 是softmax注意力的一个有前途的替代方案,能够处理更长序列而不牺牲性能,这是由于其本地线性内存复杂度和在推断期间保持恒定内存占用的能力。
以往关于机器人操纵的研究基于对基础三维运动约束和可利用性的有限理解。为了解决这些挑战,我们提出了一个全面的范式,称为UniAff,它将三维物体为中心的操纵和任务理解集成到统一的公式中。具体而言,我们构建了一个带有操纵相关关键属性标签的数据集,包括来自19个类别的900个关节物体和来自12个类别的600个工具。此外,我们利用MLLMs来推断用于操纵任务的物体为中心的表示,包括可利用性识别和对三维运动约束的推理。在模拟和现实世界环境中进行的全面实验表明,UniAff显著改善了对工具和关节物体的机器人操纵的泛化能力。我们希望UniAff将成为未来统一机器人操纵任务的通用基准。图像、视频、数据集和代码已发布在项目网站上:https://sites.google.com/view/uni-aff/home
如今训练通用型机器人模型的一个障碍是异质性。以往的机器人学习方法通常收集数据,用于训练特定任务的特定实体,这种方式既昂贵又容易过拟合。本研究探讨了通过在不同实体和任务之间进行规模化的机器人数据异构预训练来学习策略表示的问题。我们提出了异构预训练变压器(HPT),它预先训练一个大型、可共享的策略神经网络主干,以学习任务和实体不可知的共享表示。这种通用架构将来自不同实体的特定本体感知和视觉输入对齐到一系列短令牌,然后处理这些令牌以将其映射到不同任务的控制机器人。利用最近的大规模多实体真实世界机器人数据集以及模拟、部署机器人和人类视频数据集,我们研究了跨异构性预训练策略。我们进行实验来研究训练目标的扩展行为,涵盖了52个数据集。HPT在多个模拟器基准测试和真实世界环境中,优于几种基线,并将未见任务的微调策略性能提高了超过20%。请查看项目网站(https://liruiw.github.io/hpt/)获取代码和视频。
扩散模型生成的图像在数字艺术和视觉营销中越来越受欢迎。然而,这些生成的图像可能复制现有内容,带来内容原创性的挑战。现有的图像复制检测(ICD)模型虽然在检测手工复制品方面准确,但忽视了来自扩散模型的挑战。这促使我们引入ICDiff,这是专门针对扩散模型的第一个ICD。为此,我们构建了一个扩散复制(D-Rep)数据集,并相应提出了一种新颖的深度嵌入方法。D-Rep使用一种最先进的扩散模型(稳定扩散 V1.5)生成了 40,000 个图像-复制对,这些对被手动注释为 6 个复制级别,范围从 0(无复制)到 5(完全复制)。我们的方法,PDF-嵌入,将每个图像-复制对的复制级别转换为概率密度函数(PDF)作为监督信号。直觉是相邻复制级别的概率应该是连续且平滑的。实验结果表明,PDF-嵌入在D-Rep测试集上超过了协议驱动方法和非PDF选择。此外,通过利用PDF-嵌入,我们发现知名扩散模型对开源库的复制比例范围在 10% 到 20% 之间。
本文介绍了Coffee-Gym,一个用于训练能够提供代码编辑反馈的模型的全面RL环境。Coffee-Gym包括两个主要组件:(1) Coffee,一个包含人类代码编辑痕迹和针对错误代码编辑的机器生成反馈的数据集;(2) CoffeeEval,一个奖励函数,通过评估修订后代码在单元测试中的性能,忠实地反映反馈的帮助性。借助这两个组件,Coffee-Gym解决了用于训练RL反馈模型的高质量数据集不可用的问题,并提供比当前最先进的奖励模型(即GPT-4)更准确的奖励。通过应用Coffee-Gym,我们获得了优于基线的反馈模型,能够增强开源代码LLM的代码编辑,使其与闭源LLM相媲美。我们已公开提供数据集和模型检查点。
随着大型语言模型(LLMs)变得日益先进,它们展示组合泛化的能力——即在训练过程中未曾遇到的新颖方式中结合学习技能的能力,引起了广泛关注。这种泛化类型,在超出训练数据的情境中尤其引人关注,也在研究人工智能安全性和对齐性方面备受关注。最近的一项研究引入了SKILL-MIX评估,其中模型被要求撰写一个简短段落,展示使用指定的k元语言技能组合。尽管小型模型在k=3时甚至难以组合,但像GPT-4这样的大型模型在k=5和6时表现相当不错。 在本文中,我们采用类似于SKILL-MIX的设置来评估较小模型从示例中学习组合泛化的能力。利用多样的语言技能集,包括修辞、文学、推理、心灵理论和常识,我们使用GPT-4生成展示k个技能随机子集的文本样本。随后,在这些组合技能文本上对7B和13B参数模型进行微调,针对不断增加的k值,揭示了以下发现:(1)在k=2和3技能组合上进行训练显著提高了撰写具有k=4和5技能的文本的能力,尽管模型在训练过程中从未见过这样的示例。(2)当技能类别分为训练组和保留组时,模型在测试过程中显著改善了撰写具有保留技能的文本的能力,尽管在微调过程中只见过训练技能,说明了训练方法的有效性,即使是对以前未见过的技能。这项研究还表明,将技能丰富(可能是合成的)文本纳入训练中可以显著增强模型的组合能力。
问题分解已被证明是一种有效的策略,用于促使大型语言模型(LLMs)回答复杂问题。然而,尽管现有方法主要集中在单模态语言模型上,但多模态大型语言模型(MLLMs)的问题分解能力尚未被探索。为此,本文探讨了MLLMs上的视觉问题分解。具体来说,我们引入了一个系统化评估框架,包括一个数据集和几个评估标准,以评估分解后子问题的质量,揭示现有MLLMs难以产生高质量的子问题。为解决这一局限性,我们提出了一个特定的微调数据集DecoVQA+,用于增强模型的问题分解能力。旨在使模型能够执行适当的选择性分解,我们提出了一个高效的微调流程。微调流程包括我们提出的数据集和一个用于选择性分解的训练目标。微调后的MLLMs在子问题质量和选择性问题分解策略方面均表现出显著改进。此外,模型在VQA基准数据集上通过选择性分解也实现了更高的准确性。
音频水印技术将信息嵌入音频中,并能准确地从带水印的音频中提取信息。传统方法基于专家经验开发算法,将水印嵌入信号的时域或变换域中。随着深度神经网络的发展,基于深度学习的神经音频水印技术应运而生。与传统算法相比,神经音频水印技术通过在训练过程中考虑各种攻击方式,实现更好的鲁棒性。然而,目前的神经水印方法存在容量较低和感知性不佳的问题。此外,在神经音频水印技术中更为突出的水印定位问题尚未得到充分研究。本文设计了一种双嵌入水印模型以实现高效定位。我们还考虑攻击层对可逆神经网络在鲁棒性训练中的影响,改进模型以提高其合理性和稳定性。实验证明,所提出的IDEAW模型相较于现有方法,具有更高的容量和更高效的定位能力,能够抵御各种攻击。