每日精选AI研究论文及翻译
推动大型语言模型(LLMs)发展具有令人印象深刻的学习能力的驱动因素是它们庞大的模型规模和广泛的训练数据集。随着自然语言处理的进展,LLMs经常被公开提供给公众以促进更深入的研究和应用。然而,对于这些LLMs的训练数据集,尤其是最近的最先进模型,它们通常没有完全披露。为高性能LLMs创建训练数据涉及广泛的清洗和去重,以确保必要的质量水平。训练数据的透明度不足因此阻碍了对LLMs中幻觉和偏见问题的归因和解决的研究,阻碍了复制努力和社区进一步发展。这些挑战在多语言学习场景中变得更加突出,其中可用的多语言文本数据集通常收集和清理不足。因此,缺乏开源和可立即使用的数据集有效地训练多语言LLMs。为了克服这一问题,我们提出了CulturaX,一个包含167种语言、总共6.3万亿标记的大规模多语言数据集,专为LLM开发量身定制。我们的数据集通过多个阶段的严格流程进行细致的清洗和去重,以实现模型训练的最佳质量,包括语言识别、基于URL的过滤、基于度量的清洗、文档细化和数据去重。CulturaX已完全向公众发布在HuggingFace上,以促进多语言LLMs的研究和进展:https://huggingface.co/datasets/uonlp/CulturaX。
我们探讨了在特定领域语料库上持续进行预训练如何影响大型语言模型,发现在原始语料库上训练赋予模型领域知识,但极大地损害了其用于问答的提示能力。受人类通过阅读理解进行学习的启发——阅读后进行练习可以提高根据所学知识回答问题的能力——我们提出了一种将原始语料库转化为阅读理解文本的简单方法。每个原始文本都会被丰富为一系列与其内容相关的任务。我们的方法,高度可扩展且适用于任何预训练语料库,持续增强了在三个不同领域的各种任务中的性能。特别地,我们的7B语言模型在与规模大得多的特定领域模型(如BloombergGPT-50B)竞争性能方面表现出色。此外,我们证明了特定领域的阅读理解文本甚至可以提高模型在通用基准上的性能,显示了开发跨更多领域通用模型的潜力。我们的模型、代码和数据将在https://github.com/microsoft/LMOps 上提供。
大型语言模型(LLMs)在文档问答(QA)中存在问题,特别是当文档无法适应LLM的小上下文长度时。为了克服这一问题,大多数现有研究侧重于从文档中检索相关上下文,并将其表示为纯文本。然而,诸如PDF、网页和演示文稿等文档通常具有不同的页面、表格、章节等自然结构。将这些结构化文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不符。当系统需要查询文档以获取上下文时,这种不一致性就会显现出来,看似琐碎的问题可能会使QA系统出现问题。为了弥合处理结构化文档中的这一根本差距,我们提出了一种名为PDFTriage的方法,使模型能够基于结构或内容检索上下文。我们的实验展示了所提出的PDFTriage增强模型在多个类别的问题上的有效性,而现有的检索增强LLMs则失败了。为了促进对这一根本问题的进一步研究,我们发布了一个基准数据集,其中包含来自10个不同类别的80个结构化文档上的900多个人工生成的问题,用于文档问答。
本文全面调查了展示视觉和视觉语言能力的多模基础模型的分类法和演变,重点关注从专业模型向通用助手的过渡。研究领域涵盖了五个核心主题,分为两类。(i) 我们首先调查了已建立的研究领域:为特定目的预训练的多模基础模型,包括两个主题 -- 用于视觉理解的学习视觉骨干和文本到图像生成的方法。(ii) 然后,我们介绍了探索性、开放性研究领域的最新进展:旨在扮演通用助手角色的多模基础模型,包括三个主题 -- 受大型语言模型(LLMs)启发的统一视觉模型,多模LLMs的端到端训练,以及将多模工具与LLMs链接起来。本文的目标读者是计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士,他们渴望了解多模基础模型的基础知识和最新进展。
我们展示了对比解码(Contrastive Decoding)——一种由Li等人于2022年提出的简单、计算轻、无需训练的文本生成方法,在各种推理任务上取得了巨大的开箱即用改进。最初被证明可以提高长篇文本生成的感知质量,对比解码搜索最大化强模型和弱模型之间似然差异加权的字符串。我们展示了对比解码使LLaMA-65B在HellaSwag常识推理基准测试中胜过LLaMA 2、GPT-3.5和PaLM 2-L,使其在GSM8K数学词推理基准测试中胜过LLaMA 2、GPT-3.5和PaLM-540B,同时在一系列其他任务上也有改进。分析表明,对比解码通过防止一些抽象推理错误以及避免在思维链中复制输入部分等简单模式,改进了现有方法。总体而言,对比解码在长篇生成方面优于核采样(nucleus sampling),在推理任务上优于贪婪解码,使其成为从语言模型生成文本的强大通用方法。
大型语言模型(LLMs)的快速发展彻底改变了自然语言处理(NLP)。虽然这些模型擅长理解和生成类似人类的文本,但它们的广泛部署可能成本过高。SortedNet是一种用于实现深度神经网络动态推断的最新训练技术。它利用网络模块化来创建具有不同计算负载的子模型,并根据计算/准确性特征以嵌套方式对其进行排序。我们将SortedNet扩展到生成式NLP任务,使大型语言模型在没有任何预训练的情况下动态化,并仅通过用Sorted Fine-Tuning(SoFT)替换标准监督微调(SFT)来实现相同的成本。我们的方法提高了模型效率,消除了在推断过程中针对不同场景需要多个模型的需求。我们展示了通过使用这种方法,我们能够释放transformers中间层在生成目标输出方面的潜力。我们的子模型仍然是原始模型的重要组成部分,最小化了存储需求和在不同计算/延迟预算之间的转换成本。通过在LLaMa 2 13B上应用这种方法,在斯坦福Alpaca数据集上进行调整,并将其与正常调整和通过PandaLM基准测试进行早期退出进行比较,我们展示了Sorted Fine-Tuning可以以两倍于原始模型的速度交付模型,同时保持或超越性能。
大型语言模型(LLMs)仅基于少量自然语言指令示例,在各种自然语言任务上展现出卓越性能,减少了对广泛特征工程的需求。然而,大多数功能强大的LLMs是闭源的,或者在其他语言方面的能力受到限制,无法与英语相提并论。在本技术报告中,我们介绍了百川2(Baichuan 2),这是一系列包含70亿和130亿参数的大规模多语言语言模型,从头开始训练,共训练了26万亿标记。百川2在公共基准测试中,如MMLU、CMMLU、GSM8K和HumanEval上,与其他开源模型相媲美甚至表现更优秀。此外,百川2在医学和法律等垂直领域表现出色。我们将发布所有预训练模型检查点,以帮助研究社区更好地理解百川2的训练动态。
最近,视觉指导调优在开源大型多模态模型(LMM)如LLaVA和MiniGPT-4中显示出令人鼓舞的进展。然而,大多数现有的关于开源LMM的研究是使用具有130亿参数或更少的模型进行的。本文提出了一个关于将LLaVA扩展至330亿和650亿/700亿的经验研究,并分享了我们在图像分辨率、数据混合和参数高效训练方法(如LoRA/QLoRA)方面的发现。这些方法通过在野外完成真实任务时对多模态和语言能力的影响进行评估。 我们发现,扩展LMM一贯提升模型性能并改善语言能力,而LoRA/QLoRA对LMM的调优性能与完整模型微调的性能相当。此外,研究强调了提高图像分辨率和混合多模态-语言数据以改善LMM性能的重要性,有时视觉指导调优可以提高LMM的纯语言能力。我们希望这项研究使更大规模的最先进LMM研究更易获得,从而有助于为未来研究建立更强的基线。代码和检查点将被公开发布。
图形布局生成是一个不断发展的研究领域,在用户参与和信息感知中发挥着重要作用。现有方法主要将布局生成视为数值优化任务,侧重于定量方面,却忽略了布局的语义信息,例如每个布局元素之间的关系。本文提出了LayoutNUWA,这是第一个将布局生成视为代码生成任务以增强语义信息并利用大型语言模型(LLMs)的隐藏布局专业知识的模型。更具体地说,我们开发了一个包含三个相互连接模块的代码指导调整(CIT)方法:1)代码初始化(CI)模块量化数值条件并将其初始化为带有策略性放置掩码的HTML代码;2)代码完成(CC)模块利用LLMs的格式化知识填充HTML代码中的掩码部分;3)代码渲染(CR)模块将完成的代码转换为最终布局输出,确保高度可解释和透明的布局生成过程,直接将代码映射到可视化布局。我们在多个数据集上取得了显著的最新性能(甚至超过50%的改进),展示了LayoutNUWA强大的能力。我们的代码可在https://github.com/ProjectNUWA/LayoutNUWA 上找到。
大型语言模型(LLMs)具有在多智能体系统中执行复杂调度的能力,并可以协调这些智能体完成需要广泛协作的复杂任务。然而,尽管引入了许多游戏框架,但社区对于构建涵盖LLM和人类-NPC协作的通用多智能体协作基础设施仍然缺乏充分的基准。在这项工作中,我们提出了一种新型基础设施 - MindAgent - 用于评估游戏互动的规划和协调新能力。特别是,我们的基础设施利用现有的游戏框架,i)需要多智能体系统协调员的理解,ii)通过未调优的适当指令与人类玩家合作,iii)在少样本提示和反馈上建立上下文学习。此外,我们引入了一个新的游戏场景CUISINEWORLD和相关基准,用于评估多智能体协作效率,并监督多个代理同时玩游戏。我们使用新的自动度量CoS进行全面评估以计算协作效率。最后,我们的基础设施可以部署到CUISINEWORLD的定制VR版本中的真实游戏场景,并适用于现有更广泛的Minecraft游戏领域。我们希望我们关于LLMs和通用调度与协调的新基础设施的发现能够帮助阐明通过从大型语言语料库中学习来获得这些技能的方式。
随着基于大型语言模型的实际应用的快速发展,对性能外推的重要性在研究领域呈指数增长。在我们的研究中,我们发现了Transformer模型中一个先前被忽视的异常行为,导致了最重要信息的最近标记之间的混乱。我们将这一发现命名为“Transformer的头痛”。为了从根本上解决这个问题,我们引入了一种名为共线约束注意力(Collinear Constrained Attention,CoCA)的新型自注意力结构。该结构可以与现有的外推、插值方法以及为传统Transformer模型设计的其他优化策略无缝集成。即使在推理过程中对我们的模型没有进行任何微调,我们也取得了出色的外推性能,即使是16到24倍的序列长度。我们还增强了CoCA的计算和空间效率,以确保其实用性。我们计划很快开源CoCA。与此同时,我们已经在附录中提供了我们的代码,以便重现实验。
大型语言模型(LLMs)已经彻底改变了自然语言处理,然而利用RLHF将这些模型与人类价值观和偏好保持一致仍然是一个重大挑战。这一挑战的特点是各种不稳定因素,比如奖励欺骗和灾难性遗忘。在这份技术报告中,我们提出了两项创新来稳定RLHF训练:1)优势模型,直接对优势分数进行建模,即额外奖励与预期奖励之间的差异,并调节跨任务的分数分布,以防止奖励欺骗。2)选择性复习,通过有策略地选择数据进行PPO训练和知识复习来减轻灾难性遗忘。我们在公开和专有数据集上进行的实验分析显示,所提出的方法不仅增加了RLHF训练的稳定性,还实现了更高的奖励分数和胜率。
尽管像GPT-4这样的大型语言模型(LLMs)具有强大的能力,但它们仍然在需要生成复杂结构输出的任务中遇到困难。在本研究中,我们评估了当前LLMs在生成复杂结构化数据方面的能力,并提出了一种结构感知微调方法作为改进这种能力的解决方案。为了进行全面评估,我们提出了Struc-Bench,包括五种代表性LLMs(即GPT-NeoX 20B、GPT-3.5、GPT-4和Vicuna),并在我们精心构建的跨原始文本、HTML和LaTeX表的数据集上对它们进行评估。基于我们对当前模型性能的分析,我们确定了特定的常见格式错误和潜在改进领域。为了解决复杂格式要求,我们利用FormatCoT(Chain-of-Thought)从目标输出中生成格式说明。我们的实验表明,当应用于LLaMA-7B时,我们的结构感知微调方法显著改善了符合自然语言约束,优于其他评估的LLMs。根据这些结果,我们提出了模型能力的六个维度(即覆盖范围、格式、推理、理解、语用和幻觉)的能力图。这张图突出了LLMs在处理复杂结构化输出方面的弱点,并为未来工作提出了有前途的方向。我们的代码和模型可以在https://github.com/gersteinlab/Struc-Bench找到。
具有指令遵循能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出出色的泛化能力,能够处理各种现实世界任务。然而,它们的性能在很大程度上依赖于高质量的示例数据,而这往往难以获得。当涉及多模态指令遵循时,这一挑战变得更加严峻。我们引入了TextBind,这是一个几乎无需注释的框架,用于赋予更大型语言模型多轮交错的多模态指令遵循能力。我们的方法仅需要图像标题对,并从语言模型生成多轮多模态指令-响应对话。我们发布了数据集、模型和演示,以促进未来在多模态指令遵循领域的研究。
Shampoo是属于AdaGrad方法族的一种在线和随机优化算法,用于训练神经网络。它构建了一个块对角的预处理器,其中每个块由神经网络的每个参数的粗略Kronecker乘积逼近全矩阵AdaGrad组成。在这项工作中,我们提供了该算法的完整描述,以及我们实现中利用的性能优化,以在PyTorch中规模化训练深度网络。我们的实现通过PyTorch的DTensor数据结构分配每个参数块的内存和计算,通过在每次迭代中对计算的搜索方向执行AllGather原语,实现了快速的多GPU分布式数据并行训练。这一重大性能提升使我们能够在每步墙钟时间上最多比标准对角缩放自适应梯度方法减少10%的性能。我们通过对ImageNet ResNet50进行消融研究来验证我们的实现,展示了Shampoo相对于标准训练配方在最小超参数调整下的优越性。
传统的对话状态跟踪(DST)问题旨在跟踪用户偏好和意图在用户-代理对话中。尽管对于支持狭窄领域应用的任务导向型对话系统来说已经足够,但基于大型语言模型(LLM)的聊天系统的出现在开放域对话中引入了许多现实世界的复杂性。这些复杂性体现在上下文交互的复杂性增加、涵盖各种主题的延长对话会话以及更频繁的上下文转换形式。为了处理由不断发展的基于LLM的聊天系统引起的这些复杂性,我们提出了在开放域对话系统中每个片段的联合对话分割和状态跟踪。假设零样本设置适用于真正的开放域对话系统,我们提出了S3-DST,这是一种结构化提示技术,利用我们设计的用于改善长上下文跟踪的新型基础机制Pre-Analytical Recollection。为了展示我们提出的联合分割和状态跟踪方法的有效性,我们在专有的匿名开放域对话数据集以及公开可用的DST和分割数据集上评估了S3-DST。在所有数据集和设置中,S3-DST始终优于最先进技术,展示了其在下一代基于LLM的聊天系统中的效力和稳健性。
基于语言建模的音乐生成中,生成的波形由一系列分层的令牌堆栈表示,可以根据码书模式以自回归方式或并行方式解码。特别是,展平码书代表了最高质量的解码策略,但其速度极慢。为此,我们提出了一种新颖的堆栈延迟式解码策略,以改进展平模式解码,在生成速度方面,与普通展平解码相比快四倍。这将推断时间接近延迟解码策略的水平,并允许在小批量大小的GPU上进行更快的推断。在与延迟模式相同的推断效率预算下,我们展示了所提出的方法在客观评估中表现更好,几乎在质量方面与展平模式拉近了差距。主观评估结果证实,相同的文本提示下,新模型生成的样本更受青睐,而不是竞争模型生成的样本。
模型适应对处理代理训练数据与实际用户数据之间的差异至关重要。为了有效进行适应,用户的文本数据通常存储在服务器或他们的本地设备上,下游自然语言处理(NLP)模型可以直接使用这些领域内的数据进行训练。然而,这可能会引发隐私和安全问题,因为将用户信息暴露给对手的风险增加。最近探讨了用通用标记替换文本数据中的识别信息。在这项工作中,我们利用大型语言模型(LLMs)建议掩盖标记的替代物,并评估它们在下游语言建模任务中的有效性。具体来说,我们提出了多种基于预训练和微调的LLM方法,并在各种数据集上进行实证研究以比较这些方法。实验结果表明,在混淆语料库上训练的模型能够达到与在原始数据上训练且不进行隐私保护标记掩盖的模型相当的性能。
本文提出了一种创新方法,通过在模型训练过程中强调音频和文本表示之间的对齐来增强音频生成的控制能力。在基于语言模型的音频生成背景下,该模型利用来自文本和音频令牌表示的输入来预测随后的音频令牌。然而,当前的配置缺乏明确的正则化以确保所选文本表示与语言模型的预测之间的对齐。我们的提议涉及在分类器自由指导(CFG)阶段期间特别包含音频和文本表示正则化,其中在语言模型训练期间排除了文本条件的交叉注意力。这种提议的表示正则化旨在最小化音频和文本之间的差异,与同一训练批次中的其他样本相比。对音乐和音频生成任务的实验结果表明,我们提出的方法导致了音频和音乐生成的客观指标的改善,以及对音频生成的人类感知的增强。
口语语义解析(SSP)涉及从输入语音生成机器可理解的解析。训练现有应用领域在训练数据中表示或扩展到新领域的强大模型需要相应的语音-转录-语义解析数据三元组,这些数据获取起来成本高昂。本文通过研究可以使用转录-语义解析数据(不成对文本)而无需相应语音的方法来应对这一挑战。首先,当不成对文本来自现有文本语料库时,将比较联合音频文本(JAT)和文本转语音(TTS)作为生成不成对文本的方式。在STOP数据集上的实验表明,现有和新领域的不成对文本分别使准确匹配(EM)的性能提高了2%和30%。其次,我们考虑当现有文本语料库中没有不成对文本时的情况。我们建议促使大型语言模型(LLMs)生成现有和新领域的不成对文本。实验表明,与意图共现的示例和词汇可用于使用Llama 2.0生成不成对文本。将生成的文本与JAT和TTS一起用于口语语义解析可使现有和新领域的STOP上的EM分别提高1.4%和2.6%。