每日精选AI研究论文及翻译
语言模型,如GPT-3.5和ChatGPT,展示了出色的能力,可以遵循各种人类指令并执行各种任务。然而,当使用一系列基本的表格理解任务来探究语言模型时,我们发现当今的语言模型在许多与表格相关的任务中仍然表现亚优,可能是因为它们主要在一维自然语言文本上进行预训练,而关系表是二维对象。 在这项工作中,我们提出了一种新的“表格微调”范式,我们继续训练/微调像GPT-3.5和ChatGPT这样的语言模型,使用从真实表格合成的多样化表格任务作为训练数据,旨在增强语言模型理解表格和执行表格任务的能力。我们展示了我们得到的Table-GPT模型表现出(1)更好的表格理解能力,通过在各种表格任务上持续优于普通的GPT-3.5和ChatGPT,包括保留未见任务,并且(2)强大的泛化能力,它能够回应各种人类指令来执行新的表格任务,类似于GPT-3.5和ChatGPT。
本文介绍了PaLI-3,这是一个更小、更快、更强大的视觉语言模型(VLM),与大小为其10倍的类似模型相比表现出色。为了实现这一强大性能,我们比较了使用分类目标预训练的视觉Transformer(ViT)模型和对比性预训练模型(SigLIP)。我们发现,虽然在标准图像分类基准测试上表现略有下降,但基于SigLIP的PaLI在各种多模态基准测试中表现优越,尤其是在定位和视觉文本理解方面。我们将SigLIP图像编码器扩展到20亿参数,并在多语言跨模态检索上取得了新的最先进水平。我们希望,仅有50亿参数的PaLI-3能重新点燃对复杂VLM基础组成部分的研究,并推动新一代规模化模型的发展。
量化是为大型语言模型(LLMs)提供服务的一种不可或缺的技术,最近已经被引入LoRA微调。在这项工作中,我们专注于将量化和LoRA微调应用于预训练模型的情况。在这种情况下,通常会观察到全面微调和量化加LoRA微调方法在下游任务性能上存在一致的差距。为此,我们提出了LoftQ(LoRA微调感知量化),这是一种新颖的量化框架,可以同时对LLM进行量化,并为LoRA微调找到适当的低秩初始化。这种初始化有助于减轻量化模型和全精度模型之间的差异,并显著提高下游任务的泛化能力。我们在自然语言理解、问答、摘要和自然语言生成任务上评估了我们的方法。实验表明,我们的方法非常有效,在具有挑战性的2位和2/4位混合精度范围中特别优于现有的量化方法。我们将发布我们的代码。
大型语言模型(LLMs)已经展示出在实时计算机环境(例如MiniWoB++)中规划和执行高级目标的能力不断增强。为了执行任务,最近的研究通常要求模型通过监督学习或少/多次提示从任务的跟踪示例中学习。在没有这些跟踪示例的情况下,一个挑战是如何让代理能够自主学习并改善其对计算机的控制,这限制了代理执行新任务的能力。我们通过零-shot代理来解决这个问题,该代理不需要给定的专家跟踪。我们的代理计划在部分观察到的环境中执行动作,并通过自我反思和结构化思维管理来识别和学习错误,逐步推进任务。在MiniWoB++的简单任务中,我们展示了我们的零-shot代理通常优于最近的最先进技术,推理效率更高。对于更复杂的任务,我们的反思代理表现与先前最佳模型持平,尽管以前的研究具有访问专家跟踪或额外屏幕信息的优势。
当应用于问答和其他文本生成任务时,语言模型(LMs)可以通过生成式查询(从其输出分布中抽样答案)或判别式查询(使用它们对一组候选输出进行评分或排名)。这些过程有时会产生非常不同的预测。我们如何调和相互不兼容的评分程序,以获得连贯的LM预测?我们引入了一种新的、无需训练的、博弈论程序用于语言模型解码。我们的方法将语言模型解码视为一种正则化的不完全信息序贯信号博弈 - 我们称之为共识博弈 - 在这个博弈中,生成器试图使用自然语言句子向判别器传达一个抽象的正确性参数。我们开发了计算程序来找到该博弈的近似均衡,从而得到一种我们称之为均衡排序的解码算法。将均衡排序应用于大量任务(包括阅读理解、常识推理、数学问题解决和对话),均衡排序一直且有时显著地改善了现有LM解码程序的性能 - 在多个基准测试中,我们观察到将均衡排序应用于LLaMA-7B比LLaMA-65B和PaLM-540B模型表现更好。这些结果突显了博弈论工具在解决LM的真实性和一致性等基本挑战方面的潜力。
大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出卓越的性能,通常能与甚至超越最先进的特定任务模型相匹敌。本研究旨在评估LLMs在财务推理方面的能力。我们利用特许金融分析师(CFA)项目的模拟考试题目,对ChatGPT和GPT-4在财务分析领域进行全面评估,考虑零样本(ZS)、思维链(CoT)和少样本(FS)场景。我们对模型的性能和局限性进行了深入分析,并估计它们是否有通过CFA考试的机会。最后,我们概述了潜在策略和改进的见解,以增强LLMs在金融领域的适用性。从这个角度来看,我们希望这项工作为未来的研究铺平道路,继续通过严格评估提升LLMs在财务推理方面的能力。
大型语言模型(LLMs)已经在解决类似HumanEval或MBPP基准测试中的简单编程任务方面表现得相当熟练。然而,解决更复杂和具有竞争性的编程任务对这些模型来说仍然是相当具有挑战性的 - 可能是因为它们倾向于生成作为整体代码块的解决方案,而不是将其分解为逻辑子任务和子模块。另一方面,有经验的程序员会本能地编写带有抽象的模块化代码来解决复杂任务,通常会重复使用先前开发的模块。为了弥补这一差距,我们提出了CodeChain,这是一个通过一系列自我修订引导模块化代码生成的新颖框架,每个修订都由前几次迭代中生成的一些代表性子模块引导。具体来说,CodeChain首先通过一系列思维链提示指导LLM生成模块化代码。然后,通过迭代两个步骤来应用一系列自我修订:1)提取和聚类生成的子模块,并选择聚类代表作为更通用和可重复使用的实现,2)利用这些选定的模块实现扩充原始的思维链提示,并指导LLM重新生成新的模块化解决方案。我们发现,通过自然地鼓励LLM重复使用先前开发和验证的子模块,CodeChain可以显著提升生成解决方案的模块化程度和正确性,实现在APPS上相对pass@1改进35%,在CodeContests上为76%。它在OpenAI LLMs以及开源LLMs如WizardCoder上都表现有效。我们还进行了全面的消融研究,涉及提示方法、聚类数量、模型大小、程序质量等不同方面,以提供支持CodeChain成功的有用见解。
语音和文本是人类语言的两种主要形式。研究界多年来一直致力于将语音映射到文本,或反之亦然。然而,在语言建模领域,很少有工作是同时对其进行建模的。鉴此,我们探索了语音单元和文本的联合语言建模。具体而言,我们比较了不同的语音标记器,将连续的语音信号转换为离散单元,并使用不同的方法构建混合语音文本数据。我们引入了自动度量标准来评估联合语言建模如何混合语音和文本。我们还对下游口语理解(SLU)任务上的LM进行微调,使用不同的模态(语音或文本),并测试其性能,以评估模型对共享表示的学习情况。我们的结果表明,通过使用我们提出的混合技术混合语音单元和文本,联合LM在SLU任务上优于仅使用语音的基准线,并展现了零-shot跨模态可转移性。