每日精选AI研究论文及翻译
在增强大型语言模型(LLMs)的推理能力方面,先前的研究主要集中在特定提示技术,如少样本或零样本的链式思维(CoT)提示。这些方法虽然有效,但通常需要大量手工提示工程。我们的研究采取了一种新颖的方法,提出了一个问题:LLMs是否可以在没有提示的情况下有效推理?我们的发现显示,有趣的是,通过简单改变解码过程,可以从预训练的LLMs中引出CoT推理路径。我们研究了基于前k个替代标记的非贪婪解码,发现这些序列中经常固有地存在CoT路径。这种方法不仅绕过了提示的混淆因素,还使我们能够评估LLMs的内在推理能力。此外,我们观察到,在解码路径中存在CoT与模型解码答案的置信度更高相关。这种置信度度量有效区分了CoT和非CoT路径。对各种推理基准的广泛实证研究表明,所提出的CoT解码明显优于标准的贪婪解码。
所有基于文本的语言问题都可以归结为生成或嵌入。当前的模型只在这两者之一表现良好。我们引入了生成表征指导调整(GRIT),通过指导区分它们,训练大型语言模型来处理生成和嵌入任务。与其他开放模型相比,我们的结果GritLM 7B 在大规模文本嵌入基准测试(MTEB)上取得了新的最先进水平,并在各种生成任务上胜过其尺寸的所有模型。通过进一步扩展,GritLM 8x7B 在所有我们尝试过的开放生成语言模型中表现最佳,同时仍然是最佳的嵌入模型之一。值得注意的是,我们发现GRIT匹配仅在生成或嵌入数据上进行训练,因此我们可以在没有性能损失的情况下统一两者。通过GRIT进行统一,加速了检索增强生成(RAG)长文档的速度超过60%,不再需要单独的检索和生成模型。模型、代码等均可在https://github.com/ContextualAI/gritlm 免费获取。
大型语言模型(LLMs)的训练成本很高。本文研究了用于预训练LLMs的数据高效方法,即旨在优化模型质量和训练资源/数据消耗的帕累托前沿的技术。我们试图了解与基于(i)昂贵计算的数据质量估计和(ii)在特征空间中最大化覆盖率和多样性度量相关的权衡。我们的第一种技术Ask-LLM利用了经过指令调整的LLMs的零-shot推理能力,直接评估训练样本的质量。为了达到覆盖率的目标,我们提出了密度抽样,该方法模拟数据分布以选择多样化样本。在我们对19种抽样器进行的比较中,涉及数百个评估任务和预训练运行,我们发现Ask-LLM和Density是各自类别中最佳的方法。覆盖率抽样可以恢复完整数据的性能,而在Ask-LLM数据上训练的模型始终优于完整数据训练 - 即使我们拒绝原始数据集的90%,也能收敛速度提高高达70%。
当前的大型语言模型(LLMs)不仅受限于最大上下文长度,而且无法稳健地处理长输入。为了解决这些限制,我们提出了ReadAgent,这是一个LLM代理系统,在我们的实验中将有效上下文长度增加了20倍。受到人类互动阅读长文档的启发,我们将ReadAgent实现为一个简单的提示系统,利用LLMs的高级语言能力来(1)决定将哪些内容存储在一个记忆片段中、(2)将这些记忆片段压缩成称为要点记忆的短期记忆,以及(3)采取行动在原始文本中查找段落,如果ReadAgent需要提醒自己相关细节以完成任务。我们通过使用检索方法、使用原始长上下文以及使用要点记忆来评估ReadAgent与基线的性能。这些评估是在三个长文档阅读理解任务上进行的:QuALITY、NarrativeQA和QMSum。ReadAgent在所有三个任务上均优于基线,同时将有效上下文窗口扩展了3-20倍。
最近的研究表明,合成生成的数据集对训练大型语言模型(LLMs)具有巨大潜力,特别是用于获取特定技能。当前大规模数学教学调优数据集,如MetaMathQA(Yu等,2024年)和MAmmoTH(Yue等,2024年),是利用具有商业限制许可的闭源LLMs的输出构建的。限制开源LLMs在这些数据生成流程中使用的一个关键原因是最佳闭源LLMs(如GPT-4)和最佳开源LLMs之间数学技能之间的巨大差距。借鉴最近开源LLMs的进展,我们提出了提示新颖性和一些蛮力扩展,构建了OpenMathInstruct-1,一个包含180万问题-解决方案对的数学教学调优数据集。该数据集通过使用最近发布且许可宽松的Mixtral模型,为GSM8K和MATH这两个流行的数学推理基准合成了代码解释器解决方案。我们的最佳模型OpenMath-CodeLlama-70B,在OpenMathInstruct-1的子集上训练,GSM8K得分为84.6%,MATH得分为50.7%,与最佳gpt-distilled模型相竞争。我们在商业许可下发布我们的代码、模型和OpenMathInstruct-1数据集。
在生成人工智能(GenAI)领域,微调扩散模型仍然是一个未被充分探索的前沿,特别是与微调大型语言模型(LLMs)取得的显著进展相比。尽管尖端扩散模型如稳定扩散(SD)和SDXL依赖于监督微调,但它们的性能在看到一定量的数据后不可避免地会达到瓶颈。最近,强化学习(RL)已被用于利用人类偏好数据微调扩散模型,但这需要至少两幅图像("赢家"和"输家"图像)用于每个文本提示。本文介绍了一种名为自我对弈微调扩散模型(SPIN-Diffusion)的创新技术,其中扩散模型与其早期版本进行竞争,促进迭代的自我改进过程。我们的方法为传统监督微调和RL策略提供了一种替代方案,显著提高了模型性能和对齐度。我们在Pick-a-Pic数据集上的实验表明,SPIN-Diffusion在人类偏好对齐和视觉吸引力方面优于现有的监督微调方法,甚至在第一次迭代时就表现出色。到第二次迭代时,它在所有指标上均超过了基于RLHF方法的性能,而且使用的数据量更少。
我们研究了持续预训练方法,用于将语言模型的上下文长度扩展到128K,重点关注数据工程。我们假设长上下文建模,特别是利用任意输入位置信息的能力,是大规模预训练过程中已经获得的能力,而且这种能力可以通过在适当数据混合上进行轻量级持续预训练,很容易地扩展到远远长于训练过程中所见的上下文(例如,从4K扩展到128K)。我们研究了持续预训练的数据数量和质量:(1)对于数量,我们表明5亿至50亿标记足以使模型能够在128K上下文中的任何位置检索信息;(2)对于质量,我们的结果同样强调领域平衡和长度上采样。具体而言,我们发现在某些领域(如书籍)上简单上采样更长的数据,这是现有工作的常见做法,会导致次优性能,而平衡的领域混合很重要。我们证明,在这些数据的10亿至50亿标记上对整个模型进行持续预训练是将语言模型的上下文长度扩展到128K的一种有效且经济实惠的策略。我们的方法胜过强大的开源长上下文模型,并缩小了与GPT-4 128K等前沿模型之间的差距。
大型语言模型(LLMs)通常分为两个阶段进行训练:在大规模互联网数据集上进行预训练,以及为下游任务进行微调。考虑到预训练的更高计算需求,直觉上可以认为微调向模型添加了较少的新信息,因此更易压缩。我们通过将微调模型的权重分解为其预训练组件和额外的增量来探讨这一假设。我们引入了一种简单的方法,BitDelta,成功将这个增量量化为1比特而不影响性能。这一有趣的发现不仅突显了微调过程中添加信息的潜在冗余性,还对微调模型的多租户服务和多租户存储产生了重要影响。通过使用单个高精度基础模型并附带多个1比特增量,BitDelta大幅减少了GPU内存需求超过10倍,这也可以转化为多租户环境中的生成延迟提升。我们通过在Llama-2和Mistral模型系列以及长达70B参数的模型上进行实验证实了BitDelta,在所有测试设置中展示了最小的性能降级。
最近,在图像领域,使用大型预训练模型以零-shot方式编辑信号已经取得了快速进展。然而,这股浪潮尚未触及音频领域。在本文中,我们探讨了两种用于音频信号的零-shot编辑技术,这些技术利用了预训练扩散模型上的DDPM反演。第一种技术源自图像领域,允许基于文本进行编辑。第二种是一种新颖的方法,可以在无监督的情况下发现语义上有意义的编辑方向。当应用于音乐信号时,这种方法展示了一系列具有音乐趣味性的修改,从控制特定乐器的参与到对旋律的即兴演奏。示例可在我们的示例页面https://hilamanor.github.io/AudioEditing/ 找到,代码可在https://github.com/hilamanor/AudioEditing/ 找到。
3D 高斯飘零技术的进展显著加快了 3D 重建和生成的速度。然而,这可能需要大量的高斯函数,从而产生大量的内存占用。本文介绍了 GES(广义指数飘零),这是一种新颖的表示方法,采用广义指数函数(GEF)来建模 3D 场景,需要更少的粒子来表示一个场景,因此在效率上明显优于高斯飘零方法,并具有可插拔替换高斯基础工具的能力。GES 在理论上和实证上都得到验证,在基本的 1D 设置和逼真的 3D 场景中表现出色。 它被证明更准确地表示具有清晰边缘的信号,这对于高斯函数来说通常是具有困难的,因为它们固有的低通特性。我们的实证分析表明,GEF 在拟合自然发生的信号(例如正方形、三角形和抛物线信号)方面优于高斯函数,从而减少了高斯飘零的内存占用增加所需的大量分割操作。通过频率调制损失的辅助,GES 在新视角合成基准测试中取得了竞争性能,同时只需要不到高斯飘零内存存储的一半,并且将渲染速度提高了多达 39%。代码可在项目网站 https://abdullahamdi.com/ges 上获得。
文本到图像(T2I)个性化的目标是将扩散模型定制为用户提供的参考概念,生成与目标提示对齐的概念多样图像。传统方法使用独特的文本嵌入来表示参考概念,往往无法准确模仿参考的外观。为解决这一问题,一个解决方案可以是将参考图像明确地纳入目标去噪过程中,即所谓的键-值替换。然而,先前的工作受限于局部编辑,因为它们会破坏预训练的T2I模型的结构路径。为了克服这一问题,我们提出了一种新颖的插件方法,名为DreamMatcher,将T2I个性化重新构想为语义匹配。具体而言,DreamMatcher通过语义匹配将目标值替换为与之对齐的参考值,同时保持结构路径不变,以保留预训练的T2I模型生成多样结构的通用能力。我们还引入了一种语义一致的遮罩策略,以隔离个性化概念与目标提示引入的无关区域。与现有的T2I模型兼容,DreamMatcher在复杂场景中显示出显著改进。深入分析证明了我们方法的有效性。
从原始感官数据序列推理是一个普遍存在的问题,涵盖领域从医疗设备到机器人技术。这些问题通常涉及使用长序列的原始传感器数据(例如磁力计、压阻器)来预测理想物理量的序列(例如力量、惯性测量)。虽然传统方法对于局部线性预测问题很有效,但在使用真实世界传感器时往往效果不佳。这些传感器通常是非线性的,受到外部变量(例如振动)的影响,并且表现出数据相关漂移。对于许多问题,由于获取基准标签需要昂贵设备,预测任务会因标记数据集较小而变得更加困难。在这项工作中,我们提出了分层状态空间模型(HiSS),这是一种概念简单、新颖的连续序列预测技术。HiSS将结构化状态空间模型堆叠在一起,形成时间层次结构。在从基于触觉的状态预测到基于加速度计的惯性测量等六个真实世界传感器数据集中,HiSS在均方误差上至少比现有的序列模型(如因果Transformer、LSTM、S4和Mamba)表现出至少23%的优越性。我们的实验进一步表明,HiSS在小型数据集上表现出高效的扩展性,并且与现有的数据过滤技术兼容。代码、数据集和视频可在https://hiss-csp.github.io找到。
最近,扩散模型越来越多地应用于时间数据,如视频、流体力学模拟或气候数据。这些方法通常在扩散过程中平等地处理后续帧的噪声量。本文探讨了滚动扩散:一种采用滑动窗口去噪过程的新方法。它通过为序列中出现较晚的帧分配更多噪声,确保扩散过程随时间逐渐恶化,反映了随着生成过程展开,对未来存在更大不确定性。从经验上讲,我们展示了在时间动态复杂时,滚动扩散优于标准扩散。具体而言,在使用Kinetics-600视频数据集进行视频预测任务以及在混沌流体动力学预测实验中,证明了这一结果。