每日精选AI研究论文及翻译
大型语言模型已成为一种多功能工具,但在应用于缺乏大推理预算和大领域内训练集的任务时具有挑战性。本研究正式规范了这些约束条件,并区分了四个重要变量:预训练预算(用于在目标领域未知之前进行训练)、专业化预算(用于在目标领域已知之后进行训练)、推理预算和领域内训练集大小。在这些设置中,我们比较了机器学习文献中的不同方法。受推理成本限制,我们找到了比训练非常大的基本变压器模型的标准做法更好的替代方案。特别是,我们展示了超网络和专家混合模型对于大型预训练预算具有更好的困惑度,而在重要性采样数据集上训练的小型模型对于大型专业化预算是有吸引力的。
大型语言模型(LLMs)的进展显著推动了代码生成领域的发展。先前的工作将强化学习(RL)与编译器反馈相结合,以探索LLMs的输出空间,提升代码生成质量。然而,LLMs生成的长代码针对复杂人类需求的情况使得RL探索变得具有挑战性。此外,由于单元测试可能无法覆盖复杂代码,因此通过这些未执行的代码片段来优化LLMs是无效的。为了解决这些挑战,我们引入了StepCoder,这是一个用于代码生成的新型RL框架,由两个主要组件组成:CCCS通过将长序列代码生成任务分解为一系列代码完成子任务来解决探索挑战,而FGO则通过屏蔽未执行的代码段来提供细粒度优化来优化模型。此外,我们还构建了APPS+数据集用于RL训练,经过手工验证以确保单元测试的正确性。实验结果表明,我们的方法提高了探索输出空间的能力,并在相应基准测试中优于最先进的方法。
自其创立以来,规划一直是人工智能的核心追求之一,但早期的AI代理主要专注于受限环境,因为缺乏人类级规划所需的许多认知基础。最近,由大型语言模型(LLMs)驱动的语言代理展示了诸如工具使用和推理等有趣能力。这些语言代理是否能够在超出先前AI代理能力范围的更复杂环境中进行规划?为推进这一调查,我们提出了TravelPlanner,一个新的规划基准,专注于旅行规划,这是一个常见的现实世界规划场景。它提供了一个丰富的沙盒环境,各种工具用于访问近400万条数据记录,以及1225个精心策划的规划意图和参考计划。全面评估显示,当前的语言代理尚无法处理这样复杂的规划任务-即使是GPT-4的成功率也仅为0.6%。语言代理难以保持任务连贯性,使用正确的工具收集信息,或跟踪多个约束条件。然而,我们注意到,语言代理仅仅有可能解决这样一个复杂问题本身就是一项非平凡的进展。TravelPlanner为未来语言代理提供了一个具有挑战性但有意义的测试平台。
我们介绍了Pok\'eLLMon,这是第一个在战术战斗游戏中达到人类水平性能的LLM实体代理,如在Pok\'emon战斗中所展示的。Pok\'eLLMon的设计融合了三种关键策略:(i) 上下文强化学习,即时利用从战斗中提取的基于文本的反馈来迭代地优化策略;(ii) 知识增强生成,检索外部知识以抵消幻觉,并使代理能够及时和正确地行动;(iii) 一致行动生成,以减轻代理面对强大对手时的惊慌切换现象,从而躲避战斗。我们展示了与人类的在线战斗,证明了Pok\'eLLMon的人类化战略和及时决策能力,其在梯队比赛中获胜率达到49%,在邀请战斗中获胜率达到56%。我们的实现和可玩战斗日志可在以下链接找到:https://github.com/git-disl/PokeLLMon。
在视频合成中,生成丰富且可控的运动是一个关键挑战。我们提出了一种名为Boximator的新方法,用于精细控制运动。Boximator引入了两种约束类型:硬盒和软盒。用户使用硬盒在条件帧中选择对象,然后使用任一类型的盒子在未来帧中粗略或严格地定义对象的位置、形状或运动路径。Boximator作为现有视频扩散模型的插件运行。其训练过程通过冻结原始权重并仅训练控制模块来保留基础模型的知识。为解决训练挑战,我们引入了一种新颖的自我跟踪技术,极大简化了盒子-对象相关性的学习。从经验上看,Boximator实现了最先进的视频质量(FVD)分数,在两个基础模型的基础上有所改进,并在融合盒约束后进一步提升。其强大的运动可控性通过边界框对齐度量的显著增加得到验证。人类评估还表明,用户更青睐于Boximator生成结果,而非基础模型。
Transformer架构是序列建模中的主导,但越来越多的人对使用不依赖于序列长度的固定大小潜在状态的模型表现出兴趣,我们称之为“广义状态空间模型”(GSSMs)。本文展示了,虽然GSSMs在推理效率方面很有前途,但在需要从输入上下文复制的任务上,与Transformer模型相比存在局限性。我们从理论上分析了简单的字符串复制任务,并证明了双层Transformer可以复制指数长度的字符串,而GSSMs受其固定大小潜在状态的基本限制。在实证方面,我们发现在需要复制上下文的合成任务中,Transformer在效率和泛化方面优于GSSMs。最后,我们评估了预训练的大型语言模型,并发现Transformer模型在复制和从上下文中检索信息方面远远优于状态空间模型。综合这些结果表明,在实际任务中,Transformer和GSSMs之间存在根本差距。
尽管大型语言模型(LLMs)已经展示了它们在复杂推理任务中的熟练表现,但它们在动态、互动和竞争场景中的表现——比如商业战略和股市分析——仍未得到充分探讨。为了弥补这一差距,我们正式探讨LLMs在快速演变环境中进行决策的动态推理能力。我们引入了两个基于博弈论的试点挑战,模拟了现实世界动态决策制定的复杂性。这些挑战定义明确,能够清晰、可控和精确地评估LLMs的动态推理能力。通过大量实验,我们发现现有的推理方法在需要k层思考的动态环境中往往表现不佳——这是之前研究未能解决的关键概念。为了解决这一问题,我们提出了一种新颖的LLMs推理方法,名为“K层推理”。该方法采用对手的视角,基于可用的历史信息递归地运用k层思考,显著提高了对手后续动作的预测准确性,并促进更具战略性的决策制定。这项研究不仅为评估动态推理设定了稳健的定量基准,还显著提升了LLMs在动态环境中的熟练程度。
本技术报告描述了nomic-embed-text-v1的训练,这是第一个完全可复制、开源、开放权重、开放数据、8192上下文长度的英文文本嵌入模型。该模型在短文本和长文本任务中均优于OpenAI Ada-002和OpenAI text-embedding-3-small。我们在Apache 2许可下发布了训练代码和模型权重。与其他开源模型不同,我们提供了一个训练数据加载器,其中包含2.35亿个经过筛选的文本对,可实现对nomic-embed-text-v1的完全复制。您可以在https://github.com/nomic-ai/contrastors 找到复制该模型所需的代码和数据。
大型模型的出现标志着机器学习进入了一个新时代,通过利用庞大的数据集捕捉和综合复杂模式,大幅优于较小的模型。尽管取得了这些进展,但在扩展方面的探索,特别是在音频生成领域,仍然受限,之前的努力未延伸到高保真(HiFi)44.1kHz领域,并且在高频领域存在频谱不连续和模糊性问题,同时对域外数据缺乏鲁棒性。这些限制限制了模型在包括音乐和歌声生成在内的多种用例中的适用性。我们的工作引入了通过可扩展生成对抗网络(EVA-GAN)增强各种音频生成,相比先前最先进技术在频谱和高频重建以及域外数据性能方面取得了显著改进,实现了通过利用一个包含36,000小时44.1kHz音频的庞大数据集、一个上下文感知模块、一个人机协同的工件测量工具包,并将模型扩展到约2亿参数的HiFi音频生成。我们的工作演示可在https://double-blind-eva-gan.cc 上找到。