每日精选AI研究论文及翻译
尽管大型语言模型在许多人工智能应用中取得了突破,但它们固有的庞大使得它们在资源受限的环境中具有计算成本高和部署具有挑战性的特点。本文记录了SmolLM2的开发过程,这是一种最先进的“小型”(17亿参数)语言模型(LM)。为了获得强大的性能,我们使用多阶段训练过程在约11万亿个数据标记上过度训练了SmolLM2,其中混合了网络文本和专门的数学、代码和遵循指令的数据。我们还在发现现有数据集过小或质量低的阶段引入了新的专门数据集(FineMath、Stack-Edu和SmolTalk)。为了指导我们的设计决策,我们进行了小规模消融实验,以及根据前一阶段的性能更新每个阶段的数据集混合比例的手动细化过程。最终,我们证明了SmolLM2优于其他最近的小型LM,包括Qwen2.5-1.5B和Llama3.2-1B。为了促进LM开发的未来研究以及小型LM的应用,我们发布了SmolLM2以及在项目过程中准备的所有数据集。
我们提出了一项基础性发现,挑战了我们对大型语言模型中复杂推理是如何产生的理解。尽管传统观点认为复杂的推理任务需要大量训练数据(>100,000个示例),但我们证明了,复杂的数学推理能力可以通过极少的示例有效地引发。通过全面的实验,我们提出的模型LIMO在数学推理方面表现出空前的性能。仅仅通过817个精心筛选的训练样本,LIMO在AIME上达到了57.1%的准确率,在MATH上达到了94.8%,相较于先前基于SFT的模型分别提高了6.5%和59.2%,同时仅使用了先前方法所需训练数据的1%。LIMO展示了出色的超出分布泛化能力,在10个不同基准测试中取得了40.5%的绝对改进,胜过了使用100倍数据训练的模型,挑战了SFT导致记忆而非泛化的观念。基于这些结果,我们提出了Less-Is-More推理假设(LIMO假设):在基础模型中,领域知识已经在预训练阶段得到全面编码时,复杂推理能力可以通过最少但精确编排的认知过程示范出现。该假设认为,复杂推理的引发门槛由两个关键因素决定:(1)模型在预训练期间编码知识基础的完整性,以及(2)后续训练示例作为“认知模板”的有效性,展示给模型如何利用其知识库解决复杂推理任务。为了促进高效数据推理的可重现性和未来研究,我们将LIMO作为一个全面的开源套件发布在https://github.com/GAIR-NLP/LIMO。
推理计算的规模化增强了大型语言模型(LLMs)中的推理,长链式思维(CoTs)使得后退和错误更正等策略成为可能。强化学习(RL)已成为开发这些能力的关键方法,然而,长CoTs出现的条件仍不清楚,RL训练需要谨慎的设计选择。在这项研究中,我们系统地调查了长CoT推理的机制,确定了使模型能够生成长CoT轨迹的关键因素。通过广泛的监督微调(SFT)和RL实验,我们提出了四个主要发现:(1)虽然SFT并非必需,但它简化了训练并提高了效率;(2)随着训练计算量的增加,推理能力往往会出现,但其发展并不是一定的,因此,奖励塑造对于稳定CoT长度的增长至关重要;(3)扩展可验证的奖励信号对RL至关重要。我们发现,利用带有过滤机制的嘈杂、从网络提取的解决方案具有强大潜力,特别适用于STEM推理等超出分布(OOD)任务;以及(4)像错误更正这样的核心能力在基础模型中本质上是存在的,但通过RL有效地激励这些技能以应对复杂任务需要大量计算,并且衡量它们的出现需要一种细致的方法。这些见解为优化训练策略以增强LLMs中长CoT推理提供了实用指导。我们的代码可在以下链接找到:https://github.com/eddycmu/demystify-long-cot。
长期以来,社会出现研究一直是社会科学的中心关注点。传统建模方法,如基于规则的基于代理的模型(ABMs),难以捕捉人类行为的多样性和复杂性,特别是行为经济学强调的非理性因素。最近,大型语言模型(LLM)代理作为模拟工具在社会科学和角色扮演应用中得到了广泛应用,用于建模人类行为。研究表明,LLMs可以考虑认知偏见、情绪波动和其他非理性影响,从而实现对社会经济动态更真实的模拟。在这项工作中,我们介绍了TwinMarket,这是一个利用LLMs来模拟社会经济系统的新型多代理框架。具体而言,我们研究了个体行为如何通过相互作用和反馈机制导致集体动态和 emergent 现象的产生。通过在模拟股票市场环境中进行实验,我们展示了个体行为如何引发群体行为,导致 emergent 结果,如金融泡沫和经济衰退。我们的方法为个体决策与集体社会经济模式之间复杂相互作用提供了宝贵的见解。
多模态大语言模型(MLLMs)展现出令人印象深刻的能力,但在复杂的视觉推理方面仍面临挑战。尽管最近的努力尝试通过整合OpenAI o1类似的结构化思维,采用显式搜索结构或教师引导的蒸馏来增强MLLMs的推理能力,但它们往往难以平衡性能和效率。一个关键限制是它们过分依赖大量数据和搜索空间,导致低效的隐式洞察提取和数据利用。为了解决这个问题,我们提出了AStar,一种通过蒙特卡洛树搜索(MCTS)进行多模态推理的自动化结构化思维范式。AStar利用MCTS驱动的分层结构从有限数据中自动推导高层认知推理模式。基于这些显式模式,我们设计了一个统一的推理框架,无缝整合模型的内部推理能力和外部推理指导,实现了在最小树迭代次数下的高效推理。这种新颖的范式在性能和效率之间取得了引人注目的平衡。大量实验表明AStar的有效性,在MathVerse基准测试中以7B骨干获得了卓越的准确性(54.0%),超过了GPT-4o(50.2%),同时保持了相当的数据和计算效率。
由于现有方法倾向于生成过于简化的单层输出或由优化引起的形状冗余,生成与认知对齐的分层SVG仍然具有挑战性。我们提出LayerTracer,这是一个基于扩散Transformer的框架,通过学习设计师的分层SVG创建过程,从一个新颖的顺序设计操作数据集中弥合了这一差距。我们的方法分为两个阶段:首先,一个文本条件的DiT生成多阶段栅格化建模蓝图,模拟人类设计工作流程。其次,通过逐层矢量化和路径去重,生成干净、可编辑的SVG。对于图像矢量化,我们引入了一种条件扩散机制,将参考图像编码为潜在标记,引导分层重建同时保持结构完整性。大量实验证明,LayerTracer在生成质量和可编辑性方面优于基于优化和神经网络的基线方法,有效地将AI生成的矢量与专业设计认知对齐。
大型语言模型(LLMs)在接受链式思维(CoT)数据训练时擅长推理和规划,其中逐步思考过程由文本标记明确概述。然而,这导致输入过长,其中许多词支持文本连贯性而非核心推理信息,处理这些输入需要大量计算资源。在这项工作中,我们提出了一种推理过程的混合表示,部分抽象化初始推理步骤,使用VQ-VAE生成的潜在离散标记,显著减少推理追踪的长度。我们探讨了在两种情况下使用潜在追踪抽象的方法:1)从头开始为Keys-Finding Maze问题训练模型,2)在这种混合数据上对LLMs进行微调,包括未见过的潜在标记在内的扩展词汇,用于逻辑和数学推理问题。为了促进有效学习,我们引入了一个简单的训练过程,随机混合潜在和文本标记,从而实现对新潜在标记的快速适应。我们的方法在各种基准测试中始终优于基准方法。
语言模型(LM)的后训练越来越依赖以下两个阶段:(i)知识蒸馏,其中LM被训练以模仿一个更大的教师LM,以及(ii)从人类反馈中强化学习(RLHF),其中LM通过优化奖励模型来对齐。在第二个RLHF阶段中,一个众所周知的挑战是奖励欺骗,即LM过度优化奖励模型。这种现象符合古德哈特定律,并可能导致在真实目标上性能下降。在本文中,我们调查了一个类似的现象,我们称之为教师欺骗,是否会在知识蒸馏过程中发生。这可能是因为教师LM本身是对真实分布的不完美近似。为了研究这一点,我们提出了一个受控的实验设置,包括:(i)代表地面真实分布的oracle LM,(ii)从oracle蒸馏出的教师LM,以及(iii)从教师蒸馏出的学生LM。我们的实验揭示了以下见解。当使用固定的离线数据集进行蒸馏时,教师欺骗会发生;此外,我们可以通过观察优化过程偏离多项式收敛定律的时刻来检测它。相比之下,采用在线数据生成技术有效地减轻了教师欺骗。更准确地说,我们确定数据多样性是防止欺骗的关键因素。总的来说,我们的发现深入理解了蒸馏在构建强大和高效LM方面的益处和局限性。
自动化代码生成在智能计算机编程和系统部署中变得越来越重要。然而,当前方法通常面临计算效率方面的挑战,缺乏对代码解析和错误校正的健壮机制。在这项工作中,我们提出了一个新颖的框架,PyCapsule,具有简单而有效的两代理管道和高效的自调试模块,用于Python代码生成。PyCapsule具有复杂的提示推断、迭代式错误处理和案例测试,确保高生成稳定性、安全性和正确性。在实证方面,与最先进的方法相比,PyCapsule在HumanEval上的成功率提高了高达5.7%,在HumanEval-ET上提高了10.3%,在BigCodeBench上提高了24.4%。我们还观察到,在进行更多自调试尝试的情况下,标准化成功率下降,可能受到保留中有限且嘈杂的错误反馈的影响。PyCapsule展示了在推进人工智能系统的轻量级和高效代码生成方面的广泛影响。
大型语言模型(LLMs)通过增加模型大小和/或数据规模取得了显著的性能提升。然而,最近的证据表明,通过这种方法获得的收益递减,这促使我们考虑增加推断时所消耗的计算量。现有的推断时缩放方法通常使用奖励模型,将任务视为搜索问题,但由于奖励模型中的近似误差,往往容易受到奖励欺骗的影响。在本文中,我们将推断时缩放视为概率推断任务,并利用基于抽样的技术来探索具有近似似然的状态空间模型的状态分布的典型集合,而不是直接优化其模态。我们提出了一种新颖的推断时缩放方法,通过将基于粒子的蒙特卡洛方法应用于此任务。我们的实证评估表明,我们的方法在各种具有挑战性的数学推理任务上比我们的确定性搜索对照方法具有4-16倍更好的缩放速率。使用我们的方法,我们展示了Qwen2.5-Math-1.5B-Instruct在仅4次展开中就能超越GPT-4o的准确性,而Qwen2.5-Math-7B-Instruct仅在32次展开中就能达到o1级别的准确性。我们的工作不仅提出了一种有效的推断时缩放方法,还将概率推断中丰富的文献与LLMs的推断时缩放联系起来,以在未来的工作中开发更加稳健的算法。代码和更多信息可在https://probabilistic-inference-scaling.github.io获取。
近年来,大型语言模型(LLMs)取得了快速发展,彻底改变了各种应用,并显著提高了便利性和生产率。然而,除了它们令人印象深刻的能力之外,也出现了伦理关切和新型攻击,如越狱。虽然大多数提示技术侧重于为个别情况优化对抗性输入,导致在处理大型数据集时产生更高的计算成本。较少的研究涉及训练通用攻击者的更一般设置,该攻击者可以转移到未见任务。在本文中,我们介绍了JUMP,这是一种基于提示的方法,旨在使用通用多提示来越狱LLMs。我们还将我们的方法调整为防御,我们称之为DUMP。实验结果表明,我们优化通用多提示的方法胜过现有技术。
模型合并是一种方法,它将多个经过微调的大型语言模型(LLMs)的参数和嵌入结合起来,为提高模型在各种任务中的性能同时保持计算效率提供了一种有前途的途径。本文介绍了激活信息合并(AIM),这是一种技术,它将LLMs的激活空间中的信息整合到合并过程中,以提高性能和鲁棒性。AIM被设计为一种灵活的、补充性的解决方案,适用于任何现有的合并方法。它旨在保留基础模型中的关键权重,借鉴了持续学习(CL)和模型压缩的原则。利用与任务无关的校准集,AIM在合并过程中有选择地优先考虑关键权重。我们通过实验证明,AIM显著提升了合并模型在多个基准测试中的性能。我们的研究结果表明,考虑激活空间信息可以在LLMs的模型合并策略中取得重大进展,基准性能提高了高达40%。
检索增强生成(RAG)使大型语言模型(LLMs)能够利用外部知识数据库生成基于事实的响应,而无需改变模型参数。尽管权重调整的缺失防止了通过模型参数的泄漏,但它引入了推理对手利用模型上下文中检索文档的风险。现有的成员推理和数据提取方法通常依赖越狱或精心设计的不自然查询,这些方法很容易被检测或通过RAG系统中常见的查询重写技术挫败。在这项工作中,我们提出了询问攻击(IA),这是一种针对RAG数据存储中文档的成员推理技术。通过构建只有在目标文档存在时才能回答的自然文本查询,我们的方法展示了成功推理只需30个查询,同时保持隐蔽性;与现有方法生成的对抗提示相比,直接的检测器识别到我们的攻击生成的对抗提示的频率高出约76倍。我们观察到,在各种RAG配置中,与先前的推理攻击相比,TPR@1%FPR提高了2倍,同时每个文档推理的成本低于0.02美元。
评估大型语言模型(LLMs)在实际应用中的适用性为它们在软件开发任务中的开发和使用提供了宝贵的见解。现有基准往往侧重于独立编码问题或特定库,忽视了多文件、基于项目的场景,并缺乏对一致性的严格评估。HackerRank-ASTRA基准引入了基于项目的编码问题,模拟了真实世界的场景。它通过32次运行(k = 32)和中位数标准偏差来评估模型的一致性,同时结合分类水平分析来评估子技能能力。对65个问题的初步评估显示,排名前三的模型 — o1、o1-preview 和 Claude-3.5-Sonnet-1022 — 实现了相当的平均分数为75%,在性能上没有统计学上显著差异。值得注意的是,Claude-3.5-Sonnet-1022 在问题之间表现出最高的一致性,具有较低的变异性(SD = 0.0497),与其他模型相比在统计上显著,突显了它在实际软件开发任务中的可靠性。