每日精选AI研究论文及翻译
我们提出了Adam-mini,这是一种优化器,其性能与AdamW相当或更好,但内存占用减少了45%至50%。Adam-mini通过减少Adam中的学习率资源(即1/v)来降低内存占用。我们发现v中超过90%的学习率可以被安全地移除,方法是:(1)根据我们提出的Hessian结构原则将参数精心分区成块;(2)为每个参数块分配一个单一但良好的学习率。我们进一步发现,对于每个参数块,存在一个高质量的单一学习率可以胜过Adam,只要有足够的资源来搜索它。然后,我们提供了一种寻找良好学习率的经济有效方法,并提出了Adam-mini。在经验上,我们验证了Adam-mini在从125M到7B的各种规模的语言模型上进行预训练、监督微调和RLHF时的性能与AdamW相当或更好。Adam-mini的减少内存占用还减轻了GPU和CPU之间的通信开销,从而提高了吞吐量。例如,在2个A800-80GB GPU上预训练Llama2-7B时,Adam-mini的吞吐量比AdamW高出49.6%,节省了33%的预训练时间。
在各个领域中,AI代理变得越来越重要,实现了自主决策和问题解决。为了有效运行,这些代理需要一个规划过程,确定最佳行动方案,然后执行计划中的行动。本文介绍了一种高效的设备内规划-执行框架,将规划和行动执行分为两个独立组件:基于Phi-3 Mini的规划代理,这是一个针对边缘设备优化的38亿参数LLM,以及使用章鱼模型进行功能执行的行动代理。规划代理首先通过将任务分解为一系列子步骤来响应用户查询,然后由行动代理执行这些步骤。为了在资源受限设备上优化性能,我们采用模型微调而非上下文学习,降低计算成本和能耗,同时提高响应时间。我们的方法涉及使用GPT-4根据可用功能生成多样化的规划查询和响应,随后进行验证以确保数据质量。我们在这个筛选后的数据集上微调了Phi-3 Mini模型,在我们的领域内测试环境中实现了97%的成功率。为了解决多领域规划挑战,我们开发了一种多LoRA训练方法,将在不同功能子集上训练的LoRA的权重合并。这种方法在资源受限设备上实现了计算效率的同时,灵活处理复杂的多领域查询。为了支持进一步研究,我们已在https://huggingface.co/NexaAIDev/octopus-planning开源了我们的模型权重。有关演示,请参阅https://www.nexa4ai.com/octo-planner。
在应用多模态大型语言模型(MLLMs)进行分析科学论文或财务报告等真实任务时,图表理解起着关键作用。然而,现有数据集通常侧重于过于简化和同质化的图表,配以基于模板的问题,导致对进展的过于乐观的评估。我们证明,尽管开源模型在这些基准测试上似乎胜过强大的专有模型,但通过稍微不同的图表或问题进行简单的压力测试,性能可能会下降高达34.5%。在这项工作中,我们提出了CharXiv,一个包含来自arXiv论文的2,323个自然、具有挑战性和多样化图表的综合评估套件。CharXiv包括两种类型的问题:1)关于检查基本图表元素的描述性问题,2)需要在图表中复杂的视觉元素之间综合信息的推理问题。为确保质量,所有图表和问题均由人类专家手工挑选、策划和验证。我们的结果揭示了最强专有模型(即GPT-4o)的推理能力与最强开源模型(即InternVL Chat V1.5)之间存在着一个实质性且先前被低估的差距,前者达到47.1%的准确率,而后者达到29.2%。所有模型远远落后于人类80.5%的表现,突显了现有MLLMs在图表理解能力上的弱点。我们希望CharXiv通过提供更加真实和忠实的进展评估,促进未来关于MLLM图表理解的研究。项目页面和排行榜:https://charxiv.github.io/
我们提出了一个新颖的文本到视频(T2V)生成基准,ChronoMagic-Bench,用于评估T2V模型(如Sora和Lumiere)在延时视频生成中的时间和变形能力。与现有侧重于生成视频的视觉质量和文本相关性的基准不同,ChronoMagic-Bench专注于模型生成具有显著变形幅度和时间连贯性的延时视频的能力。该基准通过自由形式文本查询考察T2V模型的物理、生物和化学能力。为此,ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考,分为四种主要类型的延时视频:生物、人造、气象和物理现象,进一步划分为75个子类别。这种分类全面评估了模型处理多样化和复杂变换的能力。为了准确对齐人类偏好与基准,我们引入了两个新的自动度量标准,MTScore和CHScore,用于评估视频的变形属性和时间连贯性。MTScore衡量变形幅度,反映随时间变化的程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。基于ChronoMagic-Bench,我们对十个代表性T2V模型进行了全面的手动评估,揭示它们在不同提示类别上的优势和劣势,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。此外,我们创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p高质量延时视频和详细说明,确保具有高物理相关性和大变形幅度。
混合专家(MoE)由于其独特属性和卓越性能,特别是在语言任务中,正受到越来越多的关注。通过为每个标记稀疏激活一组参数,MoE架构可以增加模型大小而不牺牲计算效率,实现更好的性能和训练成本之间的权衡。然而,MoE的基本机制仍然缺乏进一步的探索,其模块化程度仍有待验证。在本文中,我们首次尝试理解基于MoE的大型语言模型的内部运作。具体而言,我们全面研究了三个最近基于MoE的模型的参数和行为特征,并揭示了一些有趣的观察结果,包括(1)神经元表现得像细粒度专家。(2)MoE的路由器通常选择具有较大输出范数的专家。(3)随着层次的增加,专家的多样性也增加,而最后一层是一个异常值。基于这些观察结果,我们还为广泛的MoE从业者提供建议,如路由器设计和专家分配。我们希望这项工作能为MoE框架和其他模块化架构的未来研究提供启示。代码可在https://github.com/kamanphoebe/Look-into-MoEs找到。
我们介绍WildGuard——一款面向LLM安全的开放式、轻量级的审查工具,实现了三个目标:(1)识别用户提示中的恶意意图,(2)检测模型响应的安全风险,以及(3)确定模型拒绝率。WildGuard满足了对自动安全审查和LLM交互评估日益增长的需求,提供了一个一站式工具,具有增强的准确性,并在13个风险类别中提供广泛覆盖。虽然现有的开放式审查工具(如Llama-Guard2)在对直接的模型交互进行分类方面表现相当不错,但在识别对抗性越狱和评估模型拒绝等方面远远落后于GPT-4的提示,这是评估模型响应安全行为的关键指标。 为了解决这些挑战,我们构建了WildGuardMix,这是一个大规模且精心平衡的多任务安全审查数据集,包含92K个标记示例,涵盖了直接提示和对抗性越狱,并配有各种拒绝和遵从响应。WildGuardMix是WildGuard的训练数据WildGuardTrain和一个高质量的人工注释审查测试集WildGuardTest的组合,后者包含5K个标记项目,涵盖广泛的风险场景。通过对WildGuardTest和十个现有公共基准测试的广泛评估,我们展示了WildGuard在开源安全审查中在所有三个任务上与十个强大的现有开源审查模型相比取得了最先进的性能(例如,在拒绝检测上提高了高达26.4%)。重要的是,WildGuard与GPT-4的性能相匹配,有时甚至超过(例如,在提示有害性识别上提高了高达3.9%)。WildGuard在LLM界面中作为高效的安全审查员,将越狱攻击的成功率从79.8%降低到2.4%。
电子健康记录(EHRs)对于存储全面的患者医疗记录至关重要,将结构化数据(例如药物)与详细的临床笔记(例如医生笔记)结合在一起。这些元素对于简单的数据检索至关重要,并为深入的、具有背景信息的患者护理洞察提供支持。然而,由于不直观的EHR系统设计和人为错误,它们经常存在差异,给患者安全带来严重风险。为了解决这个问题,我们开发了EHRCon,这是一个新的数据集和任务,专门设计用于确保EHR中结构化表格和非结构化笔记之间的数据一致性。EHRCon是与医疗专业人士合作使用MIMIC-III EHR数据集精心制作的,包括对105份临床笔记进行手动标注,以检查其与数据库条目的一致性,共涉及3,943个实体。EHRCon有两个版本,一个使用原始的MIMIC-III模式,另一个使用OMOP CDM模式,以增加其适用性和泛化能力。此外,利用大型语言模型的能力,我们引入了CheckEHR,这是一个用于验证临床笔记和数据库表格一致性的新框架。CheckEHR利用八个阶段的过程,在少样本学习和零样本学习环境中展现出有希望的结果。代码可在https://github.com/dustn1259/EHRCon 获取。
AI社区一直在探索通往人工通用智能(AGI)的途径,通过开发“语言代理”,这些代理是复杂的大型语言模型(LLMs)管道,涉及提示技术和工具使用方法。虽然语言代理在许多现实世界任务中展示了令人印象深刻的能力,但当前语言代理研究的一个基本限制是它们是以模型为中心或以工程为中心的。也就是说,语言代理的提示、工具和管道的进展需要人类专家进行大量手工工程工作,而不是自动从数据中学习。我们认为,从以模型为中心或以工程为中心转变为以数据为中心,即语言代理能够在环境中自主学习和演化的能力,是它们可能实现AGI的关键。 在这项工作中,我们介绍了代理符号学习,这是一个系统框架,使语言代理能够以数据为中心的方式使用符号优化器自我优化。具体而言,我们将代理视为符号网络,其中可学习的权重由提示、工具和它们的堆叠方式定义。代理符号学习旨在通过模仿连接主义学习中的两个基本算法:反向传播和梯度下降,优化语言代理内的符号网络。代理符号学习不处理数值权重,而是使用权重、损失和梯度的自然语言模拟。我们在标准基准和复杂的现实世界任务上进行了概念验证实验,并展示代理符号学习使语言代理能够在创建和部署后更新自身,从而产生“自我演化代理”。
足球是一项全球受欢迎的运动,拥有庞大的观众群。在本文中,我们考虑构建一个自动足球比赛评论模型,以提升观众的观赏体验。总体而言,我们做出以下贡献:首先,观察到现有数据集中普遍存在的视频文本不对齐问题,我们手动为49场比赛注释时间戳,建立了一个更为健壮的足球比赛评论生成基准,命名为SN-Caption-test-align;其次,我们提出了一个多模态时间对齐流程,以自动纠正和过滤现有数据集,规模化地创建了一个更高质量的足球比赛评论数据集用于训练,标记为MatchTime;第三,基于我们精心筛选的数据集,我们训练了一个自动生成评论的模型,命名为MatchVoice。大量实验和消融研究已经证明了我们的对齐流程的有效性,以及在精心筛选的数据集上训练模型实现了评论生成的最新性能,展示了更好的对齐可以显著提升下游任务的性能。
大型语言模型(LLMs)展示了令人印象深刻的推理能力,特别是在文本数学问题求解方面。然而,现有的开源图像指导微调数据集,每个图像包含的问题-答案对有限,未能充分利用视觉信息来增强多模态语言模型(MLLMs)的数学推理能力。为弥补这一差距,我们通过收集来自24个现有数据集的40K高质量图像及问题-答案对,并合成320K新对,创建了MathV360K数据集,提升了多模态数学问题的广度和深度。我们引入了Math-LLaVA,这是一个基于LLaVA-1.5的模型,经过MathV360K微调。这种新颖方法显著提高了LLaVA-1.5的多模态数学推理能力,使其在MathVista的minitest分割上实现了19点增长,并表现出与GPT-4V可比的性能。此外,Math-LLaVA展示了增强的泛化能力,在MMMU基准测试中显示出显著改进。我们的研究突出了数据集多样性和合成在提升MLLMs数学推理能力方面的重要性。代码和数据可在以下链接获取:https://github.com/HZQ950419/Math-LLaVA。
我们介绍了WildTeaming,这是一个自动的LLM安全红队框架,它通过挖掘野外用户-聊天机器人交互来发现5.7K个独特的监狱越狱策略集群,然后组合多种策略以系统地探索新型越狱方法。与之前通过招募人工工作者、基于梯度的优化或LLMs的迭代修订执行红队行动的工作相比,我们的工作从未被明确指示要破解系统的聊天机器人用户中调查越狱。WildTeaming揭示了前沿LLMs的以前未知的漏洞,导致对抗性攻击的多样性和成功性比最先进的越狱方法高出多达4.6倍。 虽然存在许多用于越狱评估的数据集,但很少有用于越狱训练的开源数据集,因为即使模型权重是公开的,安全训练数据也是封闭的。通过WildTeaming,我们创建了WildJailbreak,这是一个大规模的开源合成安全数据集,包含262K个普通(直接请求)和对抗性(复杂越狱)提示-响应对。为了减轻夸大的安全行为,WildJailbreak提供了两种对比类型的查询:1)有害查询(普通和对抗性)和2)类似于有害查询形式但不包含危害的良性查询。由于WildJailbreak显著提升了现有安全资源的质量和规模,它独特地使我们能够检验数据的扩展效应以及数据属性和模型能力在安全训练期间的相互作用。通过广泛的实验,我们确定了使安全行为达到理想平衡的训练属性:适当的保护而不过度拒绝,有效处理普通和对抗性查询,并且在一般能力方面减少最小化,如果有的话。WildJailbreak的所有组件都有助于实现模型的平衡安全行为。
最近,深度神经策略已被广泛应用于各种领域,从生物技术到自动化金融系统。然而,利用深度神经网络来逼近值函数引发了对决策边界稳定性的担忧,特别是关于政策决策对不可识别、非鲁棒特征的敏感性,这是由于高度非凸和复杂的深度神经流形所致。这些担忧构成了理解深度神经策略推理和其基本限制的障碍。因此,开发旨在理解神经网络策略学习表示中敏感性的技术至关重要。为了实现这一目标,我们引入了一个在时间和空间上提供深度神经策略决策边界不稳定方向系统分析的理论基础方法。通过在Arcade Learning Environment (ALE)中的实验,我们展示了我们的技术在识别相关不稳定方向以及测量样本偏移如何重塑神经策略景观中敏感方向集合方面的有效性。最重要的是,我们展示了最先进的鲁棒训练技术在学习不相交的不稳定方向时,与标准训练相比,随着时间的推移振荡显著增大。我们相信我们的结果揭示了强化学习策略决策过程的基本属性,并有助于构建可靠和鲁棒的深度神经策略。
最近交错式大型多模态模型(LMMs)在少样本学习中取得的成功表明,在具有许多示例的情境学习(ICL)中可能对学习新任务有所帮助。然而,这种多样本多模态ICL设置存在一个关键问题:它在预训练阶段设定的模型上下文长度会受到根本性的限制。这个问题在多模态领域尤为突出,因为它需要处理文本和图像,需要额外的标记。这促使我们需要一种多模态方法,可以将许多样本压缩成更少的标记,而无需微调。在这项工作中,我们通过利用多模态任务向量(MTV)使LMMs能够执行多模态、多样本的情境学习,这些MTV是压缩在模型的注意力头中的情境示例的紧凑隐式表示。具体而言,我们首先证明了LMMs中存在这种MTV,然后利用这些提取的MTV,使其能够为各种视觉与语言任务实现多样本的情境学习。我们的实验表明,MTV能够随着压缩样本数量的增加而提高性能,并且能够推广到类似的跨领域任务,而无需额外的上下文长度进行推断。
大型语言模型(LLM)的服务已经从无状态转变为有状态系统,利用诸如上下文缓存和分解推理等技术。这些优化扩展了键值(KV)缓存的寿命和领域,需要一种新的架构方法。我们提出了MemServe,这是一个统一的系统,整合了请求间和请求内的优化。MemServe引入了MemPool,一个管理分布式内存和KV缓存的弹性内存池。利用MemPool API,MemServe首次将上下文缓存与分解推理结合起来,由全局调度器支持,通过基于全局提示树的局部感知策略增强缓存重用。测试表明,MemServe显著改善了作业完成时间和首次响应时间。