每日精选AI研究论文及翻译
过程奖励模型(PRMs)已成为大型语言模型(LLMs)数学推理中过程监督的一种有前途的方法,旨在识别和减轻推理过程中的中间错误。然而,有效PRMs的开发面临着重大挑战,特别是在数据标注和评估方法方面。本文通过大量实验表明,通常使用的基于蒙特卡洛(MC)估计的PRMs数据合成通常表现不佳,并且泛化性较LLM作为评判者和人类标注方法差。MC估计依赖完成模型来评估当前步骤的正确性,导致步骤验证不准确。此外,我们发现传统的最佳N(BoN)评估策略中存在潜在偏见:(1)不可靠的策略模型生成具有正确答案但有缺陷过程的响应,导致BoN的评估标准与PRM的过程验证目标之间不一致。 (2)PRMs对此类响应的容忍导致BoN分数被夸大。 (3)现有的PRMs在最终答案步骤上有相当比例的最低分数,揭示了从过程到结果为基础的评估在BoN优化PRMs中的转变。为解决这些挑战,我们开发了一种共识过滤机制,有效地将MC估计与LLM作为评判者相结合,并提倡结合响应级和步骤级指标的更全面的评估框架。基于这些机制,我们显著提高了模型在BoN评估和逐步错误识别任务中的性能和数据效率。最后,我们发布了一个新的最先进PRM,优于现有的开源替代方案,并为未来构建过程监督模型的研究提供了实用指南。
将语言模型扩展以处理更长的输入序列通常需要大型键-值(KV)缓存,这会导致推断过程中出现大量的内存开销。在本文中,我们提出了张量积注意力(TPA),这是一种使用张量分解来紧凑表示查询、键和值的新型注意力机制,显著减小了推断时的KV缓存大小。通过将这些表示因子分解为上下文低秩组件(上下文因子分解),并与RoPE无缝集成,TPA在提高模型质量的同时实现了内存效率。基于TPA,我们引入了张量积注意力变换器(T6),这是一种用于序列建模的新模型架构。通过对语言建模任务进行广泛的实证评估,我们证明了T6在各种指标上超越了标准Transformer基线模型,包括MHA、MQA、GQA和MLA,包括困惑度和一系列著名的评估基准。值得注意的是,TPA的内存效率使得在固定资源约束下处理更长序列成为可能,解决了现代语言模型中的关键可扩展性挑战。代码可在https://github.com/tensorgi/T6找到。
视觉语言模型(VLMs)的发展受到大规模和多样化的多模态数据集的推动。然而,通向通用生物医学VLMs的进展受限于生物学和医学领域缺乏注释的、公开可访问的数据集。现有的努力局限于狭窄领域,缺乏科学文献中编码的生物医学知识的完整多样性。为了填补这一空白,我们引入了BIOMEDICA,这是一个可扩展的、开源的框架,用于提取、注释和序列化PubMed Central开放获取子集的全部内容,形成一个易于使用、公开可访问的数据集。我们的框架生成了一个包含超过2400万个独特的图像文本对的综合存档,来自超过600万篇文章。同时提供元数据和专家指导的注释。我们通过发布BMCA-CLIP展示了我们资源的实用性和可访问性,这是一套通过流式传输不断在BIOMEDICA数据集上进行预训练的CLIP风格模型套件,消除了本地下载27 TB数据的需求。平均而言,我们的模型在40个任务上实现了最先进的性能,涵盖了病理学、放射学、眼科学、皮肤科、外科学、分子生物学、寄生学和细胞生物学,以6.56%的平均改进表现出色,其中在皮肤科和眼科学中高达29.8%和17.5%,并且在更强的图像文本检索方面表现更佳,同时使用的计算资源减少了10倍。为了促进可重复性和合作,我们向更广泛的研究社区发布了我们的代码库和数据集。
自适应大型语言模型(LLMs)旨在解决传统微调方法所面临的挑战,这些方法通常在计算上很昂贵,并且在处理多样化任务时缺乏灵活性。我们引入了\implname,这是一个新颖的自适应框架,通过有选择地调整它们的权重矩阵的单个组件,实时地为未知任务调整LLMs。在推断过程中,\implname采用两步机制:首先,一个调度系统识别任务属性,然后使用强化学习训练的任务特定“专家”向量被动态混合,以获得针对输入提示的定向行为。我们的方法在参数更少、效率更高的情况下胜过了常见方法,如LoRA。\implname在不同的LLM架构和模态,包括视觉-语言任务中展现了多样性。\implname代表了一个重大进步,为增强LLMs的适应性和任务特定性能提供了一个可扩展、高效的解决方案,为真正动态、自组织的人工智能系统铺平了道路。
最近对大型语言模型(LLMs)和多模态语音文本模型的进展为实现无缝语音交互奠定了基础,实现了实时、自然和类人对话。以往的语音交互模型可分为本地和对齐两类。本地模型将语音和文本处理集成在一个框架中,但在处理不同序列长度和预训练不足等问题上存在困难。对齐模型保留文本LLM功能,但往往受限于小数据集和狭窄的语音任务范围。在本研究中,我们介绍了MinMo,一个具有约80亿参数的多模态大型语言模型,用于实现无缝语音交互。我们解决了以往对齐多模态模型的主要局限性。我们通过多阶段的语音到文本对齐、文本到语音对齐、语音到语音对齐和双工交互对齐,在140万小时的多样化语音数据和广泛的语音任务上训练MinMo。经过多阶段训练,MinMo在语音理解和生成的各种基准测试中取得了最先进的性能,同时保持了文本LLM的功能,并且实现了全双工对话,即用户和系统之间的同时双向通信。此外,我们提出了一种新颖简单的语音解码器,优于以往的语音生成模型。MinMo的增强指令遵循能力支持根据用户指令控制语音生成,包括情感、方言、语速和模仿特定声音等各种细微差别。对于MinMo,语音到文本的延迟约为100毫秒,全双工延迟在理论上约为600毫秒,在实践中约为800毫秒。MinMo项目网页为https://funaudiollm.github.io/minmo,代码和模型将很快发布。
最近的视频生成模型展示了在生成持续几秒钟的高质量视频剪辑方面的有希望的结果。然而,这些模型在生成传达清晰和信息丰富事件的长序列方面面临挑战,从而限制了它们支持连贯叙述的能力。在本文中,我们提出了一个大规模烹饪视频数据集,旨在推动烹饪领域长篇叙事生成的发展。我们利用最先进的视觉语言模型(VLMs)和视频生成模型分别验证了我们提出的数据集在视觉保真度和文本描述准确性方面的质量。我们进一步引入了一个长篇叙事视频导演,以增强生成视频中的视觉和语义连贯性,并强调了调整视觉嵌入以实现整体视频质量改善的作用。我们的方法展示了在生成视觉详细且语义对齐的关键帧方面的显著改进,支持通过在视频生成过程中整合文本和图像嵌入的微调技术。项目页面:https://videoauteur.github.io/
在我们之前对O1复制(第1部分:旅程学习[秦等,2024年]和第2部分:蒸馏[黄等,2024年])的调查基础上,本研究探讨了大型语言模型(LLMs)在医学推理任务中推理时间缩放的潜力,涵盖了从诊断决策到治疗规划的范围。通过对医学基准(MedQA、Medbullets和JAMA临床挑战)进行大量实验,我们的调查揭示了几个关键见解:(1)增加推理时间确实会提高性能。在一个适度的训练集(500个样本)的情况下,我们的模型实现了6%-11%的显著性能改进。(2)任务复杂度直接与所需推理链的长度相关,证实了对于具有挑战性问题,需要进行扩展思维过程的必要性。(3)我们模型生成的不同诊断符合假设演绎法则,产生了一个可能解释患者症状的潜在疾病列表,并通过评估证据系统地缩小这些可能性。这些发现展示了推理时间缩放与旅程学习在提升LLMs在现实世界临床推理能力方面的有希望的协同作用。
检索增强生成(RAG)在开放领域问答任务中展现出卓越性能。然而,传统搜索引擎可能检索到表面内容,限制了LLM处理复杂、多层信息的能力。为解决这一问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM遍历网站子页面系统提取高质量数据的能力。我们提出了WebWalker,这是一个模拟人类网页导航的多智能体框架,通过探索-评论家范式实现。广泛的实验结果表明,WebWalkerQA具有挑战性,并展示了RAG与WebWalker结合在真实场景中的水平和垂直整合的有效性。
大型语言模型(LLMs)已在各种任务中展现出卓越的性能,但它们的训练仍然需要大量资源,并且容易受到训练不稳定等关键挑战的影响。这种不稳定的主要原因之一是梯度和损失的突增,这会干扰学习过程,通常导致昂贵的干预措施,如检查点恢复和实验重启,进一步加剧低效性。本文对LLM训练中观察到的梯度突增进行了全面调查,揭示了它们在多种架构和数据集中的普遍存在。我们的分析显示,这些突增可能比典型梯度大1000倍,严重损害模型性能。为了解决这个问题,我们提出了一种新型优化器Spike-Aware Adam with Momentum Reset SPAM,旨在通过动量重置和感知梯度裁剪来抵消梯度突增。广泛的实验,包括预训练和微调,表明SPAM在各种任务中持续优于Adam及其变种,包括(1)从60M到1B的LLM预训练,(2)4位LLM预训练,(3)强化学习和(4)时间序列预测。此外,SPAM通过启用稀疏动量实现了内存高效训练,仅维护和更新动量项的子集。在内存限制条件下运行时,SPAM胜过GaLore和Adam-Mini等最先进的内存高效优化器。我们的工作强调了在LLM训练中减轻梯度突增的重要性,并引入了一种有效的优化策略,提高了训练稳定性和资源效率。代码可在https://github.com/TianjinYellow/SPAM-Optimizer.git获取。
我们介绍了Uncommon Objects in 3D(uCO3D),这是一个新的面向对象的数据集,用于3D深度学习和3D生成人工智能。uCO3D是最大的公开高分辨率对象视频集,具有3D注释,确保全方位360度覆盖。与MVImgNet和CO3Dv2相比,uCO3D具有更大的多样性,涵盖了1000多个对象类别。由于对收集的视频和3D注释进行了广泛的质量检查,因此质量更高。类似于类似的数据集,uCO3D包含了3D摄像机姿势、深度图和稀疏点云的注释。此外,每个对象都配有标题和3D高斯斑点重建。我们在MVImgNet、CO3Dv2和uCO3D上训练了几个大型3D模型,并发现使用后者可以获得更好的结果,表明uCO3D更适合学习应用。
化学推理通常涉及复杂的多步骤过程,需要精确计算,即使是轻微错误也可能导致连锁失败。此外,大型语言模型(LLMs)在处理特定领域的公式、准确执行推理步骤以及有效整合代码时会遇到困难,尤其是在处理化学推理任务时。为了解决这些挑战,我们提出了ChemAgent,这是一个旨在通过动态、自我更新的库提高LLMs性能的新型框架。该库通过将化学任务分解为子任务,并将这些子任务编译成结构化集合,以便将来进行查询。然后,当面临新问题时,ChemAgent从库中检索并细化相关信息,我们称之为记忆,促进有效的任务分解和解决方案的生成。我们的方法设计了三种记忆类型和一个增强库的推理组件,使LLMs能够通过经验不断改进。来自SciBench的四个化学推理数据集上的实验结果表明,ChemAgent实现了高达46%(GPT-4)的性能提升,明显优于现有方法。我们的发现表明在未来的应用中有巨大潜力,包括药物发现和材料科学等任务。我们的代码可在https://github.com/gersteinlab/chemagent找到。
基础模型依赖于大规模网络抓取的数据集,这些数据集通常包含嘈杂数据、偏见和无关内容。现有的数据选择技术通常使用人类启发式方法、下游评估数据集或专门的评分模型,可能会忽略训练过程中样本的效用。相反,我们提出了一种新方法,即模仿评分(Mimic Score),这是一种数据质量度量标准,利用预训练的参考模型作为指导,评估数据样本对于训练新模型的有用性。它依赖于新模型参数的梯度与指向权重空间中参考模型的向量之间的对齐。与这个方向不一致的样本被认为是低价值的,可以被过滤掉。受模仿评分的启发,我们开发了Grad-Mimic,这是一个数据选择框架,可以识别和优先考虑有用的样本,自动化选择过程以创建有效的过滤器。从经验上看,使用模仿评分来指导模型训练在六个图像数据集上产生了一致的性能提升,并增强了CLIP模型的性能。此外,模仿评分及其相关的过滤器改进了现有的过滤方法,并提供了对数据集质量的准确估计。