每日精选AI研究论文及翻译
机器遗忘(MU)对于增强深度学习模型的隐私和安全性至关重要,尤其是对于大型多模态语言模型(MLLMs),通过消除特定的私人或危险信息。虽然在文本和视觉模态中,MU已经取得了显著进展,但多模态遗忘(MMU)仍然受到极大的忽视,部分原因是缺乏适用的开源基准。为了解决这个问题,我们引入了CLEAR,一个新的基准,旨在评估MMU方法。CLEAR包含200个虚构个体和3,700张图像,与相应的问答对相关联,使得能够在各种模态下进行彻底评估。我们评估了10种MU方法,并对其进行了适应以用于MMU,并突出了多模态遗忘特有的新挑战。我们还证明了简单的ell_1正则化对LoRA权重可以显著减轻灾难性遗忘,保持模型对保留数据的性能。该数据集可在https://huggingface.co/datasets/therem/CLEAR 上获得。
涉及表格数据的数据科学任务提出了复杂的挑战,需要复杂的问题解决方法。我们提出了AutoKaggle,这是一个强大且以用户为中心的框架,可通过协作式多智能体系统帮助数据科学家完成日常数据流程。AutoKaggle实施了一个迭代开发过程,结合了代码执行、调试和全面的单元测试,以确保代码的正确性和逻辑一致性。该框架提供高度可定制的工作流程,允许用户在每个阶段进行干预,从而将自动化智能与人类专业知识整合在一起。我们的通用数据科学工具包包括经过验证的数据清洗、特征工程和建模函数,构成了这一解决方案的基础,通过简化常见任务来提高生产率。我们选择了8个Kaggle竞赛来模拟真实应用场景中的数据处理工作流程。评估结果表明,AutoKaggle在典型的数据科学流程中实现了0.85的验证提交率和0.82的综合分数,充分证明了它在处理复杂数据科学任务方面的有效性和实用性。
社会关系推理旨在从图像中识别关系类别,如朋友、配偶和同事。虽然当前方法采用训练专用网络端到端使用带标签的图像数据的范例,但在泛化能力和可解释性方面存在局限性。为了解决这些问题,我们首先提出了一个名为{\name}的简单而精心设计的框架,它在一个模块化框架内结合了视觉基础模型(VFMs)的感知能力和大型语言模型(LLMs)的推理能力,为社会关系识别提供了一个强大的基准线。具体而言,我们指导VFMs将图像内容转化为文本社会故事,然后利用LLMs进行基于文本的推理。{\name}引入了系统化的设计原则,分别调整VFMs和LLMs,并弥合它们之间的差距。在没有额外模型训练的情况下,在两个数据库上实现了有竞争力的零样本结果,同时提供可解释的答案,因为LLMs可以为决策生成基于语言的解释。在推理阶段为LLMs设计手动提示的过程是繁琐的,需要一种自动化提示优化方法。由于我们实质上将一个视觉分类任务转化为LLMs的生成任务,自动提示优化遇到了独特的长提示优化问题。为了解决这个问题,我们进一步提出了贪婪分段提示优化(GSPO),通过利用段级别的梯度信息进行贪婪搜索。实验结果表明,GSPO显著提高了性能,我们的方法也适用于不同的图像风格。代码可在https://github.com/Mengzibin/SocialGPT找到。
数学推理是大型语言模型(LLMs)的一个关键能力,然而生成详细和准确的推理过程仍然是一个重要挑战。本文介绍了一种新颖的方法,使用在线学习流生成LLM微调的高质量推理过程。我们的方法采用增量输出生成流,其中组件LLMs通过迭代通信协作构建解决方案。我们使用在线直接偏好优化(DPO)学习与展开来训练流,为每个训练示例生成DPO对,并实时更新模型。我们直接比较了我们方法生成的推理过程质量与通过直接模型推断产生的推理过程的质量,展示了我们方法在改善LLM在数学推理任务中表现方面的有效性。
大型语言和多模态模型的快速发展引发了对使用专有模型(如GPT-4o)开发能够处理诸如网络导航等真实场景的自主代理的极大兴趣。尽管最近的开源努力试图赋予代理探索环境和持续改进能力,但它们在定义明确的奖励信号的合成环境中构建仅支持文本的代理。这些代理难以推广到需要多模态感知能力且缺乏地面真实信号的现实设置。在本文中,我们介绍了一个旨在促进开发能够自主进行现实世界探索和改进自身的多模态网络代理的开源框架。我们首先通过模仿学习训练基础模型以获得基本能力。然后让代理探索开放网络并收集其轨迹的反馈。之后,它通过从另一个通用模型判断为表现良好的轨迹中学习进一步改进其策略。这种探索-反馈-优化循环可以持续多次迭代。实验结果表明,我们的网络代理在每次迭代后成功改进自身,展现出在多个测试集上的强大性能。
大型语言模型(LLMs)展现出在代码生成方面的显著能力,在HumanEval和MBPP中解决Python编程问题的pass@1率超过90%。这种高准确性引发了一个问题:LLMs能否取代人类程序员?现有的手工制作、简单或单行代码生成基准无法回答这个问题,因为它们与真实世界软件开发存在差距。为了回答这个问题,我们提出了REPOCOD,一个代码生成基准,收集了来自11个热门真实世界项目的980个问题,其中超过58%的问题需要文件级或存储库级上下文信息。此外,与现有基准相比,REPOCOD具有最长的平均规范解决方案长度(331.6个标记)和最高的平均圈复杂度(9.00)。在我们对十个LLMs的评估中,没有一个模型能在REPOCOD上实现超过30的pass@1,揭示了构建更强大的LLMs的必要性,这些模型可以帮助开发人员进行真实世界软件开发。
强化学习(RL)在实现复杂机器人操作技能的自主获取方面具有巨大潜力,但在现实世界中实现这一潜力一直是具有挑战性的。我们提出了一种人在环中基于视觉的强化学习系统,展示了在各种灵巧操作任务上的出色表现,包括动态操作、精密组装和双臂协调。我们的方法整合了演示和人类纠正、高效的RL算法以及其他系统级设计选择,学习出能够在仅1至2.5小时的训练内实现几乎完美成功率和快速循环时间的策略。我们展示了我们的方法明显优于模仿学习基线和先前的RL方法,成功率平均提高了2倍,执行速度提高了1.8倍。通过大量实验和分析,我们提供了关于我们方法有效性的见解,展示了它如何学习出适用于反应性和预测性控制策略的稳健、自适应策略。我们的结果表明,RL确实可以在实际训练时间内直接在现实世界中学习各种复杂基于视觉的操作策略。我们希望这项工作能激发新一代学习型机器人操作技术,造福工业应用和研究进展。视频和代码可在我们的项目网站https://hil-serl.github.io/ 上找到。
思维链(CoT)提示已成为处理大型语言和多模态模型的常用策略。虽然已经证明CoT可以提高许多任务的性能,但确定其有效性的设置仍需持续努力。特别是,在哪些设置中CoT系统地降低模型性能仍然是一个未解之谜。在本文中,我们试图通过从认知心理学中汲取灵感,研究口头思维或深思对人类性能造成负面影响的情况,以及规定人类性能的约束是否适用于语言模型,来识别CoT降低性能的任务特征。三种这样的情况是隐式统计学习、视觉识别以及包含异常模式的分类。在跨越这三种情境的广泛实验中,我们发现一系列最先进的模型在推理时间推理与零短推理相比表现出显著的性能下降(例如,与GPT-4o相比,OpenAI o1-preview的绝对准确率下降了高达36.3%)。我们还确定了三个满足条件(i)但不满足条件(ii)的任务,并发现在这些任务中,口头思维降低了人类的性能,而CoT保持或提高了模型的性能。总的来说,我们的结果表明,虽然模型的认知过程与人类的认知过程之间没有完全的平行,但考虑到思考对人类性能产生负面影响的情况,可以帮助我们确定它对模型产生负面影响的情境。通过将人类深思研究与CoT评估联系起来,我们提供了一种新工具,可用于理解提示选择和推理时间推理的影响。
我们研究了视觉与语言模型(VLMs)的内部表示以及它们如何编码任务表示。我们考虑通过示例或指令指定的任务,使用文本或图像输入。令人惊讶的是,我们发现概念上相似的任务被映射到类似的任务向量表示,无论它们是如何指定的。我们的发现表明,为了输出答案,VLMs中的标记经历三个不同阶段:输入、任务和答案,这个过程在不同的模态和规范下是一致的。我们在VLMs中识别的任务向量足够通用,可以在一个模态(例如文本)中派生并转移到另一个模态(例如图像)。此外,我们发现合并示例和基于指令的任务向量会产生更好的任务表示。综合这些观点,这些发现揭示了VLMs的潜在机制,特别是它们代表任务的能力以共享方式跨越不同的模态和任务规范。项目页面:https://task-vectors-are-cross-modal.github.io。
随着长上下文大型语言模型(LLMs)的广泛部署,对高吞吐推理的高效支持需求不断增长。然而,随着序列长度增加,关键-值(KV)缓存扩展,不仅会导致内存占用增加,还需要在生成每个标记时访问它,从而降低为长上下文LLMs提供服务时的吞吐量。虽然已经提出了各种动态稀疏注意力方法以加快推理速度同时保持生成质量,但它们要么无法充分减少GPU内存消耗,要么通过将KV缓存转移到CPU引入了显著的解码延迟。我们提出了ShadowKV,这是一个高吞吐长上下文LLM推理系统,它存储低秩键缓存并将值缓存卸载,以减少更大批次大小和更长序列的内存占用。为了最小化解码延迟,ShadowKV采用了一种准确的KV选择策略,可以动态重建最小稀疏KV对。通过在一系列基准测试中评估ShadowKV,包括RULER、LongBench和Needle In A Haystack,以及Llama-3.1-8B、Llama-3-8B-1M、GLM-4-9B-1M、Yi-9B-200K、Phi-3-Mini-128K和Qwen2-7B-128K等模型,我们证明它可以支持高达6倍的更大批次大小,并在A100 GPU上将吞吐量提高高达3.04倍,而不会牺牲准确性,甚至在假设GPU内存无限的情况下超越了无限批次大小所能实现的性能。代码可在https://github.com/bytedance/ShadowKV找到。
通过视觉表示的预训练增强了机器人学习的效率。由于缺乏大规模领域内的机器人数据集,先前的研究利用野外人类视频来预训练机器人视觉表示。尽管取得了令人期待的结果,但来自人类视频的表示不可避免地会受到分布转移的影响,并且缺乏对任务完成至关重要的动态信息。我们首先评估各种预训练表示在与下游机器人操作任务(即,操作中心性)的相关性方面。有趣的是,我们发现“操作中心性”是应用于下游任务时成功率的强有力指标。基于这些发现,我们提出了操作中心表示(MCR),这是一个基础表示学习框架,捕捉了视觉特征和操纵任务的动态信息,如动作和本体感知,以提高操作中心性。具体来说,我们在DROID机器人数据集上预训练一个视觉编码器,并利用与运动相关的数据,如机器人本体感知状态和动作。我们引入了一种新颖的对比损失,将视觉观察与机器人的本体感知状态-动作动态对齐,结合类似行为克隆(BC)的演员损失,在预训练期间预测动作,以及时间对比损失。在20个任务的4个模拟领域中的实证结果验证了MCR比最强基准方法的表现提高了14.8%。此外,MCR将UR5e机械臂在3个真实世界任务上的数据高效学习性能提升了76.9%。项目网站:https://robots-pretrain-robots.github.io/。
在没有相关监督的情况下构建有效的密集检索系统仍然很困难。最近的研究尝试通过使用大型语言模型(LLM)生成假设文档来克服这一挑战,以便找到最接近的真实文档。然而,这种方法仅依赖于LLM具有与查询相关的领域特定知识,这可能并不实际。此外,生成假设文档可能效率低下,因为它需要LLM为每个查询生成大量标记。为了解决这些挑战,我们引入了来自相关反馈的真实文档嵌入(ReDE-RF)。受相关反馈启发,ReDE-RF提议将假设文档生成重新构建为一个相关性估计任务,利用LLM选择应该用于最近邻搜索的文档。通过这种重新构建,LLM不再需要领域特定知识,而只需要判断什么是相关的。此外,相关性估计只需要LLM输出一个标记,从而提高了搜索延迟。我们的实验表明,ReDE-RF在一系列低资源检索数据集上始终优于最先进的零-shot密集检索方法,同时在每个查询的延迟方面也取得了显著改进。
离线配对偏好优化算法已成为微调偏好数据的流行方法,在各种任务中表现优于传统的监督式微调。然而,传统实现通常涉及冗余计算,特别是对于具有长共享提示的任务。我们引入了用于偏好微调的前缀共享,这是一种新颖的技术,它将选择和拒绝的响应作为具有共享前缀的一个序列进行处理。为了防止跨响应污染,我们使用自定义的块稀疏注意力掩码。我们的方法在流行的DPO数据集上实现了1.1-1.5倍的训练吞吐量改进,而不会对收敛产生任何影响。当与序列打包结合时,我们观察到一致的1.3-1.6倍加速,甚至有助于具有较小序列长度的数据集。虽然我们专注于直接偏好优化(DPO),但我们的方法适用于其他配对偏好微调方法。通过提高计算效率,我们的工作有助于使基于偏好的微调更易于应用于更广泛的应用和模型规模。我们在https://github.com/frankxwang/dpo-prefix-sharing上开源我们的代码。
我们研究了在检索任务中,是否可以通过上下文示例来提高嵌入模型的性能,这在仅解码器语言模型(LLMs)中被广泛使用。与LLMs不同的是,在推断时简单地将上下文示例(查询-文档对)直接添加到目标查询之前并不能立即奏效。我们提出了一种简单的方法来使检索器能够使用上下文示例。我们的方法RARe,对一个预训练模型进行微调,使用语义上与目标查询相似的上下文示例。这种方法可以应用于不同的基础架构(即仅解码器语言模型、检索器模型),并在各种开放域检索数据集(如BeIR、RAR-b)上稳定地实现高达+2.72%的nDCG性能增益。特别地,我们发现RARe在跨领域泛化方面表现更强,相比于不使用上下文示例的模型,类似于LLMs中的上下文学习。我们进一步对上下文示例增强的设计选择进行了分析,并为未来在这一领域的工作奠定了基础。
大型语言模型(LLMs)容易记忆训练数据,引发对可能提取敏感信息的担忧。目前用于衡量LLMs记忆率的方法,主要是可发现提取(Carlini等,2022),依赖于单序列贪婪抽样,可能低估了记忆的真实程度。本文引入了可发现提取的概率放松,量化在生成的样本集中提取目标序列的概率,考虑了各种抽样方案和多次尝试。这种方法通过考虑LLMs的概率性质和用户交互模式,解决了通过可发现提取报告记忆率的局限性。我们的实验证明,这种概率度量可以揭示相比通过可发现提取发现的记忆率更高的情况。我们进一步研究了不同抽样方案对可提取性的影响,提供了对LLM记忆化及其相关风险更全面和现实的评估。我们的贡献包括新的概率记忆化定义,其有效性的实证证据,以及在不同模型、大小、抽样方案和训练数据重复上的彻底评估。