每日精选AI研究论文及翻译
大型语言模型(LLMs)的快速发展展示了在复杂推理任务中取得的显著进展。然而,在基准性能和实际应用之间仍然存在显著差距。我们确定这一差距主要源自当前的评估协议和指标,这些协议和指标未能充分捕捉LLM能力的全部范围,特别是在需要准确性和一致性的复杂推理任务中。本文提出了两个关键贡献。首先,我们引入了G-Pass@k,这是一种新颖的评估指标,可通过多次采样尝试持续评估模型性能,量化模型的峰值性能潜力和稳定性。其次,我们提出了LiveMathBench,这是一个动态基准,包含设计用于在评估过程中最小化数据泄漏风险的具有挑战性的当代数学问题。通过在最先进的LLMs上使用G-Pass@k在LiveMathBench上进行广泛实验,我们全面了解了它们的最大能力和运行一致性。我们的研究结果揭示了LLMs在“现实”推理能力方面有很大改进空间,突出了对更强大的评估方法的需求。基准和详细结果可在以下网址找到:https://github.com/open-compass/GPassK。
作为大型语言模型(LLMs)的典型和实用应用,检索增强生成(RAG)技术已经引起了广泛关注,特别是在垂直领域,LLMs可能缺乏领域特定知识的情况下。在本文中,我们介绍了一个全方位自动的金融领域RAG基准,名为OmniEval。我们的基准以其多维评估框架为特点,包括(1)基于矩阵的RAG场景评估系统,将查询分类为五个任务类别和16个金融主题,从而对不同查询场景进行结构化评估;(2)多维度评估数据生成方法,结合基于GPT-4的自动生成和人工标注,使得在生成实例上人工评估的接受率达到87.47%;(3)多阶段评估系统,评估检索和生成性能,从而全面评估RAG流程;以及(4)基于规则和基于LLM的强大评估指标,通过手动注释和LLM评估器的监督微调增强评估的可靠性。我们的实验展示了OmniEval的全面性,包括广泛的测试数据集,并突出了RAG系统在不同主题和任务中性能变化,揭示了RAG模型在垂直领域改进能力的重要机会。我们在https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}开源了我们基准的代码。
大型多模态模型(LMMs)领域迅速发展,涌现出具有显著能力的多样化模型。然而,现有的基准测试未能全面、客观和准确地评估LMMs是否符合人类在现实场景中的多样化需求。为弥补这一差距,我们提出了多维洞察(MDI)基准测试,其中包括超过500张图像,涵盖人类生活中的六种常见场景。值得注意的是,MDI基准测试相对于现有评估具有两个重要优势:(1)每张图像都附有两种类型的问题:简单问题用于评估模型对图像的理解,复杂问题则用于评估模型分析和推理基本内容之外的能力。(2)鉴于不同年龄群体在面对相同场景时具有不同需求和观点,我们的基准测试将问题分成三个年龄类别:年轻人、中年人和老年人。这种设计允许对LMMs在满足不同年龄群体的偏好和需求方面进行详细评估。通过MDI基准测试,像GPT-4这样的强大模型在与年龄相关的任务上实现了79%的准确率,表明现有LMMs在解决现实应用中仍有相当大的改进空间。展望未来,我们预计MDI基准测试将为LMMs中的现实个性化需求开辟新的途径。MDI基准测试数据和评估代码可在https://mdi-benchmark.github.io/ 上获得。
思维链(CoT)解码使语言模型能够在推理性能上取得改进,但代价是解码过程中生成延迟较高。最近的提议探讨了沉思令牌的变体,这是我们引入的一个术语,用于指代推理过程中用于允许额外计算的特殊令牌。先前的研究考虑了从离散嵌入集合中提取的固定长度序列作为沉思令牌。在这里,我们提出了压缩思维链(CCoT),这是一个框架,用于生成内容丰富且连续的可变长度沉思令牌。生成的沉思令牌是明确推理链的压缩表示,我们的方法可以应用于现成的解码器语言模型。通过实验,我们阐明了CCoT如何使得额外推理能够在密集内容丰富的表示上实现相应的准确性改进。此外,推理改进可以通过控制生成的沉思令牌数量来灵活调整。
人类将复杂经验提炼为基本抽象,从而实现快速学习和适应。同样,自回归变压器通过上下文学习(ICL)展现出自适应学习能力,这引发了一个问题:如何实现这一点。在本文中,我们提出了概念编码-解码机制,通过研究变压器在其表示中形成和使用内部抽象来解释ICL。在合成ICL任务中,我们分析了一个小型变压器的训练动态,并报告了概念编码和解码的耦合出现。随着模型学会将不同的潜在概念(例如“找到句子中的第一个名词”)编码为不同的可分离表示,它同时构建条件解码算法并改善其ICL性能。我们验证了这一机制存在于不同规模的预训练模型(Gemma-2 2B/9B/27B,Llama-3.1 8B/70B)中。此外,通过机械干预和控制微调,我们证明了概念编码质量与ICL性能之间的因果关系和预测性。我们的实证见解有助于更好地理解大型语言模型通过其表示的成功和失败模式。
理解来自多个文档集合的信息,特别是那些具有视觉丰富元素的文档,对于基于文档的问答至关重要。本文介绍了VisDoMBench,这是第一个旨在评估多文档环境中具有丰富多模态内容的问答系统的全面基准,其中包括表格、图表和演示文稿。我们提出了VisDoMRAG,一种新颖的多模态检索增强生成(RAG)方法,同时利用视觉和文本RAG,将强大的视觉检索能力与复杂的语言推理相结合。VisDoMRAG采用多步推理过程,包括证据整理和思维链推理,用于同时处理文本和视觉RAG流程。VisDoMRAG的一个关键创新是其受一致性约束的模态融合机制,该机制在推理时跨模态地对齐推理过程,以产生连贯的最终答案。这导致在关键信息分布在多个模态并通过隐含上下文归因提高答案可验证性的场景中,获得了更高的准确性。通过涉及开源和专有大型语言模型的广泛实验,我们在VisDoMBench上对最先进的文档问答方法进行了基准测试。广泛的结果显示,VisDoMRAG在端到端多模态文档问答中比单模态和长上下文LLM基线表现提高了12-20%。
最近关于加速视觉-语言模型的研究表明,尽管对视觉信息进行高度压缩,仍然可以在各种视觉-语言任务中保持强大的性能。在这项工作中,我们研究了一种流行的加速方法,即在语言模型内部对视觉标记进行早期修剪,并发现其在许多任务中表现出色并不是由于其异常的视觉信息压缩能力,而是由于基准测试对细粒度视觉能力的评估能力有限。换句话说,我们展示了加速方法中的一个核心问题,即对图像顶部的大多数标记进行修剪。然而,这个问题只在一小部分任务(如定位)的性能中体现出来。对于其他评估任务,采用有缺陷的修剪策略仍然能够保持强大的性能。鉴于所研究的加速技术的视觉能力有限,我们提出了FEATHER(Fast and Effective Acceleration wiTH Ensemble cRiteria),这是一种简单直接的方法,它(1)解决了早期层次修剪中发现的问题,(2)结合了均匀采样以确保覆盖所有图像区域,(3)在两个阶段应用修剪,以使标准在后续层次变得更加有效,同时仍通过早期层次修剪实现显著加速。通过可比较的计算节省,我们发现与原始加速方法相比,FEATHER在以视觉为中心的定位基准上性能提升超过5倍。
广泛能力和目标导向代理的愿景,例如数字世界中的互联网浏览代理和物理世界中的家庭人形机器人,由于基础模型的泛化能力,已经迅速发展。这样一个通用代理需要具有大而多样的技能库,例如在两个旅行地点之间查找方向和从互联网购买特定物品。如果每个技能都需要通过一组固定的人工注释指令手动指定,由于人工注释指令的数量和多样性,代理的技能库将受到限制。在这项工作中,我们通过提出提议者-代理-评估者(PAE),一个有效的学习系统,来解决这一挑战,使基础模型代理能够在野外自主发现和练习技能。PAE的核心是一个上下文感知任务提议者,它根据环境的上下文信息(例如用户演示或者仅仅是互联网浏览代理的网站名称)自主提出代理需要练习的任务。然后,代理策略尝试使用思考和实际基于真实世界的操作执行这些任务,其结果轨迹由自主的基于VLM的成功评估者评估。成功评估作为奖励信号,用于代理通过RL来优化其策略。我们在具有挑战性的基于视觉的网络导航上验证了PAE,使用了来自WebVoyager和WebArena的真实世界和自托管网站。据我们所知,这项工作代表了首个将自主任务提议与RL应用于代理的有效学习系统,该系统能够将真实世界的人工注释基准泛化并达到SOTA性能。我们的开源检查点和代码可在https://yanqval.github.io/PAE/找到。
深度完成将稀疏深度测量升级为密集深度图,受传统图像引导。针对这一高度不适定任务,现有方法在严格约束的情况下运行,当应用于训练领域之外的图像或可用深度测量稀疏、分布不均匀或密度不同时往往难以应对。受最近单目深度估计进展的启发,我们将深度完成重新构建为由稀疏测量引导的图像条件深度图生成。我们的方法Marigold-DC基于预训练的单目深度估计潜在扩散模型,并通过一个优化方案将深度观测作为测试时引导注入,该方案与去噪扩散的迭代推理同时运行。该方法在各种环境中展现出出色的零样本泛化能力,甚至能有效处理极度稀疏的引导。我们的结果表明,当代单目深度先验极大地加强了深度完成的鲁棒性:更好地将任务视为从(密集)图像像素中恢复密集深度,受稀疏深度引导;而不是将其视为修复(稀疏)深度,受图像引导。项目网站:https://MarigoldDepthCompletion.github.io/
在现实世界的软件开发中,不当或缺失的异常处理可能严重影响代码的健壮性和可靠性。异常处理机制要求开发人员根据高标准检测、捕获和管理异常,但许多开发人员在这些任务上遇到困难,导致代码脆弱。这个问题在开源项目中尤为明显,并影响软件生态系统的整体质量。为了解决这一挑战,我们探讨了使用大型语言模型(LLMs)来改进代码中的异常处理。通过广泛分析,我们确定了三个关键问题:对脆弱代码的敏感度不足、异常块捕获不准确以及处理方案扭曲。这些问题在现实世界的代码库中普遍存在,表明健壮的异常处理实践经常被忽视或处理不当。为此,我们提出了Seeker,这是一个受到专业开发人员异常处理策略启发的多代理框架。Seeker使用代理:Scanner、Detector、Predator、Ranker和Handler来协助LLMs更有效地检测、捕获和解决异常。我们的工作是首个系统研究如何利用LLMs来增强现实开发场景中的异常处理实践,为未来改进代码可靠性提供了宝贵的见解。
我们提出了SUGAR,这是一种用于主题驱动视频定制的零样本方法。 给定输入图像,SUGAR能够为图像中包含的主题生成视频,并将生成与用户输入文本指定的任意视觉属性(如风格和动作)对齐。与以往的方法不同,这些方法需要在测试时进行微调或无法生成与文本对齐的视频,SUGAR在无需额外成本的情况下实现了更优异的结果。为了实现零样本能力,我们引入了一个可扩展的流程,用于构建专门设计用于主题驱动定制的合成数据集,从而产生了250万个图像-视频-文本三元组。此外,我们提出了几种增强模型的方法,包括特殊注意力设计、改进的训练策略和精细的采样算法。我们进行了大量实验。与以往的方法相比,SUGAR在保持身份、视频动态和视频-文本对齐方面取得了最先进的结果,展示了我们提出方法的有效性。
最近基于人工智能的视频编辑使用户能够通过简单的文本提示编辑视频,极大地简化了编辑过程。然而,最近的零样本视频编辑技术主要集中在全局或单个对象的编辑上,这可能导致视频其他部分的意外更改。当多个对象需要局部编辑时,现有方法面临挑战,如编辑不忠实、编辑泄漏以及缺乏合适的评估数据集和指标。为了克服这些限制,我们提出了一种零样本多实例视频编辑框架,称为MIVE。MIVE是一个通用的基于掩模的框架,不专门针对特定对象(例如人)。MIVE引入了两个关键模块:(i)解耦的多实例采样(DMS)以防止编辑泄漏,以及(ii)实例中心的概率重分布(IPR)以确保精确的定位和忠实的编辑。此外,我们提出了新的MIVE数据集,展示了多样化的视频场景,并引入了交实例准确度(CIA)分数来评估多实例视频编辑任务中的编辑泄漏。我们广泛的定性、定量和用户研究评估表明,MIVE在编辑忠实度、准确性和泄漏预防方面明显优于最近的最先进方法,为多实例视频编辑设定了新的基准。项目页面位于https://kaist-viclab.github.io/mive-site/。
大型语言模型(LLMs)通过利用预训练知识(即参数化知识)和外部知识(即上下文知识),在各种任务中展现出卓越的性能。虽然已经付出了大量努力来利用这两种形式的知识,但模型缺乏任何相关知识的情况仍然未被充分探讨。这种限制可能导致幻觉等问题,降低可靠性并在高风险应用中产生潜在风险。为了解决这些限制,本文将任务范围扩展到用户请求由于缺乏相关知识而无法满足的情况。为此,我们引入了一种名为对比解码与弃权(CDA)的无需训练的解码方法,使LLMs能够在有相关知识可用时生成响应,否则选择弃权。CDA评估了每个知识对于给定查询的相关性,自适应地确定哪些知识应优先考虑或完全忽略。在三个问答数据集上对四个LLMs进行的大量实验表明,CDA能够同时有效地执行准确的生成和弃权。这些发现突显了CDA拓宽LLMs适用范围的潜力,提高可靠性并保持用户信任。