每日精选AI研究论文及翻译
现在,LLMs和RAG系统已经能够处理数百万个或更多的输入标记。然而,在长上下文任务上评估这些系统的输出质量仍然具有挑战性,因为像“大海捞针”这样的任务缺乏复杂性。在这项工作中,我们认为总结可以在这种评估中发挥核心作用。我们设计了一个程序来合成文档的“海堆”,确保特定的见解在文档之间重复出现。然后,“海堆摘要”(SummHay)任务要求系统处理海堆并生成,根据查询,一个能够识别相关见解并准确引用源文档的摘要。由于我们对应该出现在海堆摘要中的见解以及应该被引用的文档有明确的了解,我们实施了一个高度可重复的自动评估,可以评分摘要的两个方面 - 覆盖范围和引用。我们在两个领域(对话、新闻)生成海堆,并对10个LLMs和相应的50个RAG系统进行了大规模评估。我们的研究结果表明,SummHay对当前系统来说是一个开放挑战,因为即使系统提供了一个文档相关性的Oracle信号,也比我们对人类表现(56\%)的估计低了10个百分点以上。在没有检索器的情况下,像GPT-4o和Claude 3 Opus这样的长上下文LLMs在SummHay上得分低于20%。我们展示了SummHay也可以用来研究企业RAG系统和长上下文模型中的位置偏见。我们希望未来的系统可以在SummHay上达到甚至超越人类表现。
最近大型语言模型(LLMs)的进展显著推动了软件开发任务的自动化,包括代码合成、程序修复和测试生成。最近,研究人员和行业从业者开发了各种自主的LLM代理,用于执行端到端的软件开发任务。这些代理具备使用工具、运行命令、观察环境反馈以及规划未来行动的能力。然而,这些基于代理的方法的复杂性,以及当前LLMs的有限能力,引发了一个问题:我们真的需要使用复杂的自主软件代理吗?为了尝试回答这个问题,我们构建了Agentless——一种无代理的方法来自动解决软件开发问题。与基于代理方法的冗长复杂设置相比,Agentless采用了一个简单的两阶段过程,即定位和修复,而不让LLM决定未来的行动或使用复杂的工具。我们在流行的SWE-bench Lite基准测试上的结果显示,令人惊讶的是,简单的Agentless能够实现最高性能(27.33%)和最低成本(\$0.34),相较于所有现有的开源软件代理!此外,我们手动对SWE-bench Lite中的问题进行了分类,发现存在确切的修补程序或问题描述不足/误导性的问题。因此,我们构建了SWE-bench Lite-S,排除了这类问题来进行更严格的评估和比较。我们的工作突显了简单、可解释的技术在自主软件开发中被当前忽视的潜力。我们希望Agentless能够帮助重新设定自主软件代理的基线、起点和发展方向,并激发未来沿着这一关键方向开展工作。
最近,文本到视频(T2V)生成因大型多模型Sora而备受关注。然而,T2V生成仍面临两个重要挑战:1)缺乏精确的开源高质量数据集。先前流行的视频数据集,如WebVid-10M和Panda-70M,要么质量低要么对大多数研究机构来说太大。因此,收集精确高质量的文本-视频对对于T2V生成来说是具有挑战性但至关重要的。2)忽视充分利用文本信息。最近的T2V方法专注于视觉Transformer,使用简单的交叉注意力模块进行视频生成,无法充分提取文本提示中的语义信息。为解决这些问题,我们介绍了OpenVid-1M,一个具有富有表现力标题的精确高质量数据集。这个开放场景数据集包含超过100万个文本-视频对,促进了T2V生成的研究。此外,我们从OpenVid-1M中筛选出433K个1080p视频,创建了OpenVidHD-0.4M,推动了高清视频生成的发展。此外,我们提出了一种新颖的多模态视频扩散Transformer(MVDiT),能够从视觉标记中挖掘结构信息和从文本标记中提取语义信息。大量实验证实了OpenVid-1M相对于先前数据集的优越性以及我们的MVDiT的有效性。
大型语言模型(LLM)推理的计算挑战仍然是它们广泛部署的重要障碍,特别是随着提示长度的增加。由于注意力计算的二次复杂度,一个8B的LLM在单个A100 GPU上处理100万标记的提示(即预填充阶段)需要30分钟。现有的加速预填充的方法在应用于长上下文LLM时往往无法保持可接受的准确性或效率。为了解决这一问题,我们引入了MInference(百万标记推理),这是一种稀疏计算方法,旨在加速长序列处理的预填充。具体而言,我们在长上下文注意力矩阵中确定了三种独特的模式——A形状、竖斜杠和块稀疏,可以利用这些模式在GPU上进行高效的稀疏计算。我们离线确定每个注意力头的最佳模式,并根据分配的模式在推理过程中动态构建稀疏索引。借助这些模式和稀疏索引,我们通过优化的GPU核心执行高效的稀疏注意力计算,显著减少长上下文LLM预填充阶段的延迟。我们提出的技术可以直接应用于现有的LLM,无需对预训练设置或额外微调进行任何修改。通过在一系列下游任务上进行评估,包括InfiniteBench、RULER、PG-19和Needle In A Haystack,以及LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K和Qwen2-128K等模型,我们证明了MInference可以在A100上将预填充的推理延迟有效降低多达10倍,同时保持准确性。我们的代码可在https://aka.ms/MInference上找到。
偏好对齐已成为提升大型语言模型(LLMs)性能的关键组成部分,然而在多模态大型语言模型(MLLMs)中的影响相对未被深入探讨。与语言模型类似,用于图像理解任务的MLLMs面临幻觉等挑战。在MLLMs中,幻觉不仅可能导致陈述不准确的事实,还可能产生与图像内容不一致的响应。MLLMs对齐的主要目标是鼓励这些模型将响应与图像信息更紧密地对齐。最近,多项研究引入了用于MLLMs的偏好数据集,并研究了不同的对齐方法,包括直接偏好优化(DPO)和近端策略优化(PPO)。然而,由于数据集、基础模型类型和对齐方法的差异,目前尚不清楚这些研究中哪些具体因素对所报道的改进起到了最重要的贡献。本文独立分析了MLLMs偏好对齐的每个方面。我们首先将对齐算法分为两组,离线(如DPO)和在线(如在线-DPO),并展示结合离线和在线方法可以在某些场景中提升模型性能。我们回顾了各种已发表的多模态偏好数据集,并讨论它们构建细节如何影响模型性能。基于这些见解,我们引入了一种称为偏见驱动幻觉采样(BDHS)的创新多模态偏好数据创建方式,既不需要额外标注也不需要外部模型,并展示它在一系列基准测试中可以实现与先前发表的多模态模型对齐工作具有竞争力的性能。
我们提出了Magic Insert,这是一种方法,可以以物理上合理的方式从用户提供的图像中拖放主题到不同风格的目标图像中,同时匹配目标图像的风格。这项工作将风格感知拖放的问题形式化,并提出了一种解决方法,通过解决两个子问题:风格感知个性化和在风格化图像中实现逼真的对象插入。对于风格感知个性化,我们的方法首先使用LoRA和学习的文本标记在主题图像上微调预训练的文本到图像扩散模型,然后将其与目标风格的CLIP表示相融合。对于对象插入,我们使用引导域自适应将特定领域的逼真对象插入模型适应到多样艺术风格的领域。总体而言,该方法在性能上明显优于传统方法,如修补。最后,我们提出了一个数据集SubjectPlop,以促进在这一领域的评估和未来进展。项目页面:https://magicinsert.github.io/
流匹配(FM)是通过常微分方程(ODEs)定义概率路径的一般框架,用于在噪声和数据样本之间进行转换。最近的方法尝试将这些流轨迹拉直,通过迭代校正方法或最优输运解决方案通常能够用更少的函数评估生成高质量样本。在本文中,我们介绍了一种新的FM方法,一致性流匹配(Consistency-FM),它明确在速度场中强制执行自一致性。一致性流匹配直接定义了从不同时间开始到相同终点的直线流,对其速度值施加约束。此外,我们提出了一种多段训练方法用于一致性流匹配,以增强表达能力,在采样质量和速度之间取得更好的折衷。初步实验表明,我们的一致性流匹配通过比一致性模型快4.4倍和校正流模型快1.7倍的收敛速度显著提高了训练效率,同时实现了更好的生成质量。我们的代码可在以下链接找到:https://github.com/YangLing0818/consistency_flow_matching
在广泛语料库上训练的大型语言模型(LLMs)不可避免地会保留敏感数据,如个人隐私信息和受版权保护的内容。最近在知识遗忘方面取得的进展涉及更新LLM参数以消除特定知识。然而,当前的遗忘范式常常陷入模糊的遗忘边界,经常会不加选择地擦除知识。在这项工作中,我们引入了KnowUnDo,一个基准测试集,其中包含受版权保护的内容和用户隐私领域,以评估遗忘过程是否无意中擦除了重要知识。我们的研究结果表明,现有的遗忘方法往往存在过度遗忘的问题。为了解决这一问题,我们提出了一种简单而有效的方法,MemFlex,它利用梯度信息精确地定位和遗忘敏感参数。实验结果显示,MemFlex在LLMs的精确知识遗忘和通用知识保留方面优于现有方法。代码和数据集将在https://github.com/zjunlp/KnowUnDo 上发布。
在大型语言模型(LLMs)中揭示潜在的价值观和观点可以帮助识别偏见并减轻潜在的危害。最近,这一问题已经通过向LLMs提出调查问题并量化它们对道德和政治言论的立场来解决。然而,LLMs生成的立场可能会因提示方式不同而有很大差异,并且可以有许多方式支持或反对某一立场。在这项工作中,我们提出通过分析一个包含156k个LLM回应的大型且稳健的数据集,该数据集包括6个LLMs生成的62个政治罗盘测试(PCT)命题的420种提示变体。我们对它们生成的立场进行粗粒度分析,并对这些立场的纯文本理由进行细粒度分析。对于细粒度分析,我们提出识别回应中的修辞手法:在不同提示中反复出现且一致的语义相似短语,揭示了给定LLM倾向于生成的文本模式。我们发现,将人口统计特征添加到提示中显著影响PCT的结果,反映了偏见,以及在引出封闭形式与开放领域回应时测试结果之间存在的差异。此外,通过修辞手法在纯文本理由中的模式表明,即使在存在不同立场的情况下,相似的理由在不同模型和提示中反复生成。
最近扩散式视频生成的最新进展展示出了显著的成果,然而合成视频与真实世界视频之间的差距仍未被充分探讨。在这项研究中,我们从三个基本角度检验了这一差距:外观、运动和几何,将真实世界视频与由最先进的AI模型“稳定视频扩散”生成的视频进行比较。为实现这一目标,我们使用3D卷积网络训练了三个分类器,每个分类器针对不同的方面:外观使用视觉基础模型特征,运动使用光流,几何使用单目深度。每个分类器在伪造视频检测方面表现出强大的性能,无论是定性还是定量。这表明AI生成的视频仍然很容易被检测出来,真假视频之间存在显著差距。此外,通过使用Grad-CAM,我们可以准确定位AI生成视频在外观、运动和几何方面的系统性失败。最后,我们提出了一个“专家集成模型”,整合了外观、光流和深度信息用于伪造视频检测,从而提高了鲁棒性和泛化能力。我们的模型能够高准确度地检测由Sora生成的视频,即使在训练过程中没有接触任何Sora视频。这表明真实视频与伪造视频之间的差距可以泛化到各种视频生成模型。项目页面:https://justin-crchang.github.io/3DCNNDetection.github.io/
我们研究神经弗利,即自动生成与视频同步的高质量音效,实现沉浸式视听体验。尽管具有广泛的应用,现有方法在同时合成高质量和与视频对齐(即语义相关且时间同步)的声音时存在局限性。为了克服这些限制,我们提出了FoleyCrafter,这是一个新颖的框架,利用预训练的文本到音频模型确保高质量音频生成。FoleyCrafter包括两个关键组件:用于语义对齐的语义适配器和用于精确音视频同步的时间控制器。语义适配器利用并行交叉注意力层将音频生成条件化为视频特征,产生与视觉内容语义相关的逼真音效。同时,时间控制器结合了起始检测器和基于时间戳的适配器,实现精确的音视频对齐。FoleyCrafter的一个显着优势是其与文本提示的兼容性,可以利用文本描述根据用户意图实现可控和多样化的视频到音频生成。我们在标准基准上进行了广泛的定量和定性实验,以验证FoleyCrafter的有效性。模型和代码可在https://github.com/open-mmlab/FoleyCrafter找到。
最近显微镜技术的进步使得细胞生物学和生物医学研究中能够快速产生几太字节的图像数据。视觉-语言模型(VLMs)为大规模生物图像分析提供了一种有前途的解决方案,提高了研究人员的效率,识别新的图像生物标志物,并加速假设生成和科学发现。然而,在生物图像理解中缺乏标准化、多样化和大规模的视觉-语言基准,以评估VLMs在感知和认知能力方面的表现。为了填补这一空白,我们介绍了{\mu}-Bench,这是一个由专家策划的基准,涵盖了生物医学领域的22个任务,涉及各种科学学科(生物学、病理学)、显微镜模式(电子、荧光、光学)、尺度(亚细胞、细胞、组织)以及正常和异常状态下的生物体。我们在{\mu}-Bench上评估了最先进的生物医学、病理学和通用VLMs,并发现:i)当前模型在所有类别上都存在困难,即使是基本任务,如区分显微镜模式;ii)在生物医学数据上进行微调的当前专家模型通常表现不如通用模型;iii)在特定显微镜领域进行微调可能导致灾难性遗忘,侵蚀其基础模型中编码的先前生物医学知识。iv)在微调和预训练模型之间进行权重插值提供了一种解决遗忘问题的方法,并改善了在生物医学任务中的总体性能。我们以一种宽松的许可证发布{\mu}-Bench,以加速显微镜基础模型的研究和开发。