每日精选AI研究论文及翻译
在大型视觉-语言模型(LVLMs)中,图像作为输入携带丰富的信息。正如谚语“一图胜千言”所暗示的那样,在当前的LVLMs中,代表单个图像可能需要数百甚至数千个标记。这导致了显著的计算成本,随着输入图像分辨率的增加呈二次增长,严重影响了训练和推理的效率。先前的方法尝试在LVLMs的早期层之前或内部减少图像标记的数量。然而,这些策略不可避免地导致关键图像信息的丢失,最终降低了模型的性能。为了解决这一挑战,我们进行了一项实证研究,揭示了LVLMs在浅层中所有视觉标记的必要性,并且在模型的深层中,标记冗余性逐渐增加。为此,我们提出了金字塔减少(PyramidDrop),这是一种用于LVLMs的视觉冗余减少策略,可以提高它们在训练和推理中的效率,同时性能损失可以忽略不计。具体而言,我们将LVLM分为几个阶段,并在每个阶段末尾删除部分图像标记,采用预定义的比率,在模型层之间创建类似金字塔的视觉标记。删除基于轻量级相似性计算,时间开销可以忽略不计。大量实验表明,PyramidDrop可以实现与LLaVA-NeXT相比,训练时间加速40%,推理FLOPs加速55%,并具有可比较的性能。此外,PyramidDrop还可以作为一种即插即用的策略用于推理加速,无需训练,性能更好,推理成本更低。我们希望PyramidDrop引入的见解和方法将激发未来研究进一步探讨图像标记在LVLMs中的作用。
我们提出了SpectroMotion,这是一种新颖的方法,将三维高斯飘粒(3DGS)与基于物理的渲染(PBR)和变形场相结合,用于重建动态镜面场景。先前将3DGS扩展到建模动态场景的方法在准确表示镜面表面方面存在困难。我们的方法通过引入残差校正技术来解决这一限制,以在变形过程中准确计算表面法线,同时配合一个可变形的环境贴图,以适应时变光照条件。我们实现了一种由粗到细的训练策略,显著增强了场景几何和镜面颜色预测。我们展示了我们的模型在包含动态镜面物体的场景视图合成方面优于先前方法,并且它是唯一能够合成逼真的真实世界动态镜面场景的现有3DGS方法,在渲染复杂、动态和镜面场景方面优于最先进的方法。
在视觉语言模型(VLMs)中,思维链(CoT)推理对于提高可解释性和可信度至关重要。然而,当前的训练方法缺乏强大的CoT推理数据,依赖于由简短注释主导且理由最少的数据集。在这项工作中,我们展示了在简短答案上训练VLM并不能很好地推广到需要更详细回答的推理任务。为了解决这个问题,我们提出了一个双重方法。首先,我们从GPT-4o模型中提炼理由以丰富训练数据,并微调VLMs,提升其CoT性能。其次,我们应用强化学习来进一步校准推理质量。具体来说,我们通过将模型生成的推理链的预测与注释的简短答案进行比较,构建正(正确)负(错误)对。利用这些成对数据,我们应用直接偏好优化算法来提升模型的推理能力。我们的实验表明,在基准数据集上CoT推理有显著改进,并且对直接答案预测有更好的泛化能力。这项工作强调了在训练中纳入详细的理由以及利用强化学习来增强VLMs推理能力的重要性。
自动对齐开发具有最少人为干预的对齐系统。自动对齐的关键在于提供可学习且准确的偏好信号,用于偏好学习,无需人工标注。本文介绍了自主优化(SSO)算法,该算法在迭代训练过程中基于预定义原则自动生成高质量的偏好信号,消除了手动标注的需求。SSO通过确保所选和被拒绝响应之间保持一致的差距,同时使它们都符合当前策略模型的学习能力,从而保持信号的准确性。SSO可以使策略模型的在线和离线训练受益,同时增强奖励模型的训练。我们使用两个基础模型,Qwen2和Llama3.1,验证了SSO的有效性,表明它在迭代训练过程中提供了准确、符合策略的偏好信号。在没有任何手动标注或外部模型的情况下,SSO在六个主观或客观基准测试中显著提高了性能。此外,SSO生成的偏好数据显著提升了奖励模型在Rewardbench上的性能。我们的工作提出了一种可扩展的偏好优化方法,为更高效、更有效的自动对齐铺平了道路。
我们提出了xGen-MM-Vid(BLIP-3-Video):一种用于视频的多模态语言模型,特别设计用于高效地捕获多帧的时间信息。BLIP-3-Video利用了“时间编码器”,除了传统的视觉标记器外,还将多帧的标记序列映射为紧凑的视觉标记集。这使得BLIP3-Video可以使用比竞争模型(例如32对4608个标记)少得多的视觉标记。我们探讨了不同类型的时间编码器,包括可学习的时空池化以及像Token Turing Machines这样的顺序模型。实验证实,BLIP-3-Video获得了视频问答准确度,与更大型的最先进模型(例如34B)相当,同时体积更小(即4B),并通过使用更少的视觉标记更高效。该项目网站位于https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
知识蒸馏(KD)被广泛用于训练小型、高性能的学生语言模型(LMs),使用大型教师LMs。虽然在微调中有效,但在预训练期间进行的知识蒸馏面临效率、灵活性和有效性方面的挑战。现有方法要么由于在线教师推断而产生高计算成本,要么需要教师和学生LMs之间的标记匹配,或者存在风险丢失教师生成的训练数据的难度和多样性。为了解决这些问题,我们提出了MiniPLM,这是一个用于通过教师的知识优化训练数据分布的LMs预训练的KD框架。为了提高效率,MiniPLM执行离线教师LM推断,允许对多个学生LM进行KD而无需增加训练时间成本。为了提高灵活性,MiniPLM仅在训练语料库上运行,实现了跨模型系列的KD。为了提高有效性,MiniPLM利用大型和小型LM之间的差异来增强训练数据的难度和多样性,帮助学生LM获得多才多艺和复杂的知识。大量实验证明,MiniPLM提升了学生LM在9个广泛使用的下游任务上的性能,提高了语言建模能力,并减少了预训练计算量。MiniPLM的好处延伸到大规模的预训练范围,通过缩放曲线的外推得到证明。进一步分析表明,MiniPLM支持跨模型系列的KD,并增强了预训练数据的利用。我们的模型、代码和数据可在https://github.com/thu-coai/MiniPLM 上获得。
最近的大型视觉语言模型(LVLMs)展现出令人瞩目的零翻译对话和推理能力,针对多模态查询。然而,它们存在物体幻觉问题,即LVLMs倾向于生成与图像输入事实不符的文本响应的现象。我们的试点研究揭示了物体幻觉与旋转位置编码(RoPE)密切相关,RoPE是现有LVLMs中广泛采用的位置依赖建模设计。由于RoPE中存在的长期衰减,LVLMs在多模态输入序列中相关视觉线索远离指令标记时更容易产生幻觉。此外,我们观察到当在多模态对齐期间颠倒视觉标记的顺序时会出现类似效应。我们的测试表明,RoPE中的长期衰减对LVLMs在捕捉长距离的视觉-指令交互作用时构成挑战。我们提出同心因果注意力(CCA),这是一种简单而有效的位置对齐策略,通过自然减少视觉和指令标记之间的相对距离,缓解LVLMs中RoPE长期衰减的影响。借助CCA,视觉标记可以更好地与指令标记进行交互,从而增强模型的感知能力并减轻物体幻觉。在不添加炫耀的情况下,我们的位置对齐方法在多个物体幻觉基准测试中大幅超越现有的幻觉缓解策略。
在一个复合人工智能系统中,诸如LLM调用、检索器、代码解释器或工具等组件是相互连接的。系统的行为主要由诸如指令或工具定义之类的参数驱动。最近的进展使得能够利用LLM对这些参数进行端到端优化。值得注意的是,利用LLM作为优化器特别高效,因为它避免了梯度计算,并且能够生成复杂的代码和指令。本文介绍了基于LLM对复合人工智能系统进行优化的原则和新兴趋势调查。它涵盖了复合人工智能系统的典型类型、基于LLM的端到端优化方法,以及对未来方向和更广泛影响的见解。重要的是,这项调查运用了程序分析的概念,以提供LLM优化器如何被促使优化复合人工智能系统的统一视角。有关详尽的论文列表,请访问https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems。
加快在非英语语言中对大型多模态模型(LMMs)的研究对于提升更广泛人群的用户体验至关重要。本文介绍了JMMMU(日本MMMU),这是第一个大规模日语基准,旨在根据日本文化背景设计评估LMMs在专家级任务上的性能。为促进全面的文化感知评估,JMMMU包括两个互补的子集:(i)文化无关(CA)子集,选择并将与文化无关的主题(例如数学)翻译成日语,从而实现与其英文对应物MMM的一对一比较;以及(ii)文化特定(CS)子集,包括反映日本文化背景的新主题。使用CA子集,我们观察到许多LMMs在日语环境下的表现下降,这纯粹归因于语言变化。使用CS子集,我们揭示了它们对日本文化的不足理解。此外,通过结合两个子集,我们发现一些LMMs在CA子集上表现良好,但在CS子集上表现不佳,暴露了对日语的理解浅薄,缺乏文化理解的深度。我们希望这项工作不仅有助于提升LMM在日语中的性能,还能作为创建高标准、文化多样的多语言LMM开发基准的指南。项目页面链接为https://mmmu-japanese-benchmark.github.io/JMMMU/。
大型语言模型(LLMs)的高计算成本导致了对LLM压缩的研究热潮,通过量化、稀疏化或结构化剪枝等方法。该领域的一个新前沿是动态、非均匀压缩方法,可以根据每个块甚至每个层调整压缩级别(如稀疏度),以最小化精度损失,同时保证全局压缩阈值。然而,当前方法依赖于启发式方法来确定给定层对损失的“重要性”,基于诸如误差单调性的假设,即端到端模型压缩误差与逐层误差之和成正比。在本文中,我们重新审视了这一领域,并提出了一种新的通用动态压缩方法,可以在给定输入范围内被证明是最优的。我们从这样一个激励观察开始,即一般情况下,LLMs并不具有误差单调性:具有较低逐层误差总和的压缩模型可能表现比具有较高误差总和的模型更差。为了解决这个问题,我们提出了一个名为EvoPress的新通用进化框架,用于动态LLM压缩,具有可证明的收敛性,以及低样本和评估复杂度。我们展示这些理论保证导致了EvoPress在Llama、Mistral和Phi模型的动态压缩方面具有极具竞争力的实际性能。通过EvoPress,我们在所有压缩方法(结构化剪枝、块/层丢弃、非结构化稀疏性,以及具有动态比特宽度的量化)中取得了新的最先进结果。我们的代码可在https://github.com/IST-DASLab/EvoPress找到。
数学推理是大型语言模型(LLM)研究的一个高度活跃的领域,因为它是人工智能的一个标志。然而,很少有研究探讨数学推理是如何在LLM参数中编码的,以及它是否是模型中可以孤立出来的一种技能。这样做可以实现有针对性地干预以提高数学表现,而不改变非数学行为,并促进对模型如何编码数学推理的理解。我们引入了数学神经外科(MathNeuro),这是一种使用仅前向传递来孤立LLMs中数学特定参数的方法。MathNeuro在现有工作的基础上进行了改进,通过使用权重和激活来计算参数重要性,但通过移除那些对一般语言任务重要的参数,孤立了数学特定参数。MathNeuro识别的修剪参数会删除LLM的数学推理能力,而不会破坏其一般语言能力。通过将这些参数按照一个小常数进行缩放,可以将预训练或指导调整的LLM在GSM8K上的性能提高4-17%,同时保持非数学行为不变。MathNeuro还具有数据效率:当使用单个样本识别数学特定参数时,其大部分有效性得以保持。MathNeuro突显了未来工作干预数学特定参数的潜力。
新视角合成旨在从多个输入图像或视频中生成场景的新视角,最近的技术进展如3D高斯飘粒(3DGS)在生成逼真渲染方面取得了显著成功,并具有高效的流程。然而,在具有挑战性的设置下生成高质量的新视角,例如稀疏输入视角,由于欠采样区域信息不足,通常会导致明显的伪影,仍然具有一定难度。本文提出了3DGS-Enhancer,这是一个用于提升3DGS表示质量的新型流程。我们利用2D视频扩散先验来解决具有挑战性的3D视角一致性问题,重新构建为在视频生成过程中实现时间一致性。3DGS-Enhancer恢复了渲染的新视角的视角一致潜在特征,并通过空间-时间解码器将其与输入视角整合。增强的视角然后用于微调初始3DGS模型,显著提高了其渲染性能。对无界场景的大规模数据集进行的大量实验表明,与最先进方法相比,3DGS-Enhancer在重建性能和高保真渲染结果方面表现出色。项目网页为https://xiliu8006.github.io/3DGS-Enhancer-project。
结肠镜目前是结直肠癌最敏感的筛查方法之一。本研究探讨智能结肠镜技术的前沿及其对多模态医疗应用的潜在影响。为实现这一目标,我们首先通过四项结肠镜场景感知任务评估当前以数据为中心和以模型为中心的景观,包括分类、检测、分割和视觉-语言理解。这一评估使我们能够识别领域特定挑战,并揭示结肠镜中的多模态研究仍然值得进一步探索。为迎接即将到来的多模态时代,我们建立了三个基础性倡议:一个大规模多模态指令调整数据集 ColonINST,一个专为结肠镜设计的多模态语言模型 ColonGPT,以及一个多模态基准。为促进对这一快速发展领域的持续监测,我们提供了一个用于获取最新更新的公共网站:https://github.com/ai4colonoscopy/IntelliScope。