每日精选AI研究论文及翻译
我们介绍InternLM-XComposer-2.5(IXC-2.5),这是一个多才多艺的大视觉语言模型,支持长上下文输入和输出。IXC-2.5在各种文本图像理解和合成应用中表现出色,仅使用7B LLM后端即可达到GPT-4V级别的能力。通过使用24K交错的图像文本上下文进行训练,它可以通过RoPE外推轻松扩展到96K的长上下文。这种长上下文能力使IXC-2.5在需要广泛输入和输出上下文的任务中表现卓越。与其之前的2.0版本相比,InternLM-XComposer-2.5在视觉语言理解方面有三个主要升级:(1)超高分辨率理解,(2)细粒度视频理解,以及(3)多轮多图像对话。除了理解,IXC-2.5还通过额外的LoRA参数扩展到两个引人注目的应用领域,用于文本图像合成:(1)制作网页和(2)撰写高质量的文本图像文章。IXC-2.5已在28个基准测试上进行评估,在16个基准测试上优于现有的开源最先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro竞争激烈。InternLM-XComposer-2.5可在https://github.com/InternLM/InternLM-XComposer 上公开获取。
为了促进表格机器学习(ML)中新研究的顺利应用,需要有能够紧密反映下游应用场景的基准测试。在这项工作中,我们研究了现有的表格基准测试,并发现行业级表格数据中的两个常见特征在学术界可用的数据集中被低估。首先,表格数据在实际部署场景中经常随时间变化。这会影响模型性能,并需要基于时间的训练和测试拆分以进行正确的模型评估。然而,现有的学术表格数据集通常缺乏时间戳元数据以支持这种评估。其次,在生产环境中,相当大一部分数据集源自大量数据获取和特征工程流程。对于每个特定数据集,这可能会对预测特征、无信息特征和相关特征的绝对和相对数量产生不同影响,进而影响模型选择。为填补学术基准测试中上述空白,我们引入了TabReD —— 一个涵盖从金融到食品配送服务等各种领域的八个行业级表格数据集的集合。我们在由TabReD提供的功能丰富、随时间演变的数据设置中评估了大量表格ML模型。我们展示了基于基于时间的数据拆分进行评估会导致不同的方法排名,与学术基准测试中更常见的随机拆分进行评估相比。此外,在TabReD数据集上,类似MLP的架构和GBDT表现最佳,而更复杂的DL模型尚未证明其有效性。
无分类器引导(CFG)已成为提升条件扩散模型质量的标准方法。然而,使用CFG要么需要在主扩散模型旁训练一个无条件模型,要么通过定期插入空条件修改训练过程。目前CFG在无条件模型上的扩展也并不明确。本文重新审视CFG的核心原则,并引入一种新方法,独立条件引导(ICG),它提供了CFG的好处,而无需任何特殊的训练程序。我们的方法简化了条件扩散模型的训练过程,并且可以应用于任何预训练的条件模型推断过程中。此外,通过利用所有扩散网络中编码的时间步信息,我们提出了一种CFG的扩展,称为时间步引导(TSG),可应用于任何扩散模型,包括无条件模型。我们的引导技术易于实现,并且具有与CFG相同的采样成本。通过大量实验证明,ICG在各种条件扩散模型上与标准CFG的性能相匹敌。此外,我们展示了TSG如何提高生成质量,类似于CFG,而无需依赖任何条件信息。
视觉投影仪在多模态大语言模型(MLLM)中充当视觉编码器和大型语言模型(LLM)之间的重要桥梁。通常,MLLM采用简单的多层感知器(MLP)通过一对一转换来保留所有视觉上下文。然而,处理高分辨率图像时,视觉标记是冗余的,可能会大大增加,从而严重影响MLLM的效率。一些最近的研究引入了重新采样器或抽象器来减少生成的视觉标记数量。然而,它们未能捕捉更细微的细节,并削弱了MLLM的视觉推理能力。在这项工作中,我们提出了一种新颖的视觉投影方案,采用粗到细的方案将丰富的特征注入,生成精简的视觉标记。具体而言,我们首先将视觉特征插值为低分辨率点查询,提供整体视觉表示作为基础。然后,我们引入了一个区域到点注入模块,利用高分辨率、多级区域为基础的线索作为细粒度的参考键和值,使其完全被相应的局部上下文区域吸收。这一步有效地更新了粗糙的点查询,将其转换为一个丰富的查询,用于后续的LLM推理。大量实验证明,我们的方法将视觉标记压缩了75%~89%,同时在各种基准测试中实现了可比甚至更好的性能,且效率显著提高。源代码可在https://github.com/CircleRadon/TokenPacker找到。
近年来,音频生成任务引起了相当大的研究兴趣。精确的时间可控性对将音频生成与实际应用集成至关重要。在这项工作中,我们提出了一个名为PicoAudio的时间控制音频生成框架。PicoAudio通过定制的模型设计,整合时间信息来引导音频生成。它利用数据爬取、分割、过滤和模拟细粒度时间对齐的音频文本数据。主客观评估表明,PicoAudio在时间戳和事件发生频率可控性方面明显优于当前最先进的生成模型。生成的样本可在演示网站https://PicoAudio.github.io 上获取。
扩散模型(DMs)已经彻底改变了生成式学习。它们利用扩散过程将数据编码成简单的高斯分布。然而,将复杂且可能是多峰的数据分布编码为单一连续的高斯分布可以说是一个不必要具有挑战性的学习问题。我们提出了离散-连续潜变量扩散模型(DisCo-Diff),通过引入互补的离散潜变量来简化这一任务。我们使用可学习的离散潜变量来增强DMs,这些潜变量是由编码器推断出来的,并且对DM和编码器进行端到端的训练。DisCo-Diff不依赖预训练网络,使得该框架具有普适性。离散潜变量显著简化了学习DM复杂噪声到数据映射的过程,通过减少生成ODE的曲率。另外,一个自回归变换器模型了离散潜变量的分布,这一步骤很简单,因为DisCo-Diff只需要少量具有小码本的离散变量。我们在玩具数据、几个图像合成任务以及分子对接上验证了DisCo-Diff,并发现引入离散潜变量能够持续提升模型性能。例如,DisCo-Diff在带ODE采样器的类别条件ImageNet-64/128数据集上实现了最先进的FID分数。
大型语言模型(LLMs)以其出色的推理能力、泛化能力和在不同领域中的流畅性而闻名,为增强与语音相关的任务提供了一个有前途的途径。本文着重于将仅解码器的LLMs集成到语音转文本翻译(S2TT)任务中。我们提出了一个仅解码器架构,使LLM能够直接消化编码的语音表示并生成文本翻译。此外,我们研究了不同参数高效微调技术和任务制定的影响。我们的模型在未使用专有数据训练的模型中在CoVoST 2和FLEURS上实现了最先进的性能。我们还进行了分析,以验证我们提出的模型设计选择,并为将LLMs集成到S2TT中带来见解。
大型语言模型(LLMs)容易受到越狱攻击的影响,即通过某些方法引发有害或通常不允许的输出。安全措施被开发并评估其在抵御越狱攻击方面的有效性,表明了对安全等同于鲁棒性的信念。我们断言,目前的防御机制,如输出过滤器和对齐微调,从根本上是不足以确保模型安全的,而且将继续如此。这些防御措施未能解决由双重意图查询和将无害输出组合以实现有害目标所产生的风险。为了弥补这一关键差距,我们引入了一种称为推理对手的信息论威胁模型,他们利用模型输出中的不允许信息泄漏来实现恶意目标。我们将这些对手与通常研究的只寻求迫使受害模型生成特定不允许输出的安全对手区分开来。我们展示了通过问题分解和响应聚合自动化推理对手的可行性。为了提供安全保证,我们为审查机制定义了一个信息审查标准,限制了不允许信息的泄漏。我们提出了一种防御机制,确保这一限制,并揭示了固有的安全-效用权衡。我们的工作首次从理论上深入理解了发布安全LLMs所需的要求以及涉及的效用成本。
现代语言模型(LMs)中的位置偏差已被证明是一个普遍问题,这些模型根据给定上下文中的位置优先考虑内容。这种偏见经常导致意外的模型失败,并损害各种应用中的性能、鲁棒性和可靠性。我们的机械分析将位置偏差归因于几乎所有最先进的LMs中使用的两个组件:因果注意力和相对位置编码。具体来说,我们发现因果注意力通常导致模型偏爱远处的内容,而像RoPE这样的相对位置编码根据检索增强问答(QA)的分析更倾向于附近的内容。此外,我们在目标检测的经验研究中发现,位置偏差也存在于视觉语言模型(VLMs)中。 基于以上分析,我们提出通过“无需训练的零样本”方式消除由不同输入片段顺序(例如,LM作为评判员中的选项,QA中检索的文档)引起的位置偏差。我们的方法将因果注意力改为片段之间的双向注意力,并利用模型注意力值来决定片段的相对顺序,而不是使用输入提示中提供的顺序,从而实现片段级别的位置不变推断(PINE)。通过消除位置偏差,模型在LM作为评判员和检索增强QA等广泛存在位置偏差的下游任务中实现更好的性能和可靠性。 值得注意的是,PINE在为评估推理对调整LMs时特别有用:在大多数情况下,它始终提供8到10个百分点的性能增益,并使Llama-3-70B-Instruct在RewardBench推理子集上的表现甚至比GPT-4-0125-preview更好。