每日精选AI研究论文及翻译
参数高效微调(PEFT)方法旨在通过对少量权重进行更新来调整大型模型。然而,许多先前的可解释性研究表明,表示编码了丰富的语义信息,这表明编辑表示可能是一种更强大的替代方法。在这里,我们通过开发一系列表示微调(ReFT)方法来探讨这一假设。ReFT方法在一个冻结的基础模型上运行,并学习对隐藏表示进行任务特定干预。我们定义了ReFT系列的一个强实例,即低秩线性子空间ReFT(LoReFT)。LoReFT可以直接替代现有的PEFT,并学习比先前最先进的PEFT高10倍至50倍的参数高效干预。我们在八个常识推理任务、四个算术推理任务、Alpaca-Eval v1.0和GLUE上展示了LoReFT。在所有这些评估中,LoReFT提供了效率和性能的最佳平衡,并几乎总是优于最先进的PEFT。我们在https://github.com/stanfordnlp/pyreft 上公开发布了一个通用的ReFT训练库。
扩散模型在文本到图像生成领域取得了巨大成功。然而,缓解文本提示与图像之间的不对齐仍然具有挑战性。导致不对齐的根本原因尚未得到广泛调查。我们观察到,不对齐是由于令牌注意力激活不足造成的。我们进一步将这一现象归因于扩散模型的条件利用不足,这是由其训练范式引起的。为了解决这个问题,我们提出了CoMat,一种端到端的扩散模型微调策略,其中包括图像到文本概念匹配机制。我们利用图像字幕模型来衡量图像到文本的对齐情况,并引导扩散模型重新审视被忽略的令牌。还提出了一种新颖的属性集中模块来解决属性绑定问题。在没有任何图像或人类偏好数据的情况下,我们仅使用2万个文本提示来微调SDXL,获得CoMat-SDXL。大量实验证明,CoMat-SDXL在两个文本到图像对齐基准测试中明显优于基线模型SDXL,并实现了最先进的性能。
本文介绍了MiniGPT4-Video,这是一种专为视频理解而设计的多模态大型语言模型(LLM)。该模型能够处理时间视觉和文本数据,从而擅长理解视频的复杂性。在MiniGPT-v2取得成功的基础上,该模型在将视觉特征转换为LLM空间方面表现出色,取得了在各种图像-文本基准测试上令人印象深刻的成果,本文将模型的能力扩展到处理一系列帧,使其能够理解视频。MiniGPT4-Video不仅考虑视觉内容,还融入了文本对话,使模型能够有效地回答涉及视觉和文本组件的查询。所提出的模型优于现有的最先进方法,在MSVD、MSRVTT、TGIF和TVQA基准测试上分别取得了4.22%、1.13%、20.82%和13.1%的增益。我们的模型和代码已在此处公开提供:https://vision-cair.github.io/MiniGPT4-video/
在人工智能不断发展的领域中,多模态大型语言模型正成为一个重要的研究领域。这些模型结合了各种形式的数据输入,变得越来越受欢迎。然而,理解它们的内部机制仍然是一个复杂的任务。在可解释性工具和机制领域已经取得了许多进展,但仍有许多待探索之处。在这项工作中,我们提出了一个新颖的交互式应用程序,旨在理解大型视觉-语言模型的内部机制。我们的界面旨在增强图像补丁的可解释性,这对于生成答案至关重要,并评估语言模型在图像中对其输出的基础。通过我们的应用程序,用户可以系统地调查模型并揭示系统限制,为提升系统能力铺平道路。最后,我们展示了一个案例研究,说明我们的应用程序如何帮助理解一种流行的大型多模态模型LLaVA中的失败机制。
在本文中,我们探讨了在高度压缩文本上训练大型语言模型(LLMs)的想法。标准的子词标记器通过较小的因子压缩文本,而神经文本压缩器可以实现更高比率的压缩。如果能够直接在神经压缩文本上训练LLMs,这将带来培训和服务效率方面的优势,以及更容易处理长文本跨度。实现这一目标的主要障碍在于强压缩往往会产生不适合学习的不透明输出。特别是,我们发现通过算术编码天真压缩的文本不容易被LLMs学习。为了克服这一障碍,我们提出了Equal-Info Windows,一种新颖的压缩技术,其中文本被分割成每个块都压缩到相同比特长度的块。使用这种方法,我们展示了在神经压缩文本上的有效学习,随着规模的扩大而改善,并在困惑度和推理速度基准测试中大幅优于字节级基线。虽然我们的方法在具有相同参数数量的模型上训练时比子词标记器提供了更差的困惑度,但它具有更短的序列长度的好处。较短的序列长度需要更少的自回归生成步骤,并减少延迟。最后,我们对有助于可学习性的属性进行了广泛分析,并提出了如何进一步改进高压缩标记器性能的具体建议。
大型语言模型(LLMs)用于代码的应用正在快速发展,代码编辑作为一项关键能力逐渐崭露头角。我们引入了CodeEditorBench,这是一个旨在严格评估LLMs在代码编辑任务中表现的评估框架,包括调试、翻译、优化和需求切换。与现有专注于代码生成的基准不同,CodeEditorBench强调真实世界场景和软件开发的实际方面。我们从五个来源精心策划了各种编码挑战和场景,涵盖多种编程语言、复杂性水平和编辑任务。对19个LLMs的评估显示,封闭源模型(特别是Gemini-Ultra和GPT-4)在CodeEditorBench中胜过开源模型,突显了基于问题类型和提示敏感性的模型性能差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力,推动LLMs的进步。我们将发布所有提示和数据集,以便社区扩展数据集并对新兴LLMs进行基准测试。通过引入CodeEditorBench,我们为LLMs在代码编辑方面的发展做出贡献,并为研究人员和从业者提供了宝贵的资源。
我们提出了PointInfinity,这是一种高效的点云扩散模型系列。我们的核心思想是使用基于Transformer的架构,具有固定大小、分辨率不变的潜在表示。这使得能够在低分辨率点云上进行高效训练,同时允许在推断过程中生成高分辨率点云。更重要的是,我们展示了将测试时分辨率扩展到训练分辨率之上可以提高生成的点云和表面的保真度。我们分析了这一现象,并将其与扩散模型中常用的无分类器引导进行了联系,表明两者都允许在推断过程中权衡保真度和变异性。在CO3D上的实验表明,PointInfinity能够高效生成高分辨率点云(最多131k个点,比Point-E多31倍),并具有最先进的质量。
已经提出了各种越狱攻击来对大型语言模型(LLMs)进行红队测试,并揭示了LLMs的脆弱防护措施。此外,一些方法不仅限于文本模态,还通过扰乱视觉输入将越狱攻击扩展到多模态大型语言模型(MLLMs)。然而,缺乏一个通用的评估基准使性能再现和公平比较变得复杂。此外,对于封闭源最先进(SOTA)模型的综合评估存在不足,特别是对于MLLMs,如GPT-4V。为了解决这些问题,本研究首先构建了一个包含1445个有害问题的全面越狱评估数据集,涵盖11种不同的安全策略。基于这个数据集,在11种不同的LLMs和MLLMs上进行了广泛的红队实验,包括SOTA专有模型和开源模型。然后对评估结果进行了深入分析,发现:(1)与开源LLMs和MLLMs相比,GPT4和GPT-4V对越狱攻击表现出更好的鲁棒性。 (2)与其他开源模型相比,Llama2和Qwen-VL-Chat更具鲁棒性。 (3)与文本越狱方法相比,视觉越狱方法的可转移性相对有限。数据集和代码可在以下链接找到:https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。
我们提出了RALL-E,这是一种用于文本转语音(TTS)合成的鲁棒语言建模方法。尽管先前基于大型语言模型(LLMs)的工作在零-shot TTS上表现出色,但这类方法常常存在鲁棒性不佳的问题,如不稳定的韵律(奇怪的音高和节奏/时长)和高词错误率(WER),这是由于语言模型的自回归预测风格所致。RALL-E背后的核心思想是“思维链”(CoT)提示,它将任务分解为更简单的步骤,以增强基于LLM的TTS的鲁棒性。为了实现这一想法,RALL-E首先预测输入文本的韵律特征(音高和时长),并将其用作预测语音标记的中间条件,以CoT风格进行预测。其次,RALL-E利用预测的时长提示来引导Transformer中自注意力权重的计算,以强制模型在预测语音标记时专注于相应的音素和韵律特征。全面客观和主观评估结果表明,与强大的基线方法VALL-E相比,RALL-E显著改善了零-shot TTS的WER,分别从6.3%(无重新排序)和2.1%(重新排序)降至2.8%和1.0%。此外,我们证明RALL-E能够正确合成对VALL-E而言困难的句子,并将错误率从68%降低到4%。