AI研究论文每日精选

每日精选AI研究论文及翻译

ReFT：语言模型的表示微调
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

101

参数高效微调（PEFT）方法旨在通过对少量权重进行更新来调整大型模型。然而，许多先前的可解释性研究表明，表示编码了丰富的语义信息，这表明编辑表示可能是一种更强大的替代方法。在这里，我们通过开发一系列表示微调（ReFT）方法来探讨这一假设。ReFT方法在一个冻结的基础模型上运行，并学习对隐藏表示进行任务特定干预。我们定义了ReFT系列的一个强实例，即低秩线性子空间ReFT（LoReFT）。LoReFT可以直接替代现有的PEFT，并学习比先前最先进的PEFT高10倍至50倍的参数高效干预。我们在八个常识推理任务、四个算术推理任务、Alpaca-Eval v1.0和GLUE上展示了LoReFT。在所有这些评估中，LoReFT提供了效率和性能的最佳平衡，并几乎总是优于最先进的PEFT。我们在https://github.com/stanfordnlp/pyreft 上公开发布了一个通用的ReFT训练库。

CoMat：将文本到图像扩散模型与图像到文本概念匹配对齐
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

扩散模型在文本到图像生成领域取得了巨大成功。然而，缓解文本提示与图像之间的不对齐仍然具有挑战性。导致不对齐的根本原因尚未得到广泛调查。我们观察到，不对齐是由于令牌注意力激活不足造成的。我们进一步将这一现象归因于扩散模型的条件利用不足，这是由其训练范式引起的。为了解决这个问题，我们提出了CoMat，一种端到端的扩散模型微调策略，其中包括图像到文本概念匹配机制。我们利用图像字幕模型来衡量图像到文本的对齐情况，并引导扩散模型重新审视被忽略的令牌。还提出了一种新颖的属性集中模块来解决属性绑定问题。在没有任何图像或人类偏好数据的情况下，我们仅使用2万个文本提示来微调SDXL，获得CoMat-SDXL。大量实验证明，CoMat-SDXL在两个文本到图像对齐基准测试中明显优于基线模型SDXL，并实现了最先进的性能。

AutoWebGLM：基于大型语言模型的Web导航代理的自举和强化
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

大型语言模型（LLMs）推动了许多智能代理任务，例如网络导航，但由于三个因素，大多数现有代理在真实网页上的表现远未令人满意：（1）网页上行为的多样性，（2）HTML文本超出模型处理能力，以及（3）由于网络的开放域特性，决策复杂性。针对这一挑战，我们开发了AutoWebGLM，这是一个基于ChatGLM3-6B构建的GPT-4性能优越的自动化网络导航代理。受人类浏览模式启发，我们设计了一种HTML简化算法来简洁地表示网页，保留重要信息。我们采用混合人工智能方法构建网页浏览数据以进行课程训练。然后，我们通过强化学习和拒绝抽样来引导模型，进一步促进网页理解、浏览器操作以及有效的任务分解。为了测试，我们建立了一个双语基准——AutoWebBench，用于真实世界的网络浏览任务。我们评估了AutoWebGLM在各种网络导航基准上的表现，揭示了其改进之处，但也揭示了需要解决真实环境中的潜在挑战。相关代码、模型和数据将在https://github.com/THUDM/AutoWebGLM 上发布。

MiniGPT4-Video：通过交错的视觉-文本标记推进视频理解的多模态LLM
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

本文介绍了MiniGPT4-Video，这是一种专为视频理解而设计的多模态大型语言模型（LLM）。该模型能够处理时间视觉和文本数据，从而擅长理解视频的复杂性。在MiniGPT-v2取得成功的基础上，该模型在将视觉特征转换为LLM空间方面表现出色，取得了在各种图像-文本基准测试上令人印象深刻的成果，本文将模型的能力扩展到处理一系列帧，使其能够理解视频。MiniGPT4-Video不仅考虑视觉内容，还融入了文本对话，使模型能够有效地回答涉及视觉和文本组件的查询。所提出的模型优于现有的最先进方法，在MSVD、MSRVTT、TGIF和TVQA基准测试上分别取得了4.22%、1.13%、20.82%和13.1%的增益。我们的模型和代码已在此处公开提供：https://vision-cair.github.io/MiniGPT4-video/

LVLM-Intrepret：一种用于大型视觉-语言模型的可解释性工具
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Apr 3

ByGabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal

在人工智能不断发展的领域中，多模态大型语言模型正成为一个重要的研究领域。这些模型结合了各种形式的数据输入，变得越来越受欢迎。然而，理解它们的内部机制仍然是一个复杂的任务。在可解释性工具和机制领域已经取得了许多进展，但仍有许多待探索之处。在这项工作中，我们提出了一个新颖的交互式应用程序，旨在理解大型视觉-语言模型的内部机制。我们的界面旨在增强图像补丁的可解释性，这对于生成答案至关重要，并评估语言模型在图像中对其输出的基础。通过我们的应用程序，用户可以系统地调查模型并揭示系统限制，为提升系统能力铺平道路。最后，我们展示了一个案例研究，说明我们的应用程序如何帮助理解一种流行的大型多模态模型LLaVA中的失败机制。

在神经压缩文本上训练LLM模型
Training LLMs over Neurally Compressed Text

Apr 4

ByBrian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

在本文中，我们探讨了在高度压缩文本上训练大型语言模型（LLMs）的想法。标准的子词标记器通过较小的因子压缩文本，而神经文本压缩器可以实现更高比率的压缩。如果能够直接在神经压缩文本上训练LLMs，这将带来培训和服务效率方面的优势，以及更容易处理长文本跨度。实现这一目标的主要障碍在于强压缩往往会产生不适合学习的不透明输出。特别是，我们发现通过算术编码天真压缩的文本不容易被LLMs学习。为了克服这一障碍，我们提出了Equal-Info Windows，一种新颖的压缩技术，其中文本被分割成每个块都压缩到相同比特长度的块。使用这种方法，我们展示了在神经压缩文本上的有效学习，随着规模的扩大而改善，并在困惑度和推理速度基准测试中大幅优于字节级基线。虽然我们的方法在具有相同参数数量的模型上训练时比子词标记器提供了更差的困惑度，但它具有更短的序列长度的好处。较短的序列长度需要更少的自回归生成步骤，并减少延迟。最后，我们对有助于可学习性的属性进行了广泛分析，并提出了如何进一步改进高压缩标记器性能的具体建议。

CodeEditorBench：评估大型语言模型的代码编辑能力
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Apr 4

ByJiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

大型语言模型（LLMs）用于代码的应用正在快速发展，代码编辑作为一项关键能力逐渐崭露头角。我们引入了CodeEditorBench，这是一个旨在严格评估LLMs在代码编辑任务中表现的评估框架，包括调试、翻译、优化和需求切换。与现有专注于代码生成的基准不同，CodeEditorBench强调真实世界场景和软件开发的实际方面。我们从五个来源精心策划了各种编码挑战和场景，涵盖多种编程语言、复杂性水平和编辑任务。对19个LLMs的评估显示，封闭源模型（特别是Gemini-Ultra和GPT-4）在CodeEditorBench中胜过开源模型，突显了基于问题类型和提示敏感性的模型性能差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力，推动LLMs的进步。我们将发布所有提示和数据集，以便社区扩展数据集并对新兴LLMs进行基准测试。通过引入CodeEditorBench，我们为LLMs在代码编辑方面的发展做出贡献，并为研究人员和从业者提供了宝贵的资源。

PointInfinity: 分辨率不变的点扩散模型
PointInfinity: Resolution-Invariant Point Diffusion Models

Apr 4

ByZixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu

我们提出了PointInfinity，这是一种高效的点云扩散模型系列。我们的核心思想是使用基于Transformer的架构，具有固定大小、分辨率不变的潜在表示。这使得能够在低分辨率点云上进行高效训练，同时允许在推断过程中生成高分辨率点云。更重要的是，我们展示了将测试时分辨率扩展到训练分辨率之上可以提高生成的点云和表面的保真度。我们分析了这一现象，并将其与扩散模型中常用的无分类器引导进行了联系，表明两者都允许在推断过程中权衡保真度和变异性。在CO3D上的实验表明，PointInfinity能够高效生成高分辨率点云（最多131k个点，比Point-E多31倍），并具有最先进的质量。

RALL-E：链式思维提示的文本到语音合成的鲁棒编解码器语言建模
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

我们提出了RALL-E，这是一种用于文本转语音（TTS）合成的鲁棒语言建模方法。尽管先前基于大型语言模型（LLMs）的工作在零-shot TTS上表现出色，但这类方法常常存在鲁棒性不佳的问题，如不稳定的韵律（奇怪的音高和节奏/时长）和高词错误率（WER），这是由于语言模型的自回归预测风格所致。RALL-E背后的核心思想是“思维链”（CoT）提示，它将任务分解为更简单的步骤，以增强基于LLM的TTS的鲁棒性。为了实现这一想法，RALL-E首先预测输入文本的韵律特征（音高和时长），并将其用作预测语音标记的中间条件，以CoT风格进行预测。其次，RALL-E利用预测的时长提示来引导Transformer中自注意力权重的计算，以强制模型在预测语音标记时专注于相应的音素和韵律特征。全面客观和主观评估结果表明，与强大的基线方法VALL-E相比，RALL-E显著改善了零-shot TTS的WER，分别从6.3%（无重新排序）和2.1%（重新排序）降至2.8%和1.0%。此外，我们证明RALL-E能够正确合成对VALL-E而言困难的句子，并将错误率从68%降低到4%。

红队测试 GPT-4V：GPT-4V 对抗单/多模态越狱攻击安全吗？
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu

已经提出了各种越狱攻击来对大型语言模型（LLMs）进行红队测试，并揭示了LLMs的脆弱防护措施。此外，一些方法不仅限于文本模态，还通过扰乱视觉输入将越狱攻击扩展到多模态大型语言模型（MLLMs）。然而，缺乏一个通用的评估基准使性能再现和公平比较变得复杂。此外，对于封闭源最先进（SOTA）模型的综合评估存在不足，特别是对于MLLMs，如GPT-4V。为了解决这些问题，本研究首先构建了一个包含1445个有害问题的全面越狱评估数据集，涵盖11种不同的安全策略。基于这个数据集，在11种不同的LLMs和MLLMs上进行了广泛的红队实验，包括SOTA专有模型和开源模型。然后对评估结果进行了深入分析，发现：（1）与开源LLMs和MLLMs相比，GPT4和GPT-4V对越狱攻击表现出更好的鲁棒性。（2）与其他开源模型相比，Llama2和Qwen-VL-Chat更具鲁棒性。（3）与文本越狱方法相比，视觉越狱方法的可转移性相对有限。数据集和代码可在以下链接找到：https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。

AI研究论文每日精选

每日精选AI研究论文及翻译

ReFT：语言模型的表示微调
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

101

CoMat：将文本到图像扩散模型与图像到文本概念匹配对齐
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

AutoWebGLM：基于大型语言模型的Web导航代理的自举和强化
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

MiniGPT4-Video：通过交错的视觉-文本标记推进视频理解的多模态LLM
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

RALL-E：链式思维提示的文本到语音合成的鲁棒编解码器语言建模
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

红队测试 GPT-4V：GPT-4V 对抗单/多模态越狱攻击安全吗？
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu