AI研究论文每日精选

每日精选AI研究论文及翻译

Jamba：一种混合Transformer-Mamba语言模型
Jamba: A Hybrid Transformer-Mamba Language Model

Mar 28

ByOpher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham

111

我们提出了Jamba，这是一种基于新型混合Transformer-Mamba专家混合（MoE）架构的新型大型语言模型。具体而言，Jamba交错堆叠Transformer层和Mamba层，从而兼具两类模型的优势。在部分层中加入MoE，以提升模型容量，同时保持活跃参数的可控性。这种灵活架构支持资源和目标特定的配置。在我们实现的特定配置中，最终得到一个强大的模型，能够适应单个80GB GPU。Jamba在大规模构建时，相比传统Transformer，提供了更高的吞吐量和更小的内存占用，同时在标准语言模型基准测试和长上下文评估中达到了最先进的性能。值得注意的是，该模型在长达256K个token的上下文长度下表现出色。我们研究了多种架构决策，如如何结合Transformer和Mamba层，以及如何混合专家，并表明其中一些决策在大规模建模中至关重要。我们还描述了这些架构的几个有趣特性，这些特性是通过Jamba的训练和评估揭示的，并计划发布来自各种消融运行的检查点，以鼓励对该新型架构的进一步探索。我们以宽松的许可协议公开了Jamba实现中的权重。

Gecko：从大型语言模型中提炼出的多功能文本嵌入
Gecko: Versatile Text Embeddings Distilled from Large Language Models

Mar 29

ByJinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim

我们提出了Gecko，一种紧凑且多功能的文本嵌入模型。Gecko通过一个关键理念实现了强大的检索性能：将大型语言模型（LLMs）的知识提炼到检索器中。我们的两步提炼过程首先使用LLM生成多样化的合成配对数据。接着，我们通过为每个查询检索一组候选段落，并使用同一LLM重新标记正样本和困难负样本段落，进一步优化数据质量。我们的方法的有效性通过Gecko的紧凑性得以体现。在大型文本嵌入基准（MTEB）上，具有256维嵌入的Gecko超越了所有现有768维嵌入的条目。具有768维嵌入的Gecko平均得分达到66.31，与7倍大小的模型和5倍高维嵌入相媲美。

Transformer-Lite：高效部署大型语言模型于手机GPU
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

Mar 29

ByLuchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie

大型语言模型（LLM）广泛应用于智能手机上的智能助手、文本摘要、翻译及多模态任务。然而，当前设备端LLM部署方法的推理速度较慢，导致用户体验不佳。为提升设备GPU上LLM部署的效率，我们提出了四种优化技术：(a) 基于符号表达的方法，支持动态形状模型推理；(b) 操作符优化及执行优先级设置，以提高推理速度并减少手机卡顿；(c) 名为M0E4的FP4量化方法，降低反量化开销；(d) 基于子张量的技术，消除LLM推理后KV缓存复制的需要。此外，我们将这些方法实现在我们的移动推理引擎Transformer-Lite中，该引擎兼容高通和联发科处理器。我们使用架构和参数从2B到14B不等的LLM评估了Transformer-Lite的性能。具体而言，对于ChatGLM2 6B，我们实现了121 token/s的预填充速度和14 token/s的解码速度；对于较小的Gemma 2B，则分别为330 token/s和30 token/s。与基于CPU的FastLLM和基于GPU的MLC-LLM相比，我们的引擎在预填充速度上实现了超过10倍的加速，在解码速度上实现了2~3倍的加速。

ReALM：参考解析作为语言建模
ReALM: Reference Resolution As Language Modeling

Mar 29

ByJoel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, Nidhi Rajshree

指代消解是一个重要问题，对于理解和成功处理各种上下文至关重要。这些上下文既包括之前的对话轮次，也涉及与非对话实体相关的背景信息，例如用户屏幕上的实体或后台运行的实体。尽管大语言模型（LLMs）在多种任务中展现出极强的能力，但在指代消解，尤其是非对话实体的指代消解方面，其应用仍未得到充分开发。本文展示了如何利用LLMs构建一个极其有效的系统来解决各类指代问题，通过展示如何将指代消解转化为一个语言建模问题，尽管涉及屏幕上的实体等形式，这些实体传统上并不易于简化为纯文本模式。我们在不同类型的指代消解上，相较于现有具备类似功能的系统，展示了大幅度的改进，其中最小的模型在屏幕指代上获得了超过5%的绝对提升。我们还与GPT-3.5和GPT-4进行了基准测试，我们的最小模型达到了与GPT-4相当的性能，而更大规模的模型则显著超越了GPT-4。

InstantSplat：40秒内实现无界稀疏视角无姿态高斯喷洒
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

Mar 29

ByZhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang

尽管新颖视图合成（NVS）在三维计算机视觉领域取得了显著进展，但它通常需要从密集视点对相机内参和外参进行初始估计。这一预处理过程通常通过运动恢复结构（SfM）管道进行，该过程可能缓慢且不可靠，尤其是在稀疏视图场景中，由于匹配特征不足，难以实现精确重建。本文中，我们将基于点的表示（如三维高斯喷洒，3D-GS）与端到端密集立体模型（DUSt3R）的优势相结合，以解决在无约束设置下NVS中复杂且未解决的问题，包括无姿态和稀疏视图的挑战。我们的框架InstantSplat，将密集立体先验与3D-GS统一，能够在不到一分钟的时间内从稀疏视图和无姿态的图像中构建大规模场景的三维高斯分布。具体而言，InstantSplat包含一个粗略几何初始化（CGI）模块，该模块利用从预训练密集立体管道中获得的全局对齐三维点图，快速建立所有训练视图的初步场景结构和相机参数。随后是快速三维高斯优化（F-3DGO）模块，它联合优化三维高斯属性和初始姿态，并进行姿态正则化。在大规模户外Tanks & Temples数据集上的实验表明，InstantSplat显著提升了SSIM（提高32%），同时将绝对轨迹误差（ATE）降低了80%。这些结果确立了InstantSplat在无姿态和稀疏视图条件下的可行解决方案地位。项目页面：instantsplat.github.io。

不可解问题检测：评估视觉语言模型的可信度
Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

Mar 29

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa

本文提出了一项针对视觉语言模型（VLM）的新颖且重要的挑战，称为不可解问题检测（UPD）。UPD考察了VLM在视觉问答（VQA）任务中面对不可解问题时能否拒绝回答的能力。UPD包含三种不同的场景：缺失答案检测（AAD）、不兼容答案集检测（IASD）和不兼容视觉问题检测（IVQD）。为了深入研究UPD问题，大量实验表明，包括GPT-4V和LLaVA-Next-34B在内的多数VLM在我们的基准测试中表现不佳，显示出显著的改进空间。为应对UPD，我们探讨了无需训练和基于训练的解决方案，提供了关于其有效性和局限性的新见解。我们希望这些见解，连同未来在UPD设定下的努力，将促进对更实用、更可靠VLM的广泛理解和开发。

定位语言模型中的段落记忆
Localizing Paragraph Memorization in Language Models

Mar 28

ByNiklas Stoehr, Mitchell Gordon, Chiyuan Zhang, Owen Lewis

我们能否定位语言模型用于记忆和背诵其训练数据中整段文本的权重和机制？本文表明，尽管记忆分布在多个层和模型组件中，但记忆段落的梯度具有可区分的空间模式，即在较低模型层中比非记忆示例的梯度更大。此外，通过仅微调高梯度权重，可以消除这些记忆示例。我们定位了一个低层注意力头，该头似乎特别参与段落记忆。此头主要将其注意力集中在语料库级别的一元分布中频率最低的独特、罕见标记上。接着，我们通过扰动标记并测量解码中的变化，研究了前缀中标记的局部化记忆情况。前缀中早期的几个独特标记通常会破坏整个后续内容。总体而言，记忆的后续内容不仅更难消除，而且比非记忆内容更难破坏。

MambaMixer：高效选择性状态空间模型与双重令牌和通道选择
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

Mar 29

ByAli Behrouz, Michele Santacatterina, Ramin Zabih

深度学习的最新进展主要依赖于Transformer，因其数据依赖性和大规模学习能力。然而，这些架构中的注意力模块在输入规模上表现出二次时间与空间复杂度，限制了其在长序列建模中的可扩展性。尽管近期尝试设计针对多维数据（如图像和多元时间序列）的高效且有效的架构骨干，现有模型要么数据独立，要么未能实现维度间与维度内的通信。最近，状态空间模型（SSMs），特别是具有高效硬件感知实现的选择性状态空间模型，显示出在长序列建模中的巨大潜力。受SSMs成功的启发，我们提出了MambaMixer，一种采用数据依赖权重的新架构，通过跨标记和通道的双重选择机制，称为选择性标记与通道混合器。MambaMixer通过加权平均机制连接选择性混合器，使各层能直接访问早期特征。作为概念验证，我们基于MambaMixer模块设计了Vision MambaMixer（ViM2）和Time Series MambaMixer（TSM2）架构，并在多种视觉和时间序列预测任务中探索其性能。我们的结果强调了在标记和通道间进行选择性混合的重要性。在ImageNet分类、目标检测和语义分割任务中，ViM2与成熟的视觉模型表现相当，并优于基于SSM的视觉模型。在时间序列预测中，TSM2相比最先进的方法表现出色，同时显著提升了计算成本。这些结果表明，尽管Transformer、跨通道注意力和MLP在时间序列预测中足以实现良好性能，但并非必要。

狄江：通过紧凑内核化实现高效大型语言模型
DiJiang: Efficient Large Language Models through Compact Kernelization

Mar 29

ByHanting Chen, Zhicheng Liu, Xutao Wang, Yuchuan Tian, Yunhe Wang

为了减轻Transformer的计算负担，线性注意力研究取得了显著进展。然而，注意力机制的改进策略通常需要大量重新训练，这对于拥有庞大参数数量的大型语言模型来说是不切实际的。本文提出了DiJiang，一种新颖的频域核化方法，能够在极少训练成本的情况下，将预训练的普通Transformer转化为线性复杂度模型。通过采用加权准蒙特卡罗方法进行采样，该方法在理论上提供了更高的近似效率。为进一步降低训练计算复杂度，我们的核化基于离散余弦变换（DCT）操作。大量实验表明，所提出的方法在性能上与原始Transformer相当，但训练成本显著降低，推理速度大幅提升。我们的DiJiang-7B在各项基准测试中与LLaMA2-7B表现相当，而训练成本仅需约1/50。代码可在https://github.com/YuchuanTian/DiJiang获取。

抓取、轻触、喷溅：基于触觉的3D高斯喷溅技术用于重建复杂表面
Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

Mar 29

ByMauro Comi, Alessio Tonioni, Max Yang, Jonathan Tremblay, Valts Blukis, Yijiong Lin, Nathan F. Lepora, Laurence Aitchison

触觉与视觉相辅相成，共同提升我们对世界的理解能力。从研究角度来看，触觉与视觉的融合问题尚未得到充分探索，且充满有趣的挑战。为此，我们提出了Tactile-Informed 3DGS，这是一种创新方法，将触觉数据（局部深度图）与多视角视觉数据结合，以实现表面重建和新视角合成。我们的方法优化了三维高斯基元，以精确建模物体接触点的几何形状。通过构建一个在触点处降低透射率的框架，我们实现了精细的表面重建，确保深度图均匀平滑。在处理非朗伯体物体（如光亮或反射表面）时，触觉尤为有用，因为当代方法往往难以忠实重建镜面高光。通过结合视觉与触觉感知，我们以比以往方法更少的图像实现了更精确的几何重建。我们在具有光泽和反射表面的物体上进行了评估，并展示了我们方法的有效性，显著提升了重建质量。