HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

16 papers found

LazyLLM：用于高效长上下文LLM推理的动态标记修剪
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

基于Transformer的大型语言模型的推理包括两个连续阶段：1）预填充阶段用于计算提示的KV缓存并生成第一个标记，2）解码阶段用于生成后续标记。对于长提示，必须在预填充阶段为所有标记计算KV缓存，这可能会显著增加生成第一个标记所需的时间。因此，预填充阶段可能成为生成过程中的瓶颈。一个未解决的问题是是否所有提示标记对于生成第一个标记都是必要的。为了回答这个问题，我们引入了一种新方法LazyLLM，该方法有选择地计算在预填充和解码阶段对下一个标记预测重要的标记的KV。与一次性修剪提示的静态修剪方法相反，LazyLLM允许语言模型在不同生成步骤中动态选择来自上下文的不同标记子集，即使它们在先前的步骤中可能已被修剪。对各种任务的标准数据集进行的大量实验表明，LazyLLM是一种通用方法，可以与现有语言模型无缝集成，显著加速生成而无需微调。例如，在多文档问答任务中，LazyLLM将LLama 2 7B模型的预填充阶段加速了2.34倍，同时保持准确性。

大型语言模型中的内部一致性和自我反馈：一项调查
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

大型语言模型（LLMs）被期望能够准确地回应，但往往表现出推理不足或生成幻觉内容。为了解决这些问题，已经启动了以“自我-”为前缀的研究，如自我一致性、自我改进和自我完善。它们有一个共同点：涉及LLMs评估和更新自身以减轻问题。然而，这些努力缺乏对总结的统一视角，因为现有调查主要侧重于分类，而没有审视这些工作背后的动机。在本文中，我们总结了一个名为内部一致性的理论框架，为缺乏推理和存在幻觉等现象提供了统一的解释。内部一致性根据采样方法评估LLMs的潜在层、解码层和响应层之间的一致性。在内部一致性框架的基础上，我们引入了一个简化而有效的理论框架，能够挖掘内部一致性，名为自我反馈。自我反馈框架包括两个模块：自我评估和自我更新。这个框架已被许多研究采用。我们通过任务和工作线路系统地对这些研究进行分类；总结相关的评估方法和基准；深入探讨“自我反馈真的有效吗？”这一问题。我们提出了几个关键观点，包括“内部一致性的沙漏演化”、“一致性即（几乎）正确性”假设和“潜在和显式推理的悖论”。此外，我们概述了未来研究的有前途的方向。我们已在https://github.com/IAAR-Shanghai/ICSFSurvey开源了实验代码、参考文献列表和统计数据。

EVLM：一种用于视觉理解的高效视觉-语言模型
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

在多模态语言模型领域，大多数方法都建立在类似于LLaVA的架构上。这些模型使用单层ViT特征作为视觉提示，直接将其与文本标记一起馈送到语言模型中。然而，当处理长序列的视觉信号或输入（如视频）时，语言模型的自注意机制可能导致显着的计算开销。此外，使用单层ViT特征使大型语言模型完全感知视觉信号变得具有挑战性。本文提出了一种高效的多模态语言模型，以最小化计算成本，同时使模型尽可能全面地感知视觉信号。我们的方法主要包括：（1）类似于Flamingo的图像-文本交互的交叉注意力机制。(2) 利用分层ViT特征。(3) 引入专家混合（MoE）机制以增强模型效果。我们的模型在公共多模态基准测试中取得了竞争性分数，并在诸如图像字幕和视频字幕等任务中表现良好。

稳定的音频开放
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

开放式生成模型对社区至关重要，可以进行微调，并在提出新模型时作为基准。然而，大多数当前的文本转音频模型是私有的，无法供艺术家和研究人员构建。在这里，我们描述了一个新的基于开放权重的文本转音频模型的架构和训练过程，该模型使用知识共享许可数据进行训练。我们的评估显示，该模型在各种指标上的性能与最先进的模型相媲美。值得注意的是，报告的FDopenl3结果（衡量生成物的逼真程度）展示了其在44.1kHz下进行高质量立体声音频合成的潜力。

ChatQA 2：在长文本和RAG能力中弥合与专有LLMs之间的差距
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

在这项工作中，我们介绍了ChatQA 2，这是一个基于Llama3的模型，旨在弥合开放获取的LLMs和领先的专有模型（例如GPT-4-Turbo）在长上下文理解和检索增强生成（RAG）能力方面的差距。这两种能力对于LLMs处理无法适应单个提示的大量信息至关重要，并且相互补充，取决于下游任务和计算预算。我们提出了一个详细的持续训练配方，将Llama3-70B-base的上下文窗口从8K扩展到128K标记，以及一个三阶段指令调优过程，以增强模型的指令遵循、RAG性能和长上下文理解能力。我们的结果表明，Llama3-ChatQA-2-70B模型在许多长上下文理解任务上实现了与GPT-4-Turbo-2024-0409相媲美的准确性，并在RAG基准测试中超越了后者。有趣的是，我们发现最先进的长上下文检索器可以缓解RAG中的top-k上下文碎片化问题，进一步改善了基于RAG的长上下文理解任务的结果。我们还使用最先进的长上下文LLMs对RAG和长上下文解决方案进行了广泛比较。

Qalam：用于阿拉伯光学字符和手写识别的多模态LLM
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

阿拉伯光学字符识别（OCR）和手写识别（HWR）由于阿拉伯文字的连续和上下文敏感特性而面临独特挑战。本研究介绍了Qalam，一个新颖的基础模型，专为阿拉伯OCR和HWR设计，采用了基于SwinV2编码器和RoBERTa解码器的架构。我们的模型显著优于现有方法，在HWR任务中实现了仅0.80%的词错误率（WER），在OCR任务中为1.18%。我们在多样化数据集上训练Qalam，包括来自阿拉伯手稿的超过450万张图像和一个包含60k图像文本对的合成数据集。值得注意的是，Qalam展现出对阿拉伯变音符的出色处理能力，这是阿拉伯文字中的关键特征。此外，它表现出处理高分辨率输入的显著能力，解决了当前OCR系统中的常见限制。这些进展突显了Qalam作为阿拉伯文字识别领域领先解决方案的潜力，提供了在准确性和效率方面的重大飞跃。

VisFocus：面向OCR-Free密集文档理解的提示引导视觉编码器
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

近年来，在视觉文档理解领域取得了显著进展，主要架构包括一系列视觉和语言模型。文本部分可以通过在基于OCR的方法中明确提取文本，使用外部OCR模型，或者在无OCR的方法中，视觉模型可以具备阅读能力。通常，向模型提出的查询仅输入到语言部分，需要视觉特征涵盖整个文档。在本文中，我们提出了VisFocus，这是一种无OCR方法，旨在通过直接将其与语言提示相结合，更好地利用视觉编码器的能力。为此，我们用接收输入提示的层替换了下采样层，并允许突出显示文档的相关部分，而忽略其他部分。我们将架构增强与一项新颖的预训练任务相结合，使用语言掩码处理文档文本片段，将其馈送到视觉编码器，代替提示，以赋予模型聚焦能力。因此，VisFocus学会将注意力集中在与提供的提示相关的文本片段上。我们的实验表明，这种提示引导的视觉编码方法显著提高了性能，在各种基准测试中取得了最先进的结果。

SciCode：科学家精心策划的研究编码基准
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

ByMinyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng

由于语言模型（LMs）现在在许多具有挑战性的任务上表现优于普通人类，因此开发具有挑战性、高质量和真实性的评估变得越来越困难。我们通过研究LMs生成解决真实科学研究问题的代码的能力来解决这一问题。结合来自16个不同自然科学子领域（包括数学、物理、化学、生物和材料科学）的科学家和人工智能研究人员的意见，我们创建了一个科学家策划的编码基准SciCode。SciCode中的问题自然地分解为多个子问题，每个子问题涉及知识回忆、推理和代码合成。总共，SciCode包含了从80个具有挑战性的主要问题分解出的338个子问题。它提供了可选描述，指定有用的科学背景信息，并为评估提供了科学家注释的黄金标准解决方案和测试用例。在经过测试的模型中，表现最佳的Claude3.5-Sonnet在最真实的环境中只能解决4.6%的问题。我们相信SciCode展示了当代LMs朝着成为有用的科学助手取得的进展，并为未来科学人工智能的发展和评估提供了启示。

自主计算的愿景：LLMs能否使其成为现实？
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

提出了两个多年前的自主计算（ACV）愿景，设想计算系统能够像生物体一样自我管理，无缝适应不断变化的环境。尽管经过数十年的研究，由于现代计算系统的动态和复杂性，实现ACV仍然具有挑战性。最近大型语言模型（LLMs）的进展为解决这些挑战提供了希望，通过利用它们丰富的知识、语言理解和任务自动化能力。本文通过基于LLM的多智能体框架探讨了实现ACV的可行性，用于微服务管理。我们引入了一个五级分类法，用于自主服务维护，并基于Sock Shop微服务演示项目提出了一个在线评估基准，以评估我们框架的性能。我们的研究结果显示了朝着实现第三级自主性的重大进展，突显了LLMs在检测和解决微服务架构中问题方面的有效性。这项研究通过在微服务管理框架中首创将LLMs整合，为推动自主计算做出了贡献，为更具适应性和自我管理的计算系统铺平了道路。代码将在https://aka.ms/ACV-LLM 上提供。

用于查找表量化LLM的快速矩阵乘法
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

大型语言模型（LLMs）的部署通常受到内存带宽的限制，其中主要瓶颈是从GPU的全局内存传输模型参数到其寄存器的成本。当与融合去量化和矩阵乘法操作的自定义内核结合时，仅权重量化可以通过减少内存移动量来实现更快的推理。然而，为权重量化的LLMs开发高性能内核存在重大挑战，特别是当权重被压缩为非均匀可分割比特宽度（例如，3比特）并采用非均匀查找表（LUT）量化时。本文描述了FLUTE，一种用于LUT量化LLMs的灵活查找表引擎，它利用离线重组量化权重矩阵以最小化与解包相关的比特操作，并对查找表进行矢量化和复制以减轻共享内存带宽约束。在批量大小小于32且量化组大小为128（LLM推理中的典型值）时，FLUTE内核的速度可以比现有的GEMM内核快2-4倍。作为FLUTE的一个应用，我们探索了基于查找表的NormalFloat量化的简单扩展，并将其应用于将LLaMA3量化为各种配置，获得了与强基线相竞争的量化性能，同时获得了端到端吞吐量增加1.5到2倍。

Phi-3 安全后训练：将语言模型与“修复周期”对齐
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

ByEmman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler

最近在语言模型训练方面的创新表明，可以创建性能出色的模型，且体积小到足以在智能手机上运行。随着这些模型在越来越多的领域部署，确保它们与人类偏好和安全考虑保持一致至关重要。在本报告中，我们介绍了我们用于安全对齐 Phi-3 系列语言模型的方法论。我们采用了“修复-破解”循环，进行了多轮数据集筛选、训练后安全性处理、基准测试、红队攻击和漏洞识别，以涵盖单轮和多轮场景中的各种危害领域。我们的结果表明，这种方法逐步改善了 Phi-3 模型在广泛的负责任人工智能基准测试中的性能。

野外视觉文本生成
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

最近，随着生成模型的快速发展，视觉文本生成领域取得了显著进展。然而，在现实场景中生成高质量文本图像仍然具有挑战性，因为需要满足三个关键标准：（1）保真度：生成的文本图像应该是照片般逼真，内容应与给定条件中指定的内容相同；（2）合理性：生成的文本的区域和内容应与场景相协调；（3）实用性：生成的文本图像可以促进相关任务（例如文本检测和识别）。经过调查，我们发现现有的方法，无论是基于渲染还是扩散的方法，都很难同时满足所有这些方面，限制了它们的应用范围。因此，我们在本文中提出了一种视觉文本生成器（称为SceneVTG），可以在实际场景中生成高质量的文本图像。SceneVTG遵循一个两阶段范式，利用多模态大型语言模型跨多个尺度和级别推荐合理的文本区域和内容，这些内容被条件扩散模型用作生成文本图像的条件。大量实验证明，所提出的SceneVTG在保真度和合理性方面明显优于传统的基于渲染的方法和最近的基于扩散的方法。此外，生成的图像在涉及文本检测和文本识别的任务中提供了更高的实用性。代码和数据集可在AdvancedLiterateMachinery上获得。

向前跳跃：利用JumpReLU稀疏自动编码器改善重建保真度
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

稀疏自编码器（SAEs）是一种有前景的无监督方法，用于识别语言模型（LM）激活中因果相关且可解释的线性特征。为了在下游任务中发挥作用，SAEs需要忠实地分解LM激活；然而，为了可解释性，分解必须是稀疏的，这两个目标存在紧张关系。在本文中，我们介绍了JumpReLU SAEs，相较于其他最近的进展，如门控和TopK SAEs，在给定稀疏度水平上实现了Gemini 2 9B激活的最先进重构保真度。我们还展示了这种改进并没有以可解释性为代价，通过手动和自动可解释性研究。JumpReLU SAEs是对普通（ReLU）SAEs的简单修改，我们将ReLU替换为不连续的JumpReLU激活函数，并且训练和运行效率类似。通过以原则性方式利用直通估计器（STEs），我们展示了如何有效训练JumpReLU SAEs，尽管在SAE的前向传播中引入了不连续的JumpReLU函数。同样，我们使用STEs直接训练L0以实现稀疏性，而不是训练在L1等代理上，避免像收缩这样的问题。

PlacidDreamer：推动文本到3D生成中的和谐发展
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

最近，文本到3D生成引起了广泛关注，取得了显著的性能提升。先前的方法利用端到端的3D生成模型初始化3D高斯模型，利用多视角扩散模型强制实现多视角一致性，并利用文本到图像扩散模型通过得分蒸馏算法细化细节。然而，这些方法存在两个限制。首先，它们在生成方向上存在冲突，因为不同模型旨在生成多样化的3D资源。其次，得分蒸馏中的过饱和问题尚未得到彻底调查和解决。为了解决这些限制，我们提出了PlacidDreamer，这是一个文本到3D框架，通过单一的多视角扩散模型协调初始化、多视角生成和文本条件生成，同时采用一种新颖的得分蒸馏算法实现平衡饱和度。为了统一生成方向，我们引入了潜在平面模块，这是一个训练友好的插件扩展，使多视角扩散模型能够为初始化提供快速几何重建，并提供增强的多视角图像以个性化文本到图像扩散模型。为了解决过饱和问题，我们将得分蒸馏视为一个多目标优化问题，并引入了平衡得分蒸馏算法，提供帕累托最优解，实现丰富细节和平衡饱和度。大量实验证实了我们的PlacidDreamer的出色能力。代码可在https://github.com/HansenHuang0823/PlacidDreamer找到。

利用编码器级知识蒸馏实现高效音频字幕生成
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

最近的模型在自动音频字幕（AAC）方面取得了显著进展。然而，随着性能的提升，这些模型变得越来越庞大。在这项工作中，我们提出了一种用于AAC的知识蒸馏（KD）框架。我们的分析表明，在基于编码器-解码器的AAC模型中，与解码器相比，将知识蒸馏到编码器中更为有效。为此，我们在训练中加入了编码器级别的知识蒸馏损失，除了标准的监督损失和序列级别的知识蒸馏损失。我们研究了两种基于编码器级别的知识蒸馏方法，分别基于均方误差（MSE）损失和对比损失。实验结果表明，对比知识蒸馏比MSE知识蒸馏更加稳健，在数据稀缺情况下表现出更优越的性能。通过在KD框架中利用仅音频数据进行训练，我们的学生模型实现了竞争性能，推断速度快了19倍。可在以下网址查看在线演示：\url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}。

SparseCraft：通过视差引导的几何线性化实现少样本神经重建
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma

我们提出了一种新颖的方法，可以从少量彩色图像中恢复3D形状和视角相关外观，实现高效的3D重建和新视角合成。我们的方法通过学习隐式神经表示形式，即有符号距离函数（SDF）和辐射场，来实现这一目标。该模型通过射线行进启用的体积渲染逐步训练，并通过学习无关的多视图立体匹配（MVS）线索进行规范化。我们贡献的关键在于一种新颖的隐式神经形状函数学习策略，鼓励我们的SDF场在水平集附近尽可能线性化，从而使训练对来自监督和规范信号的噪声更具鲁棒性。在不使用任何预训练先验的情况下，我们的方法名为SparseCraft，在标准基准测试中在新视角合成和从稀疏视图重建方面均实现了最先进的性能，而且训练时间不到10分钟。