HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

16 papers found

LazyLLM：用於高效長上下文LLM推論的動態標記修剪
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

基於Transformer的大型語言模型的推論包含兩個連續階段：1) 預填充階段用於計算提示的KV快取並生成第一個標記，2) 解碼階段用於生成後續標記。對於長提示，必須在預填充階段為所有標記計算KV快取，這可能會顯著增加生成第一個標記所需的時間。因此，預填充階段可能成為生成過程中的瓶頸。一個未解決的問題是所有提示標記對於生成第一個標記是否都是必要的。為了回答這個問題，我們引入了一種新方法LazyLLM，它選擇性地在預填充和解碼階段為下一個標記預測中重要的標記計算KV。與一次性修剪提示的靜態修剪方法相反，LazyLLM允許語言模型在不同生成步驟中動態選擇來自上下文的不同標記子集，即使它們在先前步驟中被修剪。對標準數據集上各種任務的大量實驗表明，LazyLLM是一種通用方法，可以與現有語言模型無縫集成，從而顯著加速生成速度而無需微調。例如，在多文檔問答任務中，LazyLLM將LLama 27B模型的預填充階段加速了2.34倍，同時保持準確性。

大型語言模型中的內部一致性和自我反饋：一項調查
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

大型語言模型（LLMs）預期能夠準確回應，但常常表現出推理不足或生成幻覺內容。為了應對這些問題，已啟動了以「自我-」為前綴的研究，如自我一致性、自我改進和自我精煉。它們共享一個共同點：涉及LLMs評估並更新自身以減輕問題。然而，這些努力在摘要方面缺乏統一的觀點，因為現有的調查主要集中在分類，而沒有探討這些工作背後的動機。在本文中，我們總結了一個名為內部一致性的理論框架，該框架為缺乏推理和存在幻覺等現象提供了統一的解釋。內部一致性基於採樣方法評估LLMs的潛在層、解碼層和響應層之間的一致性。在內部一致性框架的基礎上，我們介紹了一個簡化但有效的理論框架，能夠挖掘內部一致性，名為自我反饋。自我反饋框架包括兩個模塊：自我評估和自我更新。這個框架已被應用於許多研究中。我們通過任務和工作路線系統地將這些研究分類；總結相關的評估方法和基準；並深入探討「自我反饋真的有效嗎？」這一問題。我們提出了幾個關鍵觀點，包括「內部一致性的沙漏演化」、「一致性即（幾乎）正確性」假設和「潛在和顯式推理的悖論」。此外，我們概述了未來研究的有前途的方向。我們已在https://github.com/IAAR-Shanghai/ICSFSurvey開源了實驗代碼、參考文獻列表和統計數據。

EVLM：一個用於視覺理解的高效視覺語言模型
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

在多模態語言模型領域中，大多數方法都建立在類似 LLaVA 的架構上。這些模型使用單層 ViT 特徵作為視覺提示，直接將其與文本標記一起餵入語言模型。然而，當處理長序列的視覺信號或輸入（如視頻）時，語言模型的自注意機制可能導致顯著的計算開銷。此外，使用單層 ViT 特徵使大型語言模型難以充分感知視覺信號。本文提出了一種高效的多模態語言模型，以最小化計算成本，同時使模型盡可能全面地感知視覺信號。我們的方法主要包括：（1）採用與 Flamingo 相似的圖像-文本交互的交叉注意力。（2）利用分層 ViT 特徵。（3）引入專家混合（MoE）機制以增強模型效能。我們的模型在公開的多模態基準測試中取得了競爭力的分數，在圖像標題生成和視頻標題生成等任務中表現良好。

穩定音訊開放
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

開放式生成模型對AI社群至關重要，可進行微調並在提出新模型時作為基準。然而，大多數目前的文本轉語音模型是私有的，並不對藝術家和研究人員開放以進行擴展。在這裡，我們描述了一個新的開放權重文本轉語音模型的架構和訓練過程，該模型是使用創用CC授權數據進行訓練的。我們的評估顯示，該模型在各種指標上的表現與最先進的模型競爭力相當。值得注意的是，報告的FDopenl3結果（用於衡量生成物的真實性）展示了其在44.1kHz下進行高質量立體聲音頻合成的潛力。

ChatQA 2：在長文本和RAG功能中搭建與專有LLMs之間的橋樑
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

在這份工作中，我們介紹了ChatQA 2，這是一個基於Llama3的模型，旨在彌合開放存取的LLM與領先的專有模型（例如GPT-4-Turbo）在長文本理解和檢索增強生成（RAG）能力方面的差距。這兩種能力對於LLM處理無法容納在單個提示中的大量信息至關重要，並且相互補充，取決於下游任務和計算預算。我們提出了一個詳細的持續訓練配方，將Llama3-70B-base的上下文窗口從8K擴展到128K標記，以及一個三階段指導調整過程，以增強模型的指導遵循、RAG性能和長文本理解能力。我們的結果表明，Llama3-ChatQA-2-70B模型在許多長文本理解任務上實現了與GPT-4-Turbo-2024-0409相當的準確性，並在RAG基準上超越了它。有趣的是，我們發現最先進的長文本檢索器可以緩解RAG中的前k上下文碎片化問題，進一步改善基於RAG的長文本理解任務的結果。我們還使用最先進的長文本LLM對RAG和長文本解決方案進行了廣泛比較。

Qalam：用於阿拉伯文光學字符和手寫識別的多模態LLM
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

阿拉伯文本字符識別（OCR）和手寫識別（HWR）由於阿拉伯文字的連筆和上下文敏感性而面臨獨特挑戰。本研究介紹了Qalam，一個新穎的基礎模型，專為阿拉伯文本OCR和HWR而設計，採用了SwinV2編碼器和RoBERTa解碼器架構。我們的模型明顯優於現有方法，在HWR任務中達到僅0.80％的字錯誤率（WER），在OCR任務中為1.18％。我們在多樣化數據集上訓練Qalam，包括來自阿拉伯手稿的超過450萬張圖像和包含60k圖像文本對的合成數據集。值得注意的是，Qalam展示了對阿拉伯文本音標的出色處理能力，這是阿拉伯文字中的一個關鍵特徵。此外，它表現出對高分辨率輸入的卓越處理能力，解決了當前OCR系統中的一個常見限制。這些進步突顯了Qalam作為阿拉伯文字識別領域領先解決方案的潛力，提供了準確性和效率方面的重大飛躍。

VisFocus：針對OCR-Free密集文件理解的提示引導視覺編碼器
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

近年來，在視覺文件理解領域取得了顯著進展，主要架構包括一系列視覺和語言模型的串聯。文字組件可以透過在基於OCR方法中使用外部OCR模型來明確提取，或者在無OCR方法中，也可以賦予視覺模型閱讀能力。通常，對模型的查詢僅輸入到語言組件，使得視覺特徵需要涵蓋整個文件。本文介紹了VisFocus，一種無OCR方法，旨在通過將視覺編碼器直接與語言提示相結合，更好地利用其能力。為此，我們將下採樣層替換為接收輸入提示並允許突出文件中相關部分的層，同時忽略其他部分。我們將架構增強與一項新穎的預訓練任務相結合，使用語言遮罩在提供給視覺編碼器的文件文本片段上進行遮罩，以賦予模型專注能力。因此，VisFocus學會將注意力集中在與提供的提示相關的文本片段上。我們的實驗表明，這種提示引導的視覺編碼方法顯著提高了性能，在各種基準測試中取得了最先進的結果。

SciCode：科學家精心策劃的研究編碼基準
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

ByMinyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng

由於語言模型（LMs）現在在許多具有挑戰性的任務上表現優於普通人，因此開發具有挑戰性、高質量和逼真的評估越來越困難。我們通過檢驗LMs生成解決真實科學研究問題的代碼的能力來解決這個問題。我們結合科學家和16個不同自然科學子領域的AI研究人員的意見，包括數學、物理學、化學、生物學和材料科學，創建了一個科學家策劃的編碼基準SciCode。SciCode中的問題自然地分解為多個子問題，每個子問題都涉及知識回憶、推理和代碼合成。總共，SciCode包含了從80個具有挑戰性的主問題分解出的338個子問題。它提供了可選的描述，指定有用的科學背景信息以及科學家注釋的黃金標準解決方案和測試用例以供評估。在經過測試的模型中，表現最佳的模型Claude3.5-Sonnet只能在最逼真的環境中解決4.6％的問題。我們相信SciCode展示了當代LMs在成為有用的科學助手方面取得的進展，並為未來科學AI的發展和評估提供了啟示。

自主計算的願景：LLMs 能讓它變成現實嗎？
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

提出二十多年前的自主計算（ACV）願景，設想計算系統能夠像生物有機體一樣自我管理，無縫適應不斷變化的環境。儘管經過數十年的研究，實現ACV仍然具有挑戰性，這是由於現代計算系統的動態和複雜性質。最近大規模語言模型（LLMs）的進步為應對這些挑戰提供了有希望的解決方案，通過利用它們廣泛的知識、語言理解和任務自動化能力。本文通過基於LLM的多代理框架來探討實現ACV的可行性，用於微服務管理。我們提出了一個五級分類法，用於自主服務維護，並提出了一個基於Sock Shop微服務演示項目的在線評估基準，以評估我們框架的性能。我們的研究結果顯示在實現第3級自主性方面取得了顯著進展，突出了LLMs在檢測和解決微服務架構中問題方面的有效性。本研究通過將LLMs整合到微服務管理框架中，推動了自主計算的進步，為更具適應性和自我管理的計算系統鋪平了道路。代碼將在https://aka.ms/ACV-LLM 上提供。

用於查找表量化LLM的快速矩陣乘法
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

大型語言模型（LLMs）的部署通常受到內存帶寬的限制，其中主要瓶頸是從 GPU 的全局內存傳輸模型參數到其寄存器的成本。當結合自定義內核來融合去量化和矩陣乘法運算時，僅權重量化可以通過減少內存移動量來加快推理速度。然而，為權重量化的LLMs開發高性能內核存在著重大挑戰，特別是當權重被壓縮為非均勻可分割位寬（例如3位）並具有非均勻查找表（LUT）量化時。本文描述了FLUTE，一個靈活的查找表引擎，用於LUT量化的LLMs，該引擎使用離線重組量化權重矩陣以最小化與解包相關的位操作，並對查找表進行向量化和複製以減輕共享內存帶寬限制。在批量大小<32且量化組大小為128（在LLM推理中典型），FLUTE內核可以比現有的GEMM內核快2-4倍。作為FLUTE的應用，我們探索了基於查找表的NormalFloat量化的簡單擴展，並將其應用於對LLaMA3進行各種配置的量化，獲得了與強基線相競爭的量化性能，同時實現了端到端吞吐量增加1.5至2倍。

Phi-3 安全後訓練：將語言模型與「修復循環」對齊
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

ByEmman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler

最近在語言模型訓練方面的創新已經證明，可以創建性能卓越的模型，並且足夠小以在智能手機上運行。隨著這些模型在越來越多的領域部署，確保它們與人類偏好和安全考量保持一致至關重要。在本報告中，我們介紹了我們用於安全對齊 Phi-3 系列語言模型的方法論。我們採用了“破壞-修復”循環，進行了多輪數據集編輯、訓練後安全性、基準測試、紅隊測試和漏洞識別，以涵蓋單輪和多輪情景中各種損害領域。我們的結果表明，這種方法逐步改善了 Phi-3 模型在廣泛的負責任 AI 基準測試中的表現。

野外視覺文本生成
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

最近，隨著生成模型的快速進展，視覺文本生成領域取得了顯著進步。然而，在現實場景中呈現高質量文本圖像仍然具有挑戰性，因為需要滿足三個關鍵標準：（1）保真度：生成的文本圖像應該是照片般逼真，內容應與給定條件中指定的內容相同；（2）合理性：生成的文本區域和內容應與場景一致；（3）實用性：生成的文本圖像應有助於相關任務（例如文本檢測和識別）。經過調查，我們發現現有的方法，無論是基於渲染還是擴散的方法，都很難同時滿足所有這些方面，限制了它們的應用範圍。因此，在本文中，我們提出了一種視覺文本生成器（稱為SceneVTG），可以在實際環境中生成高質量的文本圖像。SceneVTG採用了雙階段範式，利用多模態大型語言模型跨多個尺度和層次推薦合理的文本區域和內容，這些被條件擴散模型用作生成文本圖像的條件。大量實驗表明，所提出的SceneVTG在保真度和合理性方面顯著優於傳統基於渲染的方法和最近的基於擴散的方法。此外，生成的圖像對涉及文本檢測和文本識別的任務提供了更優的實用性。代碼和數據集可在AdvancedLiterateMachinery上獲得。

向前跳躍：使用 JumpReLU 稀疏自編碼器改善重建保真度
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

稀疏自編碼器（SAEs）是一種有前途的非監督方法，用於識別語言模型（LM）激活中具有因果關係且可解釋的線性特徵。為了在下游任務中有用，SAEs需要忠實地分解LM激活；然而，為了可解釋，分解必須是稀疏的--這兩個目標之間存在張力。在本文中，我們介紹JumpReLU SAEs，相較於最近的其他進展如閘控和TopK SAEs，在Gemma 2 9B激活上實現了特定稀疏水平的最先進的重建保真度。我們還展示這種改進並不是以可解釋性為代價，通過手動和自動可解釋性研究。JumpReLU SAEs是對普通（ReLU）SAEs的簡單修改--我們將ReLU替換為不連續的JumpReLU激活函數--並且訓練和運行效率相似。通過以原則性方式利用直通估計器（STEs），我們展示了如何有效地訓練JumpReLU SAEs，儘管在SAE的前向傳遞中引入了不連續的JumpReLU函數。同樣地，我們使用STEs直接訓練L0以實現稀疏性，而不是在像L1這樣的代理上進行訓練，避免像收縮這樣的問題。

寧靜夢想者：推動文本到3D生成中的和諧
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

最近，文字轉3D生成引起了相當大的關注，並取得了顯著的性能提升。先前的方法利用端對端3D生成模型來初始化3D高斯模型，多視圖擴散模型來強制實現多視圖一致性，以及文字到圖像擴散模型來通過分數蒸餾算法來精煉細節。然而，這些方法存在兩個限制。首先，它們在生成方向上存在衝突，因為不同模型旨在生成多樣化的3D資產。其次，分數蒸餾中的過飽和問題尚未得到徹底研究和解決。為了解決這些限制，我們提出了PlacidDreamer，這是一個文字轉3D框架，它通過單一多視圖擴散模型協調初始化、多視圖生成和文字條件生成，同時採用一種新穎的分數蒸餾算法來實現平衡的飽和度。為了統一生成方向，我們引入了潛在平面模組，這是一個訓練友好的插件擴展，使多視圖擴散模型能夠提供快速的幾何重建以進行初始化，並提供增強的多視圖圖像以個性化文字到圖像擴散模型。為了解決過飽和問題，我們提出將分數蒸餾視為多目標優化問題，並引入平衡分數蒸餾算法，該算法提供帕累托最優解，實現豐富細節和平衡飽和度。大量實驗驗證了我們PlacidDreamer出色的能力。代碼可在https://github.com/HansenHuang0823/PlacidDreamer找到。

利用編碼器層級知識蒸餾的高效音訊字幕生成
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

最近的模型在自動音訊字幕（AAC）方面取得了顯著的進展。然而，隨著性能的提升，這些模型變得越來越龐大。在這項工作中，我們提出了一個用於AAC的知識蒸餾（KD）框架。我們的分析顯示，在基於編碼器-解碼器的AAC模型中，將知識蒸餾到編碼器中比較解碼器更有效。為此，我們在訓練中加入了編碼器級別的知識蒸餾損失，除了標準監督損失和序列級別的知識蒸餾損失。我們研究了兩種基於編碼器級別的知識蒸餾方法，分別基於均方誤差（MSE）損失和對比損失。實驗結果表明，對比知識蒸餾比MSE知識蒸餾更具魯棒性，在數據稀缺情況下表現更優。通過在KD框架中利用僅音訊數據進行訓練，我們的學生模型實現了競爭性的性能，推理速度快了19倍。在以下網址提供了在線演示：\url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}。

SparseCraft：透過立體視引導的幾何線性化進行少樣本神經重建
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma

我們提出了一種新穎的方法，可以從少量彩色圖像中恢復3D形狀和視角相依外觀，從而實現高效的3D重建和新視角合成。我們的方法通過學習隱式神經表示形式，即符號距離函數（SDF）和輻射場，來實現。該模型通過允許體素渲染的射線行進進行漸進式訓練，並通過學習無需多視圖立體（MVS）線索進行正則化。我們貢獻的關鍵在於一種新穎的隱式神經形狀函數學習策略，該策略鼓勵我們的SDF場在水平集附近盡可能線性化，從而使訓練對來自監督和正則化信號的噪聲更具魯棒性。在不使用任何預訓練先驗的情況下，我們的方法，稱為SparseCraft，在標準基準測試中在新視角合成和從稀疏視圖中重建方面均實現了最先進的性能，訓練時間不到10分鐘。