ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

你的Transformer其實是線性的
Your Transformer is Secretly Linear

May 19
ByAnton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
157
20

本文揭示了一種新穎的線性特性,僅存在於Transformer解碼器中,包括GPT、LLaMA、OPT、BLOOM等模型。我們分析了連續層之間的嵌入轉換,揭示了一種接近完美的線性關係(普羅克魯斯相似度得分為0.99)。然而,當去除殘差組件時,由於Transformer層的輸出範數一直較低,導致線性度下降。我們的實驗表明,去除或線性逼近一些最線性的Transformer區塊並不會顯著影響損失或模型性能。此外,在我們對較小模型進行的預訓練實驗中,我們引入了基於餘弦相似度的正則化,旨在減少層的線性度。這種正則化改善了像Tiny Stories和SuperGLUE這樣的基準測試中的性能指標,同時成功降低了模型的線性度。這項研究挑戰了對Transformer架構的現有理解,暗示它們的運作可能比先前假設的更線性。

2

通過跨層注意力減少Transformer鍵-值緩存的大小
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

May 21
ByWilliam Brandon, Mayank Mishra, Aniruddha Nrusimha, Rameswar Panda, Jonathan Ragan Kelly
33
3

鍵-值(KV)緩存在加速基於變壓器的自回歸大型語言模型(LLM)的解碼中發揮著重要作用。然而,在長序列長度和大批量大小時,存儲KV緩存所需的記憶體量可能變得過高。自變壓器的發明以來,為減少KV緩存大小發現的兩種最有效的方法是多查詢注意力(MQA)及其泛化形式組查詢注意力(GQA)。MQA和GQA都修改了注意力塊的設計,使多個查詢頭可以共享單個鍵/值頭,大幅減少不同鍵/值頭的數量,同時僅對準確性造成輕微影響。本文中,我們展示了可以通過在相鄰層之間共享鍵和值頭,將多查詢注意力推進一步,從而產生一種我們稱為跨層注意力(CLA)的新型注意力設計。通過CLA,我們發現可以將KV緩存大小再次減少2倍,同時保持幾乎與未修改的MQA相同的準確性。在從頭開始訓練10億和30億參數模型的實驗中,我們展示了CLA相對於傳統MQA可能的記憶體/準確性折衷提供了帕累托改進,實現了比傳統方法更長序列長度和更大批量大小的推論。

3

擴散用於世界建模:Atari 中的視覺細節至關重要
Diffusion for World Modeling: Visual Details Matter in Atari

May 20
ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret
30
4

世界模型是一種有前途的方法,可安全且有效地訓練強化學習代理人。最近的世界模型主要基於序列的離散潛變數來模擬環境動態。然而,這種將資訊壓縮為緊湊的離散表示可能忽略了對強化學習重要的視覺細節。與此同時,擴散模型已成為圖像生成的主要方法,挑戰著傳統的建模離散潛變數方法。受這種範式轉變的啟發,我們介紹了DIAMOND(DIffusion As a Model Of eNvironment Dreams),這是一個在擴散世界模型中訓練的強化學習代理人。我們分析了使擴散適合於世界建模所需的關鍵設計選擇,並展示了如何通過改進視覺細節來提高代理人的性能。DIAMOND在具競爭性的Atari 100k基準測試中實現了平均人類標準化分數1.46;這是完全在世界模型內訓練的代理人的最佳表現。為了促進未來對於將擴散應用於世界建模的研究,我們在https://github.com/eloialonso/diamond 上釋出了我們的程式碼、代理人和可玩的世界模型。

4

OmniGlue:具有基礎模型引導的通用特徵匹配
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21
ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo
12
2

在影像匹配領域中,我們不斷見證到新穎的可學習特徵匹配技術的出現,這些技術在傳統基準測試中的表現不斷提升。然而,我們的研究顯示,儘管取得這些進展,這些方法在應用於真實世界時受限於其對新型影像領域的有限泛化能力。本文介紹了 OmniGlue,這是第一個以泛化為核心原則設計的可學習影像匹配器。OmniGlue利用視覺基礎模型的廣泛知識來引導特徵匹配過程,提升對訓練時未見過的領域的泛化能力。此外,我們提出了一種新穎的關鍵點位置引導的注意機制,可以區分空間和外觀信息,從而提高匹配描述符的性能。我們在包括場景級、物體中心和航拍影像在內的7個數據集上進行了全面的實驗。相對於一個直接可比的參考模型,OmniGlue的新穎組件使在未見過的領域取得了20.9%的相對增益,同時也優於最近的 LightGlue 方法9.5%的相對增益。程式碼和模型可在 https://hwjiang1510.github.io/OmniGlue 找到。

May 21
May 22
May 23