AI研究論文每日精選

每日精選AI研究論文及翻譯

種子音樂：一個統一框架，用於高質量和可控音樂生成。
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Sep 13

ByYe Bai, Haonan Chen, Jitong Chen, Zhuo Chen, Yi Deng, Xiaohong Dong, Lamtharn Hantrakul, Weituo Hao, Qingqing Huang, Zhongyi Huang, Dongya Jia, Feihu La, Duc Le, Bochen Li, Chumin Li, Hui Li, Xingxing Li, Shouda Liu, Wei-Tsung Lu, Yiqing Lu, Andrew Shaw, Janne Spijkervet, Yakun Sun, Bo Wang, Ju-Chiang Wang, Yuping Wang, Yuxuan Wang, Ling Xu, Yifeng Yang, Chao Yao, Shuo Zhang, Yang Zhang, Yilin Zhang, Hang Zhao, Ziyi Zhao, Dejian Zhong, Shicen Zhou, Pei Zou

我們介紹Seed-Music，這是一套能夠產生高品質音樂並具有精細風格控制的音樂生成系統。我們的統一框架結合自回歸語言建模和擴散方法，支持兩種關鍵音樂創作工作流程：受控音樂生成和後期製作編輯。對於受控音樂生成，我們的系統能夠從多模態輸入中獲取表演控制，包括風格描述、音頻參考、樂譜和語音提示，實現聲樂音樂生成。對於後期製作編輯，它提供了互動工具，可直接編輯生成音頻中的歌詞和聲樂旋律。我們鼓勵讀者在https://team.doubao.com/seed-music 聆聽示範音頻範例。

科爾莫哥洛夫-阿諾德變換器
Kolmogorov-Arnold Transformer

Sep 16

ByXingyi Yang, Xinchao Wang

Transformer已成為現代深度學習的基石。傳統上，這些模型依賴多層感知器（MLP）層來在通道之間混合信息。本文介紹Kolmogorov-Arnold Transformer（KAT），這是一種新穎的架構，它將MLP層替換為Kolmogorov-Arnold Network（KAN）層，以增強模型的表達能力和性能。然而，將KAN整合到Transformer中並非易事，特別是在擴展時。具體而言，我們確定了三個關鍵挑戰：（C1）基本功能。KAN中使用的標準B樣條函數並未針對現代硬件上的並行計算進行優化，導致推理速度較慢。（C2）參數和計算效率低下。KAN需要為每個輸入-輸出對應一個獨特的函數，使計算量極大。（C3）權重初始化。由於KAN中的可學習激活函數對於實現深度神經網絡的收斂至關重要，因此權重的初始化尤為具有挑戰性。為了克服上述挑戰，我們提出了三個關鍵解決方案：（S1）有理基礎。我們將B樣條函數替換為有理函數，以提高與現代GPU的兼容性。通過在CUDA中實現這一點，我們實現了更快的計算。（S2）組KAN。我們通過一組神經元共享激活權重，以減少計算負載而不影響性能。（S3）保持變異初始化。我們精心初始化激活權重，以確保激活變異在各層之間保持一致。通過這些設計，KAT能夠有效擴展並輕鬆勝過傳統基於MLP的Transformer。

檢索注意力：通過向量檢索加速長文本LLM推理
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Sep 16

ByDi Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu

基於Transformer的大型語言模型（LLMs）在各個領域變得日益重要。然而，由於注意力操作的二次時間複雜度，對於擴展到更長內容提出了重大挑戰，這是由於極高的推理延遲和GPU內存消耗用於緩存關鍵-值（KV）向量。本文提出了RetrievalAttention，這是一種無需訓練的方法，用於加速注意力計算。為了利用注意力的動態稀疏特性，RetrievalAttention在CPU內存中的KV向量上構建了近似最近鄰搜索（ANNS）索引，並在生成過程中通過向量搜索檢索最相關的向量。由於查詢向量和關鍵向量之間的分布之外（OOD），現成的ANNS索引仍然需要掃描O（N）（通常為所有鍵的30%）數據以進行準確檢索，這無法充分利用高稀疏性。RetrievalAttention首先確定了基於ANNS的注意力的OOD挑戰，並通過一種注意力感知向量搜索算法來解決這個挑戰，該算法能夠適應查詢並僅訪問1-3%的數據，從而實現次線性時間複雜度。RetrievalAttention大大降低了長內容LLM的推理成本，並具有更低的GPU內存需求，同時保持模型準確性。特別是，RetrievalAttention僅需要16GB GPU內存來處理具有8B參數的LLMs中的128K標記，這足以在單個NVIDIA RTX4090（24GB）上在0.188秒內生成一個標記。

jina-embeddings-v3：具有任務LoRA的多語言嵌入
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Sep 16

BySaba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao

我們介紹了 jina-embeddings-v3，一個具有 5.7 億參數的新型文本嵌入模型，在多語言數據和長文本檢索任務上實現了最先進的性能，支持長達 8192 個標記的上下文長度。該模型包括一組特定任務的低秩適應（LoRA）適配器，用於生成用於查詢-文檔檢索、聚類、分類和文本匹配的高質量嵌入。此外，Matryoshka 表示學習被整合到訓練過程中，允許靈活截斷嵌入維度而不影響性能。在 MTEB 基準測試中的評估顯示，jina-embeddings-v3 在英語任務上優於來自 OpenAI 和 Cohere 的最新專有嵌入，同時在所有多語言任務中相比 multilingual-e5-large-instruct 實現了更優異的性能。

視覺與語言中的一個缺失環節：對漫畫理解的調查
One missing piece in Vision and Language: A Survey on Comics Understanding

Sep 14

ByEmanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas

視覺語言模型最近已演變為多功能系統，能夠在各種任務中高效執行，例如文件理解、視覺問答和基礎定位，通常在零樣本設置中。漫畫理解是一個複雜且多面向的領域，將大大受益於這些進展。作為一種媒介，漫畫結合豐富的視覺和文字敘事，挑戰著 AI 模型，跨越圖像分類、物體檢測、實例分割，以及透過連續面板實現更深入的敘事理解。然而，漫畫的獨特結構 — 其特點是創意風格的變化、閱讀順序和非線性敘事 — 提出了一系列與其他視覺語言領域不同的挑戰。在這份調查中，我們從數據集和任務的角度全面回顧了漫畫理解。我們的貢獻有五個方面：(1) 我們分析了漫畫媒介的結構，詳細說明其獨特的構成要素；(2) 我們調查了漫畫研究中廣泛使用的數據集和任務，強調它們在推進該領域中的作用；(3) 我們介紹了漫畫理解層（LoCU）框架，這是一個重新定義視覺語言任務在漫畫中的新型分類法，為未來工作奠定基礎；(4) 我們根據 LoCU 框架對現有方法進行了詳細回顧和分類；(5) 最後，我們強調了當前的研究挑戰，並提出未來探索方向，特別是在將視覺語言模型應用於漫畫的情況下。這份調查是第一份提出針對漫畫智能的任務導向框架，旨在通過解決數據可用性和任務定義中的關鍵差距，引導未來研究。與此調查相關的項目可在 https://github.com/emanuelevivoli/awesome-comics-understanding 找到。

Ferret：用於大型語言模型的規模化聯合全參數調整
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

Sep 10

ByYao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu

大型語言模型（LLMs）已成為許多現實世界應用中不可或缺的。不幸的是，在規模上對這些模型進行微調，尤其是在聯邦設置中，其中數據隱私和通信效率至關重要，會帶來重大挑戰。現有方法通常採用參數高效微調（PEFT）來減輕通信開銷，但這通常是以模型準確性為代價的。為了解決這些限制，我們提出了用於大型語言模型的規模化聯邦全參數調整（Ferret），這是第一個具有共享隨機性的一階方法，可實現跨分散數據來源的大型語言模型的可擴展全參數調整，同時保持競爭力模型準確性。Ferret 通過三個方面實現這一目標：（1）它採用廣泛應用的一階方法進行高效的本地更新；（2）將這些更新投影到低維空間中，從而大幅減少通信開銷；（3）通過共享隨機性從這個低維空間重建本地更新，以促進有效的全參數全局聚合，確保快速收斂和競爭性最終性能。我們的嚴格理論分析和見解以及廣泛實驗表明，Ferret 通過實現高計算效率、降低通信開銷和快速收斂，同時保持競爭性模型準確性，顯著提高了現有聯邦全參數調整方法的可擴展性。我們的實現可在 https://github.com/allen4747/Ferret 上找到。

思維圖譜
On the Diagram of Thought

Sep 16

ByYifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

我們介紹了思維圖（DoT），這是一個框架，將大型語言模型（LLMs）中的迭代推理建模為在單個模型內構建有向無環圖（DAG）。與將推理表示為線性鏈或樹的傳統方法不同，DoT將命題、批評、改進和驗證組織成一個統一的DAG結構，使模型能夠探索複雜的推理路徑，同時保持邏輯一致性。圖中的每個節點對應於一個已提出、批評、改進或驗證的命題，使LLM能夠通過自然語言反饋逐步改進其推理。通過利用自回歸的下一令牌預測和角色特定的令牌，DoT促進了在提出想法和批判性評估之間的無縫過渡，提供比二元信號更豐富的反饋。此外，我們使用拓撲理論對DoT框架進行了形式化，提供了一個數學基礎，確保推理過程中的邏輯一致性和嚴謹性。這種方法增強了單個LLM內的訓練和推理過程，消除了對多個模型或外部控制機制的需求。DoT提供了一個概念框架，用於設計下一代專門用於推理的模型，強調訓練效率、強大的推理能力和理論基礎。代碼可在https://github.com/diagram-of-thought/diagram-of-thought找到。

ReCLAP：通過描述聲音來改善零樣本音頻分類
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

Sep 13

BySreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

開放詞彙的語音語言模型，如CLAP，提供了一種有前途的方法，可以通過使用自然語言提示指定的任意類別集進行零樣本語音分類（ZSAC）。在本文中，我們提出了一種簡單但有效的方法來改善CLAP的ZSAC。具體而言，我們從使用具有抽象類別標籤的提示的傳統方法（例如，管風琴的聲音）轉變為使用描述聲音的固有描述特徵的提示，在多樣化的情境中描述聲音（例如，管風琴的深沉而共鳴的音調充滿了大教堂）。為了實現這一點，我們首先提出了ReCLAP，這是一個使用重寫的音頻標題訓練的CLAP模型，以改進對野外聲音的理解。這些重寫的標題描述了原始標題中的每個聲音事件，並使用它們獨特的區分特徵。ReCLAP在多模式音頻-文本檢索和ZSAC上均優於所有基準。接下來，為了改進使用ReCLAP的零樣本語音分類，我們提出了提示擴充。與傳統方法使用手寫模板提示不同，我們為數據集中的每個獨特標籤生成自定義提示。這些自定義提示首先描述標籤中的聲音事件，然後在不同場景中應用它們。我們提出的方法將ReCLAP在ZSAC上的性能提高了1%-18%，並且在所有基準上的表現提高了1% - 55%。

引導視覺問答模型的選擇：跨任務、領域和知識類型
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

Sep 14

ByNeelabh Sinha, Vinija Jain, Aman Chadha

視覺問答（VQA）已成為幾個應用中的關鍵用例，以幫助用戶體驗，特別是在視覺語言模型（VLMs）在零-shot推理中取得良好結果後。然而，在實際環境中使用標準化框架評估不同VLMs以滿足應用需求仍然具有挑戰性。本文介紹了一個針對實際環境中VQA任務評估VLMs的全面框架。我們提出了一個新的數據集，從已建立的VQA基準中提取，並標註了任務類型、應用領域和知識類型，這三個任務可能存在差異的關鍵實際方面。我們還介紹了GoEval，一個使用GPT-4o開發的多模態評估指標，與人類判斷達到了56.71%的相關性。我們對十個最先進的VLMs進行的實驗顯示，沒有一個單一模型能在所有情況下表現出色，因此適當的選擇成為關鍵設計決策。專有模型如Gemini-1.5-Pro和GPT-4o-mini通常優於其他模型，儘管像InternVL-2-8B和CogVLM-2-Llama-3-19B這樣的開源模型在特定情境中展示出競爭優勢，同時提供額外的優勢。本研究指導基於特定任務需求和資源限制來選擇VLMs，並且還可以擴展到其他視覺語言任務。

在強化學習遷移學習中的政策過濾，用於微調用於程式碼生成的大型語言模型
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

Sep 11

ByWei Shen, Chuheng Zhang

從人類反饋中學習的強化學習（RLHF）是幫助大型語言模型（LLMs）遵循指示並提供有用且無害回應的關鍵技術之一。儘管存在直接政策優化方法，但最先進的LLMs採用基於RL的方法（通常是PPO）在RLHF中訓練政策，以生成由偏好數據學習的獎勵模型引導的良好回應。這些方法的主要挑戰是中間獎勵模型的不準確性，特別是在需要進行長時間和複雜推理以對回應進行評分的代碼生成任務中。我們發現獎勵模型的可靠性在分配不同獎勵的回應之間存在差異。這激勵我們過濾那些獎勵可能不可靠的樣本，以提高政策學習期間的信噪比，從而產生適用於Proximal Policy Optimization（PF-PPO）的政策過濾。為了為給定的獎勵模型選擇適當的政策過濾策略，過濾樣本上獎勵與實際分數之間的決定係數（R^2）作為一個良好的指標，幫助我們找到幾種有前途的策略。我們進行了大量實驗，驗證了PF-PPO在代碼生成任務中的有效性，並發現PF-PPO的某些變體非常有效，在HumanEval、MBPP以及一個新且更具挑戰性的LeetCode競賽基準測試上實現了新的最先進性能，這些模型都具有70億參數。

基於電子健康記錄，預測病人胸部X光影像的時間變化。
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records

Sep 11

ByDaeun Kyung, Junu Kim, Tackeun Kim, Edward Choi

胸部X光攝影（CXR）是醫院中用於評估患者狀況並隨時間監測變化的重要診斷工具。生成模型，特別是基於擴散的模型，已顯示出在生成逼真的合成X光方面具有潛力。然而，這些模型主要集中於使用單一時間點數據進行有條件生成，即通常在特定時間採取的CXR及其相應報告，限制了其臨床效用，特別是用於捕捉時間變化。為解決這一限制，我們提出了一個新的框架，名為EHRXDiff，通過整合先前的CXR和隨後的醫療事件，例如處方、實驗室測量等，來預測未來的CXR影像。我們的框架根據潛在擴散模型，條件是先前的CXR影像和醫療事件歷史，動態跟踪並預測疾病進展。我們全面評估我們的框架在三個關鍵方面的表現，包括臨床一致性、人口統計一致性和視覺逼真性。我們展示了我們的框架生成了高質量、逼真的未來影像，捕捉潛在的時間變化，表明其作為臨床模擬工具進一步發展的潛力。這對於醫療領域的患者監測和治療計劃提供了寶貴的見解。

AudioBERT：音訊知識增強語言模型
AudioBERT: Audio Knowledge Augmented Language Model

Sep 12

ByHyunjong Ok, Suho Yoo, Jaeho Lee

最近的研究發現，基於僅文本數據集預訓練的語言模型通常缺乏基本的視覺知識，例如日常物品的顏色。受到這一觀察的啟發，我們探討是否在聽覺知識方面存在類似的缺陷。為了回答這個問題，我們構建了一個名為AuditoryBench的新數據集，其中包含兩個用於評估聽覺知識的新任務。通過對基準測試的分析，我們發現語言模型也嚴重缺乏聽覺知識。為了解決這一限制，我們提出了一種新方法AudioBERT，通過檢索式方法擴充BERT的聽覺知識。首先，我們在提示中檢測聽覺知識範圍，以便有效查詢我們的檢索模型。然後，我們將音頻知識注入BERT，並在需要音頻知識時啟用低秩適應。我們的實驗表明，AudioBERT非常有效，在AuditoryBench上取得了優異的表現。數據集和代碼可在https://github.com/HJ-Ok/AudioBERT找到。

破解 reCAPTCHAv2
Breaking reCAPTCHAv2

Sep 13

ByAndreas Plesner, Tobias Vontobel, Roger Wattenhofer

我們的研究探討了利用先進機器學習方法解決 Google 的 reCAPTCHAv2 系統中的驗證碼的效能。我們通過利用先進的 YOLO 模型進行圖像分割和分類來評估自動系統解決驗證碼的效果。我們的主要結果是，我們可以解決100%的驗證碼，而先前的研究僅解決了68-71%。此外，我們的研究結果表明，在 reCAPTCHAv2 中，人類和機器人必須解決的挑戰數量沒有顯著差異。這意味著當前的人工智慧技術可以利用先進的基於圖像的驗證碼。我們還深入研究了 reCAPTCHAv2，發現證據表明 reCAPTCHAv2 在評估用戶是否為人類時，主要基於 cookie 和瀏覽器歷史數據。本文附帶代碼。

beeFormer：在推薦系統中橋接語義相似性與交互作用相似性之間的鴻溝
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems

Sep 16

ByVojtěch Vančura, Pavel Kordík, Milan Straka

推薦系統常使用文本側信息來提升預測能力，尤其在冷啟動或零樣本推薦場景中，傳統的協同過濾方法無法使用。近年來提出了許多用於推薦系統的文本挖掘側信息的方法，其中句子轉換器是最突出的一種。然而，這些模型是經過訓練以預測語義相似性，而沒有利用與推薦系統特定隱藏模式的交互數據。本文提出了 beeFormer，一個用於訓練句子轉換器模型的框架，並展示了我們使用 beeFormer 訓練的模型可以在不僅超越語義相似性句子轉換器，還超越傳統協同過濾方法的情況下，在數據集之間轉移知識。我們還展示了在來自不同領域的多個數據集上訓練可以在單個模型中累積知識，從而開啟了訓練通用、與領域無關的句子轉換器模型以挖掘文本表示來用於推薦系統的可能性。我們釋出了源代碼、訓練模型和其他詳細信息，以便複製我們的實驗，網址為 https://github.com/recombee/beeformer。

以LLM為基礎的字素轉音轉換：基準測試與案例研究
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

Sep 13

ByMahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee

Grapheme-to-phoneme (G2P) 轉換在語音處理中至關重要，尤其對於語音合成等應用。G2P 系統必須具備對多音詞和上下文相依音素的語言理解和上下文意識。近來，大型語言模型（LLMs）在各種語言任務中展現了顯著潛力，表明它們的語音知識可以用於 G2P。本文評估了LLMs在G2P轉換中的表現，並介紹了促使和後處理方法，可增強LLMs的輸出，而無需額外訓練或標記數據。我們還提出了一個基準數據集，旨在評估對波斯語句子級語音挑戰的G2P表現。我們的結果顯示，通過應用所提出的方法，LLMs可以在波斯語等少有代表性的語言中，超越傳統的G2P工具，突顯了開發LLM輔助的G2P系統的潛力。