AI研究論文每日精選

每日精選AI研究論文及翻譯

DeepSeek-Coder-V2：突破代碼智能中封閉源模型的障礙
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

Jun 17

ByDeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang

我們介紹了 DeepSeek-Coder-V2，一個開源的專家混合模型（MoE）程式語言模型，其在程式相關任務中實現了與 GPT4-Turbo 相當的性能。具體而言，DeepSeek-Coder-V2 是在 DeepSeek-V2 的中間檢查點進一步預訓練，額外使用了 6 兆個標記。通過這種持續的預訓練，DeepSeek-Coder-V2 顯著增強了 DeepSeek-V2 的編碼和數學推理能力，同時在一般語言任務中保持了可比性能。與 DeepSeek-Coder-33B 相比，DeepSeek-Coder-V2 在程式相關任務、推理和一般能力的各個方面均取得了顯著進展。此外，DeepSeek-Coder-V2 將其對編程語言的支持從 86 個擴展到 338 個，同時將上下文長度從 16K 擴展到 128K。在標準基準評估中，DeepSeek-Coder-V2 在編碼和數學基準測試中實現了優越性能，優於 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等封閉源模型。

無論深度：透過透視蒸餾和未標記數據增強來提升360單眼深度估計
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

Jun 18

ByNing-Hsu Wang, Yu-Lun Liu

在360度影像中準確估計深度對虛擬實境、自主導航和沉浸式媒體應用至關重要。現有為透視視圖影像設計的深度估計方法在應用於360度影像時失敗，原因在於不同的相機投影和失真，而360度方法則由於缺乏標記數據對而表現較差。我們提出了一種新的深度估計框架，有效利用未標記的360度數據。我們的方法使用最先進的透視深度估計模型作為教師模型，通過六面立方體投影技術生成虛擬標籤，實現對360度影像中深度的高效標記。該方法利用了大型數據集日益增加的可用性。我們的方法包括兩個主要階段：用於無效區域的離線遮罩生成和在線半監督聯合訓練制度。我們在Matterport3D和Stanford2D3D等基準數據集上測試了我們的方法，顯示在深度估計準確性方面取得了顯著改進，特別是在零樣本情況下。我們提出的訓練流程可以增強任何360單眼深度估計器，展示了跨不同相機投影和數據類型的有效知識轉移。查看我們的項目頁面以獲得結果：https://albert100121.github.io/Depth-Anywhere/

使用DPO隱式獎勵來啟動語言模型
Bootstrapping Language Models with DPO Implicit Rewards

Jun 14

ByChangyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin

在大型語言模型（LLMs）中進行人類對齊是一個活躍的研究領域。最近一項開創性的工作，即直接偏好優化（DPO），通過繞過強化學習中的獎勵學習階段，大大簡化了過去在從人類反饋中進行強化學習（RLHF）方面的工作。DPO 在訓練後提供了一個隱式獎勵模型。在這項工作中，我們做出了一個新穎的觀察，即這個隱式獎勵模型本身可以被用來進一步對齊LLM。我們的方法是使用當前LLM模型的獎勵來構建一個偏好數據集，然後在後續的DPO回合中使用。我們加入了一些改進，消除了回應長度的偏見，提高了偏好數據集的質量，進一步改進了我們的方法。我們的方法被稱為使用DPO隱式獎勵的自我對齊（DICE），在對齊方面取得了巨大進展，並在AlpacaEval 2上實現了比Gemini Pro更優異的性能，對抗GPT-4 Turbo的控制長度勝率達到27.55%，但僅使用了8B參數並且沒有外部反饋。我們的代碼可在https://github.com/sail-sg/dice 找到。

TroL：用於大型語言和視覺模型的層遍歷
TroL: Traversal of Layers for Large Language and Vision Models

Jun 18

ByByung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

大型語言和視覺模型（LLVMs）是由大型語言模型（LLMs）的泛化能力和視覺指導調整的出現推動的。除了直接擴展它們之外，這些模型還使LLVMs能夠通過自然語言指令涵蓋各種任務，展示強大的視覺語言（VL）性能。然而，現有的開源LLVMs，如GPT-4V等性能相當的封閉源LLVMs，通常被認為太大（例如26B、34B和110B參數），擁有更多的層。這些大型模型需要昂貴的高端資源進行訓練和推理。為了解決這個問題，我們提出了一個新的高效LLVM家族，具有1.8B、3.8B和7B的LLM模型大小，稱為層遍歷（TroL），它可以通過令牌方式重複使用層。這種層遍歷技術模擬了回顧和重追答案流的效果，同時增加了前向傳播層的數量，而無需實際添加更多層。我們證明TroL採用了一種簡單的層遍歷方法，但在效率上優於具有更大模型大小的開源LLVMs，並與具有大型尺寸的封閉源LLVMs的性能相匹敵。

ChatGLM：從 GLM-130B 到 GLM-4 的一系列大型語言模型工具
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Jun 18

ByTeam GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang

我們介紹了ChatGLM，這是我們多年來不斷發展的一系列大型語言模型。本報告主要聚焦於GLM-4語言系列，包括GLM-4、GLM-4-Air和GLM-4-9B。它們代表了我們最具能力的模型，這些模型是通過從前三代ChatGLM中獲得的所有見解和教訓進行訓練的。迄今為止，GLM-4模型主要在中文和英文中預訓練了數萬億個標記，還包括來自24種語言的一小部分語料庫，主要針對中文和英文使用進行了對齊。高質量的對齊是通過多階段的後訓練過程實現的，其中包括監督微調和從人類反饋中學習。評估結果顯示，GLM-4在多個一般指標（如MMLU、GSM8K、MATH、BBH、GPQA和HumanEval）方面與GPT-4不相上下甚至表現更優，在指令跟隨方面接近於GPT-4-Turbo（通過IFEval測量），在長文本任務上與GPT-4 Turbo（128K）和Claude 3相匹配，並在中文對齊方面（通過AlignBench測量）優於GPT-4。GLM-4 All Tools模型進一步對齊以理解用戶意圖，並自主決定何時以及使用哪些工具（包括網頁瀏覽器、Python解釋器、文本到圖像模型和用戶定義函數）來有效完成複雜任務。在實際應用中，它在訪問線上信息和使用Python解釋器解決數學問題等任務上與甚至超越了GPT-4 All Tools。我們已經開源了一系列模型，包括ChatGLM-6B（三代）、GLM-4-9B（128K、1M）、GLM-4V-9B、WebGLM和CodeGeeX，在2023年僅一年就在Hugging Face上吸引了超過1000萬次下載。這些開源模型可以通過https://github.com/THUDM和https://huggingface.co/THUDM訪問。

VoCo-LLaMA：朝向利用大型語言模型進行視覺壓縮
VoCo-LLaMA: Towards Vision Compression with Large Language Models

Jun 18

ByXubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang

視覺語言模型（VLMs）在各種多模式任務中取得了顯著成功，但通常受限於有限的上下文視窗和處理高解析度圖像輸入和視頻的高計算成本。視覺壓縮可以通過減少視覺標記數量來緩解這個問題。先前的方法使用外部模塊壓縮視覺標記，並強迫LLMs理解壓縮後的標記，導致視覺信息損失。然而，LLMs對視覺標記的理解範式在壓縮學習過程中並未充分利用。我們提出了VoCo-LLaMA，這是第一種使用LLMs壓縮視覺標記的方法。通過在視覺指導調整階段引入視覺壓縮標記，並利用注意力蒸餾，我們的方法將LLMs對視覺標記的理解蒸餾到它們處理VoCo標記的過程中。VoCo-LLaMA促進了有效的視覺壓縮，並在推理階段提高了計算效率。具體來說，我們的方法實現了極小的性能損失，壓縮比達576倍，導致FLOPs減少高達94.8％，推理時間加速69.6％。此外，通過使用視頻幀的時間序列壓縮標記序列進行持續訓練，VoCo-LLaMA展示了理解時間相關性的能力，在流行的視頻問答基準測試中優於先前的方法。我們的方法提供了一種有望發揮VLMs上下文視窗潛力的方式，從而實現更具規模的多模式應用。項目頁面以及相關代碼可通過https://yxxxb.github.io/VoCo-LLaMA-page/{此https URL}訪問。

AgileCoder：基於敏捷方法論的動態協作式軟體開發代理程式
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology

Jun 16

ByMinh Huynh Nguyen, Thang Phan Chau, Phong X. Nguyen, Nghi D. Q. Bui

軟體代理已成為應對複雜軟體工程任務的有前途的工具。然而，現有作品通過遵循瀑布模型對軟體開發工作流程進行了過度簡化。因此，我們提出了AgileCoder，這是一個將敏捷方法論（AM）整合到框架中的多代理系統。該系統將特定的AM角色（如產品經理、開發人員和測試人員）分配給不同的代理，然後這些代理根據用戶輸入進行協作軟體開發。AgileCoder通過將工作組織成為短程，著眼於透過短程逐步開發軟體，從而提高了開發效率。此外，我們引入了動態代碼圖生成器，這是一個模塊，隨著代碼庫的更新而動態創建代碼依賴圖。這使代理能夠更好地理解代碼庫，從而在整個軟體開發過程中進行更精確的代碼生成和修改。AgileCoder超越了現有的基準，如ChatDev和MetaGPT，建立了一個新標準，展示了多代理系統在先進軟體工程環境中的能力。我們的原始碼可在https://github.com/FSoft-AI4Code/AgileCoder 找到。

從RAGs到豐富參數：探究語言模型如何利用外部知識而非參數信息來回答事實查詢
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Jun 18

ByHitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal, Reshmi Ghosh, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh

檢索增強生成（RAG）豐富了語言模型利用外部上下文進行推理的能力，以增強對給定用戶提示的回應。這種方法因語言模型在搜索、問答和聊天機器人等各種應用中的實際應用而變得流行。然而，這種方法的確切工作方式尚不清楚。本文從機械角度檢驗了RAG流程，以突顯語言模型採取捷徑並強烈偏向僅利用上下文信息來回答問題，而對其參數記憶的依賴最小化。我們通過以下方式探究語言模型的這種機械行為：（i）因果中介分析顯示在回答問題時參數記憶被最小利用，以及（ii）注意貢獻和排除，顯示問題中的主題標記對最後標記殘差流沒有增強作用，但從上下文中其他信息豐富的標記中獲得增強。我們發現這種明顯的捷徑行為在LLaMa和Phi系列模型中都是真實存在的。

超越答案：利用反思訓練語言模型進行數學推理
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

Jun 17

ByZhihan Zhang, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia, Dong Yu, Meng Jiang

監督式微調增強了語言模型在各種數學推理任務中的問題解決能力。為了最大化這些好處，現有研究著重於通過各種數據擴充技術擴展訓練集，這對於標準的單輪問答設置是有效的。我們的工作引入了一種新穎的技術，旨在培養對當前訓練問題的更深入理解，提升不僅在標準設置中的表現，還在需要反思性思考的更複雜情境中的表現。具體來說，我們提出了反思擴充，一種將問題反思嵌入每個訓練實例的方法。它訓練模型考慮替代觀點，並從事抽象和類比，從而通過反思推理培養全面理解。大量實驗驗證了我們目標的實現，突顯了我們方法的獨特優勢及其相對於現有擴充技術的互補性。

奧林匹克競技場：為超智能人工智能進行多學科認知推理基準測試
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Jun 18

ByZhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu

人工智慧（AI）的演進在很大程度上受到大型語言模型（LLMs）和大型多模態模型（LMMs）的進展所加速，逐漸展現出在問題解決和科學發現中潛在的認知推理能力（即AI4Science），這些能力曾經只屬於人類智慧。為了全面評估當前模型在認知推理能力方面的表現，我們引入了OlympicArena，其中包括了11,163個雙語問題，涵蓋了僅文字和交錯文字-圖像兩種模態。這些挑戰涵蓋了七個領域和62個國際奧林匹克比賽，嚴格檢查了數據泄漏問題。我們認為奧林匹克競賽問題中的挑戰非常適合用於評估AI的認知推理，因為這些問題的複雜性和跨學科性對於應對複雜科學挑戰和促進發現至關重要。除了使用僅答案標準來評估不同學科的表現之外，我們還從多個角度進行了詳細的實驗和分析。我們深入研究了模型的認知推理能力、它們在不同模態下的表現以及它們在過程級評估中的結果，這對於需要進行複雜推理並提供冗長解決方案的任務至關重要。我們的廣泛評估顯示，即使像GPT-4o這樣的先進模型也僅達到了39.97％的總體準確率，說明了當前AI在複雜推理和多模態整合方面的局限性。通過OlympicArena，我們旨在推動AI邁向超級智能，使其能夠應對科學及其他領域中更複雜的挑戰。我們還提供了一套全面的資源來支持AI研究，包括基準數據集、開源標註平台、詳細的評估工具以及具有自動提交功能的排行榜。

RepLiQA：一個用於在未見參考內容上對大型語言模型進行基準測試的問答數據集。
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

Jun 17

ByJoao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian

大型語言模型（LLMs）是通過大量數據訓練的，其中大部分數據是從互聯網自動抓取的。這些數據包括包含大量通識知識的百科全書文檔（例如維基百科），但也可能與用於評估LLMs的基準數據集存在重疊。因此，在可能已洩漏到訓練集中的測試拆分上評估模型容易導致誤導性結論。為促進語言模型的可靠評估，我們引入了一個名為RepLiQA的新測試數據集，適用於問答和主題檢索任務。RepLiQA是一個包含五個測試集拆分的集合，其中有四個在本出版之前尚未釋出到互聯網或暴露給LLM API。RepLiQA中的每個樣本包括（1）由人類注釋者製作的參考文檔，描述一個虛構情景（例如新聞文章），並不存在於互聯網上；（2）關於文檔主題的問題；（3）直接從文檔信息中提取的真實答案；以及（4）包含答案的參考文檔中提取的段落。因此，只有在模型能夠在提供的文檔中找到相關內容時，才能生成準確答案。我們運行了一個大規模基準測試，包括幾個最先進的LLMs，以揭示在上下文條件語言建模環境中各種類型和大小模型的性能差異。RepLiQA的已發布拆分可在此處找到：https://huggingface.co/datasets/ServiceNow/repliqa。

安全算術：通過操控參數和激活來實現語言模型測試時安全對齊的框架
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

Jun 17

ByRima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria

確保大型語言模型（LLMs）與人類價值觀的安全對齊至關重要，因為它們已成為翻譯和問答等應用的重要組成部分。目前的對齊方法在應對動態用戶意圖和複雜目標方面存在困難，使模型容易生成有害內容。我們提出了一種名為「安全算術」的無需訓練框架，可增強LLM在不同情境下的安全性：基本模型、監督微調模型（SFT）和編輯模型。安全算術包括有害方向去除以避免有害內容，以及安全對齊以促進安全回應。此外，我們提出了一個名為NoIntentEdit的數據集，突顯了可能會危及模型安全性的編輯實例，如果不慎使用。我們的實驗表明，安全算術顯著改善了安全性指標，減少了過度安全性，並保持了模型的實用性，在確保生成安全內容方面優於現有方法。

分詞的不足：分詞的詛咒
Tokenization Falling Short: The Curse of Tokenization

Jun 17

ByYekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li

語言模型通常將原始文本標記為來自預定義詞彙表的子詞識別符序列，這是一個對錯別字、長度變化敏感且在很大程度上忽略標記內部結構的過程，我們稱之為標記化的詛咒。在本研究中，我們深入探討這些缺點並證明大型語言模型（LLMs）仍然容易受到這些問題的影響。本研究系統地研究了這些挑戰及其對LLMs的影響，通過三個關鍵研究問題：（1）複雜問題解決、（2）標記結構探查和（3）對錯別字變化的韌性。我們的研究結果顯示，擴展模型參數可以緩解標記化問題；然而，LLMs仍然受到錯別字和其他文本格式變化引起的偏見影響。我們的實驗表明，諸如BPE-dropout之類的子詞正則化可以緩解這個問題。我們將釋出我們的代碼和數據以促進進一步的研究。

SafeInfer：針對大型語言模型的上下文自適應解碼時間安全對齊
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

Jun 18

BySomnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra

安全導向的語言模型常常表現出脆弱且不平衡的安全機制，增加生成不安全內容的可能性。此外，透過編輯技術將新知識納入語言模型可能進一步損害安全性。為解決這些問題，我們提出了SafeInfer，一種適應上下文、解碼時安全對齊策略，用於生成對用戶查詢安全的回應。SafeInfer 包括兩個階段：安全增強階段，利用安全示範例調整模型的隱藏狀態，增加生成更安全輸出的可能性；以及安全導向解碼階段，根據安全優化分佈影響標記選擇，確保生成的內容符合道德準則。此外，我們提出了HarmEval，一個用於廣泛安全評估的新基準，旨在應對潛在的誤用情境，符合領先人工智慧科技巨頭的政策。

在視覺和語言模型中進行多圖像理解的基準測試：感知、知識、推理和多躍推理
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

Jun 18

ByBingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales

大型語言模型（LLMs）的進步顯著擴展了自然語言處理應用的範圍，多模態LLMs將這些能力擴展到整合和解釋視覺數據。然而，現有的視覺語言模型（VLMs）基準主要聚焦於單圖像輸入，忽略了多圖像理解的關鍵方面。本文介紹了一個名為多圖像關係基準（MIRB）的基準，旨在評估VLMs在比較、分析和推理多個圖像時的能力。我們的基準包含四個類別：感知、視覺世界知識、推理和多跳推理。通過對各種開源和封閉源模型的全面評估，我們證明了，儘管開源VLMs在單圖像任務中表現接近GPT-4V，但在多圖像推理任務中仍存在顯著的性能差距。我們的研究結果還顯示，即使是最先進的GPT-4V模型在我們的基準下也遇到困難，強調了在這一領域進行進一步研究和開發的必要性。我們相信我們的MIRB貢獻可以作為發展下一代多模態模型的試驗平臺。

HumanSplat：具有結構先驗的通用單圖像人類高斯飛濺
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

Jun 18

ByPanwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu

儘管最近在高保真人類重建技術方面取得了進展，但對密集捕捉圖像或耗時的每個實例優化的要求顯著阻礙了它們在更廣泛場景中的應用。為了應對這些問題，我們提出了HumanSplat，它以通用方式從單個輸入圖像預測任何人的3D高斯Splatting屬性。具體而言，HumanSplat包括一個2D多視圖擴散模型和一個具有人體結構先驗的潛在重建轉換器，巧妙地在統一框架內整合了幾何先驗和語義特徵。進一步設計了一種包含人體語義信息的分層損失，以實現高保真紋理建模並更好地限制估計的多個視圖。對標準基準和野外圖像進行的全面實驗表明，HumanSplat在實現逼真新視角合成方面超越了現有的最先進方法。

通過語言建模進行表格數據的大規模遷移學習
Large Scale Transfer Learning for Tabular Data via Language Modeling

Jun 17

ByJosh Gardner, Juan C. Perdomo, Ludwig Schmidt

表格數據是在許多領域中廣泛使用的結構化、異質、類似電子表格的數據，然而，儘管最近的基礎模型已經減少了在語言建模和計算機視覺等領域開發特定任務數據集和預測器的需求，但這種轉移學習範式在表格領域並沒有產生類似的影響。在這項工作中，我們旨在縮小這一差距，並提出了 TabuLa-8B，一個用於表格預測的語言模型。我們定義了從 TabLib 語料庫中提取大型高質量訓練數據集的過程，提出了表格數據篩選和質量控制的方法。使用結果數據集，其中包含來自 3.1M 個唯一表格的超過 16 十億行，我們對 Llama 3-8B 大型語言模型（LLM）進行微調，用於表格數據預測（分類和分箱回歸），並使用一種新的打包和注意機制進行表格預測。通過對 329 個數據集的測試套件進行評估，我們發現 TabuLa-8B 在看不見的表格上的零槍擊準確率比隨機猜測高出 15 個百分點以上，這是現有最先進的表格預測模型（例如 XGBoost、TabPFN）無法實現的成就。在少槍擊設置（1-32 槍擊）中，在目標數據集上沒有進行任何微調的情況下，TabuLa-8B 的準確率比明確訓練在相同數據上甚至多達 16 倍的 XGBoost 和 TabPFN 模型高出 5-15 個百分點。我們將在本文發表時公開我們的模型、代碼和數據。

在大型語言模型中估計知識，而無需生成單個標記。
Estimating Knowledge in Large Language Models Without Generating a Single Token

Jun 18

ByDaniela Gottesman, Mor Geva

為了評估大型語言模型（LLMs）中的知識，目前的方法是查詢模型，然後評估其生成的回應。在這項工作中，我們詢問是否可以在模型生成任何文本之前進行評估。具體而言，是否可能僅從其內部計算來估計模型對特定實體的知識水平？我們通過兩個任務來研究這個問題：給定一個主題實體，目標是預測（a）模型回答有關該實體的常見問題的能力，以及（b）模型生成的有關該實體的回應的事實性。通過對各種LLMs進行實驗，結果顯示，一個名為KEEN的簡單探針，在內部主題表示上訓練成功地完成了這兩個任務 - 與模型每個主題的問答準確性和最近在開放式生成中的事實性度量FActScore有著很強的相關性。此外，KEEN自然地與模型的避險行為相一致，並忠實地反映了在微調後模型知識的變化。最後，我們展示了一個更具可解釋性但同樣表現出色的KEEN變體，該變體突出了一小組與模型缺乏知識相關的標記。由於其簡單且輕量，KEEN可用於識別LLMs中實體知識的空白和聚類，並指導決策，例如通過擴充查詢與檢索。

在生物醫學基準測試中，語言模型對於藥物名稱的脆弱性令人驚訝。
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

Jun 17

ByJack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman

醫學知識是依賴上下文並需要在各種自然語言表達中保持一致推理的。這對於藥物名稱尤其重要，因為患者通常使用像Advil或Tylenol這樣的品牌名稱，而非它們的通用等效物。為了研究這一點，我們創建了一個新的韌性數據集RABBITS，以評估在醫學基準測試中交換品牌和通用藥物名稱後的性能差異，並使用醫師專家的註釋。我們評估了MedQA和MedMCQA上的開源和基於API的LLMs，在這些測試中換算品牌和通用藥物名稱後，揭示了一致的性能下降，範圍在1-10\%之間。此外，我們識別出這種脆弱性的一個潛在來源是廣泛使用的預訓練數據集中測試數據的污染。所有代碼都可以在https://github.com/BittermanLab/RABBITS找到，HuggingFace排行榜可在https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard上查看。

並非所有提示都相同：基於提示的修剪對文本到圖像擴散模型的影響
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

Jun 17

ByAlireza Ganjdanesh, Reza Shirkavand, Shangqian Gao, Heng Huang

文字到圖像（T2I）擴散模型展現了令人印象深刻的圖像生成能力。然而，由於其計算密集度，資源受限的組織在將T2I模型在內部目標數據上進行微調後部署時會受到限制。儘管剪枝技術提供了減少T2I模型計算負擔的潛在解決方案，但靜態剪枝方法對所有輸入提示使用相同的剪枝模型，忽略了不同提示的不同容量需求。動態剪枝通過為每個提示使用單獨的子網絡來解決此問題，但會阻礙GPU上的批量並行處理。為了克服這些限制，我們引入了適應性提示定制剪枝（APTP），這是一種針對T2I擴散模型設計的新型基於提示的剪枝方法。我們方法的核心是提示路由模型，該模型學習確定輸入文本提示所需的容量，並將其路由到一個架構代碼，考慮到提示的總計算預算。每個架構代碼代表針對其分配的提示量身定制的專門模型，代碼的數量是一個超參數。我們使用對比學習來訓練提示路由器和架構代碼，確保相似的提示被映射到附近的代碼。此外，我們採用最優運輸方法來防止代碼坍縮為單一代碼。我們通過使用CC3M和COCO作為目標數據集來剪枝穩定擴散（SD）V2.1，展示了APTP的有效性。在FID、CLIP和CMMD分數方面，APTP優於單模型剪枝基線。我們對APTP學習的聚類進行的分析表明，這些聚類在語義上是有意義的。我們還展示了APTP可以自動發現先前在SD中發現的具有挑戰性的提示，例如用於生成文本圖像的提示，將它們分配給容量較高的代碼。

尺度混合：針對大型語言模型的記憶效率型態自適應二值化
Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

Jun 18

ByDongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim

二值化是一種將權重參數轉換為二進制值的有效策略，用於減小大型語言模型（LLMs）的尺寸。然而，典型的二值化技術顯著降低了LLMs的語言效能。為解決此問題，我們引入了一種新穎的二值化技術，稱為混合尺度（BinaryMoS）。與傳統方法不同，BinaryMoS採用多個用於二值權重的尺度專家，動態地將這些專家合併用於每個標記，以自適應生成尺度因子。這種標記自適應方法通過使二值化LLMs的表示能力提升，使得能夠對二進制權重的值進行上下文調整。此外，由於此自適應過程僅涉及尺度因子而非整個權重矩陣，因此BinaryMoS保持了與傳統靜態二值化方法類似的壓縮效率。我們的實驗結果顯示，BinaryMoS在各種自然語言處理任務中均優於傳統的二值化技術，甚至勝過2位量化方法，同時保持與靜態二值化技術相似的模型尺寸。

從眾包數據到高質量基準：Arena-Hard 和 BenchBuilder 流程
From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline

Jun 17

ByTianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica

語言模型的快速演進促使更具挑戰性的基準的發展。目前的靜態基準常常難以一貫地區分不同模型的能力，並且無法與真實世界使用者偏好保持一致。另一方面，像是Chatbot Arena這樣的即時眾包平台收集了各種自然提示和使用者反饋。然而，這些提示在複雜程度上有所不同，而反饋無法離線應用於新模型。為了確保基準能跟上大型語言模型發展的步伐，我們討論了如何評估基準在自信地區分模型和與人類偏好的一致性方面的能力。在這些原則下，我們開發了BenchBuilder，一個動態基準，從即時數據來源中篩選高質量提示，以便對新的具挑戰性提示進行離線評估。BenchBuilder識別了高質量提示的七個指標，例如對領域知識的要求，並利用語言模型標註器從各種主題集群中選擇高質量提示的子集。語言模型評估過程利用語言模型評審員確保完全自動化、高質量且不斷更新的基準。我們將BenchBuilder應用於Chatbot Arena的提示，創建了Arena-Hard-Auto v0.1：來自各種任務的500個具挑戰性使用者提示。Arena-Hard-Auto v0.1提供比MT-Bench更緊密的3倍置信區間，並以僅25美元的成本且無需人工標記者，實現了與人類偏好排名達到89.1%的最新成果。BenchBuilder流程增強了評估基準並為開發者提供了一個寶貴的工具，使他們能夠從龐大數據中提取高質量基準而付出最小努力。

BPO：通過遵循行為接近度LLM來加速在線偏好學習
BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM

Jun 18

ByWenda Xu, Jiachen Li, William Yang Wang, Lei Li

直接對齊偏好（DAP）已成為將大型語言模型（LLMs）與人類偏好對齊的一種有前途的範式，該偏好來自預先收集的離線偏好數據集。儘管最近的研究表明現有的離線DAP方法可以直接受益於在線訓練樣本，我們強調需要開發特定的在線DAP算法，以充分發揮在線訓練的威力。具體而言，我們確定學習的LLM應該遵循行為LLM的行為接近性，該行為LLM收集訓練樣本。為此，我們提出了在接近行為LLM的偏好優化（BPO），強調構建適當信任區域以進行LLM對齊的重要性。我們進行了廣泛的實驗，通過將其與各種DAP方法結合，以驗證我們方法的有效性和應用性，結果在訓練相同量的偏好數據時，在各種任務中實現了顯著的性能改進。即使僅引入一個額外的數據收集階段，我們的在線BPO也將其TL;DR的離線DAP基線從72.0%提高到80.2%，在人類參考文本的Anthropic Helpfulness方面，從82.2%提高到89.1%的勝率。

通過：一個用於全球和本地視頻編輯的時空視頻適應框架
VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

Jun 18

ByJing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang

影片編輯是數位媒體的基石，從娛樂、教育到專業溝通無所不包。然而，先前的方法常常忽略全球和本地情境的全面理解的必要性，導致時空維度中不準確和不一致的編輯，尤其是對於長影片。本文介紹了VIA，一個統一的時空影片適應框架，用於全球和本地影片編輯，推動著對於一分鐘長影片的一致性編輯極限。首先，為了確保單個幀內的本地一致性，VIA的基礎是一種新穎的測試時間編輯適應方法，該方法適應了預先訓練的圖像編輯模型，以改善潛在編輯方向和文本指示之間的一致性，並適應了遮罩潛在變量以實現精確的本地控制。此外，為了在整個影片序列中保持全局一致性，我們引入了時空適應，該方法適應了關鍵幀中的一致性注意變量，並在整個序列中策略性地應用它們以實現編輯效果。大量實驗表明，與基準方法相比，我們的VIA方法產生的編輯更忠實於原始影片，更具時空上的連貫性，並在本地控制方面更為精確。更重要的是，我們展示了VIA可以在幾分鐘內實現一致的長影片編輯，從而釋放了對於長影片序列進行高級影片編輯任務的潛力。

階層提示分類法：大型語言模型的通用評估框架
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models

Jun 18

ByDevichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha

評估大型語言模型（LLMs）在應對多樣任務方面的效能對於了解其優勢和劣勢至關重要。傳統的評估技術通常在數據集上統一應用單一提示策略，並未考慮任務複雜度的變化程度。我們引入了階層提示分類（HPT），這是一種使用由最簡單到最複雜排列的五種獨特提示策略組成的階層提示框架（HPF），以更精確地評估LLMs並提供更清晰的視角。該分類根據分類規則為數據集和LLMs分配一個分數，稱為階層提示分數（HP-Score），以提供對它們解決多樣任務能力的微妙理解，並提供一個通用的任務複雜度度量。此外，我們引入了自適應階層提示框架，該框架自動選擇每個任務的適當提示策略。本研究使用四個經過調整指令的LLMs，即Llama 3 8B、Phi 3 3.8B、Mistral 7B和Gemma 7B，跨四個數據集（BoolQ、CommonSenseQA（CSQA）、IWSLT-2017 en-fr（IWSLT）和SamSum）比較手動和自適應階層提示框架。實驗證明了HPT的有效性，提供了一種可靠的比較不同任務和LLM能力的方法。本文促使發展出一種可用於評估數據集複雜度和LLMs能力的通用評估指標。手動HPF和自適應HPF的實施均可公開獲取。

多模態代理人的對抗性攻擊
Adversarial Attacks on Multimodal Agents

Jun 18

ByChen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan

現在，利用視覺啟動的語言模型（VLMs）被用來建立能夠在真實環境中採取行動的自主多模式代理。在本文中，我們展示了多模式代理帶來了新的安全風險，即使攻擊代理比以往更具挑戰性，因為對環境的訪問和知識有限。我們的攻擊使用對抗性文本字符串來引導對環境中的一個觸發圖像進行基於梯度的干擾：（1）我們的標題攻擊會攻擊白盒標題生成器，如果它們用於將圖像處理為標題並作為額外輸入提供給VLM；（2）我們的CLIP攻擊會聯合攻擊一組CLIP模型，這可能會轉移到專有的VLM。為了評估這些攻擊，我們精心挑選了VisualWebArena-Adv，這是基於VisualWebArena的一組基於Web的多模式代理任務的對抗性任務。在單張圖像上的L-無窮範數為16/256的情況下，標題攻擊可以使一個標題增強的GPT-4V代理以75%的成功率執行對抗性目標。當我們刪除標題生成器或使用GPT-4V生成自己的標題時，CLIP攻擊的成功率分別為21%和43%。對基於其他VLMs的代理進行的實驗，如Gemini-1.5、Claude-3和GPT-4o，展示了它們在韌性上的有趣差異。進一步的分析揭示了幾個導致攻擊成功的關鍵因素，我們還討論了對防禦的影響。項目頁面：https://chenwu.io/attack-agent 代碼和數據：https://github.com/ChenWu98/agent-attack

表面對齊：在從弱到強的泛化中，強模型可能會誤導弱模型
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

Jun 17

ByWenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin

在當前大型語言模型（LLMs）快速發展的時代，超對齊（Superalignment）已成為一個重要且廣泛討論的議題，其中人類是超人類模型的弱監督者。最近的研究初步探討了透過弱模型監督強模型的問題。研究發現，弱監督的強學生能夠持續優於弱教師朝向對齊目標，引發了一種由弱到強的泛化現象。然而，我們關注在這樣一個有前途的現象背後，是否存在著一個弱到強的欺騙問題，即強模型可能通過展現在弱模型已知領域中對齊的行為，但在弱模型不知道的情況下產生不對齊的行為。因此，我們首次探索了這個安全問題，針對一個具體但現實的多目標對齊案例，其中可能存在一些相互衝突的對齊目標（例如，幫助性與無害性）。這種衝突可能導致強模型在一個對齊維度上欺騙弱模型，以獲得其他對齊維度的高獎勵。我們在獎勵建模任務和偏好優化場景上的實驗表明：（1）存在弱到強的欺騙；（2）隨著弱模型和強模型之間的能力差距增加，欺騙現象可能會加劇。我們還討論了潛在的解決方案，並發現通過中間模型的引導可以在一定程度上減輕欺騙。我們的工作強調了更加關注超對齊真實可靠性的迫切需要。

不相容擴散：利用噪音加速擴散訓練的分配
Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment

Jun 18

ByYiheng Li, Heyang Jiang, Akio Kodaira, Masayoshi Tomizuka, Kurt Keutzer, Chenfeng Xu

本文指出次優的噪音數據映射導致擴散模型訓練緩慢。在擴散訓練期間，當前方法將每個影像擴散到整個噪音空間，導致噪音層的每一點都混合了所有影像。我們強調這種隨機混合的噪音數據映射使得擴散模型中去噪函數的優化變得複雜。受物理學中不相溶現象的啟發，我們提出了不相溶擴散，這是一種改善隨機混合的噪音數據映射的簡單有效方法。在物理學中，溶解性可以根據不同的分子間力而變化。因此，不相溶意味著分子源的混合是可區分的。受此啟發，我們提出了一種分配-然後-擴散的訓練策略。具體來說，在將圖像數據擴散到噪音之前，我們通過最小化小批次中的總圖像-噪音對距離來為圖像數據分配擴散目標噪音。該分配函數類比於外部力以區分圖像的可擴散區域，從而減輕擴散訓練中固有的困難。我們的方法非常簡單，僅需要一行代碼來限制每個圖像的可擴散區域，同時保留噪音的高斯分佈。這確保每個圖像只投影到附近的噪音。為了應對分配算法的高復雜性，我們採用了量化分配方法，將計算開銷降低到可以忽略的水平。實驗表明，我們的方法在CIFAR數據集上對一致性模型和DDIM實現了高達3倍的更快訓練速度，在CelebA數據集上對一致性模型實現了高達1.3倍的更快速度。此外，我們對不相溶擴散進行了深入分析，闡明了它如何提高擴散訓練速度同時改善保真度。

JEN-1 DreamStyler：透過關鍵參數調整的方式，定制化音樂概念學習
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

Jun 18

ByBoyu Chen, Peike Li, Yao Yao, Alex Wang

大型模型用於文本轉音樂生成已取得顯著進展，有助於從提供的文本提示創作出高質量且多樣化的音樂作品。然而，輸入的文本提示可能無法準確捕捉用戶需求，特別是當目標是生成體現自特定參考集合衍生的特定概念的音樂時。在本文中，我們提出了一種新的定制文本轉音樂生成方法，可以從一段兩分鐘的參考音樂中捕捉概念並生成符合該概念的新音樂作品。我們通過使用參考音樂對預訓練的文本轉音樂模型進行微調來實現這一點。然而，直接微調所有參數會導致過度擬合問題。為了解決這個問題，我們提出了一種關鍵參數調整方法，使模型能夠吸收新概念，同時保留其原始生成能力。此外，我們還識別了在將多個概念引入預訓練模型時可能出現的概念衝突。我們提出了一種概念增強策略，以區分多個概念，使微調後的模型能夠同時生成包含單個或多個概念的音樂。由於我們是首個從事定制音樂生成任務的研究者，我們還為新任務引入了新的數據集和評估協議。我們提出的Jen1-DreamStyler在定性和定量評估中均優於幾個基準模型。演示將在https://www.jenmusic.ai/research#DreamStyler 上提供。

低秩適應中的子空間混合
Mixture-of-Subspaces in Low-Rank Adaptation

Jun 16

ByTaiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong

本文介紹了一種受子空間啟發的低秩適應（LoRA）方法，該方法在計算效率、易於實現並且適用於大型語言、多模態和擴散模型。首先，我們將LoRA的權重等效地分解為兩個子空間，並發現簡單地混合它們可以增強性能。為了研究這種現象，我們通過一個細粒度的子空間鏡頭重新審視它，顯示這種修改等效於使用一個固定的混合器來融合子空間。為了更靈活，我們聯合學習混合器和原始LoRA權重，將該方法稱為子空間混合LoRA（MoSLoRA）。MoSLoRA在不同模態的任務中始終優於LoRA，包括常識推理、視覺指導調整和主題驅動的文本到圖像生成，展示了其有效性和韌性。代碼可在https://github.com/wutaiqiang/MoSLoRA{github}找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

DeepSeek-Coder-V2：突破代碼智能中封閉源模型的障礙
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

Jun 17

無論深度：透過透視蒸餾和未標記數據增強來提升360單眼深度估計
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

Jun 18

ByNing-Hsu Wang, Yu-Lun Liu

使用DPO隱式獎勵來啟動語言模型
Bootstrapping Language Models with DPO Implicit Rewards

Jun 14

ByChangyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin

TroL：用於大型語言和視覺模型的層遍歷
TroL: Traversal of Layers for Large Language and Vision Models

Jun 18

ByByung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

ChatGLM：從 GLM-130B 到 GLM-4 的一系列大型語言模型工具
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Jun 18

VoCo-LLaMA：朝向利用大型語言模型進行視覺壓縮
VoCo-LLaMA: Towards Vision Compression with Large Language Models

Jun 18

ByXubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang

AgileCoder：基於敏捷方法論的動態協作式軟體開發代理程式
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology

Jun 16

ByMinh Huynh Nguyen, Thang Phan Chau, Phong X. Nguyen, Nghi D. Q. Bui

從RAGs到豐富參數：探究語言模型如何利用外部知識而非參數信息來回答事實查詢
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Jun 18

ByHitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal, Reshmi Ghosh, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh

超越答案：利用反思訓練語言模型進行數學推理
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

Jun 17

ByZhihan Zhang, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia, Dong Yu, Meng Jiang

奧林匹克競技場：為超智能人工智能進行多學科認知推理基準測試
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Jun 18

RepLiQA：一個用於在未見參考內容上對大型語言模型進行基準測試的問答數據集。
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

Jun 17

ByJoao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian