ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

大型語言擴散模型
Large Language Diffusion Models

Feb 14
ByShen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
123
9

自回歸模型(ARMs)被廣泛視為大型語言模型(LLMs)的基石。我們通過引入LLaDA來挑戰這一觀念,LLaDA是一個從頭開始在預訓練和監督微調(SFT)範式下訓練的擴散模型。LLaDA通過正向數據遮罩過程和一個反向過程來建模分佈,由一個普通的Transformer參數化以預測遮罩的標記。通過優化一個可能性下界,它提供了一種基於原則的生成方法來進行概率推斷。在廣泛的基準測試中,LLaDA展現出強大的可擴展性,勝過我們自行構建的ARM基準。值得注意的是,LLaDA 8B在上下文學習方面與強大的LLMs如LLaMA3 8B相媲美,在SFT後,在多輪對話等案例研究中展現出令人印象深刻的遵循指示能力。此外,LLaDA解決了反轉詛咒,超越了在反轉詩歌完成任務中的GPT-4o。我們的研究結果確立了擴散模型作為ARM的一個可行且有前途的替代方案,挑戰了上述關鍵LLM能力與ARM固有聯繫的假設。

2

過度思考的危險:探討在主動任務中的推理-行動困境
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Feb 12
ByAlejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
58
2

大型推理模型(LRMs)代表了人工智慧解決問題能力的突破,但它們在互動環境中的效果可能受到限制。本文介紹並分析了LRMs中的過度思考現象,即模型偏好延長的內部推理鏈路而非與環境的互動。通過在使用SWE Bench Verified的軟體工程任務上進行實驗,我們觀察到三個反覆出現的模式:分析癱瘓、不當行動和過早脫離。我們提出了一個研究這些行為的框架,與人類專家評估相關聯,並分析了4018個軌跡。我們觀察到,過度思考分數較高與性能下降呈正相關,推理模型比非推理模型更傾向於過度思考。我們的分析顯示,在代理環境中緩解過度思考的簡單努力,例如選擇過度思考分數較低的解決方案,可以將模型性能提高近30%,同時將計算成本降低43%。這些結果表明,緩解過度思考具有重要的實際意義。我們建議通過利用本地函數調用能力和選擇性強化學習,可以緩解過度思考的趨勢。我們還將我們的評估框架和數據集開源,以促進在這個方向上的研究,網址為https://github.com/AlexCuadron/Overthinking。

3

Step-Video-T2V 技術報告:影片基礎模型的實踐、挑戰和未來。
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Feb 14
ByGuoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu, Jie Yang, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang
55
3

我們提出了 Step-Video-T2V,一種最先進的文本轉視頻預訓練模型,具有 30B 個參數,能夠生成長達 204 幀的視頻。我們設計了一種深度壓縮變分自編碼器 Video-VAE 用於視頻生成任務,實現了 16x16 的空間和 8x 的時間壓縮比,同時保持了出色的視頻重建質量。用戶提示信息使用兩個雙語文本編碼器進行編碼,以處理英文和中文。通過使用 Flow Matching 訓練具有 3D 全注意力的 DiT 來將輸入噪聲去噪為潛在幀。我們應用基於視頻的 DPO 方法 Video-DPO 來減少瑕疵並提高生成視頻的視覺質量。我們還詳細介紹了我們的訓練策略,並分享了關鍵觀察和見解。Step-Video-T2V 的性能在一個新的視頻生成基準 Step-Video-T2V-Eval 上進行了評估,與開源和商業引擎相比,展示了其領先的文本轉視頻質量。此外,我們討論了當前基於擴散的模型範式的局限性,並概述了視頻基礎模型的未來方向。我們將 Step-Video-T2V 和 Step-Video-T2V-Eval 都提供在 https://github.com/stepfun-ai/Step-Video-T2V。在線版本也可從 https://yuewen.cn/videos 訪問。我們的目標是加速視頻基礎模型的創新,並賦予視頻內容創作者更大的能力。

4

區域自適應取樣用於擴散Transformer
Region-Adaptive Sampling for Diffusion Transformers

Feb 14
ByZiming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
53
3

擴散模型(DMs)已成為跨不同領域生成任務的首選。然而,它們對多個連續前向傳遞的依賴顯著限制了實時性能。先前的加速方法主要集中於減少採樣步驟的數量或重複使用中間結果,未能利用圖像內空間區域的變化,這是由於卷積 U-Net 結構的限制。通過利用擴散變形器(DiTs)在處理可變數量的標記方面的靈活性,我們引入了 RAS,一種新穎的、無需訓練的採樣策略,根據 DiT 模型的焦點動態分配不同的採樣比率給圖像內的區域。我們的關鍵觀察是,在每個採樣步驟中,模型專注於語義上有意義的區域,這些焦點區域在連續步驟中表現出強烈的連續性。利用這一洞察,RAS僅更新當前焦點區域,而其他區域則使用前一步驟的緩存噪聲進行更新。模型的焦點是基於前一步驟的輸出來確定的,利用我們觀察到的時間一致性。我們在 Stable Diffusion 3 和 Lumina-Next-T2I 上評估了 RAS,分別實現了高達 2.36x 和 2.51x 的加速,並在生成質量上幾乎沒有降低。此外,用戶研究顯示,在人類評估下,RAS 提供了可比擬的質量,同時實現了 1.6x 的加速。我們的方法在更高效的擴散變形器方面邁出了重要一步,增強了它們在實時應用中的潛力。

5

ZeroBench:當代大型多模型的不可能視覺基準
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

Feb 13
ByJonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie
43
5

大型多模型(LMMs)在解釋圖像時存在主要缺陷,某些指標顯示它們的空間認知能力比小孩或動物還要差。儘管如此,它們在許多流行的視覺基準測試中取得高分,但這些成績很快就會被不斷進步的模型所超越。為了應對這一問題,迫切需要更具挑戰性的基準測試,以保持長期的相關性。我們將這個想法推向極限,引入了ZeroBench-一個輕量級的視覺推理基準測試,對於當前領先的LMMs來說完全不可能。我們的基準測試包含100個手動精選問題和334個較不困難的子問題。我們對20個LMMs在ZeroBench上的表現進行評估,所有模型得分均為0.0%,並對錯誤進行嚴格分析。為了推動視覺理解的進步,我們公開發布了ZeroBench。

6

MM-RLHF:多模態LLM對齊的下一步前進。
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Feb 14
ByYi-Fan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Fan Yang, Zhang Zhang, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
34
5

儘管多模式大型語言模型(MLLMs)取得了顯著進展,但大多數最先進的模型尚未與人類偏好進行深入對齊。這種差距存在是因為目前的對齊研究主要在特定領域取得了進展(例如,幻覺減少),而對於將模型與人類偏好對齊是否可以系統性地增強MLLM能力的更廣泛問題尚未得到充分探討。為此,我們引入了MM-RLHF,一個包含12萬個精細人工標註偏好比較對的數據集。該數據集相對現有資源來說是一個重大進步,提供了更大的規模、多樣性、標註細節和質量。利用這個數據集,我們提出了幾個關鍵創新,以提高獎勵模型的質量和對齊算法的效率。特別是,我們引入了基於評論的獎勵模型,在給出分數之前生成模型輸出的評論,相較於傳統的標量獎勵機制,提供了更好的可解釋性和更具信息性的反饋。此外,我們提出了動態獎勵縮放,一種根據獎勵信號調整每個樣本損失權重的方法,從而優化高質量比較對的使用。我們的方法在10個不同維度和27個基準測試中進行了嚴格評估,結果顯示模型性能顯著且一致地提升。具體來說,使用MM-RLHF和我們的對齊算法對LLaVA-ov-7B進行微調,對話能力提高了19.5%,安全性提高了60%。 我們已將偏好數據集、獎勵模型、訓練和評估代碼以及獎勵建模和安全性基準測試開源。有關更多詳細信息,請訪問我們的項目頁面:https://mm-rlhf.github.io。

7

ImageRAG:基於參考引導的動態圖像檢索生成
ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Feb 13
ByRotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried
22
2

擴散模型能夠實現高質量和多樣化的視覺內容合成。然而,它們在生成罕見或從未見過的概念時遇到困難。為了應對這一挑戰,我們探索了檢索增強生成(RAG)與圖像生成模型的應用。我們提出了ImageRAG,一種根據給定的文本提示動態檢索相關圖像並將其用作上下文來引導生成過程的方法。先前利用檢索圖像來改善生成的方法,專門為基於檢索的生成訓練模型。相比之下,ImageRAG利用現有圖像條件模型的能力,並且不需要RAG特定的訓練。我們的方法高度靈活,可以應用於不同的模型類型,展示了在使用不同基礎模型時生成罕見和精細概念方面的顯著改進。 我們的項目頁面可在以下網址找到:https://rotem-shalev.github.io/ImageRAG

8

DarwinLM:大型語言模型的進化式結構化剪枝
DarwinLM: Evolutionary Structured Pruning of Large Language Models

Feb 11
ByShengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
18
7

大型語言模型(LLMs)在多種自然語言處理任務中取得了顯著成功。然而,其龐大的計算成本限制了其廣泛應用,尤其是在即時應用中。結構化剪枝提供了一種有效的解決方案,通過壓縮模型並直接提供端到端的速度提升,無論硬件環境如何。同時,模型的不同組件對剪枝表現出不同的敏感度,這要求進行非均勻的模型壓縮。然而,剪枝方法不僅需要識別出一個有效的子結構,還需要考慮壓縮後的訓練。為此,我們提出了\sysname,一種訓練感知的結構化剪枝方法。\sysname基於進化搜索過程,在每一代中通過變異生成多個子代模型,並選擇最適合的模型進行保留。為了評估訓練後的效果,我們在子代群體中引入了一個輕量級的多步訓練過程,逐步增加訓練數據量,並在每個選擇階段淘汰表現不佳的模型。我們在Llama-2-7B、Llama-3.1-8B和Qwen-2.5-14B-Instruct上進行了廣泛的實驗,驗證了我們的方法,並在結構化剪枝方面達到了最先進的性能。例如,\sysname在壓縮後訓練所需的數據量比ShearedLlama少5倍的情況下,仍超越了其性能。

9

多樣推理與驗證以進行高級推理
Diverse Inference and Verification for Advanced Reasoning

Feb 14
ByIddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
18
3

像OpenAI o1、o3和DeepSeek R1這樣的推理LLM在數學和編碼方面取得了顯著進展,但在挑戰性的高級任務上仍然遇到困難,例如國際數學奧林匹克(IMO)的組合問題,抽象和推理語料庫(ARC)的謎題,以及人類最後考試(HLE)的問題。我們採用多元推理方法,在測試時結合多個模型和方法。我們發現驗證數學和代碼問題,以及在其他問題上進行拒絕採樣是簡單且有效的。我們通過Lean自動驗證IMO問題的解答正確性,通過代碼驗證ARC謎題的正確性,並發現最佳N有效地回答了HLE問題。我們的方法將IMO組合問題的答案準確率從33.3%提高到77.8%,將HLE問題的準確率從8%提高到37%,解決了948名人類無法解決的80%的ARC謎題,以及o3高計算無法解決的26.5%的ARC謎題。測試時模擬、強化學習和具有推理反饋的元學習通過調整代理圖表示和變化提示、代碼和數據集來改進泛化能力。我們的方法可靠、強大且可擴展,在可重現研究的精神下,我們將在發表後公開提供。

10

FoNE:透過傅立葉特徵實現精確的單令牌數字嵌入
FoNE: Precise Single-Token Number Embeddings via Fourier Features

Feb 13
ByTianyi Zhou, Deqing Fu, Mahdi Soltanolkotabi, Robin Jia, Vatsal Sharan
15
3

大型語言模型(LLMs)通常使用多個標記來表示數字,這需要模型將這些標記聚合起來以解釋數值。這種碎片化使得訓練和推理都變得不那麼高效,並對模型在與數字相關的任務上的表現產生不利影響。受到預訓練LLMs內部學習數字標記的類似傅立葉特徵的觀察的啟發,我們提出了傅立葉數字嵌入(FoNE),這是一種直接將數字與其傅立葉特徵映射到嵌入空間的新方法。FoNE將每個數字編碼為一個標記,每位數僅具有兩個嵌入維度,有效捕捉數值而不會產生碎片化。這種緊湊的表示加快了訓練和推理的速度。與傳統的子詞和按位嵌入相比,FoNE不僅減少了計算開銷,還在各種數值任務(包括加法、減法和乘法)中實現了更高的準確性。在6位十進制加法中,FoNE僅需要64倍的數據即可實現99%的準確性,而使用的標記數分別比子詞和按位嵌入少3倍和6倍。此外,FoNE是唯一一種在超過100,000個測試示例中實現加法、減法和乘法100%準確性的方法。代碼和可視化可在https://fouriernumber.github.io/找到。

11

擴散模型中文本生成的精確參數定位
Precise Parameter Localization for Textual Generation in Diffusion Models

Feb 14
ByŁukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch, Kamil Deja, Adam Dziedzic
12
2

新穎的擴散模型能夠合成與高質量文本相結合的逼真圖像。令人驚訝的是,我們通過注意力激活補丁的展示,表明只有不到1%的擴散模型參數,全部包含在注意力層中,影響了圖像中文本內容的生成。基於這一觀察,我們通過針對擴散模型的交叉和聯合注意力層來提高文本生成效率和性能。我們介紹了幾個從定位負責文本內容生成的層中受益的應用。首先,我們展示了LoRA-based對局部層進行微調,進一步增強了大型擴散模型的一般文本生成能力,同時保留了擴散模型生成的質量和多樣性。然後,我們展示了如何使用局部層來編輯生成圖像中的文本內容。最後,我們將這個想法擴展到實際用例,以無成本的方式防止生成有毒文本。與先前的工作相比,我們的定位方法廣泛適用於各種擴散模型架構,包括U-Net(例如,LDM和SDXL)和基於Transformer的模型(例如,DeepFloyd IF和Stable Diffusion 3),利用各種文本編碼器(例如,從CLIP到像T5這樣的大型語言模型)。項目頁面可在https://t2i-text-loc.github.io/上找到。

12

我們無法用現有詞彙理解人工智慧
We Can't Understand AI Using our Existing Vocabulary

Feb 11
ByJohn Hewitt, Robert Geirhos, Been Kim
10
4

這份立場文件主張,為了理解人工智慧,我們不能依賴現有的人類詞彙。相反地,我們應該努力發展新詞彙:代表我們想要教導機器的精確人類概念,或者我們需要學習的機器概念的新詞彙。我們從人類和機器擁有不同概念的前提出發。這意味著可解釋性可以被構想為一個溝通問題:人類必須能夠參照和控制機器概念,並將人類概念傳達給機器。我們相信,透過發展新詞彙來創建共享的人機語言,可以解決這個溝通問題。成功的新詞彙實現了一定程度的抽象化:不要太細節,以至於可以在許多情境中重複使用,也不要太高層次,以至於能夠傳達精確信息。作為概念證明,我們展示了如何透過「長度新詞彙」來控制LLM回應的長度,同時「多樣性新詞彙」則允許抽樣更多變化的回應。綜合來看,我們認為我們無法使用現有的詞彙來理解人工智慧,透過新詞彙的擴展可以為更好地控制和理解機器創造機會。

13

大型語言模型中的選擇性自我監督微調以促進泛化
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

Feb 12
BySonam Gupta, Yatin Nandwani, Asaf Yehudai, Dinesh Khandelwal, Dinesh Raghu, Sachindra Joshi
9
2

在特定資料集上微調大型語言模型(LLMs)是一種常見的做法,可用來提高目標任務的性能。然而,這種性能提升通常會導致過度擬合,使模型在任務或訓練數據特徵方面過於專精,導致泛化能力下降。本文介紹了選擇性自我監督微調(S3FT),這是一種微調方法,能夠比標準監督微調(SFT)實現更好的性能並提高泛化能力。S3FT利用對一個查詢存在多個有效回應的事實。通過利用模型的正確回應,S3FT在微調階段減少了模型的專精化。S3FT首先通過部署適當的評判器從訓練集中識別出正確的模型回應。然後,它使用這些正確的模型回應以及剩餘樣本的黃金回應(或其改寫)來微調模型。通過在數學推理、Python編程和閱讀理解任務上進行實驗,證明了S3FT的有效性。結果顯示,標準SFT在多個基準測試中的平均性能下降可達4.4,如MMLU和TruthfulQA。相比之下,S3FT將這種下降減半,即2.5,表明其在泛化能力方面優於SFT,同時在微調任務上表現顯著更好。

14

小模型,大影響:針對低資源語言的小型多語言模型之高效語料與圖基適應
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages

Feb 14
ByDaniil Gurgurov, Ivan Vykopal, Josef van Genabith, Simon Ostermann
9
2

低資源語言(LRLs)在自然語言處理(NLP)領域面臨著顯著挑戰,主要由於數據量有限。儘管當前最先進的大型語言模型(LLMs)在處理低資源語言時仍存在困難,但較小的多語言模型(mLMs),如mBERT和XLM-R,因其模型容量更適合低訓練數據量而展現出更大的潛力。本研究系統性地探討了基於適配器的參數高效方法,用於將多語言模型適應於低資源語言,並評估了三種架構:序列瓶頸、可逆瓶頸和低秩適應。利用GlotCC的非結構化文本和ConceptNet的結構化知識,我們展示了小規模適應數據集(例如,最多1 GB的自由文本或幾MB的知識圖譜數據)在內在任務(掩碼語言建模)和外在任務(主題分類、情感分析和命名實體識別)中的性能提升。我們發現,序列瓶頸適配器在語言建模方面表現出色,而可逆瓶頸適配器由於更好的嵌入對齊和更多的參數數量,在下游任務中略微優於其他方法。基於適配器的方法在參數使用量大幅減少的情況下,與全面微調相當或更優,且較小的多語言模型在處理低資源語言時比LLaMA-3、GPT-4和基於DeepSeek-R1的蒸餾模型等大型語言模型更為有效。儘管適應方法提升了性能,但預訓練數據量仍然是主導因素,尤其是對於預訓練覆蓋廣泛的語言而言。

15

AdaPTS:將單變量基礎模型適應於概率性多變量時間序列預測
AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting

Feb 14
ByAbdelhakim Benechehab, Vasilii Feofanov, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl
9
2

預訓練基礎模型(FMs)在單變量時間序列預測任務中展現了卓越的性能。然而,仍存在多項實際挑戰,包括處理特徵間複雜的依賴關係以及量化預測中的不確定性。本研究旨在通過引入適配器來解決這些關鍵限制;適配器作為特徵空間轉換,能夠有效利用預訓練的單變量時間序列FMs進行多變量任務。適配器的工作原理是將多變量輸入投影到合適的潛在空間,並獨立地對每個維度應用FM。受表示學習和部分隨機貝葉斯神經網路文獻的啟發,我們提出了一系列適配器及優化/推理策略。在合成和真實世界數據集上進行的實驗證實了適配器的有效性,相比基線方法,在預測精度和不確定性量化方面均顯示出顯著提升。我們的框架AdaPTS將適配器定位為一種模組化、可擴展且有效的解決方案,用於在多變量情境下利用時間序列FMs,從而促進其在現實世界應用中的更廣泛採用。我們在https://github.com/abenechehab/AdaPTS上公開了代碼。

16

越獄至越獄
Jailbreaking to Jailbreak

Feb 9
ByJeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
6
2

拒絕訓練大型語言模型(LLMs)可防止有害輸出,但這種防禦仍然容易受到自動化和人工製作的越獄攻擊。我們提出了一種新穎的LLM作為紅隊成員的方法,其中一名人類越獄一個經過拒絕訓練的LLM,使其願意越獄自己或其他LLMs。我們將越獄後的LLMs 稱為 J_2 攻擊者,它們可以通過各種紅隊策略系統地評估目標模型,並通過從先前失敗中進行上下文學習來提高性能。我們的實驗表明,Sonnet 3.5 和 Gemini 1.5 在作為 J_2 時優於其他LLMs,分別在Harmbench上對GPT-4o(以及其他能力強大的LLMs)實現了93.0%和91.0%的攻擊成功率(ASRs)。我們的工作不僅引入了一種可擴展的戰略紅隊方法,從人類紅隊成員中汲取靈感,還突顯了越獄以進行越獄是一種被忽視的失敗模式。具體來說,一個LLM可以通過使用一個願意協助進一步越獄的越獄版本來繞過自己的保護措施。為了防止J_2的直接濫用,同時推進AI安全研究,我們公開分享我們的方法論,同時保留特定提示細節。

17

STMA:一個用於長時間範圍具體任務規劃的時空記憶代理程式
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

Feb 14
ByMingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren
6
2

具體智能的一個關鍵目標是使代理人能夠在動態環境中執行長期任務,同時保持堅固的決策能力和適應性。為了實現這一目標,我們提出了時空記憶代理人(STMA),這是一個旨在通過整合時空記憶來增強任務規劃和執行的新框架。STMA建立在三個關鍵組件之上:(1)一個捕捉實時歷史和環境變化的時空記憶模塊,(2)一個促進適應性空間推理的動態知識圖,以及(3)一個迭代地優化任務策略的規劃者-評論者機制。我們在TextWorld環境中對STMA進行了評估,涉及32個任務,包括多步規劃和在不同複雜程度下的探索。實驗結果表明,與最先進的模型相比,STMA的成功率提高了31.25%,平均分數增加了24.7%。結果突顯了時空記憶在提升具體智能代理人記憶能力方面的有效性。

18

基於文本的稀疏體素修剪,用於高效的3D視覺定位
Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Feb 14
ByWenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
6
2

本文提出了一種用於3D視覺定位的高效多層級卷積架構。傳統方法由於雙階段或基於點的架構而難以滿足實時推理的要求。受到3D物體檢測中多層級完全稀疏卷積架構成功的啟發,我們旨在構建一個新的3D視覺定位框架,遵循這一技術路線。然而,在3D視覺定位任務中,由於體素特徵的數量龐大,基於稀疏卷積的架構對於與文本特徵的深度交互效率低下。為此,我們提出了文本引導的修剪(TGP)和基於完成的添加(CBA)方法,通過逐步區域修剪和目標完成,以高效地深度融合3D場景表示和文本特徵。具體而言,TGP通過迭代地稀疏化3D場景表示,從而通過交叉注意力高效地將體素特徵與文本特徵進行交互。為了減輕修剪對精細幾何信息的影響,CBA通過體素完成自適應地修復過度修剪的區域,並且計算開銷幾乎可以忽略不計。與先前的單階段方法相比,我們的方法實現了頂級推理速度,並且超過了以前最快方法100%的FPS。我們的方法在準確性方面也達到了最新水平,即使與雙階段方法相比,也在ScanRefer上的Acc@0.5上領先1.13,並分別在NR3D和SR3D上領先2.6和3.2。代碼可在以下鏈接找到:https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}。

19

V2V-LLM:利用多模式大型語言模型的車輛對車輛協作自主駕駛
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

Feb 14
ByHsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen
5
4

目前的自動駕駛車輛主要依賴其個別感應器來理解周圍場景並規劃未來軌跡,然而當感應器發生故障或被遮擋時,這種方法可能變得不可靠。為解決這個問題,提出了透過車輛間通信的合作感知方法,但這些方法往往專注於檢測和追蹤。這些方法如何有助於整體合作規劃表現仍未深入探討。受最近使用大型語言模型(LLMs)構建自動駕駛系統的進展啟發,我們提出了一個將LLM整合到合作自動駕駛中的新問題設定,並提出了車輛間問答(V2V-QA)數據集和基準。我們還提出了我們的基準方法車輛間大型語言模型(V2V-LLM),該方法使用LLM將來自多個連接的自動駕駛車輛(CAVs)的感知信息融合,並回答與駕駛相關的問題:定位、顯著物體識別和規劃。實驗結果顯示,我們提出的V2V-LLM可以成為執行合作自動駕駛中各種任務的有前途的統一模型架構,並優於使用不同融合方法的其他基準方法。我們的工作還開創了一個新的研究方向,可以提高未來自動駕駛系統的安全性。我們的項目網站:https://eddyhkchiu.github.io/v2vllm.github.io/。

20

集群與預測潛在圖像區塊以提升遮蔽圖像建模效能
Cluster and Predict Latents Patches for Improved Masked Image Modeling

Feb 12
ByTimothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski
5
2

遮罩圖像建模(Masked Image Modeling, MIM)為自監督表示學習提供了一種極具前景的方法,然而現有的MIM模型仍落後於當前最先進技術。本文中,我們系統性地分析了目標表示、損失函數及架構,進而提出了CAPI——一個基於潛在聚類預測的全新純MIM框架。我們的方法採用了基於聚類的損失函數,該函數訓練穩定,並展現出良好的擴展特性。我們的ViT-L骨幹網絡CAPI,在ImageNet上達到了83.8%的準確率,在ADE20K上實現了32.1%的mIoU,僅使用簡單的線性探測器便顯著超越了以往的MIM方法,並接近了當前最先進技術DINOv2的性能。我們已公開所有代碼和模型。

21

MRS:基於ODE和SDE求解器的均值回歸擴散快速取樣器
MRS: A Fast Sampler for Mean Reverting Diffusion based on ODE and SDE Solvers

Feb 11
ByAo Li, Wei Fang, Hongbo Zhao, Le Lu, Ge Yang, Minfeng Xu
5
2

在擴散模型的應用中,可控生成具有實際意義,但也具有挑戰性。目前用於可控生成的方法主要集中在修改擴散模型的得分函數,而均值回歸(MR)擴散直接修改隨機微分方程(SDE)的結構,使得圖像條件的整合更簡單、更自然。然而,目前的無需訓練的快速取樣器並不適用於MR擴散。因此,MR擴散需要數百個NFEs(函數評估次數)才能獲得高質量的樣本。在本文中,我們提出了一種名為MRS(MR取樣器)的新算法,以降低MR擴散的取樣NFEs。我們解決了與MR擴散相關的逆時SDE和概率流常微分方程(PF-ODE),並推導出半解析解。這些解包括一個解析函數和一個由神經網絡參數化的積分。基於這個解,我們可以在較少步驟中生成高質量的樣本。我們的方法不需要訓練,支持所有主流的參數化,包括噪聲預測、數據預測和速度預測。大量實驗表明,MR取樣器在十個不同的圖像恢復任務中保持高取樣質量,速度提升了10到20倍。我們的算法加速了MR擴散的取樣過程,使其在可控生成中更加實用。

22

CLaMP 3:跨不對齊模態和未見語言的通用音樂信息檢索
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Feb 14
ByShangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
4
2

CLaMP 3 是一個統一的框架,旨在應對音樂信息檢索中跨模態和跨語言泛化的挑戰。通過對比學習,它將所有主要音樂模態(包括樂譜、演奏信號和音頻錄音)與多語言文本在共享表示空間中對齊,實現跨未對齊模態的檢索,以文本作為橋樑。它具有一個適應未見語言的多語言文本編碼器,展現出強大的跨語言泛化能力。通過檢索增強生成,我們精心編輯了M4-RAG,這是一個包含 2.31 百萬音樂-文本對的大規模網絡數據集。該數據集豐富了詳細的元數據,代表了廣泛的全球音樂傳統。為了推動未來研究,我們發布了WikiMT-X,這是一個包含 1,000 套樂譜、音頻和豐富多樣文本描述的基準測試集。實驗表明,CLaMP 3 在多個音樂信息檢索任務上實現了最先進的性能,顯著超越了先前的強基線,並展現了在多模態和多語言音樂情境中的出色泛化能力。

23

基於語言擴散模型的端到端自主蛋白質設計:實現定制化動力學
Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

Feb 14
ByBo Ni, Markus J. Buehler
3
2

蛋白質是動態的分子機器,其生物功能——包括酶催化、信號傳導和結構適應——與其運動本質相關。然而,由於序列、結構和分子運動之間存在複雜且多重的關係,設計具有特定動態特性的蛋白質仍是一大挑戰。本文介紹了VibeGen,這是一個生成式AI框架,能夠基於正態模態振動進行端到端的從頭蛋白質設計。VibeGen採用了一種雙模型架構,包含一個根據指定振動模式生成序列候選的蛋白質設計器,以及一個評估其動態準確性的蛋白質預測器。這種方法在設計過程中協同了多樣性、準確性和新穎性。通過全原子分子模擬作為直接驗證,我們展示了所設計的蛋白質在保持各種穩定且功能相關結構的同時,精確地再現了主鏈上規定的正態模態振幅。值得注意的是,生成的序列是從頭設計的,與天然蛋白質無顯著相似性,從而將可探索的蛋白質空間擴展至超越進化限制的範疇。我們的工作將蛋白質動力學整合到生成式蛋白質設計中,並建立了序列與振動行為之間直接的雙向聯繫,為工程化具有定制動態和功能特性的生物分子開闢了新途徑。這一框架對於靈活酶、動態支架和生物材料的理性設計具有廣泛意義,為基於動力學的AI驅動蛋白質工程鋪平了道路。

Feb 14
Feb 17
Feb 18