ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

Seed1.5-VL 技術報告
Seed1.5-VL Technical Report

May 11, 2025
Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song
1464

我們推出Seed1.5-VL,這是一款專為提升通用多模態理解與推理能力而設計的視覺-語言基礎模型。Seed1.5-VL由一個擁有5.32億參數的視覺編碼器和一個包含200億活躍參數的專家混合(MoE)大型語言模型(LLM)構成。儘管其架構相對緊湊,但該模型在廣泛的公開視覺語言模型(VLM)基準測試及內部評估套件中展現出強勁性能,在60個公開基準測試中的38個上達到了業界領先水平。此外,在如GUI控制和遊戲玩法等以代理為中心的任務中,Seed1.5-VL超越了包括OpenAI CUA和Claude 3.7在內的多模態系統領先者。除了視覺和視頻理解外,它還展現出強大的推理能力,使其在多模態推理挑戰如視覺謎題中尤為有效。我們相信這些能力將賦能更廣泛的跨任務應用。在本報告中,我們主要回顧了在模型設計、數據構建及各階段訓練過程中構建Seed1.5-VL的全面經驗,希望此報告能激發進一步的研究。Seed1.5-VL現已開放訪問,詳見https://www.volcengine.com/(火山引擎模型ID:doubao-1-5-thinking-vision-pro-250428)。

MiMo:釋放語言模型的推理潛能——從預訓練到後訓練
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025
Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
806

我們推出MiMo-7B,這是一個專為推理任務而生的大型語言模型,在預訓練和後訓練階段均進行了優化。在預訓練期間,我們增強了數據預處理流程,並採用三階段數據混合策略,以強化基礎模型的推理潛力。MiMo-7B-Base在25萬億個token上進行了預訓練,並引入多token預測目標,以提升性能並加速推理速度。在後訓練階段,我們精心策劃了一個包含13萬個可驗證數學和編程問題的數據集,用於強化學習,整合了基於測試難度的代碼獎勵機制,以緩解稀疏獎勵問題,並採用策略性數據重採樣來穩定訓練。廣泛的評估顯示,MiMo-7B-Base具備卓越的推理潛力,甚至超越了規模更大的32B模型。最終經過RL調優的模型MiMo-7B-RL,在數學、代碼和一般推理任務上均表現出色,超越了OpenAI o1-mini的性能。模型檢查點可在https://github.com/xiaomimimo/MiMo獲取。

Step1X-3D:迈向高保真与可控的纹理化三维资产生成
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025
Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
603

儘管生成式人工智慧在文本、圖像、音頻和視頻領域已取得顯著進展,三維生成技術卻因數據稀缺、算法限制及生態系統碎片化等根本性挑戰而相對落後。為此,我們提出了Step1X-3D,這是一個開放框架,旨在通過以下方式應對這些挑戰:(1) 建立嚴格的數據篩選流程,處理超過500萬個資產,創建一個包含200萬高質量數據集,具備標準化幾何與紋理屬性;(2) 採用兩階段的三維原生架構,結合混合VAE-DiT幾何生成器與基於擴散的紋理合成模塊;(3) 全面開源模型、訓練代碼及適配模塊。在幾何生成方面,混合VAE-DiT組件通過感知器基礎的潛在編碼與銳利邊緣採樣,生成TSDF表示以保留細節。隨後,基於擴散的紋理合成模塊通過幾何條件與潛在空間同步,確保跨視圖一致性。基準測試結果顯示,該框架性能超越現有開源方法,達到業界領先水平,並與專有解決方案競爭力相當。值得注意的是,該框架獨特地連接了二維與三維生成範式,支持將二維控制技術(如LoRA)直接轉移至三維合成。通過同步提升數據質量、算法保真度與可重現性,Step1X-3D旨在為可控三維資產生成的開放研究設立新標準。

從同儕中學習推理模型
Learning from Peers in Reasoning Models

May 12, 2025
Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
454

大型推理模型(LRMs)具備自我修正的能力,即使在推理過程中出現錯誤也能自行調整。然而,我們的研究發現,當推理過程始於一個簡短但品質不佳的開端時,模型便難以恢復正確的推理軌跡。我們將此現象稱為「前綴主導陷阱」。受心理學研究中「同儕互動能促進自我修正且不影響已正確個體」的啟發,我們提出了**同儕學習**(LeaP)來解決這一問題。具體而言,每個推理路徑在推理過程中會定期總結其中間推理結果,並通過路由機制與其他路徑分享,從而在推理過程中融入同儕的見解。然而,我們觀察到較小的模型有時無法有效遵循總結與反思的指令。為此,我們將其微調為**LeaP-T**模型系列。在AIME 2024、AIME 2025、AIMO 2025和GPQA Diamond等數據集上的實驗表明,LeaP帶來了顯著的性能提升。例如,配備LeaP的QwQ-32B平均比基準模型高出近5個絕對點,並在三個數學基準上超越DeepSeek-R1-671B,平均增益達3.3點。值得注意的是,我們微調後的LeaP-T-7B在AIME 2024上的表現與DeepSeek-R1-Distill-Qwen-14B相當。深入分析顯示,LeaP通過及時的同儕見解實現了強大的錯誤修正能力,展現出良好的錯誤容忍度以及對不同任務難度的適應性。LeaP標誌著大型推理模型在推理過程中實現協作的重要里程碑。我們的代碼、數據集和模型已公開於https://learning-from-peers.github.io/。

統一連續生成模型
Unified Continuous Generative Models

May 12, 2025
Peng Sun, Yi Jiang, Tao Lin
443

近期,連續生成模型領域取得了顯著進展,其中包括多步方法如擴散模型與流匹配(通常需要8至1000次採樣步驟)以及少步方法如一致性模型(通常1至8步),這些方法展現了令人矚目的生成性能。然而,現有研究往往將這些方法視為獨立範式,導致訓練與採樣方法各自為政。我們提出了一個統一的框架,用於訓練、採樣及分析這些模型。我們實現的統一連續生成模型訓練器與採樣器(UCGM-{T,S})達到了業界領先(SOTA)的性能。例如,在ImageNet 256x256數據集上,使用675M參數的擴散變壓器,UCGM-T訓練的多步模型在20步內實現了1.30的FID,而少步模型僅需2步便達到了1.42的FID。此外,將UCGM-S應用於預訓練模型(先前在250步時FID為1.26),僅需40步便將性能提升至1.06的FID。代碼已公開於:https://github.com/LINs-lab/UCGM。

REFINE-AF:一個任務無關的框架,透過自動反饋強化學習生成自我指令來對齊語言模型
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025
Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
306

基於指令的大型語言模型(LLMs)在多種少樣本或零樣本的自然語言處理(NLP)任務中已證明其有效性。然而,創建人工標註的指令數據既耗時又昂貴,且在數量和任務多樣性上往往受限。先前的研究嘗試通過提出能夠從模型本身以半自動化且任務無關的方式生成指令的框架來應對這一挑戰。這些努力大多依賴於大型僅限API的參數模型,如GPT-3.5(175B),這些模型成本高昂,且受到查詢次數的限制。本文探討了三種開源小型LLMs(如LLaMA 2-7B、LLama 2-13B和Mistral 7B)在使用半自動化框架時的表現,從而減少了為微調LLMs生成指令數據集所需的人為干預、努力和成本。此外,我們展示了將基於強化學習(RL)的訓練算法整合到這一基於LLMs的框架中,能夠帶來進一步的提升。我們對數據集的評估顯示,與先前方法相比,這些基於RL的框架在63-66%的任務中實現了顯著的改進。

DanceGRPO:釋放GRPO在視覺生成中的潛力
DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
293

近期在生成模型領域的突破——特別是擴散模型和校正流——徹底革新了視覺內容創作,然而如何使模型輸出與人類偏好保持一致仍是一個關鍵挑戰。現有的基於強化學習(RL)的視覺生成方法面臨著幾個重大限制:與現代基於常微分方程(ODE)的採樣範式不相容、大規模訓練中的不穩定性,以及缺乏對視頻生成的驗證。本文介紹了DanceGRPO,這是首個將群組相對策略優化(GRPO)應用於視覺生成範式的統一框架,釋放了一種跨兩種生成範式(擴散模型和校正流)、三項任務(文本到圖像、文本到視頻、圖像到視頻)、四種基礎模型(Stable Diffusion、HunyuanVideo、FLUX、SkyReel-I2V)和五種獎勵模型(圖像/視頻美學、文本圖像對齊、視頻運動質量及二元獎勵)的統一RL算法。據我們所知,DanceGRPO是首個能夠無縫適應多樣生成範式、任務、基礎模型和獎勵模型的基於RL的統一框架。DanceGRPO展現了一致且顯著的改進,在HPS-v2.1、CLIP Score、VideoAlign和GenEval等基準測試中,其表現超越基線高達181%。值得注意的是,DanceGRPO不僅能穩定複雜視頻生成的策略優化,還能讓生成策略更好地捕捉去噪軌跡以實現Best-of-N推理擴展,並從稀疏的二元反饋中學習。我們的結果確立了DanceGRPO作為視覺生成中擴展基於人類反饋的強化學習(RLHF)任務的強大且多功能的解決方案,為協調強化學習與視覺合成提供了新的見解。代碼將被公開。

Skywork-VL Reward:一個有效的多模態理解與推理獎勵模型
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
293

我們提出了Skywork-VL Reward,這是一個多模態獎勵模型,能夠為多模態理解和推理任務提供獎勵信號。我們的技術方法包含兩個關鍵組件:首先,我們構建了一個大規模的多模態偏好數據集,涵蓋了廣泛的任務和場景,並收集了來自標準視覺語言模型(VLMs)和高級VLM推理器的回應。其次,我們基於Qwen2.5-VL-7B-Instruct設計了一個獎勵模型架構,整合了一個獎勵頭,並在成對偏好數據上應用多階段微調,使用成對排序損失進行訓練。實驗評估顯示,Skywork-VL Reward在多模態VL-RewardBench上達到了最先進的結果,並在僅文本的RewardBench基準上表現出競爭力。此外,基於我們的Skywork-VL Reward構建的偏好數據在訓練混合偏好優化(MPO)方面非常有效,顯著提升了多模態推理能力。我們的結果表明,Skywork-VL Reward是朝著通用、可靠的多模態對齊獎勵模型邁出的重要一步。我們的模型已公開發布,以促進透明度和可重現性。

注意力影響力:採用注意力頭影響力進行弱到強的預訓練數據選擇
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12, 2025
Kai Hua, Steven Wu, Ge Zhang, Ke Shen
262

近期,收集富含推理能力的预训练数据以提升大型语言模型(LLMs)的复杂推理能力引起了广泛关注。以往的方法通常依赖于有监督的分类器来识别此类数据,这需要人工或LLMs进行标注,往往引入领域特定的偏差。鉴于注意力头在上下文推理中的关键作用,我们提出了AttentionInfluence,一种简单而有效、无需监督信号的训练自由方法。我们的方法通过简单的注意力头掩码操作,使小型预训练语言模型能够作为强大的数据选择器。具体而言,我们识别检索头并计算掩码这些头时的损失差异。我们将AttentionInfluence应用于一个拥有13亿参数的密集模型,在包含2410亿个标记的SmolLM语料库上进行数据选择,并将SmolLM语料库与包含730亿个标记的选定子集混合,使用1万亿训练标记和WSD学习率调度预训练一个拥有70亿参数的密集模型。我们的实验结果表明,在多个知识密集型和推理密集型基准测试(即MMLU、MMLU-Pro、AGIEval-en、GSM8K和HumanEval)上,性能提升显著,范围从1.4个百分点到3.5个百分点。这展示了有效的弱到强扩展特性,即小型模型能够提升大型模型的最终性能,为以推理为中心的数据选择提供了一条有前景且可扩展的路径。

大型語言模型持續預訓練中的學習動態
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12, 2025
Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
194

持續預訓練(Continual Pre-Training, CPT)已成為將強大的基礎模型應用於特定下游任務的一種流行且有效的方法。在本研究中,我們探討了大型語言模型在CPT過程中的學習動態。我們特別關注通用性能和下游領域性能在每個訓練步驟中的演變,並通過驗證損失來衡量領域性能。我們觀察到,CPT損失曲線本質上描述了從一條曲線到另一條隱藏曲線的轉變,並可以通過解耦分佈偏移和學習率退火的影響來描述。我們推導了一個結合這兩個因素的CPT縮放定律,使得能夠預測在任何(持續)訓練步驟和不同學習率調度(LRS)下的損失。我們的公式全面呈現了CPT中的幾個關鍵因素,包括損失潛力、峰值學習率、訓練步驟、重播比例等。此外,我們的方法可以適應不同的CPT目標,例如平衡通用性能和領域特定性能,從而定制訓練超參數。大量實驗表明,我們的縮放定律在多種CPT數據集和訓練超參數下均成立。

WebGen-Bench:評估大型語言模型從零生成互動且功能性網站的能力
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6, 2025
Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
162

基於大型語言模型(LLM)的代理在生成和管理複雜程式碼庫方面展現了巨大潛力。本文介紹了WebGen-Bench,這是一個新穎的基準測試,旨在衡量LLM代理從零開始創建多檔案網站程式碼庫的能力。該基準包含了多樣化的網站生成指令,這些指令由人類註解員和GPT-4o共同創建,涵蓋了三大類別和十三個子類別,幾乎包含了所有重要的網路應用類型。為了評估生成網站的質量,我們使用GPT-4o生成針對每個指令功能的測試案例,並手動篩選、調整和組織這些案例以確保準確性,最終得到647個測試案例。每個測試案例都指定了在網站上執行的操作以及操作後的預期結果。為了自動化測試並提高可重現性,我們採用了一個強大的網路導航代理來在生成的網站上執行測試,並確定觀察到的回應是否符合預期結果。我們評估了三個高性能的程式碼代理框架——Bolt.diy、OpenHands和Aider,並使用多個專有和開源的LLM作為引擎。表現最佳的組合是由DeepSeek-R1驅動的Bolt.diy,在測試案例上僅達到了27.8%的準確率,這凸顯了我們基準測試的挑戰性。此外,我們構建了WebGen-Instruct,這是一個由6,667個網站生成指令組成的訓練集。在Bolt.diy軌跡上訓練Qwen2.5-Coder-32B-Instruct,這些軌跡來自該訓練集的一個子集,達到了38.2%的準確率,超越了最佳專有模型的表現。

INTELLECT-2:一個通過全球分散式強化學習訓練的推理模型
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025
Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
132

我們推出INTELLECT-2,這是首個全球分佈式強化學習(RL)訓練的320億參數語言模型。與傳統的集中式訓練不同,INTELLECT-2在一個動態、異構的無許可計算貢獻者群體中,使用完全異步的RL訓練推理模型。 為了在這種獨特的基礎設施上進行訓練,我們從零開始構建了多個組件:我們引入了PRIME-RL,這是一個專為分佈式異步強化學習設計的訓練框架,基於諸如TOPLOC等新穎組件,TOPLOC用於驗證來自不可信推理工作者的rollouts,以及SHARDCAST,它高效地將策略權重從訓練節點廣播到推理工作者。 除了基礎設施組件,我們還對標準GRPO訓練配方和數據過濾技術提出了修改,這些修改對於實現訓練穩定性並確保我們的模型成功學習其訓練目標至關重要,從而改進了320億參數範圍內最先進的推理模型QwQ-32B。 我們開源了INTELLECT-2以及所有代碼和數據,希望鼓勵並推動去中心化訓練領域的更多開放研究。

通過分數最大化實現連續視覺自回歸生成
Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025
Chenze Shao, Fandong Meng, Jie Zhou
122

傳統觀點認為,自迴歸模型主要用於處理離散數據。當應用於視覺數據等連續模態時,視覺自迴歸建模(VAR)通常採用基於量化的方法將數據轉換到離散空間,這可能導致顯著的信息損失。為解決這一問題,我們引入了一種連續VAR框架,該框架能夠實現無需向量量化的直接視覺自迴歸生成。其理論基礎是嚴格適宜評分規則,這些規則提供了強大的統計工具,能夠評估生成模型對真實分佈的逼近程度。在此框架內,我們只需選擇一個嚴格適宜評分並將其設為訓練目標進行優化。我們主要探索了一類基於能量分的訓練目標,該目標無需似然函數,從而克服了在連續空間中進行概率預測的困難。先前關於連續自迴歸生成的研究,如GIVT和擴散損失,也可以通過使用其他嚴格適宜評分從我們的框架中推導出來。源代碼:https://github.com/shaochenze/EAR。

MonetGPT:解謎提升多模態大語言模型的圖像修復能力
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025
Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
112

修飾是原始照片後期處理中的一項關鍵任務。基於文字或筆觸引導的生成式編輯為用戶提供了一種新工具,但這種方式容易以不可接受且不可預測的方式改變原始物件的身份。相比之下,儘管傳統的程序化編輯(如Gimp、Lightroom等照片編輯工具所支持的)較為保守,卻仍受到專業人士的青睞。然而,專業級的修飾涉及眾多單獨的程序化編輯操作,這對大多數新手來說規劃起來頗具挑戰性。本文探討了是否能夠教導多模態大型語言模型(MLLM)來評析原始照片、提出適當的修正建議,並最終利用一組預先編寫的程序化圖像操作來實現這些修正。我們展示了,通過訓練MLLM解決特別設計的視覺謎題,可以首先使其了解底層的圖像處理操作。隨後,這樣一個具備操作意識的MLLM能夠規劃並提出編輯序列。為了促進訓練,在給定一組專家編輯的照片後,我們通過程序化操縱這些專家編輯並基於視覺調整對預訓練的LLM進行接地,來合成一個推理數據集,用於微調。所提出的修飾操作,在設計上便於用戶理解,能夠保留物件細節和分辨率,並且可以選擇性地被覆蓋。我們在多種測試樣例上評估了我們的設置,並展示了在可解釋性和身份保持方面相較於現有的生成式及其他程序化替代方案的優勢。代碼、數據、模型及補充結果可通過我們的項目網站https://monetgpt.github.io獲取。

強化內外知識協同推理的高效適應性搜索代理
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12, 2025
Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu
102

檢索增強生成(RAG)是減少大型語言模型(LLMs)幻覺的一種常見策略。雖然強化學習(RL)能夠通過激活檢索能力使LLMs充當搜索代理,但現有的方法往往未能充分利用其內部知識。這可能導致冗餘檢索、潛在的有害知識衝突以及推理延遲的增加。為解決這些限制,迫切需要一種高效且自適應的搜索代理,能夠辨別最佳檢索時機,並協同整合參數化(內部)與檢索(外部)知識。本文介紹了強化內外知識協同推理代理(IKEA),該代理能夠識別其自身的知識邊界,並優先利用內部知識,僅在內部知識被認為不足時才求助於外部搜索。這是通過一種新穎的知識邊界感知獎勵函數和知識邊界感知訓練數據集實現的,這些設計旨在面向內外知識協同的RL,激勵模型提供準確答案,最小化不必要的檢索,並在自身知識不足時鼓勵適當的外部搜索。在多項知識推理任務中的評估表明,IKEA顯著優於基線方法,大幅降低了檢索頻率,並展現出強大的泛化能力。

立場:AI競賽為生成式AI評估提供了經驗嚴謹性的黃金標準
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1, 2025
D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
92

在本立場文件中,我們觀察到生成式人工智慧(Generative AI)的實證評估正處於一個危機點,因為傳統的機器學習評估與基準測試策略已不足以滿足評估現代生成式AI模型與系統的需求。造成這種情況的原因眾多,包括這些模型通常具有幾乎無界的輸入與輸出空間、通常缺乏明確定義的真實目標,以及通常會基於先前模型輸出的上下文展現出強烈的反饋循環與預測依賴性。除了這些關鍵問題外,我們認為「洩漏」與「污染」問題實際上是生成式AI評估中最重要且最難解決的議題。有趣的是,AI競賽領域已發展出有效的措施與實踐來對抗洩漏,目的是在競賽環境中遏制不良行為者的作弊行為。這使得AI競賽成為一個特別有價值(但未被充分利用)的資源。現在是時候讓該領域將AI競賽視為生成式AI評估中實證嚴謹性的黃金標準,並據此價值來利用與收穫其成果。

UMoE:共享专家机制下的注意力与前馈网络统一框架
UMoE: Unifying Attention and FFN with Shared Experts

May 12, 2025
Yuanhang Yang, Chaozheng Wang, Jing Li
82

稀疏專家混合(MoE)架構已成為擴展Transformer模型的一種有前景的方法。雖然最初的研究主要將MoE整合到前饋網絡(FFN)層中,但最近的研究探索了將MoE範式擴展到注意力層以提升模型性能。然而,現有的基於注意力的MoE層需要專門的實現,並且與基於FFN的對應層相比表現欠佳。在本文中,我們旨在通過引入一種新穎的注意力機制重新表述,揭示注意力模塊內在的類似FFN的結構,從而統一注意力和FFN層中的MoE設計。我們提出的架構UMoE通過基於注意力的MoE層實現了卓越的性能,同時實現了FFN和注意力組件之間的高效參數共享。

DynamicRAG:利用大型語言模型的輸出作為反饋,實現檢索增強生成中的動態重排序
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12, 2025
Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han
83

檢索增強生成(RAG)系統結合了大型語言模型(LLMs)與外部知識檢索,使其在知識密集型任務中表現卓越。這些系統中一個關鍵但常被忽視的組件是重排序器,它精煉檢索到的文件以提升生成質量與可解釋性。選擇最佳文件數量(k)的挑戰仍未解決:過少可能遺漏關鍵信息,過多則引入噪音與低效。儘管近期研究探索了基於LLM的重排序器,它們主要依賴模型內部知識,並忽略了LLM能提供的豐富監督信號,例如利用回應質量作為優化重排序決策的反饋。本文提出DynamicRAG,一種新穎的RAG框架,其中重排序器根據查詢動態調整檢索文件的順序與數量。我們將重排序器建模為通過強化學習(RL)優化的代理,利用源自LLM輸出質量的獎勵。在七個知識密集型數據集上,DynamicRAG展現了卓越性能,達到了業界領先水平。模型、數據與代碼可在https://github.com/GasolSun36/DynamicRAG 獲取。

LLAMAPIE:主動式耳內對話輔助系統
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7, 2025
Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota
62

我們推出LlamaPIE,首款旨在通過可聽設備提供隱蔽、簡潔指導來提升人類對話的實時主動助手。與傳統需用戶明確調用的語言模型不同,此助手在背景中運行,預測用戶需求而不打斷對話。我們解決了多項挑戰,包括決定何時回應、構建簡潔且能提升對話的回應、利用用戶知識進行情境感知輔助,以及實現實時、設備端處理。為此,我們構建了一個半合成對話數據集,並提出了一個雙模型管道:一個小型模型決定何時回應,而一個更大的模型生成回應。我們在真實世界數據集上評估了該方法,證明了其在提供有益且不顯眼輔助方面的有效性。在Apple Silicon M2硬件上實現的用戶研究顯示,相比無輔助基線和反應式模型,用戶對主動助手表現出強烈偏好,凸顯了LlamaPIE在增強實時對話方面的潛力。

H^{3}DP:面向视觉运动学习的三重层次扩散策略
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025
Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
52

視覺運動策略學習在機器人操作領域取得了顯著進展,近期方法主要依賴於生成模型來模擬動作分佈。然而,這些方法往往忽視了視覺感知與動作預測之間的重要耦合關係。在本研究中,我們提出了三重層次擴散策略(H^{\mathbf{3}DP}),這是一種新穎的視覺運動學習框架,它明確地引入了層次結構以加強視覺特徵與動作生成之間的整合。H^{3}DP包含三個層次:(1)基於深度信息的深度感知輸入分層,用於組織RGB-D觀測數據;(2)多尺度視覺表徵,編碼不同粒度層次的語義特徵;以及(3)層次條件化的擴散過程,使從粗到細的動作生成與相應的視覺特徵保持一致。大量實驗表明,H^{3}DP在44個模擬任務中相較於基準方法平均提升了27.5%的相對性能,並在4個具有挑戰性的雙手機器人實際操作任務中表現卓越。項目頁面:https://lyy-iiis.github.io/h3dp/。

溢出預防機制強化長上下文循環大語言模型
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025
Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
32

近期,大型语言模型(LLMs)领域的一个趋势是开发具有次二次复杂度的循环模型,以提高长上下文处理的效率。我们研究了领先的长上下文大模型,重点关注其固定大小的循环记忆如何影响其性能。我们的实验表明,即使这些模型在扩展上下文中进行了训练,它们对长上下文的使用仍然不足。具体而言,我们展示了一种基于分块的推理过程,该过程仅识别并处理输入中最相关的部分,能够缓解循环记忆失效问题,并在许多长上下文任务中表现出色:在LongBench基准测试中,我们的方法使Falcon3-Mamba-Inst-7B的整体性能提升了14%,Falcon-Mamba-Inst-7B提升了28%,RecurrentGemma-IT-9B提升了50%,RWKV6-Finch-7B提升了51%。令人惊讶的是,这种简单的方法在具有挑战性的LongBench v2基准测试中也取得了最先进的结果,显示出与同等规模Transformer模型相媲美的性能。此外,我们的发现引发了对循环模型是否真正利用了长距离依赖关系的质疑,因为我们的单分块策略在即使需要跨上下文关系的任务中也表现出了更强的性能。

文献归属:运用大型语言模型探究引用关系
Document Attribution: Examining Citation Relationships using Large Language Models

May 9, 2025
Vipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka
32

隨著大型語言模型(LLMs)越來越多地應用於基於文件的任務——如文件摘要、問答及資訊提取——其中用戶需求集中於從提供的文件中檢索資訊,而非依賴模型的參數知識,確保這些系統的可信度與可解釋性已成為一項關鍵議題。應對這一挑戰的核心方法是歸因,即追蹤生成輸出至其源文件。然而,鑑於LLMs可能產生不準確或不精確的回應,評估這些引用的可靠性至關重要。 為此,我們的工作提出了兩種技術:(1)一種零樣本方法,將歸因框架化為一項直接的文本蘊含任務。我們使用flan-ul2的方法在AttributionBench的ID和OOD集上分別比最佳基線提高了0.27%和2.4%。(2)我們還探討了注意力機制在增強歸因過程中的作用。使用較小的LLM,flan-t5-small,其F1分數在除第4層及第8至11層外的幾乎所有層面上均超越了基線。

物理辅助与拓扑信息深度融合的气象预测研究
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8, 2025
Jiaqi Zheng, Qing Ling, Yerong Feng
22

尽管深度学习模型在天气预报中展现了显著的潜力,但大多数模型要么忽视了基础天气演变的物理机制,要么忽略了地球表面的拓扑结构。针对这些不足,我们开发了PASSAT,一种新颖的物理辅助与拓扑信息融合的深度学习模型,专为天气预报设计。PASSAT将天气演变归因于两个关键因素:(i) 可通过平流方程和纳维-斯托克斯方程描述的平流过程;(ii) 难以建模和计算的地球-大气相互作用。此外,PASSAT不仅将地球表面视为平面,还深入考虑了其拓扑特性。基于这些考量,PASSAT在球面流形上数值求解平流方程和纳维-斯托克斯方程,利用球面图神经网络捕捉地球-大气相互作用,并从同一球面图神经网络生成对求解平流方程至关重要的初始速度场。在5.625度分辨率的ERA5数据集中,PASSAT不仅超越了当前最先进的基于深度学习的天气预报模型,还超越了业务数值天气预报模型IFS T42。代码及检查点可在https://github.com/Yumenomae/PASSAT_5p625获取。

多目標引導的離散流匹配用於可控生物序列設計
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025
Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
12

設計滿足多個且往往相互衝突的功能與生物物理標準的生物序列,仍然是生物分子工程中的核心挑戰。雖然離散流匹配模型最近在高維序列空間中的高效採樣方面顯示出潛力,但現有方法僅針對單一目標,或需要可能扭曲離散分佈的連續嵌入。我們提出了多目標引導的離散流匹配(MOG-DFM),這是一個通用框架,用於引導任何預訓練的離散時間流匹配生成器在多個標量目標之間實現帕累托有效的權衡。在每個採樣步驟中,MOG-DFM計算候選轉移的混合排名方向分數,並應用自適應超錐過濾器來確保一致的多目標進展。我們還訓練了兩個無條件的離散流匹配模型,PepDFM用於多樣化肽生成,EnhancerDFM用於功能性增強子DNA生成,作為MOG-DFM的基礎生成模型。我們展示了MOG-DFM在生成跨五種特性(溶血性、防污性、溶解性、半衰期和結合親和力)優化的肽結合劑,以及設計具有特定增強子類別和DNA形狀的DNA序列方面的有效性。總體而言,MOG-DFM被證明是一個強大的工具,用於多屬性引導的生物分子序列設計。

May 12
May 13
May 14