ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

Seed1.5-VL技术报告
Seed1.5-VL Technical Report

May 11, 2025
Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song
1464

我们推出Seed1.5-VL,这是一款旨在推动通用多模态理解与推理的视觉-语言基础模型。Seed1.5-VL由包含5.32亿参数的视觉编码器与一个拥有200亿活跃参数的专家混合(MoE)大语言模型构成。尽管其架构相对紧凑,该模型在广泛的公开视觉语言模型(VLM)基准测试及内部评估套件中均展现出强劲性能,在60项公开基准测试中的38项上达到了业界领先水平。特别是在以代理为中心的任务,如GUI控制与游戏玩法中,Seed1.5-VL超越了包括OpenAI CUA和Claude 3.7在内的顶尖多模态系统。除了视觉与视频理解外,它还展现出强大的推理能力,使其在视觉谜题等多模态推理挑战中尤为有效。我们相信这些能力将赋能更广泛的任务应用。本报告主要从模型设计、数据构建及不同阶段的训练等方面,全面回顾了我们构建Seed1.5-VL的经验,期望能激发进一步的研究。Seed1.5-VL现已可通过https://www.volcengine.com/(火山引擎模型ID:doubao-1-5-thinking-vision-pro-250428)访问。

MiMo:释放语言模型推理潜能——从预训练到后训练的全过程探索
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025
Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
806

我们推出MiMo-7B,这是一款专为推理任务打造的大型语言模型,在预训练和训练后阶段均进行了优化。在预训练过程中,我们改进了数据预处理流程,并采用三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base在25万亿个token上进行了预训练,并引入了多token预测目标,以提升性能并加快推理速度。在训练后阶段,我们精心构建了一个包含13万个可验证数学和编程问题的数据集,用于强化学习,整合了基于测试难度的代码奖励机制,以缓解稀疏奖励问题,并采用策略性数据重采样来稳定训练。广泛的评估表明,MiMo-7B-Base具备卓越的推理潜力,甚至超越了规模更大的32B模型。经过强化学习调优的最终模型MiMo-7B-RL,在数学、代码及通用推理任务上均表现出色,超越了OpenAI o1-mini的性能。模型检查点可在https://github.com/xiaomimimo/MiMo获取。

Step1X-3D:迈向高保真与可控的纹理化3D资产生成
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025
Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan
603

尽管生成式人工智能在文本、图像、音频和视频领域取得了显著进展,但三维生成技术由于数据稀缺、算法限制及生态系统碎片化等根本性挑战,相对发展滞后。为此,我们推出了Step1X-3D,一个旨在解决这些挑战的开放框架,其特点包括:(1) 严格的数据筛选流程,处理超过500万项资产,构建了一个包含200万高质量数据集的标准化几何与纹理属性;(2) 两阶段的三维原生架构,结合了混合VAE-DiT几何生成器与基于扩散的纹理合成模块;(3) 全面开源发布模型、训练代码及适配模块。在几何生成方面,混合VAE-DiT组件通过感知器基础的潜在编码及锐利边缘采样,生成TSDF表示,以保留细节。基于扩散的纹理合成模块则通过几何条件与潜在空间同步,确保跨视角一致性。基准测试结果显示,该框架性能超越现有开源方法,达到与专有解决方案相媲美的质量。尤为突出的是,Step1X-3D框架独特地连接了二维与三维生成范式,支持将二维控制技术(如LoRA)直接迁移至三维合成。通过同步提升数据质量、算法保真度及可复现性,Step1X-3D旨在为可控三维资产生成的开放研究设立新标准。

从同伴中学习的推理模型
Learning from Peers in Reasoning Models

May 12, 2025
Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang
454

大型推理模型(LRMs)具备自我纠错的能力,即便在推理路径中出现错误。然而,我们的研究表明,当推理过程始于一个简短但质量不佳的开端时,模型便难以恢复。我们将此现象称为“前缀主导陷阱”。受心理学发现启发,即同伴互动能在不影响已准确个体的前提下促进自我纠正,我们提出了**同伴学习**(LeaP)以应对这一现象。具体而言,每隔若干标记,每条推理路径会总结其中间推理,并通过路由机制与其他路径共享,使推理过程中能够融入同伴的见解。然而,我们注意到较小模型有时无法有效遵循总结与反思指令。为此,我们将其微调为**LeaP-T**模型系列。在AIME 2024、AIME 2025、AIMO 2025及GPQA Diamond上的实验表明,LeaP带来了显著提升。例如,搭载LeaP的QwQ-32B平均比基线高出近5个绝对百分点,并在三个数学基准上超越DeepSeek-R1-671B,平均增益达3.3分。值得注意的是,我们微调后的LeaP-T-7B在AIME 2024上的表现与DeepSeek-R1-Distill-Qwen-14B相当。深入分析揭示了LeaP通过及时获取同伴见解实现稳健的错误纠正,展现出强大的错误容忍度及应对不同任务难度的能力。LeaP标志着LRMs在推理过程中实现协作的里程碑。我们的代码、数据集及模型已发布于https://learning-from-peers.github.io/。

统一连续生成模型
Unified Continuous Generative Models

May 12, 2025
Peng Sun, Yi Jiang, Tao Lin
443

近期,连续生成模型领域取得了显著进展,其中包括多步方法(如扩散模型和流匹配,通常需要8至1000个采样步骤)以及少步方法(如一致性模型,通常仅需1至8步),这些方法展现了卓越的生成性能。然而,现有研究往往将这些方法视为独立范式,导致训练和采样方法各自为政。我们提出了一种统一的框架,用于训练、采样和分析这些模型。我们的实现——统一连续生成模型训练与采样器(UCGM-{T,S}),达到了业界领先(SOTA)的性能。例如,在ImageNet 256x256数据集上,使用675M参数的扩散变换器,UCGM-T训练的多步模型在20步内实现了1.30的FID分数,而少步模型仅需2步便达到了1.42的FID。此外,将UCGM-S应用于一个预训练模型(此前在250步时FID为1.26),仅用40步就将性能提升至1.06的FID。代码已发布于:https://github.com/LINs-lab/UCGM。

REFINE-AF:一种任务无关框架,通过自动反馈强化学习利用自生成指令对齐语言模型
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025
Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
306

基于指令的大型语言模型(LLMs)在众多少样本或零样本自然语言处理(NLP)任务中已展现出显著成效。然而,人工标注指令数据不仅耗时、成本高昂,且在数量和任务多样性上往往受限。先前的研究尝试通过提出能够直接从模型本身以半自动化、任务无关的方式生成指令的框架来应对这一挑战。这些努力大多依赖于如GPT-3.5(175B)这样的大型仅API参数模型,这些模型不仅昂贵,还受到查询次数限制。本文探讨了三种开源小型LLMs——LLaMA 2-7B、LLaMA 2-13B和Mistral 7B,在采用半自动化框架下的表现,从而减少了为微调LLMs生成指令数据集所需的人力干预、努力及成本。此外,我们展示了将基于强化学习(RL)的训练算法融入这一LLMs框架后,能带来进一步的性能提升。对数据集的评估表明,相较于以往方法,这些基于RL的框架在63%至66%的任务中实现了显著改进。

DanceGRPO:将GRPO技术应用于视觉生成领域
DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
293

近期,生成模型领域——尤其是扩散模型和修正流——取得了突破性进展,彻底革新了视觉内容创作,然而,如何使模型输出与人类偏好保持一致仍是一个关键挑战。现有的基于强化学习(RL)的视觉生成方法面临几大局限:与现代基于常微分方程(ODEs)的采样范式不兼容、大规模训练中的不稳定性,以及视频生成验证的缺失。本文提出了DanceGRPO,这是首个将群体相对策略优化(GRPO)适配到视觉生成范式的统一框架,实现了单一RL算法在两种生成范式(扩散模型与修正流)、三项任务(文本到图像、文本到视频、图像到视频)、四大基础模型(Stable Diffusion、HunyuanVideo、FLUX、SkyReel-I2V)及五种奖励模型(图像/视频美学、文本图像对齐、视频运动质量及二元奖励)间的无缝跨越。据我们所知,DanceGRPO是首个能够跨多种生成范式、任务、基础模型及奖励模型灵活适应的基于RL的统一框架。DanceGRPO展现了持续且显著的改进,在HPS-v2.1、CLIP Score、VideoAlign和GenEval等基准测试中,其表现超越基线高达181%。尤为突出的是,DanceGRPO不仅能够稳定复杂视频生成的策略优化,还能使生成策略更好地捕捉去噪轨迹以实现Best-of-N推理扩展,并从稀疏的二元反馈中学习。我们的成果确立了DanceGRPO作为视觉生成中扩展基于人类反馈的强化学习(RLHF)任务的强大多功能解决方案,为融合强化学习与视觉合成提供了新见解。代码即将发布。

Skywork-VL奖励模型:面向多模态理解与推理的高效奖励机制
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025
Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
293

我们提出了Skywork-VL Reward,一种多模态奖励模型,为多模态理解和推理任务提供奖励信号。我们的技术方法包含两个关键组成部分:首先,我们构建了一个大规模的多模态偏好数据集,涵盖了广泛的任务和场景,其中响应来自标准视觉语言模型(VLMs)和先进的VLM推理器。其次,我们基于Qwen2.5-VL-7B-Instruct设计了一个奖励模型架构,集成了奖励头,并在成对偏好数据上应用多阶段微调,使用成对排序损失。实验评估表明,Skywork-VL Reward在多模态VL-RewardBench上取得了最先进的结果,并在纯文本的RewardBench基准上表现出竞争力。此外,基于我们的Skywork-VL Reward构建的偏好数据在训练混合偏好优化(MPO)方面非常有效,显著提升了多模态推理能力。我们的结果强调了Skywork-VL Reward作为通用、可靠的多模态对齐奖励模型的重大进展。我们的模型已公开发布,以促进透明度和可重复性。

注意力影响:采用注意力头影响力进行弱到强预训练数据选择
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12, 2025
Kai Hua, Steven Wu, Ge Zhang, Ke Shen
262

近期,收集富含推理信息的预训练数据以提升大语言模型(LLMs)的复杂推理能力引起了广泛关注。以往的方法通常依赖于有监督的分类器来识别此类数据,这需要人工或LLMs进行标注,往往引入领域特定的偏差。鉴于注意力头在上下文推理中的关键作用,我们提出了AttentionInfluence,一种无需监督信号、简单而有效的免训练方法。该方法通过简单的注意力头掩码操作,使小型预训练语言模型能够作为强大的数据选择器。具体而言,我们识别检索头并计算掩码这些头时的损失差异。我们将AttentionInfluence应用于一个拥有13亿参数的密集模型,在包含2410亿个token的SmolLM语料库上进行数据选择,并将SmolLM语料库与包含730亿个token的选定子集混合,使用1万亿训练token和WSD学习率调度预训练一个拥有70亿参数的密集模型。实验结果显示,在多个知识密集型和推理密集型基准测试(如MMLU、MMLU-Pro、AGIEval-en、GSM8K和HumanEval)上,性能提升显著,范围从1.4个百分点到3.5个百分点。这展示了有效的弱到强扩展特性,即小模型能够提升大模型的最终性能,为以推理为中心的数据选择提供了一条有前景且可扩展的路径。

大规模语言模型持续预训练中的学习动态
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12, 2025
Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng
194

持续预训练(Continual Pre-Training, CPT)已成为将强大基础模型应用于特定下游任务的一种流行且有效的方法。在本研究中,我们深入探讨了大型语言模型在CPT过程中的学习动态,特别关注了通用性能与下游领域性能在每一步训练中的演变情况,其中领域性能通过验证损失来衡量。我们观察到,CPT损失曲线本质上刻画了从一条曲线向另一条隐藏曲线过渡的过程,并可通过解耦分布偏移和学习率退火的影响来描述这一过程。我们推导出了一个结合这两个因素的CPT缩放定律,使得能够在任何(持续)训练步骤及不同学习率调度(LRS)下预测损失。我们的公式全面揭示了CPT中的几个关键因素,包括损失潜力、峰值学习率、训练步数、回放比例等。此外,我们的方法还能适应不同CPT目标定制训练超参数,如平衡通用性能与领域特定性能。大量实验证明,我们的缩放定律在多种CPT数据集和训练超参数下均成立。

WebGen-Bench:评估大语言模型从零生成交互式功能性网站的能力
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6, 2025
Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li
162

基于大语言模型(LLM)的代理在生成和管理复杂代码库方面展现出巨大潜力。本文介绍了一种新颖的基准测试——WebGen-Bench,旨在评估基于LLM的代理从零开始创建多文件网站代码库的能力。该基准包含多样化的网站生成指令,这些指令由人类标注员与GPT-4o共同协作创建,涵盖三大类别和十三个子类别,几乎囊括了所有重要的Web应用类型。为了评估生成网站的质量,我们利用GPT-4o为指令中描述的每个功能生成测试用例,随后手动筛选、调整和组织,确保其准确性,最终得到647个测试用例。每个测试用例都规定了在网站上执行的操作以及操作后的预期结果。为了实现测试自动化并提高可重复性,我们采用了一个强大的网页导航代理来执行测试,并判断观察到的响应是否与预期结果一致。我们评估了三种高性能代码代理框架——Bolt.diy、OpenHands和Aider,使用多种专有和开源LLM作为引擎。表现最佳的组合是由DeepSeek-R1驱动的Bolt.diy,在测试用例上的准确率仅为27.8%,凸显了我们基准的挑战性。此外,我们构建了WebGen-Instruct,这是一个包含6,667条网站生成指令的训练集。在Bolt.diy轨迹上训练Qwen2.5-Coder-32B-Instruct,使用该训练集的一个子集,达到了38.2%的准确率,超越了最佳专有模型的表现。

INTELLECT-2:通过全球分布式强化学习训练而成的推理模型
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025
Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
132

我们推出了INTELLECT-2,这是首个在全球范围内分布式进行的320亿参数语言模型强化学习(RL)训练项目。与传统的集中式训练不同,INTELLECT-2通过完全异步的强化学习,在一个动态、异构且无需许可的计算贡献者群体中训练推理模型。 为了支持这一独特基础设施下的训练运行,我们从零构建了多个组件:我们引入了PRIME-RL,这是一个专为分布式异步强化学习设计的训练框架,其基础包括诸如TOPLOC这样的新组件,用于验证来自不可信推理工作者的rollout数据,以及SHARDCAST,它高效地将策略权重从训练节点广播到推理工作者。 除了基础设施组件外,我们还对标准的GRPO训练配方和数据过滤技术提出了改进,这些改进对于实现训练稳定性、确保模型成功学习其训练目标至关重要,从而在320亿参数范围内超越了当前最先进的推理模型QwQ-32B。 我们将INTELLECT-2及其所有代码和数据开源,希望以此鼓励并推动去中心化训练领域内更多的开放研究。

通过分数最大化实现连续视觉自回归生成
Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025
Chenze Shao, Fandong Meng, Jie Zhou
122

传统观点认为,自回归模型主要用于处理离散数据。当应用于视觉数据等连续模态时,视觉自回归建模(VAR)通常采用基于量化的方法将数据转换到离散空间,这可能导致显著的信息损失。为解决这一问题,我们提出了一种连续VAR框架,该框架能够实现无需向量量化的直接视觉自回归生成。其理论基础是严格适当评分规则,这些规则提供了强大的统计工具,能够评估生成模型对真实分布的逼近程度。在此框架下,我们只需选择一个严格适当评分并将其设为训练目标进行优化。我们主要探索了一类基于能量分数的训练目标,该目标无需似然计算,从而克服了在连续空间中进行概率预测的难题。先前关于连续自回归生成的研究,如GIVT和扩散损失,也可以通过使用其他严格适当评分从我们的框架中推导出来。源代码:https://github.com/shaochenze/EAR。

MonetGPT:解谜提升多模态大语言模型的图像修复能力
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025
Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
112

修图是原始照片后期处理中的一项关键任务。基于文本或笔触引导的生成式编辑为用户提供了新的工具,但容易以不可接受且难以预测的方式改变原始对象的身份。相比之下,尽管传统程序化编辑(如Gimp、Lightroom等照片编辑工具所普遍支持的)较为保守,却仍受专业人士青睐。遗憾的是,专业级修图涉及众多独立的程序化编辑操作,这对大多数新手而言规划起来颇具挑战。本文探讨了是否可以通过教导多模态大语言模型(MLLM)来批判性地审视原始照片、提出合适的修正建议,并最终利用一组预设的程序化图像操作实现这些修正。我们展示了MLLM首先可以通过训练解决特别设计的视觉谜题,从而理解底层的图像处理操作。随后,这种具备操作意识的MLLM能够规划并提出编辑序列。为促进训练,给定一组专家编辑的照片,我们通过程序化操控专家编辑并基于视觉调整对预训练的大语言模型进行接地,合成推理数据集以用于微调。所提出的修图操作设计上易于用户理解,保留了对象细节和分辨率,并可选择性地被覆盖。我们在多种测试案例上评估了该设置,并展示了其在可解释性和身份保持方面相较于现有生成式及其他程序化替代方案的优势。代码、数据、模型及补充结果可通过我们的项目网站https://monetgpt.github.io获取。

强化内外知识协同推理的高效自适应搜索代理
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12, 2025
Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu
102

检索增强生成(RAG)是减少大型语言模型(LLMs)幻觉的常见策略。尽管强化学习(RL)能够通过激活检索能力使LLMs充当搜索代理,但现有方法往往未能充分利用其内部知识。这可能导致冗余检索、潜在的有害知识冲突以及推理延迟增加。为解决这些局限,亟需一种高效且自适应的搜索代理,能够辨别最佳检索时机,并协同整合参数化(内部)与检索(外部)知识。本文介绍了强化内部-外部知识协同推理代理(IKEA),它能够识别自身知识边界,优先利用内部知识,仅在内部知识不足时求助于外部搜索。这一目标通过一种新颖的知识边界感知奖励函数和知识边界感知训练数据集实现,它们专为面向内部-外部知识协同的RL设计,激励模型提供准确答案、最小化不必要的检索,并在自身知识欠缺时鼓励适当的外部搜索。在多项知识推理任务上的评估表明,IKEA显著优于基线方法,大幅降低了检索频率,并展现出强大的泛化能力。

立场:AI竞赛为生成式AI评估提供了实证严谨性的黄金标准
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1, 2025
D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating
92

在本立场文件中,我们观察到生成式人工智能(Generative AI)的实证评估正处于一个危机点,因为传统的机器学习评估与基准测试策略已不足以满足评估现代生成式AI模型及系统的需求。这一现象背后有多重原因,包括这些模型通常具有近乎无限的输入输出空间、往往缺乏明确定义的真实目标,以及常常展现出基于先前模型输出情境的强烈反馈循环与预测依赖性。在这些关键问题之上,我们认为,对于生成式AI评估而言,**泄露**与**污染**问题实际上是最重要且最难解决的挑战。有趣的是,人工智能竞赛领域已发展出有效的措施与实践,旨在竞赛环境中对抗不良行为者的作弊行为,从而有效应对泄露问题。这使得人工智能竞赛成为一项特别宝贵(但尚未充分利用)的资源。当前,正是时候将人工智能竞赛视为生成式AI评估中实证严谨性的黄金标准,并据此价值来利用和汲取其成果。

UMoE:通过共享专家统一注意力与前馈网络
UMoE: Unifying Attention and FFN with Shared Experts

May 12, 2025
Yuanhang Yang, Chaozheng Wang, Jing Li
82

稀疏专家混合(MoE)架构已成为扩展Transformer模型的一种有前景的方法。尽管初期工作主要将MoE融入前馈网络(FFN)层,但近期研究探索了将MoE范式扩展至注意力层以提升模型性能。然而,现有的基于注意力的MoE层需要专门的实现,并且与基于FFN的对应层相比,表现出次优的性能。本文旨在通过引入一种新颖的注意力机制重构,揭示注意力模块中潜在的类似FFN的结构,从而统一注意力层和FFN层中的MoE设计。我们提出的架构UMoE,在实现基于注意力的MoE层的同时,通过FFN与注意力组件间的高效参数共享,达到了卓越的性能。

DynamicRAG:利用大型语言模型输出作为反馈,实现检索增强生成中的动态重排序
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12, 2025
Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han
83

检索增强生成(RAG)系统将大型语言模型(LLMs)与外部知识检索相结合,使其在知识密集型任务中表现出色。这些系统中一个关键但常被忽视的组件是重排序器,它通过优化检索到的文档来提升生成质量和可解释性。然而,如何选择最优的文档数量(k)仍是一个未解难题:过少可能遗漏关键信息,过多则引入噪声和低效。尽管近期研究探索了基于LLM的重排序器,但它们主要依赖模型内部知识,忽视了LLM可提供的丰富监督信号,例如利用响应质量作为优化重排序决策的反馈。本文提出DynamicRAG,一种新颖的RAG框架,其中重排序器根据查询动态调整检索文档的顺序和数量。我们将重排序器建模为通过强化学习(RL)优化的智能体,利用LLM输出质量作为奖励信号。在七个知识密集型数据集上的实验表明,DynamicRAG展现出卓越性能,达到了最先进水平。模型、数据和代码已公开于https://github.com/GasolSun36/DynamicRAG。

LLAMAPIE:主动式入耳对话助手
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7, 2025
Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota
62

我们推出LlamaPIE,这是首个旨在通过可听设备提供低调、简洁指导来增强人类对话的实时主动助手。与需要用户明确调用的传统语言模型不同,该助手在后台运行,预测用户需求而不打断对话。我们解决了多项挑战,包括确定何时响应、制作简洁对话增强的回复、利用用户知识实现情境感知辅助,以及实时设备端处理。为此,我们构建了一个半合成对话数据集,并提出了一种双模型流水线:一个小型模型决定何时响应,一个大型模型生成回复。我们在真实世界数据集上评估了该方法,证明了其在提供有益且不引人注目的辅助方面的有效性。在Apple Silicon M2硬件上实现的用户研究表明,相较于无辅助基线和反应式模型,用户显著偏好主动助手,凸显了LlamaPIE在提升实时对话体验方面的潜力。

H^{3}DP:视觉运动学习中的三重层次扩散策略
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025
Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
52

视觉运动策略学习在机器人操控领域取得了显著进展,近期方法主要依赖生成模型来建模动作分布。然而,这些方法往往忽视了视觉感知与动作预测之间的关键耦合关系。在本研究中,我们提出了三重层次扩散策略(H^{\mathbf{3}DP}),这是一种新颖的视觉运动学习框架,它通过显式引入层次结构来强化视觉特征与动作生成之间的整合。H^{3}DP包含三个层次的架构:(1)基于深度信息组织RGB-D观测的深度感知输入分层;(2)在不同粒度级别编码语义特征的多尺度视觉表示;以及(3)与相应视觉特征对齐的从粗到细动作生成的层次条件扩散过程。大量实验表明,H^{3}DP在44个模拟任务中相比基线平均提升了+27.5%,并在4项具有挑战性的双手现实世界操控任务中展现了卓越性能。项目页面:https://lyy-iiis.github.io/h3dp/。

溢出预防机制提升长上下文循环大语言模型性能
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025
Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
32

近期,大型语言模型(LLMs)的一个发展趋势是开发具有次二次复杂度的循环模型,以提升长上下文处理的效率。我们深入研究了当前领先的长上下文大模型,重点关注其固定大小的循环记忆如何影响性能。实验表明,即便这些模型在扩展上下文环境中进行了训练,它们对长上下文的使用仍显不足。具体而言,我们展示了一种基于分块的推理方法,该方法通过识别并仅处理输入中最相关的部分,能够有效缓解循环记忆失效问题,并在众多长上下文任务中表现出色:在LongBench基准测试中,我们的方法使Falcon3-Mamba-Inst-7B的整体性能提升了14%,Falcon-Mamba-Inst-7B提升了28%,RecurrentGemma-IT-9B提升了50%,RWKV6-Finch-7B提升了51%。令人惊讶的是,这一简单策略在极具挑战性的LongBench v2基准测试中也取得了顶尖成绩,与同等规模的Transformer模型相比展现了竞争力。此外,我们的发现引发了对循环模型是否真正利用了长距离依赖关系的质疑,因为我们的单分块策略即便在那些理论上需要跨上下文关系的任务中,也展现出了更强的性能。

文档溯源:基于大型语言模型的引用关系研究
Document Attribution: Examining Citation Relationships using Large Language Models

May 9, 2025
Vipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka
32

随着大型语言模型(LLMs)越来越多地应用于文档相关任务——如文档摘要、问答和信息抽取——在这些任务中,用户需求侧重于从提供的文档中检索信息,而非依赖模型的参数化知识,确保这些系统的可信度和可解释性已成为一个关键问题。应对这一挑战的核心方法是归因,即追踪生成输出至其源文档。然而,鉴于LLMs可能产生不准确或不精确的响应,评估这些引用的可靠性至关重要。 为此,我们的研究提出了两种技术。(1) 一种零样本方法,将归因问题简化为直接的文本蕴含任务。我们采用flan-ul2模型的方法,在AttributionBench的ID和OOD数据集上分别比最佳基线提高了0.27%和2.4%。(2) 我们还探讨了注意力机制在增强归因过程中的作用。使用较小的LLM——flan-t5-small,其F1分数在除第4层及第8至11层外的几乎所有层上均超越了基线表现。

物理辅助与拓扑信息深度融合的天气预测方法
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8, 2025
Jiaqi Zheng, Qing Ling, Yerong Feng
22

尽管深度学习模型在天气预报中展现出显著潜力,但大多数模型要么忽视了天气演变背后的物理机制,要么忽略了地球表面的拓扑结构。针对这些不足,我们开发了PASSAT,一种新颖的物理辅助与拓扑信息融合的深度学习模型,专为天气预报设计。PASSAT将天气演变归因于两个关键因素:(i) 可由平流方程和纳维-斯托克斯方程描述的平流过程;(ii) 难以建模和计算的地球-大气相互作用。此外,PASSAT不仅将地球表面视为平面,还充分考虑了其拓扑结构。基于这些考量,PASSAT在球面流形上数值求解平流方程和纳维-斯托克斯方程,利用球面图神经网络捕捉地球-大气相互作用,并由此生成对求解平流方程至关重要的初始速度场。在5.625度分辨率的ERA5数据集上,PASSAT不仅超越了当前最先进的深度学习天气预报模型,还超越了业务数值天气预报模型IFS T42。代码及模型检查点可在https://github.com/Yumenomae/PASSAT_5p625获取。

多目标引导的离散流匹配用于可控生物序列设计
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025
Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
12

设计满足多种、往往相互冲突的功能与生物物理标准的生物序列,仍然是生物分子工程中的核心挑战。尽管离散流匹配模型近期在高维序列空间的高效采样方面展现出潜力,但现有方法仅针对单一目标,或需要依赖可能扭曲离散分布的连续嵌入。我们提出了多目标引导的离散流匹配(MOG-DFM),这是一个通用框架,旨在引导任何预训练的离散时间流匹配生成器,实现跨多个标量目标的帕累托有效权衡。在每一步采样中,MOG-DFM计算候选转移的混合排名-方向得分,并应用自适应超锥过滤器以确保多目标进展的一致性。我们还训练了两个无条件离散流匹配模型——用于多样化肽生成的PepDFM和用于功能性增强子DNA生成的EnhancerDFM,作为MOG-DFM的基础生成模型。我们展示了MOG-DFM在生成跨五个属性(溶血性、抗污性、溶解性、半衰期和结合亲和力)优化的肽结合剂,以及设计具有特定增强子类别和DNA形状的DNA序列方面的有效性。总体而言,MOG-DFM被证明是多属性引导生物分子序列设计的有力工具。

5月12日
5月13日
5月14日