ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

1

稀疏自编码器在人工文本检测中的特征级洞察
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Mar 5
ByKristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
232
2

随着大型语言模型(LLMs)的快速发展,人工文本检测(ATD)的重要性日益凸显。尽管已有诸多尝试,但尚无单一算法能在面对不同类型未见文本时表现始终优异,或确保对新LLMs的有效泛化。在这一过程中,可解释性扮演着关键角色。本研究中,我们通过使用稀疏自编码器(SAE)从Gemma-2-2b的残差流中提取特征,增强了ATD的可解释性。我们识别出既具可解释性又高效的特征,并通过领域及模型特定的统计、一种导向方法以及人工或基于LLM的解释,深入分析了这些特征的语义及其相关性。我们的方法为理解不同模型生成的文本与人类书写内容之间的差异提供了宝贵洞见。研究表明,即便现代LLMs能够通过个性化提示生成类人输出,它们仍具有独特的写作风格,尤其是在信息密集的领域中。

2

SEAP:无需训练的稀疏专家激活剪枝——释放大语言模型的智慧潜能
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Mar 10
ByXun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li
68
1

大型语言模型在各类自然语言处理任务中取得了显著成功,但其推理阶段的高计算成本仍是主要瓶颈。本文提出了一种无需训练的剪枝方法——稀疏专家激活剪枝(SEAP),该方法通过选择性保留任务相关参数来降低推理开销。受大型语言模型中隐藏状态和激活聚类模式的启发,SEAP识别出任务特定的专家激活模式,并在保持任务性能的同时剪枝模型,从而提升计算效率。实验结果表明,SEAP在显著减少计算开销的同时,保持了竞争力的准确率。值得注意的是,在50%的剪枝率下,SEAP相比WandA和FLAP提升了超过20%;而在20%的剪枝率下,与密集模型相比仅带来2.2%的性能下降。这些发现凸显了SEAP的可扩展性和有效性,使其成为优化大规模语言模型的一种有前景的方法。

3

MM-Eureka:基于规则的大规模强化学习探索视觉顿悟时刻
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Mar 10
ByFanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
61
2

我们推出MM-Eureka,一种多模态推理模型,成功将大规模基于规则的强化学习(RL)扩展至多模态推理领域。尽管基于规则的RL在提升大语言模型(LLMs)于文本领域的推理能力方面已展现出显著成效,但其在多模态环境中的应用一直面临挑战。我们的工作在多模态空间中复现了如DeepSeek-R1等文本RL系统的关键特征,包括准确度奖励与响应长度的稳步提升,以及反思行为的涌现。我们证明,无论是经过指令调优还是预训练的模型,均能通过基于规则的RL发展出强大的多模态推理能力,无需监督微调,且相较于其他方法展现出更优的数据效率。为促进该领域的进一步研究,我们开源了完整的流程,包括所有代码、模型、数据等,发布在https://github.com/ModalMinds/MM-EUREKA。

4

VACE:一体化视频创作与编辑平台
VACE: All-in-One Video Creation and Editing

Mar 10
ByZeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
57
8

扩散变换器在生成高质量图像和视频方面展现了强大的能力和可扩展性。进一步追求生成与编辑任务的统一,已在图像内容创作领域取得了显著进展。然而,由于在时间和空间动态上对一致性的内在要求,实现视频合成的统一方法仍具挑战性。我们提出了VACE,它使用户能够在一个集创建与编辑于一体的框架内执行视频任务。这些任务包括参考视频生成、视频到视频编辑以及掩码视频到视频编辑。具体而言,我们通过将视频任务输入(如编辑、参考和掩码)组织成一个统一的界面——视频条件单元(VCU),有效整合了各类任务的需求。此外,通过采用上下文适配器结构,我们利用时间和空间维度的形式化表示,将不同任务概念注入模型,使其能够灵活处理任意视频合成任务。大量实验表明,VACE的统一模型在各种子任务上均达到了与专用模型相当的性能,同时通过多样化的任务组合实现了广泛的应用。项目页面:https://ali-vilab.github.io/VACE-Page/。

5

基于多智能体思维链规划的自动化电影生成
Automated Movie Generation via Multi-Agent CoT Planning

Mar 10
ByWeijia Wu, Zeyu Zhu, Mike Zheng Shou
44
2

现有的长视频生成框架缺乏自动化规划,需要人工输入剧情、场景、摄影和角色互动,导致成本高昂且效率低下。为解决这些问题,我们提出了MovieAgent,一种通过多代理链式思维(CoT)规划实现自动化电影生成的方法。MovieAgent具备两大优势:1)我们首次探索并定义了自动化电影/长视频生成的范式。给定剧本和角色库,MovieAgent能够生成多场景、多镜头的长视频,确保叙事连贯、角色一致、字幕同步以及音频稳定。2)MovieAgent引入了基于层次化CoT的推理过程,自动构建场景、相机设置和摄影技术,显著减少了人力投入。通过部署多个大语言模型(LLM)代理模拟导演、编剧、分镜师和场地管理员的角色,MovieAgent优化了制作流程。实验表明,MovieAgent在剧本忠实度、角色一致性和叙事连贯性方面达到了新的最先进水平。我们的层次化框架向前迈进了一步,为全自动化电影生成提供了新的见解。代码和项目网站可在以下地址获取:https://github.com/showlab/MovieAgent 和 https://weijiawu.github.io/MovieAgent。

6

笔记助力专注?迈向多轮多模态对话学习
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

Mar 10
ByJiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
39
2

多模态大语言模型(MLLMs)基于大规模预训练的视觉塔和语言模型构建,已在多模态理解方面展现出卓越能力。然而,现有大多数MLLMs仅在单轮视觉问答任务上进行训练,未能准确反映现实世界中的人类对话。本文中,我们引入了MMDiag,一个多轮多模态对话数据集。该数据集通过精心设计的规则与GPT辅助协作生成,其特点在于问题之间、问题与图像之间以及不同图像区域之间具有强相关性,从而更贴近现实场景。MMDiag为多轮多模态对话学习提供了强有力的基准,并对MLLMs的定位与推理能力提出了更多挑战。此外,受人类视觉处理机制启发,我们提出了DiagNote,一款具备多模态定位与推理能力的MLLM。DiagNote由两个相互作用的模块(Deliberate和Gaze)组成,在多轮对话中分别执行思维链与标注任务。我们通过实证研究展示了DiagNote在定位及视觉与语言信息联合处理与推理方面相较于现有MLLMs的优势。

7

FedRand:通过随机化LoRA子参数更新增强联邦学习的隐私保护
FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates

Mar 10
BySangwoo Park, Seanie Lee, Byungjoo Kim, Sung Ju Hwang
32
1

联邦学习(Federated Learning, FL)是一种广泛应用于去中心化模型训练的框架,确保中央服务器无法直接访问本地客户端的数据。然而,这种方法可能仍无法完全保障数据隐私,因为在聚合过程中,本地客户端的模型会暴露给中央服务器。这一问题在利用联邦学习训练视觉-语言模型(Vision-Language Models, VLMs)时尤为突出,因为VLMs容易记住训练数据实例,使其易受成员推理攻击(Membership Inference Attacks, MIAs)的影响。为应对这一挑战,我们提出了FedRand框架,该框架避免了披露完整的客户端参数集。在此框架中,每个客户端从服务器随机选择低秩适应(Low-Rank Adaptation, LoRA)的子参数,并将LoRA权重的其余部分保留为私有参数。在客户端私有数据集上训练这两类参数后,仅将非私有的客户端参数发送回服务器进行聚合。这一方法降低了客户端VLM参数暴露的风险,从而增强了数据隐私性。我们通过实验验证,与相关基线相比,FedRand在多个基准数据集上提高了对MIAs的鲁棒性,同时实现了与传输完整LoRA参数方法相当的准确性。

8

DistiLLM-2:对比学习法提升大语言模型蒸馏效率
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

Mar 10
ByJongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
31
3

尽管蒸馏技术在大语言模型(LLMs)中取得了成功,但大多数先前的研究对教师模型和学生模型生成的数据采用了相同的损失函数。这些策略忽视了损失函数与数据类型之间的协同作用,导致学生模型的性能提升不够理想。为解决这一问题,我们提出了DistiLLM-2,一种对比方法,通过利用这种协同作用,同时增加教师模型响应的可能性并降低学生模型响应的可能性。我们的大量实验表明,DistiLLM-2不仅在指令跟随和代码生成等广泛任务中构建了高性能的学生模型,还支持偏好对齐和视觉语言扩展等多样化应用。这些发现凸显了对比方法在通过有效对齐教师和学生模型于不同数据类型上,提升LLM蒸馏效能的潜力。

9

Vision-R1:激励多模态大语言模型中的推理能力
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Mar 9
ByWenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
31
2

DeepSeek-R1-Zero 成功展示了仅通过强化学习(RL)在大型语言模型(LLMs)中推理能力的涌现。受此突破启发,我们探索了如何利用 RL 来增强多模态大语言模型(MLLMs)的推理能力。然而,由于缺乏大量高质量的多模态推理数据,直接使用 RL 训练难以激活 MLLMs 中的复杂推理能力,如提问和反思。为解决这一问题,我们提出了推理型 MLLM——Vision-R1,以提升多模态推理能力。具体而言,我们首先通过利用现有 MLLM 和 DeepSeek-R1,借助模态桥接和数据过滤,构建了一个无需人工标注的高质量多模态思维链(CoT)数据集,即 Vision-R1-cold 数据集,包含 20 万条多模态 CoT 数据,作为 Vision-R1 的冷启动初始化数据。为缓解冷启动后因过度思考带来的优化难题,我们提出了渐进式思维抑制训练(PTST)策略,并采用组相对策略优化(GRPO)结合硬格式化结果奖励函数,逐步在 1 万条多模态数学数据集上精炼模型学习正确且复杂推理过程的能力。综合实验表明,我们的模型在多个多模态数学推理基准上平均提升了约 6%。Vision-R1-7B 在广泛使用的 MathVista 基准上达到了 73.5% 的准确率,仅比领先的推理模型 OpenAI O1 低 0.4%。数据集和代码将发布于:https://github.com/Osilly/Vision-R1。

10

EasyControl:为扩散Transformer增添高效灵活的控制机制
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

Mar 10
ByYuxuan Zhang, Yirui Yuan, Yiren Song, Haofan Wang, Jiaming Liu
29
2

近期,基于Unet的扩散模型如ControlNet和IP-Adapter在空间与主体控制机制上取得了显著进展。然而,DiT(扩散变换器)架构在实现高效灵活控制方面仍面临挑战。为解决这一问题,我们提出了EasyControl,一个旨在统一条件引导扩散变换器的新框架,兼具高效性与灵活性。该框架建立在三大创新之上。首先,我们引入了轻量级的条件注入LoRA模块。该模块独立处理条件信号,作为即插即用的解决方案,无需修改基础模型权重,确保了与定制模型的兼容性,并支持灵活注入多种条件。值得注意的是,即便仅使用单条件数据进行训练,该模块也能实现和谐且鲁棒的零样本多条件泛化。其次,我们提出了位置感知训练范式。该方法将输入条件标准化至固定分辨率,从而支持生成任意宽高比和灵活分辨率的图像,同时优化了计算效率,使框架更适用于实际应用。第三,我们开发了结合KV缓存技术的因果注意力机制,专为条件生成任务设计。这一创新显著降低了图像合成的延迟,提升了框架的整体效率。通过大量实验,我们证明EasyControl在多种应用场景中均表现出色。这些创新共同使我们的框架高效、灵活,适用于广泛的任务领域。

11

超越RAG:面向全面知识推理的任务感知KV缓存压缩
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning

Mar 6
ByGiulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti
26
7

将外部知识融入大型语言模型(LLMs)可显著提升其在多样化应用中的实用性,但现有方法均存在权衡。检索增强生成(RAG)通过相似性搜索获取证据,但关键信息可能不在排名靠前的结果中。长上下文模型虽能处理多份文档,却因计算成本高且受限于上下文窗口大小而受限。受学生为开卷考试浓缩学习资料的启发,我们提出了任务感知的键值(KV)缓存压缩技术,该技术能在零样本或少样本设置下压缩外部知识,使LLMs能够高效地在所有相关信息压缩后的表示上进行推理。实验表明,我们的方法在性能上超越了RAG及任务无关的压缩方法。在LongBench v2上,相较于RAG,该方法在30倍压缩率下将准确率提升了最多7个百分点,同时将推理延迟从0.43秒降至0.16秒。一个合成数据集进一步揭示,当稀疏证据足够时,RAG表现良好;而对于广泛知识任务,任务感知压缩则更为优越。

12

AlphaDrive:通过强化学习与推理释放视觉语言模型在自动驾驶中的潜能
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Mar 10
ByBo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
23
1

OpenAI o1与DeepSeek R1在数学和科学等复杂领域达到甚至超越了人类专家水平,其中强化学习(RL)与推理起到了关键作用。在自动驾驶领域,近期的端到端模型虽大幅提升了规划性能,但由于常识与推理能力的局限,仍难以应对长尾问题。部分研究尝试将视觉语言模型(VLMs)融入自动驾驶,但通常仅依赖预训练模型,并在驾驶数据上进行简单的监督微调(SFT),未深入探索针对规划的训练策略或优化方法。本文提出AlphaDrive,一个专为自动驾驶设计的VLMs强化学习与推理框架。AlphaDrive引入了四种基于GRPO的强化学习奖励机制,专门针对规划任务,并采用结合SFT与RL的两阶段规划推理训练策略。结果表明,相较于仅使用SFT或未引入推理的方法,AlphaDrive显著提升了规划性能与训练效率。此外,我们欣喜地发现,经过RL训练后,AlphaDrive展现出一定的多模态规划能力,这对提升驾驶安全与效率至关重要。据我们所知,AlphaDrive是首个将基于GRPO的强化学习与规划推理整合应用于自动驾驶的研究。代码将公开发布,以促进未来研究。

13

写作基准:生成式写作的综合评测体系
WritingBench: A Comprehensive Benchmark for Generative Writing

Mar 7
ByYuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
20
2

近期,大型语言模型(LLMs)的显著进展极大地提升了文本生成能力,然而,评估其在生成性写作中的表现仍面临挑战。现有基准主要集中于通用文本生成或有限的写作任务,未能全面反映跨领域高质量写作内容的多样化需求。为填补这一空白,我们推出了WritingBench,一个旨在评估LLMs在6大核心写作领域及100个子领域表现的综合性基准,涵盖创意、说服、信息传递及技术写作。我们进一步提出了一种查询依赖的评估框架,使LLMs能够动态生成针对具体实例的评估标准。该框架辅以一个微调的批评模型,用于基于标准的评分,支持在风格、格式和长度等多维度进行评价。通过其数据整理能力,该框架的有效性得到了进一步验证,使得7B参数模型能够逼近当前最先进(SOTA)性能。我们开源了此基准,连同评估工具及模块化框架组件,以推动LLMs在写作领域的发展。

14

FEA-Bench:面向功能实现代码生成的仓库级评估基准
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

Mar 9
ByWei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
20
7

在代码库层面实现新功能是代码生成模型的关键应用场景。然而,现有基准测试缺乏针对这一能力的专门评估框架。为填补这一空白,我们推出了FEA-Bench,这是一个旨在评估大型语言模型(LLMs)在代码库中进行增量开发能力的基准测试。我们从83个GitHub代码库中收集了拉取请求,并采用基于规则和意图的过滤方法,构建了专注于新功能开发的任务实例。每个包含代码变更的任务实例都配有相关的单元测试文件,以确保解决方案的可验证性。该功能实现要求LLMs同时具备新组件的代码补全能力以及对代码库中其他相关部分的代码编辑能力,从而为LLMs的自动化软件工程能力提供了更全面的评估方法。实验结果表明,LLMs在FEA-Bench上的表现显著较差,凸显了此类代码库层面增量代码开发的巨大挑战。

15

智能体模型:将行动链生成内化至推理模型
Agent models: Internalizing Chain-of-Action Generation into Reasoning models

Mar 9
ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
19
3

传统的智能体工作流程依赖于外部提示来管理与工具和环境的交互,这限制了推理模型的自主性。我们提出大型智能体模型(LAMs),其内化生成动作链(CoA),使模型能够自主决定何时以及如何使用外部工具。我们提出的AutoCoA框架结合了监督微调(SFT)和强化学习(RL),使模型能够在推理与行动之间无缝切换,同时高效管理环境交互。主要组件包括步骤级动作触发、轨迹级CoA优化以及一个内部世界模型,以降低实际环境交互成本。在开放域问答任务上的评估表明,经过AutoCoA训练的智能体模型在任务完成度上显著优于基于ReAct的工作流程,尤其是在需要长期推理和多步动作的任务中。代码和数据集可在https://github.com/ADaM-BJTU/AutoCoA获取。

16

SurveyForge:基于大纲启发式、记忆驱动生成与多维度评估的自动化问卷撰写系统
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

Mar 6
ByXiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
18
2

综述论文在科学研究中扮演着至关重要的角色,尤其是在研究出版物迅速增长的背景下。近期,研究者们开始利用大语言模型(LLMs)自动化生成综述,以提高效率。然而,LLM生成的综述与人类撰写的综述之间仍存在显著的质量差距,特别是在提纲质量和引用准确性方面。为缩小这些差距,我们推出了SurveyForge,它首先通过分析人类撰写综述的逻辑结构并参考检索到的领域相关文章来生成提纲。随后,借助我们的学术导航代理从记忆中检索到的高质量论文,SurveyForge能够自动生成并优化文章内容。此外,为实现全面评估,我们构建了SurveyBench,其中包含100篇人类撰写的综述论文用于胜率比较,并从参考文献、提纲和内容质量三个维度评估AI生成的综述论文。实验表明,SurveyForge在性能上超越了AutoSurvey等先前工作。

17

MedAgentsBench:面向复杂医疗推理的思维模型与智能体框架基准测试
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Mar 10
ByXiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein
16
3

大型语言模型(LLMs)在现有医疗问答基准测试中展现了卓越的性能。这种优异表现使得对先进方法进行有效评估和区分变得愈发困难。为此,我们推出了MedAgentsBench,一个专注于挑战性医疗问题的基准测试,这些问题需要多步骤的临床推理、诊断制定及治疗规划——在这些场景下,尽管当前模型在标准测试中表现强劲,但仍面临挑战。基于七个成熟的医疗数据集,我们的基准测试解决了现有评估中的三个关键局限:(1)简单问题占比过高,导致基础模型也能取得高分;(2)不同研究间采样与评估协议不一致;(3)缺乏对性能、成本与推理时间之间相互作用的系统分析。通过对多种基础模型及推理方法的实验,我们证明了最新思维模型DeepSeek R1和OpenAI o3在复杂医疗推理任务中表现尤为突出。此外,相较于传统方法,基于搜索的高级代理方法展现了更优的性能成本比。我们的分析揭示了在复杂问题上模型家族间显著的性能差距,并为不同计算约束条件识别了最优模型选择。我们的基准测试与评估框架已公开于https://github.com/gersteinlab/medagents-benchmark。

18

通过自回归表征对齐释放大语言模型在文本到图像生成中的潜力
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

Mar 10
ByXing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
16
1

我们提出了自回归表示对齐(ARRA),这是一种新的训练框架,无需改变架构即可在自回归大语言模型(LLMs)中实现全局一致的文本到图像生成。与以往需要复杂架构重新设计的工作不同,ARRA通过全局视觉对齐损失和混合标记<HYBNEXT>,将LLM的隐藏状态与外部视觉基础模型的视觉表示对齐。<HYBNEXT>标记施加了双重约束:局部下一标记预测和全局语义蒸馏,使LLM能够在保持原有自回归范式的同时,隐式学习空间和上下文一致性。大量实验验证了ARRA的即插即用灵活性。当从仅用于文本生成的LLM或随机初始化开始训练时,ARRA在Chameleon和LlamaGen等先进自回归LLM上,分别将MIMIC-CXR、DeepEyeNet和ImageNet的FID降低了25.5%、8.8%和7.5%,且无需修改框架。对于领域适应,ARRA将通用LLM与专用模型(如BioMedCLIP)对齐,在医学影像(MIMIC-CXR)上比直接微调实现了18.6%的FID降低。通过证明训练目标的重设计——而不仅仅是架构创新——可以解决跨模态全局一致性挑战,ARRA为推进自回归模型提供了一种互补范式。代码和模型将公开发布,以推动自回归图像生成的发展。

19

YOLOE:实时万物感知
YOLOE: Real-Time Seeing Anything

Mar 10
ByAo Wang, Lihao Liu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
15
1

目标检测与分割在计算机视觉应用中广泛采用,然而传统模型如YOLO系列虽高效精准,却受限于预定义类别,在开放场景中的适应性受限。近期开放集方法通过文本提示、视觉线索或无提示范式来突破这一局限,但常因高计算需求或部署复杂性而在性能与效率间做出妥协。本研究中,我们提出了YOLOE,它在一个高效模型中整合了多种开放提示机制下的检测与分割,实现了实时“见万物”的能力。针对文本提示,我们提出了可重参数化的区域-文本对齐策略(RepRTA),通过一个可重参数的轻量级辅助网络优化预训练文本嵌入,并以零推理和迁移开销增强视觉-文本对齐。对于视觉提示,我们设计了语义激活的视觉提示编码器(SAVPE),采用解耦的语义与激活分支,以最小复杂度提升视觉嵌入与准确性。在无提示场景下,我们引入了惰性区域-提示对比策略(LRPC),利用内置大词汇表及专用嵌入识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE在零样本性能与迁移能力上表现卓越,同时具备高推理效率与低训练成本。特别地,在LVIS数据集上,YOLOE-v8-S以3倍少的训练成本和1.4倍的推理速度提升,超越了YOLO-Worldv2-S,AP提升了3.5。迁移至COCO时,YOLOE-v8-L相较于封闭集YOLOv8-L,在AP^b和AP^m上分别提升了0.6和0.4,且训练时间减少了近4倍。代码与模型已发布于https://github.com/THU-MIG/yoloe。

20

LLaVE:基于难度加权对比学习的大规模语言与视觉嵌入模型
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Mar 4
ByZhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
15
3

通用多模态嵌入模型在交错图文检索、多模态RAG(检索增强生成)以及多模态聚类等任务中发挥着关键作用。然而,我们的实证研究表明,基于标准InfoNCE损失训练的大型多模态模型(LMM)嵌入模型,在正负样本对的相似度分布上存在高度重叠,这使得有效区分困难负样本对变得颇具挑战。为解决这一问题,我们提出了一种简单而有效的框架,该框架根据负样本对的判别难度动态优化嵌入模型的表示学习。在此框架下,我们训练了一系列名为LLaVE的模型,并在涵盖4个元任务和36个数据集的MMEB基准上进行了评估。实验结果显示,LLaVE建立了更强的基础模型,实现了最先进的(SOTA)性能,同时展现出卓越的可扩展性和效率。具体而言,LLaVE-2B超越了之前的7B SOTA模型,而LLaVE-7B则进一步提升了6.2个百分点的性能。尽管LLaVE是在图文数据上训练的,但它能够以零样本方式泛化至文本-视频检索任务,并取得优异表现,充分展示了其在其他嵌入任务迁移上的巨大潜力。

21

DreamRelation:以关系为核心的视频定制
DreamRelation: Relation-Centric Video Customization

Mar 10
ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
14
1

关系视频定制是指创建个性化视频,以展示用户指定的两个主体之间的关系,这是理解现实世界视觉内容的关键任务。尽管现有方法能够个性化主体的外观和动作,但在复杂的关系视频定制方面仍存在困难,其中精确的关系建模和跨主体类别的高泛化能力至关重要。主要挑战源于关系中固有的复杂空间排列、布局变化和细微的时间动态;因此,当前模型往往过度强调无关的视觉细节,而未能捕捉到有意义的互动。为解决这些挑战,我们提出了DreamRelation,一种通过少量示例视频个性化关系的新方法,利用两个关键组件:关系解耦学习和关系动态增强。首先,在关系解耦学习中,我们使用关系LoRA三元组和混合掩码训练策略将关系与主体外观分离,确保在不同关系间实现更好的泛化。此外,我们通过分析MM-DiT注意力机制中查询、键和值特征的不同作用,确定了关系LoRA三元组的最佳设计,使DreamRelation成为首个具有可解释组件的关系视频生成框架。其次,在关系动态增强中,我们引入了时空关系对比损失,优先考虑关系动态,同时最小化对详细主体外观的依赖。大量实验表明,DreamRelation在关系视频定制方面优于现有最先进方法。代码和模型将公开发布。

22

Seg-Zero:基于认知强化的推理链引导分割
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Mar 9
ByYuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia
11
2

传统的推理分割方法依赖于带有类别标签和简单描述的监督微调,这限制了其跨域泛化能力,并缺乏显式的推理过程。为解决这些局限,我们提出了Seg-Zero,这一新颖框架展现了卓越的泛化能力,并通过认知强化推导出显式的链式推理过程。Seg-Zero采用了一种解耦架构,包含一个推理模型和一个分割模型。推理模型负责解读用户意图,生成显式推理链,并产生位置提示,随后分割模型利用这些提示生成精确的像素级掩码。我们设计了一种复杂的奖励机制,结合格式和准确性奖励,有效引导优化方向。仅通过GRPO强化学习训练且无需显式推理数据,Seg-Zero实现了稳健的零样本泛化,并展现出在测试时涌现的推理能力。实验表明,Seg-Zero-7B在ReasonSeg基准测试中取得了57.5的零样本性能,较之前的LISA-7B提升了18%。这一显著改进凸显了Seg-Zero在跨域泛化能力上的优势,同时提供了显式的推理过程。代码已发布于https://github.com/dvlab-research/Seg-Zero。

23

高效且有效的掩码图像生成模型
Effective and Efficient Masked Image Generation Models

Mar 10
ByZebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
11
2

尽管掩码图像生成模型与掩码扩散模型在设计动机与目标上各有不同,但我们发现它们可被统一于同一框架之下。基于这一洞见,我们深入探索了训练与采样的设计空间,识别出对性能与效率均有贡献的关键因素。在此探索过程中,依据观察到的改进,我们开发了名为eMIGM的模型。实证表明,eMIGM在ImageNet生成任务上展现出强劲性能,以弗雷歇初始距离(FID)为衡量标准。特别是在ImageNet 256x256分辨率下,在函数评估次数(NFE)和模型参数数量相近的情况下,eMIGM超越了开创性的VAR模型。此外,随着NFE和模型参数的增加,eMIGM在仅需不到40%的NFE时,其性能便可与最先进的连续扩散模型相媲美。更进一步,在ImageNet 512x512分辨率下,仅需约60%的NFE,eMIGM便超越了当前最先进的连续扩散模型。

24

PE3R:感知高效的三维重建
PE3R: Perception-Efficient 3D Reconstruction

Mar 10
ByJie Hu, Shizun Wang, Xinchao Wang
10
1

近期,二维到三维感知技术的进步显著提升了对二维图像中三维场景的理解能力。然而,现有方法面临诸多关键挑战,包括跨场景泛化能力有限、感知精度欠佳以及重建速度缓慢。为克服这些局限,我们提出了感知高效三维重建框架(PE3R),旨在同时提升准确性与效率。PE3R采用前馈架构,实现了快速的三维语义场重建。该框架在多样化的场景与对象上展现出强大的零样本泛化能力,并显著提高了重建速度。在二维到三维开放词汇分割及三维重建上的大量实验验证了PE3R的有效性与多功能性。该框架在三维语义场重建中实现了至少9倍的加速,同时在感知精度与重建精确度上取得显著提升,为领域树立了新标杆。代码已公开于:https://github.com/hujiecpp/PE3R。

25

文字还是视觉:视觉-语言模型是否盲目信任文本?
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

Mar 4
ByAilin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
8
2

视觉-语言模型(VLMs)在整合视觉与文本信息以执行视觉中心任务方面表现出色,但其在处理模态间不一致性方面的能力尚待深入探究。本研究探讨了在视觉主导场景下,面对视觉数据与多样化文本输入时,VLMs的模态偏好。通过在四项视觉中心任务中引入文本变体,并对十种视觉-语言模型进行评估,我们发现了一种“盲目信任文本”的现象:当出现不一致时,VLMs过度依赖文本数据而忽视视觉数据,导致在文本被污染时性能显著下降,并引发安全隐患。我们分析了影响这种文本偏见的因素,包括指令提示、语言模型规模、文本相关性、词序以及视觉与文本确定性之间的相互作用。虽然某些因素(如扩大语言模型规模)能轻微缓解文本偏见,但其他因素(如词序)由于继承了语言模型的位置偏见,反而可能加剧这一问题。为解决此问题,我们探索了结合文本增强的监督微调方法,并证明了其在减少文本偏见方面的有效性。此外,我们提供了理论分析,指出“盲目信任文本”现象可能源于训练过程中纯文本与多模态数据的不平衡。我们的研究结果强调了在VLMs中实现平衡训练及审慎考虑模态间交互的必要性,以增强其在处理多模态数据不一致性时的鲁棒性和可靠性。

26

若您满意,这便是您的Doge:探索多LLM混合模型中的欺骗与鲁棒性
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

Mar 7
ByLorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
7
2

大语言模型(LLMs)代理混合架构(MoA)通过推理时多个LLM的协作,在AlpacaEval 2.0等知名基准测试中取得了顶尖性能。尽管取得了这些成功,但关于MoA安全性和可靠性的评估尚属空白。我们首次全面研究了MoA在面对故意提供误导性回答的欺骗性LLM代理时的鲁棒性。我们考察了欺骗信息传播、模型规模及信息可用性等因素,揭示了关键漏洞。在AlpacaEval 2.0上,流行的LLaMA 3.1-70B模型结合三层MoA(6个LLM代理)时,长度控制胜率(LC WR)达到49.2%。然而,我们证明,仅需向MoA中引入一个精心指令的欺骗性代理,即可将性能降至37.9%,完全抵消了MoA的所有增益。在QuALITY这一多项选择理解任务中,影响同样严重,准确率惊人地下降了48.5%。部分灵感来源于历史上威尼斯总督选举过程,该过程旨在最小化影响与欺骗,我们提出了一系列无监督防御机制,能够恢复大部分损失的性能。

27

零样本视听语音识别(Zero-AVSR):通过习得语言无关的语音表征,利用大语言模型实现跨语言语音识别
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Mar 8
ByJeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
6
2

我们探索了一种新颖的零样本视听语音识别(AVSR)框架,命名为Zero-AVSR,该框架能够在目标语言中实现语音识别,而无需这些语言的任何视听语音数据。具体而言,我们引入了视听语音罗马化器(AV-Romanizer),它通过预测罗马文本来学习语言无关的语音表示。随后,利用大型语言模型(LLMs)强大的多语言建模能力,我们提出将预测的罗马文本转换为特定语言的字符,形成所提出的级联Zero-AVSR。更进一步,我们探索了一种统一的Zero-AVSR方法,通过直接将AV-Romanizer编码的视听语音表示整合到LLM中实现。这是通过使用我们提出的多任务学习方案微调适配器和LLM来完成的。为了捕捉广泛的语音和语言多样性,我们还引入了一个多语言视听罗马化语料库(MARC),包含82种语言的2,916小时视听语音数据,以及以特定语言字符和罗马文本记录的转录。广泛的分析和实验证实,所提出的Zero-AVSR框架具有扩展语言支持的潜力,超越了AV-Romanizer训练期间所见语言的范围。

28

DiffCLIP:差分注意力机制与CLIP的融合
DiffCLIP: Differential Attention Meets CLIP

Mar 9
ByHasan Abed Al Kader Hammoud, Bernard Ghanem
5
2

我们提出了DiffCLIP,一种新颖的视觉-语言模型,它将差分注意力机制扩展至CLIP架构。差分注意力最初是为大型语言模型开发的,旨在强化相关上下文的同时消除噪声信息。在本研究中,我们将这一机制整合进CLIP的双编码器(图像与文本)框架中。仅需增加少量参数,DiffCLIP便在图文理解任务上实现了卓越性能。在零样本分类、检索及鲁棒性基准测试中,DiffCLIP持续超越基线CLIP模型。尤为重要的是,这些性能提升伴随着几乎可忽略的计算开销,表明差分注意力能显著增强多模态表示,而无需牺牲效率。代码可在https://github.com/hammoudhasan/DiffCLIP 获取。

29

状态偏移调优:基于状态的状态空间模型参数高效微调
State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models

Mar 5
ByWonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho
5
2

状态空间模型(SSMs)作为Transformer的高效替代方案崭露头角,有效缓解了其二次方计算成本的问题。然而,参数高效微调(PEFT)方法在SSMs上的应用仍鲜有探索。特别是,诸如提示调优和前缀调优等基于提示的方法,在Transformer中广泛使用,但在SSMs上表现欠佳。为此,我们提出基于状态的方法作为优于提示方法的替代方案。这一新方法家族自然源自SSMs的架构特性。基于状态的方法直接调整与状态相关的特征,而非依赖外部提示。此外,我们引入了一种新颖的基于状态的PEFT方法:状态偏移调优。在每一步时间点,我们的方法直接影响当前步骤的状态,从而实现更有效的适应。通过跨多个数据集的广泛实验,我们验证了该方法的有效性。代码可在https://github.com/furiosa-ai/ssm-state-tuning获取。

30

黑雁韵律者:利用RWKV-7作为大规模时间序列建模中Transformer的简洁而卓越替代方案
BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

Mar 8
ByLi weile, Liu Xiao
5
2

时间序列模型在扩展以处理大规模复杂数据集方面面临重大挑战,这与大型语言模型(LLMs)所实现的扩展能力相似。时间序列数据的独特特性以及模型扩展的计算需求,要求我们采取创新方法。尽管研究人员已探索了多种架构,如Transformer、LSTM和GRU,以应对这些挑战,但我们提出了一种基于RWKV-7的新颖解决方案,该方案将元学习融入其状态更新机制中。通过将RWKV-7的时间混合与通道混合组件整合到基于Transformer的时间序列模型Timer中,我们实现了性能的显著提升,大约在1.13至43.3倍之间,同时训练时间减少了4.5倍,且仅使用了1/23的参数。我们的代码和模型权重已公开发布,供进一步研究与开发,访问地址为https://github.com/Alic-Li/BlackGoose_Rimer。

31

大语言模型的检测规避技术
Detection Avoidance Techniques for Large Language Models

Mar 10
BySinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
4
1

大型语言模型的日益普及不仅带来了广泛应用,也伴随着多种风险,包括系统性传播虚假新闻的可能性。因此,开发如DetectGPT等分类系统变得至关重要。然而,这些检测器易受规避技术的影响,一系列实验证明了这一点:通过系统性地调整生成模型的温度参数,浅层学习检测器被证明是最不可靠的;通过强化学习微调生成模型,成功绕过了基于BERT的检测器;最后,重述文本使得如DetectGPT这样的零样本检测器的规避率超过90%,尽管文本与原文保持高度相似。与现有工作的对比显示,所提出的方法具有更优的性能。本文还探讨了这些发现对社会及未来研究的可能影响。

32

ProBench:评估多模态基础模型在开放式跨领域专家任务上的表现
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

Mar 10
ByYan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
4
3

解决专家级多模态任务是迈向通用智能的关键里程碑。随着多模态大语言模型(MLLMs)能力的不断提升,评估此类高级多模态智能变得必要且具挑战性。在本研究中,我们引入了ProBench,一个基于开放式用户查询的基准测试,这些查询需要专业知识和高级推理能力。ProBench包含4,000个高质量样本,由专业人士根据其日常生产力需求独立提交,覆盖了科学、艺术、人文、编程、数学及创意写作等10个领域和56个子领域。实验上,我们采用MLLM-as-a-Judge方法对24个最新模型进行了评估与比较。结果显示,尽管最佳开源模型与专有模型旗鼓相当,但ProBench在视觉感知、文本理解、领域知识及高级推理方面提出了显著挑战,从而为未来多模态AI研究提供了宝贵的方向指引。

33

利用适配器高效蒸馏无分类器引导
Efficient Distillation of Classifier-Free Guidance using Adapters

Mar 10
ByCristian Perez Jensen, Seyedmorteza Sadat
4
1

尽管无分类器引导(CFG)对于条件扩散模型至关重要,但它使每次推理步骤中的神经网络函数评估(NFEs)数量翻倍。为缓解这一效率问题,我们引入了适配器引导蒸馏(AGD),一种在单次前向传播中模拟CFG的新方法。AGD利用轻量级适配器近似CFG,有效将采样速度提升一倍,同时保持甚至提升样本质量。与以往调整整个模型的引导蒸馏方法不同,AGD保持基础模型冻结,仅训练少量额外参数(约2%),显著降低了蒸馏阶段的资源需求。此外,该方法保留了原始模型权重,并允许适配器与源自同一基础模型的其他检查点无缝结合。我们还通过训练基于CFG引导的轨迹而非标准扩散轨迹,解决了现有引导蒸馏方法中训练与推理的关键不匹配问题。大量实验表明,AGD在仅需一半NFEs的情况下,在多种架构上实现了与CFG相当或更优的FID。值得注意的是,我们的方法使得在单块24GB显存的消费级GPU上蒸馏大型模型(约26亿参数)成为可能,相比需要多块高端GPU的先前方法,更具普及性。我们将公开本方法的实现代码。

34

下一标记足矣:基于多模态大语言模型的真实图像质量与美学评分
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model

Mar 8
ByMingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
4
2

移动互联网的迅猛发展导致用户生成内容(UGC)图像数量大幅增加,这使得对UGC图像进行全面评估变得既紧迫又必要。近期,多模态大语言模型(MLLMs)在图像质量评估(IQA)和图像美学评估(IAA)方面展现出巨大潜力。尽管取得了这些进展,有效评分UGC图像的质量与美学仍面临两大挑战:1)单一评分难以捕捉人类感知的层次性;2)如何利用MLLMs输出如平均意见分数(MOS)等数值评分仍是一个待解难题。为应对这些挑战,我们引入了一个名为真实图像质量与美学(RealQA)的新数据集,包含14,715张UGC图像,每张图像均标注了10个细粒度属性,这些属性覆盖了三个层次:低层次(如图像清晰度)、中层次(如主体完整性)和高层次(如构图)。此外,我们深入探讨了如何有效利用MLLMs预测数值评分。令人惊讶的是,仅通过预测两个额外有效数字,下一标记范式即可达到当前最优(SOTA)性能。更进一步,结合思维链(CoT)与学习到的细粒度属性,所提方法在五个公开的IQA和IAA数据集上超越了现有SOTA方法,展现出卓越的可解释性,并在视频质量评估(VQA)上表现出强大的零样本泛化能力。代码与数据集将予以公开。

35

WISE:面向文本到图像生成的世界知识引导语义评估
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Mar 10
ByYuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
4
1

文本到图像(T2I)模型能够生成高质量的艺术创作和视觉内容。然而,现有研究和评估标准主要集中于图像真实性和浅层次的文本-图像对齐,缺乏对文本到图像生成中复杂语义理解和世界知识整合的全面评估。为解决这一挑战,我们提出了WISE,这是首个专门为世界知识驱动的语义评估设计的基准。WISE超越了简单的词汇-像素映射,通过精心设计的1000个提示,涵盖文化常识、时空推理和自然科学等25个子领域,对模型进行挑战。为克服传统CLIP指标的局限性,我们引入了WiScore,一种新颖的定量指标,用于评估知识与图像的对齐。通过对20个模型(10个专用T2I模型和10个统一多模态模型)使用1000个结构化提示进行综合测试,我们的研究揭示了它们在图像生成过程中有效整合和应用世界知识的能力存在显著局限,为下一代T2I模型增强知识融入和应用指明了关键路径。代码和数据可在https://github.com/PKU-YuanGroup/WISE获取。

36

逃离柏拉图洞穴:迈向3D与文本潜在空间的对齐
Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Mar 7
BySouhail Hadgi, Luca Moschella, Andrea Santilli, Diego Gomez, Qixing Huang, Emanuele Rodolà, Simone Melzi, Maks Ovsjanikov
4
2

近期研究表明,当大规模训练时,单模态的二维视觉与文本编码器所学习到的特征虽源自不同表示,却展现出显著的结构共性。然而,三维编码器相对于其他模态的作用仍未被探索。此外,现有利用大规模数据集的三维基础模型,通常通过与来自其他表示的冻结编码器进行显式对齐目标来训练。本研究中,我们探讨了单模态三维编码器与基于文本特征空间之间后验对齐的可能性。我们发现,对单模态文本与三维编码器进行简单的训练后特征对齐,效果有限。随后,我们专注于提取相应特征空间的子空间,发现通过将学习到的表示投影到精心挑选的低维子空间上,对齐质量显著提升,从而在匹配与检索任务中提高了准确率。我们的分析进一步揭示了这些共享子空间的本质,它们大致区分了语义与几何数据表示。总体而言,本研究首次为训练后三维单模态与文本特征空间的对齐建立了基准,并凸显了三维数据相较于其他表示所共有的及独特的属性。

37

潜藏何物?利用扩散潜空间实现领域泛化
What's in a Latent? Leveraging Diffusion Latent Space for Domain Generalization

Mar 9
ByXavier Thomas, Deepti Ghadiyaram
4
2

领域泛化旨在开发能够适应新颖且未见过的数据分布的模型。在本研究中,我们探讨了模型架构与预训练目标如何影响特征的丰富性,并提出了一种有效利用这些特征进行领域泛化的方法。具体而言,给定一个预训练的特征空间,我们首先以无监督的方式发现捕捉领域特定变化的潜在领域结构,称之为伪域。接着,我们通过将这些互补的伪域表示融入现有分类器,使其更易于适应多样化的未见测试域。我们分析了不同预训练特征空间在捕获领域特定差异方面的差异。实证研究表明,在缺乏明确领域标签的情况下,扩散模型提取的特征在区分领域方面表现卓越,并能捕捉细微的领域特定信息。在五个数据集上,我们展示了这一极其简单的框架相较于标准基线经验风险最小化(ERM),在未见域上的泛化能力提升显著,最高测试准确率提升超过4%。尤为重要的是,我们的方法在训练过程中无需访问领域标签,却超越了大多数依赖领域标签的算法。

38

基于套娃式多模态大语言模型的自适应视听语音识别
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

Mar 9
ByUmberto Cappellazzo, Minsu Kim, Stavros Petridis
3
2

视听语音识别(AVSR)通过融合音频与视觉模态,显著提升了语音识别的鲁棒性,尤其在嘈杂环境中表现突出。近年来,大语言模型(LLMs)在语音识别领域,包括AVSR,展现了其卓越效能。然而,由于语音表征的长度显著,直接与LLMs整合会带来巨大的计算成本。先前的方法通过在输入LLMs前压缩语音表征来解决这一问题,但高压缩率往往导致性能下降,迫使在计算效率与识别精度之间做出权衡。为应对这一挑战,我们提出了Llama-MTSK,首个基于嵌套式(Matryoshka)表示学习的多模态LLM,专为AVSR设计,它能够根据具体计算限制灵活调整视听令牌分配,同时保持高性能。受嵌套表示学习启发,我们的方法在单一模型内以多粒度编码视听表征,无需为不同压缩级别训练独立模型。此外,为高效微调LLM,我们引入了三种基于LoRA的嵌套策略,采用全局及特定尺度LoRA模块。在两大AVSR数据集上的广泛评估表明,Llama-MTSK取得了最先进的成果,与在固定压缩级别下独立训练的模型相比,表现相当或更优。

39

促进、抑制、迭代:语言模型如何应对一对多事实查询
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Feb 27
ByTianyi Lorena Yan, Robin Jia
3
4

为应对一对多的事实查询(例如列举某国的城市),语言模型(LM)需同时实现知识回忆与避免重复先前答案。这两项子任务在内部是如何实现并整合的呢?通过多个数据集和模型的实验,我们发现了一种“先促进后抑制”的机制:模型首先回忆所有答案,随后抑制已生成的答案。具体而言,LM利用主题及先前答案的标记进行知识回忆,其中注意力机制传播主题信息,而多层感知器(MLPs)则促进答案的生成。接着,注意力机制关注并抑制先前答案的标记,同时MLPs放大这一抑制信号。我们的机制得到了广泛实验证据的支持:除了采用早期解码和因果追踪技术外,我们还通过引入“标记透镜”(Token Lens)——解码指定标记的聚合注意力更新——以及一种敲除方法——分析移除对指定标记的注意力后MLP输出的变化——来探究各组件如何利用不同标记。总体而言,我们为理解LM内部组件如何与不同输入标记互动以支持复杂事实回忆提供了新的洞见。代码已发布于https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries。

40

基于单参考视角的新颖物体6D姿态估计
Novel Object 6D Pose Estimation with a Single Reference View

Mar 7
ByJian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
3
2

现有的新颖物体6D姿态估计方法通常依赖于CAD模型或密集的参考视图,这两者都难以获取。仅使用单一参考视图虽更具扩展性,但由于存在较大的姿态差异以及几何和空间信息有限,这一方法面临挑战。为解决这些问题,我们提出了一种基于单一参考视图的新颖物体6D姿态估计方法(SinRef-6D)。我们的核心思想是基于状态空间模型(SSMs)在相机坐标系中迭代建立点对点对齐。具体而言,迭代的相机空间点对点对齐能有效处理大姿态差异,而我们提出的RGB和点云SSMs能够从单一视图中捕捉长程依赖关系和空间信息,提供线性复杂度及卓越的空间建模能力。一旦在合成数据上完成预训练,SinRef-6D仅需单一参考视图即可估计新颖物体的6D姿态,无需重新训练或CAD模型。在六个流行数据集及真实世界机器人场景上的大量实验表明,尽管在更具挑战性的单一参考设置下运行,我们的方法仍能达到与基于CAD和密集参考视图方法相当的性能。代码将发布于https://github.com/CNJianLiu/SinRef-6D。

41

TRCE:迈向文本到图像扩散模型中的可靠恶意概念消除
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

Mar 10
ByRuidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
3
1

近期,文本到图像扩散模型的进展实现了逼真图像的生成,但也带来了生成恶意内容(如NSFW图像)的风险。为降低风险,研究者们探索了概念消除方法,旨在使模型遗忘特定概念。然而,现有研究在完全消除隐含于提示中的恶意概念(如隐喻表达或对抗性提示)的同时,难以保持模型的正常生成能力。针对这一挑战,本研究提出了TRCE,采用两阶段概念消除策略,在可靠消除与知识保留之间实现有效平衡。首先,TRCE着手消除文本提示中隐含的恶意语义。通过识别关键映射目标(即[EoT]嵌入),我们优化交叉注意力层,将恶意提示映射至上下文相似但包含安全概念的提示。这一步骤防止模型在去噪过程中过度受恶意语义影响。随后,考虑到扩散模型采样轨迹的确定性特性,TRCE通过对比学习进一步引导早期去噪预测向安全方向偏离,远离不安全方向,从而进一步避免生成恶意内容。最后,我们在多个恶意概念消除基准上对TRCE进行了全面评估,结果表明其在消除恶意概念的同时,更好地保留了模型的原始生成能力。代码已发布于:http://github.com/ddgoodgood/TRCE。注意:本文包含模型生成内容,可能涉及冒犯性材料。

42

以数据为中心重新审视预训练视觉模型在机器人学习中的应用
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Mar 10
ByXin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
3
2

预训练视觉模型(PVMs)是现代机器人技术的基石,然而其最佳配置仍不明确。通过系统性评估,我们发现,尽管DINO和iBOT在视觉运动控制与感知任务上优于MAE,但在非(单一)对象中心(NOC)数据上训练时表现欠佳——这一局限与其学习对象中心表示能力下降密切相关。研究表明,从非对象中心的机器人数据集中形成对象中心表示的能力,是PVMs成功的关键。受此启发,我们设计了SlotMIM方法,通过引入语义瓶颈减少原型数量以促进对象性的显现,并采用跨视图一致性正则化增强多视图不变性,从而诱导对象中心表示。我们的实验涵盖了对象中心、场景中心、网络爬取及自我中心数据的预训练。在所有设置下,我们的方法均能学习到可迁移的表示,并在图像识别、场景理解及机器人学习评估中较之前工作取得显著提升。当利用百万级数据集进行扩展时,我们的方法还展现了卓越的数据效率与可扩展性。我们的代码与模型已公开于https://github.com/CVMI-Lab/SlotMIM。

43

视觉语言模型是否应使用图像数据进行预训练?
Should VLMs be Pre-trained with Image Data?

Mar 10
BySedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
3
1

经过图像数据进一步训练的大型预训练语言模型(LLMs)在视觉-语言任务上表现优异。虽然在第二训练阶段加入图像有效解锁了这一能力,但相较于早期整合图像训练的视觉-语言模型(VLMs),这种两阶段训练流程带来的增益或损失尚不明确。为探究此问题,我们训练了涵盖多种数据集、规模、图文比例及引入视觉标记前预训练程度的模型。随后,我们对这些模型进行微调,并在一系列视觉-语言及纯文本任务上评估其下游性能。研究发现,采用图文混合数据进行预训练的模型在视觉-语言任务上表现更佳,同时保持了在纯文本评估中的强劲表现。在平均6项多样化任务中,我们发现对于10亿参数模型,在预训练进程80%时引入视觉标记,相较于在完全预训练后引入,平均提升了2%的性能。

44

PhiloBERTA:基于Transformer的希腊语与拉丁语词典跨语言分析
PhiloBERTA: A Transformer-Based Cross-Lingual Analysis of Greek and Latin Lexicons

Mar 7
ByRumi A. Allbert, Makai L. Allbert
2
2

我们推出PhiloBERTA,一个跨语言的Transformer模型,用于衡量古希腊语与拉丁语词汇间的语义关联。通过对古典文本中精选术语对的分析,我们运用上下文嵌入及角度相似度度量,精准识别语义对应关系。研究结果显示,词源相关的术语对展现出显著更高的相似度得分,尤其是在抽象哲学概念如epistēmē(scientia,知识)与dikaiosynē(iustitia,正义)方面。统计分析揭示了这些关系中的一致性模式(p=0.012),相较于对照组,词源相关对在语义保持上表现出异常稳定的特性。这些发现为探究哲学概念如何在希腊与拉丁传统间迁移建立了量化框架,为古典语文学研究提供了新方法。

45

HumanMM:多镜头视频中的全局人体运动恢复
HumanMM: Global Human Motion Recovery from Multi-shot Videos

Mar 10
ByYuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
2
1

本文提出了一种新颖的框架,旨在从包含多次镜头切换的野外视频中重建世界坐标系下的长序列3D人体运动。此类长序列野外运动对于动作生成与理解等应用具有重要价值,但由于视频中存在的镜头突变、部分遮挡及动态背景等因素,其重建面临巨大挑战。现有方法主要集中于单镜头视频,即在单一摄像机视角下保持连续性,或仅在摄像机空间简化多镜头对齐。本工作通过整合增强的摄像机姿态估计与人体运动恢复(HMR),引入镜头切换检测器及鲁棒对齐模块,以跨镜头精确保持姿态与方向连续性。借助定制化的运动积分器,我们有效缓解了脚部滑动问题,确保了人体姿态的时间一致性。基于公开3D人体数据集构建的多镜头数据集上的广泛评估,验证了本方法在世界坐标系下重建逼真人体运动的鲁棒性。

46

REF-VLM:基于三元组的统一视觉解码指代表征范式
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

Mar 10
ByYan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
2
1

多模态大语言模型(MLLMs)在超大规模数据集训练后,展现出跨多种视觉-语言任务的强大零样本能力。然而,对于密集预测任务,如语义分割和关键点检测,仅以文本输出形式呈现时,MLLMs面临显著挑战。同时,当前利用潜在嵌入进行视觉任务解码的MLLMs,普遍表现出在多任务学习和多粒度场景下的适应性有限。本研究中,我们提出了REF-VLM,一个用于统一训练多种视觉解码任务的端到端框架。针对复杂的视觉解码场景,我们引入了基于三元组的参考范式(TRP),通过三元结构明确解耦视觉解码任务中的三个关键维度:概念、解码类型和目标。TRP采用符号分隔符强化结构化表示学习,提升模型输出的可解析性和可解释性。此外,我们构建了视觉任务指令跟随数据集(VTInstruct),这是一个包含超过1亿条跨25种任务类型的多模态对话样本的大规模多任务数据集。除了文本输入和输出,VT-Instruct还整合了多种视觉提示,如点、框、涂鸦和掩码,并生成由文本和视觉单元(如框、关键点、深度和掩码)组成的输出。不同视觉提示与视觉单元的组合生成了多样化的任务类型,显著扩展了REF-VLM的适用性。定性与定量实验均表明,我们的REF-VLM在多种标准基准测试中优于其他MLLMs。代码、数据集及演示详见https://github.com/MacavityT/REF-VLM。

47

RePO:基于ReLU的偏好优化算法
RePO: ReLU-based Preference Optimization

Mar 10
ByJunkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
2
2

将大型语言模型(LLMs)与人类偏好对齐对于实际部署至关重要,然而现有方法如RLHF面临计算和稳定性挑战。尽管DPO通过单一超参数beta建立了离线范式,但后续方法如SimPO通过双参数(beta, gamma)重新引入了复杂性。我们提出了{基于ReLU的偏好优化(RePO)},这是一种简化的算法,通过两项创新消除了beta:(1)保留SimPO的无参考边界,但通过梯度分析移除beta;(2)采用基于ReLU的最大间隔损失,自然过滤掉平凡对。理论上,RePO被描述为SimPO的极限情况(beta趋近于无穷大),其中逻辑加权退化为二元阈值,形成了0-1损失的凸包络。在AlpacaEval 2和Arena-Hard上的实验结果表明,RePO在多个基础模型上均优于DPO和SimPO,且仅需调整一个超参数。

48

符号专家混合模型:面向异构推理的自适应技能路由
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

Mar 7
ByJustin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
2
2

结合现有的预训练专家大语言模型(LLMs)是应对大规模多样化任务的一条极具前景的路径。然而,在任务层面选择专家往往过于粗放,因为异构任务可能对每个实例需要不同的专业知识。为了实现预训练LLM专家在实例层面的自适应混合,我们提出了Symbolic-MoE,一个基于符号、文本且无需梯度的专家混合框架。Symbolic-MoE采用细粒度选择方法,强调技能,例如数学中的代数或生物医学推理中的分子生物学。我们提出了一种基于技能的招募策略,根据专家的优势动态选择最相关的一组专家LLMs来处理多样化的推理任务。每个被选中的专家随后生成自己的推理,从而产生k个专家的k个输出,这些输出随后由一个基于其整合多样化推理输出能力选择的聚合器综合成一个最终的高质量响应。我们展示了Symbolic-MoE在实例层面的专家选择大幅提升了性能,但若简单实现,可能会因频繁的模型加载与卸载引入高计算开销。为解决这一问题,我们实施了批处理推理策略,根据分配的专家对实例进行分组,每个模型仅加载一次。这使得我们能够在1个GPU上集成16个专家模型,其时间成本与使用4个GPU的先前多智能体基线相当或更优。通过对多样化基准(MMLU-Pro、GPQA、AIME和MedMCQA)的广泛评估,我们证明Symbolic-MoE超越了如GPT4o-mini等强LLMs以及多智能体方法,相较于最佳多智能体基线,平均绝对提升达到8.15%。此外,Symbolic-MoE无需昂贵的多轮讨论,以更少的计算量超越了讨论基线。

49

NeuGrasp:基于背景先验的通用神经表面重建技术,用于材质无关的物体抓取检测
NeuGrasp: Generalizable Neural Surface Reconstruction with Background Priors for Material-Agnostic Object Grasp Detection

Mar 5
ByQingyu Fan, Yinghao Cai, Chao Li, Wenzhe He, Xudong Zheng, Tao Lu, Bin Liang, Shuo Wang
2
2

在包含透明和镜面物体的场景中,机器人抓取对依赖精确深度信息的方法提出了巨大挑战。本文介绍了一种名为NeuGrasp的神经表面重建方法,该方法利用背景先验实现材料无关的抓取检测。NeuGrasp通过整合Transformer和全局先验体素,结合空间编码聚合多视角特征,从而在视角狭窄且稀疏的条件下实现鲁棒的表面重建。通过残差特征增强聚焦前景物体,并利用占据先验体素优化空间感知,NeuGrasp在处理具有透明和镜面表面的物体时表现出色。在仿真和真实场景中的大量实验表明,NeuGrasp在抓取任务上超越了现有最先进方法,同时保持了相当的重建质量。更多详情请访问https://neugrasp.github.io/。

50

扩散中的费曼-卡茨校正器:退火、引导与专家乘积
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts

Mar 4
ByMarta Skreta, Tara Akhound-Sadegh, Viktor Ohanesian, Roberto Bondesan, Alán Aspuru-Guzik, Arnaud Doucet, Rob Brekelmans, Alexander Tong, Kirill Neklyudov
2
2

尽管基于分数的生成模型在多个领域中成为首选,但在推理阶段以原则性方式控制行为(例如组合多个预训练模型)的工具却相对有限。现有的无分类器引导方法采用一种简单的启发式策略,通过混合条件与无条件分数来近似从条件分布中采样。然而,这类方法未能近似中间分布,因而需要额外的“校正”步骤。在本研究中,我们提出了一种高效且原则性的方法,用于从一系列基于预训练分数模型的退火、几何平均或乘积分布中采样。我们基于著名的费曼-卡茨公式,通过精确考虑相应偏微分方程(PDEs)中的项,推导出一种称为费曼-卡茨校正器(FKCs)的加权模拟方案。为了模拟这些PDEs,我们提出了序贯蒙特卡洛(SMC)重采样算法,该算法利用推理时的缩放来提升采样质量。我们通过提出基于推理时温度退火的摊销采样、利用预训练模型改进多目标分子生成,以及增强文本到图像生成的无分类器引导,实证展示了我们方法的实用性。我们的代码可在https://github.com/martaskrt/fkc-diffusion获取。

3月10日
3月11日
3月12日