每日精选AI研究论文及翻译
大型语言模型利用互联网规模的文本数据,而具身人工智能仍受限于物理轨迹采集的高昂成本。桌面环境——尤其是游戏——提供了一个引人注目的替代方案:它们以大规模提供丰富的感知运动交互,同时保持了具身学习所必需的结构化观察-动作耦合。我们提出了D2E(桌面到具身AI)框架,展示了桌面交互可作为机器人具身AI任务的有效预训练基础。与之前局限于特定领域(如Minecraft的VPT)或数据保密的(如SIMA)工作不同,D2E建立了一个从可扩展的桌面数据收集到具身领域验证迁移的完整流程。我们的框架包含三个组成部分:(1) OWA工具包,将多样化的桌面交互统一为标准化格式,并实现152倍的压缩;(2) Generalist-IDM,通过基于时间戳的事件预测,在未见过的游戏中实现强大的零样本泛化,支持互联网规模的伪标签生成;(3) VAPT,将桌面预训练的表示迁移到物理操作和导航任务中。利用超过1300小时的数据(259小时的人类演示和1000+小时的伪标签游戏数据),我们在LIBERO操作任务上取得了96.6%的成功率,在CANVAS导航基准上达到了83.3%。这验证了数字交互中的感知运动原语具有足够的不变性,能够有意义地迁移到物理具身任务中,确立了桌面预训练作为机器人学的一个实用范式。我们将公开所有工作,包括OWA工具包、人类收集和伪标签的数据集,以及VAPT训练的模型,访问地址为https://worv-ai.github.io/d2e/。
以相机为核心的理解与生成是空间智能的两大基石,然而它们通常被孤立研究。我们提出了Puffin,一个统一的多模态相机中心模型,它沿相机维度扩展了空间感知能力。Puffin集成了语言回归和基于扩散的生成技术,能够从任意视角解读并创造场景。为了弥合相机与视觉语言之间的模态鸿沟,我们引入了一种新颖的范式,将相机视为语言,实现“用相机思考”。这一方法引导模型在几何上下文中推理时,将空间定位的视觉线索与摄影术语对齐。Puffin在Puffin-4M上进行了训练,这是一个包含400万视觉-语言-相机三元组的大规模数据集。我们同时整合了全局相机参数和像素级相机映射,实现了灵活且可靠的空间生成。实验表明,Puffin在相机中心生成与理解任务上超越了专用模型。通过指令微调,Puffin能够泛化至多样化的跨视角任务,如空间想象、世界探索及摄影指导。我们将公开代码、模型、数据集构建流程及基准测试,以推动多模态空间智能研究的进步。
本研究首次大规模探索了为非英语语言(具体为韩语)构建完全开放的双语大语言模型(LLM),该模型主要基于合成数据进行训练。我们推出了KORMo-10B,这是一个拥有108亿参数的模型,从头开始在韩英双语语料库上训练,其中韩语部分的68.74%为合成数据。通过系统性实验,我们证明,当合成数据经过精心筛选,确保语言覆盖均衡且指令风格多样时,不会在大规模预训练过程中引发模型不稳定或性能下降。此外,该模型在广泛的推理、知识及指令遵循基准测试中,表现与当前开放权重的多语言基线模型相当。我们的实验揭示了两个关键发现:(1)合成数据能够可靠地支持长期预训练,而不会导致模型崩溃;(2)双语指令微调使得模型在韩语推理和语篇连贯性上接近母语水平。通过全面公开包括数据、代码、训练方案及日志在内的所有组件,本研究为在低资源环境下开发基于合成数据的完全开放模型(FOMs)建立了一个透明框架,并为未来的多语言LLM研究树立了可复现的先例。
随着同行评审研究数量的激增,学者们日益依赖社交平台进行文献发现,而作者们则投入大量精力推广其工作,以确保可见性和引用率。为简化这一过程并减少对人力的依赖,我们引入了自动推广(AutoPR)这一新任务,旨在将研究论文转化为准确、引人入胜且时效性强的公开内容。为支持严谨评估,我们发布了PRBench,一个多模态基准测试,将512篇同行评审文章与高质量推广帖子相链接,从三个维度评估系统性能:保真度(准确性与语气)、参与度(受众定位与吸引力)以及一致性(时机与渠道优化)。此外,我们提出了PRAgent,一个多代理框架,通过三个阶段自动化AutoPR:多模态准备的内容提取、协作合成以产出精炼内容,以及平台特定适配,优化规范、语气和标签以实现最大覆盖。与直接在PRBench上使用LLM管道相比,PRAgent展现出显著改进,包括总观看时间增长604%,点赞数提升438%,整体参与度至少提高2.9倍。消融研究表明,平台建模与定向推广对这些增益贡献最大。我们的成果将AutoPR定位为一个可处理、可衡量的研究问题,并为可扩展、有影响力的自动化学术交流提供了路线图。
视觉语言模型(VLMs)有望驱动实时助手和自主代理,但它们面临一个关键挑战:在无需增加延迟和内存消耗的情况下,理解近乎无限的视频流。对整个视频进行全注意力处理会导致计算成本呈二次方增长,并在长视频上表现不佳。同时,简单的滑动窗口方法也存在缺陷,它们要么破坏连贯性,要么因冗余的重复计算而遭受高延迟。本文中,我们提出了StreamingVLM,一个专为实时、稳定理解无限视觉输入而设计的模型。我们的方法是一个统一的框架,将训练与流式推理对齐。在推理过程中,我们通过重用注意力汇聚点的状态、近期视觉标记的短窗口以及近期文本标记的长窗口,来维护一个紧凑的键值缓存。这种流式能力通过一种简单的监督微调(SFT)策略得以实现,该策略在短且重叠的视频片段上应用全注意力,有效模拟了推理时的注意力模式,而无需在过长的上下文上进行训练。为了评估,我们构建了Inf-Streams-Eval,一个新的基准测试,其视频平均超过两小时,要求帧与文本之间每秒的密集对齐。在Inf-Streams-Eval上,StreamingVLM以66.18%的胜率超越了GPT-4O mini,并在单个NVIDIA H100上保持了高达8 FPS的稳定实时性能。值得注意的是,我们的SFT策略还提升了通用视觉问答(VQA)能力,无需任何针对VQA的特定微调,在LongVideoBench上提升了+4.30,在OVOBench Realtime上提升了+5.96。代码可在https://github.com/mit-han-lab/streaming-vlm获取。
近期,扩散模型在图像生成领域取得了顶尖性能,但常常面临语义不一致或幻觉问题。尽管多种推理时引导方法能够提升生成质量,它们通常依赖外部信号或架构修改间接操作,这引入了额外的计算开销。本文提出了一种更为高效且直接的引导方法——切向放大引导(TAG),该方法仅基于轨迹信号运作,无需改动底层扩散模型。TAG利用中间样本作为投影基础,并放大估计得分相对于该基础的切向分量,以校正采样轨迹。我们通过一阶泰勒展开形式化这一引导过程,证明放大切向分量能够引导状态向更高概率区域移动,从而减少不一致性并提升样本质量。TAG作为一种即插即用、架构无关的模块,以极小的计算代价提高了扩散采样的保真度,为扩散引导提供了新的视角。
大型语言模型(LLMs)已展现出显著的成功,其多模态扩展(MLLMs)进一步解锁了跨越图像、视频及其他非文本模态的能力。然而,尽管这一转变发生,旨在减轻手动提示设计负担并最大化性能的提示优化方法仍局限于文本领域,最终限制了MLLMs的全部潜力。受此差距启发,我们引入了多模态提示优化这一新问题,将提示优化的先前定义扩展至由文本与非文本提示对定义的多模态空间。为解决此问题,我们提出了多模态提示优化器(MPO),一个统一框架,不仅通过保持对齐的更新执行多模态提示的联合优化,还利用早期评估作为贝叶斯选择策略中的先验,指导候选提示的选择过程。通过涵盖图像、视频乃至分子等超越文本的多样化模态的广泛实验,我们证明MPO优于领先的纯文本优化方法,确立了多模态提示优化作为实现MLLMs潜力的关键步骤。
具身能力是指智能体感知、理解并与物理世界互动的一系列基本能力。尽管多模态大语言模型(MLLMs)作为具身智能体展现出潜力,但对其具身能力的全面系统评估仍显不足,现有基准主要集中于特定领域,如规划或空间理解。为填补这一空白,我们推出了BEAR,一个全面且细粒度的基准,用于评估MLLMs在原子级具身能力上的表现。BEAR包含4,469个跨14个领域、6个类别的图像-视频-文本交织条目,任务范围从低层次的指向、轨迹理解、空间推理,到高层次的规划。对20个代表性MLLMs的广泛评估结果显示,它们在所有具身能力领域均存在持续局限。针对这一不足,我们提出了BEAR-Agent,一个多模态可对话智能体,它整合了预训练的视觉模型,以增强MLLM的感知、三维理解和规划能力。BEAR-Agent显著提升了MLLM在BEAR上多样具身能力的表现,实现了9.12%的绝对增益,并在GPT-5上带来了17.5%的相对提升。此外,我们的实验表明,提升MLLM的具身能力有助于在模拟环境中优化具身任务。项目网站:https://bear-official66.github.io/
大型语言模型(LLMs)通过在海量文本语料库上进行模仿学习取得了显著成功,但这一范式造成了训练与生成之间的鸿沟,并限制了模型的稳健推理能力。强化学习(RL)提供了一种更为数据高效的解决方案,能够弥合这一差距,然而其应用一直受到一个关键数据瓶颈的制约:现有的RL数据集在规模和多样性上远不及网络规模的预训练语料库。为解决这一问题,我们引入了Webscale-RL管道,这是一个可扩展的数据引擎,能够系统地将大规模预训练文档转化为数百万个多样且可验证的问答对,用于RL训练。利用这一管道,我们构建了Webscale-RL数据集,包含超过9个领域的120万个示例。实验表明,基于该数据集训练的模型在一系列基准测试中显著优于持续预训练和强大的数据精炼基线方法。值得注意的是,使用我们的数据集进行RL训练效率大幅提升,仅需持续预训练1/100的token量即可达到同等性能。我们的工作为将RL扩展至预训练规模开辟了一条可行路径,助力开发出更强大、更高效的语言模型。
众包模型评估平台,如Chatbot Arena,能够从人类视角进行实时评估,以衡量模型响应的质量。在编程领域,手动检查大语言模型(LLM)生成内容的质量极具挑战性,因为这需要理解大段原始代码并有意模拟代码执行过程。为此,我们推出了BigCodeArena,一个开放的代码生成人类评估平台,它依托于一个全面且即时执行的运行环境。基于Chatbot Arena构建,BigCodeArena能够执行LLM生成的代码,并允许人类与执行过程及结果互动。我们收集了超过14,000条以代码为中心的原始对话会话,涉及10种广泛使用的LLM,覆盖10种编程语言和8种执行环境类型。在这些对话中,我们识别出超过4,700个包含成对人类偏好的多轮样本。进一步分析揭示了LLM在由任务、语言和框架定义的细粒度领域中尚未被充分探索的偏好。为了系统性地检验前沿LLM的代码理解与生成能力,我们基于收集的数据精心设计了两项基准测试:BigCodeReward和AutoCodeArena。对于BigCodeReward,我们对4,700次对话进行了后处理,评估了奖励模型与人类偏好之间的一致性。评估结果显示,当执行结果可得时,多数LLM在判断编码偏好方面表现优异。受此启发,我们提出了AutoCodeArena,一个自动化的Elo评分基准,旨在无需人类参与的情况下评估LLM的代码生成质量。我们发现,在近期涌现的模型中,如GPT-5、Claude-Sonnet-4和Claude-Opus-4等专有LLM在代码生成性能上仍处于领先地位。
近期,推理模型(如OpenAI o1、DeepSeek-R1)在测试时扩展方面的趋势,通过长链思维(CoT)取得了显著进步。然而,现有基准主要聚焦于即时、单层次任务,未能充分评估模型理解和应对复杂、多层次场景的能力。针对大型推理模型(LRMs)这一评估不足的问题,我们提出了R-HORIZON方法,旨在通过查询组合激发LRMs的长层次推理行为。基于R-HORIZON,我们构建了一个长层次推理基准,包含跨越长推理视野的复杂多步推理任务,这些问题相互依存。通过使用R-HORIZON基准对LRMs进行全面评估,我们发现即使是最先进的LRMs也表现出显著的性能下降。分析表明,LRMs的有效推理长度有限,难以在多个问题间合理分配思考资源。认识到这些局限后,我们利用R-HORIZON构建了带有验证奖励的强化学习(RLVR)所需的长层次推理数据。与使用单层次数据训练相比,结合R-HORIZON的RLVR不仅大幅提升了多层次推理任务的性能,还促进了标准推理任务的准确性,在AIME2024上提高了7.5分。这些成果确立了R-HORIZON作为一种可扩展、可控且低成本的范式,用于增强和评估LRMs的长层次推理能力。
推理型大语言模型通过扩展的思维链生成展现出复杂的推理行为,这在解码阶段产生了前所未有的键值(KV)缓存开销。现有的KV缓存压缩方法在推理模型上表现欠佳:令牌丢弃方法通过舍弃关键信息破坏了推理完整性,而头部分配重定向方法则因设计初衷为检索任务,错误地压缩了对推理至关重要的注意力头,导致随着压缩率提升,性能显著下降。我们假设在推理模型中,KV头表现出功能异质性——部分头对维持思维链一致性至关重要,而其他头则具备可压缩性。为验证并利用这一洞见,我们提出了RLKV,一种新颖的推理关键头识别框架,它运用强化学习直接优化每个头的缓存使用与推理质量之间的关系。由于RLKV在训练过程中从实际生成的样本中产生奖励,它自然能识别与推理行为相关的头。随后,我们为这些头分配完整的KV缓存,而对其他头应用压缩的恒定KV缓存,以实现高效推理。实验表明,仅有少量注意力头对推理至关重要,这使得我们的KV压缩方法在实现20-50%缓存缩减的同时,相比未压缩结果,性能几乎无损,超越了基线方法。
随着空间推理探索的迅猛发展,研究人员在理解室内场景方面取得了显著进展,但在机器人技术和自动驾驶等多样化应用领域仍面临挑战。本文旨在通过解决两个关键问题,推动跨多样场景的全尺度空间推理:1)对室内3D扫描和劳动密集型手动标注的数据集构建的过度依赖;2)缺乏有效的全尺度场景建模,这往往导致对单个场景的过拟合。本文首次尝试通过整合结构化空间推理知识体系、尺度感知建模和渐进式训练范式,扩展多模态大语言模型(MLLMs)的全尺度空间智能。利用任务特定、专家驱动的自动化流程,我们构建了跨越5个空间尺度的超过38K个视频场景,创建了SpaceVista-1M数据集,该数据集包含约100万对空间问答,涵盖19种不同任务类型。尽管专家模型能够注入有用的领域知识,但其评估可靠性不足。因此,我们通过手动记录、检索和组装基于视频的数据,构建了一个具有精确标注的全尺度基准。然而,直接使用SpaceVista-1M进行训练往往因潜在的知识冲突而效果不佳。为此,我们提出了SpaceVista-7B,一个接受超越语义的密集输入,并以尺度为锚点进行尺度感知专家和渐进奖励的空间推理模型。最后,在包括SpaceVista-Bench在内的5个基准上的广泛评估展示了其竞争力,证明了其在所有尺度和场景中的强大泛化能力。我们的数据集、模型和基准将发布于https://peiwensun2000.github.io/mm2km。
评估现代机器学习模型的成本已变得极其高昂。诸如LMMs-Eval和HELM等基准测试,每个模型需耗费数千GPU小时。高昂的评估成本降低了研究的包容性,延缓了创新周期,并加剧了环境影响。传统方法通常分为两步:首先,选取一个数据锚点子集;其次,训练一个从该子集上的准确率到最终测试结果的映射关系。然而,此方法的局限在于锚点选择依赖于聚类,这一过程复杂且对设计选择敏感。我们认为,样本间的多样性并非关键,关键在于选择那些能最大化模型响应差异的样本。我们提出的方法——多样化样本浓缩(DISCO),通过选取模型间分歧最大的前k个样本,采用基于样本的贪婪统计策略,而非全局聚类,概念上更为简洁。从理论角度看,模型间的分歧为此类贪婪选择提供了信息论上的最优准则。DISCO在MMLU、Hellaswag、Winogrande和ARC等数据集上的性能预测中,相较于现有方法取得了显著提升,达到了当前最优水平。相关代码已公开于:https://github.com/arubique/disco-public。
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)在推理任务上表现的标准方法,其中群体相对策略优化(GRPO)在实践中被广泛采用。然而,GRPO在负样本群体上浪费了大量计算资源:在这些群体中,所有采样响应均不正确,导致优势值为零,因而无法产生梯度。我们探讨是否能在无需额外监督的情况下利用这些负样本群体。从奖励建模中的最大似然估计(MLE)目标出发,我们证明了MLE梯度等价于针对一个修正后的价值函数的策略梯度。该价值函数对错误响应施加了基于置信度的惩罚,对置信度更高的错误施加更大的惩罚。我们将此方法称为带负样本的似然估计(LENS)。LENS对GRPO进行了改进,为错误的生成分配非零且依赖置信度的奖励,使得负样本群体变得信息丰富,并将之前浪费的样本转化为有用的梯度更新。在MATH基准测试中,使用Llama-3.1-8B和Qwen-2.5-3B模型,所提出的变体持续超越GRPO基线,尤其在难度较大的项目上取得了显著提升。这些结果展示了一种原则性且实用的方法来“挽救”负样本群体,从而提高了RLVR的效率和性能。
近期,多模态大型推理模型(MLRMs)的显著进展大幅提升了其解决复杂文本与视觉任务的能力。然而,这些模型在处理简单问题时往往过度思考,产生冗长且不必要的推理轨迹,而在面对挑战性问题时则探索不足,导致错失解决方案。为应对这一不平衡现象,我们提出了ARES,一个统一的开源自适应推理框架,能够根据任务难度动态分配探索力度。我们的方法基于两项关键实证发现:(i) 尽管单令牌熵存在噪声,但高窗口熵(HWE)令牌(在滑动窗口下平均的令牌级熵)能可靠捕捉推理关键时刻;(ii) 减少HWE使用有利于解决简单问题,而增加HWE则是解决难题的关键。基于这些洞见,ARES引入了一个两阶段训练流程。在自适应冷启动阶段,我们精心挑选了多模态与文本数据,并配以与问题难度成比例的推理轨迹,使模型初步具备难度感知能力。在第二阶段,我们开发了自适应熵策略优化(AEPO),利用HWE令牌作为探索触发器来决定何时探索,并通过动态KL控制的分层熵奖励来决定探索的深度。大量实验表明,ARES在多样化的数学、逻辑及多模态基准测试中均实现了卓越的性能与推理效率,同时在显著降低推理成本的情况下,缩小了与领先商业系统的差距。
运用、理解及创造工具的能力,是人类智能的显著标志,使我们能够与物理世界进行复杂的互动。对于任何通用智能体而言,要实现真正的多功能性,掌握这些基本技能同样不可或缺。尽管现代多模态大语言模型(MLLMs)凭借其丰富的常识知识,在具身人工智能及下游的视觉-语言-动作(VLA)模型中执行高级规划,但它们对物理工具的真实理解程度仍未被量化。为填补这一空白,我们推出了PhysToolBench,这是首个专门评估MLLMs对物理工具理解能力的基准。该基准构建为一个视觉问答(VQA)数据集,包含超过1000个图文对,从三个不同难度层次评估模型能力:(1)工具识别:要求识别工具的主要功能。(2)工具理解:测试理解工具运作原理的能力。(3)工具创造:挑战模型在常规工具不可用时,利用周围物品创造新工具的能力。我们对32个MLLMs——涵盖专有、开源、专用具身及VLA骨干模型——的全面评估揭示了它们在工具理解上的显著不足。此外,我们提供了深入分析并提出了初步解决方案。代码与数据集已公开。
近期进展已将人工智能的前沿从模式识别任务推向需要逐步、系统二(System2)式推理的问题,尤其是在大型语言模型领域。然而,与学习不同,在推理能力方面,尽管泛化与分布外(OoD)评估的概念已得到良好形式化,却缺乏明确且一致的定义或衡量标准。我们提出“复杂度分布外泛化”(Complexity OoD)作为定义和衡量推理能力的框架与问题设定。当模型在测试实例上保持性能,而这些实例所需的最小解决复杂度——无论是表征上的(更丰富的解决方案结构)还是计算上的(更多推理步骤/程序长度)——均超过所有训练样本时,该模型即展现出复杂度分布外泛化。我们通过解决方案描述的柯尔莫哥洛夫复杂度及操作代理(如对象/关系计数;推理步骤计数)来形式化复杂度,阐明复杂度分布外与长度及组合分布外的区别。这一视角统一了学习与推理:许多在低复杂度下可通过系统一(System1)式处理解决的问题,在复杂度压力下转变为系统二式处理,而系统二可视为对解决方案结构的泛化。我们将这一观点转化为实践建议,贯穿整个技术栈实施复杂度分布外:将复杂度融入基准与评估指标设计,重新思考监督以针对解决方案轨迹,寻找并设计促进复杂度分布外泛化的归纳偏置,应对学习推理的溢出效应,如虚假捷径、语义鲁棒性、灾难性遗忘及逐步校准。由于仅靠数据扩展无法解决复杂度分布外问题,实现稳健推理的进步将需要明确建模并依据复杂度分配计算的架构与训练机制。
近年来,3D占据预测任务取得了显著进展,在基于视觉的自动驾驶系统中扮演着关键角色。传统方法局限于固定的语义类别,而最新研究趋势转向预测与文本对齐的特征,以实现现实场景中的开放词汇文本查询。然而,在文本对齐的场景建模中存在一个权衡:稀疏的高斯表示难以捕捉场景中的小物体,而密集表示则带来显著的计算开销。针对这些局限,我们提出了PG-Occ,一种创新的渐进式高斯变换器框架,支持开放词汇的3D占据预测。该框架采用渐进式在线密集化策略,通过前馈方式逐步增强3D高斯表示,以捕捉细粒度的场景细节。通过迭代优化表示,框架实现了越来越精确和细致的场景理解。另一项关键贡献是引入了各向异性感知的采样策略,结合时空融合,自适应地为不同尺度和阶段的高斯分配感受野,从而实现更有效的特征聚合和更丰富的场景信息捕捉。通过大量评估,我们证明PG-Occ达到了最先进的性能,相较于之前的最佳方法,mIoU相对提升了14.3%。代码和预训练模型将在论文发表后发布于我们的项目页面:https://yanchi-3dv.github.io/PG-Occ。
大型语言模型(LLMs)在推理能力上展现了显著进步,这通常得益于监督微调(SFT)。然而,SFT过程资源消耗巨大,依赖于大规模精心策划的数据集、拒绝采样的示范样本以及对所有标记的均匀优化,尽管其中仅有少数标记承载着实质性的学习价值。本研究探讨了一个反直觉的设想:较小的语言模型(SLMs)能否通过揭示反映LLMs独特优势的高价值推理时刻,来指导LLMs的学习?我们提出了LightReasoner,一个创新框架,它利用强专家模型(LLM)与弱业余模型(SLM)之间的行为差异。LightReasoner分两阶段运作:(1)采样阶段,精准定位关键推理时刻,并通过专家与业余模型的对比构建监督示例,捕捉专家的优势;(2)微调阶段,使专家模型与这些提炼出的示例对齐,从而放大其推理强项。在七个数学基准测试中,LightReasoner将准确率最高提升了28.1%,同时减少了90%的时间消耗、80%的采样问题以及99%的微调标记使用,且无需依赖真实标签。通过将较弱的SLMs转化为有效的教学信号,LightReasoner为提升LLM推理能力提供了一种可扩展且资源高效的方法。代码已公开于:https://github.com/HKUDS/LightReasoner
当前可控扩散模型通常依赖于固定架构,通过修改中间激活值来注入基于新模态的指导信息。这种方法在动态、多阶段的去噪过程中采用静态条件策略,限制了模型在生成从粗粒度结构到细粒度细节演变时调整其响应的能力。我们提出了TC-LoRA(时序调制条件LoRA),这一新范式通过直接对模型权重施加条件,实现了动态、上下文感知的控制。我们的框架利用超网络实时生成LoRA适配器,根据时间和用户条件,为冻结的主干网络在每一步扩散过程中定制权重调整。这一机制使模型能够学习并执行一种明确的、自适应的策略,在整个生成过程中应用条件指导。通过在多种数据域上的实验,我们证明这种动态的参数化控制相比静态的基于激活值的方法,显著提升了生成保真度和对空间条件的遵循度。TC-LoRA确立了一种替代方法,其中模型的条件策略通过对其权重进行更深层次的功能性适应而得以调整,使控制能够与任务和生成阶段的动态需求保持一致。
我们推出了MRMR,这是首个需要深度推理的专家级多学科多模态检索基准。MRMR包含1,502个查询,涵盖23个领域,其正例文档均经过人类专家的严格验证。与以往基准相比,MRMR带来了三项关键创新。首先,它挑战检索系统跨越多个专业领域的能力,实现了跨领域的细粒度模型比较。其次,查询设计强调推理深度,如图像需进行深层解读,如显微镜切片诊断。我们进一步引入了矛盾检索这一新任务,要求模型识别相互冲突的概念。最后,查询与文档构建为图文交错的序列。不同于早期基准局限于单张图像或单模态文档,MRMR提供了多图像查询与混合模态语料库文档的真实场景。我们对四类多模态检索系统及14个前沿模型在MRMR上进行了广泛评估。采用LLM生成图像描述的文字嵌入模型Qwen3-Embedding表现最佳,凸显了多模态检索模型提升的巨大空间。尽管最新多模态模型如Ops-MM-Embedding在专家领域查询上表现不俗,但在推理密集型任务上仍显不足。我们相信,MRMR为推进多模态检索在更现实与挑战性场景中的应用铺平了道路。
近期,推理模型在数学和编程等领域取得了显著进展。然而,它们在数学和编程方面的专家级能力与其在网页导航、电脑/手机使用等长期交互任务中的表现形成鲜明对比。受人类认知研究的启发,我们认为当前的人工智能代理需要具备“替代性试错”能力——即在行动前进行心理模拟以预见不同未来情景的能力——以提升其在复杂交互环境中的理解与表现。为此,我们提出了Dyna-Mind,一个两阶段训练框架,旨在明确教导视觉语言模型(VLM)代理将此类模拟融入其推理过程。第一阶段,我们引入了“基于模拟的推理”(ReSim),通过代理与环境互动收集的真实经验构建扩展搜索树,并训练代理从中生成结构化推理轨迹。ReSim因此将代理的推理建立在真实世界动态之上,并赋予其在推理中预见未来状态的能力。第二阶段,我们提出了Dyna-GRPO,一种在线强化学习方法,通过利用实际演练中的结果奖励和中间状态作为反馈,进一步增强代理的模拟与决策能力。在Sokoban、ALFWorld两个合成基准和AndroidWorld这一现实基准上的实验表明:(1)ReSim有效将模拟能力注入AI代理;(2)Dyna-GRPO利用结果和交互层面的信号,学习到更适合长期规划密集型任务的策略。这些成果共同凸显了模拟在使AI代理在日益复杂的环境中更有效推理、规划与行动中的核心作用。
动态视图合成技术已取得显著进展,然而,由于优化过程缓慢及参数估计复杂,从未校准的日常视频中重建场景仍具挑战性。本研究中,我们提出了Instant4D,一种单目重建系统,它利用原生4D表示法,能在几分钟内高效处理日常视频序列,无需校准相机或深度传感器。我们的方法首先通过深度视觉SLAM进行几何恢复,随后采用网格剪枝优化场景表示。这一设计在保持几何完整性的同时,显著减少了冗余,将模型大小缩减至原尺寸的10%以下。为高效处理时间动态性,我们引入了一种简化的4D高斯表示法,实现了30倍的加速,并将训练时间缩短至两分钟内,同时在多个基准测试中保持了竞争力。我们的方法在Dycheck数据集上或针对典型的200帧视频,能在10分钟内完成单视频重建。我们进一步将该模型应用于野外视频,展示了其广泛的适用性。项目网站已发布于https://instant4d.github.io/。
大型语言模型(LLMs)在数学与逻辑推理方面已展现出显著进步,然而统计学作为一门独特且综合的学科,在基准测试中仍未被充分探索。为填补这一空白,我们推出了StatEval,这是首个专为统计学设计的全面基准,覆盖了从广度到深度、跨越不同难度层次的内容。StatEval包含13,817道基础题目,涵盖本科及研究生课程,以及从顶尖期刊中提取的2,374项研究级证明任务。为构建此基准,我们设计了一个可扩展的多智能体流程,结合人类参与验证,实现了大规模问题提取、重写及质量控制的自动化,同时确保了学术严谨性。此外,我们提出了一套针对计算与证明任务量身定制的稳健评估框架,能够细致评估推理能力。实验结果显示,尽管如GPT5-mini等闭源模型在研究级问题上得分低于57%,开源模型的表现则更为逊色。这些发现凸显了统计推理的独特挑战及当前LLMs的局限性。我们期待StatEval能成为推动大型语言模型统计智能发展的严格基准。所有数据与代码均可在我们的网络平台上获取:https://stateval.github.io/。
在领域转移下实现稳健的自动语音识别(ASR)至关重要,因为现实世界中的系统常会遇到未见过的口音和领域,且标注数据有限。尽管伪标签提供了一种实用的解决方案,但它往往会引入系统性的、特定于口音的误差,这些误差通过过滤难以消除。我们提出疑问:在没有目标领域真实标签的情况下,如何纠正这些重复出现的偏差?我们提出了一种简单的参数空间校正方法:在包含真实标签和伪标签数据的源域中,从相同的初始化状态微调两个ASR模型,一个使用真实标签,另一个使用伪标签,它们之间的权重差异形成校正向量,该向量捕捉了伪标签的偏差。当将此向量应用于伪标签的目标模型时,它提升了识别效果,在Whisper tiny模型上对AfriSpeech-200数据集中的十种非洲口音测试,实现了高达35%的相对词错误率(WER)降低。
传统的多模态学习者在处理视觉问答等任务时,会寻求统一的表征方式,但严重依赖于配对的数据集。然而,一个被忽视却可能极具潜力的问题是:能否利用辅助的非配对多模态数据,直接增强目标模态中的表征学习?我们提出了UML:非配对多模态学习者,这是一种模态无关的训练范式,其中单一模型交替处理来自不同模态的输入,并在这些模态间共享参数。这一设计基于不同模态是共享现实投影的假设,使得模型能够从跨模态结构中获益,而无需显式的配对数据。理论上,在线性数据生成假设下,我们证明了非配对的辅助数据能够产生比单模态训练更严格地反映数据生成过程的表征。实证研究表明,利用来自辅助模态(如文本、音频或图像)的非配对数据,能够持续提升图像和音频等多样化单模态目标的下游性能。我们的项目页面:https://unpaired-multimodal.github.io/
DeepResearch智能体代表了一种变革性的人工智能范式,通过复杂的推理与多工具集成,执行专家级的研究任务。然而,评估这类系统仍面临重大挑战,原因在于开放式研究场景及现有基准测试多聚焦于孤立能力而非整体表现。与传统的LLM任务不同,DeepResearch系统需综合多样来源、生成洞见并呈现连贯的研究成果,这些能力难以通过简单验证来评估。为填补这一空白,我们推出了DeepResearch-ReportEval,一个旨在通过其最具代表性的输出——研究报告——来评估DeepResearch系统的综合框架。我们的方法系统性地衡量了三个维度:质量、冗余度与事实性,采用创新的“LLM作为评判者”方法论,实现了与专家意见的高度一致。我们贡献了一个包含100个精选查询的标准化基准,覆盖12个现实世界类别,便于系统能力比较。通过对四个领先商业系统的评估,揭示了不同的设计理念与性能权衡,为DeepResearch从信息助手向智能研究伙伴的演进奠定了基础见解。源代码与数据可在以下网址获取:https://github.com/HKUDS/DeepResearch-Eval。
AI控制协议作为一种防御机制,旨在防止不受信任的大语言模型(LLM)代理在自主环境中造成危害。先前的研究将其视为安全问题,通过利用部署上下文微妙完成有害副任务(如后门植入)的漏洞进行压力测试。实际上,大多数AI控制协议本质上依赖于LLM监控器,这可能成为系统失效的关键点。我们研究了由知晓协议和监控模型的不受信任模型发起的自适应攻击,这种情况在不受信任模型训练时采用了更新的知识截止点或能自主搜索此类信息时是可能发生的。我们实例化了一种简单的自适应攻击向量,攻击者通过该向量在模型输出中嵌入公开已知或零样本提示注入。采用此策略,前沿模型在两大AI控制基准测试中持续规避多样化的监控器并完成恶意任务。该攻击对当前依赖监控器的协议具有普遍有效性。此外,近期提出的“延迟重采样”协议甚至适得其反,其重采样过程放大了提示注入,实质上将其重构为一种“n选优”攻击。总体而言,针对监控模型的自适应攻击暴露了当前控制协议的重大盲点,应成为未来AI控制机制评估的标准组成部分。
并行测试时扩展(TTS)是提升大规模语言模型(LLMs)效能的关键策略,通常通过并行采样多条基于token的思维链,并借助投票或搜索机制汇总结果来实现。近期在潜在推理领域取得的进展,即中间推理过程在连续向量空间中展开,为显式思维链提供了一种更为高效的替代方案。然而,此类潜在模型能否同样受益于并行TTS仍是一个未解之谜,主要原因在于连续空间中采样机制的缺失,以及缺乏用于高级轨迹聚合的概率信号。本研究通过解决上述问题,实现了潜在推理模型的并行TTS。在采样方面,我们引入了两种受不确定性启发的随机策略:蒙特卡洛Dropout与加性高斯噪声。在聚合方面,我们设计了一个潜在奖励模型(LatentRM),该模型通过逐步对比目标进行训练,以评分并指导潜在推理。大量实验与可视化分析表明,两种采样策略均能有效随计算资源扩展,并展现出不同的探索动态,而LatentRM则实现了有效的轨迹选择。综合而言,我们的探索为连续空间中的可扩展推理开辟了新方向。代码已发布于https://github.com/YRYangang/LatentTTS。
近期提出的零样本图像描述模型利用共享空间的视觉-语言表示来为图像生成描述,而无需依赖成对的图像-文本数据。这类模型通过解码与文本对齐的图像特征来生成描述,但其应用范围仅限于全局表示和整图描述。我们提出了一个统一的零样本描述框架,该框架从以图像为中心转向以图像块为中心的模式,使得无需区域级监督即可对任意区域进行描述。我们不再依赖全局图像表示,而是将单个图像块视为基本的描述单元,并通过聚合这些单元来描述从单一图像块到非连续区域乃至整幅图像的任意区域。我们分析了使现有潜在描述模型能在我们新提出的框架中工作的关键要素。实验表明,生成有意义且密集视觉特征的主干网络(如DINO)是在多种基于区域的描述任务中取得最先进性能的关键。与其他基线模型和当前最先进的竞争者相比,我们的模型在零样本密集描述、区域集描述以及新引入的轨迹描述任务中均表现出更优的性能,凸显了基于图像块的语义表示在可扩展描述生成中的有效性。项目页面请访问:https://paciosoft.com/Patch-ioner/。
同行评审是科学出版的基石,然而它却面临着不一致性、评审者主观性以及可扩展性等挑战。我们推出了ReviewerToo,一个模块化框架,旨在研究和部署AI辅助的同行评审,以系统化且一致的评估来补充人类判断。ReviewerToo支持通过专门的评审角色和结构化评估标准进行系统性实验,并可部分或完全整合到实际会议流程中。我们在精心挑选的ICLR 2025年1963篇论文提交数据集上验证了ReviewerToo,其中使用gpt-oss-120b模型的实验在论文接受/拒绝分类任务上达到了81.8%的准确率,而人类评审者的平均准确率为83.9%。此外,由ReviewerToo生成的评审被LLM评判为质量高于人类平均水平,尽管仍落后于最优秀的专家贡献。我们的分析揭示了AI评审员表现出色的领域(如事实核查、文献覆盖)和其面临的挑战(如评估方法新颖性和理论贡献),强调了持续需要人类专业知识的重要性。基于这些发现,我们提出了将AI整合到同行评审流程中的指导原则,展示了AI如何提升一致性、覆盖面和公平性,同时将复杂的评估判断留给领域专家。我们的工作为系统化、混合型的同行评审系统奠定了基础,这些系统能够随着科学出版的增长而扩展。
基于验证器奖励强化学习(RLVR)驱动的大型推理模型(LRMs)在问题解决方面展现出强大能力,然而它们常引发过度思考:即冗长曲折的推理过程,导致计算成本膨胀。先前RLVR中的惩罚机制设计虽能减少令牌消耗,却往往损害模型性能,这源于令牌级监督的过于简化。本文主张,监督的粒度在平衡效率与准确性中扮演关键角色,并提出了一种步骤级的推理正则化方法——组相对片段惩罚(GRSP)。初步分析表明,推理片段与令牌消耗及模型性能高度相关,因此我们设计了一种跨片段集群的长度感知加权机制。大量实验证实,GRSP在不显著牺牲准确性的前提下实现了更优的令牌效率,尤其在处理更复杂问题时优势明显。此外,GRSP稳定了RL训练过程,并在不同模型规模上展现出良好的扩展性。
实时口语语言模型(SLMs)在利用思维链(CoT)推理时面临挑战,主要原因在于按顺序生成整个思维过程会带来难以接受的延迟。让SLMs像人类一样边思考边说话,正日益受到关注。我们首次提出了“思维节奏说话”(Mind-Paced Speaking, MPS),这是一个受大脑启发的框架,能够实现高保真度的实时推理。类似于人类利用不同脑区进行思考和回应,我们提出了一种新颖的双脑方法,采用“构思脑”进行高层次推理,以节奏化并指导独立的“表达脑”流畅生成语音。这种分工消除了模式切换,保持了推理过程的完整性。实验表明,MPS显著优于现有的边想边说方法,在推理性能上可与预先计算完整CoT再说话的模型相媲美,同时大幅降低了延迟。在零延迟配置下,该方法在数学推理任务Spoken-MQA上达到了92.8%的准确率,在语音对话任务URO-Bench上获得了82.5分。我们的工作有效弥合了高质量推理与实时交互之间的鸿沟。
基于大型语言模型(LLMs)的智能体在长期任务中因缺乏全局规划,常陷入无脑试错并产生幻觉性行为。本文提出了一种规划与执行框架,并引入了EAGLET,一种高效且有效的规划器训练方法,旨在无需人工干预的情况下提升执行智能体的规划能力。具体而言,我们通过两步流程训练一个即插即用的全局规划器:首先,利用我们提出的同源共识过滤策略从高级LLM中合成高质量规划,并采用微调作为冷启动;其次,通过基于规则的强化学习阶段,采用新颖的执行能力增益奖励机制进一步优化规划器,确保其能处理不同难度的任务指令。在三个长期智能体任务上的实验表明,配备我们规划器的执行智能体超越了现有方法,达到了新的最优性能。同时,EAGLET相比基于强化学习的基线方法减少了8倍的训练成本,且无需人工干预或额外训练数据,提供了一种高效且有效的解决方案。
作为一种新兴的视觉内容生成范式,自回归文本到图像模型因其逐令牌顺序解码过程而面临推理速度缓慢的问题,通常需要数千次模型前向传递才能生成单张图像。为解决这一效率瓶颈,我们提出了推测性雅可比去噪解码(SJD2)框架,该框架将去噪过程融入雅可比迭代中,实现了自回归模型中的并行令牌生成。我们的方法引入了一种下一干净令牌预测范式,使预训练的自回归模型能够接受噪声扰动的令牌嵌入,并通过低成本微调预测下一干净令牌。这一去噪范式引导模型沿着更稳定的雅可比轨迹演进。在推理过程中,我们的方法以高斯噪声初始化令牌序列,并在嵌入空间中进行迭代的下一干净令牌预测。我们采用概率准则并行验证并接受多个令牌,同时沿去噪轨迹对未接受的令牌进行下一轮迭代的优化。实验表明,该方法在保持生成图像视觉质量的同时,通过减少模型前向传递次数显著加速了生成过程。
参考视频对象分割(RVOS)旨在根据查询语句分割视频中指定的目标对象。现有方法大多需要依赖密集掩码标注进行端到端训练,这往往计算成本高且扩展性有限。本研究重新审视了RVOS问题,致力于探索其核心解决之道。基于现有的基础分割模型,我们将RVOS任务分解为参考、视频和分割三个要素,并提出了一个时序提示生成与选择(Tenet)框架,专门处理参考和视频要素,而将分割问题交由基础模型解决。为了高效地将基于图像的基础分割模型适配于参考视频对象分割任务,我们利用现成的目标检测器和跟踪器生成与参考语句相关联的时序提示。尽管能够生成高质量的时序提示,但仅凭置信度分数难以轻易识别其优劣。为此,我们提出了提示偏好学习机制,用于评估生成的时序提示的质量。通过将这些提示用于指导基于图像的基础分割模型,我们能够为目标对象生成高质量的掩码,从而实现模型向参考视频对象分割任务的高效适配。在RVOS基准测试上的实验验证了Tenet框架的有效性。
大型语言模型(LLMs)及新兴的代理框架正通过实现自然语言推理、生成式注释和多模态数据整合,逐步革新单细胞生物学领域。然而,这一进展在数据模态、架构及评估标准方面仍显分散。LLM4Cell首次对58个专为单细胞研究开发的基础模型和代理模型进行了统一综述,涵盖RNA、ATAC、多组学和空间模态。我们将这些方法划分为五大类别——基础模型、文本桥梁模型、空间模型、多模态模型、表观基因组模型及代理模型,并将其映射至包括注释、轨迹与扰动建模、药物反应预测在内的八大关键分析任务。基于40多个公共数据集,我们分析了基准适用性、数据多样性以及伦理或可扩展性限制,并从生物基础性、多组学一致性、公平性、隐私性和可解释性等10个领域维度对模型进行了评估。通过关联数据集、模型与评估领域,LLM4Cell首次提供了语言驱动单细胞智能的综合视角,并阐明了在可解释性、标准化及可信模型开发方面面临的开放挑战。
大型语言模型(LLMs)因其庞大的计算和内存需求,在部署上面临着重大挑战。尽管半结构化剪枝,尤其是2:4稀疏性,为硬件加速提供了一条可行路径,但现有方法往往导致显著的性能下降。为弥合这一差距,我们提出了ARMOR(基于矩阵分解的自适应表示),一种新颖的一次性训练后剪枝算法。ARMOR不直接剪枝权重,而是将每个权重矩阵分解为一个2:4稀疏核心,并由两个低开销的块对角矩阵包裹。这些包裹层作为高效的前后变换误差校正器,相比传统的2:4剪枝技术,提供了更大的灵活性以保持模型质量。稀疏核心与块对角包裹层通过块坐标下降算法选择,该算法最小化逐层代理损失。我们从理论上证明,此优化保证收敛至一个代理损失小于或等于当前最先进剪枝算法的解。在Llama(Touvron等,2023;Dubey等,2024)和Qwen(Yang等,2025)模型家族上的实验表明,ARMOR在一系列下游任务和困惑度评估中,始终显著优于最先进的2:4剪枝方法。ARMOR在保持2:4剪枝带来的推理速度提升和内存使用大幅减少的同时,实现了更优的性能,从而在模型压缩与任务准确性之间建立了更为有效的权衡。
现实世界中的机器人代理必须在部分可观测性和长时程环境下行动,其中关键线索可能在影响决策之前早已出现。然而,大多数现代方法仅依赖瞬时信息,未能整合过去的洞察。标准的循环或Transformer模型在保留和利用长期依赖关系方面存在困难:上下文窗口截断了历史,而简单的内存扩展在规模和稀疏性面前表现不佳。我们提出了ELMUR(带更新/重写功能的外部层内存),一种具有结构化外部内存的Transformer架构。每一层都维护内存嵌入,通过双向交叉注意力与之交互,并使用最近最少使用(LRU)内存模块通过替换或凸混合来更新它们。ELMUR将有效视野扩展到注意力窗口的100,000倍,并在长达一百万步的合成T-Maze任务中实现了100%的成功率。在POPGym中,它在超过一半的任务上超越了基线模型。在MIKASA-Robo稀疏奖励的视觉观察操作任务中,它几乎将强基线性能提升了一倍。这些结果表明,结构化的、层局部的外部内存为部分可观测性下的决策提供了一种简单且可扩展的方法。
如何在不抹去已有能力的前提下,教会大型多模态模型(LMMs)新技能?我们研究了在五种目标技能上的顺序微调过程,同时监控了三种模型系列在八个保留基准上的通用能力。我们观察到,在针对特定任务进行窄化微调后,保留任务上表现出的“遗忘”现象在后续阶段会部分恢复。我们将这一行为归因于输出令牌分布的可测量变化,通过一个与遗忘共变的简单计数偏差探针得以显现。基于这一观察,我们提出了两种简单且稳健的调优策略,它们在学习新技能的同时有效限制了性能漂移:(i)仅更新自注意力投影层,以及(ii)仅更新MLP的Gate&Up部分,同时冻结Down投影。在多种模型和任务中,这些选择在显著提升目标技能的同时,基本保持了在保留任务上的性能。相关代码已发布于https://github.com/jessemelpolio/LMM_CL。
大型语言模型(LLMs)在推理方面取得了显著进展,但在诸如写作、信息检索或提供实用指导等任务中,有时生成的回答对用户而言并非最佳。传统的对齐实践通常假设最大化模型奖励即等同于最大化用户福祉,然而这一假设在实践中往往不成立:模型可能会过度解释或生成冗长的推理过程,而用户则偏好简洁的答案。此类行为类似于囚徒困境,其中个体理性的选择导致了社会次优的结果。根本挑战在于缺乏一种原则性的决策机制,能够同时惠及LLM与用户。我们提出了博弈论对齐(GTAlign),一个将博弈论决策融入推理与训练的对齐框架。在推理过程中,模型明确将用户与LLM的互动视为策略博弈:它在推理链中构建收益矩阵,以估算自身与用户的福祉,随后选择对双方均有利的行动。在训练阶段,我们引入了一种互惠奖励机制,强化合作性回应,使模型行为与社会效率结果对齐。此外,我们还引入了一种推理技术,利用博弈论推理在LLM服务定价策略变化时动态调整LLM的响应。大量实验表明,与基线相比,GTAlign在多种任务中显著提升了推理效率、回答质量及互惠福祉。代码已发布于https://github.com/ulab-uiuc/GTAlign。
个人叙事是作者为赋予自身经历意义而构建的故事。风格,即作者运用语言表达自我的独特方式,是这些叙事传递主观体验的核心要素。然而,目前尚缺乏一个系统分析这些风格选择的正式框架。我们提出了一种新颖方法,将个人叙事中的风格形式化为作者在传达主观体验时所做语言选择的模式。我们的框架整合了三个领域:功能语言学将语言确立为有意义选择的系统,计算机科学提供了自动提取和分析序列模式的方法,而这些模式与心理学观察结果相关联。利用语言模型,我们自动提取诸如过程、参与者和环境等语言特征。我们将该框架应用于数百个梦境叙事,包括对一位患有创伤后应激障碍的退伍军人的案例研究。对其叙事的分析揭示了独特模式,尤其是言语过程如何主导心理过程,从而阐明了语言选择与心理状态之间的关系。
当前的自监督单目深度估计(MDE)方法因语义-空间知识提取不足而面临性能瓶颈。为解决这一挑战,我们提出了Hybrid-depth,一个创新框架,系统性地整合基础模型(如CLIP和DINO)以提取视觉先验并获取充足的上下文信息用于MDE。我们的方法引入了一个由粗到细的渐进学习框架:1)首先,在对比语言引导下,我们聚合了来自CLIP(全局语义)和DINO(局部空间细节)的多粒度特征。设计了一个比较远近图像块的代理任务,利用文本提示强制深度感知特征对齐;2)接着,在粗粒度特征基础上,整合相机姿态信息和像素级语言对齐以优化深度预测。该模块作为即插即用的深度编码器,无缝融入现有自监督MDE流程(如Monodepth2、ManyDepth),提升连续深度估计效果。通过语言引导聚合CLIP的语义上下文与DINO的空间细节,我们的方法有效解决了特征粒度不匹配问题。在KITTI基准上的大量实验表明,我们的方法在所有指标上均显著超越SOTA方法,同时也确实有益于如BEV感知等下游任务。代码已发布于https://github.com/Zhangwenyao1/Hybrid-depth。
大型语言模型(LLMs)需要高效的知识编辑(KE)来更新事实信息,然而现有方法在多跳事实回忆中表现出显著的性能衰减。当编辑涉及推理链中的中间隐含主体时,这一失败尤为突出。通过因果分析,我们发现这一局限源于对链式知识在神经元层面如何动态表示和利用的忽视。我们发现,在多跳推理过程中,隐含主体作为查询神经元,依次激活跨变压器层的相应值神经元,以向最终答案积累信息,这一动态过程是先前KE工作所忽略的。基于这一洞见,我们提出了ACE:面向多跳事实回忆的属性控制知识编辑框架,该框架利用神经元级属性识别并编辑这些关键的查询-值(Q-V)路径。ACE为多跳KE提供了一个机制上扎实的解决方案,在GPT-J和Qwen3-8B上分别以9.44%和37.46%的优势实证超越了现有最先进方法。我们的分析进一步揭示了Qwen3中更为精细的激活模式,并证明了值神经元的语义可解释性是由查询驱动的积累所协调的。这些发现基于对内部推理机制的原则性理解,为推进KE能力开辟了一条新路径。
个性化扩散模型使用户能够生成包含特定主体的新图像,相比仅依赖文本提示提供了更强的控制力。然而,这些模型在仅重现主体图像而忽视文本提示时,往往表现欠佳。我们观察到,一种流行的个性化方法——IP-Adapter在推理过程中自动生成掩码,能够明确地将主体与背景分割开来。我们提出在第二遍处理中利用这一自动生成的掩码来遮蔽图像标记,从而将其限制在主体而非背景上,使得文本提示能够关注图像的其余部分。对于描述地点和场景的文本提示,这种方法生成的图像既能准确呈现主体,又能完美契合提示内容。我们将本方法与几种其他测试时个性化方法进行了对比,发现我们的方法在提示与源图像对齐度上表现出色。