每日精选AI研究论文及翻译
我们推出4KAgent,一个统一的智能超分辨率通用系统,旨在将任何图像普遍提升至4K分辨率(若迭代应用,甚至可达到更高)。该系统能够将极低分辨率且严重退化的图像,例如高度失真的256x256输入,转化为清晰逼真的4K输出。4KAgent包含三大核心组件:(1) 分析模块,根据特定使用场景定制4KAgent的处理流程;(2) 感知代理,结合视觉-语言模型与图像质量评估专家,分析输入图像并制定个性化的修复方案;(3) 修复代理,执行该方案,遵循递归执行-反思范式,通过质量驱动的专家混合策略选择每一步的最优输出。此外,4KAgent还嵌入了专门的面部修复流程,显著提升人像和自拍照片中的面部细节。我们在涵盖26个多样化基准的11个不同任务类别中严格评估了4KAgent,在广泛的成像领域内确立了新的技术标杆。评估范围包括自然图像、人像照片、AI生成内容、卫星图像、荧光显微镜以及眼底摄影、超声波和X射线等医学影像,在感知质量(如NIQE、MUSIQ)和保真度(如PSNR)指标上均展现出卓越性能。通过为低级视觉任务建立一种新颖的智能范式,我们期望激发视觉中心自主智能体在跨学科研究社区中的广泛兴趣与创新。所有代码、模型及结果将发布于:https://4kagent.github.io。
我们推出Skywork-R1V3,这是一款先进的、开源的视觉-语言模型(VLM),它开创了视觉推理的新方法。其核心创新在于有效地将纯文本大型语言模型(LLMs)的推理能力迁移至视觉任务。Skywork-R1V3的卓越性能主要源于我们精心设计的后训练强化学习(RL)框架,该框架无需额外持续预训练,便能有效激活并增强模型的推理能力。通过这一框架,我们进一步揭示了连接器模块在实现多模态推理模型稳健跨模态对齐中的基础性作用。此外,我们引入了一种独特的推理能力指标——关键推理标记的熵,该指标在RL训练期间的检查点选择中表现出极高的有效性。Skywork-R1V3在MMMU基准测试中取得了最先进的成果,显著从64.3%提升至76.0%,这一表现已与人类入门级能力相当。值得注意的是,我们的RL驱动后训练方法使得即便是38B参数模型也能与顶尖闭源VLMs相抗衡。该实现成功将数学推理迁移至其他学科相关的推理任务。我们还分析了课程学习与强化微调策略,并广泛探讨了多模态推理。Skywork-R1V3标志着多模态推理的重大飞跃,展示了RL作为推动开源VLM能力发展的强大引擎。
尽管AI智能体的记忆能力日益受到关注,现有解决方案仍存在根本性局限。多数方法依赖扁平、范围狭窄的记忆组件,限制了其个性化、抽象化以及长期可靠回忆用户特定信息的能力。为此,我们推出MIRIX,一个模块化、多智能体记忆系统,通过解决该领域最关键的挑战——使语言模型真正具备记忆能力,重新定义了AI记忆的未来。与以往方法不同,MIRIX超越文本,拥抱丰富的视觉和多模态体验,使记忆在现实场景中真正实用。MIRIX包含六种精心构建的独特记忆类型:核心记忆、情景记忆、语义记忆、程序记忆、资源记忆及知识库,结合一个多智能体框架,动态控制与协调记忆的更新与检索。这一设计使得智能体能够大规模持久化、推理并准确检索多样化的长期用户数据。我们在两个高要求场景中验证了MIRIX。首先,在ScreenshotVQA这一包含每序列近20,000张高分辨率电脑截图、需要深度上下文理解且现有记忆系统无法应用的多模态基准测试中,MIRIX比RAG基线提高了35%的准确率,同时减少了99.9%的存储需求。其次,在LOCOMO这一单模态文本输入的长对话基准测试中,MIRIX达到了85.4%的最先进性能,远超现有基线。这些结果表明,MIRIX为记忆增强型大语言模型智能体设立了新的性能标准。为了让用户体验我们的记忆系统,我们提供了一个由MIRIX驱动的打包应用。它能实时监控屏幕,构建个性化记忆库,并提供直观的可视化界面和安全的本地存储,确保隐私。
基于文本描述生成多样且自然的人体运动序列,构成了计算机视觉、图形学及机器人学领域中一项基础而富有挑战性的研究课题。尽管该领域已取得显著进展,现有方法在零样本泛化能力方面仍面临诸多挑战,这主要归因于训练数据集的规模有限。此外,缺乏全面的评估框架也阻碍了该任务的进一步发展,因其未能明确改进方向。本研究中,我们致力于将文本到运动生成推向一个新时代,即实现零样本泛化能力。为此,我们首先开发了一套高效的标注流程,并推出了MotionMillion——迄今为止最大的人体运动数据集,包含超过2000小时、200万条高质量运动序列。同时,我们提出了MotionMillion-Eval,作为评估零样本运动生成的最全面基准。借助可扩展的架构,我们将模型规模扩展至70亿参数,并在MotionMillion-Eval上验证了其性能。实验结果表明,我们的模型在跨域及复杂组合运动上展现出强大的泛化能力,标志着向零样本人体运动生成迈出了重要一步。相关代码已公开于https://github.com/VankouF/MotionMillion-Codes。
可验证奖励的强化学习(RLVR)已被证明是赋予大型语言模型(LLMs)强大多步推理能力的有效策略。然而,其设计与优化仍局限于纯文本领域,导致在多模态推理任务中表现欠佳。特别是,我们观察到当前多模态推理中的主要误差来源在于视觉输入的感知。为解决这一瓶颈,我们提出了感知感知策略优化(PAPO),这是对GRPO的一个简单而有效的扩展,鼓励模型在推理的同时学习感知,完全依赖于内部监督信号。值得注意的是,PAPO不依赖额外的数据整理、外部奖励模型或专有模型。具体而言,我们在GRPO目标中引入了以KL散度项形式存在的隐式感知损失,尽管其简单,但在多样化的多模态基准测试中带来了显著的总体提升(4.4%)。在视觉依赖性高的任务中,提升更为显著,接近8.0%。我们还观察到感知误差大幅减少(30.5%),表明PAPO提升了感知能力。我们对PAPO进行了全面分析,发现了一个独特的损失欺骗问题,并通过双重熵损失进行了严格分析和缓解。总体而言,我们的工作将感知感知监督更深层次地整合到RLVR学习目标中,为鼓励视觉基础推理的新RL框架奠定了基础。项目页面:https://mikewangwzhl.github.io/PAPO。
大型语言模型(LLMs)近期在代码生成基准测试如HumanEval和LiveCodeBench中取得了显著成功。然而,深入分析发现,这些评估套件通常仅包含有限数量的同质测试案例,导致细微错误未被察觉。这不仅人为夸大了性能指标,还影响了采用可验证奖励的强化学习框架(RLVR)中的准确奖励估计。针对这些关键缺陷,我们系统性地研究了测试案例生成(TCG)任务,提出了多维指标,旨在严格量化测试套件的全面性。此外,我们引入了一种人机协作方法(SAGA),结合人类编程专长与LLM的推理能力,旨在显著提升生成测试案例的覆盖范围与质量。同时,我们开发了TCGBench以促进TCG任务的研究。实验表明,SAGA在TCGBench上的检测率达到90.62%,验证器准确率为32.58%。由SAGA合成的代码生成评估基准的验证器准确率(Verifier Acc)比LiveCodeBench-v6高出10.78%。这些结果证明了我们提出方法的有效性。我们期望这项工作能为构建可靠的LLM代码评估的可扩展基础做出贡献,进一步推动代码生成中的RLVR发展,并为自动化对抗测试合成和自适应基准集成铺平道路。
基于可验证奖励的强化学习(RLVR)提升了大型语言模型(LLMs)的推理能力,但其在探索过程中存在不稳定性。我们提出了FR3E(首次回报、熵激发探索)框架,这一结构化探索方法能够识别推理轨迹中的高不确定性决策点,并通过定向回滚构建语义基础的中期反馈。该方法无需依赖密集监督即可提供针对性指导。在数学推理基准测试(AIME24)上的实证结果表明,FR3E促进了更稳定的训练过程,生成了更长且更连贯的响应,并提高了完全正确轨迹的比例。这些成果凸显了该框架通过更稳健和结构化的探索,有效提升LLM推理能力的优势。
Transformer在处理长序列时面临二次方复杂度和内存问题,这促使了采用固定大小隐藏状态的线性注意力机制。然而,线性模型常受限于较差的记忆性能,因此催生了结合线性与全注意力层的混合架构。尽管对混合架构进行了广泛研究,但线性注意力组件的选择尚未得到深入探讨。我们系统评估了各代线性注意力模型——从向量递归到高级门控机制——无论是单独使用还是混合应用。为了支持这一全面分析,我们训练并开源了72个模型:36个拥有3.4亿参数(训练于200亿token)和36个拥有13亿参数(训练于1000亿token),涵盖六种线性注意力变体及五种混合比例。在标准语言建模和记忆任务上的基准测试表明,表现优异的独立线性模型在混合架构中未必同样出色。虽然语言建模性能在从线性到全注意力的比例变化中保持稳定,但记忆性能随着全注意力层比例的增加显著提升,特别是在低于3:1的比例下。我们的研究强调了选择性门控、层次递归和可控遗忘对于构建高效混合模型的重要性。我们推荐采用HGRN-2或GatedDeltaNet等架构,并保持线性与全注意力比例在3:1至6:1之间,以实现Transformer级别的记忆效率。我们的模型已在https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e开源。
深度学习中的内核开发需要在硬件层面优化计算单元,同时通过大量实验调优来平衡内存管理、并行性以及硬件特定的优化。尽管像Triton这样的领域特定语言通过抽象底层细节简化了GPU编程,但开发者仍需通过迭代实验手动调整关键参数,如分块大小和内存访问模式,这为达到最优性能和广泛采用设置了显著障碍。在本研究中,我们推出了AutoTriton,这是首个基于强化学习(RL)专为Triton编程设计的模型。AutoTriton通过高质量数据收集管道进行监督微调(SFT),掌握Triton编程的核心技能,并采用分组相对策略优化(GRPO)算法进行RL训练,结合基于规则的奖励和基于执行的奖励,逐步提升Triton编程能力。在TritonBench和KernelBench的五个评估通道上的实验表明,我们的8B模型AutoTriton在性能上可与Claude-4-Sonnet和DeepSeek-R1-0528等主流大模型相媲美。进一步的实验分析揭示了AutoTriton内部各模块的关键作用,包括SFT阶段、RL阶段及奖励设计策略。这些发现凸显了RL在自动生成高性能内核方面的潜力,而高性能内核是AI系统的核心组件,这一突破为构建更高效的AI系统奠定了重要基础。模型与代码将发布于https://github.com/AI9Stars/AutoTriton。
在形式语言中的自动定理证明(ATP)是人工智能领域的一项基础性挑战。尽管大型语言模型(LLMs)已推动显著进展,但其强大的非形式推理能力与薄弱的正式证明性能之间仍存在显著差距。近期研究表明,在如PutnamBench等基准测试中,非形式准确率超过80%,而正式成功率却低于8%。我们认为,这一差距之所以持续存在,是因为当前最先进的证明器通过紧密耦合推理与证明,采用了无意中惩罚深度推理、偏向于浅层战术策略的训练范式。为弥合这一根本性差距,我们提出了一种新颖框架,将高层推理与低层证明生成解耦。我们的方法利用两个独立且专门化的模型:一个强大的通用推理器,用于生成多样化的战略性子目标引理;以及一个高效的证明器,用于严格验证这些引理。这种模块化设计释放了模型的全部推理潜力,并规避了端到端训练的陷阱。我们在2000年后国际数学奥林匹克(IMO)难题集上评估了该方法,这是一个此前未有开源证明器报告成功的题目集。我们的解耦框架成功解决了其中5道问题,展示了在应对极其复杂的数学挑战方面自动推理的重大进展。为促进未来研究,我们发布了针对广泛IMO问题生成并验证的引理完整数据集,访问地址为https://tencent-imo.github.io/。
多模态大语言模型(MLLM)的快速发展为视觉-语言-行动(VLA)范式铺平了道路,该范式将视觉感知、自然语言理解与控制策略整合于一体。自动驾驶领域的研究人员正积极将这些方法应用于车辆领域。此类模型有望使自动驾驶汽车能够解析高级指令、推理复杂交通场景并自主决策。然而,相关文献仍较为分散且迅速扩展。本综述首次全面概述了面向自动驾驶的VLA(VLA4AD)。我们(i)形式化了近期工作中共享的架构构建模块,(ii)追溯了从早期解释器到以推理为核心的VLA模型的演变历程,以及(iii)根据VLA在自动驾驶领域的进展,比较了超过20个代表性模型。我们还整合了现有数据集与基准测试,重点介绍了同时衡量驾驶安全性、准确性和解释质量的评估协议。最后,我们详述了开放挑战——鲁棒性、实时效率与形式化验证——并勾勒了VLA4AD的未来发展方向。本综述为推进可解释且社会对齐的自动驾驶汽车提供了简洁而完整的参考。GitHub仓库地址为https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}。
从光谱解析分子结构是化学领域的一个基础性问题,对化合物鉴定、合成及药物开发具有深远影响。传统方法主要依赖专家解读,且缺乏可扩展性。开创性的机器学习方法引入了基于检索的策略,但其对有限库的依赖限制了其对新型分子的泛化能力。生成模型提供了一种有前景的替代方案,然而大多数采用自回归的SMILES架构,忽视了三维几何结构,且难以整合多种光谱模态。在本研究中,我们提出了DiffSpectra,一个利用扩散模型直接从多模态光谱数据推断二维和三维分子结构的生成框架。DiffSpectra将结构解析过程形式化为条件生成任务,其去噪网络由扩散分子变换器参数化,这是一种整合了拓扑与几何信息的SE(3)等变架构。条件信息由SpecFormer提供,这是一种基于变换器的光谱编码器,能够捕捉多模态光谱内的谱间及谱内依赖关系。大量实验表明,DiffSpectra在结构解析上实现了高精度,通过采样恢复了16.01%的top-1准确率和96.86%的top-20准确率的精确结构。该模型显著受益于三维几何建模、SpecFormer预训练及多模态条件处理。这些结果凸显了基于光谱条件的扩散建模在解决分子结构解析挑战中的有效性。据我们所知,DiffSpectra是首个统一多模态光谱推理与联合二维/三维生成建模,用于从头分子结构解析的框架。
近期在语言建模领域的进展表明,状态空间模型(SSMs)在高效序列建模方面展现出显著成效。尽管如Samba和YOCO这类解码器-解码器混合架构相较于Transformer已显示出性能提升的潜力,但先前的研究尚未深入探讨SSM层间表示共享的效率潜力。本文中,我们引入了门控记忆单元(GMU),一种简单而有效的机制,用于实现跨层的高效记忆共享。我们将其应用于构建SambaY,一种解码器-混合-解码器架构,该架构在交叉解码器中集成GMU,以共享基于Samba的自解码器中的记忆读取状态。SambaY显著提升了解码效率,保持了线性预填充时间复杂度,并增强了长上下文性能,同时无需显式位置编码。通过广泛的扩展实验,我们证明与强大的YOCO基线相比,我们的模型展现出显著更低的不可约损失,表明在大规模计算环境下具有更优的性能可扩展性。我们最大的模型,结合差分注意力技术Phi4-mini-Flash-Reasoning,在无需任何强化学习的情况下,在Math500、AIME24/25及GPQA Diamond等推理任务上表现显著优于Phi4-mini-Reasoning,同时在vLLM推理框架下,针对2K长度提示与32K生成长度,解码吞吐量最高提升10倍。我们已在开源数据上发布了训练代码库,地址为https://github.com/microsoft/ArchScale。
我们推出FlexOlmo,一种新型语言模型(LM),它支持(1)无需数据共享的分布式训练,其中不同模型参数在封闭数据集上独立训练,以及(2)数据灵活推理,这些参数及其关联数据可在无需额外训练的情况下灵活地纳入或排除于模型推理之外。FlexOlmo采用专家混合(MoE)架构,每个专家在封闭数据集上独立训练,随后通过一种新的领域感知路由机制整合,无需联合训练。FlexOlmo在FlexMix语料库上进行训练,该语料库由我们精心挑选,包含公开可用数据集及七个特定领域数据集,作为封闭集的现实近似。我们评估了参数高达370亿(活跃参数200亿)的模型在31项多样化下游任务上的表现。结果表明,在公共数据上训练的通用专家能有效与其他数据所有者独立训练的专家结合,带来平均41%的相对性能提升,同时允许用户根据数据许可或权限要求选择退出特定数据的使用。我们的方法还平均优于先前的模型融合方法10.1%,并在相同训练FLOPs下超越了未受数据限制训练的标准MoE。总之,这项研究为拥有敏感或受保护数据的监管行业数据所有者和研究者提供了一种解决方案。FlexOlmo使得在尊重数据所有者偏好的前提下,通过保持其数据本地化并支持推理期间数据访问的细粒度控制,从封闭数据中获益成为可能。
尽管基于强化学习(RL)和大语言模型(LLMs)的视频推理技术取得了进展,但数据收集和微调仍是重大挑战。这些方法通常依赖于大规模监督微调(SFT),需要大量视频数据和长链思维(CoT)注释,导致成本高昂且难以扩展。为此,我们提出了Video-RTS,一种通过结合数据高效的RL与视频自适应测试时扩展(TTS)策略来显著提升数据效率、增强视频推理能力的新方法。基于对RL样本数据扩展的观察,我们跳过了资源密集型的SFT步骤,采用基于输出的奖励进行高效的纯RL训练,无需额外注释或大规模微调。此外,为了更高效地利用计算资源,我们引入了一种从稀疏到密集的视频TTS策略,通过基于输出一致性迭代添加帧来提升推理效果。我们在多个视频推理基准上验证了该方法,结果显示,Video-RTS仅使用3.6%的训练样本,就在准确率上平均超越了现有视频推理模型2.4%。例如,在近期且具挑战性的视频推理基准Video-Holmes上,Video-RTS实现了4.2%的提升,在MMVU上提升了2.6%。值得注意的是,我们的纯RL训练和自适应视频TTS策略相辅相成,共同促成了Video-RTS强大的推理性能。
长上下文推理需要在广泛且嘈杂的输入环境中准确识别相关信息。先前研究表明,通过测试时学习将上下文直接编码到模型参数中,能有效实现对噪声信息的推理。然而,支持测试时学习的元学习方法对内存需求极高,阻碍了其在长上下文场景中的应用。本研究中,我们提出了PERK(参数高效知识推理),一种可扩展的方法,通过在测试时对轻量级模型适配器进行梯度更新来学习编码长输入上下文。具体而言,PERK在元训练阶段采用双重优化循环:内循环快速将上下文编码至低秩适配器(LoRA),作为基础模型的参数高效记忆模块;同时,外循环学习如何利用更新后的适配器,从编码的长上下文中准确回忆并推理相关信息。我们在多项长上下文推理任务上的评估显示,PERK显著超越了基于提示的标准长上下文基线,对于较小模型(如GPT-2)实现了高达90%的平均绝对性能提升,对于评估的最大模型Qwen-2.5-0.5B也达到了27%的提升。总体而言,PERK在推理复杂性、长度外推及上下文中相关信息位置的适应性上表现更为稳健。最后,我们证明,尽管PERK在训练期间内存消耗较大,但在推理时的扩展效率优于基于提示的长上下文推理方法。
自动检测有害言论对于构建安全、包容的网络空间至关重要。然而,这是一项高度主观的任务,对有害语言的认知深受社区规范和个人生活经历的影响。现有的有害言论检测模型通常基于将多样化的标注者观点简化为单一真实标签的注释进行训练,这抹去了诸如语言再使用等重要的情境化毒性概念。为解决这一问题,我们推出了MODELCITIZENS数据集,包含6.8K条社交媒体帖子和40K条跨越不同身份群体的毒性注释。为了捕捉社交媒体帖子中常见的对话语境对毒性的影响,我们利用大语言模型生成的对话场景对MODELCITIZENS中的帖子进行了增强。当前最先进的有害言论检测工具(如OpenAI Moderation API、GPT-o4-mini)在MODELCITIZENS上表现欠佳,在语境增强的帖子上表现进一步下降。最后,我们发布了基于LLaMA和Gemma微调的LLAMACITIZEN-8B和GEMMACITIZEN-12B模型,在分布内评估中比GPT-o4-mini高出5.5%。我们的研究结果强调了基于社区共识的注释和建模对于实现包容性内容审核的重要性。数据、模型及代码已发布于https://github.com/asuvarna31/modelcitizens。
Nova Premier是亚马逊最先进的多模态基础模型,同时也是模型蒸馏的指导者。它能够处理文本、图像和视频,具备一百万令牌的上下文窗口,使得单次提示即可分析大型代码库、400页文档以及90分钟的视频内容。我们首次在“前沿模型安全框架”下对Nova Premier的关键风险特征进行了全面评估。评估聚焦于三大高风险领域——化学、生物、放射性与核能(CBRN)、进攻性网络行动以及自动化AI研发——结合自动化基准测试、专家红队演练及提升研究,以判定该模型是否超出发布阈值。本文概述了我们的方法论并报告了核心发现。基于此次评估,我们确认Nova Premier符合我们在2025年巴黎AI安全峰会上作出的承诺,适合公开发布。随着前沿模型相关的新风险与能力被识别,我们将持续优化安全评估与缓解机制。
自主手术的研究主要集中在受控环境下的简单任务自动化。然而,现实世界中的外科应用要求机器人能够在长时间内进行灵巧操作,并能适应人体组织固有的变异性。这些挑战在使用现有的基于逻辑或传统端到端学习方法时仍难以解决。为填补这一空白,我们提出了一种分层框架,用于执行灵巧且长期的手术步骤。我们的方法利用高层策略进行任务规划,低层策略生成机器人轨迹。高层规划器在语言空间中进行规划,生成任务级或纠正性指令,引导机器人完成长期步骤,并纠正低层策略的错误。我们通过在胆囊切除术(一种常见的微创手术)上进行离体实验来验证我们的框架,并通过消融研究评估系统的关键组件。我们的方法在八个未见过的离体胆囊上实现了100%的成功率,完全自主运行,无需人工干预。这项工作展示了手术过程中的步骤级自主性,标志着自主手术系统向临床部署迈出了重要一步。
近期,多模态大语言模型(MLLMs)的进展已实现了基于图像的问答功能。然而,一个关键局限在于使用CLIP作为视觉编码器;尽管它能捕捉粗略的全局信息,却常常遗漏与输入查询相关的细粒度细节。为克服这些不足,本研究探讨了预训练的文本到图像扩散模型是否可作为指令感知的视觉编码器。通过对其内部表征的分析,我们发现扩散特征不仅语义丰富,还能编码强烈的图文对齐关系。此外,我们发现可利用文本条件引导模型聚焦于与输入问题相关的区域。随后,我们研究了如何将这些特征与大语言模型对齐,并揭示了一种信息泄露现象,即大语言模型可能无意中恢复原始扩散提示的信息。我们分析了泄露的原因并提出了缓解策略。基于这些洞见,我们探索了一种简单的融合策略,同时利用CLIP和条件扩散特征。我们在通用视觉问答(VQA)和专门的多模态大语言模型基准测试中评估了我们的方法,展示了扩散模型在视觉理解,尤其是需要空间和组合推理的视觉中心任务中的潜力。我们的项目页面可访问https://vatsalag99.github.io/mustafar/。
大型语言模型(LLMs)及其安全分类器在低资源语言上往往表现欠佳,这主要归因于有限的训练数据和评估基准。本文介绍了RabakBench,一个针对新加坡独特语言环境本地化的新型多语言安全基准,涵盖新加坡英语、中文、马来语和泰米尔语。RabakBench通过一个可扩展的三阶段流程构建:(i) 生成——利用LLM驱动的红队策略增强真实新加坡英语网络内容,生成对抗性示例;(ii) 标注——采用多数投票的LLM标注器进行半自动化多标签安全标注,确保与人类判断一致;(iii) 翻译——进行高保真翻译,保留跨语言的细微差别和毒性。最终数据集包含超过5,000个安全标注示例,覆盖四种语言和六个细粒度安全类别,并附带严重程度等级。对11个流行的开源和闭源防护分类器的评估显示,其性能显著下降。RabakBench不仅支持在东南亚多语言环境中进行稳健的安全评估,还提供了一个可复制的框架,用于在低资源环境下构建本地化安全数据集。该基准数据集,包括经过人工验证的翻译和评估代码,均已公开可用。
在社交媒体时代,多模态表情包的广泛传播要求多模态大语言模型(mLLMs)能够有效理解表情包的有害性。现有的评估mLLMs对有害表情包理解能力的基准,主要依赖于基于准确率的、模型无关的静态数据集评估。这些基准在提供最新且全面评估方面存在局限,因为网络表情包是动态演变的。为解决这一问题,我们提出了AdamMeme,一个灵活的、基于代理的评估框架,它能够自适应地探测mLLMs在解析表情包有害性时的推理能力。通过多代理协作,AdamMeme通过迭代更新包含挑战性样本的表情包数据,提供全面的评估,从而揭示mLLMs在解读有害性方面的具体局限。大量实验表明,我们的框架系统地揭示了不同目标mLLMs的多样化表现,提供了针对模型特定弱点的深入、细粒度分析。我们的代码可在https://github.com/Lbotirx/AdamMeme获取。