每日精选AI研究论文及翻译
我们提出了Story2Board,一个无需训练的框架,用于从自然语言生成富有表现力的故事板。现有方法过于关注主体身份,忽视了视觉叙事中的关键要素,如空间构图、背景演变和叙事节奏。为解决这一问题,我们引入了一个轻量级的一致性框架,包含两个组件:潜在面板锚定(Latent Panel Anchoring),用于在多个面板间保持共享的角色参考;以及互注意力值混合(Reciprocal Attention Value Mixing),通过软融合具有强互注意力的标记对之间的视觉特征。这些机制共同增强了连贯性,无需架构修改或微调,使最先进的扩散模型能够生成视觉多样且一致的故事板。为结构化生成,我们使用现成的语言模型将自由形式的故事转换为基于面板的提示。为评估效果,我们提出了丰富故事板基准(Rich Storyboard Benchmark),一套开放域叙事集,旨在评估布局多样性和基于背景的叙事能力,同时兼顾一致性。我们还引入了一个新的场景多样性指标,量化故事板间的空间和姿态变化。我们的定性和定量结果,以及用户研究表明,Story2Board生成的故事板比现有基线更具动态性、连贯性和叙事吸引力。
大型语言模型(LLMs),尤其是如DeepSeek-R1和QWQ这类显式长链思维推理(CoT)模型,已展现出强大的推理能力,在常识推理与数学推断任务中取得了令人瞩目的成绩。然而,尽管其效能显著,长链思维推理模型在知识密集型领域,如分子发现方面,常因能力有限及效率低下而受到批评。该领域的成功需精准掌握包括分子结构与化学原理在内的领域知识,这一挑战源于分子数据固有的复杂性及高质量专家标注的稀缺性。为弥合此差距,我们推出了Mol-R1,一个旨在提升R1类显式长链思维推理LLMs在基于文本的分子生成任务中可解释性与推理性能的新框架。我们的方法始于通过“先验规则引导的上下文蒸馏”(PRID)精心策划的高质量推理数据集,这一专用蒸馏策略有效生成了由先验规则指导的配对推理轨迹。在此基础上,我们引入了MoIA,即分子迭代适应,一种将监督微调(SFT)与强化策略优化(RPO)迭代结合的复杂训练策略,专为增强R1类推理模型在分子发现中的推理性能而设计。最终,我们评估了Mol-R1在基于文本的分子推理生成任务中的表现,结果显示其相较于现有基线模型具有更优的性能。
生成与用户指定身份相匹配的高保真人类视频在生成式AI领域中至关重要且充满挑战。现有方法往往依赖于过多的训练参数,且与其他AIGC工具的兼容性不足。本文提出Stand-In,一个轻量级即插即用的框架,用于视频生成中的身份保持。具体而言,我们在预训练的视频生成模型中引入了一个条件图像分支。通过带有条件位置映射的受限自注意力机制实现身份控制,仅需2000对数据即可快速学习。尽管仅引入并训练了约1%的额外参数,我们的框架在视频质量和身份保持方面均取得了优异成果,超越了其他全参数训练方法。此外,我们的框架还能无缝集成于其他任务,如主体驱动视频生成、姿态参考视频生成、风格化以及面部替换等。
我们推出M3-Agent,一种配备长期记忆的新型多模态智能体框架。与人类相似,M3-Agent能够处理实时的视觉与听觉输入,构建并更新其长期记忆。除了情景记忆外,它还发展出语义记忆,使其能够随时间积累世界知识。其记忆以实体为中心、多模态的方式组织,促进了对环境更深层次且一致的理解。面对指令,M3-Agent能自主进行多轮迭代推理,并从记忆中检索相关信息以完成任务。为了评估多模态智能体中记忆的有效性及基于记忆的推理能力,我们开发了M3-Bench,一个全新的长视频问答基准。M3-Bench包含100段新录制的从机器人视角捕捉的真实世界视频(M3-Bench-robot)及929段涵盖多样场景的网络视频(M3-Bench-web)。我们标注了旨在测试智能体应用关键能力的问答对,如人类理解、通用知识提取及跨模态推理。实验结果显示,通过强化学习训练的M3-Agent超越了使用Gemini-1.5-pro和GPT-4o的最强提示型基线,在M3-Bench-robot、M3-Bench-web及VideoMME-long上的准确率分别提升了6.7%、7.7%和5.3%。我们的工作推动了多模态智能体向更接近人类长期记忆的方向发展,并为其实际设计提供了洞见。模型、代码及数据可在https://github.com/bytedance-seed/m3-agent获取。
扩散大语言模型(dLLMs)作为自回归(AR)LLMs在文本生成领域的一种有前景的替代方案崭露头角,其潜力在于单次迭代中可解码多个令牌。然而,现有开源dLLMs在推理速度上均未能超越同等规模的自回归LLMs。本文基于一种名为离散扩散强制(D2F)的简单有效策略,成功突破了这一瓶颈。D2F赋予dLLMs两大关键能力:(1)块级自回归生成,以利用KV缓存;(2)无需完成前序块即可预测后续令牌,实现块间并行解码。借此,传统dLLMs被改造为AR-扩散混合范式,以高效推理。D2F可通过基于预训练dLLMs的非对称蒸馏过程实现。我们进一步提出了一种流水线并行解码算法,在效率与效果之间达成平衡。实验表明,D2F dLLMs在GSM8K上的推理速度比LLaMA3和Qwen2.5快2.5倍以上。与LLaDA和Dream等传统dLLMs相比,在保持输出质量相当的同时,加速效果可超过50倍。代码已发布于https://github.com/zhijie-group/Discrete-Diffusion-Forcing。
大型语言模型(LLMs)的快速发展,使得智能代理能够借助多样化的外部工具解决复杂的现实问题。然而,随着代理对多种工具的依赖日益加深,它们面临新的挑战:来自不同来源的扩展上下文以及工具输出的噪声或无关信息,可能削弱系统的可靠性与准确性。这些挑战凸显了增强基于代理系统稳定性的必要性。为此,我们引入了动态监督与调控机制,在AWorld框架内构建了一个稳健且动态的多代理系统(MAS)架构。在我们的方法中,执行代理在关键步骤调用守护代理,以验证并修正推理过程,有效减少由噪声引发的错误,增强问题解决的鲁棒性。在GAIA测试数据集上的大量实验表明,我们的动态调控机制显著提升了解决方案的有效性与稳定性,超越了单代理系统(SAS)及标准工具增强系统。因此,我们的动态MAS系统在享有盛誉的GAIA排行榜上荣登开源项目榜首。这些发现凸显了协作代理角色在开发更可靠、更可信的智能系统中的实际价值。
近期,GPT-4o因其在图像生成方面的卓越表现而备受瞩目,然而开源模型仍显逊色。多项研究探索了从GPT-4o中蒸馏图像数据以提升开源模型性能,取得了显著进展。但一个核心问题依然存在:既然现实世界的图像数据集已是高质量数据的天然来源,为何还要使用GPT-4o生成的合成数据?本研究中,我们揭示了合成图像的两大关键优势。首先,它们能够补充现实数据集中罕见的场景,如超现实幻想或多参考图像生成,这些场景在用户查询中频繁出现。其次,合成图像提供了干净且可控的监督信号。现实数据常包含复杂的背景噪声及文本描述与图像内容之间的固有偏差,而合成图像则具备纯净背景和长尾监督信号,有助于实现更精确的文本到图像对齐。基于这些洞见,我们推出了Echo-4o-Image,一个由GPT-4o生成的18万规模合成数据集,旨在利用合成图像数据的力量填补现实世界覆盖的盲区。借助此数据集,我们对统一多模态生成基线模型Bagel进行微调,得到了Echo-4o。此外,我们提出了两个新的评估基准,以更准确且具挑战性地评估图像生成能力:GenEval++通过增加指令复杂度来缓解分数饱和现象,Imagine-Bench则专注于评估对创意内容的理解与生成能力。Echo-4o在标准基准测试中展现了强劲性能。更重要的是,将Echo-4o-Image应用于其他基础模型(如OmniGen2、BLIP3-o)时,在多项指标上均实现了性能提升,凸显了该数据集强大的可迁移性。
对齐方法已成为提升语言模型对齐能力的关键途径。尽管监督微调(SFT)通过直接的词元级损失干预加速了收敛,但其效果受限于离线策略轨迹。相比之下,强化学习(RL)促进了探索性策略优化,却面临样本效率低下及对高质量基础模型严格依赖的挑战。为应对这两大难题,我们提出了群体相对对齐优化(GRAO),一个统一框架,通过三项关键创新融合了SFT与RL的各自优势:1)多样本生成策略,借助奖励反馈实现质量比较评估;2)新颖的群体直接对齐损失公式,利用组内相对优势加权;3)基于成对偏好动态的参考感知参数更新。我们的理论分析确立了GRAO相较于传统方法的收敛保证与样本效率优势。在复杂人类对齐任务上的全面评估显示,GRAO表现卓越,相较于SFT、DPO、PPO及GRPO基线,分别实现了57.70%、17.65%、7.95%和5.18%的相对提升。本研究不仅提供了一个理论扎实的对齐框架,还为语言模型能力的高效进化提供了实证依据。
多模态大语言模型(MLLMs)在各类现有基准测试中展现了卓越的视觉数学推理能力。然而,这些基准测试大多基于清洁或处理过的多模态输入,并未包含真实世界K-12教育用户提供的图像。为填补这一空白,我们推出了MathReal,这是一个精心策划的数据集,包含2000道数学题目,这些题目的图像均通过手持移动设备在真实场景中拍摄。每道题目以图像形式呈现,包含问题文本与视觉元素。我们系统地将这些真实图像归为三大主要类别:图像质量下降、视角变化及无关内容干扰,并进一步细分为14个子类别。此外,MathReal覆盖了五大核心知识与能力类别,包含三种题型,并按难度划分为三个等级。为了全面评估顶尖MLLMs在现实场景下的多模态数学推理能力,我们设计了六种实验设置,以系统分析其表现。通过大量实验,我们发现现有MLLMs在真实教育情境中的解题能力面临显著挑战。基于此,我们对其表现及错误模式进行了深入分析,揭示了其在识别、理解与推理方面的能力,并指明了未来改进的方向。数据与代码详见:https://github.com/junfeng0288/MathReal。
大型语言模型(LLMs)在推理任务中展现了卓越的性能,其中强化学习(RL)作为提升其推理能力的关键算法。当前,存在两种主流的奖励范式:基于模型的奖励和基于规则的奖励。然而,这两种方法均存在局限性:基于规则的奖励缺乏鲁棒性,而基于模型的奖励则易受奖励欺骗的影响。为解决这些问题,我们提出了Cooper(协同优化策略模型与奖励模型),一种联合优化策略模型和奖励模型的RL框架。Cooper在识别正确答案时利用基于规则奖励的高精度,并动态构建和选择正负样本对以持续训练奖励模型。这一设计增强了鲁棒性,并降低了奖励欺骗的风险。为进一步支持Cooper,我们引入了一种混合标注策略,高效且准确地生成奖励模型的训练数据。我们还提出了一种基于参考的奖励建模范式,其中奖励模型以参考答案为输入。基于此设计,我们训练了一个名为VerifyRM的奖励模型,在VerifyBench上相比同规模模型实现了更高的准确率。我们使用VerifyRM和Cooper进行强化学习。实验表明,Cooper不仅缓解了奖励欺骗问题,还提升了端到端RL性能,例如在Qwen2.5-1.5B-Instruct上实现了0.54%的平均准确率提升。我们的研究结果表明,动态更新奖励模型是应对奖励欺骗的有效途径,为更好地将奖励模型融入RL提供了参考。
测试时缩放的新范式在大型语言模型(LLMs,如推理模型)和生成视觉模型中取得了显著突破,使得模型能够在推理过程中分配额外计算资源,以有效应对日益复杂的问题。尽管这种方法带来了改进,但一个重要限制也随之显现:计算时间的大幅增加使得该过程变得缓慢,在许多应用中显得不切实际。鉴于这一范式的成功及其日益广泛的应用,我们旨在保留其优势,同时避免推理开销。在本研究中,我们提出了一种解决方案,以解决在训练后阶段将测试时缩放知识整合到模型中的关键问题。具体而言,我们采用噪声超网络替代扩散模型中的奖励引导测试时噪声优化,该网络调节初始输入噪声。我们提出了一个理论基础的框架,通过一个可处理的噪声空间目标,为蒸馏生成器学习这种奖励倾斜的分布,在保持基础模型保真度的同时优化所需特性。我们展示了我们的方法以极低的计算成本,恢复了显式测试时优化带来的大部分质量提升。代码可在https://github.com/ExplainableML/HyperNoise获取。
视觉语言模型(VLMs)在视觉定位等任务中取得了显著进展,能够根据自然语言查询和图像定位特定对象。然而,针对VLMs在视觉定位任务中的安全问题,尤其是后门攻击方面,仍缺乏深入探索。本文提出了一种新颖的输入感知后门攻击方法IAG,旨在操控VLMs的定位行为。该攻击迫使模型在输入图像中定位特定目标对象,而忽略用户的查询。我们设计了一种自适应触发器生成器,利用文本条件U-Net将攻击目标描述的语义信息嵌入原始图像,从而克服开放词汇攻击的挑战。为确保攻击的隐蔽性,我们采用重建损失来最小化污染图像与干净图像之间的视觉差异。此外,我们提出了一种统一的攻击数据生成方法。IAG在理论和实验上均得到验证,证明了其可行性和有效性。值得注意的是,在InternVL-2.5-8B模型上,我们的ASR@0.5在多种测试集上均超过65%。IAG在操控Ferret-7B和LlaVA-1.5-7B模型时也展现出良好潜力,且对干净样本的准确率影响极小。广泛的专项实验,如消融研究和潜在防御,也表明了我们攻击的鲁棒性和可迁移性。
多模态大语言模型(MLLMs)在视觉与文本理解的融合方面取得了显著进展。然而,其在多模态输入下生成代码的能力仍显不足。本研究提出了VisCodex,一个统一框架,无缝整合视觉与编程语言模型,赋予MLLMs强大的多模态代码生成能力。通过基于任务向量的模型融合技术,我们将顶尖的编程大语言模型融入强大的视觉语言骨干网络,同时保留了视觉理解与高级编程技能。为支持训练与评估,我们引入了多模态编码数据集(MCD),这是一个包含598k样本的大规模多样化集合,涵盖高质量HTML代码、图表图像-代码对、图像增强的StackOverflow问答以及算法问题。此外,我们提出了InfiBench-V,一个新颖且具有挑战性的基准测试,专门设计用于评估模型在视觉丰富、现实世界编程问题上的表现,这些问题要求对文本和视觉上下文有细致入微的理解。大量实验表明,VisCodex在开源MLLMs中达到了最先进的性能,并接近GPT-4o等专有模型,凸显了我们模型融合策略及新数据集的有效性。
近期,文本到图像(T2I)模型的进展使得无需额外训练即可实现基于基础模型生成先验的区域图像编辑。然而,现有方法在平衡编辑区域的文本遵循性、未编辑区域的上下文保真度以及编辑的无缝融合方面存在困难。我们提出了CannyEdit,一种新颖的无训练框架,通过两项关键创新应对这些挑战:(1)选择性Canny控制,该技术在用户指定的可编辑区域屏蔽Canny ControlNet的结构引导,同时通过反相阶段的ControlNet信息保留严格保护源图像在未编辑区域的细节。这实现了精确的文本驱动编辑,且不损害上下文完整性。(2)双提示引导,结合用于对象特定编辑的局部提示与全局目标提示,以维持场景交互的连贯性。在现实世界的图像编辑任务(添加、替换、移除)中,CannyEdit超越了KV-Edit等先前方法,在文本遵循性与上下文保真度的平衡上提升了2.93%至10.49%。就编辑的无缝性而言,用户研究表明,当与未编辑的真实图像配对时,仅有49.2%的普通用户和42.0%的AIGC专家识别出CannyEdit的结果为AI编辑,而竞争对手方法的识别率则高达76.08%至89.09%。
在快速发展的可解释自然语言处理(NLP)领域,文本解释,即类人推理,对于阐明模型预测和丰富数据集的可解释标签至关重要。传统方法依赖人工标注,成本高昂、劳动密集且难以扩展。在本研究中,我们提出了一种自动化框架,利用多种最先进的大型语言模型(LLMs)生成高质量的文本解释。我们通过一套全面的自然语言生成(NLG)指标严格评估这些LLM生成解释的质量。此外,我们探究了这些解释对预训练语言模型(PLMs)和LLMs在两项多样化基准数据集上的自然语言推理任务性能的下游影响。实验表明,自动化解释在提升模型性能方面展现出与人工标注解释相当甚至更优的竞争力。我们的发现为基于LLM的可扩展、自动化文本解释生成开辟了一条前景广阔的途径,旨在扩展NLP数据集并增强模型性能。
近年来,大型语言模型(LLMs)的关注度与日俱增,其中muTransfer技术已成为大规模训练中超参数调优的关键手段。与此同时,专家混合模型(Mixture-of-Experts, MoE)在超大规模模型中崭露头角,成为领先的架构设计。然而,这两项技术进展的交汇领域尚未得到探索。本研究中,我们为MoE模型推导出了一种mu参数化(mu-Parameterization, muP)方法,为路由器和专家模块在不同模型宽度下的特征学习提供了理论保证。我们通过实验验证了该参数化的有效性,并进一步探讨了专家数量及粒度扩展如何影响最优学习率的选择。
采用可验证奖励进行强化学习训练的大型语言模型,往往以牺牲准确性为代价换取长度——通过增加回答长度来提升准确率。虽然对于更复杂的问题,更长的回答可能是必要的,但许多标记仅仅是“填充物”:重复、冗长的文本并未实质推进问题解决。我们引入了GFPO(组过滤策略优化),通过在训练期间对每个问题采样更大的组,并基于两个关键指标筛选训练响应来遏制这种长度膨胀:(1) 响应长度和(2) 标记效率:每标记奖励比率。通过在训练时增加采样,我们教导模型在推理时减少思考。在Phi-4推理模型上,GFPO在具有挑战性的STEM和编程基准测试(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)中,将GRPO的长度膨胀减少了46-71%,同时保持了准确性。优化每标记奖励进一步将长度膨胀的减少幅度提升至71-85%。我们还提出了自适应难度GFPO,它根据实时难度估计动态分配更多训练资源给更难的问题,特别是在难题上改善了计算效率与准确性之间的平衡。GFPO证明,增加训练时的计算量直接转化为减少测试时的计算量——这是实现高效推理的一个简单而有效的权衡。
利用3D高斯泼溅(3DGS)从稀疏视角重建3D场景,由于信息不足,往往导致明显伪影,是一个不适定问题。尽管近期方法尝试利用生成先验来补全欠约束区域的信息,但在生成与输入观测保持一致的内容方面仍面临挑战。为解决这一难题,我们提出了GSFixer,一个旨在提升从稀疏输入重建的3DGS表示质量的新颖框架。我们方法的核心在于基于DiT的视频扩散模型构建的参考引导视频修复模型,该模型在成对的含伪影3DGS渲染图与干净帧上训练,并附加了基于参考的条件。将输入稀疏视图视为参考,我们的模型整合了从视觉几何基础模型中提取的参考视图的2D语义特征和3D几何特征,增强了在修复含伪影新视图时的语义连贯性和3D一致性。此外,考虑到缺乏适合评估3DGS伪影修复的基准,我们提出了DL3DV-Res,其中包含使用低质量3DGS渲染的伪影帧。大量实验证明,我们的GSFixer在3DGS伪影修复和稀疏视图3D重建方面超越了当前最先进的方法。项目页面:https://github.com/GVCLab/GSFixer。
本文首次提出了一种去中心化方法,利用微型飞行器(MAV)团队实现现实世界中电缆悬挂负载的六自由度操控。我们的方法采用多智能体强化学习(MARL)为每架MAV训练外环控制策略。与依赖集中式方案的最先进控制器不同,我们的策略无需全局状态、MAV间通信或邻近MAV信息。相反,智能体仅通过负载姿态观测进行隐式通信,从而实现了高度的可扩展性和灵活性。同时,该方法显著降低了推理时的计算成本,使得策略能够部署在机载设备上。此外,我们为MAV引入了一种新的动作空间设计,采用线性加速度和机体角速率。这一选择与鲁棒的低级控制器相结合,确保了在动态三维运动中由电缆张力引起的显著不确定性下,仍能实现可靠的仿真到现实的迁移。我们通过多种现实世界实验验证了该方法,包括在负载模型不确定性下的全姿态控制,展示了与最先进的集中式方法相当的目标点跟踪性能。我们还展示了具有异构控制策略的智能体之间的协作能力,以及对一架MAV完全失联的鲁棒性。实验视频请访问:https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
精准的病灶切除依赖于对细粒度解剖结构的准确识别。尽管许多粗粒度分割(CGS)方法在大规模分割(如器官)中取得了成功,但在需要细粒度分割(FGS)的临床场景中却表现不足,这由于小尺度解剖结构频繁的个体差异而仍具挑战性。虽然近期基于Mamba的模型在医学图像分割领域取得了进展,但它们往往依赖于固定的人工定义扫描顺序,这限制了其对FGS中个体差异的适应性。为此,我们提出了ASM-UNet,一种新颖的基于Mamba的FGS架构。它引入了自适应扫描评分,通过结合群体共性和个体差异动态指导扫描顺序。在两个公开数据集(ACDC和Synapse)以及新提出的具有挑战性的胆道系统FGS数据集(即BTMS)上的实验表明,ASM-UNet在CGS和FGS任务中均实现了卓越性能。我们的代码和数据集可在https://github.com/YqunYang/ASM-UNet获取。
成员推断攻击作为一种有效工具,在语言模型的合理使用中发挥着重要作用,例如检测潜在的版权侵权和审计数据泄露。然而,当前许多最先进的攻击方法需要访问模型的隐藏状态或概率分布,这阻碍了对仅通过API访问的广泛使用模型(如GPT-4)的研究。在本研究中,我们提出了N-Gram覆盖攻击,这是一种仅依赖于目标模型文本输出的成员推断攻击,使得对完全黑箱模型的攻击成为可能。我们利用了一个观察结果:模型更倾向于记忆并随后生成其训练数据中常见的文本模式。具体而言,为了对候选成员做出预测,N-Gram覆盖攻击首先基于候选文本的前缀获取多个模型生成结果,然后使用n-gram重叠度量来计算并汇总这些输出与真实后缀的相似度;高相似度表明可能的成员身份。我们首先在多样化的现有基准测试中展示了N-Gram覆盖攻击优于其他黑箱方法,同时令人印象深刻地达到了与最先进的白箱攻击相当甚至更好的性能——尽管仅能访问文本输出。有趣的是,我们发现该方法的成功率随着攻击计算预算的增加而提升——随着基于前缀从目标模型生成的序列数量增加,攻击性能往往有所改善。在验证了方法的准确性后,我们将其应用于多个领域,对之前未研究的封闭式OpenAI模型进行了调查。我们发现,较新的模型(如GPT-4o)对成员推断表现出更高的鲁棒性,暗示着隐私保护正朝着改进的方向发展。
大型语言模型(LLMs)通常通过监督微调(SFT)和强化学习(RL)两阶段流程进行推理任务的微调,这一过程常伴随灾难性遗忘及模仿与探索间的次优权衡问题。近期单阶段方法尝试利用启发式策略统一SFT与RL,却缺乏动态平衡这两种范式的原则性机制。本文从隐含奖励的理论视角重新审视这一挑战,将SFT与RL视为互补的奖励信号,而非独立的方法。我们提出了自适应元微调(AMFT),一种新颖的单阶段算法,旨在学习SFT隐含的路径级奖励与RL显式的结果导向奖励之间的最优平衡。AMFT的核心是一个元梯度自适应权重控制器,它将SFT-RL平衡视为可学习参数,动态优化以最大化长期任务性能。这一前瞻性方法,通过策略熵正则化确保稳定性,自主发现有效的训练课程。我们在涵盖数学推理、抽象视觉推理(通用点)及视觉语言导航(V-IRL)的挑战性基准上进行了全面评估。AMFT持续确立新的技术标杆,并在分布外(OOD)任务上展现出卓越的泛化能力。消融研究与训练动态分析证实,元学习控制器对AMFT的稳定性、样本效率及性能至关重要,为LLM对齐提供了更为原则性和有效的范式。我们的代码已开源,详见https://github.com/hlxtsyj/AMFT。
大型语言模型(LLMs)的迅速普及极大地推动了能够进行事实问答(QA)的公平AI系统的发展。然而,目前尚无已知研究测试LLMs在面对模糊化版本问题时的鲁棒性。为了系统评估这些局限性,我们提出了一种新颖的技术——ObfusQAte,并基于此引入了ObfusQA,这是一个首创的、包含多层次模糊化级别的综合框架,旨在从三个不同维度检验LLM的能力:(i)命名实体间接性,(ii)干扰项间接性,以及(iii)上下文过载。通过捕捉语言中的这些细微差别,ObfusQA为评估LLM的鲁棒性和适应性提供了一个全面的基准。我们的研究发现,当面对这些日益复杂的变体时,LLMs往往会出现失败或生成虚构回答的倾向。为了促进这一方向的研究,我们公开了ObfusQAte。