ObfusQAte: Ein vorgeschlagenes Framework zur Bewertung der Robustheit von LLMs bei verschleierter faktischer Fragebeantwortung
ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
August 10, 2025
papers.authors: Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh
cs.AI
papers.abstract
Die rasche Verbreitung von Large Language Models (LLMs) hat maßgeblich zur Entwicklung gerechter KI-Systeme beigetragen, die in der Lage sind, faktische Fragen zu beantworten (Question-Answering, QA). Allerdings gibt es keine bekannte Studie, die die Robustheit von LLMs testet, wenn sie mit verschleierten Versionen von Fragen konfrontiert werden. Um diese Einschränkungen systematisch zu bewerten, schlagen wir eine neuartige Technik namens ObfusQAte vor und führen, basierend darauf, ObfusQA ein – ein umfassendes, erstmaliges Framework mit mehrstufigen Verschleierungsebenen, das darauf abzielt, die Fähigkeiten von LLMs in drei verschiedenen Dimensionen zu untersuchen: (i) Named-Entity-Indirektion, (ii) Ablenkungsindirektion und (iii) Kontextuelle Überlastung. Durch die Erfassung dieser fein abgestuften sprachlichen Unterschiede bietet ObfusQA einen umfassenden Benchmark zur Bewertung der Robustheit und Anpassungsfähigkeit von LLMs. Unsere Studie zeigt, dass LLMs dazu neigen, zu versagen oder halluzinierte Antworten zu generieren, wenn sie mit diesen zunehmend nuancierten Variationen konfrontiert werden. Um die Forschung in dieser Richtung zu fördern, stellen wir ObfusQAte öffentlich zur Verfügung.
English
The rapid proliferation of Large Language Models (LLMs) has significantly
contributed to the development of equitable AI systems capable of factual
question-answering (QA). However, no known study tests the LLMs' robustness
when presented with obfuscated versions of questions. To systematically
evaluate these limitations, we propose a novel technique, ObfusQAte and,
leveraging the same, introduce ObfusQA, a comprehensive, first of its kind,
framework with multi-tiered obfuscation levels designed to examine LLM
capabilities across three distinct dimensions: (i) Named-Entity Indirection,
(ii) Distractor Indirection, and (iii) Contextual Overload. By capturing these
fine-grained distinctions in language, ObfusQA provides a comprehensive
benchmark for evaluating LLM robustness and adaptability. Our study observes
that LLMs exhibit a tendency to fail or generate hallucinated responses when
confronted with these increasingly nuanced variations. To foster research in
this direction, we make ObfusQAte publicly available.