ObfusQAte: 난독화된 사실 기반 질의응답에서 LLM 견고성을 평가하기 위한 제안된 프레임워크
ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
August 10, 2025
저자: Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 확산은 사실 기반 질의응답(QA)이 가능한 공정한 AI 시스템의 개발에 크게 기여해 왔습니다. 그러나 질문을 난독화한 버전을 제시했을 때 LLM의 견고성을 테스트한 연구는 아직 알려져 있지 않습니다. 이러한 한계를 체계적으로 평가하기 위해, 우리는 새로운 기법인 ObfusQAte를 제안하고 이를 활용하여 ObfusQA라는 포괄적이며 최초의 프레임워크를 소개합니다. 이 프레임워크는 세 가지 독특한 차원에서 LLM의 능력을 검토하기 위해 다단계 난독화 수준을 포함하고 있습니다: (i) 명명된 개체 간접 참조, (ii) 주의 산만 요소 간접 참조, (iii) 문맥 과부하. 언어의 이러한 미세한 차이를 포착함으로써, ObfusQA는 LLM의 견고성과 적응성을 평가하기 위한 포괄적인 벤치마크를 제공합니다. 우리의 연구는 LLM이 점점 더 미묘한 변형에 직면했을 때 실패하거나 허구적인 응답을 생성하는 경향을 보인다는 것을 관찰했습니다. 이 방향으로의 연구를 촉진하기 위해, 우리는 ObfusQAte를 공개적으로 제공합니다.
English
The rapid proliferation of Large Language Models (LLMs) has significantly
contributed to the development of equitable AI systems capable of factual
question-answering (QA). However, no known study tests the LLMs' robustness
when presented with obfuscated versions of questions. To systematically
evaluate these limitations, we propose a novel technique, ObfusQAte and,
leveraging the same, introduce ObfusQA, a comprehensive, first of its kind,
framework with multi-tiered obfuscation levels designed to examine LLM
capabilities across three distinct dimensions: (i) Named-Entity Indirection,
(ii) Distractor Indirection, and (iii) Contextual Overload. By capturing these
fine-grained distinctions in language, ObfusQA provides a comprehensive
benchmark for evaluating LLM robustness and adaptability. Our study observes
that LLMs exhibit a tendency to fail or generate hallucinated responses when
confronted with these increasingly nuanced variations. To foster research in
this direction, we make ObfusQAte publicly available.