ChatPaper.aiChatPaper

ObfusQAte: Uma Proposta de Estrutura para Avaliar a Robustez de LLMs em Respostas a Perguntas Factuais Ofuscadas

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

August 10, 2025
Autores: Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh
cs.AI

Resumo

A rápida proliferação dos Modelos de Linguagem de Grande Escala (LLMs) contribuiu significativamente para o desenvolvimento de sistemas de IA equitativos capazes de responder a perguntas factuais (QA). No entanto, nenhum estudo conhecido testa a robustez dos LLMs quando confrontados com versões ofuscadas de perguntas. Para avaliar sistematicamente essas limitações, propomos uma nova técnica, ObfusQAte, e, aproveitando-a, introduzimos o ObfusQA, um framework abrangente e pioneiro, com níveis de ofuscação em múltiplas camadas, projetado para examinar as capacidades dos LLMs em três dimensões distintas: (i) Indireção de Entidades Nomeadas, (ii) Indireção de Distratores e (iii) Sobrecarga Contextual. Ao capturar essas distinções refinadas na linguagem, o ObfusQA fornece um benchmark abrangente para avaliar a robustez e a adaptabilidade dos LLMs. Nosso estudo observa que os LLMs tendem a falhar ou gerar respostas alucinadas quando confrontados com essas variações cada vez mais sutis. Para fomentar pesquisas nessa direção, disponibilizamos publicamente o ObfusQAte.
English
The rapid proliferation of Large Language Models (LLMs) has significantly contributed to the development of equitable AI systems capable of factual question-answering (QA). However, no known study tests the LLMs' robustness when presented with obfuscated versions of questions. To systematically evaluate these limitations, we propose a novel technique, ObfusQAte and, leveraging the same, introduce ObfusQA, a comprehensive, first of its kind, framework with multi-tiered obfuscation levels designed to examine LLM capabilities across three distinct dimensions: (i) Named-Entity Indirection, (ii) Distractor Indirection, and (iii) Contextual Overload. By capturing these fine-grained distinctions in language, ObfusQA provides a comprehensive benchmark for evaluating LLM robustness and adaptability. Our study observes that LLMs exhibit a tendency to fail or generate hallucinated responses when confronted with these increasingly nuanced variations. To foster research in this direction, we make ObfusQAte publicly available.
PDF02August 14, 2025