Além das Respostas Finais: Auditando Alucinações em Nível de Trajetória em Fluxos de Trabalho Industriais Multiagente

Resumo

Modelos de Linguagem de Grande Porte (LLMs) estão cada vez mais sendo implantados como agentes autônomos que raciocinam, utilizam ferramentas e agem em múltiplas etapas. No entanto, a maioria dos benchmarks de alucinação ainda avalia apenas a saída final, ignorando falhas que se originam nas etapas intermediárias de Pensamento-Ação-Observação. Apresentamos Trajel, um conjunto de dados e uma estrutura de avaliação para auditar alucinações em nível de trajetória em fluxos de trabalho industriais multiagente. Trajel introduz uma taxonomia de alucinação de cinco tipos (factual, referencial, lógica, procedural e baseada em escopo) sobre traços de agentes anotados por especialistas do AssetOpsBench. Avaliamos modelos de detecção supervisionados nos níveis de subtarefa, trajetória e contexto longo. Nossos resultados mostram que os modos de falha mais comuns são ignorados pelos benchmarks existentes, que quase metade das trajetórias alucinadas envolve múltiplos tipos simultaneamente, e que detectores automatizados com alta precisão binária ainda classificam erroneamente os tipos mais sutis. A detecção ciente de trajetória supera significativamente a verificação post-hoc padrão, tornando a avaliação fundamentada em taxonomia necessária para uma implantação mais segura de agentes.

English

Large Language Models (LLMs) are increasingly deployed as autonomous agents that reason, use tools, and act over multiple steps. Yet most hallucination benchmarks still evaluate only the final output, missing failures that originate in intermediate Thought-Action-Observation steps. We present Trajel, a dataset and evaluation framework for auditing trajectory-level hallucinations in multi-agent industrial workflows. Trajel introduces a five-type hallucination taxonomy (factual, referential, logical, procedural, and scope-based) over expert-annotated agent traces from AssetOpsBench. We benchmark supervised detection models at the subtask, trajectory, and long-context levels. Our results show that the most common failure modes are missed by existing benchmarks, that nearly half of hallucinated trajectories involve multiple types at once, and that automated detectors with high binary accuracy still misclassify the subtlest types. Trajectory-aware detection significantly outperforms standard post-hoc verification, making taxonomy-grounded evaluation necessary for safer agentic deployment.