Au-delà des réponses finales : auditer les hallucinations au niveau de la trajectoire dans les workflows industriels multi-agents

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus déployés en tant qu'agents autonomes capables de raisonner, d'utiliser des outils et d'agir sur plusieurs étapes. Pourtant, la plupart des benchmarks d'hallucination n'évaluent encore que la sortie finale, omettant les défaillances issues des étapes intermédiaires Pensée-Action-Observation. Nous présentons Trajel, un ensemble de données et un cadre d'évaluation pour auditer les hallucinations au niveau des trajectoires dans les flux de travail industriels multi-agents. Trajel introduit une taxonomie à cinq types d'hallucination (factuelle, référentielle, logique, procédurale et de portée) basée sur des traces d'agents annotées par des experts provenant d'AssetOpsBench. Nous évaluons des modèles de détection supervisée aux niveaux de la sous-tâche, de la trajectoire et du contexte long. Nos résultats montrent que les modes de défaillance les plus courants échappent aux benchmarks existants, que près de la moitié des trajectoires hallucinées impliquent simultanément plusieurs types d'hallucination, et que les détecteurs automatisés à haute précision binaire classifient encore mal les types les plus subtils. La détection sensible à la trajectoire surpasse significativement la vérification post-hoc standard, rendant nécessaire une évaluation ancrée dans la taxonomie pour un déploiement agentique plus sûr.

English

Large Language Models (LLMs) are increasingly deployed as autonomous agents that reason, use tools, and act over multiple steps. Yet most hallucination benchmarks still evaluate only the final output, missing failures that originate in intermediate Thought-Action-Observation steps. We present Trajel, a dataset and evaluation framework for auditing trajectory-level hallucinations in multi-agent industrial workflows. Trajel introduces a five-type hallucination taxonomy (factual, referential, logical, procedural, and scope-based) over expert-annotated agent traces from AssetOpsBench. We benchmark supervised detection models at the subtask, trajectory, and long-context levels. Our results show that the most common failure modes are missed by existing benchmarks, that nearly half of hallucinated trajectories involve multiple types at once, and that automated detectors with high binary accuracy still misclassify the subtlest types. Trajectory-aware detection significantly outperforms standard post-hoc verification, making taxonomy-grounded evaluation necessary for safer agentic deployment.