RealHarm : Un recueil d'échecs réels d'applications de modèles de langage
RealHarm: A Collection of Real-World Language Model Application Failures
April 14, 2025
Auteurs: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI
Résumé
Le déploiement de modèles de langage dans des applications grand public introduit de nombreux risques. Bien que les recherches existantes sur les préjudices et les dangers de ces applications suivent des approches descendantes issues de cadres réglementaires et d'analyses théoriques, les preuves empiriques des modes de défaillance en situation réelle restent insuffisamment explorées. Dans ce travail, nous présentons RealHarm, un ensemble de données d'interactions problématiques annotées avec des agents d'IA, construit à partir d'une revue systématique d'incidents rapportés publiquement. En analysant les préjudices, les causes et les dangers spécifiquement du point de vue des déployeurs, nous constatons que les dommages à la réputation constituent le préjudice organisationnel prédominant, tandis que la désinformation émerge comme la catégorie de danger la plus courante. Nous évaluons empiriquement les systèmes de protection et de modération de contenu de pointe pour déterminer si de tels systèmes auraient pu prévenir les incidents, révélant ainsi un écart significatif dans la protection des applications d'IA.
English
Language model deployments in consumer-facing applications introduce numerous
risks. While existing research on harms and hazards of such applications
follows top-down approaches derived from regulatory frameworks and theoretical
analyses, empirical evidence of real-world failure modes remains underexplored.
In this work, we introduce RealHarm, a dataset of annotated problematic
interactions with AI agents built from a systematic review of publicly reported
incidents. Analyzing harms, causes, and hazards specifically from the
deployer's perspective, we find that reputational damage constitutes the
predominant organizational harm, while misinformation emerges as the most
common hazard category. We empirically evaluate state-of-the-art guardrails and
content moderation systems to probe whether such systems would have prevented
the incidents, revealing a significant gap in the protection of AI
applications.Summary
AI-Generated Summary