RealHarm : Un recueil d'échecs réels d'applications de modèles de langage

papers.abstract

Le déploiement de modèles de langage dans des applications grand public introduit de nombreux risques. Bien que les recherches existantes sur les préjudices et les dangers de ces applications suivent des approches descendantes issues de cadres réglementaires et d'analyses théoriques, les preuves empiriques des modes de défaillance en situation réelle restent insuffisamment explorées. Dans ce travail, nous présentons RealHarm, un ensemble de données d'interactions problématiques annotées avec des agents d'IA, construit à partir d'une revue systématique d'incidents rapportés publiquement. En analysant les préjudices, les causes et les dangers spécifiquement du point de vue des déployeurs, nous constatons que les dommages à la réputation constituent le préjudice organisationnel prédominant, tandis que la désinformation émerge comme la catégorie de danger la plus courante. Nous évaluons empiriquement les systèmes de protection et de modération de contenu de pointe pour déterminer si de tels systèmes auraient pu prévenir les incidents, révélant ainsi un écart significatif dans la protection des applications d'IA.

English

Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

RealHarm : Un recueil d'échecs réels d'applications de modèles de langage

RealHarm: A Collection of Real-World Language Model Application Failures

papers.abstract

Support