RealHarm: Una colección de fallos en aplicaciones del mundo real de modelos de lenguaje
RealHarm: A Collection of Real-World Language Model Application Failures
April 14, 2025
Autores: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI
Resumen
El despliegue de modelos de lenguaje en aplicaciones orientadas al consumidor introduce numerosos riesgos. Si bien la investigación existente sobre los daños y peligros de dichas aplicaciones sigue enfoques de arriba hacia abajo derivados de marcos regulatorios y análisis teóricos, la evidencia empírica de modos de fallo en el mundo real sigue siendo poco explorada. En este trabajo, presentamos RealHarm, un conjunto de datos de interacciones problemáticas anotadas con agentes de IA, construido a partir de una revisión sistemática de incidentes reportados públicamente. Al analizar daños, causas y peligros específicamente desde la perspectiva del implementador, encontramos que el daño reputacional constituye el principal daño organizacional, mientras que la desinformación emerge como la categoría de peligro más común. Evaluamos empíricamente los sistemas de protección y moderación de contenido más avanzados para determinar si dichos sistemas habrían prevenido los incidentes, revelando una brecha significativa en la protección de las aplicaciones de IA.
English
Language model deployments in consumer-facing applications introduce numerous
risks. While existing research on harms and hazards of such applications
follows top-down approaches derived from regulatory frameworks and theoretical
analyses, empirical evidence of real-world failure modes remains underexplored.
In this work, we introduce RealHarm, a dataset of annotated problematic
interactions with AI agents built from a systematic review of publicly reported
incidents. Analyzing harms, causes, and hazards specifically from the
deployer's perspective, we find that reputational damage constitutes the
predominant organizational harm, while misinformation emerges as the most
common hazard category. We empirically evaluate state-of-the-art guardrails and
content moderation systems to probe whether such systems would have prevented
the incidents, revealing a significant gap in the protection of AI
applications.Summary
AI-Generated Summary