RealHarm: Una colección de fallos en aplicaciones del mundo real de modelos de lenguaje

Resumen

El despliegue de modelos de lenguaje en aplicaciones orientadas al consumidor introduce numerosos riesgos. Si bien la investigación existente sobre los daños y peligros de dichas aplicaciones sigue enfoques de arriba hacia abajo derivados de marcos regulatorios y análisis teóricos, la evidencia empírica de modos de fallo en el mundo real sigue siendo poco explorada. En este trabajo, presentamos RealHarm, un conjunto de datos de interacciones problemáticas anotadas con agentes de IA, construido a partir de una revisión sistemática de incidentes reportados públicamente. Al analizar daños, causas y peligros específicamente desde la perspectiva del implementador, encontramos que el daño reputacional constituye el principal daño organizacional, mientras que la desinformación emerge como la categoría de peligro más común. Evaluamos empíricamente los sistemas de protección y moderación de contenido más avanzados para determinar si dichos sistemas habrían prevenido los incidentes, revelando una brecha significativa en la protección de las aplicaciones de IA.

English

Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

RealHarm: Una colección de fallos en aplicaciones del mundo real de modelos de lenguaje

RealHarm: A Collection of Real-World Language Model Application Failures

Resumen

Support