ChatPaper.aiChatPaper

RealHarm: Uma Coleção de Falhas Reais na Aplicação de Modelos de Linguagem

RealHarm: A Collection of Real-World Language Model Application Failures

April 14, 2025
Autores: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI

Resumo

A implantação de modelos de linguagem em aplicações voltadas ao consumidor introduz inúmeros riscos. Embora pesquisas existentes sobre danos e perigos dessas aplicações sigam abordagens de cima para baixo derivadas de frameworks regulatórios e análises teóricas, evidências empíricas de modos de falha no mundo real permanecem pouco exploradas. Neste trabalho, apresentamos o RealHarm, um conjunto de dados de interações problemáticas anotadas com agentes de IA, construído a partir de uma revisão sistemática de incidentes relatados publicamente. Analisando danos, causas e perigos especificamente da perspectiva do implantador, descobrimos que danos à reputação constituem o principal dano organizacional, enquanto a desinformação emerge como a categoria de perigo mais comum. Avaliamos empiricamente sistemas de contenção e moderação de conteúdo de última geração para investigar se tais sistemas teriam evitado os incidentes, revelando uma lacuna significativa na proteção de aplicações de IA.
English
Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

Summary

AI-Generated Summary

PDF113April 16, 2025