RealHarm: Een verzameling van real-world fouten in toepassingen van taalmodellen
RealHarm: A Collection of Real-World Language Model Application Failures
April 14, 2025
Auteurs: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI
Samenvatting
De implementatie van taalmodeltoepassingen in consumentgerichte applicaties brengt talrijke risico's met zich mee. Hoewel bestaand onderzoek naar schade en gevaren van dergelijke toepassingen top-down benaderingen volgt die zijn afgeleid van regelgevende kaders en theoretische analyses, blijft empirisch bewijs van real-world foutmodi onderbelicht. In dit werk introduceren we RealHarm, een dataset van geannoteerde problematische interacties met AI-agents, opgebouwd uit een systematische review van openbaar gerapporteerde incidenten. Door schade, oorzaken en gevaren specifiek vanuit het perspectief van de implementeerder te analyseren, constateren we dat reputatieschade de overheersende organisatorische schade vormt, terwijl desinformatie naar voren komt als de meest voorkomende categorie van gevaar. We evalueren empirisch state-of-the-art beveiligingsmaatregelen en contentmoderatiesystemen om te onderzoeken of dergelijke systemen de incidenten hadden kunnen voorkomen, wat een aanzienlijke kloof in de bescherming van AI-toepassingen aan het licht brengt.
English
Language model deployments in consumer-facing applications introduce numerous
risks. While existing research on harms and hazards of such applications
follows top-down approaches derived from regulatory frameworks and theoretical
analyses, empirical evidence of real-world failure modes remains underexplored.
In this work, we introduce RealHarm, a dataset of annotated problematic
interactions with AI agents built from a systematic review of publicly reported
incidents. Analyzing harms, causes, and hazards specifically from the
deployer's perspective, we find that reputational damage constitutes the
predominant organizational harm, while misinformation emerges as the most
common hazard category. We empirically evaluate state-of-the-art guardrails and
content moderation systems to probe whether such systems would have prevented
the incidents, revealing a significant gap in the protection of AI
applications.