RealHarm: Een verzameling van real-world fouten in toepassingen van taalmodellen

Samenvatting

De implementatie van taalmodeltoepassingen in consumentgerichte applicaties brengt talrijke risico's met zich mee. Hoewel bestaand onderzoek naar schade en gevaren van dergelijke toepassingen top-down benaderingen volgt die zijn afgeleid van regelgevende kaders en theoretische analyses, blijft empirisch bewijs van real-world foutmodi onderbelicht. In dit werk introduceren we RealHarm, een dataset van geannoteerde problematische interacties met AI-agents, opgebouwd uit een systematische review van openbaar gerapporteerde incidenten. Door schade, oorzaken en gevaren specifiek vanuit het perspectief van de implementeerder te analyseren, constateren we dat reputatieschade de overheersende organisatorische schade vormt, terwijl desinformatie naar voren komt als de meest voorkomende categorie van gevaar. We evalueren empirisch state-of-the-art beveiligingsmaatregelen en contentmoderatiesystemen om te onderzoeken of dergelijke systemen de incidenten hadden kunnen voorkomen, wat een aanzienlijke kloof in de bescherming van AI-toepassingen aan het licht brengt.

English

Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

RealHarm: Een verzameling van real-world fouten in toepassingen van taalmodellen

RealHarm: A Collection of Real-World Language Model Application Failures

Samenvatting

Support