ChatPaper.aiChatPaper

RealHarm: 실제 언어 모델 응용 실패 사례 모음집

RealHarm: A Collection of Real-World Language Model Application Failures

April 14, 2025
저자: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI

초록

소비자 대상 애플리케이션에서의 언어 모델 배포는 수많은 위험을 초래합니다. 이러한 애플리케이션의 해악과 위험에 대한 기존 연구는 규제 프레임워크와 이론적 분석에서 도출된 상향식 접근 방식을 따르지만, 실제 세계에서 발생하는 실패 사례에 대한 실증적 증거는 여전히 충분히 탐구되지 않고 있습니다. 본 연구에서는 공개적으로 보고된 사건들을 체계적으로 검토하여 구축된 AI 에이전트와의 문제 있는 상호작용을 주석 처리한 RealHarm 데이터셋을 소개합니다. 배포자의 관점에서 해악, 원인 및 위험을 분석한 결과, 평판 손상이 주요 조직적 해악으로 나타났으며, 잘못된 정보가 가장 흔한 위험 범주로 나타났습니다. 최첨단 안전 장치 및 콘텐츠 조정 시스템을 실증적으로 평가하여 이러한 시스템이 사건을 방지했을지 여부를 탐구한 결과, AI 애플리케이션의 보호에 있어 상당한 격차가 있음이 드러났습니다.
English
Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

Summary

AI-Generated Summary

PDF113April 16, 2025