RealHarm: Сборник реальных случаев сбоев в применении языковых моделей
RealHarm: A Collection of Real-World Language Model Application Failures
April 14, 2025
Авторы: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI
Аннотация
Развертывание языковых моделей в приложениях, ориентированных на потребителей, сопряжено с многочисленными рисками. Хотя существующие исследования о вреде и опасностях таких приложений основываются на подходах "сверху вниз", заимствованных из регуляторных рамок и теоретических анализов, эмпирические данные о реальных сбоях остаются недостаточно изученными. В данной работе мы представляем RealHarm — набор данных с аннотированными проблемными взаимодействиями с ИИ-агентами, созданный на основе систематического анализа публично сообщенных инцидентов. Анализируя вред, причины и опасности с точки зрения разработчиков, мы обнаруживаем, что ущерб репутации является преобладающим организационным вредом, а дезинформация выделяется как наиболее распространенная категория опасностей. Мы эмпирически оцениваем современные системы защиты и модерации контента, чтобы проверить, могли ли такие системы предотвратить инциденты, и выявляем значительный пробел в защите ИИ-приложений.
English
Language model deployments in consumer-facing applications introduce numerous
risks. While existing research on harms and hazards of such applications
follows top-down approaches derived from regulatory frameworks and theoretical
analyses, empirical evidence of real-world failure modes remains underexplored.
In this work, we introduce RealHarm, a dataset of annotated problematic
interactions with AI agents built from a systematic review of publicly reported
incidents. Analyzing harms, causes, and hazards specifically from the
deployer's perspective, we find that reputational damage constitutes the
predominant organizational harm, while misinformation emerges as the most
common hazard category. We empirically evaluate state-of-the-art guardrails and
content moderation systems to probe whether such systems would have prevented
the incidents, revealing a significant gap in the protection of AI
applications.Summary
AI-Generated Summary