ChatPaper.aiChatPaper

RealHarm: Сборник реальных случаев сбоев в применении языковых моделей

RealHarm: A Collection of Real-World Language Model Application Failures

April 14, 2025
Авторы: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI

Аннотация

Развертывание языковых моделей в приложениях, ориентированных на потребителей, сопряжено с многочисленными рисками. Хотя существующие исследования о вреде и опасностях таких приложений основываются на подходах "сверху вниз", заимствованных из регуляторных рамок и теоретических анализов, эмпирические данные о реальных сбоях остаются недостаточно изученными. В данной работе мы представляем RealHarm — набор данных с аннотированными проблемными взаимодействиями с ИИ-агентами, созданный на основе систематического анализа публично сообщенных инцидентов. Анализируя вред, причины и опасности с точки зрения разработчиков, мы обнаруживаем, что ущерб репутации является преобладающим организационным вредом, а дезинформация выделяется как наиболее распространенная категория опасностей. Мы эмпирически оцениваем современные системы защиты и модерации контента, чтобы проверить, могли ли такие системы предотвратить инциденты, и выявляем значительный пробел в защите ИИ-приложений.
English
Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

Summary

AI-Generated Summary

PDF113April 16, 2025