ChatPaper.aiChatPaper

Закономерности масштабирования на основе возможностей для тестирования на уязвимости языковых моделей

Capability-Based Scaling Laws for LLM Red-Teaming

May 26, 2025
Авторы: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI

Аннотация

По мере роста возможностей и автономности крупных языковых моделей выявление уязвимостей с помощью методов "красного командования" становится критически важным для безопасного внедрения. Однако традиционные подходы, основанные на инженерии запросов, могут оказаться неэффективными, когда "красное командование" превращается в задачу "слабый против сильного", где целевые модели превосходят атакующих по возможностям. Чтобы изучить этот сдвиг, мы рассматриваем "красное командование" через призму разрыва в возможностях между атакующим и целью. Мы оцениваем более 500 пар "атакующий-цель", используя атаки на основе LLM, имитирующие действия человека-атакующего, для различных семейств, размеров и уровней возможностей моделей. Выявляются три устойчивые тенденции: (i) более мощные модели лучше справляются с атаками, (ii) успешность атак резко снижается, когда возможности цели превышают возможности атакующего, и (iii) уровень успешности атак коррелирует с высокой производительностью на разделах социальных наук в бенчмарке MMLU-Pro. На основе этих тенденций мы выводим закон масштабирования для взлома, который предсказывает успешность атаки для фиксированной цели в зависимости от разрыва в возможностях между атакующим и целью. Эти результаты свидетельствуют о том, что атакующие с фиксированными возможностями (например, люди) могут стать неэффективными против будущих моделей, растущие возможности моделей с открытым исходным кодом усиливают риски для существующих систем, а разработчики моделей должны точно измерять и контролировать способности моделей к убеждению и манипуляции, чтобы ограничить их эффективность в качестве атакующих.
English
As large language models grow in capability and agency, identifying vulnerabilities through red-teaming becomes vital for safe deployment. However, traditional prompt-engineering approaches may prove ineffective once red-teaming turns into a weak-to-strong problem, where target models surpass red-teamers in capabilities. To study this shift, we frame red-teaming through the lens of the capability gap between attacker and target. We evaluate more than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic human red-teamers across diverse families, sizes, and capability levels. Three strong trends emerge: (i) more capable models are better attackers, (ii) attack success drops sharply once the target's capability exceeds the attacker's, and (iii) attack success rates correlate with high performance on social science splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking scaling law that predicts attack success for a fixed target based on attacker-target capability gap. These findings suggest that fixed-capability attackers (e.g., humans) may become ineffective against future models, increasingly capable open-source models amplify risks for existing systems, and model providers must accurately measure and control models' persuasive and manipulative abilities to limit their effectiveness as attackers.

Summary

AI-Generated Summary

PDF32May 28, 2025