MLLM в качестве судьи для безопасности изображений без маркировки людей
MLLM-as-a-Judge for Image Safety without Human Labeling
December 31, 2024
Авторы: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI
Аннотация
Безопасность контента изображений стала значительным вызовом с появлением
визуальных материалов на онлайн-платформах. Тем временем, в эпоху генерации контента с использованием искусственного интеллекта
(AIGC) многие модели генерации изображений способны создавать вредный контент,
такой как изображения, содержащие сексуальный или насильственный материал. Поэтому становится критически важным
идентифицировать такие небезопасные изображения на основе установленных правил безопасности. Предварительно обученные
мультимодальные модели с большим языковым объемом (MLLM) предлагают потенциал в этом отношении, учитывая
их сильные способности распознавания шаблонов. Существующие подходы обычно
настраивают MLLM с помощью наборов данных, размеченных людьми, что однако приносит ряд
недостатков. Во-первых, полагаться на человеческих аннотаторов для разметки данных в соответствии с тонкими
и детальными руководствами является как дорогостоящим, так и трудоемким. Кроме того,
пользователям систем оценки безопасности может потребоваться частое обновление правил безопасности,
что делает настройку на основе аннотации, выполненной людьми, более сложной. Это порождает
исследовательский вопрос: можем ли мы обнаружить небезопасные изображения, обращаясь к MLLM в нулевой ситуации
использования с заранее определенной конституцией безопасности (набор правил безопасности)? Наши
исследования показали, что простое обращение к предварительно обученным MLLM не дает
удовлетворительных результатов. Этот недостаток эффективности обусловлен такими факторами, как
субъективность правил безопасности, сложность длинных конституций и
врожденные предвзятости моделей. Для преодоления этих вызовов мы предлагаем
метод на основе MLLM, который включает объективизацию правил безопасности, оценку соответствия
между правилами и изображениями, быстрые оценки на основе вероятностей дебиасированных токенов с логически полными, но упрощенными цепочками предусловий для
правил безопасности, а также проведение более глубокого рассуждения с помощью каскадных
цепочек мыслей при необходимости. Результаты экспериментов показывают, что
наш метод является очень эффективным для задач оценки безопасности изображений в нулевой ситуации.
English
Image content safety has become a significant challenge with the rise of
visual media on online platforms. Meanwhile, in the age of AI-generated content
(AIGC), many image generation models are capable of producing harmful content,
such as images containing sexual or violent material. Thus, it becomes crucial
to identify such unsafe images based on established safety rules. Pre-trained
Multimodal Large Language Models (MLLMs) offer potential in this regard, given
their strong pattern recognition abilities. Existing approaches typically
fine-tune MLLMs with human-labeled datasets, which however brings a series of
drawbacks. First, relying on human annotators to label data following intricate
and detailed guidelines is both expensive and labor-intensive. Furthermore,
users of safety judgment systems may need to frequently update safety rules,
making fine-tuning on human-based annotation more challenging. This raises the
research question: Can we detect unsafe images by querying MLLMs in a zero-shot
setting using a predefined safety constitution (a set of safety rules)? Our
research showed that simply querying pre-trained MLLMs does not yield
satisfactory results. This lack of effectiveness stems from factors such as the
subjectivity of safety rules, the complexity of lengthy constitutions, and the
inherent biases in the models. To address these challenges, we propose a
MLLM-based method includes objectifying safety rules, assessing the relevance
between rules and images, making quick judgments based on debiased token
probabilities with logically complete yet simplified precondition chains for
safety rules, and conducting more in-depth reasoning with cascaded
chain-of-thought processes if necessary. Experiment results demonstrate that
our method is highly effective for zero-shot image safety judgment tasks.