Отчет о безопасности GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro и Seedream 4.5
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
January 15, 2026
Авторы: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI
Аннотация
Быстрая эволюция больших языковых моделей (LLM) и мультимодальных больших языковых моделей (MLLM) привела к значительному прогрессу в области рассуждений, восприятия и генеративных способностей в сферах языка и зрения. Однако остается неясным, приводят ли эти достижения к соразмерному улучшению безопасности, отчасти из-за фрагментированных практик оценки, ограниченных отдельными модальностями или моделями угроз. В данном отчете мы представляем комплексную оценку безопасности 7 передовых моделей: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro и Seedream 4.5. Мы оцениваем каждую модель в языковых, визуально-языковых условиях и условиях генерации изображений, используя единый протокол, который интегрирует бенчмарк-оценку, адверсарную оценку, мультиязычную оценку и оценку соответствия. Агрегирование наших оценок в рейтинги безопасности и профили безопасности моделей по множеству режимов оценки выявляет резко неоднородную картину безопасности. В то время как GPT-5.2 демонстрирует стабильно высокую и сбалансированную производительность по безопасности во всех оценках, другие модели показывают выраженные компромиссы между бенчмарк-безопасностью, адверсарным соответствием, мультиязычным обобщением и нормативным соответствием. Как языковые, так и визуально-языковые модальности демонстрируют значительную уязвимость при адверсарной оценке, при этом все модели существенно деградируют, несмотря на сильные результаты в стандартных бенчмарках. Модели для генерации изображений по тексту достигают относительно более сильного соответствия в регулируемых визуальных категориях риска, но остаются хрупкими при адверсарных или семантически неоднозначных промптах. В целом, эти результаты показывают, что безопасность передовых моделей по своей природе многомерна — она формируется модальностью, языком и схемой оценки, что подчеркивает необходимость стандартизированных оценок безопасности для точного определения рисков в реальном мире и руководства ответственной разработкой и развертыванием моделей.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.