Rapport de sécurité sur GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro et Seedream 4.5
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
January 15, 2026
papers.authors: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI
papers.abstract
L'évolution rapide des modèles de langage de grande taille (LLM) et des modèles de langage multimodaux de grande taille (MLLM) a engendré des progrès substantiels en matière de raisonnement, de perception et de capacité générative à travers le langage et la vision. Cependant, il reste incertain si ces avancées se traduisent par des améliorations proportionnelles en termes de sécurité, en partie à cause de pratiques d'évaluation fragmentées limitées à des modalités ou des modèles de menace uniques. Dans ce rapport, nous présentons une évaluation intégrée de la sécurité de 7 modèles de pointe : GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro et Seedream 4.5. Nous évaluons chaque modèle dans des contextes de langage, de vision-langage et de génération d'images en utilisant un protocole unifié qui intègre l'évaluation par benchmark, l'évaluation adversarial, l'évaluation multilingue et l'évaluation de la conformité. L'agrégation de nos évaluations en tableaux de classement de sécurité et en profils de sécurité des modèles à travers plusieurs modes d'évaluation révèle un paysage de sécurité extrêmement hétérogène. Alors que GPT-5.2 démontre une performance de sécurité constamment solide et équilibrée à travers les évaluations, d'autres modèles présentent des compromis prononcés entre la sécurité sur les benchmarks, l'alignement adversarial, la généralisation multilingue et la conformité réglementaire. Les modalités de langage et de vision-langage présentent toutes deux une vulnérabilité significative sous évaluation adversarial, tous les modèles se dégradant substantiellement malgré de bons résultats sur les benchmarks standards. Les modèles de génération d'images à partir de texte atteignent un alignement relativement plus fort dans les catégories de risques visuels réglementés, mais restent fragiles face à des prompts adversarial ou sémantiquement ambigus. Globalement, ces résultats montrent que la sécurité des modèles de pointe est intrinsèquement multidimensionnelle – façonnée par la modalité, la langue et le schéma d'évaluation – soulignant la nécessité d'évaluations de sécurité standardisées pour évaluer précisément le risque réel et guider le développement et le déploiement responsables des modèles.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.