Veiligheidsrapport over GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro en Seedream 4.5
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
January 15, 2026
Auteurs: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI
Samenvatting
De snelle evolutie van Large Language Models (LLM's) en Multimodale Large Language Models (MLLM's) heeft aanzienlijke vooruitgang opgeleverd in redeneervermogen, perceptie en generatieve capaciteiten binnen taal en visie. Of deze ontwikkelingen evenredige verbeteringen in veiligheid opleveren, blijft echter onduidelijk, deels door gefragmenteerde evaluatiepraktijken die beperkt zijn tot enkele modaliteiten of bedreigingsmodellen. In dit rapport presenteren we een geïntegreerde veiligheidsevaluatie van 7 frontiermodellen: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro en Seedream 4.5. We evalueren elk model in taal-, visie-taal- en beeldgeneratie-instellingen met een uniform protocol dat benchmarkevaluatie, adversariële evaluatie, meertalige evaluatie en compliance-evaluatie integreert.
Door onze evaluaties samen te voegen in veiligheidsranglijsten en modelveiligheidsprofielen over meerdere evaluatiemodi ontstaat een sterk heterogeen veiligheidslandschap. Terwijl GPT-5.2 consistente, sterke en evenwichtige veiligheidsprestaties laat zien in alle evaluaties, vertonen andere modellen duidelijke afwegingen tussen benchmarkveiligheid, adversariële uitlijning, meertalige generalisatie en regelgevende naleving. Zowel taal- als visie-taalmodaliteiten vertonen aanzienlijke kwetsbaarheden onder adversariële evaluatie, waarbij alle modellen substantieel verslechteren ondanks sterke resultaten op standaardbenchmarks. Tekst-naar-beeldmodellen bereiken relatief sterkere uitlijning in gereguleerde visuele risicocategorieën, maar blijven broos onder adversariële of semantisch dubbelzinnige prompts.
Al met al tonen deze resultaten aan dat veiligheid in frontiermodellen inherent multidimensionaal is – gevormd door modaliteit, taal en evaluatieschema. Dit onderstreept de noodzaak van gestandaardiseerde veiligheidsevaluaties om real-world risico's accuraat in te schatten en verantwoorde modelontwikkeling en -implementatie te begeleiden.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.