ChatPaper.aiChatPaper

Ein Sicherheitsbericht zu GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro und Seedream 4.5

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

January 15, 2026
papers.authors: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI

papers.abstract

Die rasante Entwicklung von Large Language Models (LLMs) und Multimodalen Large Language Models (MLLMs) hat zu erheblichen Fortschritten in den Bereichen logisches Denken, Wahrnehmung und generative Fähigkeiten in Sprache und Vision geführt. Es bleibt jedoch unklar, ob diese Fortschritte auch zu proportionalen Verbesserungen der Sicherheit führen, was teilweise auf fragmentierte Evaluierungspraktiken zurückzuführen ist, die sich auf einzelne Modalitäten oder Bedrohungsmodelle beschränken. In diesem Bericht präsentieren wir eine integrierte Sicherheitsbewertung von 7 Frontier-Modellen: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro und Seedream 4.5. Wir bewerten jedes Modell in den Bereichen Sprache, Sprach-Vision und Bildgenerierung anhand eines einheitlichen Protokolls, das Benchmark-Evaluierung, Adversarial-Evaluierung, mehrsprachige Evaluierung und Compliance-Evaluierung integriert. Die Zusammenfassung unserer Bewertungen in Sicherheits-Ranglisten und Modell-Sicherheitsprofilen über mehrere Evaluierungsmodi hinweg zeigt ein stark heterogenes Sicherheitslandschaftsbild. Während GPT-5.2 durchgängig starke und ausgewogene Sicherheitsleistungen über alle Evaluierungen hinweg demonstriert, weisen andere Modelle deutliche Zielkonflikte zwischen Benchmark-Sicherheit, adversarieller Ausrichtung, mehrsprachiger Generalisierung und regulatorischer Compliance auf. Sowohl Sprach- als auch Sprach-Vision-Modalitäten zeigen signifikante Verwundbarkeit unter adversarieller Evaluierung, wobei sich alle Modelle trotz starker Ergebnisse in Standard-Benchmarks erheblich verschlechtern. Text-zu-Bild-Modelle erreichen eine relativ stärkere Ausrichtung in regulierten visuellen Risikokategorien, bleiben jedoch unter adversariellen oder semantisch mehrdeutigen Prompts anfällig. Insgesamt zeigen diese Ergebnisse, dass die Sicherheit von Frontier-Modellen inhärent multidimensional ist – geprägt durch Modalität, Sprache und Evaluierungsschema. Dies unterstreicht die Notwendigkeit standardisierter Sicherheitsevaluierungen, um reale Risiken genau zu bewerten und eine verantwortungsvolle Modellentwicklung und -bereitstellung zu leiten.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.
PDF161January 17, 2026