ChatPaper.aiChatPaper

Rapporto sulla Sicurezza di GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro e Seedream 4.5

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

January 15, 2026
Autori: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI

Abstract

La rapida evoluzione dei Large Language Model (LLM) e dei Modelli Linguistici Multimodali (MLLM) ha prodotto significativi progressi nelle capacità di ragionamento, percezione e generazione attraverso linguaggio e visione. Tuttavia, rimane incerto se questi avanzamenti comportino miglioramenti proporzionali nella sicurezza, in parte a causa di pratiche valutative frammentate limitate a singole modalità o modelli di minaccia. In questo rapporto, presentiamo una valutazione integrata della sicurezza di 7 modelli all'avanguardia: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro e Seedream 4.5. Valutiamo ciascun modello in contesti linguistici, visivo-linguistici e di generazione di immagini utilizzando un protocollo unificato che integra valutazioni benchmark, valutazioni adversarial, valutazioni multilingue e valutazioni di conformità. L'aggregazione delle nostre valutazioni in classifiche di sicurezza e profili di sicurezza dei modelli attraverso molteplici modalità valutative rivela un panorama della sicurezza estremamente eterogeneo. Mentre GPT-5.2 dimostra prestazioni di sicurezza costantemente solide ed equilibrate in tutte le valutazioni, altri modelli mostrano compromessi pronunciati tra sicurezza benchmark, allineamento adversarial, generalizzazione multilingue e conformità normativa. Sia le modalità linguistiche che visivo-linguistiche mostrano significative vulnerabilità sotto valutazione adversarial, con tutti i modelli che si degradano sostanzialmente nonostante i forti risultati sui benchmark standard. I modelli text-to-image raggiungono un allineamento relativamente più forte nelle categorie di rischio visivo regolamentate, ma rimangono fragili quando sottoposti a prompt adversarial o semanticamente ambigui. Nel complesso, questi risultati dimostrano che la sicurezza nei modelli di frontiera è intrinsecamente multidimensionale – plasmata da modalità, linguaggio e schema valutativo – sottolineando la necessità di valutazioni di sicurezza standardizzate per valutare accuratamente il rischio nel mondo reale e guidare uno sviluppo e dispiegamento responsabile dei modelli.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.
PDF242February 8, 2026