Relatório de Segurança sobre GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro e Seedream 4.5
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
January 15, 2026
Autores: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI
Resumo
A rápida evolução dos Modelos de Linguagem de Grande Porte (LLMs) e dos Modelos Multimodais de Linguagem de Grande Porte (MLLMs) tem produzido ganhos substanciais em capacidade de raciocínio, percepção e geração através da linguagem e da visão. No entanto, permanece incerto se esses avanços resultam em melhorias proporcionais em segurança, em parte devido a práticas de avaliação fragmentadas, limitadas a modalidades ou modelos de ameaça únicos. Neste relatório, apresentamos uma avaliação integrada de segurança de 7 modelos de fronteira: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro e Seedream 4.5. Avaliamos cada modelo em configurações de linguagem, visão-linguagem e geração de imagens usando um protocolo unificado que integra avaliação de benchmark, avaliação adversarial, avaliação multilingue e avaliação de conformidade. A agregação das nossas avaliações em rankings de segurança e perfis de segurança dos modelos através de múltiplos modos de avaliação revela um panorama de segurança acentuadamente heterogéneo. Enquanto o GPT-5.2 demonstra um desempenho de segurança consistentemente forte e equilibrado através das avaliações, outros modelos exibem trade-offs pronunciados entre segurança em benchmark, alinhamento adversarial, generalização multilingue e conformidade regulatória. Tanto as modalidades de linguagem como as de visão-linguagem mostram vulnerabilidade significativa sob avaliação adversarial, com todos os modelos a degradarem-se substancialmente apesar de fortes resultados em benchmarks padrão. Os modelos de texto-para-imagem alcançam um alinhamento relativamente mais forte em categorias de risco visual regulamentadas, mas permanecem frágeis sob instruções (prompts) adversarialmente elaboradas ou semanticamente ambíguas. No geral, estes resultados mostram que a segurança nos modelos de fronteira é inerentemente multidimensional – moldada pela modalidade, idioma e esquema de avaliação, sublinhando a necessidade de avaliações de segurança padronizadas para avaliar com precisão o risco no mundo real e orientar o desenvolvimento e implementação responsável de modelos.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.