ChatPaper.aiChatPaper

Informe de Seguridad sobre GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro y Seedream 4.5

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

January 15, 2026
Autores: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI

Resumen

La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLM) y los Modelos de Lenguaje Multimodales a Gran Escala (MLLM) ha generado avances sustanciales en capacidades de razonamiento, percepción y generación a través del lenguaje y la visión. Sin embargo, si estos avances producen mejoras proporcionales en seguridad sigue sin estar claro, en parte debido a prácticas de evaluación fragmentadas limitadas a modalidades o modelos de amenaza únicos. En este informe, presentamos una evaluación de seguridad integrada de 7 modelos de vanguardia: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro y Seedream 4.5. Evaluamos cada modelo en entornos de lenguaje, lenguaje-visión y generación de imágenes utilizando un protocolo unificado que integra evaluación comparativa (*benchmark*), evaluación adversarial, evaluación multilingüe y evaluación de cumplimiento normativo. La agregación de nuestras evaluaciones en tablas de clasificación de seguridad y perfiles de seguridad de los modelos a través de múltiples modos de evaluación revela un panorama de seguridad marcadamente heterogéneo. Mientras que GPT-5.2 demuestra un rendimiento de seguridad consistentemente sólido y equilibrado en todas las evaluaciones, otros modelos exhiben compensaciones pronunciadas entre la seguridad en *benchmarks*, la alineación adversarial, la generalización multilingüe y el cumplimiento normativo. Tanto las modalidades de lenguaje como las de lenguaje-visión muestran una vulnerabilidad significativa bajo evaluación adversarial, degradándose sustancialmente todos los modelos a pesar de los fuertes resultados en *benchmarks* estándar. Los modelos de texto a imagen logran una alineación relativamente más fuerte en categorías de riesgo visual reguladas, pero permanecen frágiles ante instrucciones adversariales o semánticamente ambiguas. En general, estos resultados muestran que la seguridad en los modelos de vanguardia es inherentemente multidimensional—configurada por la modalidad, el idioma y el esquema de evaluación—, lo que subraya la necesidad de evaluaciones de seguridad estandarizadas para valorar con precisión el riesgo en el mundo real y guiar el desarrollo y despliegue responsable de modelos.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.
PDF161January 17, 2026