ChatPaper.aiChatPaper

GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 안전성 보고서

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

January 15, 2026
저자: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI

초록

대규모 언어 모델(LLM) 및 다중 모달 대규모 언어 모델(MLLM)의 급속한 발전은 언어와 비전 분야 전반에 걸쳐 추론, 인지 및 생성 능력에서 상당한 향상을 가져왔습니다. 그러나 이러한 발전이 안전성 측면에서도 비례하는 개선을 이루는지는 여전히 불분명한데, 이는 부분적으로 단일 모달리티나 위협 모델에 국한된 단편적인 평가 관행 때문입니다. 본 보고서에서는 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개의 최첨단 모델에 대한 통합 안전성 평가를 제시합니다. 우리는 벤치마크 평가, 적대적 평가, 다국어 평가, 규제 준수 평가를 통합한 일관된 프로토콜을 사용하여 각 모델을 언어, 비전-언어, 이미지 생성 설정에 걸쳐 평가합니다. 여러 평가 모드에서 얻은 결과를 안전성 순위표와 모델 안전성 프로필로 종합해 보면 현저히 이질적인 안전성 현황이 드러납니다. GPT-5.2는 모든 평가에서 일관되게 강력하고 균형 잡힌 안전성 성능을 보여주는 반면, 다른 모델들은 벤치마크 안전성, 적대적 정렬, 다국어 일반화, 규제 준수 간에 뚜렷한 트레이드오프를 보입니다. 언어 및 비전-언어 모달리티 모두 적대적 평가에서 상당한 취약성을 나타냈으며, 모든 모델이 표준 벤치마크에서는 강력한 결과를 보였음에도 불구하고 성능이 크게 저하되었습니다. 텍스트-이미지 모델은 규제된 시각적 위험 범주에서 상대적으로 더 강한 정렬을 달성했지만, 적대적이거나 의미적으로 모호한 프롬프트 아래에서는 여전히 취약하게 남아있었습니다. 전반적으로, 이러한 결과는 최첨단 모델의 안전성은 본질적으로 다차원적이며—모달리티, 언어, 평가 방식에 의해 형성됨을 보여주며, 이는 실제 위험을 정확하게 평가하고 책임 있는 모델 개발 및 배포를 안내하기 위해 표준화된 안전성 평가의 필요성을 강조합니다.
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.
PDF161January 17, 2026