ChatPaper.aiChatPaper

GPT-5.2、Gemini 3 Pro、Qwen3-VL、Doubao 1.8、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5に関する安全性報告書

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

January 15, 2026
著者: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang
cs.AI

要旨

大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の急速な進化は、言語と視覚における推論、知覚、生成能力において著しい向上をもたらしている。しかし、これらの進歩が安全性においても同等の改善をもたらすかどうかは、一部では単一モダリティや脅威モデルに限定された断片的な評価慣行のため、未だ不明確である。本報告書では、7つのフロンティアモデル(GPT-5.2、Gemini 3 Pro、Qwen3-VL、Doubao 1.8、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5)に対する統合的な安全性評価を提示する。ベンチマーク評価、敵対的評価、多言語評価、コンプライアンス評価を統合した統一プロトコルを用いて、各モデルを言語、視覚言語、画像生成の設定にわたって評価した。 複数の評価モードにわたる評価結果を安全性ランキングとモデル安全性プロファイルに集約した結果、安全性の状況が極めて不均一であることが明らかになった。GPT-5.2は全ての評価で一貫して強力かつバランスの取れた安全性パフォーマンスを示した一方、他のモデルでは、ベンチマーク安全性、敵対的アラインメント、多言語汎化、規制準拠の間で顕著なトレードオフが認められた。言語モダリティと視覚言語モダリティの両方は、敵対的評価において著しい脆弱性を示し、標準ベンチマークで強力な結果を得ているにもかかわらず、全てのモデルが大幅に性能を低下させた。テキストから画像への生成モデルは、規制対象の視覚的リスクカテゴリーにおいて比較的強力なアラインメントを達成したが、敵対的または意味的に曖昧なプロンプトに対しては依然として脆弱であった。 全体として、これらの結果は、フロンティアモデルの安全性が本質的に多次元であり(モダリティ、言語、評価手法によって形成される)、現実世界のリスクを正確に評価し、責任あるモデルの開発と展開を導くためには、標準化された安全性評価の必要性が極めて高いことを示唆している。
English
The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.
PDF161January 17, 2026