ChatPaper.aiChatPaper

AndesVL技術レポート:効率的なモバイル向けマルチモーダル大規模言語モデル

AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

October 13, 2025
著者: Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu
cs.AI

要旨

近年、QwenVL、InternVL、GPT-4o、Gemini、Claude SonnetなどのクラウドベースのMLLM(大規模言語モデル)は、数千億パラメータに及ぶ巨大なモデルサイズで優れた性能を発揮していますが、これらはメモリ、電力消費、計算能力の面で、スマートフォンなどのエッジデバイスの制限を大幅に超えています。本論文では、Qwen3のLLMと様々な視覚エンコーダーに基づく、0.6Bから4Bパラメータのモバイル向けMLLMスイートであるAndesVLを紹介します。AndesVLのモデルアーキテクチャ、トレーニングパイプライン、トレーニングデータを包括的に概説し、テキスト豊富な画像理解、推論と数学、複数画像理解、一般的なVQA、幻覚緩和、多言語理解、GUI関連タスクなどの幅広いオープンソースベンチマークにおいて、同規模の最先端モデルと比較して第一線の性能を達成しています。さらに、1+N LoRA(Low-Rank Adaptation)を導入し、
English
In recent years, while cloud-based MLLMs such as QwenVL, InternVL, GPT-4o, Gemini, and Claude Sonnet have demonstrated outstanding performance with enormous model sizes reaching hundreds of billions of parameters, they significantly surpass the limitations in memory, power consumption, and computing capacity of edge devices such as mobile phones. This paper introduces AndesVL, a suite of mobile-side MLLMs with 0.6B to 4B parameters based on Qwen3's LLM and various visual encoders. We comprehensively outline the model architectures, training pipeline, and training data of AndesVL, which achieves first-tier performance across a wide range of open-source benchmarks, including fields such as text-rich image understanding, reasoning and math, multi-image comprehension, general VQA, hallucination mitigation, multilingual understanding, and GUI-related tasks when compared with state-of-the-art models of a similar scale. Furthermore, we introduce a 1+N LoR
PDF32October 14, 2025