AndesVL 기술 보고서: 효율적인 모바일 측면 멀티모달 대규모 언어 모델
AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model
October 13, 2025
저자: Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu
cs.AI
초록
최근 몇 년 동안 QwenVL, InternVL, GPT-4o, Gemini, Claude Sonnet과 같은 클라우드 기반 MLLM(Multimodal Large Language Model)들은 수천억 개의 파라미터에 달하는 거대한 모델 크기로 뛰어난 성능을 보여주었지만, 이들은 스마트폰과 같은 엣지 디바이스의 메모리, 전력 소비, 컴퓨팅 용량 한계를 크게 초과합니다. 본 논문에서는 Qwen3의 LLM과 다양한 비주얼 인코더를 기반으로 0.6B에서 4B 파라미터 규모의 모바일 측면 MLLM 제품군인 AndesVL을 소개합니다. AndesVL의 모델 아키텍처, 학습 파이프라인, 학습 데이터를 포괄적으로 설명하며, 텍스트가 풍부한 이미지 이해, 추론 및 수학, 다중 이미지 이해, 일반 VQA(Visual Question Answering), 환각 완화, 다국어 이해, GUI 관련 작업 등 다양한 오픈소스 벤치마크에서 유사 규모의 최신 모델들과 비교하여 최상위 수준의 성능을 달성합니다. 또한, 1+N LoRA(Low-Rank Adaptation) 기법을 도입하여
English
In recent years, while cloud-based MLLMs such as QwenVL, InternVL, GPT-4o,
Gemini, and Claude Sonnet have demonstrated outstanding performance with
enormous model sizes reaching hundreds of billions of parameters, they
significantly surpass the limitations in memory, power consumption, and
computing capacity of edge devices such as mobile phones. This paper introduces
AndesVL, a suite of mobile-side MLLMs with 0.6B to 4B parameters based on
Qwen3's LLM and various visual encoders. We comprehensively outline the model
architectures, training pipeline, and training data of AndesVL, which achieves
first-tier performance across a wide range of open-source benchmarks, including
fields such as text-rich image understanding, reasoning and math, multi-image
comprehension, general VQA, hallucination mitigation, multilingual
understanding, and GUI-related tasks when compared with state-of-the-art models
of a similar scale. Furthermore, we introduce a 1+N LoR