ChatPaper.aiChatPaper

AndesVL Technisch Rapport: Een Efficiënt Mobiel Multimodaal Taalmodel op Grote Schaal

AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

October 13, 2025
Auteurs: Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu
cs.AI

Samenvatting

In de afgelopen jaren hebben cloudgebaseerde MLLM's zoals QwenVL, InternVL, GPT-4o, Gemini en Claude Sonnet uitstekende prestaties getoond met enorme modelgroottes die honderden miljarden parameters bereiken. Deze modellen overtreffen echter aanzienlijk de beperkingen in geheugen, stroomverbruik en rekenkracht van edge-apparaten zoals mobiele telefoons. Dit artikel introduceert AndesVL, een suite van mobiele MLLM's met 0,6 tot 4 miljard parameters, gebaseerd op Qwen3's LLM en verschillende visuele encoders. We geven een uitgebreid overzicht van de modelarchitecturen, de trainingspijplijn en de trainingsdata van AndesVL, dat toonaangevende prestaties behaalt op een breed scala aan open-source benchmarks, waaronder gebieden zoals tekstrijke beeldinterpretatie, redeneren en wiskunde, multi-beeldbegrip, algemene VQA, hallucinatiemitigatie, meertalig begrip en GUI-gerelateerde taken, vergeleken met state-of-the-art modellen van vergelijkbare schaal. Bovendien introduceren we een 1+N LoR
English
In recent years, while cloud-based MLLMs such as QwenVL, InternVL, GPT-4o, Gemini, and Claude Sonnet have demonstrated outstanding performance with enormous model sizes reaching hundreds of billions of parameters, they significantly surpass the limitations in memory, power consumption, and computing capacity of edge devices such as mobile phones. This paper introduces AndesVL, a suite of mobile-side MLLMs with 0.6B to 4B parameters based on Qwen3's LLM and various visual encoders. We comprehensively outline the model architectures, training pipeline, and training data of AndesVL, which achieves first-tier performance across a wide range of open-source benchmarks, including fields such as text-rich image understanding, reasoning and math, multi-image comprehension, general VQA, hallucination mitigation, multilingual understanding, and GUI-related tasks when compared with state-of-the-art models of a similar scale. Furthermore, we introduce a 1+N LoR
PDF32October 14, 2025