ChatPaper.aiChatPaper

AndesVL Technischer Bericht: Ein effizientes mobiles multimodales großes Sprachmodell

AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

October 13, 2025
papers.authors: Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin, Haolin Deng, Xin Zou, Xiaojie Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Chao Liu, Qin Xie, Chen Chen, Haonan Lu
cs.AI

papers.abstract

In den letzten Jahren haben cloud-basierte MLLMs wie QwenVL, InternVL, GPT-4o, Gemini und Claude Sonnet mit enormen Modellgrößen von Hunderten von Milliarden Parametern herausragende Leistungen gezeigt, die jedoch die Grenzen in Bezug auf Speicher, Stromverbrauch und Rechenkapazität von Edge-Geräten wie Mobiltelefonen deutlich überschreiten. Dieses Papier stellt AndesVL vor, eine Suite von mobilen MLLMs mit 0,6B bis 4B Parametern, basierend auf Qwen3s LLM und verschiedenen visuellen Encodern. Wir skizzieren umfassend die Modellarchitekturen, den Trainingspipeline und die Trainingsdaten von AndesVL, das erstklassige Leistungen in einer Vielzahl von Open-Source-Benchmarks erzielt, darunter Bereiche wie das Verständnis von textreichen Bildern, Schlussfolgerungen und Mathematik, das Verständnis mehrerer Bilder, allgemeine VQA, die Reduzierung von Halluzinationen, mehrsprachiges Verständnis und GUI-bezogene Aufgaben im Vergleich zu state-of-the-art Modellen ähnlicher Größe. Darüber hinaus führen wir ein 1+N LoR
English
In recent years, while cloud-based MLLMs such as QwenVL, InternVL, GPT-4o, Gemini, and Claude Sonnet have demonstrated outstanding performance with enormous model sizes reaching hundreds of billions of parameters, they significantly surpass the limitations in memory, power consumption, and computing capacity of edge devices such as mobile phones. This paper introduces AndesVL, a suite of mobile-side MLLMs with 0.6B to 4B parameters based on Qwen3's LLM and various visual encoders. We comprehensively outline the model architectures, training pipeline, and training data of AndesVL, which achieves first-tier performance across a wide range of open-source benchmarks, including fields such as text-rich image understanding, reasoning and math, multi-image comprehension, general VQA, hallucination mitigation, multilingual understanding, and GUI-related tasks when compared with state-of-the-art models of a similar scale. Furthermore, we introduce a 1+N LoR
PDF32October 14, 2025