DaMo : Optimiseur de Mélange de Données pour le Réglage Fin des Modèles Multimodaux de Grande Taille pour les Agents de Téléphonie Mobile
DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents
October 22, 2025
papers.authors: Kai Shi, Jun Yang, Ni Yang, Binqiang Pan, Qingsong Xie, Chao Zhang, Zhenyu Yang, Tianhuang Su, Haonan Lu
cs.AI
papers.abstract
Les Agents de Téléphonie Mobile (MPAs) sont apparus comme une direction de recherche prometteuse en raison de leur applicabilité étendue à divers scénarios. Bien que les Modèles de Langage Multimodaux de Grande Taille (MLLMs) constituent la base des MPAs, leur efficacité à gérer simultanément plusieurs tâches sur téléphone mobile reste limitée. Bien que le fine-tuning supervisé multitâche (SFT) soit largement adopté pour l'apprentissage multitâche, les approches existantes peinent à déterminer les compositions optimales de données d'entraînement pour atteindre des performances maximales. Pour relever ce défi, nous proposons DaMo (Data Mixture Optimizer) – une solution novatrice utilisant un réseau entraînable qui prédit les mélanges de données optimaux en anticipant les performances des tâches en aval pour tout ratio de jeu de données donné. Pour soutenir une évaluation complète, nous introduisons PhoneAgentBench, le premier benchmark spécialisé pour évaluer les MLLMs sur des tâches multimodales de téléphonie mobile, comprenant 1235 paires de questions-réponses couvrant divers scénarios industriels réels d'applications mobiles. Démontrant une forte capacité prédictive (R²=0,81) dans des expériences pilotes à petite échelle, DaMo extrapole efficacement les configurations optimales de mélange de données. Nos résultats montrent que DaMo améliore les performances de 3,38 % sur PhoneAgentBench par rapport aux méthodes alternatives. De plus, des expériences approfondies sur des benchmarks établis, notamment BFCL-v3, MME-Reasoning, MME-Perception et OCRBench, révèlent la supériorité de généralisation de DaMo, surpassant les autres approches de 2,57 % en termes de score moyen. Lorsqu'il est utilisé uniquement pour l'optimisation des MLLMs sur la tâche BFCL-v3, DaMo améliore les métriques de 12,47 % par rapport aux autres méthodes. Notamment, DaMo maintient une robuste scalabilité, préservant son efficacité lorsqu'il est appliqué à d'autres architectures de modèles. Le code et le jeu de données sont disponibles à l'adresse https://github.com/OPPO-Mente-Lab/DaMo.git.
English
Mobile Phone Agents (MPAs) have emerged as a promising research direction due
to their broad applicability across diverse scenarios. While Multimodal Large
Language Models (MLLMs) serve as the foundation for MPAs, their effectiveness
in handling multiple mobile phone tasks simultaneously remains limited.
Although multitask supervised fine-tuning (SFT) is widely adopted for multitask
learning, existing approaches struggle to determine optimal training data
compositions for peak performance. To address this challenge, we propose DaMo
(Data Mixture Optimizer) - a novel solution employing a trainable network that
predicts optimal data mixtures by forecasting downstream task performance for
any given dataset ratio. To support comprehensive evaluation, we introduce
PhoneAgentBench, the first specialized benchmark to evaluate MLLMs on
multimodal mobile phone tasks, comprising 1235 QA pairs spanning diverse
real-world industrial mobile application scenarios. Demonstrating strong
predictive capability (R^2=0.81) in small-scale pilot experiments, DaMo
efficiently extrapolates optimal data mixing configurations. Our results show
DaMo achieves a 3.38% performance improvement on PhoneAgentBench compared to
alternative methods. Furthermore, extensive experiments across established
benchmarks including BFCL-v3, MME-Reasoning, MME-Perception, and OCRBench
reveal DaMo's superior generalization, outperforming other approaches by 2.57%
in terms of average score. When used solely for MLLM optimization on the
BFCL-v3 task, DaMo improves the metrics by 12.47% than other methods. Notably,
DaMo maintains robust scalability, preserving its effectiveness when applied to
other model architectures. The code and dataset are available at
https://github.com/OPPO-Mente-Lab/DaMo.git