DaMo : Optimiseur de Mélange de Données pour le Réglage Fin des Modèles Multimodaux de Grande Taille pour les Agents de Téléphonie Mobile

papers.abstract

Les Agents de Téléphonie Mobile (MPAs) sont apparus comme une direction de recherche prometteuse en raison de leur applicabilité étendue à divers scénarios. Bien que les Modèles de Langage Multimodaux de Grande Taille (MLLMs) constituent la base des MPAs, leur efficacité à gérer simultanément plusieurs tâches sur téléphone mobile reste limitée. Bien que le fine-tuning supervisé multitâche (SFT) soit largement adopté pour l'apprentissage multitâche, les approches existantes peinent à déterminer les compositions optimales de données d'entraînement pour atteindre des performances maximales. Pour relever ce défi, nous proposons DaMo (Data Mixture Optimizer) – une solution novatrice utilisant un réseau entraînable qui prédit les mélanges de données optimaux en anticipant les performances des tâches en aval pour tout ratio de jeu de données donné. Pour soutenir une évaluation complète, nous introduisons PhoneAgentBench, le premier benchmark spécialisé pour évaluer les MLLMs sur des tâches multimodales de téléphonie mobile, comprenant 1235 paires de questions-réponses couvrant divers scénarios industriels réels d'applications mobiles. Démontrant une forte capacité prédictive (R²=0,81) dans des expériences pilotes à petite échelle, DaMo extrapole efficacement les configurations optimales de mélange de données. Nos résultats montrent que DaMo améliore les performances de 3,38 % sur PhoneAgentBench par rapport aux méthodes alternatives. De plus, des expériences approfondies sur des benchmarks établis, notamment BFCL-v3, MME-Reasoning, MME-Perception et OCRBench, révèlent la supériorité de généralisation de DaMo, surpassant les autres approches de 2,57 % en termes de score moyen. Lorsqu'il est utilisé uniquement pour l'optimisation des MLLMs sur la tâche BFCL-v3, DaMo améliore les métriques de 12,47 % par rapport aux autres méthodes. Notamment, DaMo maintient une robuste scalabilité, préservant son efficacité lorsqu'il est appliqué à d'autres architectures de modèles. Le code et le jeu de données sont disponibles à l'adresse https://github.com/OPPO-Mente-Lab/DaMo.git.

English

Mobile Phone Agents (MPAs) have emerged as a promising research direction due to their broad applicability across diverse scenarios. While Multimodal Large Language Models (MLLMs) serve as the foundation for MPAs, their effectiveness in handling multiple mobile phone tasks simultaneously remains limited. Although multitask supervised fine-tuning (SFT) is widely adopted for multitask learning, existing approaches struggle to determine optimal training data compositions for peak performance. To address this challenge, we propose DaMo (Data Mixture Optimizer) - a novel solution employing a trainable network that predicts optimal data mixtures by forecasting downstream task performance for any given dataset ratio. To support comprehensive evaluation, we introduce PhoneAgentBench, the first specialized benchmark to evaluate MLLMs on multimodal mobile phone tasks, comprising 1235 QA pairs spanning diverse real-world industrial mobile application scenarios. Demonstrating strong predictive capability (R^2=0.81) in small-scale pilot experiments, DaMo efficiently extrapolates optimal data mixing configurations. Our results show DaMo achieves a 3.38% performance improvement on PhoneAgentBench compared to alternative methods. Furthermore, extensive experiments across established benchmarks including BFCL-v3, MME-Reasoning, MME-Perception, and OCRBench reveal DaMo's superior generalization, outperforming other approaches by 2.57% in terms of average score. When used solely for MLLM optimization on the BFCL-v3 task, DaMo improves the metrics by 12.47% than other methods. Notably, DaMo maintains robust scalability, preserving its effectiveness when applied to other model architectures. The code and dataset are available at https://github.com/OPPO-Mente-Lab/DaMo.git

DaMo : Optimiseur de Mélange de Données pour le Réglage Fin des Modèles Multimodaux de Grande Taille pour les Agents de Téléphonie Mobile

DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

papers.abstract

Support