ChatPaper.aiChatPaper

DaMo: 모바일 폰 에이전트를 위한 멀티모달 LLM 미세 조정에서의 데이터 혼합 최적화기

DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

October 22, 2025
저자: Kai Shi, Jun Yang, Ni Yang, Binqiang Pan, Qingsong Xie, Chao Zhang, Zhenyu Yang, Tianhuang Su, Haonan Lu
cs.AI

초록

모바일 폰 에이전트(MPAs)는 다양한 시나리오에 걸친 광범위한 적용 가능성으로 인해 유망한 연구 방향으로 부상했습니다. 다중모드 대형 언어 모델(MLLMs)이 MPAs의 기반을 이루고 있지만, 여러 모바일 폰 작업을 동시에 처리하는 데 있어서는 여전히 한계가 있습니다. 다중 작업 학습을 위해 다중 작업 지도 미세 조정(SFT)이 널리 채택되고 있지만, 기존 접근법들은 최적의 성능을 위한 최적의 훈련 데이터 구성을 결정하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 DaMo(Data Mixture Optimizer)를 제안합니다. DaMo는 주어진 데이터셋 비율에 대해 다운스트림 작업 성능을 예측하여 최적의 데이터 혼합을 예측하는 훈련 가능한 네트워크를 사용하는 새로운 솔루션입니다. 포괄적인 평가를 지원하기 위해, 우리는 다중모드 모바일 폰 작업에서 MLLMs를 평가하기 위한 첫 번째 전용 벤치마크인 PhoneAgentBench을 소개합니다. 이 벤치마크는 다양한 실제 산업용 모바일 애플리케이션 시나리오를 아우르는 1235개의 QA 쌍으로 구성되어 있습니다. 소규모 파일럿 실험에서 강력한 예측 능력(R^2=0.81)을 보여준 DaMo는 최적의 데이터 혼합 구성을 효율적으로 추정합니다. 우리의 결과는 DaMo가 PhoneAgentBench에서 대체 방법들에 비해 3.38%의 성능 향상을 달성함을 보여줍니다. 또한, BFCL-v3, MME-Reasoning, MME-Perception, OCRBench을 포함한 기존 벤치마크들에 걸친 광범위한 실험은 DaMo의 우수한 일반화 능력을 보여주며, 평균 점수 기준으로 다른 접근법들보다 2.57% 우수한 성능을 보입니다. BFCL-v3 작업에서 MLLM 최적화만을 위해 사용될 때, DaMo는 다른 방법들에 비해 메트릭을 12.47% 개선합니다. 특히, DaMo는 다른 모델 아키텍처에 적용될 때도 효과를 유지하며 강력한 확장성을 보여줍니다. 코드와 데이터셋은 https://github.com/OPPO-Mente-Lab/DaMo.git에서 확인할 수 있습니다.
English
Mobile Phone Agents (MPAs) have emerged as a promising research direction due to their broad applicability across diverse scenarios. While Multimodal Large Language Models (MLLMs) serve as the foundation for MPAs, their effectiveness in handling multiple mobile phone tasks simultaneously remains limited. Although multitask supervised fine-tuning (SFT) is widely adopted for multitask learning, existing approaches struggle to determine optimal training data compositions for peak performance. To address this challenge, we propose DaMo (Data Mixture Optimizer) - a novel solution employing a trainable network that predicts optimal data mixtures by forecasting downstream task performance for any given dataset ratio. To support comprehensive evaluation, we introduce PhoneAgentBench, the first specialized benchmark to evaluate MLLMs on multimodal mobile phone tasks, comprising 1235 QA pairs spanning diverse real-world industrial mobile application scenarios. Demonstrating strong predictive capability (R^2=0.81) in small-scale pilot experiments, DaMo efficiently extrapolates optimal data mixing configurations. Our results show DaMo achieves a 3.38% performance improvement on PhoneAgentBench compared to alternative methods. Furthermore, extensive experiments across established benchmarks including BFCL-v3, MME-Reasoning, MME-Perception, and OCRBench reveal DaMo's superior generalization, outperforming other approaches by 2.57% in terms of average score. When used solely for MLLM optimization on the BFCL-v3 task, DaMo improves the metrics by 12.47% than other methods. Notably, DaMo maintains robust scalability, preserving its effectiveness when applied to other model architectures. The code and dataset are available at https://github.com/OPPO-Mente-Lab/DaMo.git
PDF151October 23, 2025