ChatPaper.aiChatPaper

Mobile-Agent-V: 비디오 기반 다중 에이전트 협업을 통한 모바일 디바이스 조작 학습

Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

February 24, 2025
저자: Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang
cs.AI

초록

모바일 기기 사용의 급격한 증가로 인해 원활한 작업 관리를 위한 개선된 자동화가 필요해졌습니다. 그러나 많은 AI 기반 프레임워크는 불충분한 운영 지식으로 인해 어려움을 겪고 있습니다. 수동으로 작성된 지식은 도움이 되지만 노동 집약적이고 비효율적입니다. 이러한 문제를 해결하기 위해, 우리는 비디오 가이던스를 활용하여 모바일 자동화를 위한 풍부하고 비용 효율적인 운영 지식을 제공하는 Mobile-Agent-V 프레임워크를 소개합니다. Mobile-Agent-V는 특수한 샘플링이나 전처리 없이 비디오 입력을 활용하여 작업 실행 능력을 향상시킵니다. Mobile-Agent-V는 슬라이딩 윈도우 전략을 통합하고 비디오 에이전트와 딥-리플렉션 에이전트를 포함시켜 사용자 지시에 맞는 작업을 보장합니다. 이 혁신적인 접근 방식을 통해 사용자는 가이던스와 함께 작업 과정을 기록할 수 있으며, 시스템은 이를 자율적으로 학습하고 효율적으로 작업을 실행할 수 있습니다. 실험 결과, Mobile-Agent-V는 기존 프레임워크 대비 30%의 성능 향상을 달성했습니다.
English
The rapid increase in mobile device usage necessitates improved automation for seamless task management. However, many AI-driven frameworks struggle due to insufficient operational knowledge. Manually written knowledge helps but is labor-intensive and inefficient. To address these challenges, we introduce Mobile-Agent-V, a framework that leverages video guidance to provide rich and cost-effective operational knowledge for mobile automation. Mobile-Agent-V enhances task execution capabilities by leveraging video inputs without requiring specialized sampling or preprocessing. Mobile-Agent-V integrates a sliding window strategy and incorporates a video agent and deep-reflection agent to ensure that actions align with user instructions. Through this innovative approach, users can record task processes with guidance, enabling the system to autonomously learn and execute tasks efficiently. Experimental results show that Mobile-Agent-V achieves a 30% performance improvement compared to existing frameworks.

Summary

AI-Generated Summary

PDF132February 25, 2025