ChatPaper.aiChatPaper

AndroidLab: Entrenamiento y Evaluación Sistemática de Agentes Autónomos Android

AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

October 31, 2024
Autores: Yifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong
cs.AI

Resumen

Los agentes autónomos se han vuelto cada vez más importantes para interactuar con el mundo real. Los agentes Android, en particular, han sido recientemente un método de interacción mencionado con frecuencia. Sin embargo, los estudios existentes para entrenar y evaluar agentes Android carecen de investigación sistemática tanto en modelos de código abierto como en modelos de código cerrado. En este trabajo, proponemos AndroidLab como un marco sistemático para agentes Android. Incluye un entorno de operación con diferentes modalidades, espacio de acción y un benchmark reproducible. Admite tanto grandes modelos de lenguaje (LLMs) como modelos multimodales (LMMs) en el mismo espacio de acción. El benchmark de AndroidLab incluye dispositivos virtuales de Android predefinidos y 138 tareas en nueve aplicaciones construidas en estos dispositivos. Utilizando el entorno de AndroidLab, desarrollamos un conjunto de datos de instrucciones de Android y entrenamos seis LLMs y LMMs de código abierto, aumentando las tasas de éxito promedio del 4.59% al 21.50% para LLMs y del 1.93% al 13.28% para LMMs. AndroidLab es de código abierto y está disponible públicamente en https://github.com/THUDM/Android-Lab.
English
Autonomous agents have become increasingly important for interacting with the real world. Android agents, in particular, have been recently a frequently-mentioned interaction method. However, existing studies for training and evaluating Android agents lack systematic research on both open-source and closed-source models. In this work, we propose AndroidLab as a systematic Android agent framework. It includes an operation environment with different modalities, action space, and a reproducible benchmark. It supports both large language models (LLMs) and multimodal models (LMMs) in the same action space. AndroidLab benchmark includes predefined Android virtual devices and 138 tasks across nine apps built on these devices. By using the AndroidLab environment, we develop an Android Instruction dataset and train six open-source LLMs and LMMs, lifting the average success rates from 4.59% to 21.50% for LLMs and from 1.93% to 13.28% for LMMs. AndroidLab is open-sourced and publicly available at https://github.com/THUDM/Android-Lab.

Summary

AI-Generated Summary

PDF513November 13, 2024