PIRA-Bench: De transitie van reactieve GUI-agenten naar proactieve intentie-aanbevelingsagenten op basis van GUI's

Samenvatting

Huidige grafische gebruikersinterface (GUI)-agenten opereren voornamelijk volgens een reactief paradigma: een gebruiker moet een expliciete instructie verstrekken om een taak uit te voeren. Een intelligente AI-assistent zou echter proactief moeten zijn, in staat om gebruikersintenties direct te anticiperen op basis van continue visuele invoer, zoals schermafbeeldingen van mobiele apparaten of desktops, en tijdige aanbevelingen te doen zonder expliciete aanwijzingen van de gebruiker. De overgang naar dit proactieve paradigma brengt aanzienlijke uitdagingen met zich mee. Schermactiviteit in de echte wereld is zelden lineair; het bestaat uit trajecten met een lange tijdshorizon vol ruisvol surfgedrag, betekenisloze acties en multithreaded taakwisselingen. Om deze kloof te dichten, introduceren we PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), een nieuwe benchmark voor het evalueren van multimodale grote taalmodellen (MLLM's) op continue, zwak-gesuperviseerde visuele invoer. In tegenstelling tot reactieve datasets kenmerkt PIRA-Bench zich door complexe trajecten met meerdere verweven intenties en ruisvolle segmenten met diverse gebruikersprofielcontexten, wat agenten uitdaagt om actiegerichte gebeurtenissen te detecteren terwijl ze zich aanpassen aan gebruikersvoorkeuren. Verder stellen we de PIRF-basislijn voor, een geheugenbewust, statusvolgend framework dat algemene MLLM's in staat stelt om meerdere taakthreads te beheren en misleidende visuele invoer te verwerken. PIRA-Bench dient als een eerste stap naar robuuste en proactieve GUI-gebaseerde persoonlijke assistenten.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench: De transitie van reactieve GUI-agenten naar proactieve intentie-aanbevelingsagenten op basis van GUI's

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Samenvatting

Support