PIRA-Bench: Ein Übergang von reaktiven GUI-Agenten zu proaktiven GUI-basierten Intent-Empfehlungsagenten

Zusammenfassung

Aktuelle grafische Benutzeroberflächen-Agenten (GUI-Agents) arbeiten hauptsächlich nach einem reaktiven Paradigma: Ein Benutzer muss eine explizite Anweisung geben, damit der Agent eine Aufgabe ausführt. Ein intelligenter KI-Assistent sollte jedoch proaktiv agieren, in der Lage sein, Benutzerabsichten direkt aus kontinuierlichen visuellen Eingaben wie Mobil- oder Desktop-Bildschirmfotos vorherzusehen und zeitnahe Empfehlungen ohne explizite Aufforderung durch den Benutzer anzubieten. Der Übergang zu diesem proaktiven Paradigma stellt erhebliche Herausforderungen dar. Die Bildschirmaktivität in der realen Welt verläuft selten linear; sie besteht aus langfristigen Trajektorien, die von verrauschtem Browsen, bedeutungslosen Aktionen und multithreadedem Task-Switching geprägt sind. Um diese Lücke zu schließen, stellen wir PIRA-Bench (Proactive Intent Recommendation Agent Benchmark) vor, einen neuartigen Benchmark zur Bewertung multimodaler großer Sprachmodelle (MLLMs) anhand kontinuierlicher, schwach überwachter visueller Eingaben. Im Gegensatz zu reaktiven Datensätzen zeichnet sich PIRA-Bench durch komplexe Trajektorien mit mehreren verschachtelten Absichten und verrauschte Segmente mit verschiedenen Benutzerprofilkontexten aus, die Agenten dazu herausfordern, umsetzbare Ereignisse zu erkennen und sich gleichzeitig an Benutzerpräferenzen anzupassen. Darüber hinaus schlagen wir die PIRF-Baseline vor, ein gedächtnisbasiertes Zustandsverfolgungs-Framework, das allgemeine MLLMs befähigt, mehrere Aufgabenstränge zu verwalten und irreführende visuelle Eingaben zu verarbeiten. PIRA-Bench dient als erster Schritt hin zu robusten und proaktiven, GUI-basierten persönlichen Assistenten.

English

Current Graphical User Interface (GUI) agents operate primarily under a reactive paradigm: a user must provide an explicit instruction for the agent to execute a task. However, an intelligent AI assistant should be proactive, which is capable of anticipating user intentions directly from continuous visual inputs, such as mobile or desktop screenshots, and offering timely recommendations without explicit user prompting. Transitioning to this proactive paradigm presents significant challenges. Real-world screen activity is rarely linear; it consists of long-horizon trajectories fraught with noisy browsing, meaningless actions, and multithreaded task-switching. To address this gap, we introduce PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), a novel benchmark for evaluating multimodal large language models (MLLMs) on continuous, weakly-supervised visual inputs. Unlike reactive datasets, PIRA-Bench features complex trajectories with multiple interleaved intents and noisy segments with various user profile contexts, challenging agents to detect actionable events while fitting to user preferences. Furthermore, we propose the PIRF baseline, a memory-aware, state-tracking framework that empowers general MLLMs to manage multiple task threads and handle misleading visual inputs. PIRA-Bench serves as an initial step toward robust and proactive GUI-based personal assistants.

PIRA-Bench: Ein Übergang von reaktiven GUI-Agenten zu proaktiven GUI-basierten Intent-Empfehlungsagenten

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Zusammenfassung

Support