Macaron-A2UI: Ein Modell für generative UI in persönlichen Agenten

Zusammenfassung

Da persönliche Agenten sich weiterentwickeln, um komplexe, benutzerzentrierte Aufgaben zu bewältigen, wird der statische Klartext-Chat zunehmend zu einem Engpass. Generative UI erweist sich als die notwendige neue Schnittstellenschicht, die in Echtzeit die richtigen Steuerelemente, Optionen und den Zustand aus dem Interaktionskontext dynamisch synthetisiert. Wir stellen Macaron-A2UI vor, ein Modell für Generative UI in persönlichen Agenten. Unser Ziel ist es, über die reine Textinteraktion hinauszugehen, indem wir Agenten befähigen, natürliche Sprache zusammen mit leichtgewichtigen, ausführbaren UI-Aktionen zur Informationssammlung, Präferenzverfeinerung, Bestätigung und Organisation mehrerer Ziele zu generieren. Wir erstellen einen groß angelegten Generative-UI-Korpus aus heterogenen Dialogquellen, führen A2UI-Bench für kontrollierte Evaluierung ein und trainieren Modelle mit 30B, 235B und 754B Parametern mittels parametereffizientem LoRA-basiertem überwachtem Feintuning, gefolgt von belohnungsgesteuertem verstärkendem Lernen. Das beste Macaron-A2UI-Modell erreicht auf A2UI-Bench eine Gesamtpunktzahl von 75,6 ohne explizite Schema-Hinweise und übertrifft damit die stärkste Full-Schema-Frontier-Baseline. Wir veröffentlichen die Modelle, den Benchmark und das Evaluierungsprotokoll, um zukünftige Arbeiten zu Generative UI für persönliche Agenten zu unterstützen.

English

As personal agents evolve to handle complex, user-centric tasks, static plain-text chat is rapidly becoming a bottleneck. Generative UI emerges as the necessary new interface layer, dynamically synthesizing the right controls, options, and state from the interaction context in real time. We present Macaron-A2UI, a model for Generative UI in personal agents. Our goal is to move beyond text-only interaction by enabling agents to generate natural language together with lightweight, executable UI actions for information collection, preference refinement, confirmation, and multi-goal organization. We build a large-scale Generative UI corpus from heterogeneous dialogue sources, introduce A2UI-Bench for controlled evaluation, and train 30B, 235B and 754B models with parameter-efficient LoRA-based supervised fine-tuning followed by reward-driven reinforcement learning. The best Macaron-A2UI model reaches 75.6 overall on A2UI-Bench without explicit schema hints, surpassing the strongest full-schema frontier baseline. We release the models, benchmark, and evaluation protocol to support future work on Generative UI for personal agents.