Macaron-A2UI: Un modelo para UI generativa en agentes personales

Resumen

A medida que los agentes personales evolucionan para manejar tareas complejas centradas en el usuario, el chat estático de texto plano se convierte rápidamente en un cuello de botella. La Interfaz de Usuario Generativa surge como la nueva capa de interfaz necesaria, sintetizando dinámicamente los controles, opciones y estados adecuados a partir del contexto de interacción en tiempo real. Presentamos Macaron-A2UI, un modelo de Interfaz de Usuario Generativa para agentes personales. Nuestro objetivo es ir más allá de la interacción basada únicamente en texto, permitiendo que los agentes generen lenguaje natural junto con acciones de UI ejecutables y ligeras para la recopilación de información, el refinamiento de preferencias, la confirmación y la organización de objetivos múltiples. Construimos un corpus de Interfaz de Usuario Generativa a gran escala a partir de fuentes de diálogo heterogéneas, introducimos A2UI-Bench para una evaluación controlada y entrenamos modelos de 30B, 235B y 754B con un ajuste fino supervisado basado en LoRA con eficiencia de parámetros, seguido de aprendizaje por refuerzo impulsado por recompensas. El mejor modelo Macaron-A2UI alcanza un 75.6 general en A2UI-Bench sin sugerencias de esquema explícitas, superando a la línea base fronteriza de esquema completo más potente. Publicamos los modelos, el benchmark y el protocolo de evaluación para apoyar trabajos futuros sobre Interfaz de Usuario Generativa para agentes personales.

English

As personal agents evolve to handle complex, user-centric tasks, static plain-text chat is rapidly becoming a bottleneck. Generative UI emerges as the necessary new interface layer, dynamically synthesizing the right controls, options, and state from the interaction context in real time. We present Macaron-A2UI, a model for Generative UI in personal agents. Our goal is to move beyond text-only interaction by enabling agents to generate natural language together with lightweight, executable UI actions for information collection, preference refinement, confirmation, and multi-goal organization. We build a large-scale Generative UI corpus from heterogeneous dialogue sources, introduce A2UI-Bench for controlled evaluation, and train 30B, 235B and 754B models with parameter-efficient LoRA-based supervised fine-tuning followed by reward-driven reinforcement learning. The best Macaron-A2UI model reaches 75.6 overall on A2UI-Bench without explicit schema hints, surpassing the strongest full-schema frontier baseline. We release the models, benchmark, and evaluation protocol to support future work on Generative UI for personal agents.