Macaron-A2UI: Um Modelo para UI Generativa em Agentes Pessoais

Resumo

À medida que os agentes pessoais evoluem para lidar com tarefas complexas centradas no usuário, o chat estático de texto simples rapidamente se torna um gargalo. A IU Generativa surge como a nova camada de interface necessária, sintetizando dinamicamente os controles, opções e estados adequados a partir do contexto de interação em tempo real. Apresentamos o Macaron-A2UI, um modelo de IU Generativa para agentes pessoais. Nosso objetivo é ir além da interação exclusivamente textual, permitindo que os agentes gerem linguagem natural juntamente com ações de IU leves e executáveis para coleta de informações, refinamento de preferências, confirmação e organização de múltiplos objetivos. Construímos um corpus de IU Generativa em larga escala a partir de fontes heterogêneas de diálogo, introduzimos o A2UI-Bench para avaliação controlada e treinamos modelos de 30B, 235B e 754B com ajuste fino supervisionado baseado em LoRA com eficiência de parâmetros, seguido de aprendizado por reforço orientado por recompensa. O melhor modelo Macaron-A2UI alcançou 75,6 no geral no A2UI-Bench sem dicas explícitas de esquema, superando a linha de base de fronteira mais forte com esquema completo. Disponibilizamos os modelos, o benchmark e o protocolo de avaliação para apoiar trabalhos futuros sobre IU Generativa para agentes pessoais.

English

As personal agents evolve to handle complex, user-centric tasks, static plain-text chat is rapidly becoming a bottleneck. Generative UI emerges as the necessary new interface layer, dynamically synthesizing the right controls, options, and state from the interaction context in real time. We present Macaron-A2UI, a model for Generative UI in personal agents. Our goal is to move beyond text-only interaction by enabling agents to generate natural language together with lightweight, executable UI actions for information collection, preference refinement, confirmation, and multi-goal organization. We build a large-scale Generative UI corpus from heterogeneous dialogue sources, introduce A2UI-Bench for controlled evaluation, and train 30B, 235B and 754B models with parameter-efficient LoRA-based supervised fine-tuning followed by reward-driven reinforcement learning. The best Macaron-A2UI model reaches 75.6 overall on A2UI-Bench without explicit schema hints, surpassing the strongest full-schema frontier baseline. We release the models, benchmark, and evaluation protocol to support future work on Generative UI for personal agents.