Macaron-A2UI: Een model voor generatieve UI in persoonlijke agenten

Samenvatting

Naarmate persoonlijke agenten evolueren om complexe, gebruikersgerichte taken aan te kunnen, wordt statische platte-tekstchat snel een knelpunt. Generatieve UI komt naar voren als de noodzakelijke nieuwe interfacelaag, die in realtime dynamisch de juiste besturingselementen, opties en toestand uit de interactiecontext synthetiseert. We presenteren Macaron-A2UI, een model voor Generatieve UI in persoonlijke agenten. Ons doel is om verder te gaan dan alleen tekstinteractie door agenten in staat te stellen natuurlijke taal te genereren samen met lichtgewicht, uitvoerbare UI-acties voor het verzamelen van informatie, het verfijnen van voorkeuren, bevestiging en het organiseren van meerdere doelen. We bouwen een grootschalig Generatieve UI-corpus uit heterogene dialoogbronnen, introduceren A2UI-Bench voor gecontroleerde evaluatie, en trainen 30B-, 235B- en 754B-modellen met parameter-efficiënt LoRA-gebaseerd gesuperviseerd fine-tunen, gevolgd door beloningsgestuurd reinforcement learning. Het beste Macaron-A2UI-model behaalt een totaalscore van 75,6 op A2UI-Bench zonder expliciete schema-hints, waarmee het de sterkste volledige-schema-voorhoedebaseline overtreft. We geven de modellen, de benchmark en het evaluatieprotocol vrij ter ondersteuning van toekomstig onderzoek naar Generatieve UI voor persoonlijke agenten.

English

As personal agents evolve to handle complex, user-centric tasks, static plain-text chat is rapidly becoming a bottleneck. Generative UI emerges as the necessary new interface layer, dynamically synthesizing the right controls, options, and state from the interaction context in real time. We present Macaron-A2UI, a model for Generative UI in personal agents. Our goal is to move beyond text-only interaction by enabling agents to generate natural language together with lightweight, executable UI actions for information collection, preference refinement, confirmation, and multi-goal organization. We build a large-scale Generative UI corpus from heterogeneous dialogue sources, introduce A2UI-Bench for controlled evaluation, and train 30B, 235B and 754B models with parameter-efficient LoRA-based supervised fine-tuning followed by reward-driven reinforcement learning. The best Macaron-A2UI model reaches 75.6 overall on A2UI-Bench without explicit schema hints, surpassing the strongest full-schema frontier baseline. We release the models, benchmark, and evaluation protocol to support future work on Generative UI for personal agents.