Macaron-A2UI: Модель для генеративного пользовательского интерфейса в персональных агентах

Аннотация

По мере того, как персональные агенты эволюционируют для выполнения сложных, ориентированных на пользователя задач, статический чат с простым текстом быстро становится узким местом. Генеративный пользовательский интерфейс (Generative UI) выступает в качестве необходимого нового уровня интерфейса, динамически синтезирующего в реальном времени нужные элементы управления, опции и состояние из контекста взаимодействия. Мы представляем Macaron-A2UI — модель для генеративного UI в персональных агентах. Наша цель — выйти за рамки чисто текстового взаимодействия, позволив агентам генерировать естественный язык вместе с легковесными, выполняемыми действиями UI для сбора информации, уточнения предпочтений, подтверждения и организации множества целей. Мы строим крупномасштабный корпус генеративного UI из разнородных источников диалогов, представляем A2UI-Bench для контролируемой оценки и обучаем модели с 30 миллиардами, 235 миллиардами и 754 миллиардами параметров с использованием параметрически эффективного контролируемого дообучения на основе LoRA, за которым следует обучение с подкреплением на основе вознаграждений. Лучшая модель Macaron-A2UI достигает общей оценки 75,6 на A2UI-Bench без явных подсказок схемы, превосходя самый сильный передовой базовый уровень с полной схемой. Мы выпускаем модели, бенчмарк и протокол оценки для поддержки будущих работ по генеративному UI для персональных агентов.

English

As personal agents evolve to handle complex, user-centric tasks, static plain-text chat is rapidly becoming a bottleneck. Generative UI emerges as the necessary new interface layer, dynamically synthesizing the right controls, options, and state from the interaction context in real time. We present Macaron-A2UI, a model for Generative UI in personal agents. Our goal is to move beyond text-only interaction by enabling agents to generate natural language together with lightweight, executable UI actions for information collection, preference refinement, confirmation, and multi-goal organization. We build a large-scale Generative UI corpus from heterogeneous dialogue sources, introduce A2UI-Bench for controlled evaluation, and train 30B, 235B and 754B models with parameter-efficient LoRA-based supervised fine-tuning followed by reward-driven reinforcement learning. The best Macaron-A2UI model reaches 75.6 overall on A2UI-Bench without explicit schema hints, surpassing the strongest full-schema frontier baseline. We release the models, benchmark, and evaluation protocol to support future work on Generative UI for personal agents.