Enseigner à un agent à esquisser une partie à la fois

Résumé

Nous développons une méthode pour produire des esquisses vectorielles partie par partie. Pour ce faire, nous entraînons un agent basé sur un modèle de langage multimodal en utilisant un nouveau processus d'apprentissage par renforcement à récompense processuelle multi-tours, après un réglage fin supervisé. Notre approche est rendue possible par un nouveau jeu de données que nous appelons ControlSketch-Part, contenant des annotations riches au niveau des parties pour les esquisses, obtenues grâce à un pipeline d'annotation automatique générique et novateur qui segmente les esquisses vectorielles en parties sémantiques et attribue des tracés aux parties via un processus d'étiquetage structuré en plusieurs étapes. Nos résultats indiquent que l'intégration de données structurées au niveau des parties et la fourniture d'un retour visuel à l'agent pendant le processus permettent une génération d'esquisses vectorielles à partir de texte interprétable, contrôlable et localement modifiable.

English

We develop a method for producing vector sketches one part at a time. To do this, we train a multi-modal language model-based agent using a novel multi-turn process-reward reinforcement learning following supervised fine-tuning. Our approach is enabled by a new dataset we call ControlSketch-Part, containing rich part-level annotations for sketches, obtained using a novel, generic automatic annotation pipeline that segments vector sketches into semantic parts and assigns paths to parts with a structured multi-stage labeling process. Our results indicate that incorporating structured part-level data and providing agent with the visual feedback through the process enables interpretable, controllable, and locally editable text-to-vector sketch generation.

Enseigner à un agent à esquisser une partie à la fois

Teaching an Agent to Sketch One Part at a Time

Résumé

Support