Einem Agenten beibringen, skizzenweise ein Teil nach dem anderen zu zeichnen

Zusammenfassung

Wir entwickeln eine Methode zur schrittweisen Erstellung von Vektorskizzen. Dazu trainieren wir einen multimodalen, sprachmodellbasierten Agenten mittels eines neuartigen mehrstufigen Reinforcement-Learning-Ansatzes mit Prozessbelohnung nach supervidiertem Fein-Tuning. Unser Ansatz wird ermöglicht durch einen neuen Datensatz, den wir ControlSketch-Part nennen, der umfangreiche Annotationen auf Teilebene für Skizzen enthält. Diese wurden durch eine neuartige, generische automatische Annotationspipeline gewonnen, die Vektorskizzen in semantische Teile segmentiert und Pfade mittels eines strukturierten mehrstufigen Labeling-Prozesses den Teilen zuweist. Unsere Ergebnisse zeigen, dass die Einbeziehung strukturierter Daten auf Teilebene und die Bereitstellung visueller Rückmeldungen für den Agenten während des Prozesses eine interpretierbare, steuerbare und lokal editierbare Text-zu-Vektorskizzen-Generierung ermöglicht.

English

We develop a method for producing vector sketches one part at a time. To do this, we train a multi-modal language model-based agent using a novel multi-turn process-reward reinforcement learning following supervised fine-tuning. Our approach is enabled by a new dataset we call ControlSketch-Part, containing rich part-level annotations for sketches, obtained using a novel, generic automatic annotation pipeline that segments vector sketches into semantic parts and assigns paths to parts with a structured multi-stage labeling process. Our results indicate that incorporating structured part-level data and providing agent with the visual feedback through the process enables interpretable, controllable, and locally editable text-to-vector sketch generation.

Einem Agenten beibringen, skizzenweise ein Teil nach dem anderen zu zeichnen

Teaching an Agent to Sketch One Part at a Time

Zusammenfassung

Support