Ensinando um Agente a Esboçar uma Parte de Cada Vez

Resumo

Desenvolvemos um método para produzir esboços vetoriais uma parte de cada vez. Para isso, treinamos um agente baseado em modelo de linguagem multimodal utilizando um novo processo de aprendizagem por reforço com recompensa baseada no processo multi-etapas, após um ajuste fino supervisionado. Nossa abordagem é viabilizada por um novo conjunto de dados que denominamos ControlSketch-Part, contendo anotações ricas em nível de parte para esboços, obtidas por meio de um novo *pipeline* genérico de anotação automática que segmenta esboços vetoriais em partes semânticas e atribui caminhos às partes com um processo estruturado de rotulagem em múltiplos estágios. Nossos resultados indicam que a incorporação de dados estruturados em nível de parte e o fornecimento de *feedback* visual ao agente durante o processo permitem uma geração de esboços vetoriais a partir de texto que é interpretável, controlável e localmente editável.

English

We develop a method for producing vector sketches one part at a time. To do this, we train a multi-modal language model-based agent using a novel multi-turn process-reward reinforcement learning following supervised fine-tuning. Our approach is enabled by a new dataset we call ControlSketch-Part, containing rich part-level annotations for sketches, obtained using a novel, generic automatic annotation pipeline that segments vector sketches into semantic parts and assigns paths to parts with a structured multi-stage labeling process. Our results indicate that incorporating structured part-level data and providing agent with the visual feedback through the process enables interpretable, controllable, and locally editable text-to-vector sketch generation.

Ensinando um Agente a Esboçar uma Parte de Cada Vez

Teaching an Agent to Sketch One Part at a Time

Resumo

Support