LayerTracer: Síntese de SVG em Camadas Alinhada Cognitivamente via Transformer de Difusão
LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer
February 3, 2025
Autores: Yiren Song, Danze Chen, Mike Zheng Shou
cs.AI
Resumo
A geração de SVGs em camadas alinhadas cognitivamente continua sendo um desafio devido às tendências dos métodos existentes em direção a saídas de uma única camada excessivamente simplificadas ou redundâncias de formas induzidas pela otimização. Propomos o LayerTracer, um framework baseado em transformer de difusão que preenche essa lacuna ao aprender os processos de criação de SVGs em camadas dos designers a partir de um novo conjunto de dados de operações de design sequenciais. Nosso método opera em duas fases: Primeiramente, um DiT condicionado por texto gera plantas de construção rasterizadas de várias fases que simulam os fluxos de trabalho de design humano. Em seguida, a vetorização por camadas com deduplicação de caminhos produz SVGs limpos e editáveis. Para vetorização de imagens, introduzimos um mecanismo de difusão condicional que codifica imagens de referência em tokens latentes, orientando a reconstrução hierárquica enquanto preserva a integridade estrutural. Experimentos extensivos demonstram o desempenho superior do LayerTracer em comparação com baselines baseados em otimização e neurais, tanto em qualidade de geração quanto em editabilidade, alinhando efetivamente vetores gerados por IA com a cognição de design profissional.
English
Generating cognitive-aligned layered SVGs remains challenging due to existing
methods' tendencies toward either oversimplified single-layer outputs or
optimization-induced shape redundancies. We propose LayerTracer, a diffusion
transformer based framework that bridges this gap by learning designers'
layered SVG creation processes from a novel dataset of sequential design
operations. Our approach operates in two phases: First, a text-conditioned DiT
generates multi-phase rasterized construction blueprints that simulate human
design workflows. Second, layer-wise vectorization with path deduplication
produces clean, editable SVGs. For image vectorization, we introduce a
conditional diffusion mechanism that encodes reference images into latent
tokens, guiding hierarchical reconstruction while preserving structural
integrity. Extensive experiments demonstrate LayerTracer's superior performance
against optimization-based and neural baselines in both generation quality and
editability, effectively aligning AI-generated vectors with professional design
cognition.Summary
AI-Generated Summary