TikZero: Sintesi Zero-Shot di Programmi Grafici Guidati da Testo
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
March 14, 2025
Autori: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI
Abstract
Con l'ascesa dell'IA generativa, la sintesi di figure da didascalie testuali rappresenta un'applicazione particolarmente interessante. Tuttavia, ottenere un'elevata precisione geometrica e la possibilità di modifica richiede la rappresentazione delle figure come programmi grafici in linguaggi come TikZ, e i dati di addestramento allineati (ovvero programmi grafici con didascalie) rimangono scarsi. Nel frattempo, grandi quantità di programmi grafici non allineati e immagini raster con didascalie sono più facilmente disponibili. Riconciliamo queste fonti di dati disparate presentando TikZero, che disaccoppia la generazione di programmi grafici dalla comprensione del testo utilizzando rappresentazioni di immagini come ponte intermedio. Ciò consente un addestramento indipendente su programmi grafici e immagini con didascalie e permette la sintesi di programmi grafici guidati da testo in modalità zero-shot durante l'inferenza. Dimostriamo che il nostro metodo supera significativamente i baseline che possono operare solo con programmi grafici allineati alle didascalie. Inoltre, quando si sfruttano programmi grafici allineati alle didascalie come segnale di addestramento complementare, TikZero eguaglia o supera le prestazioni di modelli molto più grandi, inclusi sistemi commerciali come GPT-4o. Il nostro codice, i dataset e alcuni modelli selezionati sono pubblicamente disponibili.
English
With the rise of generative AI, synthesizing figures from text captions
becomes a compelling application. However, achieving high geometric precision
and editability requires representing figures as graphics programs in languages
like TikZ, and aligned training data (i.e., graphics programs with captions)
remains scarce. Meanwhile, large amounts of unaligned graphics programs and
captioned raster images are more readily available. We reconcile these
disparate data sources by presenting TikZero, which decouples graphics program
generation from text understanding by using image representations as an
intermediary bridge. It enables independent training on graphics programs and
captioned images and allows for zero-shot text-guided graphics program
synthesis during inference. We show that our method substantially outperforms
baselines that can only operate with caption-aligned graphics programs.
Furthermore, when leveraging caption-aligned graphics programs as a
complementary training signal, TikZero matches or exceeds the performance of
much larger models, including commercial systems like GPT-4o. Our code,
datasets, and select models are publicly available.