TikZero: Síntesis de Programas Gráficos Guiada por Texto con Capacidad Zero-Shot
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
March 14, 2025
Autores: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI
Resumen
Con el auge de la IA generativa, la síntesis de figuras a partir de descripciones textuales se convierte en una aplicación atractiva. Sin embargo, lograr una alta precisión geométrica y editabilidad requiere representar las figuras como programas gráficos en lenguajes como TikZ, y los datos de entrenamiento alineados (es decir, programas gráficos con descripciones) siguen siendo escasos. Mientras tanto, grandes cantidades de programas gráficos no alineados e imágenes rasterizadas con descripciones están más fácilmente disponibles. Reconciliamos estas fuentes de datos dispares presentando TikZero, que desacopla la generación de programas gráficos de la comprensión de texto utilizando representaciones de imágenes como un puente intermedio. Esto permite el entrenamiento independiente en programas gráficos e imágenes con descripciones, y posibilita la síntesis de programas gráficos guiada por texto en modo zero-shot durante la inferencia. Demostramos que nuestro método supera sustancialmente a los enfoques basales que solo pueden operar con programas gráficos alineados con descripciones. Además, al aprovechar los programas gráficos alineados con descripciones como una señal de entrenamiento complementaria, TikZero iguala o supera el rendimiento de modelos mucho más grandes, incluyendo sistemas comerciales como GPT-4o. Nuestro código, conjuntos de datos y modelos seleccionados están disponibles públicamente.
English
With the rise of generative AI, synthesizing figures from text captions
becomes a compelling application. However, achieving high geometric precision
and editability requires representing figures as graphics programs in languages
like TikZ, and aligned training data (i.e., graphics programs with captions)
remains scarce. Meanwhile, large amounts of unaligned graphics programs and
captioned raster images are more readily available. We reconcile these
disparate data sources by presenting TikZero, which decouples graphics program
generation from text understanding by using image representations as an
intermediary bridge. It enables independent training on graphics programs and
captioned images and allows for zero-shot text-guided graphics program
synthesis during inference. We show that our method substantially outperforms
baselines that can only operate with caption-aligned graphics programs.
Furthermore, when leveraging caption-aligned graphics programs as a
complementary training signal, TikZero matches or exceeds the performance of
much larger models, including commercial systems like GPT-4o. Our code,
datasets, and select models are publicly available.Summary
AI-Generated Summary