ChatPaper.aiChatPaper

TikZero: Síntese de Programas Gráficos com Orientação Textual em Zero-Shot

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

March 14, 2025
Autores: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI

Resumo

Com o surgimento da IA generativa, a síntese de figuras a partir de legendas de texto tornou-se uma aplicação atraente. No entanto, alcançar alta precisão geométrica e editabilidade requer representar figuras como programas gráficos em linguagens como TikZ, e dados de treinamento alinhados (ou seja, programas gráficos com legendas) ainda são escassos. Enquanto isso, grandes quantidades de programas gráficos não alinhados e imagens rasterizadas legendadas estão mais facilmente disponíveis. Nós reconciliamos essas fontes de dados distintas apresentando o TikZero, que desacopla a geração de programas gráficos da compreensão de texto ao usar representações de imagem como uma ponte intermediária. Ele permite o treinamento independente em programas gráficos e imagens legendadas e possibilita a síntese de programas gráficos guiada por texto em zero-shot durante a inferência. Mostramos que nosso método supera substancialmente as abordagens baselines que só podem operar com programas gráficos alinhados a legendas. Além disso, ao aproveitar programas gráficos alinhados a legendas como um sinal de treinamento complementar, o TikZero iguala ou supera o desempenho de modelos muito maiores, incluindo sistemas comerciais como o GPT-4o. Nosso código, conjuntos de dados e modelos selecionados estão publicamente disponíveis.
English
With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.

Summary

AI-Generated Summary

PDF32March 21, 2025