TikZero : Synthèse de programmes graphiques guidée par texte en mode zero-shot
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
March 14, 2025
Auteurs: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI
Résumé
Avec l'essor de l'IA générative, la synthèse de figures à partir de légendes textuelles devient une application prometteuse. Cependant, atteindre une précision géométrique élevée et une bonne éditabilité nécessite de représenter les figures sous forme de programmes graphiques dans des langages comme TikZ, et les données d'entraînement alignées (c'est-à-dire des programmes graphiques accompagnés de légendes) restent rares. Par ailleurs, de grandes quantités de programmes graphiques non alignés et d'images raster légendées sont plus facilement disponibles. Nous concilions ces sources de données disparates en présentant TikZero, qui découple la génération de programmes graphiques de la compréhension du texte en utilisant des représentations d'images comme pont intermédiaire. Cela permet un entraînement indépendant sur les programmes graphiques et les images légendées, et autorise la synthèse de programmes graphiques guidés par le texte en mode zero-shot lors de l'inférence. Nous montrons que notre méthode surpasse largement les approches de référence qui ne peuvent fonctionner qu'avec des programmes graphiques alignés sur des légendes. De plus, en exploitant les programmes graphiques alignés sur des légendes comme signal d'entraînement complémentaire, TikZero atteint ou dépasse les performances de modèles bien plus volumineux, y compris des systèmes commerciaux comme GPT-4o. Notre code, jeux de données et certains modèles sont disponibles publiquement.
English
With the rise of generative AI, synthesizing figures from text captions
becomes a compelling application. However, achieving high geometric precision
and editability requires representing figures as graphics programs in languages
like TikZ, and aligned training data (i.e., graphics programs with captions)
remains scarce. Meanwhile, large amounts of unaligned graphics programs and
captioned raster images are more readily available. We reconcile these
disparate data sources by presenting TikZero, which decouples graphics program
generation from text understanding by using image representations as an
intermediary bridge. It enables independent training on graphics programs and
captioned images and allows for zero-shot text-guided graphics program
synthesis during inference. We show that our method substantially outperforms
baselines that can only operate with caption-aligned graphics programs.
Furthermore, when leveraging caption-aligned graphics programs as a
complementary training signal, TikZero matches or exceeds the performance of
much larger models, including commercial systems like GPT-4o. Our code,
datasets, and select models are publicly available.Summary
AI-Generated Summary