ChatPaper.aiChatPaper

TikZero: Zero-Shot Tekstgestuurde Synthese van Grafische Programma's

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

March 14, 2025
Auteurs: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI

Samenvatting

Met de opkomst van generatieve AI wordt het synthetiseren van figuren uit tekstbeschrijvingen een aantrekkelijke toepassing. Het bereiken van hoge geometrische precisie en bewerkbaarheid vereist echter dat figuren worden weergegeven als grafische programma's in talen zoals TikZ, en uitgelijnde trainingsgegevens (d.w.z. grafische programma's met bijschriften) blijven schaars. Ondertussen zijn grote hoeveelheden niet-uitgelijnde grafische programma's en gerasterde afbeeldingen met bijschriften gemakkelijker beschikbaar. Wij verzoenen deze verschillende gegevensbronnen door TikZero te presenteren, dat de generatie van grafische programma's loskoppelt van tekstbegrip door afbeeldingsrepresentaties te gebruiken als een intermediaire brug. Het maakt onafhankelijke training op grafische programma's en afbeeldingen met bijschriften mogelijk en stelt zero-shot tekstgestuurde synthese van grafische programma's tijdens inferentie in staat. We tonen aan dat onze methode aanzienlijk beter presteert dan baseline-modellen die alleen kunnen werken met uitgelijnde grafische programma's. Bovendien, wanneer uitgelijnde grafische programma's worden gebruikt als een aanvullende trainingssignaal, evenaart of overtreft TikZero de prestaties van veel grotere modellen, inclusief commerciële systemen zoals GPT-4o. Onze code, datasets en geselecteerde modellen zijn publiekelijk beschikbaar.
English
With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.
PDF32March 21, 2025