TikZero: Синтез графических программ с нулевым обучением на основе текстовых описаний
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
March 14, 2025
Авторы: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI
Аннотация
С ростом популярности генеративного ИИ синтез графических изображений на основе текстовых описаний становится перспективным приложением. Однако достижение высокой геометрической точности и редактируемости требует представления изображений в виде графических программ на языках, таких как TikZ, а согласованные обучающие данные (т.е. графические программы с описаниями) остаются редкими. В то же время большие объемы несогласованных графических программ и растровых изображений с описаниями более доступны. Мы объединяем эти разнородные источники данных, представляя TikZero, который разделяет генерацию графических программ и понимание текста, используя изображения в качестве промежуточного моста. Это позволяет независимо обучаться на графических программах и изображениях с описаниями и обеспечивает синтез графических программ на основе текста в режиме zero-shot во время вывода. Мы показываем, что наш метод значительно превосходит базовые подходы, которые могут работать только с графическими программами, согласованными с описаниями. Более того, при использовании согласованных графических программ в качестве дополнительного обучающего сигнала TikZero достигает или превосходит производительность значительно более крупных моделей, включая коммерческие системы, такие как GPT-4o. Наш код, наборы данных и выбранные модели доступны публично.
English
With the rise of generative AI, synthesizing figures from text captions
becomes a compelling application. However, achieving high geometric precision
and editability requires representing figures as graphics programs in languages
like TikZ, and aligned training data (i.e., graphics programs with captions)
remains scarce. Meanwhile, large amounts of unaligned graphics programs and
captioned raster images are more readily available. We reconcile these
disparate data sources by presenting TikZero, which decouples graphics program
generation from text understanding by using image representations as an
intermediary bridge. It enables independent training on graphics programs and
captioned images and allows for zero-shot text-guided graphics program
synthesis during inference. We show that our method substantially outperforms
baselines that can only operate with caption-aligned graphics programs.
Furthermore, when leveraging caption-aligned graphics programs as a
complementary training signal, TikZero matches or exceeds the performance of
much larger models, including commercial systems like GPT-4o. Our code,
datasets, and select models are publicly available.Summary
AI-Generated Summary