ChatPaper.aiChatPaper

TikZero: 제로샷 텍스트 기반 그래픽 프로그램 합성

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

March 14, 2025
저자: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto
cs.AI

초록

생성형 AI의 부상과 함께, 텍스트 캡션에서 도형을 합성하는 것은 매력적인 응용 분야가 되었습니다. 그러나 높은 기하학적 정밀도와 편집성을 달성하기 위해서는 TikZ와 같은 언어로 도형을 그래픽 프로그램으로 표현해야 하며, 정렬된 학습 데이터(즉, 캡션이 있는 그래픽 프로그램)는 여전히 부족합니다. 한편, 정렬되지 않은 대량의 그래픽 프로그램과 캡션이 있는 래스터 이미지는 더 쉽게 구할 수 있습니다. 우리는 이러한 상이한 데이터 소스를 조화롭게 통합하기 위해 TikZero를 제안합니다. TikZero는 이미지 표현을 중간 다리로 사용하여 그래픽 프로그램 생성과 텍스트 이해를 분리합니다. 이를 통해 그래픽 프로그램과 캡션이 있는 이미지를 독립적으로 학습할 수 있으며, 추론 과정에서 제로샷 텍스트 기반 그래픽 프로그램 합성을 가능하게 합니다. 우리의 방법은 캡션이 정렬된 그래픽 프로그램만을 사용할 수 있는 베이스라인을 크게 능가함을 보여줍니다. 더 나아가, 캡션이 정렬된 그래픽 프로그램을 보완적인 학습 신호로 활용할 때, TikZero는 GPT-4o와 같은 상용 시스템을 포함한 훨씬 더 큰 모델의 성능을 따라가거나 능가합니다. 우리의 코드, 데이터셋, 그리고 선택된 모델은 공개적으로 이용 가능합니다.
English
With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.

Summary

AI-Generated Summary

PDF32March 21, 2025