ChatPaper.aiChatPaper

Faktizität zählt: Wenn Bildgenerierung und -bearbeitung auf strukturierte visuelle Inhalte treffen

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

October 6, 2025
papers.authors: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI

papers.abstract

Während moderne Modelle zur visuellen Erzeugung hervorragend darin sind, ästhetisch ansprechende natürliche Bilder zu erstellen, haben sie Schwierigkeiten damit, strukturierte visuelle Inhalte wie Diagramme, Grafiken und mathematische Figuren zu erzeugen oder zu bearbeiten, die Planung der Komposition, Textdarstellung und multimodales Denken für faktische Genauigkeit erfordern. Um dies zu adressieren, präsentieren wir die erste umfassende, systematische Untersuchung dieses Bereichs, die die Datenerstellung, Modelltraining und einen Evaluierungsbenchmark umfasst. Zunächst erstellen wir einen groß angelegten Datensatz mit 1,3 Millionen hochwertigen strukturierten Bildpaaren, die aus ausführbaren Zeichenprogrammen abgeleitet und mit Chain-of-Thought-Reasoning-Annotationen angereichert wurden. Darauf aufbauend trainieren wir ein einheitliches Modell, das ein VLM mit FLUX.1 Kontext über einen leichten Connector für ein verbessertes multimodales Verständnis integriert. Ein dreistufiges Trainingscurriculum ermöglicht eine progressive Merkmalsausrichtung, Wissensinfusion und reasoning-augmentierte Erzeugung, die durch einen externen Reasoner zur Inferenzzeit weiter gesteigert wird. Schließlich führen wir StructBench ein, einen neuartigen Benchmark für die Erzeugung und Bearbeitung mit über 1.700 anspruchsvollen Instanzen, sowie eine begleitende Evaluierungsmetrik, StructScore, die ein mehrstufiges Q&A-Protokoll verwendet, um die feinkörnige faktische Genauigkeit zu bewerten. Bewertungen von 15 Modellen zeigen, dass selbst führende Closed-Source-Systeme weit von zufriedenstellenden Ergebnissen entfernt sind. Unser Modell erreicht eine starke Bearbeitungsleistung, und Inferenzzeit-Reasoning führt zu konsistenten Verbesserungen über verschiedene Architekturen hinweg. Durch die Veröffentlichung des Datensatzes, des Modells und des Benchmarks streben wir an, einheitliche multimodale Grundlagen für strukturierte visuelle Inhalte voranzutreiben.
English
While modern visual generation models excel at creating aesthetically pleasing natural images, they struggle with producing or editing structured visuals like charts, diagrams, and mathematical figures, which demand composition planning, text rendering, and multimodal reasoning for factual fidelity. To address this, we present the first comprehensive, systematic investigation of this domain, encompassing data construction, model training, and an evaluation benchmark. First, we construct a large-scale dataset of 1.3 million high-quality structured image pairs derived from executable drawing programs and augmented with chain-of-thought reasoning annotations. Building on it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a lightweight connector for enhanced multimodal understanding. A three-stage training curriculum enables progressive feature alignment, knowledge infusion, and reasoning-augmented generation, further boosted by an external reasoner at inference time. Finally, we introduce StructBench, a novel benchmark for generation and editing with over 1,700 challenging instances, and an accompanying evaluation metric, StructScore, which employs a multi-round Q\&A protocol to assess fine-grained factual accuracy. Evaluations of 15 models reveal that even leading closed-source systems remain far from satisfactory. Our model attains strong editing performance, and inference-time reasoning yields consistent gains across diverse architectures. By releasing the dataset, model, and benchmark, we aim to advance unified multimodal foundations for structured visuals.
PDF152October 7, 2025