ChatPaper.aiChatPaper

La Veridicità Conta: Quando la Generazione e la Modifica di Immagini Incontrano i Contenuti Visivi Strutturati

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

October 6, 2025
Autori: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI

Abstract

Sebbene i moderni modelli di generazione visiva eccellano nella creazione di immagini naturali esteticamente piacevoli, faticano a produrre o modificare elementi visivi strutturati come grafici, diagrammi e figure matematiche, che richiedono pianificazione della composizione, rendering del testo e ragionamento multimodale per garantire la fedeltà fattuale. Per affrontare questa sfida, presentiamo la prima indagine completa e sistematica di questo dominio, che comprende la costruzione di dati, l'addestramento del modello e un benchmark di valutazione. In primo luogo, costruiamo un dataset su larga scala di 1,3 milioni di coppie di immagini strutturate di alta qualità, derivate da programmi di disegno eseguibili e arricchite con annotazioni di ragionamento a catena di pensiero. Su questa base, addestriamo un modello unificato che integra un VLM con FLUX.1 Kontext tramite un connettore leggero per una migliore comprensione multimodale. Un curriculum di addestramento in tre fasi consente un allineamento progressivo delle caratteristiche, un'infusione di conoscenza e una generazione potenziata dal ragionamento, ulteriormente migliorata da un ragionatore esterno al momento dell'inferenza. Infine, introduciamo StructBench, un nuovo benchmark per la generazione e la modifica con oltre 1.700 istanze complesse, e una metrica di valutazione associata, StructScore, che utilizza un protocollo Q&A a più round per valutare l'accuratezza fattuale a livello granulare. Le valutazioni di 15 modelli rivelano che anche i sistemi closed-source più avanzati rimangono lontani dall'essere soddisfacenti. Il nostro modello raggiunge prestazioni di modifica solide, e il ragionamento al momento dell'inferenza produce guadagni consistenti su diverse architetture. Rilasciando il dataset, il modello e il benchmark, miriamo a promuovere fondamenti multimodali unificati per i contenuti visivi strutturati.
English
While modern visual generation models excel at creating aesthetically pleasing natural images, they struggle with producing or editing structured visuals like charts, diagrams, and mathematical figures, which demand composition planning, text rendering, and multimodal reasoning for factual fidelity. To address this, we present the first comprehensive, systematic investigation of this domain, encompassing data construction, model training, and an evaluation benchmark. First, we construct a large-scale dataset of 1.3 million high-quality structured image pairs derived from executable drawing programs and augmented with chain-of-thought reasoning annotations. Building on it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a lightweight connector for enhanced multimodal understanding. A three-stage training curriculum enables progressive feature alignment, knowledge infusion, and reasoning-augmented generation, further boosted by an external reasoner at inference time. Finally, we introduce StructBench, a novel benchmark for generation and editing with over 1,700 challenging instances, and an accompanying evaluation metric, StructScore, which employs a multi-round Q\&A protocol to assess fine-grained factual accuracy. Evaluations of 15 models reveal that even leading closed-source systems remain far from satisfactory. Our model attains strong editing performance, and inference-time reasoning yields consistent gains across diverse architectures. By releasing the dataset, model, and benchmark, we aim to advance unified multimodal foundations for structured visuals.
PDF172October 7, 2025