La factualité compte : quand la génération et l'édition d'images rencontrent les visuels structurés
Factuality Matters: When Image Generation and Editing Meet Structured Visuals
October 6, 2025
papers.authors: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI
papers.abstract
Alors que les modèles modernes de génération visuelle excellent dans la création d'images naturelles esthétiquement plaisantes, ils peinent à produire ou à éditer des visuels structurés tels que des graphiques, des diagrammes et des figures mathématiques, qui nécessitent une planification de la composition, un rendu de texte et un raisonnement multimodal pour garantir la fidélité factuelle. Pour répondre à ce défi, nous présentons la première investigation complète et systématique de ce domaine, englobant la construction de données, l'entraînement de modèles et un benchmark d'évaluation. Tout d'abord, nous construisons un jeu de données à grande échelle de 1,3 million de paires d'images structurées de haute qualité, dérivées de programmes de dessin exécutables et enrichies d'annotations de raisonnement en chaîne de pensée. Sur cette base, nous entraînons un modèle unifié qui intègre un VLM avec FLUX.1 Kontext via un connecteur léger pour une compréhension multimodale améliorée. Un curriculum d'entraînement en trois étapes permet un alignement progressif des caractéristiques, une infusion de connaissances et une génération renforcée par le raisonnement, encore boostée par un raisonneur externe au moment de l'inférence. Enfin, nous introduisons StructBench, un nouveau benchmark pour la génération et l'édition avec plus de 1 700 instances complexes, ainsi qu'une métrique d'évaluation associée, StructScore, qui utilise un protocole de questions-réponses en plusieurs tours pour évaluer la précision factuelle fine. Les évaluations de 15 modèles révèlent que même les systèmes propriétaires leaders restent loin d'être satisfaisants. Notre modèle atteint de solides performances en édition, et le raisonnement au moment de l'inférence apporte des gains constants à travers diverses architectures. En publiant le jeu de données, le modèle et le benchmark, nous visons à faire progresser les fondations multimodales unifiées pour les visuels structurés.
English
While modern visual generation models excel at creating aesthetically
pleasing natural images, they struggle with producing or editing structured
visuals like charts, diagrams, and mathematical figures, which demand
composition planning, text rendering, and multimodal reasoning for factual
fidelity. To address this, we present the first comprehensive, systematic
investigation of this domain, encompassing data construction, model training,
and an evaluation benchmark. First, we construct a large-scale dataset of 1.3
million high-quality structured image pairs derived from executable drawing
programs and augmented with chain-of-thought reasoning annotations. Building on
it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a
lightweight connector for enhanced multimodal understanding. A three-stage
training curriculum enables progressive feature alignment, knowledge infusion,
and reasoning-augmented generation, further boosted by an external reasoner at
inference time. Finally, we introduce StructBench, a novel benchmark for
generation and editing with over 1,700 challenging instances, and an
accompanying evaluation metric, StructScore, which employs a multi-round Q\&A
protocol to assess fine-grained factual accuracy. Evaluations of 15 models
reveal that even leading closed-source systems remain far from satisfactory.
Our model attains strong editing performance, and inference-time reasoning
yields consistent gains across diverse architectures. By releasing the dataset,
model, and benchmark, we aim to advance unified multimodal foundations for
structured visuals.