ChatPaper.aiChatPaper

La Importancia de la Factualidad: Cuando la Generación y Edición de Imágenes se Encuentran con los Visuales Estructurados

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

October 6, 2025
Autores: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI

Resumen

Aunque los modelos modernos de generación visual sobresalen en la creación de imágenes naturales estéticamente agradables, enfrentan dificultades para producir o editar gráficos estructurados como gráficos, diagramas y figuras matemáticas, los cuales requieren planificación de composición, renderización de texto y razonamiento multimodal para garantizar fidelidad factual. Para abordar este problema, presentamos la primera investigación integral y sistemática de este dominio, abarcando la construcción de datos, el entrenamiento de modelos y un punto de referencia de evaluación. En primer lugar, construimos un conjunto de datos a gran escala de 1.3 millones de pares de imágenes estructuradas de alta calidad, derivadas de programas de dibujo ejecutables y enriquecidas con anotaciones de razonamiento en cadena de pensamiento. Basándonos en ello, entrenamos un modelo unificado que integra un VLM con FLUX.1 Kontext mediante un conector ligero para mejorar la comprensión multimodal. Un plan de entrenamiento en tres etapas permite la alineación progresiva de características, la infusión de conocimiento y la generación aumentada con razonamiento, potenciada además por un razonador externo durante la inferencia. Finalmente, presentamos StructBench, un nuevo punto de referencia para la generación y edición con más de 1,700 instancias desafiantes, y una métrica de evaluación asociada, StructScore, que emplea un protocolo de preguntas y respuestas en múltiples rondas para evaluar la precisión factual en detalle. Las evaluaciones de 15 modelos revelan que incluso los sistemas líderes de código cerrado distan de ser satisfactorios. Nuestro modelo alcanza un fuerte rendimiento en edición, y el razonamiento durante la inferencia produce mejoras consistentes en diversas arquitecturas. Al liberar el conjunto de datos, el modelo y el punto de referencia, buscamos avanzar en los fundamentos multimodales unificados para gráficos estructurados.
English
While modern visual generation models excel at creating aesthetically pleasing natural images, they struggle with producing or editing structured visuals like charts, diagrams, and mathematical figures, which demand composition planning, text rendering, and multimodal reasoning for factual fidelity. To address this, we present the first comprehensive, systematic investigation of this domain, encompassing data construction, model training, and an evaluation benchmark. First, we construct a large-scale dataset of 1.3 million high-quality structured image pairs derived from executable drawing programs and augmented with chain-of-thought reasoning annotations. Building on it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a lightweight connector for enhanced multimodal understanding. A three-stage training curriculum enables progressive feature alignment, knowledge infusion, and reasoning-augmented generation, further boosted by an external reasoner at inference time. Finally, we introduce StructBench, a novel benchmark for generation and editing with over 1,700 challenging instances, and an accompanying evaluation metric, StructScore, which employs a multi-round Q\&A protocol to assess fine-grained factual accuracy. Evaluations of 15 models reveal that even leading closed-source systems remain far from satisfactory. Our model attains strong editing performance, and inference-time reasoning yields consistent gains across diverse architectures. By releasing the dataset, model, and benchmark, we aim to advance unified multimodal foundations for structured visuals.
PDF152October 7, 2025