ChatPaper.aiChatPaper

A Factualidade Importa: Quando a Geração e Edição de Imagens Encontram os Visuais Estruturados

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

October 6, 2025
Autores: Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li
cs.AI

Resumo

Embora os modelos modernos de geração visual se destaquem na criação de imagens naturais esteticamente agradáveis, eles enfrentam dificuldades ao produzir ou editar visuais estruturados, como gráficos, diagramas e figuras matemáticas, que exigem planejamento de composição, renderização de texto e raciocínio multimodal para garantir fidelidade factual. Para abordar essa lacuna, apresentamos a primeira investigação abrangente e sistemática desse domínio, abrangendo a construção de dados, o treinamento de modelos e um benchmark de avaliação. Primeiro, construímos um conjunto de dados em larga escala com 1,3 milhão de pares de imagens estruturadas de alta qualidade, derivados de programas de desenho executáveis e aumentados com anotações de raciocínio em cadeia de pensamento. Com base nisso, treinamos um modelo unificado que integra um VLM com FLUX.1 Kontext por meio de um conector leve para aprimorar a compreensão multimodal. Um currículo de treinamento em três estágios permite o alinhamento progressivo de características, a infusão de conhecimento e a geração aprimorada por raciocínio, ainda mais impulsionada por um raciocinador externo durante a inferência. Por fim, introduzimos o StructBench, um novo benchmark para geração e edição com mais de 1.700 instâncias desafiadoras, e uma métrica de avaliação associada, o StructScore, que emprega um protocolo de Q&A em múltiplas rodadas para avaliar a precisão factual em nível granular. Avaliações de 15 modelos revelam que até mesmo os sistemas líderes de código fechado permanecem longe de serem satisfatórios. Nosso modelo alcança um forte desempenho em edição, e o raciocínio durante a inferência gera ganhos consistentes em diversas arquiteturas. Ao disponibilizar o conjunto de dados, o modelo e o benchmark, buscamos avançar as bases multimodais unificadas para visuais estruturados.
English
While modern visual generation models excel at creating aesthetically pleasing natural images, they struggle with producing or editing structured visuals like charts, diagrams, and mathematical figures, which demand composition planning, text rendering, and multimodal reasoning for factual fidelity. To address this, we present the first comprehensive, systematic investigation of this domain, encompassing data construction, model training, and an evaluation benchmark. First, we construct a large-scale dataset of 1.3 million high-quality structured image pairs derived from executable drawing programs and augmented with chain-of-thought reasoning annotations. Building on it, we train a unified model that integrates a VLM with FLUX.1 Kontext via a lightweight connector for enhanced multimodal understanding. A three-stage training curriculum enables progressive feature alignment, knowledge infusion, and reasoning-augmented generation, further boosted by an external reasoner at inference time. Finally, we introduce StructBench, a novel benchmark for generation and editing with over 1,700 challenging instances, and an accompanying evaluation metric, StructScore, which employs a multi-round Q\&A protocol to assess fine-grained factual accuracy. Evaluations of 15 models reveal that even leading closed-source systems remain far from satisfactory. Our model attains strong editing performance, and inference-time reasoning yields consistent gains across diverse architectures. By releasing the dataset, model, and benchmark, we aim to advance unified multimodal foundations for structured visuals.
PDF172October 7, 2025