ShowTable: Desbloqueando a Visualização Criativa de Tabelas com Reflexão e Refinamento Colaborativo

Resumo

Embora os modelos de geração existentes e os modelos unificados se destaquem na geração geral de imagens, eles lutam com tarefas que exigem raciocínio profundo, planejamento e habilidades precisas de mapeamento de dados para visualização além de cenários gerais. Para superar as limitações existentes, introduzimos uma nova e desafiadora tarefa: visualização criativa de tabelas, que requer que o modelo gere um infográfico que visualize os dados de uma determinada tabela de forma fiel e esteticamente agradável. Para enfrentar esse desafio, propomos o ShowTable, um *pipeline* que sinergiza MLLMs com modelos de difusão por meio de um processo progressivo de autocorreção. O MLLM atua como orquestrador central para raciocinar o plano visual e julgar erros visuais, fornecendo instruções refinadas, enquanto o modelo de difusão executa os comandos do MLLM, alcançando resultados de alta fidelidade. Para apoiar esta tarefa e nosso *pipeline*, introduzimos três *pipelines* automatizados de construção de dados para treinar diferentes módulos. Além disso, introduzimos o TableVisBench, um novo *benchmark* com 800 instâncias desafiadoras abrangendo 5 dimensões de avaliação, para medir o desempenho nesta tarefa. Experimentos demonstram que nosso *pipeline*, instanciado com diferentes modelos, supera significativamente as *baselines*, destacando suas eficazes capacidades de raciocínio multimodal, geração e correção de erros.

English

While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.