ChatPaper.aiChatPaper

ShowTable: Desbloqueando la Visualización Creativa de Tablas con Reflexión y Refinamiento Colaborativo

ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

December 15, 2025
Autores: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI

Resumen

Si bien los modelos de generación y unificados existentes sobresalen en la generación general de imágenes, presentan dificultades en tareas que requieren razonamiento profundo, planificación y capacidades precisas de mapeo de datos a elementos visuales más allá de escenarios generales. Para superar las limitaciones actuales, presentamos una nueva y desafiante tarea: la visualización creativa de tablas, que requiere que el modelo genere una infografía que visualice de manera fiel y estética los datos de una tabla dada. Para abordar este desafío, proponemos ShowTable, un pipeline que sinergiza MLLMs con modelos de difusión mediante un proceso progresivo de autocorrección. El MLLM actúa como orquestador central para razonar el plan visual y juzgar errores visuales, proporcionando instrucciones refinadas, mientras que el modelo de difusión ejecuta los comandos del MLLM, logrando resultados de alta fidelidad. Para respaldar esta tarea y nuestro pipeline, introducimos tres pipelines automatizados de construcción de datos para entrenar diferentes módulos. Además, presentamos TableVisBench, un nuevo benchmark con 800 instancias desafiantes en 5 dimensiones de evaluación, para valorar el rendimiento en esta tarea. Los experimentos demuestran que nuestro pipeline, instanciado con diferentes modelos, supera significativamente a los baselines, destacando sus eficaces capacidades de razonamiento multimodal, generación y corrección de errores.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.
PDF151December 18, 2025