ShowTable: Sbloccare la Visualizzazione Creativa delle Tabelle con Riflessione e Affinamento Collaborativo
ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
December 15, 2025
Autori: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI
Abstract
Mentre i modelli di generazione esistenti e i modelli unificati eccellono nella generazione generale di immagini, faticano in compiti che richiedono ragionamento approfondito, pianificazione e capacità di mappatura precisa dai dati al visivo oltre gli scenari generali. Per superare i limiti attuali, introduciamo un nuovo e impegnativo compito: la visualizzazione creativa di tabelle, che richiede al modello di generare un'infografica che visualizzi in modo fedele ed esteticamente gradevole i dati di una tabella fornita. Per affrontare questa sfida, proponiamo ShowTable, una pipeline che sinergizza MLLM con modelli di diffusione attraverso un processo progressivo di autocorrezione. L'MLLM funge da orchestratore centrale per il ragionamento del piano visivo e la valutazione degli errori visivi, fornendo istruzioni raffinate, mentre il modello di diffusione esegue i comandi dell'MLLM, ottenendo risultati ad alta fedeltà. Per supportare questo compito e la nostra pipeline, introduciamo tre pipeline automatizzate di costruzione dati per addestrare diversi moduli. Inoltre, introduciamo TableVisBench, un nuovo benchmark con 800 casi complessi distribuiti su 5 dimensioni di valutazione, per valutare le prestazioni su questo compito. Gli esperimenti dimostrano che la nostra pipeline, istanziata con diversi modelli, supera significativamente i baseline, evidenziando le sue efficaci capacità di ragionamento multimodale, generazione e correzione degli errori.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.