ChatPaper.aiChatPaper

ShowTable : Libérer la visualisation créative de tableaux grâce à la réflexion et au perfectionnement collaboratifs

ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

December 15, 2025
papers.authors: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI

papers.abstract

Si les modèles de génération et les modèles unifiés existants excellent dans la génération d'images générales, ils peinent avec les tâches nécessitant un raisonnement approfondi, une planification et des capacités de cartographie précise des données vers le visuel au-delà des scénarios généraux. Pour repousser les limites actuelles, nous introduisons une nouvelle tâche exigeante : la visualisation créative de tableaux, qui requiert du modèle de générer une infographie qui visualise fidèlement et esthétiquement les données d'un tableau donné. Pour relever ce défi, nous proposons ShowTable, un pipeline qui synergise les MLLM avec les modèles de diffusion via un processus progressif d'auto-correction. Le MLLM agit comme l'orchestrateur central pour raisonner le plan visuel et juger les erreurs visuelles afin de fournir des instructions affinées, tandis que le modèle de diffusion exécute les commandes du MLLM, obtenant ainsi des résultats à haute fidélité. Pour soutenir cette tâche et notre pipeline, nous introduisons trois pipelines automatisés de construction de données pour entraîner les différents modules. De plus, nous présentons TableVisBench, un nouveau benchmark comprenant 800 instances difficiles réparties sur 5 dimensions d'évaluation, pour mesurer les performances sur cette tâche. Les expériences démontrent que notre pipeline, instancié avec différents modèles, surpasse significativement les approches de référence, soulignant ses capacités efficaces de raisonnement multi-modal, de génération et de correction d'erreurs.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.
PDF151December 18, 2025