ShowTable: Kreative Tabellenvisualisierung durch kollaborative Reflexion und Verfeinerung freischalten
ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
December 15, 2025
papers.authors: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI
papers.abstract
Während bestehende Generierungs- und Unified-Modelle bei der allgemeinen Bildgenerierung hervorragende Leistungen erbringen, haben sie Schwierigkeiten mit Aufgaben, die tiefgehendes logisches Denken, Planung und präzise Daten-zu-Bild-Abbildungsfähigkeiten über allgemeine Szenarien hinaus erfordern. Um über die bestehenden Grenzen hinauszugehen, führen wir eine neue und anspruchsvolle Aufgabe ein: kreative Tabellenvisualisierung. Diese erfordert, dass das Modell ein Infografik erzeugt, das die Daten einer gegebenen Tabelle sowohl präzise als auch ästhetisch ansprechend visualisiert. Um diese Herausforderung zu bewältigen, schlagen wir ShowTable vor, eine Pipeline, die MLLMs über einen progressiven, selbstkorrigierenden Prozess mit Diffusionsmodellen kombiniert. Das MLLM fungiert als zentrale Steuerinstanz, um den visuellen Plan zu entwickeln und visuelle Fehler zu beurteilen, um so verfeinerte Anweisungen zu geben, während das Diffusionsmodell die Befehle des MLLMs ausführt und dabei hochwertige Ergebnisse erzielt. Um diese Aufgabe und unsere Pipeline zu unterstützen, führen wir drei automatisierte Datenkonstruktions-Pipelines für das Training verschiedener Module ein. Darüber hinaus stellen wir TableVisBench vor, einen neuen Benchmark mit 800 anspruchsvollen Instanzen über 5 Bewertungsdimensionen, um die Leistung bei dieser Aufgabe zu bewerten. Experimente zeigen, dass unsere Pipeline, instanziiert mit verschiedenen Modellen, Baseline-Methoden signifikant übertrifft und ihre effektiven multimodalen Denk-, Generierungs- und Fehlerkorrekturfähigkeiten unter Beweis stellt.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.