ShowTable: Creatieve Tabelvisualisatie Ontgrendelen met Collaboratieve Reflectie en Verfijning
ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
December 15, 2025
Auteurs: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI
Samenvatting
Hoewel bestaande generatie- en unified-modellen uitblinken in algemene beeldgeneratie, hebben ze moeite met taken die diepgaand redeneren, planning en precieze data-naar-visuele mapping vereisen, buiten algemene scenario's om. Om de bestaande beperkingen te overstijgen, introduceren we een nieuwe en uitdagende taak: creatieve tabelvisualisatie, waarbij het model een infographic moet genereren die de gegevens uit een gegeven tabel op een getrouwe en esthetische manier visualiseert. Om deze uitdaging aan te pakken, stellen we ShowTable voor, een pijplijn die MLLM's en diffusiemodellen synergiseert via een progressief zelfcorrigerend proces. De MLLM fungeert als centrale orchestrator voor het redeneren over het visuele plan en het beoordelen van visuele fouten om verfijnde instructies te geven, terwijl het diffusiemodel de commando's van de MLLM uitvoert, wat resulteert in hoogwaardige resultaten. Om deze taak en onze pijplijn te ondersteunen, introduceren we drie geautomatiseerde dataconstructiepijplijnen voor het trainen van verschillende modules. Verder introduceren we TableVisBench, een nieuwe benchmark met 800 uitdagende instanties verspreid over 5 evaluatiedimensies, om de prestaties voor deze taak te beoordelen. Experimenten tonen aan dat onze pijplijn, geïnstantieerd met verschillende modellen, de baseline-methoden significant overtreft, wat haar effectieve multimodale redeneer-, generatie- en foutcorrectiecapaciteiten benadrukt.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.