ShowTable: 協働的考察と洗練による創造的なテーブル可視化の実現
ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
December 15, 2025
著者: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI
要旨
既存の生成モデルや統一モデルは一般的な画像生成において優れた性能を発揮するが、一般的なシナリオを超えた深い推論、計画、精密なデータから視覚へのマッピング能力を要する課題には対応が困難である。この限界を超えるため、我々は新たな挑戦的課題として「創造的テーブル可視化」を提案する。これは与えられたテーブルデータを忠実かつ美的に可視化したインフォグラフィックを生成することを要求する課題である。
この課題に対処するため、我々はプログレッシブな自己修正プロセスによりMLLMと拡散モデルを協調させるShowTableを提案する。MLLMは視覚的計画の推論と視覚的誤りの判定を担当する中央オーケストレーターとして機能し、拡散モデルはMLLMからの命令を実行して高精細な結果を達成する。本課題とパイプラインを支援するため、3種類の自動データ構築パイプラインを開発した。さらに、5つの評価次元にわたる800の挑戦的インスタンスから成る新ベンチマークTableVisBenchを導入し、本課題における性能評価を可能にした。
各種モデルで実装した我々のパイプラインは、ベースライン手法を大幅に上回る性能を示し、効果的なマルチモーダル推論、生成、誤り修正能力を実証した。
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.