ChatPaper.aiChatPaper

ShowTable: 협력적 성찰과 정제를 통한 창의적 테이블 시각화 개방

ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

December 15, 2025
저자: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI

초록

기존 생성 모델과 통합 모델은 일반적인 이미지 생성에서는 뛰어난 성능을 보이지만, 일반적인 시나리오를 넘어서는 심층 추론, 계획 수립, 정밀한 데이터-시각적 매핑 능력을 요구하는 과제에서는 한계를 보입니다. 이러한 기존 한계를 극복하기 위해 우리는 새로운 도전 과제인 창의적 테이블 시각화를 제안합니다. 이는 주어진 테이블의 데이터를 정확하고 미학적으로 시각화한 인포그래픽을 생성해야 하는 과제입니다. 이 문제를 해결하기 위해 우리는 MLLM과 확산 모델을 점진적 자체 수정 과정을 통해 협력하는 ShowTable 파이프라인을 제안합니다. MLLM은 시각적 계획을 추론하고 시각적 오류를 판단하여 정제된 지시를 제공하는 중앙 조정자 역할을 하며, 확산 모델은 MLLM의 명령을 실행하여 높은 정확도의 결과를 달성합니다. 이 과제와 우리 파이프라인을 지원하기 위해 서로 다른 모듈 훈련을 위한 세 가지 자동화된 데이터 구축 파이프라인을 도입했습니다. 더 나아가 이 과제의 성능을 평가하기 위해 5가지 평가 차원과 800개의 도전적인 인스턴스로 구성된 새로운 벤치마크인 TableVisBench를 소개합니다. 실험 결과, 서로 다른 모델로 구현된 우리의 파이프라인이 기준선을 크게 능가하며, 효과적인 다중 모달 추론, 생성 및 오류 수정 능력을 입증했습니다.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.
PDF151December 18, 2025