ShowTable: Раскрытие творческого потенциала визуализации таблиц через совместное осмысление и доработку
ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
December 15, 2025
Авторы: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie
cs.AI
Аннотация
Хотя существующие модели генерации и унифицированные модели преуспевают в создании изображений общего характера, они испытывают трудности с задачами, требующими глубоких рассуждений, планирования и точного преобразования данных в визуальное представление за пределами стандартных сценариев. Чтобы преодолеть существующие ограничения, мы представляем новую сложную задачу: креативную визуализацию таблиц, которая требует от модели генерации инфографики, достоверно и эстетично визуализирующей данные из заданной таблицы. Для решения этой проблемы мы предлагаем ShowTable — конвейер, который объединяет MLLM с диффузионными моделями посредством прогрессивного самокорректирующего процесса. MLLM выступает в роли центрального оркестратора для планирования визуализации и выявления визуальных ошибок с целью предоставления уточненных инструкций, а диффузионная модель выполняет команды от MLLM, достигая результатов высокой точности. Для поддержки данной задачи и нашего конвейера мы представляем три автоматизированных конвейера построения данных для обучения различных модулей. Кроме того, мы представляем TableVisBench — новый эталонный набор из 800 сложных примеров по 5 оценочным измерениям для оценки производительности в этой задаче. Эксперименты показывают, что наш конвейер, реализованный с различными моделями, значительно превосходит базовые методы, демонстрируя эффективные возможности мультимодального reasoning, генерации и коррекции ошибок.
English
While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.