Переплетенный граф сцен для переплетенной генерации текста и изображений Оценка
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
November 26, 2024
Авторы: Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
cs.AI
Аннотация
Многие запросы пользователей в реальном мире (например, "Как приготовить яичный жареный рис?") могли бы получить выгоду от систем, способных генерировать ответы с текстовыми шагами и сопровождающими изображениями, аналогично кулинарной книге. Модели, разработанные для генерации чередующегося текста и изображений, сталкиваются с вызовами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную систему оценки для генерации чередующегося текста и изображений. ISG использует структуру графа сцены для захвата отношений между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях детализации: целостном, структурном, блочном и специфическом для изображения. Эта многоуровневая оценка позволяет проводить тонкую оценку согласованности, согласованности и точности, а также обеспечивает интерпретируемую обратную связь вопрос-ответ. Вместе с ISG мы представляем бенчмарк, ISG-Bench, охватывающий 1,150 примеров в 8 категориях и 21 подкатегории. Этот набор данных бенчмарков включает сложные зависимости между языком и зрением и золотые ответы для эффективной оценки моделей на задачах, сосредоточенных на зрении, таких как стилевой трансфер, сложная область для текущих моделей. Используя ISG-Bench, мы демонстрируем, что недавние объединенные модели зрения и языка плохо справляются с генерацией чередующегося контента. В то время как композиционные подходы, объединяющие отдельные языковые и изображенческие модели, показывают улучшение на 111% по сравнению с объединенными моделями на целостном уровне, их производительность остается недостаточной как на уровне блока, так и на уровне изображения. Для облегчения будущей работы мы разрабатываем ISG-Agent, базового агента, использующего конвейер "планирование-выполнение-усовершенствование" для вызова инструментов, достигая улучшения производительности на 122%.
English
Many real-world user queries (e.g. "How do to make egg fried rice?") could
benefit from systems capable of generating responses with both textual steps
with accompanying images, similar to a cookbook. Models designed to generate
interleaved text and images face challenges in ensuring consistency within and
across these modalities. To address these challenges, we present ISG, a
comprehensive evaluation framework for interleaved text-and-image generation.
ISG leverages a scene graph structure to capture relationships between text and
image blocks, evaluating responses on four levels of granularity: holistic,
structural, block-level, and image-specific. This multi-tiered evaluation
allows for a nuanced assessment of consistency, coherence, and accuracy, and
provides interpretable question-answer feedback. In conjunction with ISG, we
introduce a benchmark, ISG-Bench, encompassing 1,150 samples across 8
categories and 21 subcategories. This benchmark dataset includes complex
language-vision dependencies and golden answers to evaluate models effectively
on vision-centric tasks such as style transfer, a challenging area for current
models. Using ISG-Bench, we demonstrate that recent unified vision-language
models perform poorly on generating interleaved content. While compositional
approaches that combine separate language and image models show a 111%
improvement over unified models at the holistic level, their performance
remains suboptimal at both block and image levels. To facilitate future work,
we develop ISG-Agent, a baseline agent employing a "plan-execute-refine"
pipeline to invoke tools, achieving a 122% performance improvement.Summary
AI-Generated Summary