OmniCaptioner: Единый генератор описаний для всех задач

Аннотация

Мы представляем OmniCaptioner — универсальную систему генерации текстовых описаний для создания детализированных текстовых описаний в широком спектре визуальных областей. В отличие от предыдущих методов, ограниченных конкретными типами изображений (например, естественные изображения или геометрические визуализации), наша система предлагает единое решение для описания естественных изображений, визуального текста (например, плакатов, интерфейсов, учебников) и структурированных визуальных данных (например, документов, таблиц, графиков). Преобразуя низкоуровневую пиксельную информацию в семантически насыщенные текстовые представления, наша система устраняет разрыв между визуальными и текстовыми модальностями. Наши результаты подчеркивают три ключевых преимущества: (i) Улучшенное визуальное рассуждение с использованием LLM, где длинные контекстные описания визуальных модальностей позволяют LLM, в частности серии DeepSeek-R1, эффективно рассуждать в мультимодальных сценариях; (ii) Улучшенная генерация изображений, где детализированные описания улучшают задачи, такие как генерация изображений по тексту и преобразование изображений; и (iii) Эффективная контролируемая тонкая настройка (SFT), которая обеспечивает более быструю сходимость с меньшим объемом данных. Мы считаем, что универсальность и адаптивность OmniCaptioner могут предложить новый взгляд на устранение разрыва между языковыми и визуальными модальностями.

English

We propose OmniCaptioner, a versatile visual captioning framework for generating fine-grained textual descriptions across a wide variety of visual domains. Unlike prior methods limited to specific image types (e.g., natural images or geometric visuals), our framework provides a unified solution for captioning natural images, visual text (e.g., posters, UIs, textbooks), and structured visuals (e.g., documents, tables, charts). By converting low-level pixel information into semantically rich textual representations, our framework bridges the gap between visual and textual modalities. Our results highlight three key advantages: (i) Enhanced Visual Reasoning with LLMs, where long-context captions of visual modalities empower LLMs, particularly the DeepSeek-R1 series, to reason effectively in multimodal scenarios; (ii) Improved Image Generation, where detailed captions improve tasks like text-to-image generation and image transformation; and (iii) Efficient Supervised Fine-Tuning (SFT), which enables faster convergence with less data. We believe the versatility and adaptability of OmniCaptioner can offer a new perspective for bridging the gap between language and visual modalities.