mPLUG-DocOwl 1.5: Единое обучение структуры для понимания документов без OCRmPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document
Understanding
Структурная информация критически важна для понимания семантики изображений, богатых текстом, таких как документы, таблицы и диаграммы. Существующие Мультимодальные Большие Языковые Модели (MLLMs) для Понимания Визуальных Документов обладают способностью к распознаванию текста, но лишены общих способностей понимания структуры для изображений документов, богатых текстом. В данной работе мы подчеркиваем важность структурной информации в Понимании Визуальных Документов и предлагаем Объединенное Обучение Структуре для повышения производительности MLLMs. Наше Объединенное Обучение Структуре включает в себя задачи структурно-осознанного разбора и задачи локализации текста различной степени детализации в 5 доменах: документ, веб-страница, таблица, диаграмма и естественное изображение. Для лучшего кодирования структурной информации мы разработали простой и эффективный модуль видение-текст H-Reducer, который может не только сохранять информацию о макете, но и сокращать длину визуальных характеристик путем объединения горизонтально смежных патчей через свертку, что позволяет LLM более эффективно понимать изображения высокого разрешения. Кроме того, создавая структурно-осознанные последовательности текста и многозернистые пары текстов и ограничивающих рамок для общедоступных изображений, богатых текстом, мы создаем обширный набор данных для обучения DocStruct4M для поддержки обучения структуре. Наконец, мы создаем небольшой, но высококачественный набор данных для настройки рассуждений DocReason25K для активации способности к детальному объяснению в домене документов. Наша модель DocOwl 1.5 достигает передовой производительности на 10 бенчмарках по пониманию визуальных документов, улучшая передовую производительность MLLMs с 7B LLM более чем на 10 пунктов в 5 из 10 бенчмарков. Наши коды, модели и наборы данных доступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.