Kosmos-2.5: Мультимодальная модель с навыками грамотности

Аннотация

Мы представляем Kosmos-2.5, мультимодальную грамотную модель для машинного чтения текстоемких изображений. Предварительно обученная на больших объемах текстоемких изображений, Kosmos-2.5 преуспевает в двух различных, но взаимодополняющих задачах транскрипции: (1) генерации пространственно-ориентированных текстовых блоков, где каждому блоку текста присваиваются его пространственные координаты в изображении, и (2) создании структурированного текстового вывода, который фиксирует стили и структуры в формате markdown. Эта унифицированная мультимодальная грамотная способность достигается за счет общей архитектуры Transformer, специализированных подсказок для задач и гибких текстовых представлений. Мы оцениваем Kosmos-2.5 на задачах сквозного распознавания текста на уровне документов и генерации текста из изображения в формате markdown. Кроме того, модель может быть легко адаптирована для любой задачи понимания текстоемких изображений с использованием различных подсказок посредством контролируемого дообучения, что делает её универсальным инструментом для реальных приложений, связанных с изображениями, насыщенными текстом. Эта работа также прокладывает путь для будущего масштабирования мультимодальных больших языковых моделей.

English

We present Kosmos-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on large-scale text-intensive images, Kosmos-2.5 excels in two distinct yet cooperative transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned its spatial coordinates within the image, and (2) producing structured text output that captures styles and structures into the markdown format. This unified multimodal literate capability is achieved through a shared Transformer architecture, task-specific prompts, and flexible text representations. We evaluate Kosmos-2.5 on end-to-end document-level text recognition and image-to-markdown text generation. Furthermore, the model can be readily adapted for any text-intensive image understanding task with different prompts through supervised fine-tuning, making it a general-purpose tool for real-world applications involving text-rich images. This work also paves the way for the future scaling of multimodal large language models.

Kosmos-2.5: Мультимодальная модель с навыками грамотности

Kosmos-2.5: A Multimodal Literate Model

Аннотация

Support