Lumos: Расширение возможностей мультимодальных LLM за счет распознавания текста на сцене

Аннотация

Мы представляем Lumos — первую сквозную мультимодальную систему ответов на вопросы с возможностями понимания текста. В основе Lumos лежит компонент распознавания текста на изображениях (Scene Text Recognition, STR), который извлекает текст из изображений, снятых от первого лица. Этот текст затем используется для обогащения входных данных мультимодальной крупной языковой модели (Multimodal Large Language Model, MM-LLM). В процессе разработки Lumos мы столкнулись с многочисленными проблемами, связанными с качеством STR, общей задержкой и выводом модели. В данной статье мы подробно рассматриваем эти проблемы, обсуждаем архитектуру системы, принятые проектные решения и методы моделирования, которые позволили преодолеть эти трудности. Мы также предоставляем всестороннюю оценку каждого компонента, демонстрируя высокое качество и эффективность.

English

We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Lumos: Расширение возможностей мультимодальных LLM за счет распознавания текста на сцене

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Аннотация

Support