Lumos: Расширение возможностей мультимодальных LLM за счет распознавания текста на сцене
Lumos : Empowering Multimodal LLMs with Scene Text Recognition
February 12, 2024
Авторы: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI
Аннотация
Мы представляем Lumos — первую сквозную мультимодальную систему ответов на вопросы с возможностями понимания текста. В основе Lumos лежит компонент распознавания текста на изображениях (Scene Text Recognition, STR), который извлекает текст из изображений, снятых от первого лица. Этот текст затем используется для обогащения входных данных мультимодальной крупной языковой модели (Multimodal Large Language Model, MM-LLM). В процессе разработки Lumos мы столкнулись с многочисленными проблемами, связанными с качеством STR, общей задержкой и выводом модели. В данной статье мы подробно рассматриваем эти проблемы, обсуждаем архитектуру системы, принятые проектные решения и методы моделирования, которые позволили преодолеть эти трудности. Мы также предоставляем всестороннюю оценку каждого компонента, демонстрируя высокое качество и эффективность.
English
We introduce Lumos, the first end-to-end multimodal question-answering system
with text understanding capabilities. At the core of Lumos is a Scene Text
Recognition (STR) component that extracts text from first person point-of-view
images, the output of which is used to augment input to a Multimodal Large
Language Model (MM-LLM). While building Lumos, we encountered numerous
challenges related to STR quality, overall latency, and model inference. In
this paper, we delve into those challenges, and discuss the system
architecture, design choices, and modeling techniques employed to overcome
these obstacles. We also provide a comprehensive evaluation for each component,
showcasing high quality and efficiency.Summary
AI-Generated Summary