ChatPaper.aiChatPaper

Lumos: Расширение возможностей мультимодальных LLM за счет распознавания текста на сцене

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

February 12, 2024
Авторы: Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar
cs.AI

Аннотация

Мы представляем Lumos — первую сквозную мультимодальную систему ответов на вопросы с возможностями понимания текста. В основе Lumos лежит компонент распознавания текста на изображениях (Scene Text Recognition, STR), который извлекает текст из изображений, снятых от первого лица. Этот текст затем используется для обогащения входных данных мультимодальной крупной языковой модели (Multimodal Large Language Model, MM-LLM). В процессе разработки Lumos мы столкнулись с многочисленными проблемами, связанными с качеством STR, общей задержкой и выводом модели. В данной статье мы подробно рассматриваем эти проблемы, обсуждаем архитектуру системы, принятые проектные решения и методы моделирования, которые позволили преодолеть эти трудности. Мы также предоставляем всестороннюю оценку каждого компонента, демонстрируя высокое качество и эффективность.
English
We introduce Lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of Lumos is a Scene Text Recognition (STR) component that extracts text from first person point-of-view images, the output of which is used to augment input to a Multimodal Large Language Model (MM-LLM). While building Lumos, we encountered numerous challenges related to STR quality, overall latency, and model inference. In this paper, we delve into those challenges, and discuss the system architecture, design choices, and modeling techniques employed to overcome these obstacles. We also provide a comprehensive evaluation for each component, showcasing high quality and efficiency.

Summary

AI-Generated Summary

PDF282December 15, 2024