Veagle: Продвижения в обучении мультимодального представления
Veagle: Advancements in Multimodal Representation Learning
January 18, 2024
Авторы: Rajat Chawla, Arkajit Datta, Tushar Verma, Adarsh Jha, Anmol Gautam, Ayush Vatsal, Sukrit Chaterjee, Mukunda NS, Ishaan Bhola
cs.AI
Аннотация
В последнее время исследователи в области искусственного интеллекта проявляют большой интерес к тому, как сочетаются язык и зрение, что приводит к разработке мультимодельных моделей, направленных на беспрепятственное интегрирование текстовой и визуальной информации. Мультимодельные модели, расширение Больших Языковых Моделей (LLM), проявили замечательные способности в решении разнообразных задач, начиная от описания изображений и визуального вопросно-ответного моделирования (VQA) до визуального закрепления. Несмотря на значительные достижения этих моделей, остаются вызовы в точной интерпретации изображений и ответа на вопрос, что является распространенным явлением в реальных сценариях. В данной статье представлен новаторский подход к улучшению мультимодальных способностей существующих моделей. В ответ на наблюдаемые ограничения в текущих Моделях Визуального Языка (VLM) и Мультимодальных Больших Языковых Моделях (MLLM), наша предложенная модель Veagle включает уникальный механизм, вдохновленный успехами и идеями предыдущих работ. Veagle использует динамический механизм для прямой проекции закодированной визуальной информации непосредственно в языковую модель. Этот динамический подход позволяет более тонко понимать сложные детали, присутствующие в визуальных контекстах. Для проверки эффективности Veagle мы проводим комплексные эксперименты на эталонных наборах данных, акцентируясь на задачах, таких как визуальное вопросно-ответное моделирование и понимание изображений. Наши результаты указывают на улучшение производительности на 5-6 \%, причем Veagle превосходит существующие модели значительно. Полученные результаты подчеркивают универсальность и применимость модели за пределами традиционных эталонов.
English
Lately, researchers in artificial intelligence have been really interested in
how language and vision come together, giving rise to the development of
multimodal models that aim to seamlessly integrate textual and visual
information. Multimodal models, an extension of Large Language Models (LLMs),
have exhibited remarkable capabilities in addressing a diverse array of tasks,
ranging from image captioning and visual question answering (VQA) to visual
grounding. While these models have showcased significant advancements,
challenges persist in accurately interpreting images and answering the
question, a common occurrence in real-world scenarios. This paper introduces a
novel approach to enhance the multimodal capabilities of existing models. In
response to the limitations observed in current Vision Language Models (VLMs)
and Multimodal Large Language Models (MLLMs), our proposed model Veagle,
incorporates a unique mechanism inspired by the successes and insights of
previous works. Veagle leverages a dynamic mechanism to project encoded visual
information directly into the language model. This dynamic approach allows for
a more nuanced understanding of intricate details present in visual contexts.
To validate the effectiveness of Veagle, we conduct comprehensive experiments
on benchmark datasets, emphasizing tasks such as visual question answering and
image understanding. Our results indicate a improvement of 5-6 \% in
performance, with Veagle outperforming existing models by a notable margin. The
outcomes underscore the model's versatility and applicability beyond
traditional benchmarks.