Разработка модели видео-языкового взаимодействия для применения в реальном мире
POINTS1.5: Building a Vision-Language Model towards Real World Applications
December 11, 2024
Авторы: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI
Аннотация
Модели видео-языка в последнее время значительно продвинулись, демонстрируя превосходную производительность в различных задачах, например, в распознавании оптических символов и анализе сложных диаграмм. Продолжая эту тенденцию, мы представляем новую модель видео-языка, POINTS1.5, разработанную для превосходства в различных прикладных областях. POINTS1.5 является улучшением POINTS1.0 и включает в себя несколько ключевых инноваций: i) Мы заменяем исходный видео-кодер CLIP, имевший фиксированное разрешение изображения, на видео-кодер в стиле NaViT, поддерживающий нативное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавляем поддержку двуязычности в POINTS1.5, значительно расширяя его возможности на китайском языке. В связи с недостатком открытых китайских наборов данных для моделей видео-языка, мы собираем множество изображений из Интернета и аннотируем их с использованием комбинации ручных и автоматических методов. iii) Мы предлагаем набор строгих методов фильтрации для настройки визуальных инструкционных наборов данных. Мы всесторонне оцениваем все эти методы фильтрации и выбираем наиболее эффективные для получения окончательного набора данных для настройки визуальных инструкций. Благодаря этим инновациям, POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует высокую производительность в различных прикладных областях. Следует отметить, что POINTS1.5-7B обучается на менее чем 4 миллиарда токенов и занимает первое место в рейтинге OpenCompass среди моделей с менее чем 10 миллиардами параметров.
English
Vision-language models have made significant strides recently, demonstrating
superior performance across a range of tasks, e.g. optical character
recognition and complex diagram analysis. Building on this trend, we introduce
a new vision-language model, POINTS1.5, designed to excel in various real-world
applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several
key innovations: i) We replace the original CLIP vision encoder, which had a
fixed image resolution, with a NaViT-style vision encoder that supports native
dynamic high resolution. This allows POINTS1.5 to process images of any
resolution without needing to split them into tiles. ii) We add bilingual
support to POINTS1.5, significantly enhancing its capability in Chinese. Due to
the scarcity of open-source Chinese datasets for vision-language models, we
collect numerous images from the Internet and annotate them using a combination
of manual and automatic methods. iii) We propose a set of rigorous filtering
methods for visual instruction tuning datasets. We comprehensively evaluate all
these filtering methods, and choose the most effective ones to obtain the final
visual instruction tuning set. Thanks to these innovations, POINTS1.5
significantly outperforms POINTS1.0 and demonstrates strong performance across
a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer
than 4 billion tokens and ranks first on the OpenCompass leaderboard among
models with fewer than 10 billion parametersSummary
AI-Generated Summary