ChatPaper.aiChatPaper

Разработка модели видео-языкового взаимодействия для применения в реальном мире

POINTS1.5: Building a Vision-Language Model towards Real World Applications

December 11, 2024
Авторы: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI

Аннотация

Модели видео-языка в последнее время значительно продвинулись, демонстрируя превосходную производительность в различных задачах, например, в распознавании оптических символов и анализе сложных диаграмм. Продолжая эту тенденцию, мы представляем новую модель видео-языка, POINTS1.5, разработанную для превосходства в различных прикладных областях. POINTS1.5 является улучшением POINTS1.0 и включает в себя несколько ключевых инноваций: i) Мы заменяем исходный видео-кодер CLIP, имевший фиксированное разрешение изображения, на видео-кодер в стиле NaViT, поддерживающий нативное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавляем поддержку двуязычности в POINTS1.5, значительно расширяя его возможности на китайском языке. В связи с недостатком открытых китайских наборов данных для моделей видео-языка, мы собираем множество изображений из Интернета и аннотируем их с использованием комбинации ручных и автоматических методов. iii) Мы предлагаем набор строгих методов фильтрации для настройки визуальных инструкционных наборов данных. Мы всесторонне оцениваем все эти методы фильтрации и выбираем наиболее эффективные для получения окончательного набора данных для настройки визуальных инструкций. Благодаря этим инновациям, POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует высокую производительность в различных прикладных областях. Следует отметить, что POINTS1.5-7B обучается на менее чем 4 миллиарда токенов и занимает первое место в рейтинге OpenCompass среди моделей с менее чем 10 миллиардами параметров.
English
Vision-language models have made significant strides recently, demonstrating superior performance across a range of tasks, e.g. optical character recognition and complex diagram analysis. Building on this trend, we introduce a new vision-language model, POINTS1.5, designed to excel in various real-world applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several key innovations: i) We replace the original CLIP vision encoder, which had a fixed image resolution, with a NaViT-style vision encoder that supports native dynamic high resolution. This allows POINTS1.5 to process images of any resolution without needing to split them into tiles. ii) We add bilingual support to POINTS1.5, significantly enhancing its capability in Chinese. Due to the scarcity of open-source Chinese datasets for vision-language models, we collect numerous images from the Internet and annotate them using a combination of manual and automatic methods. iii) We propose a set of rigorous filtering methods for visual instruction tuning datasets. We comprehensively evaluate all these filtering methods, and choose the most effective ones to obtain the final visual instruction tuning set. Thanks to these innovations, POINTS1.5 significantly outperforms POINTS1.0 and demonstrates strong performance across a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer than 4 billion tokens and ranks first on the OpenCompass leaderboard among models with fewer than 10 billion parameters

Summary

AI-Generated Summary

PDF392December 12, 2024