ChatPaper.aiChatPaper

Recognize Anything: Мощная модель для автоматического присвоения тегов изображениям

Recognize Anything: A Strong Image Tagging Model

June 6, 2023
Авторы: Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang
cs.AI

Аннотация

Мы представляем модель Recognize Anything Model (RAM): мощную базовую модель для тегирования изображений. RAM способна распознавать любые распространенные категории с высокой точностью. RAM вводит новую парадигму для тегирования изображений, используя для обучения крупномасштабные пары изображение-текст вместо ручной аннотации. Разработка RAM включает четыре ключевых этапа. Во-первых, аннотации для изображений без ручного вмешательства получаются в большом объеме с помощью автоматического семантического анализа текста. Затем предварительная модель обучается для автоматической аннотации путем объединения задач генерации подписей и тегирования, контролируемых исходными текстами и проанализированными тегами соответственно. В-третьих, используется механизм обработки данных для создания дополнительных аннотаций и очистки некорректных. Наконец, модель переобучается на обработанных данных и дорабатывается с использованием меньшего, но более качественного набора данных. Мы оцениваем возможности тегирования RAM на множестве тестовых наборов и наблюдаем впечатляющую производительность в условиях zero-shot, значительно превосходящую CLIP и BLIP. Примечательно, что RAM даже превосходит полностью контролируемые методы и демонстрирует конкурентоспособные результаты с API Google. Мы публикуем RAM на сайте https://recognize-anything.github.io/ для содействия развитию крупных моделей в области компьютерного зрения.
English
We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.
PDF116December 15, 2024