Recognize Anything: Мощная модель для автоматического присвоения тегов изображениям

Аннотация

Мы представляем модель Recognize Anything Model (RAM): мощную базовую модель для тегирования изображений. RAM способна распознавать любые распространенные категории с высокой точностью. RAM вводит новую парадигму для тегирования изображений, используя для обучения крупномасштабные пары изображение-текст вместо ручной аннотации. Разработка RAM включает четыре ключевых этапа. Во-первых, аннотации для изображений без ручного вмешательства получаются в большом объеме с помощью автоматического семантического анализа текста. Затем предварительная модель обучается для автоматической аннотации путем объединения задач генерации подписей и тегирования, контролируемых исходными текстами и проанализированными тегами соответственно. В-третьих, используется механизм обработки данных для создания дополнительных аннотаций и очистки некорректных. Наконец, модель переобучается на обработанных данных и дорабатывается с использованием меньшего, но более качественного набора данных. Мы оцениваем возможности тегирования RAM на множестве тестовых наборов и наблюдаем впечатляющую производительность в условиях zero-shot, значительно превосходящую CLIP и BLIP. Примечательно, что RAM даже превосходит полностью контролируемые методы и демонстрирует конкурентоспособные результаты с API Google. Мы публикуем RAM на сайте https://recognize-anything.github.io/ для содействия развитию крупных моделей в области компьютерного зрения.

English

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM can recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google API. We are releasing the RAM at https://recognize-anything.github.io/ to foster the advancements of large models in computer vision.

Recognize Anything: Мощная модель для автоматического присвоения тегов изображениям

Recognize Anything: A Strong Image Tagging Model

Аннотация

Support