ChatPaper.aiChatPaper

Synth^2: Усиление моделей визуального языка с синтетическими подписями и вложениями изображений

Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings

March 12, 2024
Авторы: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
cs.AI

Аннотация

Создание высококачественных наборов данных изображений с подписями, размеченных людьми, является значительным узким местом в разработке моделей визуально-языкового взаимодействия (VLM). Мы предлагаем новый подход, который использует преимущества больших языковых моделей (LLM) и моделей генерации изображений для создания синтетических пар изображений и текста для эффективного обучения VLM. Наш метод предполагает предварительное обучение модели текста к изображению для синтеза векторных представлений изображений на основе подписей, сгенерированных LLM. Эти синтетические пары затем используются для обучения VLM. Обширные эксперименты показывают, что VLM, обученный на синтетических данных, демонстрирует сопоставимую производительность в подписывании изображений, требуя при этом лишь долю данных, используемых моделями, обученными исключительно на аннотированных людьми данных. В частности, мы превосходим базовый уровень на 17% благодаря дополнению с синтетическим набором данных. Кроме того, мы показываем, что синтез в пространстве векторных представлений изображений происходит на 25% быстрее, чем в пространстве пикселей. Это исследование представляет собой многообещающий метод для создания масштабных, настраиваемых наборов данных изображений, что приводит к улучшению производительности VLM и расширению области применения в различных областях, все это с улучшенной эффективностью данных и использованием ресурсов.
English
The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). We propose a novel approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs pretraining a text-to-image model to synthesize image embeddings starting from captions generated by an LLM. These synthetic pairs are then used to train a VLM. Extensive experiments demonstrate that the VLM trained with synthetic data exhibits comparable performance on image captioning, while requiring a fraction of the data used by models trained solely on human-annotated data. In particular, we outperform the baseline by 17% through augmentation with a synthetic dataset. Furthermore, we show that synthesizing in the image embedding space is 25% faster than in the pixel space. This research introduces a promising technique for generating large-scale, customizable image datasets, leading to enhanced VLM performance and wider applicability across various domains, all with improved data efficiency and resource utilization.
PDF251December 15, 2024