Унифицированные модели для понимания и генерации мультимодальных данных: достижения, вызовы и перспективыUnified Multimodal Understanding and Generation Models: Advances,
Challenges, and Opportunities
В последние годы наблюдается значительный прогресс как в моделях мультимодального понимания, так и в моделях генерации изображений. Несмотря на их успехи, эти две области развивались независимо, что привело к различным архитектурным парадигмам: в то время как авторегрессионные архитектуры доминируют в мультимодальном понимании, диффузионные модели стали основой генерации изображений. В последнее время растет интерес к разработке унифицированных фреймворков, объединяющих эти задачи. Появление новых возможностей GPT-4o иллюстрирует эту тенденцию, подчеркивая потенциал унификации. Однако архитектурные различия между этими областями создают значительные трудности. Чтобы предоставить четкий обзор текущих усилий по унификации, мы представляем всесторонний обзор, направленный на руководство будущими исследованиями. Сначала мы вводим основные концепции и последние достижения в моделях мультимодального понимания и генерации изображений на основе текста. Затем мы рассматриваем существующие унифицированные модели, классифицируя их на три основные архитектурные парадигмы: диффузионные, авторегрессионные и гибридные подходы, объединяющие авторегрессионные и диффузионные механизмы. Для каждой категории мы анализируем структурные решения и инновации, предложенные в соответствующих работах. Кроме того, мы собираем наборы данных и бенчмарки, адаптированные для унифицированных моделей, предоставляя ресурсы для будущих исследований. Наконец, мы обсуждаем ключевые вызовы, стоящие перед этой зарождающейся областью, включая стратегии токенизации, кросс-модальное внимание и данные. Поскольку эта область находится на ранних этапах развития, мы ожидаем быстрого прогресса и будем регулярно обновлять этот обзор. Наша цель — вдохновить дальнейшие исследования и предоставить ценное справочное пособие для сообщества. Ссылки, связанные с этим обзором, доступны на GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).