Ежедневно отобранные исследовательские статьи по ИИ с переводами
Представляем InternLM-XComposer2 — передовую модель для работы с визуальными и текстовыми данными, которая превосходно справляется с созданием и пониманием свободных текстово-изобразительных композиций. Эта модель выходит за рамки традиционного понимания взаимодействия визуальной и текстовой информации, искусно создавая переплетённые текстово-изобразительные материалы на основе разнообразных входных данных, таких как наброски, детальные текстовые спецификации и референсные изображения, что позволяет создавать высоко настраиваемый контент. InternLM-XComposer2 предлагает подход Partial LoRA (PLoRA), который применяет дополнительные параметры LoRA исключительно к токенам изображений, сохраняя целостность предварительно обученных языковых знаний и достигая баланса между точным пониманием визуальной информации и текстовым составлением с литературным мастерством. Экспериментальные результаты демонстрируют превосходство InternLM-XComposer2, основанной на InternLM2-7B, в создании высококачественного длинного текстово-мультимодального контента и её выдающуюся производительность в понимании визуально-текстовых данных на различных тестовых наборах, где она не только значительно превосходит существующие мультимодальные модели, но также соответствует или даже превосходит GPT-4V и Gemini Pro в определённых оценках. Это подчёркивает её выдающиеся способности в области мультимодального понимания. Серия моделей InternLM-XComposer2 с 7 миллиардами параметров доступна публично по адресу https://github.com/InternLM/InternLM-XComposer.
Для крупных моделей, объединяющих зрение и язык (Large Vision-Language Models, LVLMs), масштабирование модели может значительно повысить производительность. Однако увеличение числа параметров модели существенно увеличивает затраты на обучение и вывод, так как все параметры модели активируются для каждого токена в процессе вычислений. В данной работе мы предлагаем новую стратегию обучения MoE-tuning для LVLMs, которая позволяет создавать разреженную модель с огромным количеством параметров, но с постоянными вычислительными затратами, и эффективно устраняет снижение производительности, обычно связанное с многомодальным обучением и разреженностью модели. Кроме того, мы представляем фреймворк MoE-LLaVA — разреженную архитектуру LVLM на основе MoE. Этот фреймворк уникальным образом активирует только топ-k экспертов через маршрутизаторы во время работы, оставляя остальных экспертов неактивными. Наши обширные эксперименты подчеркивают превосходные возможности MoE-LLaVA в визуальном понимании и её потенциал для уменьшения галлюцинаций в выводах модели. Примечательно, что с всего 3 миллиардами разреженно активированных параметров MoE-LLaVA демонстрирует производительность, сопоставимую с LLaVA-1.5-7B на различных наборах данных для визуального понимания, и даже превосходит LLaVA-1.5-13B в тестах на галлюцинации объектов. С помощью MoE-LLaVA мы стремимся установить базовый уровень для разреженных LVLMs и предоставить ценные идеи для будущих исследований в разработке более эффективных и производительных многомодальных обучающих систем. Код доступен по адресу https://github.com/PKU-YuanGroup/MoE-LLaVA.
Крупные языковые модели обучаются на огромных объемах данных, собранных из интернета, которые часто являются неструктурированными, зашумленными и плохо сформулированными. Современные законы масштабирования показывают, что обучение на таких данных требует значительных вычислительных ресурсов и объемов данных, которые растут с увеличением размера модели. Это становится неосуществимым как из-за высоких вычислительных затрат и длительности предварительного обучения, так и из-за надвигающегося дефицита высококачественных данных в интернете. В данной работе мы предлагаем метод Web Rephrase Augmented Pre-training (WRAP), который использует готовую модель, настроенную на выполнение инструкций, для перефразирования документов из интернета в определенных стилях, таких как "в стиле Википедии" или "в формате вопрос-ответ", чтобы совместно обучать языковые модели на реальных и синтетических перефразировках. Во-первых, мы показываем, что использование WRAP на наборе данных C4, который естественно зашумлен, ускоряет предварительное обучение в ~3 раза. При одинаковом бюджете вычислительных ресурсов для предварительного обучения метод улучшает perplexity более чем на 10% в среднем по различным подмножествам набора данных The Pile и повышает точность ответов на вопросы в режиме zero-shot на более чем 2% по 13 задачам. Во-вторых, мы исследуем влияние стиля перефразирования на производительность модели, предлагая понимание того, как состав обучающих данных может влиять на производительность языковых моделей в условиях out-of-distribution (OOD). Наши достижения объясняются тем, что синтетические данные, полученные путем перефразирования, обладают большей полезностью, чем просто реальные данные, поскольку они (i) включают разнообразие стилей, которое близко отражает стиль оценки на последующих этапах, и (ii) имеют более высокое "качество" по сравнению с данными, собранными из интернета.
Мы представляем Motion-I2V, новый фреймворк для согласованной и управляемой генерации видео из изображений (I2V). В отличие от предыдущих методов, которые напрямую изучают сложное отображение изображения в видео, Motion-I2V разделяет I2V на два этапа с явным моделированием движения. На первом этапе мы предлагаем диффузионный предсказатель поля движения, который фокусируется на определении траекторий пикселей исходного изображения. На втором этапе мы предлагаем временное внимание, дополненное информацией о движении, чтобы усилить ограниченное одномерное временное внимание в моделях латентной диффузии для видео. Этот модуль эффективно распространяет признаки исходного изображения на синтезированные кадры с учетом предсказанных траекторий с первого этапа. По сравнению с существующими методами, Motion-I2V способен генерировать более согласованные видео даже при наличии значительных изменений движения и точки обзора. Обучая разреженный ControlNet для траекторий на первом этапе, Motion-I2V позволяет пользователям точно управлять траекториями движения и областями с помощью разреженных аннотаций траекторий и областей. Это обеспечивает большую управляемость процесса I2V по сравнению с использованием только текстовых инструкций. Кроме того, второй этап Motion-I2V естественным образом поддерживает zero-shot перевод видео в видео. Качественные и количественные сравнения демонстрируют преимущества Motion-I2V перед предыдущими подходами в согласованной и управляемой генерации видео из изображений.
В последние годы в области роботизированного обучения с подкреплением (RL) был достигнут значительный прогресс, что позволило разработать методы, способные обрабатывать сложные визуальные наблюдения, обучаться в реальном мире и использовать вспомогательные данные, такие как демонстрации и предыдущий опыт. Однако, несмотря на эти достижения, использование роботизированного RL остается сложным. Среди специалистов признается, что конкретные детали реализации этих алгоритмов зачастую столь же важны (если не более) для производительности, как и выбор самого алгоритма. Мы предполагаем, что одной из значительных проблем для широкого внедрения роботизированного RL, а также дальнейшего развития методов в этой области, является сравнительная недоступность таких методов. Чтобы решить эту проблему, мы разработали тщательно реализованную библиотеку, содержащую эффективный с точки зрения выборки метод глубокого RL с внеполитическим обучением, методы вычисления наград и сброса среды, высококачественный контроллер для широко используемого робота и ряд сложных примеров задач. Мы предоставляем эту библиотеку в качестве ресурса для сообщества, описываем принятые при ее разработке решения и представляем результаты экспериментов. Возможно, удивительно, но мы обнаружили, что наша реализация может достичь очень эффективного обучения, приобретая политики для сборки печатных плат, прокладки кабелей и перемещения объектов в среднем за 25–50 минут обучения на одну политику, превосходя результаты, достигнутые в аналогичных задачах, описанных в литературе. Эти политики демонстрируют идеальные или близкие к идеальным показатели успешности, исключительную устойчивость даже при наличии возмущений и проявляют возникающие поведенческие паттерны восстановления и коррекции. Мы надеемся, что эти обнадеживающие результаты и наша высококачественная реализация с открытым исходным кодом станут инструментом для сообщества робототехников, способствующим дальнейшему развитию роботизированного RL. Наш код, документация и видео доступны по адресу https://serl-robot.github.io/.
Синтез 3D-анимации лица на основе речи привлек значительное внимание. Из-за недостатка высококачественных 4D-данных о лице и хорошо аннотированных мультимодальных меток предыдущие методы часто страдают от ограниченного реализма и отсутствия гибких условий. Мы решаем эту задачу с помощью трилогии. Сначала мы представляем Generalized Neural Parametric Facial Asset (GNPFA) — эффективный вариационный автокодировщик, который отображает геометрию лица и изображения в высоко обобщенное латентное пространство выражений, разделяя выражения и идентичности. Затем мы используем GNPFA для извлечения высококачественных выражений и точных поз головы из большого массива видео. Это приводит к созданию набора данных M2F-D — крупного, разнообразного и детализированного набора данных 3D-анимации лица, синхронизированной с речью, с хорошо аннотированными эмоциональными и стилевыми метками. Наконец, мы предлагаем Media2Face — диффузионную модель в латентном пространстве GNPFA для генерации анимации лица, синхронизированной с речью, которая принимает богатые мультимодальные указания от аудио, текста и изображений. Многочисленные эксперименты демонстрируют, что наша модель не только достигает высокой точности в синтезе анимации лица, но и расширяет диапазон выразительности и адаптируемости стилей в 3D-анимации лица.
Агент для мобильных устройств на основе мультимодальных больших языковых моделей (MLLM) становится популярным приложением. В данной статье мы представляем Mobile-Agent — автономного мультимодального агента для мобильных устройств. Mobile-Agent сначала использует инструменты визуального восприятия для точного определения и локализации как визуальных, так и текстовых элементов в интерфейсе приложения. На основе воспринятого визуального контекста он затем автономно планирует и декомпозирует сложную операционную задачу, шаг за шагом выполняя навигацию по мобильным приложениям. В отличие от предыдущих решений, которые полагались на XML-файлы приложений или метаданные мобильной системы, Mobile-Agent обеспечивает большую адаптируемость в различных мобильных операционных средах, используя визуально-ориентированный подход, что устраняет необходимость в специфических настройках для каждой системы. Для оценки производительности Mobile-Agent мы представили Mobile-Eval — эталонный тест для оценки операций на мобильных устройствах. На основе Mobile-Eval мы провели всестороннюю оценку Mobile-Agent. Результаты экспериментов показывают, что Mobile-Agent достиг высокой точности и уровня завершенности задач. Даже при сложных инструкциях, таких как операции с несколькими приложениями, Mobile-Agent способен выполнить требования. Код и модель будут опубликованы в открытом доступе по адресу https://github.com/X-PLUG/MobileAgent.
Последние достижения в области крупных предобученных моделей для генерации изображений из текста продемонстрировали беспрецедентные возможности для создания высококачественных изображений с акцентом на человека. Однако персонализация лица с сохранением идентичности остается сложной задачей. Существующие методы не могут обеспечить стабильное сохранение идентичности и гибкую редактируемость, даже при наличии нескольких изображений каждого объекта во время обучения. В данной работе мы предлагаем метод StableIdentity, который позволяет выполнять переконтекстуализацию с сохранением идентичности, используя всего одно изображение лица. В частности, мы используем кодировщик лица с априорной информацией об идентичности для кодирования входного изображения, а затем помещаем представление лица в пространство с априорной информацией о редактируемости, которая строится на основе имен знаменитостей. Благодаря включению априорной информации об идентичности и редактируемости, изученная идентичность может быть внедрена в различные контексты. Кроме того, мы разработали маскированную двухфазную диффузионную функцию потерь для улучшения восприятия входного изображения на уровне пикселей и сохранения разнообразия генерации. Многочисленные эксперименты показывают, что наш метод превосходит предыдущие подходы к персонализации. Кроме того, изученная идентичность может гибко сочетаться с готовыми модулями, такими как ControlNet. Примечательно, что, насколько нам известно, мы впервые напрямую внедряем идентичность, изученную из одного изображения, в генерацию видео и 3D без дополнительного обучения. Мы считаем, что предложенный метод StableIdentity является важным шагом к унификации моделей персонализированной генерации изображений, видео и 3D.
Поскольку крупномасштабные модели генерации изображений по тексту достигли значительного прогресса в области создания изображений из текста, было предложено множество методов тонкой настройки. Однако эти модели часто испытывают трудности с новыми объектами, особенно в сценариях с одним примером. Наш предложенный метод направлен на решение проблем обобщаемости и точности в объектно-ориентированном подходе, используя только одно входное изображение и области интереса, специфичные для объекта. Для улучшения обобщаемости и снижения переобучения в нашей парадигме прототипическое представление инициализируется на основе внешнего вида объекта и его класса перед тонкой настройкой модели диффузии. Во время тонкой настройки мы предлагаем регуляризацию, характеризующую класс, для сохранения априорных знаний о классах объектов. Для дальнейшего повышения точности мы вводим объектно-специфическую функцию потерь, которая также может использоваться для имплантации нескольких объектов. В целом, наш предложенный объектно-ориентированный метод для имплантации новых объектов может бесшовно интегрироваться с существующими концепциями, обеспечивая высокую точность и обобщаемость. Наш метод превосходит несколько существующих работ. Код будет опубликован.
Несмотря на значительные достижения в моделях генерации изображений из текста, обеспечивающих создание высококачественных изображений, эти методы по-прежнему сталкиваются с трудностями в обеспечении управляемости текстовых запросов над изображениями в контексте сложных текстовых подсказок, особенно когда речь идет о сохранении атрибутов объектов и их взаимосвязей. В данной статье мы предлагаем CompAgent, подход к композиционной генерации изображений из текста, не требующий обучения, с использованием крупной языковой модели (LLM) в качестве ядра. Основная идея CompAgent основана на методологии "разделяй и властвуй". При получении сложного текстового запроса, содержащего множество концепций, включая объекты, их атрибуты и взаимосвязи, LLM-агент сначала декомпозирует его, что включает извлечение отдельных объектов, их атрибутов и предсказание согласованной структуры сцены. Затем эти отдельные объекты могут быть независимо обработаны. После этого агент выполняет анализ текста, планирует и использует инструменты для композиции этих изолированных объектов. Механизм проверки и обратной связи от пользователя интегрирован в нашего агента для дальнейшего исправления потенциальных ошибок атрибутов и улучшения сгенерированных изображений. Под руководством LLM-агента мы предлагаем модель настройки без обучения для многоконцептуальной кастомизации и модель генерации изображений на основе структуры в качестве инструментов для композиции концепций, а также метод локального редактирования изображений в качестве инструмента для взаимодействия с агентом для проверки. Структура сцены управляет процессом генерации изображений среди этих инструментов, чтобы предотвратить путаницу между множеством объектов. Многочисленные эксперименты демонстрируют превосходство нашего подхода для композиционной генерации изображений из текста: CompAgent достигает улучшения более чем на 10% на T2I-CompBench, комплексном бенчмарке для композиционной генерации изображений из текста в открытом мире. Расширение на различные связанные задачи также иллюстрирует гибкость нашего CompAgent для потенциальных применений.
Существующие модели, работающие с визуальными и языковыми данными, демонстрируют сильную способность к обобщению в различных визуальных областях и задачах. Однако такие модели в основном выполняют распознавание в режиме "нулевого снимка" (zero-shot) в рамках закрытого набора данных, что по своей природе затрудняет обработку визуальных концепций в открытой области. Недавно появились методы тонкой настройки, такие как обучение с использованием подсказок (prompt learning), которые не только изучают различия между примерами из распределения (in-distribution, ID) и вне его (out-of-distribution, OOD), но также показывают улучшения в точности как для ID, так и для OOD. В данной статье мы сначала показываем, что модели, работающие с визуальными и языковыми данными, после достаточно длительной тонкой настройки, но без должной регуляризации, склонны переобучаться на известных классах в предоставленном наборе данных, что ухудшает их производительность на неизвестных классах. Затем мы предлагаем новый подход OGEN для устранения этого недостатка, с основным акцентом на улучшении обобщающей способности (OOD generalization) настроенных моделей. В частности, вводится генератор признаков, зависящих от класса, который синтезирует OOD-признаки, используя только название любого неизвестного класса. Такие синтезированные признаки предоставляют полезную информацию о неизвестных классах и помогают регуляризировать границу принятия решений между ID и OOD данными при совместной оптимизации. Не менее важным является наш механизм адаптивного самообучения (adaptive self-distillation), который регуляризирует модель генерации признаков в процессе совместной оптимизации, то есть адаптивно передает знания между состояниями модели, чтобы дополнительно предотвратить переобучение. Эксперименты подтверждают, что наш метод обеспечивает убедительное улучшение обобщающей способности в различных настройках.