Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем серию ShareGPT4Video, направленную на облегчение понимания видео большими моделями языка (LVLM) и генерацию видео с помощью моделей текст-в-видео (T2VM) с помощью плотных и точных подписей. Серия включает: 1) ShareGPT4Video, 40 тыс. аннотированных плотных подписей к видео с различной продолжительностью и источниками, разработанных через тщательно спроектированные стратегии фильтрации данных и аннотирования. 2) ShareCaptioner-Video, эффективную и способную модель подписывания для произвольных видео, с 4,8 млн. высококачественных эстетических видео, аннотированных ею. 3) ShareGPT4Video-8B, простую, но великолепную LVLM, достигшую лучших результатов на трех продвинутых видео-бенчмарках. Для достижения этого, отложив не масштабируемых дорогостоящих человеческих аннотаторов, мы обнаружили, что использование GPT4V для подписывания видео с наивной стратегией ввода мультикадров или конкатенации кадров приводит к менее детализированным и иногда временно запутанным результатам. Мы считаем, что вызов проектирования стратегии высококачественного подписывания видео заключается в трех аспектах: 1) Точное понимание временных изменений между кадрами. 2) Детальное описание содержимого внутри кадра. 3) Масштабируемость по количеству кадров для видео произвольной длины. Для этого мы тщательно разработали дифференциальную стратегию подписывания видео, которая является стабильной, масштабируемой и эффективной для генерации подписей для видео с произвольным разрешением, соотношением сторон и длиной. На основе этого мы создали ShareGPT4Video, который содержит 40 тыс. высококачественных видео различных категорий, а полученные подписи охватывают богатые знания о мире, атрибуты объектов, движения камеры и, что критично, детальные и точные временные описания событий. На основе ShareGPT4Video мы далее разработали ShareCaptioner-Video, превосходный подписыватель, способный эффективно генерировать высококачественные подписи для произвольных видео...
Модели генерации изображений на основе диффузии в последние годы достигли больших успехов, показав способность синтезировать контент высокого качества. Однако эти модели содержат огромное количество параметров, что приводит к значительному увеличению размера модели. Сохранение и передача их являются основными узкими местами для различных приложений, особенно тех, которые работают на устройствах с ограниченными ресурсами. В данной работе мы разрабатываем новый метод квантования весов, который квантует UNet из Stable Diffusion с 1.5 по 1.99 бита, достигая модели с размером в 7.9 раз меньше, при этом демонстрируя даже лучшее качество генерации, чем у оригинальной модели. Наш подход включает несколько новаторских техник, таких как назначение оптимального количества битов для каждого слоя, инициализация квантованной модели для лучшей производительности, а также улучшение стратегии обучения для драматического снижения ошибки квантования. Кроме того, мы обширно оцениваем нашу квантованную модель на различных наборах данных-бенчмарках и через оценку человеком, чтобы продемонстрировать ее превосходное качество генерации.
Недавно метод оптимизации прямых предпочтений (Direct Preference Optimization, DPO) расширил свой успех с согласования больших языковых моделей (Large Language Models, LLM) на согласование моделей диффузии текста в изображение с человеческими предпочтениями. В отличие от большинства существующих методов DPO, предполагающих, что все шаги диффузии разделяют одинаковый порядок предпочтений с конечно сгенерированными изображениями, мы считаем, что это предположение игнорирует производительность шага-специфической денойзинга и что метки предпочтений должны быть адаптированы к вкладу каждого шага. Для решения этого ограничения мы предлагаем метод оптимизации предпочтений, осведомленный о шагах (Step-aware Preference Optimization, SPO) - новый подход после обучения, который независимо оценивает и корректирует производительность денойзинга на каждом шаге, используя модель предпочтений, осведомленную о шагах, и шаговый ресэмплер для обеспечения точного осведомленного о шагах надзора. Конкретно, на каждом шаге денойзинга мы выбираем пул изображений, находим подходящую пару победа-поражение и, что самое важное, случайным образом выбираем одно изображение из пула для инициализации следующего шага денойзинга. Этот процесс шагового ресэмплинга обеспечивает, что следующая пара изображений победа-поражение происходит от того же изображения, делая сравнение победа-поражение независимым от предыдущего шага. Для оценки предпочтений на каждом шаге мы обучаем отдельную модель предпочтений, осведомленную о шагах, которая может быть применена как к зашумленным, так и к чистым изображениям. Наши эксперименты с Stable Diffusion v1.5 и SDXL показывают, что SPO значительно превосходит последний Diffusion-DPO в согласовании сгенерированных изображений с сложными, детализированными подсказками и улучшении эстетики, обеспечивая при этом более чем в 20 раз более быструю эффективность обучения. Код и модель: https://rockeycoss.github.io/spo.github.io/
Мы представляем Буфер Мыслей (BoT) - новый и универсальный подход к мыслеобогащенному рассуждению для повышения точности, эффективности и устойчивости больших языковых моделей (LLM). Конкретно, мы предлагаем мета-буфер для хранения ряда информативных высокоуровневых мыслей, так называемых мысле-шаблонов, вытекающих из процессов решения проблем на различных задачах. Затем для каждой проблемы мы извлекаем соответствующий мысле-шаблон и адаптивно инстанциируем его с конкретными структурами рассуждений для проведения эффективного рассуждения. Для обеспечения масштабируемости и стабильности мы дополнительно предлагаем менеджер буфера для динамического обновления мета-буфера, тем самым увеличивая его емкость по мере решения новых задач. Мы провели обширные эксперименты на 10 сложных задачах, требующих рассуждений, и достигли значительного улучшения производительности по сравнению с предыдущими методами SOTA: на 11% в игре 24, на 20% в Геометрических Фигурах и на 51% в Мат в один ход. Дополнительный анализ показывает превосходную обобщающую способность и устойчивость нашего BoT, требуя при этом лишь 12% затрат по сравнению с методами мультизапросного подсказывания (например, дерево/граф мыслей) в среднем. Особенно стоит отметить, что наша модель Llama3-8B+BoT имеет потенциал превзойти модель Llama3-70B. Наш проект доступен по адресу: https://github.com/YangLing0818/buffer-of-thought-llm
Модели генерации видео на основе диффузии продемонстрировали выдающийся успех в получении видеороликов высокой точности через итеративный процесс уменьшения шума. Однако такие модели требуют нескольких этапов уменьшения шума во время выборки, что приводит к высоким вычислительным затратам. В данной работе мы предлагаем новый подход для создания моделей генерации видео за один шаг, используя адверсарное обучение для настройки заранее обученных моделей диффузии видео. Мы показываем, что благодаря адверсарному обучению многошаговая модель диффузии видео, т.е. Устойчивая Диффузия Видео (SVD), может быть обучена выполнять один проход для синтеза видеороликов высокого качества, улавливая как временные, так и пространственные зависимости в видеоданных. Обширные эксперименты показывают, что наш метод достигает конкурентоспособного качества генерации синтезированных видеороликов с значительным снижением вычислительной нагрузки для процесса уменьшения шума (т.е. примерно в 23 раза быстрее по сравнению с SVD и в 6 раз быстрее по сравнению с существующими работами, с еще более высоким качеством генерации), открывая путь к синтезу и редактированию видео в реальном времени. Дополнительные результаты визуализации доступны по ссылке https://snap-research.github.io/SF-V.
Модели диффузии продемонстрировали большой успех в генерации текста в видео (T2V). Однако существующие методы могут столкнуться с вызовами при работе с сложными (длинными) сценариями генерации видео, которые включают в себя несколько объектов или динамические изменения количества объектов. Для преодоления этих ограничений мы предлагаем VideoTetris, новую структуру, позволяющую композиционную генерацию T2V. Конкретно, мы предлагаем пространственно-временную композиционную диффузию для точного следования сложной текстовой семантике путем манипулирования и компоновки карт внимания пространственно и временно сетей денойзинга. Более того, мы предлагаем улучшенную предварительную обработку видеоданных для улучшения обучающих данных по динамике движения и стимулированию понимания, оснащенную новым механизмом внимания к эталонному кадру для улучшения согласованности авторегрессивной генерации видео. Обширные эксперименты показывают, что наш VideoTetris достигает впечатляющих качественных и количественных результатов в композиционной генерации T2V. Код доступен по ссылке: https://github.com/YangLing0818/VideoTetris
Построение универсальных агентов, способных обрабатывать разнообразные задачи и развиваться в различных средах, является долгосрочной целью в области искусственного интеллекта. Большие языковые модели (LLM) считаются многообещающим фундаментом для создания таких агентов благодаря их обобщенным возможностям. Нынешние подходы либо заставляют агентов на основе LLM имитировать траектории, предоставленные экспертами, шаг за шагом, требуя человеческого наблюдения, что затрудняет масштабирование и ограничивает исследование окружающей среды; либо позволяют агентам исследовать и учиться в изолированных средах, что приводит к специализированным агентам с ограниченной обобщающей способностью. В данной статье мы делаем первый шаг к созданию агентов на основе LLM, обладающих общими способностями и способных к саморазвитию. Мы выделяем три ключевых компонента: 1) разнообразные среды для исследования и обучения агентов, 2) набор траекторий для оснащения агентов базовыми способностями и предварительными знаниями, и 3) эффективный и масштабируемый метод эволюции. Мы предлагаем AgentGym, новую платформу, предлагающую разнообразные среды и задачи для широкого, реального времени, унифицированного и параллельного исследования агентов. AgentGym также включает базу данных с расширенными инструкциями, набор тестов, и высококачественные траектории по различным средам. Затем мы предлагаем новый метод, AgentEvol, для изучения потенциала саморазвития агента за пределами ранее виденных данных по задачам и средам. Экспериментальные результаты показывают, что эволюционировавшие агенты могут достичь результатов, сравнимых с моделями SOTA. Мы выпускаем набор инструментов AgentGym, включая платформу, набор данных, тестовую выборку, контрольные точки и реализации алгоритмов. Набор инструментов AgentGym доступен на https://github.com/WooooDyy/AgentGym.
Генерация изображений по текстовому описанию позволяет создавать визуальный контент на основе текста. Однако некоторые визуальные концепции нельзя эффективно передать только с помощью языка. Это привело к возрождению интереса к использованию пространства вложения изображений CLIP для более визуально ориентированных задач с помощью методов, таких как IP-Adapter. Интересно, что пространство вложения изображений CLIP оказалось семантически значимым, где линейные операции в этом пространстве приводят к семантически значимым результатам. Тем не менее, конкретное значение этих операций может непредсказуемо варьироваться в разных изображениях. Для использования этого потенциала мы представляем pOps, фреймворк, который обучает конкретные семантические операторы непосредственно на вложениях изображений CLIP. Каждый оператор pOps основан на предварительно обученной модели Diffusion Prior. В то время как модель Diffusion Prior изначально обучалась для отображения между вложениями текста и вложениями изображений, мы демонстрируем, что ее можно настроить для адаптации к новым входным условиям, что приводит к оператору диффузии. Работа непосредственно с вложениями изображений не только улучшает нашу способность к обучению семантических операций, но также позволяет нам непосредственно использовать текстовую потерю CLIP в качестве дополнительного наблюдения при необходимости. Мы показываем, что pOps можно использовать для обучения различных операторов, вдохновленных фотографиями, с различными семантическими значениями, подчеркивая семантическое разнообразие и потенциал нашего предложенного подхода.
В последние годы произошел огромный взлет общих возможностей систем искусственного интеллекта, в основном за счет обучения базовых моделей на данных масштаба Интернета. Тем не менее создание бесконечного, постоянно самосовершенствующегося искусственного интеллекта остается недостижимой целью. В данной позиционной статье мы утверждаем, что теперь есть все предпосылки для достижения бесконечности в системах искусственного интеллекта с точки зрения человеческого наблюдателя. Более того, мы утверждаем, что такая бесконечность является неотъемлемым свойством любого искусственного сверхчеловеческого интеллекта (ИСИ). Мы начинаем с предоставления конкретного формального определения бесконечности через призму новизны и обучаемости. Затем мы показываем путь к ИСИ через бесконечные системы, построенные на базовых моделях, способных делать новые, актуальные для человека открытия. Мы заканчиваем рассмотрением вопросов безопасности обще способных бесконечных искусственных интеллектов. Мы ожидаем, что базовые модели с открытым исходным кодом окажутся все более плодотворной и критически важной областью исследований в ближайшем будущем.