Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ShareGPT4Video: Улучшение понимания и генерации видео с помощью более качественных подписей
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Jun 6

ByLin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang

Мы представляем серию ShareGPT4Video, направленную на облегчение понимания видео большими моделями языка (LVLM) и генерацию видео с помощью моделей текст-в-видео (T2VM) с помощью плотных и точных подписей. Серия включает: 1) ShareGPT4Video, 40 тыс. аннотированных плотных подписей к видео с различной продолжительностью и источниками, разработанных через тщательно спроектированные стратегии фильтрации данных и аннотирования. 2) ShareCaptioner-Video, эффективную и способную модель подписывания для произвольных видео, с 4,8 млн. высококачественных эстетических видео, аннотированных ею. 3) ShareGPT4Video-8B, простую, но великолепную LVLM, достигшую лучших результатов на трех продвинутых видео-бенчмарках. Для достижения этого, отложив не масштабируемых дорогостоящих человеческих аннотаторов, мы обнаружили, что использование GPT4V для подписывания видео с наивной стратегией ввода мультикадров или конкатенации кадров приводит к менее детализированным и иногда временно запутанным результатам. Мы считаем, что вызов проектирования стратегии высококачественного подписывания видео заключается в трех аспектах: 1) Точное понимание временных изменений между кадрами. 2) Детальное описание содержимого внутри кадра. 3) Масштабируемость по количеству кадров для видео произвольной длины. Для этого мы тщательно разработали дифференциальную стратегию подписывания видео, которая является стабильной, масштабируемой и эффективной для генерации подписей для видео с произвольным разрешением, соотношением сторон и длиной. На основе этого мы создали ShareGPT4Video, который содержит 40 тыс. высококачественных видео различных категорий, а полученные подписи охватывают богатые знания о мире, атрибуты объектов, движения камеры и, что критично, детальные и точные временные описания событий. На основе ShareGPT4Video мы далее разработали ShareCaptioner-Video, превосходный подписыватель, способный эффективно генерировать высококачественные подписи для произвольных видео...

BitsFusion: Квантование весов модели диффузии на 1,99 бита
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

Jun 6

ByYang Sui, Yanyu Li, Anil Kag, Yerlan Idelbayev, Junli Cao, Ju Hu, Dhritiman Sagar, Bo Yuan, Sergey Tulyakov, Jian Ren

Модели генерации изображений на основе диффузии в последние годы достигли больших успехов, показав способность синтезировать контент высокого качества. Однако эти модели содержат огромное количество параметров, что приводит к значительному увеличению размера модели. Сохранение и передача их являются основными узкими местами для различных приложений, особенно тех, которые работают на устройствах с ограниченными ресурсами. В данной работе мы разрабатываем новый метод квантования весов, который квантует UNet из Stable Diffusion с 1.5 по 1.99 бита, достигая модели с размером в 7.9 раз меньше, при этом демонстрируя даже лучшее качество генерации, чем у оригинальной модели. Наш подход включает несколько новаторских техник, таких как назначение оптимального количества битов для каждого слоя, инициализация квантованной модели для лучшей производительности, а также улучшение стратегии обучения для драматического снижения ошибки квантования. Кроме того, мы обширно оцениваем нашу квантованную модель на различных наборах данных-бенчмарках и через оценку человеком, чтобы продемонстрировать ее превосходное качество генерации.

Буфер мыслей: мысле-дополненное рассуждение с использованием больших языковых моделей
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Jun 6

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui

Мы представляем Буфер Мыслей (BoT) - новый и универсальный подход к мыслеобогащенному рассуждению для повышения точности, эффективности и устойчивости больших языковых моделей (LLM). Конкретно, мы предлагаем мета-буфер для хранения ряда информативных высокоуровневых мыслей, так называемых мысле-шаблонов, вытекающих из процессов решения проблем на различных задачах. Затем для каждой проблемы мы извлекаем соответствующий мысле-шаблон и адаптивно инстанциируем его с конкретными структурами рассуждений для проведения эффективного рассуждения. Для обеспечения масштабируемости и стабильности мы дополнительно предлагаем менеджер буфера для динамического обновления мета-буфера, тем самым увеличивая его емкость по мере решения новых задач. Мы провели обширные эксперименты на 10 сложных задачах, требующих рассуждений, и достигли значительного улучшения производительности по сравнению с предыдущими методами SOTA: на 11% в игре 24, на 20% в Геометрических Фигурах и на 51% в Мат в один ход. Дополнительный анализ показывает превосходную обобщающую способность и устойчивость нашего BoT, требуя при этом лишь 12% затрат по сравнению с методами мультизапросного подсказывания (например, дерево/граф мыслей) в среднем. Особенно стоит отметить, что наша модель Llama3-8B+BoT имеет потенциал превзойти модель Llama3-70B. Наш проект доступен по адресу: https://github.com/YangLing0818/buffer-of-thought-llm

Оптимизация предпочтений с учетом шагов: выравнивание предпочтений с производительностью при удалении шума на каждом шаге.
Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

Jun 6

ByZhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng

Недавно метод оптимизации прямых предпочтений (Direct Preference Optimization, DPO) расширил свой успех с согласования больших языковых моделей (Large Language Models, LLM) на согласование моделей диффузии текста в изображение с человеческими предпочтениями. В отличие от большинства существующих методов DPO, предполагающих, что все шаги диффузии разделяют одинаковый порядок предпочтений с конечно сгенерированными изображениями, мы считаем, что это предположение игнорирует производительность шага-специфической денойзинга и что метки предпочтений должны быть адаптированы к вкладу каждого шага. Для решения этого ограничения мы предлагаем метод оптимизации предпочтений, осведомленный о шагах (Step-aware Preference Optimization, SPO) - новый подход после обучения, который независимо оценивает и корректирует производительность денойзинга на каждом шаге, используя модель предпочтений, осведомленную о шагах, и шаговый ресэмплер для обеспечения точного осведомленного о шагах надзора. Конкретно, на каждом шаге денойзинга мы выбираем пул изображений, находим подходящую пару победа-поражение и, что самое важное, случайным образом выбираем одно изображение из пула для инициализации следующего шага денойзинга. Этот процесс шагового ресэмплинга обеспечивает, что следующая пара изображений победа-поражение происходит от того же изображения, делая сравнение победа-поражение независимым от предыдущего шага. Для оценки предпочтений на каждом шаге мы обучаем отдельную модель предпочтений, осведомленную о шагах, которая может быть применена как к зашумленным, так и к чистым изображениям. Наши эксперименты с Stable Diffusion v1.5 и SDXL показывают, что SPO значительно превосходит последний Diffusion-DPO в согласовании сгенерированных изображений с сложными, детализированными подсказками и улучшении эстетики, обеспечивая при этом более чем в 20 раз более быструю эффективность обучения. Код и модель: https://rockeycoss.github.io/spo.github.io/

Видео-Тетрис: к композиционному генерированию текста в видеоформате
VideoTetris: Towards Compositional Text-to-Video Generation

Jun 6

ByYe Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui

Модели диффузии продемонстрировали большой успех в генерации текста в видео (T2V). Однако существующие методы могут столкнуться с вызовами при работе с сложными (длинными) сценариями генерации видео, которые включают в себя несколько объектов или динамические изменения количества объектов. Для преодоления этих ограничений мы предлагаем VideoTetris, новую структуру, позволяющую композиционную генерацию T2V. Конкретно, мы предлагаем пространственно-временную композиционную диффузию для точного следования сложной текстовой семантике путем манипулирования и компоновки карт внимания пространственно и временно сетей денойзинга. Более того, мы предлагаем улучшенную предварительную обработку видеоданных для улучшения обучающих данных по динамике движения и стимулированию понимания, оснащенную новым механизмом внимания к эталонному кадру для улучшения согласованности авторегрессивной генерации видео. Обширные эксперименты показывают, что наш VideoTetris достигает впечатляющих качественных и количественных результатов в композиционной генерации T2V. Код доступен по ссылке: https://github.com/YangLing0818/VideoTetris

SF-V: Модель генерации видео в одном направлении
SF-V: Single Forward Video Generation Model

Jun 6

ByZhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren

Модели генерации видео на основе диффузии продемонстрировали выдающийся успех в получении видеороликов высокой точности через итеративный процесс уменьшения шума. Однако такие модели требуют нескольких этапов уменьшения шума во время выборки, что приводит к высоким вычислительным затратам. В данной работе мы предлагаем новый подход для создания моделей генерации видео за один шаг, используя адверсарное обучение для настройки заранее обученных моделей диффузии видео. Мы показываем, что благодаря адверсарному обучению многошаговая модель диффузии видео, т.е. Устойчивая Диффузия Видео (SVD), может быть обучена выполнять один проход для синтеза видеороликов высокого качества, улавливая как временные, так и пространственные зависимости в видеоданных. Обширные эксперименты показывают, что наш метод достигает конкурентоспособного качества генерации синтезированных видеороликов с значительным снижением вычислительной нагрузки для процесса уменьшения шума (т.е. примерно в 23 раза быстрее по сравнению с SVD и в 6 раз быстрее по сравнению с существующими работами, с еще более высоким качеством генерации), открывая путь к синтезу и редактированию видео в реальном времени. Дополнительные результаты визуализации доступны по ссылке https://snap-research.github.io/SF-V.

AgentGym: Эволюция агентов на основе больших моделей языка в разнообразных средах
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

Jun 6

ByZhiheng Xi, Yiwen Ding, Wenxiang Chen, Boyang Hong, Honglin Guo, Junzhe Wang, Dingwen Yang, Chenyang Liao, Xin Guo, Wei He, Songyang Gao, Lu Chen, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang

Построение универсальных агентов, способных обрабатывать разнообразные задачи и развиваться в различных средах, является долгосрочной целью в области искусственного интеллекта. Большие языковые модели (LLM) считаются многообещающим фундаментом для создания таких агентов благодаря их обобщенным возможностям. Нынешние подходы либо заставляют агентов на основе LLM имитировать траектории, предоставленные экспертами, шаг за шагом, требуя человеческого наблюдения, что затрудняет масштабирование и ограничивает исследование окружающей среды; либо позволяют агентам исследовать и учиться в изолированных средах, что приводит к специализированным агентам с ограниченной обобщающей способностью. В данной статье мы делаем первый шаг к созданию агентов на основе LLM, обладающих общими способностями и способных к саморазвитию. Мы выделяем три ключевых компонента: 1) разнообразные среды для исследования и обучения агентов, 2) набор траекторий для оснащения агентов базовыми способностями и предварительными знаниями, и 3) эффективный и масштабируемый метод эволюции. Мы предлагаем AgentGym, новую платформу, предлагающую разнообразные среды и задачи для широкого, реального времени, унифицированного и параллельного исследования агентов. AgentGym также включает базу данных с расширенными инструкциями, набор тестов, и высококачественные траектории по различным средам. Затем мы предлагаем новый метод, AgentEvol, для изучения потенциала саморазвития агента за пределами ранее виденных данных по задачам и средам. Экспериментальные результаты показывают, что эволюционировавшие агенты могут достичь результатов, сравнимых с моделями SOTA. Мы выпускаем набор инструментов AgentGym, включая платформу, набор данных, тестовую выборку, контрольные точки и реализации алгоритмов. Набор инструментов AgentGym доступен на https://github.com/WooooDyy/AgentGym.

pOps: Операторы диффузии, вдохновленные фотографиями
pOps: Photo-Inspired Diffusion Operators

Jun 3

ByElad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or

Генерация изображений по текстовому описанию позволяет создавать визуальный контент на основе текста. Однако некоторые визуальные концепции нельзя эффективно передать только с помощью языка. Это привело к возрождению интереса к использованию пространства вложения изображений CLIP для более визуально ориентированных задач с помощью методов, таких как IP-Adapter. Интересно, что пространство вложения изображений CLIP оказалось семантически значимым, где линейные операции в этом пространстве приводят к семантически значимым результатам. Тем не менее, конкретное значение этих операций может непредсказуемо варьироваться в разных изображениях. Для использования этого потенциала мы представляем pOps, фреймворк, который обучает конкретные семантические операторы непосредственно на вложениях изображений CLIP. Каждый оператор pOps основан на предварительно обученной модели Diffusion Prior. В то время как модель Diffusion Prior изначально обучалась для отображения между вложениями текста и вложениями изображений, мы демонстрируем, что ее можно настроить для адаптации к новым входным условиям, что приводит к оператору диффузии. Работа непосредственно с вложениями изображений не только улучшает нашу способность к обучению семантических операций, но также позволяет нам непосредственно использовать текстовую потерю CLIP в качестве дополнительного наблюдения при необходимости. Мы показываем, что pOps можно использовать для обучения различных операторов, вдохновленных фотографиями, с различными семантическими значениями, подчеркивая семантическое разнообразие и потенциал нашего предложенного подхода.

Открытость является необходимым условием для искусственного сверхчеловеческого интеллекта.
Open-Endedness is Essential for Artificial Superhuman Intelligence

Jun 6

ByEdward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel

В последние годы произошел огромный взлет общих возможностей систем искусственного интеллекта, в основном за счет обучения базовых моделей на данных масштаба Интернета. Тем не менее создание бесконечного, постоянно самосовершенствующегося искусственного интеллекта остается недостижимой целью. В данной позиционной статье мы утверждаем, что теперь есть все предпосылки для достижения бесконечности в системах искусственного интеллекта с точки зрения человеческого наблюдателя. Более того, мы утверждаем, что такая бесконечность является неотъемлемым свойством любого искусственного сверхчеловеческого интеллекта (ИСИ). Мы начинаем с предоставления конкретного формального определения бесконечности через призму новизны и обучаемости. Затем мы показываем путь к ИСИ через бесконечные системы, построенные на базовых моделях, способных делать новые, актуальные для человека открытия. Мы заканчиваем рассмотрением вопросов безопасности обще способных бесконечных искусственных интеллектов. Мы ожидаем, что базовые модели с открытым исходным кодом окажутся все более плодотворной и критически важной областью исследований в ближайшем будущем.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ShareGPT4Video: Улучшение понимания и генерации видео с помощью более качественных подписей
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Jun 6

ByLin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang

BitsFusion: Квантование весов модели диффузии на 1,99 бита
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

Jun 6

ByYang Sui, Yanyu Li, Anil Kag, Yerlan Idelbayev, Junli Cao, Ju Hu, Dhritiman Sagar, Bo Yuan, Sergey Tulyakov, Jian Ren

Буфер мыслей: мысле-дополненное рассуждение с использованием больших языковых моделей
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Jun 6

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui

Оптимизация предпочтений с учетом шагов: выравнивание предпочтений с производительностью при удалении шума на каждом шаге.
Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

Jun 6

ByZhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng

Видео-Тетрис: к композиционному генерированию текста в видеоформате
VideoTetris: Towards Compositional Text-to-Video Generation

Jun 6

ByYe Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui

SF-V: Модель генерации видео в одном направлении
SF-V: Single Forward Video Generation Model

Jun 6

ByZhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren

AgentGym: Эволюция агентов на основе больших моделей языка в разнообразных средах
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

Jun 6

pOps: Операторы диффузии, вдохновленные фотографиями
pOps: Photo-Inspired Diffusion Operators

Jun 3

ByElad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or

Открытость является необходимым условием для искусственного сверхчеловеческого интеллекта.
Open-Endedness is Essential for Artificial Superhuman Intelligence

Jun 6

ByEdward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel