Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

TryOnDiffusion: История двух UNet
TryOnDiffusion: A Tale of Two UNets

Jun 14, 2023

Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman

746

Имея два изображения, на одном из которых изображен человек, а на другом — одежда, надетую на другого человека, наша цель — сгенерировать визуализацию того, как эта одежда может выглядеть на первом человеке. Основная задача заключается в синтезе фотореалистичной визуализации, сохраняющей детали одежды, при этом адаптируя её к значительным изменениям позы и формы тела между субъектами. Предыдущие методы либо сосредоточены на сохранении деталей одежды без эффективного учета изменений позы и формы, либо позволяют примерку с желаемой формой и позой, но теряют детали одежды. В данной статье мы предлагаем архитектуру на основе диффузии, объединяющую две UNet (называемую Parallel-UNet), что позволяет сохранять детали одежды и адаптировать её к значительным изменениям позы и тела в рамках одной сети. Основные идеи Parallel-UNet включают: 1) одежда адаптируется неявно с помощью механизма кросс-внимания, 2) адаптация одежды и объединение с человеком происходят как часть единого процесса, а не как последовательность двух отдельных задач. Экспериментальные результаты показывают, что TryOnDiffusion достигает наилучших показателей как качественно, так и количественно.

Смотреть на мир твоими глазами
Seeing the World through Your Eyes

Jun 15, 2023

Hadi Alzayer, Kevin Zhang, Brandon Feng, Christopher Metzler, Jia-Bin Huang

331

Способность человеческого глаза отражать окружающий мир является недооценённым источником информации о том, как выглядит наше окружение. Снимая глаза движущегося человека, мы можем получить множество видов сцены, находящейся за пределами прямой видимости камеры, через отражения в глазах. В данной статье мы восстанавливаем трёхмерную сцену за пределами линии видимости камеры, используя портретные изображения с отражениями в глазах. Эта задача является сложной из-за 1) трудности точного определения положения глаз и 2) переплетённого внешнего вида радужной оболочки глаза и отражений сцены. Наш метод совместно уточняет положение роговицы, радиационное поле, описывающее сцену, и текстуру радужной оболочки глаза наблюдателя. Мы также предлагаем простой регуляризационный априор на текстуру радужной оболочки для улучшения качества реконструкции. В ходе различных экспериментов на синтетических и реальных данных с участием людей с разным цветом глаз мы демонстрируем возможность восстановления трёхмерных сцен с использованием отражений в глазах.

WizardCoder: Расширение возможностей языковых моделей для программирования с помощью Evol-Instruct
WizardCoder: Empowering Code Large Language Models with Evol-Instruct

Jun 14, 2023

Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang

291

Крупные языковые модели для работы с кодом (Code LLMs), такие как StarCoder, продемонстрировали выдающиеся результаты в задачах, связанных с кодом. Однако большинство существующих моделей обучаются исключительно на обширных наборах сырых данных кода без тонкой настройки на инструкции. В данной статье мы представляем WizardCoder, который расширяет возможности Code LLMs за счет сложной тонкой настройки на инструкции, адаптируя метод Evol-Instruct для работы с кодом. В ходе всесторонних экспериментов на четырех ключевых бенчмарках генерации кода — HumanEval, HumanEval+, MBPP и DS-1000 — мы раскрываем исключительные способности нашей модели. Она значительно превосходит все другие открытые Code LLMs. Более того, наша модель даже обходит крупнейшие закрытые LLMs, такие как Claude от Anthropic и Bard от Google, на тестах HumanEval и HumanEval+. Наш код, веса модели и данные доступны по адресу https://github.com/nlpxucan/WizardLM.

AssistGPT: Универсальный мультимодальный помощник, способный планировать, выполнять, анализировать и обучаться
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

Jun 14, 2023

Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou

262

Недавние исследования в области больших языковых моделей (LLM) привели к значительным достижениям в разработке универсальных NLP-ассистентов. Некоторые исследования дополнительно изучили использование LLM для планирования и вызова моделей или API с целью решения более сложных мультимодальных запросов пользователей. Несмотря на этот прогресс, сложные задачи, связанные с визуальными данными, остаются трудными из-за разнообразия таких задач. Это разнообразие проявляется в двух аспектах: 1) Пути рассуждений. Для многих реальных приложений сложно точно декомпозировать запрос, просто анализируя его. Обычно требуется планирование на основе конкретного визуального контента и результатов каждого шага. 2) Гибкие входные данные и промежуточные результаты. Входные данные могут быть гибкими в реальных условиях и включать не только одно изображение или видео, но и их комбинации, например, изображение с точки зрения пользователя с несколькими референсными видео. Кроме того, сложный процесс рассуждений также генерирует разнообразные мультимодальные промежуточные результаты, такие как видеонарративы, сегментированные видеоклипы и т.д. Для решения таких общих задач мы предлагаем мультимодальный AI-ассистент AssistGPT с подходом чередующегося кода и языковых рассуждений под названием Plan, Execute, Inspect, and Learn (PEIL), который интегрирует LLM с различными инструментами. В частности, Планировщик способен использовать естественный язык для определения, какой инструмент в Исполнителе должен быть задействован следующим на основе текущего прогресса рассуждений. Инспектор — это эффективный менеджер памяти, который помогает Планировщику передавать правильную визуальную информацию в конкретный инструмент. Наконец, поскольку весь процесс рассуждений сложен и гибок, Обучающийся модуль разработан для того, чтобы модель могла автономно исследовать и находить оптимальное решение. Мы провели эксперименты на бенчмарках A-OKVQA и NExT-QA, достигнув результатов, соответствующих современному уровню. Кроме того, демонстрации показывают способность нашей системы обрабатывать вопросы, значительно более сложные, чем те, что представлены в бенчмарках.

Дистилляция знаний крупных языковых моделей
Knowledge Distillation of Large Language Models

Jun 14, 2023

Yuxian Gu, Li Dong, Furu Wei, Minlie Huang

200

Дистилляция знаний (Knowledge Distillation, KD) является перспективной техникой для снижения высоких вычислительных затрат крупных языковых моделей (LLM). Однако предыдущие методы KD в основном применялись к белым ящикам классификационных моделей или для обучения небольших моделей, имитирующих API черных ящиков, таких как ChatGPT. Вопрос о том, как эффективно дистиллировать знания из белых ящиков генеративных LLM, остается недостаточно изученным, что становится все более важным с развитием LLM. В данной работе мы предлагаем MiniLLM — метод дистилляции меньших языковых моделей из генеративных крупных языковых моделей. Сначала мы заменяем целевую функцию прямого расхождения Кульбака-Лейблера (KLD) в стандартных подходах KD на обратное KLD, которое более подходит для дистилляции на генеративных языковых моделях, чтобы предотвратить переоценку студенческой моделью областей с низкой вероятностью в распределении учителя. Затем мы выводим эффективный метод оптимизации для обучения этой целевой функции. Многочисленные эксперименты в условиях следования инструкциям показывают, что модели MiniLLM генерируют более точные ответы с более высоким общим качеством, меньшим смещением экспозиции, лучшей калибровкой и более высокой производительностью при генерации длинных текстов. Наш метод также масштабируем для различных семейств моделей с параметрами от 120 млн до 13 млрд. Мы опубликуем наш код и контрольные точки моделей по адресу https://aka.ms/MiniLLM.

KoLA: Тщательное тестирование знаний о мире в больших языковых моделях
KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Jun 15, 2023

Jifan Yu, Xiaozhi Wang, Shangqing Tu, Shulin Cao, Daniel Zhang-Li, Xin Lv, Hao Peng, Zijun Yao, Xiaohan Zhang, Hanming Li, Chunyang Li, Zheyuan Zhang, Yushi Bai, Yantao Liu, Amy Xin, Nianyi Lin, Kaifeng Yun, Linlu Gong, Jianhui Chen, Zhili Wu, Yunjia Qi, Weikai Li, Yong Guan, Kaisheng Zeng, Ji Qi, Hailong Jin, Jinxin Liu, Yu Gu, Yuan Yao, Ning Ding, Lei Hou, Zhiyuan Liu, Bin Xu, Jie Tang, Juanzi Li

190

Беспрецедентная производительность крупных языковых моделей (LLM) требует улучшений в методах их оценки. Вместо того чтобы просто исследовать широту возможностей LLM, мы считаем, что тщательный и продуманный дизайн тестов необходим для проведения всесторонних, объективных и применимых оценок. Учитывая важность мировых знаний для LLM, мы создали эталонный тест для оценки знаний (Knowledge-oriented LLM Assessment, KoLA), в котором мы тщательно разработали три ключевых аспекта: (1) Для моделирования способностей мы имитируем человеческое познание, формируя четырехуровневую таксономию знаний, охватывающую 19 задач. (2) Для данных, чтобы обеспечить справедливые сравнения, мы используем как Википедию — корпус, широко используемый для предварительного обучения LLM, так и постоянно собираемые новые корпуса, чтобы оценить способность моделей работать с неизвестными данными и развивающимися знаниями. (3) Для критериев оценки мы применяем контрастную систему, включающую общие стандартные баллы для лучшей численной сопоставимости между задачами и моделями, а также уникальный метрический показатель самоконтраста для автоматической оценки галлюцинаций знаний. Мы оценили 21 открытую и коммерческую LLM и получили ряд интересных результатов. Набор данных KoLA и открытая таблица лидеров публично доступны по адресу https://kola.xlore.cn и будут постоянно обновляться, чтобы предоставлять ориентиры для разработки LLM и систем, связанных с обработкой знаний.

h2oGPT: Демократизация больших языковых моделей
h2oGPT: Democratizing Large Language Models

Jun 13, 2023

Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati

184

Фундаментальные большие языковые модели (LLM), такие как GPT-4, представляют собой революцию в области искусственного интеллекта благодаря их практическому применению через обработку естественного языка. Однако они также несут значительные риски, такие как наличие предвзятых, конфиденциальных или вредоносных текстов, а также несанкционированное включение материалов, защищенных авторским правом. Мы представляем h2oGPT — набор репозиториев с открытым исходным кодом для создания и использования больших языковых моделей (LLM), основанных на генеративных предобученных трансформерах (GPT). Цель этого проекта — создать лучшую в мире по-настоящему открытую альтернативу закрытым GPT. В сотрудничестве с невероятным и неудержимым сообществом открытого исходного кода мы открываем доступ к нескольким тонко настроенным моделям h2oGPT с параметрами от 7 до 40 миллиардов, готовым для коммерческого использования под полностью разрешительными лицензиями Apache 2.0. В нашем релизе также представлен 100% приватный поиск документов с использованием естественного языка. Модели с открытым исходным кодом способствуют развитию ИИ, делая его более доступным и заслуживающим доверия. Они снижают барьеры для входа, позволяя людям и организациям адаптировать эти модели под свои нужды. Такая открытость стимулирует инновации, прозрачность и справедливость. Открытая стратегия необходима для справедливого распределения преимуществ ИИ, и H2O.ai продолжит демократизацию ИИ и больших языковых моделей.

DreamHuman: Анимируемые 3D-аватары из текста
DreamHuman: Animatable 3D Avatars from Text

Jun 15, 2023

Nikos Kolotouros, Thiemo Alldieck, Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Fieraru, Cristian Sminchisescu

162

Представляем DreamHuman — метод генерации реалистичных анимируемых 3D-моделей человеческих аватаров исключительно на основе текстовых описаний. Современные методы преобразования текста в 3D добились значительных успехов в генерации, но всё ещё имеют существенные ограничения. Контроль и часто пространственное разрешение остаются ограниченными, существующие методы создают статичные, а не анимируемые 3D-модели людей, а обеспечение антропометрической согласованности для сложных структур, таких как человек, остаётся сложной задачей. DreamHuman объединяет крупные модели синтеза изображений из текста, нейронные поля излучения и статистические модели человеческого тела в рамках новой моделирующей и оптимизационной структуры. Это позволяет создавать динамические 3D-аватары с высококачественными текстурами и изученными, специфичными для конкретного экземпляра, деформациями поверхности. Мы демонстрируем, что наш метод способен генерировать широкий спектр анимируемых, реалистичных 3D-моделей людей из текста. Наши 3D-модели обладают разнообразным внешним видом, одеждой, оттенками кожи и формами тела, значительно превосходя как общие подходы преобразования текста в 3D, так и предыдущие генераторы 3D-аватаров на основе текста по визуальной точности. Для получения дополнительных результатов и анимаций посетите наш сайт по адресу https://dream-human.github.io.

Macaw-LLM: Мультимодальное языковое моделирование с интеграцией изображений, аудио, видео и текста
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration

Jun 15, 2023

Chenyang Lyu, Minghao Wu, Longyue Wang, Xinting Huang, Bingshuai Liu, Zefeng Du, Shuming Shi, Zhaopeng Tu

154

Хотя крупные языковые модели (LLM), настроенные на инструкции, продемонстрировали впечатляющие возможности в различных задачах обработки естественного языка (NLP), их эффективность на других модальностях данных, помимо текста, изучена не полностью. В данной работе мы представляем Macaw-LLM — новую мультимодальную LLM, которая бесшовно интегрирует визуальную, аудио и текстовую информацию. Macaw-LLM состоит из трех основных компонентов: модуля модальности для кодирования мультимодальных данных, когнитивного модуля для использования предобученных LLM и модуля согласования для гармонизации разнородных представлений. Наш инновационный модуль согласования эффективно связывает мультимодальные признаки с текстовыми, упрощая процесс адаптации от модулей модальности к когнитивному модулю. Кроме того, мы создали крупномасштабный мультимодальный набор данных с инструкциями в формате многоходового диалога, включающий 69 тыс. изображений и 50 тыс. видео. Мы сделали наши данные, код и модель общедоступными, надеясь, что это проложит путь для будущих исследований в области мультимодальных LLM и расширит возможности LLM для работы с разнообразными модальностями данных и решения сложных реальных задач.

Язык в награды для синтеза роботизированных навыков
Language to Rewards for Robotic Skill Synthesis

Jun 14, 2023

Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia

120

Крупные языковые модели (LLM) продемонстрировали впечатляющий прогресс в освоении разнообразных новых способностей благодаря обучению в контексте, начиная от логического рассуждения и заканчивая написанием кода. Исследователи в области робототехники также изучали использование LLM для расширения возможностей управления роботами. Однако, поскольку низкоуровневые действия роботов зависят от аппаратного обеспечения и недостаточно представлены в обучающих корпусах LLM, существующие подходы к применению LLM в робототехнике в основном рассматривают LLM как семантические планировщики или полагаются на заранее разработанные примитивы управления для взаимодействия с роботом. С другой стороны, функции вознаграждения демонстрируют гибкость в представлении, что позволяет оптимизировать их для создания политик управления, способных выполнять разнообразные задачи, а их семантическая насыщенность делает их подходящими для спецификации с помощью LLM. В данной работе мы представляем новую парадигму, которая использует это понимание, применяя LLM для определения параметров вознаграждения, которые могут быть оптимизированы и использованы для выполнения различных задач робототехники. Используя вознаграждение в качестве промежуточного интерфейса, генерируемого LLM, мы эффективно устраняем разрыв между высокоуровневыми языковыми инструкциями или корректировками и низкоуровневыми действиями робота. В то же время, сочетание этого с оптимизатором в реальном времени, MuJoCo MPC, обеспечивает интерактивный опыт создания поведения, где пользователи могут сразу наблюдать результаты и предоставлять обратную связь системе. Для систематической оценки производительности предложенного метода мы разработали 17 задач для симулированного четвероногого робота и манипулятора с высокой степенью свободы. Мы показываем, что наш метод успешно справляется с 90% поставленных задач, в то время как базовый подход, использующий примитивные навыки в качестве интерфейса с Code-as-policies, достигает успеха в 50% случаев. Мы также подтвердили эффективность нашего метода на реальном роботе-манипуляторе, где сложные навыки манипуляции, такие как нехватательное толкание, возникают благодаря нашей интерактивной системе.

Модели диффузии для сегментации с нулевым обучением и открытым словарём
Diffusion Models for Zero-Shot Open-Vocabulary Segmentation

Jun 15, 2023

Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht

Разнообразие объектов в реальном мире практически безгранично, что делает невозможным их охват с помощью моделей, обученных на фиксированном наборе категорий. В результате в последние годы методы с открытым словарем привлекли внимание научного сообщества. В данной статье предлагается новый метод для сегментации с нулевым обучением и открытым словарем. Предыдущие работы в основном полагаются на контрастное обучение с использованием пар изображение-текст, применяя механизмы группировки для изучения признаков изображений, которые одновременно согласованы с языком и хорошо локализованы. Однако это может вносить неоднозначность, так как визуальный облик изображений с похожими описаниями часто варьируется. Вместо этого мы используем генеративные свойства крупномасштабных диффузионных моделей "текст-изображение" для выборки набора опорных изображений для заданной текстовой категории. Это позволяет получить распределение внешних видов для заданного текста, обходя проблему неоднозначности. Мы также предлагаем механизм, который учитывает контекстный фон выбранных изображений для более точной локализации объектов и непосредственной сегментации фона. Мы показываем, что наш метод может быть использован для привязки нескольких предварительно обученных самообучаемых экстракторов признаков к естественному языку и предоставления объяснимых предсказаний путем отображения на регионы в наборе опорных изображений. Наше предложение не требует обучения, полагаясь исключительно на предварительно обученные компоненты, однако демонстрирует высокую производительность на ряде бенчмарков для сегментации с открытым словарем, достигая преимущества более чем в 10% на бенчмарке Pascal VOC.

ChessGPT: Соединение обучения стратегий и языкового моделирования
ChessGPT: Bridging Policy Learning and Language Modeling

Jun 15, 2023

Xidong Feng, Yicheng Luo, Ziyan Wang, Hongrui Tang, Mengyue Yang, Kun Shao, David Mguni, Yali Du, Jun Wang

При решении задач принятия решений люди обычно полагаются на информацию из двух ключевых источников: (1) исторические данные о политиках, которые предоставляют воспроизведение взаимодействий с окружающей средой, и (2) аналитические инсайты в форме естественного языка, раскрывающие ценный мыслительный процесс или стратегические соображения. Несмотря на это, большинство предыдущих исследований сосредоточено только на одном источнике: либо исключительно на историческом воспроизведении для прямого обучения политикам или функциям ценности, либо на обучении языковых моделей с использованием только языковых корпусов. В данной статье мы утверждаем, что мощный автономный агент должен охватывать оба источника. Таким образом, мы предлагаем ChessGPT, модель GPT, которая объединяет обучение политикам и языковое моделирование, интегрируя данные из этих двух источников в шахматных играх. В частности, мы создаем крупномасштабный набор данных, связанных с шахматами и языком. Используя этот набор данных, мы демонстрируем две модели: ChessCLIP и ChessGPT, интегрирующие обучение политикам и языковое моделирование. Наконец, мы предлагаем полную оценочную структуру для оценки шахматных способностей языковой модели. Экспериментальные результаты подтверждают эффективность нашей модели и набора данных. Мы открываем исходный код, модель и набор данных на https://github.com/waterhorse1/ChessGPT.

Исследование учебной программы MIT по математике и электротехнике и компьютерным наукам с использованием больших языковых моделей
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Jun 15, 2023

Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori

Мы собрали всеобъемлющий набор данных, включающий 4550 вопросов и решений из задачников, промежуточных и итоговых экзаменов по всем курсам математики, электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT), необходимым для получения степени. Мы оценили способность крупных языковых моделей выполнить требования для выпуска по любому направлению математики и EECS в MIT. Наши результаты показывают, что GPT-3.5 успешно решает треть всей программы MIT, в то время как GPT-4, с использованием инженерных подсказок, достигает стопроцентного уровня решения на тестовом наборе, исключая вопросы, основанные на изображениях. Мы дообучили открытую крупную языковую модель на этом наборе данных. Мы использовали GPT-4 для автоматической оценки ответов модели, предоставив детальный анализ производительности по курсам, вопросам и типам ответов. Встраивая вопросы в низкоразмерное пространство, мы исследовали взаимосвязи между вопросами, темами и курсами и выявили, какие вопросы и курсы необходимы для решения других вопросов и курсов с помощью обучения с малым количеством примеров. Наш анализ предлагает ценные инсайты в отношении предварительных требований курсов и проектирования учебных программ, подчеркивая потенциал языковых моделей для обучения и улучшения образования в области математики и EECS.

Антиципаторный музыкальный трансформер
Anticipatory Music Transformer

Jun 14, 2023

John Thickstun, David Hall, Chris Donahue, Percy Liang

Мы представляем метод предвосхищения (anticipation) для построения управляемой генеративной модели временного точечного процесса (процесса событий), асинхронно обусловленного реализациями второго, коррелированного процесса (процесса управления). Это достигается путем чередования последовательностей событий и управляющих воздействий, причем управляющие воздействия появляются после моментов остановки в последовательности событий. Данная работа мотивирована задачами, возникающими при управлении генерацией символической музыки. Мы сосредоточиваемся на задачах заполнения (infilling), где управляющие воздействия представляют собой подмножество самих событий, а условная генерация завершает последовательность событий при заданных фиксированных управляющих событиях. Мы обучаем модели предвосхищающего заполнения на большом и разнообразном наборе данных Lakh MIDI. Эти модели демонстрируют производительность, сопоставимую с авторегрессионными моделями для генерации музыки по запросу, с дополнительной возможностью выполнения задач заполнения, включая аккомпанемент. Человеческие оценщики отмечают, что модель предвосхищения создает аккомпанементы, сопоставимые по музыкальности даже с музыкой, сочиненной людьми, на 20-секундных фрагментах.

Рекомендация музыки для видео с использованием языковых подсказок через аналогии промптов
Language-Guided Music Recommendation for Video via Prompt Analogies

Jun 15, 2023

Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell

Мы предлагаем метод рекомендации музыки для входного видео, позволяющий пользователю направлять выбор музыки с помощью свободного текста на естественном языке. Ключевая сложность в данной постановке задачи заключается в том, что существующие наборы данных музыкальных видео предоставляют необходимые пары (видео, музыка) для обучения, но не содержат текстовых описаний музыки. В данной работе мы решаем эту проблему с помощью трех основных вкладов. Во-первых, мы предлагаем подход к синтезу текста, основанный на процедуре аналогий, для генерации описаний музыки на естественном языке с использованием крупномасштабной языковой модели (BLOOM-176B) на основе выходных данных предобученного классификатора музыкальных тегов и небольшого количества текстовых описаний, созданных человеком. Во-вторых, мы используем эти синтезированные описания для обучения новой тримодальной модели, которая объединяет текстовые и видеовходные представления для поиска музыкальных образцов. Для обучения мы вводим механизм регуляризации с выпадением текста, который, как мы показываем, критически важен для производительности модели. Наша модель позволяет извлекаемой музыкальной аудиодорожке соответствовать двум входным модальностям, согласуясь с визуальным стилем, изображенным в видео, и музыкальным жанром, настроением или инструментарием, описанным в текстовом запросе. В-третьих, для оценки нашего подхода мы собираем тестовый набор данных для нашей задачи, аннотируя подмножество из 4 тысяч клипов из набора данных YT8M-MusicVideo текстовыми описаниями музыки на естественном языке, которые мы делаем общедоступными. Мы показываем, что наш подход может соответствовать или превосходить производительность предыдущих методов в задаче поиска музыки по видео, при этом значительно улучшая точность поиска при использовании текстового руководства.

Гибкий захват с использованием MPC для всего тела и обучения чернобоксной политике
Agile Catching with Whole-Body MPC and Blackbox Policy Learning

Jun 14, 2023

Saminda Abeyruwan, Alex Bewley, Nicholas M. Boffi, Krzysztof Choromanski, David D'Ambrosio, Deepali Jain, Pannag Sanketi, Anish Shankar, Vikas Sindhwani, Sumeet Singh, Jean-Jacques Slotine, Stephen Tu

Мы рассматриваем эталонную задачу в области гибкой робототехники: захват объектов, брошенных на высокой скорости. Это сложная задача, которая включает отслеживание, перехват и удержание брошенного объекта с использованием только визуальных наблюдений за объектом и проприоцептивного состояния робота, причем все это должно быть выполнено за доли секунды. Мы представляем сравнительные преимущества двух принципиально разных стратегий решения: (i) Модельно-прогнозирующее управление с использованием ускоренной оптимизации ограниченных траекторий и (ii) Обучение с подкреплением с использованием оптимизации нулевого порядка. Мы предоставляем анализ различных компромиссов в производительности, включая эффективность использования данных, перенос из симуляции в реальность, устойчивость к сдвигам распределения и многомодальность всего тела, на основе обширных экспериментов на реальном оборудовании. В заключение мы предлагаем подходы к объединению "классических" и "основанных на обучении" методов для управления гибкими роботами. Видео наших экспериментов доступны по ссылке: https://sites.google.com/view/agile-catching.

LOVM: Выбор моделей компьютерного зрения на основе языковых данных
LOVM: Language-Only Vision Model Selection

Jun 15, 2023

Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung

Предварительно обученные мультимодальные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), становятся все более популярными благодаря их выдающейся производительности в приложениях, связанных с обработкой изображений, особенно в условиях ограниченного количества данных (few-shot) и их полного отсутствия (zero-shot). Однако выбор наиболее эффективной VLM для конкретного приложения является нетривиальной задачей, так как он зависит от набора данных и задачи. При этом полное тестирование всех доступных VLMs для нового приложения не только требует значительных временных и вычислительных ресурсов, но и предполагает сбор размеченного набора данных для оценки. По мере увеличения числа открытых вариантов VLMs возникает необходимость в эффективной стратегии выбора модели, которая не требует доступа к подготовленному набору данных для оценки. В данной статье предлагается новая задача и эталонный тест для эффективной оценки zero-shot производительности VLMs в приложениях без доступа к данным целевой задачи. В частности, мы представляем новую задачу LOVM: Language-Only Vision Model Selection (Выбор модели на основе только текстового описания), где методы должны выполнять как выбор модели, так и прогнозирование ее производительности исключительно на основе текстового описания целевого приложения. Затем мы представляем обширный эталонный тест LOVM, состоящий из оценок 35 предварительно обученных VLMs и 23 наборов данных, где методы должны ранжировать предварительно обученные VLMs и предсказывать их zero-shot производительность.

VidEdit: Пространственно осознанное редактирование видео на основе текста с использованием метода zero-shot
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

Jun 14, 2023

Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome

В последнее время диффузионные генеративные модели достигли значительных успехов в создании и редактировании изображений. Однако их применение для редактирования видео по-прежнему сталкивается с серьезными ограничениями. В данной статье представлен VidEdit — новый метод для редактирования видео на основе текста в режиме zero-shot, обеспечивающий высокую временную и пространственную согласованность. Во-первых, мы предлагаем комбинировать атласные и предобученные диффузионные модели для генерации изображений из текста, что позволяет реализовать эффективный метод редактирования без необходимости обучения, изначально обеспечивающий временную плавность. Во-вторых, мы используем готовые панорамные сегментаторы вместе с детекторами краев и адаптируем их для условного редактирования атласов на основе диффузии. Это обеспечивает точный пространственный контроль над целевыми областями при строгом сохранении структуры исходного видео. Количественные и качественные эксперименты показывают, что VidEdit превосходит современные методы на наборе данных DAVIS по показателям семантической точности, сохранения изображения и временной согласованности. В рамках данного фреймворка обработка одного видео занимает всего около одной минуты, а также возможно создание нескольких совместимых редакций на основе единственного текстового запроса. Веб-страница проекта доступна по адресу https://videdit.github.io.

DORSal: Диффузия для объектно-ориентированных представлений сцен и др.
DORSal: Diffusion for Object-centric Representations of Scenes et al.

Jun 13, 2023

Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf

Недавние достижения в области понимания 3D-сцен позволяют масштабируемое обучение представлений на больших наборах данных, содержащих разнообразные сцены. В результате стало возможным обобщение на невидимые сцены и объекты, рендеринг новых видов всего по одному или нескольким входным изображениям, а также управляемая генерация сцен, поддерживающая редактирование. Однако совместное обучение на большом количестве сцен обычно ухудшает качество рендеринга по сравнению с моделями, оптимизированными для отдельных сцен, такими как NeRF. В данной работе мы используем последние достижения в области диффузионных моделей, чтобы наделить модели обучения представлений 3D-сцен способностью рендерить высококачественные новые виды, сохраняя при этом такие преимущества, как редактирование сцен на уровне объектов. В частности, мы предлагаем DORSal, который адаптирует архитектуру диффузионной модели для видео к генерации 3D-сцен, основанной на объектно-ориентированных слотах представлений сцен. На сложных синтетических сценах с множеством объектов и на крупномасштабном наборе данных Street View из реального мира мы показываем, что DORSal обеспечивает масштабируемый нейронный рендеринг 3D-сцен с возможностью редактирования на уровне объектов и превосходит существующие подходы.

UrbanIR: Крупномасштабное обратное рендеринг городских сцен из одного видео
UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video

Jun 15, 2023

Zhi-Hao Lin, Bohan Liu, Yi-Ting Chen, David Forsyth, Jia-Bin Huang, Anand Bhattad, Shenlong Wang

Мы демонстрируем, как построить модель, позволяющую создавать реалистичные изображения сцены с произвольных точек обзора при новых условиях освещения на основе видео. Наш метод — UrbanIR: Urban Scene Inverse Rendering — вычисляет обратное графическое представление из видеозаписи. UrbanIR совместно восстанавливает форму, альбедо, видимость, а также солнечное и небесное освещение из одного видео неограниченных уличных сцен с неизвестным освещением. UrbanIR использует видео с камер, установленных на автомобилях (в отличие от множества видов одних и тех же точек, характерных для типичных оценок в стиле NeRF). В результате стандартные методы дают плохие оценки геометрии (например, крыш) и порождают множество «плавающих» артефактов. Ошибки в обратной графической интерпретации могут приводить к сильным артефактам при рендеринге. UrbanIR использует новые функции потерь для контроля этих и других источников ошибок. В частности, UrbanIR применяет новую функцию потерь для получения точных оценок объемов теней в исходной сцене. Полученные представления позволяют осуществлять контролируемое редактирование, обеспечивая фотореалистичный рендеринг сцен с измененным освещением и добавленными объектами с произвольных точек обзора. Качественная оценка демонстрирует значительные улучшения по сравнению с современными методами.

AVIS: Автономный поиск визуальной информации с использованием больших языковых моделей
AVIS: Autonomous Visual Information Seeking with Large Language Models

Jun 13, 2023

Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi

В данной статье мы представляем автономную систему визуального ответа на вопросы с поиском информации, AVIS. Наш метод использует большую языковую модель (LLM) для динамического планирования использования внешних инструментов и анализа их результатов, что позволяет получать необходимые знания для ответов на поставленные вопросы. Ответы на визуальные вопросы, требующие внешних знаний, такие как "Какое событие символизирует здание на этом изображении?", представляют собой сложную задачу. Эта задача формирует комбинаторное пространство поиска, требующее последовательности действий, включая вызов API, анализ их ответов и принятие обоснованных решений. Мы проводим исследование с участием пользователей, чтобы собрать различные примеры принятия решений людьми при выполнении этой задачи. Эти данные затем используются для разработки системы, состоящей из трех компонентов: планировщика на основе LLM, который динамически определяет, какой инструмент использовать следующим, анализатора на основе LLM, который анализирует и извлекает ключевую информацию из результатов инструментов, и компонента рабочей памяти, который сохраняет полученную информацию на протяжении всего процесса. Собранные данные о поведении пользователей служат руководством для нашей системы в двух ключевых аспектах. Во-первых, мы создаем граф переходов, анализируя последовательность решений, принятых пользователями. Этот граф определяет различные состояния и ограничивает набор доступных действий в каждом состоянии. Во-вторых, мы используем примеры принятия решений пользователями, чтобы предоставить нашему планировщику и анализатору на основе LLM релевантные контекстные примеры, повышая их способность принимать обоснованные решения. Мы показываем, что AVIS достигает наилучших результатов на эталонных тестах визуального ответа на вопросы, требующих интенсивного использования знаний, таких как Infoseek и OK-VQA.

NAVI: Коллекции изображений, независимые от категорий, с высококачественными аннотациями 3D-форм и поз
NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and Pose Annotations

Jun 15, 2023

Varun Jampani, Kevis-Kokitsi Maninis, Andreas Engelhardt, Arjun Karpur, Karen Truong, Kyle Sargent, Stefan Popov, André Araujo, Ricardo Martin-Brualla, Kaushal Patel, Daniel Vlasic, Vittorio Ferrari, Ameesh Makadia, Ce Liu, Yuanzhen Li, Howard Zhou

Последние достижения в области нейронной реконструкции позволяют создавать высококачественные 3D-модели объектов на основе случайно собранных коллекций изображений. Современные методы в основном оценивают свой прогресс на относительно простых наборах изображений, где техники Structure-from-Motion (SfM) могут предоставить эталонные (GT) параметры камер. Мы отмечаем, что методы SfM часто не справляются с обработкой изображений, снятых в реальных условиях, таких как результаты поиска изображений с различными фонами и освещением. Для обеспечения систематического прогресса в исследованиях 3D-реконструкции на основе случайных изображений мы представляем NAVI: новый набор данных, содержащий категорийно-независимые коллекции изображений объектов с высококачественными 3D-сканами, а также точные 2D-3D соответствия, предоставляющие почти идеальные эталонные параметры камер. Эти 2D-3D соответствия позволяют извлекать точные производные аннотации, такие как плотные пиксельные соответствия, карты глубины и сегментации. Мы демонстрируем использование коллекций изображений NAVI в различных задачах и показываем, что NAVI позволяет проводить более тщательные оценки, которые были невозможны с существующими наборами данных. Мы считаем, что NAVI способствует систематическому прогрессу в исследованиях 3D-реконструкции и оценки соответствий. Страница проекта: https://navidataset.github.io.

Масштабное переранжирование с использованием языковых моделей для данных длинной формы
Large-scale Language Model Rescoring on Long-form Data

Jun 13, 2023

Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley

В данной работе мы исследуем влияние крупномасштабных языковых моделей (LLM) на автоматическое распознавание речи (ASR) в видео с YouTube, которые мы используем в качестве источника для длинных форм ASR. Мы демонстрируем относительное снижение частоты ошибок на словах (WER) до 8% для тестовых наборов длинных форм ASR на американском английском (en-us) и кодово-переключенном индийском английском (en-in), а также относительное снижение частоты ошибок на ключевых терминах (STER) до 30% по сравнению с сильным базовым подходом первого прохода, использующим языковую модель на основе максимальной энтропии. Улучшенная обработка решеток, которая приводит к решетке с правильной (не древовидной) топологией ориентированного графа и учитывает контекст из лучшей гипотезы предыдущих сегментов, дает значительные преимущества при повторном оценивании с использованием LLM. Мы также обнаруживаем, что улучшение производительности от комбинации LLM, обученных на огромных объемах доступных данных (таких как C4), и традиционных нейронных языковых моделей является аддитивным и значительно превосходит сильный базовый подход первого прохода с языковой моделью на основе максимальной энтропии.

Нейронное переосвещение с учетом подповерхностного рассеяния через обучение градиенту переноса излучения
Neural Relighting with Subsurface Scattering by Learning the Radiance Transfer Gradient

Jun 15, 2023

Shizhan Zhu, Shunsuke Saito, Aljaz Bozic, Carlos Aliaga, Trevor Darrell, Christop Lassner

Реконструкция и переосвещение объектов и сцен при различных условиях освещения представляет собой сложную задачу: существующие методы нейронного рендеринга зачастую не способны учесть сложные взаимодействия между материалами и светом. Использование предварительно вычисленных методов передачи излучения позволяет учитывать глобальное освещение, но всё же сталкивается с трудностями при работе с материалами, обладающими эффектами подповерхностного рассеивания. Мы предлагаем новый подход для обучения поля передачи излучения с помощью объёмного рендеринга и использования различных визуальных подсказок для уточнения геометрии в рамках сквозного обучения. Этот подход расширяет возможности переосвещения и реконструкции, позволяя обрабатывать более широкий спектр материалов на основе данных. Полученные модели обеспечивают правдоподобные результаты рендеринга как в существующих, так и в новых условиях. Мы опубликуем наш код и новый набор данных, полученных с использованием световой сцены, содержащей объекты с эффектами подповерхностного рассеивания.

К созданию обоснованного социального рассуждения
Toward Grounded Social Reasoning

Jun 14, 2023

Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan, Dorsa Sadigh

Рассмотрим робота, которому поручено навести порядок на столе с тщательно собранным спортивным автомобилем из Lego. Человек может понять, что разбирать автомобиль и убирать его в рамках "наведения порядка" социально неприемлемо. Как робот может прийти к такому выводу? Хотя крупные языковые модели (LLM) недавно стали использоваться для социального рассуждения, закрепление этого рассуждения в реальном мире остается сложной задачей. Чтобы рассуждать в реальном мире, роботы должны выйти за рамки пассивного запроса к LLM и *активно собирать информацию из окружающей среды*, необходимую для принятия правильного решения. Например, обнаружив, что на столе находится скрытый автомобиль, роботу может потребоваться активно воспринять его, чтобы определить, является ли это сложной моделью автомобиля из Lego или игрушечной машинкой, собранной ребенком. Мы предлагаем подход, который использует LLM и визуально-языковую модель (VLM), чтобы помочь роботу активно воспринимать окружающую среду для выполнения заземленного социального рассуждения. Для масштабной оценки нашего подхода мы публикуем набор данных MessySurfaces, содержащий изображения 70 реальных поверхностей, которые необходимо убрать. Дополнительно мы демонстрируем наш подход на роботе с использованием двух тщательно спроектированных поверхностей. Мы наблюдаем среднее улучшение на 12,9% на тестовом наборе MessySurfaces и среднее улучшение на 15% в экспериментах с роботом по сравнению с базовыми методами, не использующими активное восприятие. Набор данных, код и видео нашего подхода доступны по ссылке: https://minaek.github.io/groundedsocialreasoning.

Настройка по мере масштабирования: оптимизация гиперпараметров для эффективного обучения с учетом вычислительных ресурсов
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training

Jun 13, 2023

Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wróblewski, James B. Simon, Kanjun Qiu

Тонкая настройка гиперпараметров моделей глубокого обучения может привести к увеличению производительности на порядки при том же объеме вычислений. Несмотря на это, систематическая настройка встречается редко, особенно для крупных моделей, которые дорого оценивать и которые, как правило, имеют множество гиперпараметров, что требует сложных решений о компромиссах, бюджетах и границах поиска. Чтобы решить эти проблемы и предложить практический метод для надежной настройки крупных моделей, мы представляем Cost-Aware Pareto Region Bayesian Search (CARBS) — алгоритм байесовской оптимизации, который выполняет локальный поиск вокруг Парето-фронта производительности и затрат. CARBS эффективно работает даже в неограниченных пространствах поиска с множеством гиперпараметров, изучает масштабные зависимости, что позволяет настраивать модели по мере их масштабирования, и автоматизирует большую часть "черной магии" настройки. Среди наших результатов мы эффективно решаем весь бенчмарк ProcGen, просто настраивая простой базовый алгоритм (PPO, как он представлен в оригинальной статье ProcGen). Мы также воспроизводим результат масштабирования размера модели и количества токенов обучения из проекта Chinchilla (Hoffmann et al. 2022), одновременно открывая законы масштабирования для всех остальных гиперпараметров с помощью простого автоматизированного процесса, который требует значительно меньше вычислений и применим к любой задаче глубокого обучения (не только к языковым моделям).