Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Kosmos-2: Привязка мультимодальных больших языковых моделей к реальному миру
Kosmos-2: Grounding Multimodal Large Language Models to the World

Jun 26, 2023

Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei

349

Мы представляем Kosmos-2, мультимодальную большую языковую модель (MLLM), которая открывает новые возможности для восприятия описаний объектов (например, ограничивающих рамок) и привязки текста к визуальному миру. В частности, мы представляем референциальные выражения в виде ссылок в Markdown, т.е. ``[текстовый фрагмент](ограничивающие рамки)'', где описания объектов представляют собой последовательности токенов местоположения. Вместе с мультимодальными корпусами мы создаем масштабные данные привязанных пар изображение-текст (называемые GrIT) для обучения модели. В дополнение к существующим возможностям MLLM (например, восприятие общих модальностей, следование инструкциям и выполнение обучения в контексте), Kosmos-2 интегрирует способность привязки в приложения для последующей обработки. Мы оцениваем Kosmos-2 на широком спектре задач, включая (i) мультимодальную привязку, такую как понимание референциальных выражений и привязку фраз, (ii) мультимодальную референцию, такую как генерацию референциальных выражений, (iii) задачи восприятия и языка, а также (iv) понимание и генерацию языка. Эта работа закладывает основу для развития воплощенного ИИ и проливает свет на большое сближение языка, мультимодального восприятия, действия и моделирования мира, что является ключевым шагом на пути к искусственному общему интеллекту. Данные, демонстрация и предобученные модели доступны по адресу https://aka.ms/kosmos-2.

MotionGPT: Движение человека как иностранный язык
MotionGPT: Human Motion as a Foreign Language

Jun 26, 2023

Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen

272

Несмотря на прогресс в области предварительно обученных крупных языковых моделей, создание унифицированной модели для обработки языка и других мультимодальных данных, таких как движение, остается сложной и малоизученной задачей. К счастью, человеческое движение демонстрирует семантическую связь, схожую с человеческим языком, и часто воспринимается как форма языка тела. Объединяя языковые данные с крупномасштабными моделями движения, становится возможным предварительное обучение на основе движения и языка, что может повысить производительность в задачах, связанных с движением. Руководствуясь этим пониманием, мы предлагаем MotionGPT — унифицированную, универсальную и удобную модель для обработки движения и языка, способную решать множество задач, связанных с движением. В частности, мы используем дискретное векторное квантование для человеческого движения, преобразуя 3D-движение в токены движения, аналогично процессу генерации словесных токенов. На основе этого "словаря движения" мы выполняем языковое моделирование как для движения, так и для текста в унифицированной манере, рассматривая человеческое движение как особый язык. Более того, вдохновленные обучением с использованием промптов, мы предварительно обучаем MotionGPT на смеси данных о движении и языке, а затем дообучаем его на задачах, основанных на вопросах и ответах с использованием промптов. Многочисленные эксперименты демонстрируют, что MotionGPT достигает наилучших результатов в различных задачах, включая генерацию движения на основе текста, описание движения, предсказание движения и интерполяцию движения.

DragDiffusion: Использование моделей диффузии для интерактивного редактирования изображений на основе точек
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

Jun 26, 2023

Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai

205

Точное и контролируемое редактирование изображений является сложной задачей, которая привлекает значительное внимание. Недавно метод DragGAN представил интерактивную платформу для редактирования изображений на основе точек и достиг впечатляющих результатов с точностью на уровне пикселей. Однако, поскольку этот метод основан на генеративно-состязательных сетях (GAN), его универсальность ограничена возможностями предварительно обученных моделей GAN. В данной работе мы расширяем такой подход редактирования на диффузионные модели и предлагаем DragDiffusion. Используя крупномасштабные предобученные диффузионные модели, мы значительно повышаем применимость интерактивного редактирования на основе точек в реальных сценариях. В то время как большинство существующих методов редактирования изображений на основе диффузии работают с текстовыми эмбеддингами, DragDiffusion оптимизирует латентное пространство диффузии для достижения точного пространственного контроля. Хотя диффузионные модели генерируют изображения итеративно, мы эмпирически показываем, что оптимизация латентного пространства на одном шаге достаточна для получения согласованных результатов, что позволяет DragDiffusion выполнять высококачественное редактирование эффективно. Многочисленные эксперименты в широком спектре сложных случаев (например, множественные объекты, разнообразные категории объектов, различные стили и т.д.) демонстрируют универсальность и общность DragDiffusion.

Быстрее Segment Anything: В сторону облегченной SAM для мобильных приложений
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications

Jun 25, 2023

Chaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae, Seungkyu Lee, Choong Seon Hong

151

Модель Segment Anything (SAM) представляет собой базовую модель компьютерного зрения, управляемую подсказками, для выделения объекта интереса из фона. С момента выпуска проекта SA командой исследователей Meta, SAM привлекла значительное внимание благодаря своей впечатляющей производительности в условиях нулевого переноса (zero-shot transfer) и высокой универсальности, позволяющей совместимость с другими моделями для продвинутых задач обработки изображений, таких как редактирование с точным контролем. Многие из таких сценариев использования требуют работы на устройствах с ограниченными ресурсами, например, в мобильных приложениях. В данной работе мы стремимся сделать SAM более подходящим для мобильных устройств, заменив тяжеловесный кодировщик изображений на облегченный. Наивный подход к обучению такой новой модели, как в оригинальной статье SAM, приводит к неудовлетворительной производительности, особенно при ограниченных ресурсах для обучения. Мы обнаружили, что это в основном вызвано совместной оптимизацией кодировщика изображений и декодера масок, что побудило нас предложить метод разделенного дистилляции. Конкретно, мы дистиллируем знания из кодировщика изображений ViT-H в оригинальном SAM в облегченный кодировщик, который автоматически совместим с декодером масок в оригинальном SAM. Обучение может быть завершено на одном GPU менее чем за день, а полученная облегченная модель SAM, названная MobileSAM, более чем в 60 раз меньше, но работает на уровне оригинального SAM. По скорости вывода MobileSAM обрабатывает изображение примерно за 10 мс: 8 мс на кодировщик изображений и 2 мс на декодер масок. Благодаря превосходной производительности и большей универсальности, наш MobileSAM в 7 раз меньше и в 4 раза быстрее, чем конкурирующая модель FastSAM, что делает его более подходящим для мобильных приложений. Код проекта MobileSAM доступен по адресу https://github.com/ChaoningZhang/MobileSAM.

H_2O: Оракул для выявления значимых элементов для эффективного генеративного вывода в крупных языковых моделях
H_2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

Jun 24, 2023

Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher Ré, Clark Barrett, Zhangyang Wang, Beidi Chen

121

Крупные языковые модели (LLM), несмотря на их недавние впечатляющие достижения, остаются крайне затратными для развертывания, особенно в приложениях, связанных с генерацией длинного контента, таких как диалоговые системы и написание рассказов. Часто большое количество временной информации, называемой кэшем ключей и значений (KV cache), хранится в памяти GPU вместе с параметрами модели, увеличиваясь линейно с длиной последовательности и размером пакета. В данной статье мы представляем новый подход к реализации KV cache, который значительно сокращает его объем памяти. Наш подход основан на важном наблюдении, что небольшая часть токенов вносит основной вклад при вычислении оценок внимания. Мы называем эти токены "тяжеловесами" (Heavy Hitters, H_2). В результате всестороннего исследования мы обнаружили, что (i) появление H_2 является естественным и сильно коррелирует с частым совместным появлением токенов в тексте, и (ii) их удаление приводит к значительному ухудшению производительности. На основе этих инсайтов мы предлагаем Heavy Hitter Oracle (H_2O) — стратегию вытеснения KV cache, которая динамически сохраняет баланс между недавними токенами и H_2. Мы формулируем вытеснение KV cache как динамическую субмодулярную задачу и доказываем (при умеренных допущениях) теоретическую гарантию для нашего нового алгоритма вытеснения, что может помочь в будущих исследованиях. Мы проверяем точность нашего алгоритма на моделях OPT, LLaMA и GPT-NeoX в широком спектре задач. Наша реализация H_2O с 20% "тяжеловесов" увеличивает пропускную способность по сравнению с тремя ведущими системами вывода — DeepSpeed Zero-Inference, Hugging Face Accelerate и FlexGen — до 29 раз, 29 раз и 3 раза на моделях OPT-6.7B и OPT-30B. При том же размере пакета H_2O может снизить задержку до 1.9 раз. Код доступен по адресу https://github.com/FMInference/H2O.

За пределами масштаба: коэффициент разнообразия как метрика качества данных Демонстрирует, что языковые модели обучаются на формально разнообразных данных
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

Jun 24, 2023

Alycia Lee, Brando Miranda, Sanmi Koyejo

111

Современные тенденции предварительного обучения мощных больших языковых моделей (LLM) в основном сосредоточены на масштабировании размеров моделей и наборов данных. Однако качество данных для предварительного обучения является важным фактором для создания эффективных LLM, но это расплывчатое понятие, которое до сих пор не было полностью охарактеризовано. Поэтому мы используем недавно предложенный коэффициент разнообразия Task2Vec, чтобы обосновать и понять формальные аспекты качества данных, выходящие за рамки простого масштабирования. В частности, мы измеряем коэффициент разнообразия общедоступных наборов данных для предварительного обучения, чтобы показать, что их формальное разнообразие велико по сравнению с теоретическими нижними и верхними границами. Кроме того, чтобы укрепить доверие к коэффициенту разнообразия, мы проводим эксперименты по интерпретируемости и обнаруживаем, что коэффициент согласуется с интуитивными свойствами разнообразия, например, он увеличивается с ростом числа латентных концепций. Мы заключаем, что коэффициент разнообразия является надежным, показываем его высокие значения для общедоступных наборов данных LLM и предполагаем, что его можно использовать для создания полезных разнообразных наборов данных для LLM.

Языковые модели являются слабыми обучаемыми системами.
Language models are weak learners

Jun 25, 2023

Hariharan Manikandan, Yiding Jiang, J Zico Kolter

100

Центральным понятием как в практическом, так и в теоретическом машинном обучении является слабый классификатор — модель, которая демонстрирует производительность лучше случайной (на любом заданном распределении данных), даже с небольшим отрывом. Такие слабые классификаторы лежат в основе канонических методов машинного обучения, таких как бустинг. В данной работе мы показываем, что крупные языковые модели (LLM), основанные на промптах, могут эффективно выступать в роли таких слабых классификаторов. В частности, мы демонстрируем использование LLM в качестве слабого классификатора в алгоритме бустинга, применяемом к табличным данным. Мы показываем, что, предоставляя (корректно сэмплированные в соответствии с интересующим распределением) текстовые описания образцов табличных данных, LLM могут генерировать сводку, которая служит шаблоном для классификации и достигает цели слабого классификатора в этой задаче. Мы интегрируем такие модели в подход бустинга, который в некоторых случаях может использовать знания, заложенные в LLM, чтобы превзойти традиционные методы бустинга на основе деревьев. Модель превосходит как обучение с малым количеством примеров (few-shot learning), так и, в некоторых случаях, даже более сложные процедуры тонкой настройки, особенно для задач с небольшим количеством данных. Результаты демонстрируют потенциал LLM, основанных на промптах, функционировать не только как самостоятельные модели для обучения с малым количеством примеров, но и как компоненты более крупных конвейеров машинного обучения.

Контролируемое предварительное обучение может освоить обучение с подкреплением в контексте.
Supervised Pretraining Can Learn In-Context Reinforcement Learning

Jun 26, 2023

Jonathan N. Lee, Annie Xie, Aldo Pacchiano, Yash Chandak, Chelsea Finn, Ofir Nachum, Emma Brunskill

Крупные трансформаторные модели, обученные на разнообразных наборах данных, продемонстрировали впечатляющую способность к обучению в контексте, достигая высокой производительности в условиях малого числа примеров на задачах, для которых они не были явно обучены. В данной работе мы исследуем способности трансформаторов к обучению в контексте в задачах принятия решений, а именно в обучении с подкреплением (RL) для задач бандитов и марковских процессов принятия решений. Для этого мы представляем и изучаем Decision-Pretrained Transformer (DPT) — метод предварительного обучения с учителем, в котором трансформатор предсказывает оптимальное действие для заданного состояния и набора данных взаимодействий в контексте, охватывающего разнообразные задачи. Этот подход, несмотря на свою простоту, создает модель с рядом удивительных возможностей. Мы обнаруживаем, что предварительно обученный трансформатор может использоваться для решения широкого спектра задач RL в контексте, демонстрируя как исследовательское поведение в онлайн-режиме, так и консерватизм в офлайн-режиме, несмотря на отсутствие явного обучения этим аспектам. Модель также обобщает свои знания за пределы распределения данных, использованных при предварительном обучении, на новые задачи и автоматически адаптирует свои стратегии принятия решений к неизвестной структуре. Теоретически мы показываем, что DPT можно рассматривать как эффективную реализацию байесовского сэмплирования апостериорного распределения — алгоритма RL с доказанной эффективностью по выборкам. Мы также используем эту связь для предоставления гарантий на сожаление (regret) алгоритма в контексте, полученного с помощью DPT, и доказываем, что он может обучаться быстрее, чем алгоритмы, использованные для генерации данных предварительного обучения. Эти результаты указывают на многообещающий, но простой путь к внедрению мощных способностей к принятию решений в контексте в трансформаторные модели.

Думать как аннотатор: создание инструкций для разметки наборов данных
Thinking Like an Annotator: Generation of Dataset Labeling Instructions

Jun 24, 2023

Nadine Chang, Francesco Ferroni, Michael J. Tarr, Martial Hebert, Deva Ramanan

Крупномасштабные наборы данных играют ключевую роль в современных методах глубокого обучения. Сторонники утверждают, что для понимания этих методов необходима прозрачность данных (например, "процесс курирования, мотивация, состав, сбор данных и т.д."). Однако почти никто не предлагал публиковать подробные определения и визуальные примеры категорий, предоставленные аннотаторам, — информацию, критически важную для понимания структуры аннотаций в каждом наборе данных. Эти метки лежат в основе публичных наборов данных, но лишь немногие из них включают инструкции, использованные для их создания. Мы представляем новую задачу — Генерацию Инструкций по Аннотации, — чтобы восполнить отсутствие публично доступных инструкций по аннотации. В рамках этой задачи мы берем достаточно аннотированный набор данных и: 1) генерируем набор визуально репрезентативных примеров для каждой категории в наборе данных; 2) предоставляем текстовую метку, соответствующую каждому из примеров. Мы представляем фреймворк, который не требует обучения модели для решения этой задачи и включает в себя новую систему быстрого поиска, использующую крупную предобученную модель для работы с изображениями и текстом. Этот фреймворк выступает в качестве замены человеческих аннотаторов, помогая как сгенерировать окончательный набор инструкций по аннотации, так и оценить его качество. Наш фреймворк создает множество разнообразных визуальных и текстовых представлений категорий набора данных. Оптимизированный набор инструкций превосходит наш самый сильный базовый подход на 7.06 mAP для NuImages и на 12.9 mAP для COCO.

ViNT: Базисная модель для визуальной навигации
ViNT: A Foundation Model for Visual Navigation

Jun 26, 2023

Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine

Универсальные предобученные модели («фундаментальные модели») позволили специалистам создавать обобщаемые решения для отдельных задач машинного обучения с использованием наборов данных, значительно меньших по объему, чем те, которые требуются для обучения с нуля. Такие модели обычно обучаются на больших и разнообразных наборах данных со слабым контролем, потребляя гораздо больше обучающих данных, чем доступно для любого отдельного приложения. В данной статье мы описываем Visual Navigation Transformer (ViNT) — фундаментальную модель, которая стремится перенести успех универсальных предобученных моделей в область визуальной навигации роботов. ViNT обучается с использованием общей задачи достижения цели, которая может быть применена к любым наборам данных для навигации, и использует гибкую архитектуру на основе Transformer для изучения навигационных возможностей и эффективной адаптации к различным задачам навигации. ViNT обучается на нескольких существующих наборах данных для навигации, включающих сотни часов роботизированной навигации с использованием различных платформ, и демонстрирует положительный перенос знаний, превосходя специализированные модели, обученные на отдельных наборах данных. ViNT может быть дополнен предложениями подцелей на основе диффузионных моделей для исследования новых сред и способен решать задачи навигации на километровом масштабе при наличии долгосрочных эвристик. ViNT также может быть адаптирован к новым спецификациям задач с использованием техники, вдохновленной prompt-tuning, где кодировщик цели заменяется кодированием другой модальности задачи (например, GPS-точек маршрута или команд маршрутизации), встроенным в то же пространство токенов целей. Эта гибкость и способность адаптироваться к различным областям задач делают ViNT эффективной фундаментальной моделью для мобильной робототехники. Видео, код и контрольные точки модели доступны на странице проекта: https://visualnav-transformer.github.io.

Согласование крупной мультимодальной модели с надежной настройкой на инструкции
Aligning Large Multi-Modal Model with Robust Instruction Tuning

Jun 26, 2023

Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang

Несмотря на значительный прогресс в многомодальных задачах, современные крупные многомодальные модели (LMM) склонны к генерации противоречивых описаний, не соответствующих связанным изображениям и инструкциям человека. В данной статье мы решаем эту проблему, представляя первый крупный и разнообразный набор данных для настройки визуальных инструкций, названный Large-scale Robust Visual (LRV)-Instruction. Наш набор данных состоит из 120 тысяч визуальных инструкций, сгенерированных GPT4, охватывающих 16 задач, связанных с обработкой изображений и текста, с открытыми инструкциями и ответами. В отличие от существующих исследований, которые в основном сосредоточены на положительных примерах инструкций, мы разработали LRV-Instruction, чтобы включить как положительные, так и отрицательные инструкции для более устойчивой настройки визуальных инструкций. Наши отрицательные инструкции разработаны на двух семантических уровнях: (i) Манипуляция с несуществующими элементами и (ii) Манипуляция с существующими элементами. Для эффективной оценки галлюцинаций, генерируемых LMM, мы предлагаем GPT4-Assisted Visual Instruction Evaluation (GAVIE), новый подход к оценке настройки визуальных инструкций, который не требует аннотированных человеком эталонных ответов и может адаптироваться к различным форматам инструкций. Мы проводим всесторонние эксперименты для изучения галлюцинаций в LMM. Наши результаты показывают, что существующие LMM демонстрируют значительные галлюцинации при обработке наших отрицательных инструкций, особенно в случае инструкций с манипуляцией существующими элементами. Более того, путем дообучения MiniGPT4 на LRV-Instruction мы успешно снижаем уровень галлюцинаций, одновременно улучшая производительность на публичных наборах данных, используя меньше обучающих данных по сравнению с современными методами. Кроме того, мы наблюдаем, что сбалансированное соотношение положительных и отрицательных примеров в обучающих данных приводит к созданию более устойчивой модели. Ссылка на наш проект доступна по адресу https://fuxiaoliu.github.io/LRV/.

RoboCook: Манипуляция эластопластичными объектами на длительных временных горизонтах с использованием разнообразных инструментов
RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools

Jun 26, 2023

Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu

Люди преуспевают в сложных задачах манипуляции с мягкими объектами на длительных временных горизонтах благодаря гибкому использованию инструментов: например, выпечка хлеба требует ножа для нарезки теста и скалки для его раскатывания. Использование инструментов, часто рассматриваемое как отличительная черта человеческого познания, остается ограниченным в автономных роботах из-за сложностей в понимании взаимодействий между инструментами и объектами. В данной работе мы разрабатываем интеллектуальную роботизированную систему RoboCook, которая воспринимает, моделирует и манипулирует упруго-пластичными объектами с использованием различных инструментов. RoboCook использует представления сцен в виде облаков точек, моделирует взаимодействия инструментов с объектами с помощью графовых нейронных сетей (GNN) и сочетает классификацию инструментов с самообучаемым обучением стратегий для разработки планов манипуляции. Мы демонстрируем, что всего за 20 минут данных о реальных взаимодействиях на один инструмент, универсальный роботизированный манипулятор может научиться выполнять сложные задачи манипуляции с мягкими объектами на длительных временных горизонтах, такие как приготовление пельменей и печенья в форме букв алфавита. Обширные оценки показывают, что RoboCook значительно превосходит современные подходы, демонстрирует устойчивость к серьезным внешним воздействиям и адаптивность к различным материалам.

DomainStudio: Тонкая настройка диффузионных моделей для генерации изображений, ориентированных на конкретную область, с использованием ограниченных данных
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data

Jun 25, 2023

Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan

Деноизирующие диффузионные вероятностные модели (DDPM) доказали свою способность синтезировать высококачественные изображения с замечательным разнообразием при обучении на больших объемах данных. Однако типичные диффузионные модели и современные крупномасштабные условные генеративные модели, такие как текстово-изобразительные генеративные модели, подвержены переобучению при тонкой настройке на крайне ограниченных данных. Существующие работы исследовали генерацию, управляемую объектами, с использованием референсного набора, содержащего несколько изображений. Однако лишь немногие из них изучали генерацию, управляемую доменом, на основе DDPM, которая направлена на изучение общих характеристик целевых доменов при сохранении разнообразия. В данной статье предлагается новый подход DomainStudio для адаптации DDPM, предварительно обученных на крупномасштабных исходных наборах данных, к целевым доменам с использованием ограниченных данных. Он разработан для сохранения разнообразия объектов, предоставляемых исходными доменами, и получения высококачественных и разнообразных адаптированных образцов в целевых доменах. Мы предлагаем сохранять относительные расстояния между адаптированными образцами для достижения значительного разнообразия генерации. Кроме того, мы дополнительно улучшаем изучение высокочастотных деталей для повышения качества генерации. Наш подход совместим как с безусловными, так и с условными диффузионными моделями. Данная работа представляет собой первую попытку реализации безусловной генерации изображений с малым количеством данных с использованием диффузионных моделей, достигая лучшего качества и большего разнообразия, чем современные подходы на основе GAN. Более того, эта работа также значительно снижает переобучение для условной генерации и реализует высококачественную генерацию, управляемую доменом, что расширяет применимость современных крупномасштабных текстово-изобразительных моделей.

Нулевой сценарий пространственного расположения для диффузионных моделей генерации изображений по тексту
Zero-shot spatial layout conditioning for text-to-image diffusion models

Jun 23, 2023

Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek

Крупномасштабные диффузионные модели для генерации изображений из текста значительно улучшили современное состояние в области генеративного моделирования изображений и предоставляют интуитивно понятный и мощный интерфейс для управления процессом создания изображений. Однако выражение пространственных ограничений, например, для размещения конкретных объектов в определённых местах, с помощью текста является сложной задачей, и текущие модели генерации изображений на основе текста не способны точно следовать таким инструкциям. В данной работе мы рассматриваем генерацию изображений из текста, связанного с сегментами на холсте изображения, что сочетает интуитивный интерфейс на естественном языке с точным пространственным контролем над создаваемым контентом. Мы предлагаем ZestGuide — подход с нулевым обучением для сегментационного управления, который может быть интегрирован в предварительно обученные диффузионные модели для генерации изображений из текста и не требует дополнительного обучения. Этот метод использует неявные карты сегментации, которые могут быть извлечены из кросс-внимательных слоёв, и применяет их для согласования генерации с входными масками. Наши экспериментальные результаты сочетают высокое качество изображений с точным соответствием созданного контента входным сегментациям и превосходят предыдущие работы как количественно, так и качественно, включая методы, требующие обучения на изображениях с соответствующими сегментациями. По сравнению с Paint with Words, предыдущим передовым методом генерации изображений с условием сегментации без обучения, мы улучшаем результаты на 5–10 пунктов mIoU на наборе данных COCO при схожих значениях FID.

Перезапуск выборки для улучшения генеративных процессов
Restart Sampling for Improving Generative Processes

Jun 26, 2023

Yilun Xu, Mingyang Deng, Xiang Cheng, Yonglong Tian, Ziming Liu, Tommi Jaakkola

Генеративные процессы, связанные с решением дифференциальных уравнений, такие как диффузионные модели, часто требуют баланса между скоростью и качеством. Сэмплеры на основе обыкновенных дифференциальных уравнений (ODE) работают быстро, но их производительность достигает плато, тогда как сэмплеры на основе стохастических дифференциальных уравнений (SDE) обеспечивают более высокое качество выборки за счет увеличения времени сэмплирования. Мы связываем это различие с ошибками сэмплирования: сэмплеры ODE имеют меньшие ошибки дискретизации, в то время как стохастичность в SDE сокращает накопленные ошибки. На основе этих выводов мы предлагаем новый алгоритм сэмплирования под названием Restart, чтобы лучше сбалансировать ошибки дискретизации и сокращение. Этот метод сэмплирования чередует добавление значительного шума на дополнительных шагах вперед и строгое следование обратному ODE. Эмпирически сэмплер Restart превосходит предыдущие сэмплеры SDE и ODE как по скорости, так и по точности. Restart не только превосходит предыдущие лучшие результаты SDE, но и ускоряет процесс сэмплирования в 10 раз / 2 раза на наборах данных CIFAR-10 / ImageNet 64x64. Кроме того, он достигает значительно лучшего качества выборки, чем сэмплеры ODE, при сопоставимом времени сэмплирования. Более того, Restart лучше балансирует между согласованностью текста и изображения/визуальным качеством и разнообразием, чем предыдущие сэмплеры в крупномасштабной модели текста в изображение Stable Diffusion, предварительно обученной на LAION 512x512. Код доступен по адресу https://github.com/Newbeeer/diffusion_restart_sampling.

Swin-Free: Повышение эффективности внимания между окнами и производительности с использованием окон переменного размера
Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

Jun 23, 2023

Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park

Трансформерные модели продемонстрировали значительный потенциал в области компьютерного зрения, вслед за их успехами в задачах обработки естественного языка. Swin Transformer является одной из таких моделей, превосходящей сверточные архитектуры по точности и улучшающей эффективность по сравнению с Vision Transformer (ViT) и его вариантами, которые имеют квадратичную сложность относительно размера входных данных. Swin Transformer использует сдвигающиеся окна, что позволяет устанавливать связи между окнами, ограничивая при этом вычисления self-attention непересекающимися локальными окнами. Однако сдвигающиеся окна вводят операции копирования памяти, которые составляют значительную часть времени выполнения. Чтобы смягчить эту проблему, мы предлагаем Swin-Free, в котором вместо сдвигающихся окон применяются окна переменного размера на разных этапах для достижения связей между локальными окнами. Благодаря этому простому изменению конструкции, Swin-Free работает быстрее, чем Swin Transformer, при выводе с более высокой точностью. Кроме того, мы также предлагаем несколько вариантов Swin-Free, которые работают быстрее, чем их аналоги на основе Swin Transformer.

RVT: Трансформер роботизированного зрения для манипуляции 3D-объектами
RVT: Robotic View Transformer for 3D Object Manipulation

Jun 26, 2023

Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox

Для манипуляции с 3D-объектами методы, которые строят явное 3D-представление, работают лучше, чем те, которые полагаются только на изображения с камер. Однако использование явных 3D-представлений, таких как воксели, связано с высокими вычислительными затратами, что негативно сказывается на масштабируемости. В данной работе мы предлагаем RVT, многовидовой трансформер для 3D-манипуляции, который является одновременно масштабируемым и точным. Ключевыми особенностями RVT являются механизм внимания для агрегирования информации между видами и повторное рендеринг входных данных с камеры с виртуальных видов вокруг рабочей области робота. В симуляциях мы обнаружили, что одна модель RVT хорошо работает на 18 задачах RLBench с 249 вариациями задач, достигая на 26% более высокого относительного успеха, чем существующий передовой метод (PerAct). Она также обучается в 36 раз быстрее, чем PerAct, для достижения той же производительности, и обеспечивает скорость вывода в 2,3 раза выше, чем у PerAct. Кроме того, RVT может выполнять различные задачи манипуляции в реальном мире всего с несколькими (sim10) демонстрациями на задачу. Визуальные результаты, код и обученная модель доступны по адресу https://robotic-view-transformer.github.io/.

SEEDS: Эмуляция ансамблей прогноза погоды с использованием диффузионных моделей
SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models

Jun 24, 2023

Lizao Li, Rob Carver, Ignacio Lopez-Gomez, Fei Sha, John Anderson

Вероятностное прогнозирование играет ключевую роль в принятии решений в условиях неопределенности относительно будущей погоды. Основной подход заключается в использовании ансамбля прогнозов для представления и количественной оценки неопределенности в оперативном численном прогнозировании погоды. Однако генерация ансамблей требует значительных вычислительных ресурсов. В данной статье мы предлагаем масштабируемую генерацию ансамблевых прогнозов, используя последние достижения в области генеративного искусственного интеллекта. Наш подход заключается в обучении вероятностной диффузионной модели на основе данных из 5-членного ансамбля GEFS репрогнозов. Затем модель может эффективно использоваться для генерации реалистичных прогнозов погоды, учитывая несколько членов оперативного ансамбля GEFS. Сгенерированные ансамбли демонстрируют схожую прогностическую способность с полным 31-членным ансамблем GEFS при оценке по данным реанализа ERA5 и хорошо воспроизводят статистику крупных физически обоснованных ансамблей. Мы также применяем ту же методологию для разработки диффузионной модели генеративной постобработки: модель напрямую обучается корректировать систематические ошибки, присутствующие в эмулированной системе прогнозирования, используя данные реанализа в качестве меток во время обучения. Ансамбли, полученные с помощью этой модели генеративной постобработки, демонстрируют более высокую надежность и точность, особенно в классификации экстремальных событий. В целом, они более надежны и точнее прогнозируют вероятность экстремальных погодных явлений по сравнению с оперативным ансамблем GEFS. Наши модели достигают этих результатов при менее чем 1/10 вычислительных затрат, требуемых оперативной системой GEFS.

Ежедневные статьи

Kosmos-2: Привязка мультимодальных больших языковых моделей к реальному миру
Kosmos-2: Grounding Multimodal Large Language Models to the World

MotionGPT: Движение человека как иностранный язык
MotionGPT: Human Motion as a Foreign Language

DragDiffusion: Использование моделей диффузии для интерактивного редактирования изображений на основе точек
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

Быстрее Segment Anything: В сторону облегченной SAM для мобильных приложений
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications

H_2O: Оракул для выявления значимых элементов для эффективного генеративного вывода в крупных языковых моделях
H_2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

Языковые модели являются слабыми обучаемыми системами.
Language models are weak learners

Контролируемое предварительное обучение может освоить обучение с подкреплением в контексте.
Supervised Pretraining Can Learn In-Context Reinforcement Learning

Думать как аннотатор: создание инструкций для разметки наборов данных
Thinking Like an Annotator: Generation of Dataset Labeling Instructions

ViNT: Базисная модель для визуальной навигации
ViNT: A Foundation Model for Visual Navigation

Согласование крупной мультимодальной модели с надежной настройкой на инструкции
Aligning Large Multi-Modal Model with Robust Instruction Tuning

Нулевой сценарий пространственного расположения для диффузионных моделей генерации изображений по тексту
Zero-shot spatial layout conditioning for text-to-image diffusion models

Перезапуск выборки для улучшения генеративных процессов
Restart Sampling for Improving Generative Processes

RVT: Трансформер роботизированного зрения для манипуляции 3D-объектами
RVT: Robotic View Transformer for 3D Object Manipulation

SEEDS: Эмуляция ансамблей прогноза погоды с использованием диффузионных моделей
SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models

Support

Support

Ежедневные статьи

Kosmos-2: Привязка мультимодальных больших языковых моделей к реальному миру
Kosmos-2: Grounding Multimodal Large Language Models to the World

MotionGPT: Движение человека как иностранный язык
MotionGPT: Human Motion as a Foreign Language

DragDiffusion: Использование моделей диффузии для интерактивного редактирования изображений на основе точек
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

Быстрее Segment Anything: В сторону облегченной SAM для мобильных приложений
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications

H_2O: Оракул для выявления значимых элементов для эффективного генеративного вывода в крупных языковых моделях
H_2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models

Языковые модели являются слабыми обучаемыми системами.
Language models are weak learners

Контролируемое предварительное обучение может освоить обучение с подкреплением в контексте.
Supervised Pretraining Can Learn In-Context Reinforcement Learning

Думать как аннотатор: создание инструкций для разметки наборов данных
Thinking Like an Annotator: Generation of Dataset Labeling Instructions

ViNT: Базисная модель для визуальной навигации
ViNT: A Foundation Model for Visual Navigation

Согласование крупной мультимодальной модели с надежной настройкой на инструкции
Aligning Large Multi-Modal Model with Robust Instruction Tuning

Нулевой сценарий пространственного расположения для диффузионных моделей генерации изображений по тексту
Zero-shot spatial layout conditioning for text-to-image diffusion models

Перезапуск выборки для улучшения генеративных процессов
Restart Sampling for Improving Generative Processes

RVT: Трансформер роботизированного зрения для манипуляции 3D-объектами
RVT: Robotic View Transformer for 3D Object Manipulation

SEEDS: Эмуляция ансамблей прогноза погоды с использованием диффузионных моделей
SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models