HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

17 papers found

Технический отчет Kandinsky 3.0
Kandinsky 3.0 Technical Report

Dec 6

ByVladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov

Мы представляем Kandinsky 3.0 — крупномасштабную модель генерации изображений из текста, основанную на латентной диффузии, продолжающую серию моделей Kandinsky для преобразования текста в изображения и отражающую наш прогресс в достижении более высокого качества и реалистичности генерации изображений. По сравнению с предыдущими версиями Kandinsky 2.x, Kandinsky 3.0 использует U-Net архитектуру, увеличенную в два раза, текстовый энкодер, увеличенный в десять раз, и исключает этап диффузионного маппинга. Мы описываем архитектуру модели, процедуру сбора данных, методику обучения и систему взаимодействия с пользователем. Основное внимание уделено ключевым компонентам, которые, как мы выяснили в результате многочисленных экспериментов, оказали наиболее значительное влияние на улучшение качества нашей модели по сравнению с другими. Наши сравнительные тесты показывают, что Kandinsky лучше понимает текст и эффективнее работает в специфических областях. Страница проекта: https://ai-forever.github.io/Kandinsky-3

Мосты Шрёдингера превосходят диффузионные модели в синтезе речи из текста.
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis

Dec 6

ByZehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu

В синтезе речи из текста (Text-to-Speech, TTS) диффузионные модели достигли впечатляющего качества генерации. Однако из-за предопределенного процесса диффузии от данных к шуму их априорное распределение ограничено зашумленным представлением, которое предоставляет мало информации о цели генерации. В данной работе мы представляем новую систему TTS, Bridge-TTS, впервые заменяющую зашумленное гауссово априорное распределение в существующих диффузионных методах TTS на чистое и детерминированное, которое предоставляет сильную структурную информацию о цели. В частности, мы используем латентное представление, полученное из текстового ввода, в качестве априорного распределения и строим полностью трактуемый мост Шрёдингера между ним и мель-спектрограммой, что приводит к процессу "данные-данные". Более того, трактуемость и гибкость нашей формулировки позволяют эмпирически исследовать пространства проектирования, такие как графики шума, а также разрабатывать стохастические и детерминированные сэмплеры. Экспериментальные результаты на наборе данных LJ-Speech демонстрируют эффективность нашего метода как с точки зрения качества синтеза, так и эффективности сэмплирования, значительно превосходя наш диффузионный аналог Grad-TTS в синтезе за 50/1000 шагов и сильные модели быстрого TTS в сценариях с малым количеством шагов. Страница проекта: https://bridge-tts.github.io/

Alpha-CLIP: Модель CLIP, Сосредоточенная на Том, Что Вам Нужно
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Dec 6

ByZeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

Контрастное предобучение для языка и изображений (CLIP) играет ключевую роль в извлечении ценной информации из изображений для решения разнообразных задач. Оно согласует текстовые и визуальные модальности, чтобы охватить всё изображение целиком, включая все детали, даже те, которые не имеют отношения к конкретным задачам. Однако для более глубокого понимания и контролируемого редактирования изображений становится важным сосредоточиться на определённых областях интереса, которые могут быть обозначены точками, масками или рамками, заданными человеком или моделями восприятия. Для удовлетворения этих требований мы представляем Alpha-CLIP — улучшенную версию CLIP с дополнительным альфа-каналом, указывающим на внимательные области, и дообученную на миллионах созданных пар RGBA-регионов и текстов. Alpha-CLIP не только сохраняет способность CLIP к визуальному распознаванию, но и обеспечивает точный контроль над акцентированием содержимого изображений. Она демонстрирует эффективность в различных задачах, включая, но не ограничиваясь, распознаванием в открытом мире, мультимодальными большими языковыми моделями и условной 2D/3D генерацией. Alpha-CLIP обладает большим потенциалом для использования в качестве универсального инструмента для задач, связанных с изображениями.

Цепочка кода: Рассуждения с использованием языковой модели, дополненной эмулятором кода
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Dec 7

ByChengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter

Код предоставляет общую синтаксическую структуру для создания сложных программ и выполнения точных вычислений в сочетании с интерпретатором кода — мы предполагаем, что языковые модели (LMs) могут использовать написание кода для улучшения рассуждений в стиле "Цепочки Мысли" (Chain of Thought) не только для логических и арифметических задач, но и для лингвистических (и особенно для тех, которые представляют собой смесь обоих типов). Например, рассмотрим задачу, в которой LM предлагается написать код, подсчитывающий количество случаев сарказма в эссе: LM может столкнуться с трудностями при написании реализации функции "detect_sarcasm(string)", которая могла бы быть выполнена интерпретатором (обработка крайних случаев может оказаться непреодолимой). Однако LM всё же может предложить корректное решение, если использовать её не только для написания кода, но и для выборочной "эмуляции" интерпретатора, генерируя ожидаемый результат функции "detect_sarcasm(string)" и других строк кода (например, тех, которые интерпретатор не смог бы скомпилировать). В данной работе мы предлагаем "Цепочку Кода" (Chain of Code, CoT) — простое, но удивительно эффективное расширение, улучшающее рассуждения LM, основанные на коде. Основная идея заключается в том, чтобы побудить LM форматировать лингвистические подзадачи в программе в виде гибкого псевдокода, который компилятор может явно обрабатывать для выявления неопределённых поведений и передавать их на симуляцию с помощью LM (в качестве "LMулятора"). Эксперименты показывают, что "Цепочка Кода" превосходит "Цепочку Мысли" и другие базовые подходы на различных тестах; на BIG-Bench Hard "Цепочка Кода" достигает 84%, что на 12% выше, чем у "Цепочки Мысли". CoT хорошо масштабируется как для больших, так и для маленьких моделей и расширяет круг задач на рассуждение, которые LM могут корректно решать, "думая в коде". Веб-страница проекта: https://chain-of-code.github.io/.

Гауссовский аватар головы: Сверхвысококачественный аватар головы с использованием динамических гауссовых распределений
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

Dec 5

ByYuelang Xu, Benwang Chen, Zhe Li, Hongwen Zhang, Lizhen Wang, Zerong Zheng, Yebin Liu

Создание высококачественных 3D-аватаров головы всегда было важной областью исследований, однако остается серьезной проблемой в условиях ограниченного количества снимков. В данной работе мы предлагаем подход Gaussian Head Avatar, основанный на управляемых 3D-гауссоидах для моделирования высококачественных аватаров головы. Мы оптимизируем нейтральные 3D-гауссоиды и полностью обучаемое поле деформаций на основе MLP для захвата сложных выражений лица. Эти два компонента взаимно дополняют друг друга, что позволяет нашему методу моделировать тонкие динамические детали, обеспечивая при этом точность передачи выражений. Кроме того, мы разработали стратегию инициализации, основанную на геометрии и использующую неявные SDF и Deep Marching Tetrahedra, для повышения стабильности и сходимости процесса обучения. Эксперименты показывают, что наш подход превосходит другие современные методы, работающие с ограниченным количеством снимков, обеспечивая сверхвысокое качество рендеринга с разрешением 2K даже при экстремальных выражениях лица.

MotionCtrl: Унифицированный и гибкий контроллер движения для генерации видео
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

Dec 6

ByZhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, Ying Shan

Движения в видео в основном состоят из движения камеры, вызванного перемещением самой камеры, и движения объектов, возникающего из-за их перемещения. Точный контроль как движения камеры, так и движения объектов является важным для генерации видео. Однако существующие работы либо сосредоточены преимущественно на одном типе движения, либо не проводят четкого разграничения между ними, что ограничивает их возможности управления и разнообразие. В связи с этим, в данной статье представлен MotionCtrl — унифицированный и гибкий контроллер движения для генерации видео, разработанный для эффективного и независимого управления движением камеры и объектов. Архитектура и стратегия обучения MotionCtrl тщательно продуманы с учетом inherent свойств движения камеры, движения объектов и неидеальных обучающих данных. По сравнению с предыдущими методами, MotionCtrl предлагает три основных преимущества: 1) Он эффективно и независимо управляет движением камеры и объектов, обеспечивая более детализированный контроль движения и способствуя гибким и разнообразным комбинациям обоих типов движения. 2) Его условия движения определяются позами и траекториями камеры, которые не зависят от внешнего вида и минимально влияют на внешний вид или форму объектов в генерируемых видео. 3) Это относительно универсальная модель, которая может адаптироваться к широкому спектру поз и траекторий камеры после обучения. Проведены обширные качественные и количественные эксперименты, демонстрирующие превосходство MotionCtrl над существующими методами.

За пределами поверхности: исследование LLaMA на разных масштабах и слоях
Beyond Surface: Probing LLaMA Across Scales and Layers

Dec 7

ByNuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li

В данной статье представлен углубленный анализ крупных языковых моделей (LLMs), с акцентом на LLaMA — известную открытую базовую модель в области обработки естественного языка. Вместо оценки LLaMA через её генеративные способности мы разработали задачи с множественным выбором, чтобы исследовать её внутреннее понимание в сложных задачах, таких как логическое рассуждение и вычисления. Мы анализируем модель как горизонтально, сравнивая различные размеры, так и вертикально, оценивая различные слои. На основе разработанных задач мы выявили несколько ключевых и необычных результатов: (1) Горизонтально, увеличение размеров модели почти не приводит к автоматическому приобретению дополнительных знаний или вычислительных способностей. Однако оно может улучшить способности к рассуждению, особенно в решении математических задач, и помогает снизить количество галлюцинаций, но только после достижения определённых пороговых размеров; (2) В вертикальном анализе нижние слои LLaMA демонстрируют недостаток арифметических и фактических знаний, проявляя логическое мышление, многоязычные и распознавательные способности, тогда как верхние слои содержат большую часть вычислительной мощности и знаний о реальном мире.

HiFi4G: Высококачественная визуализация человеческой производительности с использованием компактного гауссовского сплайнинга
HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian Splatting

Dec 6

ByYuheng Jiang, Zhehao Shen, Penghao Wang, Zhuo Su, Yu Hong, Yingliang Zhang, Jingyi Yu, Lan Xu

В последнее время мы наблюдаем значительный прогресс в области фотореалистичного моделирования и рендеринга человека. Однако эффективное воспроизведение реалистичных человеческих движений и их интеграция в конвейер растеризации остаются сложными задачами. В данной статье мы представляем HiFi4G — явный и компактный подход на основе гауссовых распределений для высококачественного рендеринга человеческих движений по плотным видеоданным. Основная идея заключается в объединении 3D-гауссового представления с нежестким трекингом, что позволяет получить компактное и удобное для сжатия представление. Сначала мы предлагаем механизм двойного графа для получения априорных данных о движении: грубый граф деформаций для эффективной инициализации и детализированный гауссов граф для наложения последующих ограничений. Затем мы используем схему оптимизации 4D-гауссовых распределений с адаптивными пространственно-временными регуляризаторами, чтобы эффективно сбалансировать априорные данные о нежестких деформациях и обновление гауссовых параметров. Мы также представляем сопутствующую схему сжатия с компенсацией остатков для обеспечения иммерсивного опыта на различных платформах. Этот подход достигает значительной степени сжатия — примерно в 25 раз, с использованием менее 2 МБ памяти на кадр. Многочисленные эксперименты демонстрируют эффективность нашего подхода, который значительно превосходит существующие методы по скорости оптимизации, качеству рендеринга и затратам на хранение данных.

Контекстная диффузия: генерация изображений с учетом контекста
Context Diffusion: In-Context Aware Image Generation

Dec 6

ByIvona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic

Мы представляем Context Diffusion — основанную на диффузии архитектуру, которая позволяет моделям генерации изображений обучаться на визуальных примерах, представленных в контексте. В последних работах рассматривается подобное обучение в контексте для генерации изображений, где запрашиваемое изображение предоставляется вместе с контекстными примерами и текстовыми подсказками. Однако качество и точность генерируемых изображений ухудшаются, когда подсказка отсутствует, что свидетельствует о неспособности таких моделей действительно обучаться на основе визуального контекста. Чтобы решить эту проблему, мы предлагаем новую архитектуру, которая разделяет кодирование визуального контекста и сохранение структуры запрашиваемых изображений. Это позволяет модели обучаться как на визуальном контексте и текстовых подсказках, так и на каждом из них по отдельности. Кроме того, наша модель способна эффективно работать в условиях ограниченного количества примеров, что позволяет решать разнообразные сценарии обучения в контексте. Наши эксперименты и пользовательское исследование показывают, что Context Diffusion превосходит аналогичные модели как в рамках одной предметной области, так и за её пределами, что приводит к общему улучшению качества и точности генерируемых изображений.

Крупные языковые модели для математиков
Large Language Models for Mathematicians

Dec 7

BySimon Frieder, Julius Berner, Philipp Petersen, Thomas Lukasiewicz

Крупные языковые модели (LLM), такие как ChatGPT, вызвали огромный интерес благодаря своей способности к универсальному пониманию языка и, в частности, генерации высококачественного текста или компьютерного кода. Для многих профессий LLM представляют собой неоценимый инструмент, который может ускорить и улучшить качество работы. В этой заметке мы обсуждаем, в какой степени они могут помочь профессиональным математикам. Сначала мы даем математическое описание трансформерной модели, используемой во всех современных языковых моделях. Основываясь на последних исследованиях, мы затем описываем лучшие практики и потенциальные проблемы, а также сообщаем о математических способностях языковых моделей. Наконец, мы рассматриваем потенциал LLM для изменения того, как работают математики.

MagicStick: Управляемое редактирование видео с помощью контрольных элементов трансформации
MagicStick: Controllable Video Editing via Control Handle Transformations

Dec 5

ByYue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen

Редактирование видео на основе текста в последнее время привлекает значительный интерес в изменении стиля или замене объектов со схожей структурой. Помимо этого, мы демонстрируем, что такие свойства, как форма, размер, местоположение, движение и т.д., также могут быть отредактированы в видео. Наше ключевое наблюдение заключается в том, что преобразования ключевых кадров для конкретных внутренних признаков (например, карт границ объектов или позы человека) могут легко распространяться на другие кадры, предоставляя руководство для генерации. Таким образом, мы предлагаем MagicStick, управляемый метод редактирования видео, который изменяет свойства видео, используя преобразования извлеченных внутренних управляющих сигналов. В частности, для сохранения внешнего вида мы расширяем как предварительно обученную модель диффузии изображений, так и ControlNet до временного измерения и обучаем слои низкоранговой адаптации (LORA) для подгонки под конкретные сцены. Затем, в процессе редактирования, мы применяем фреймворк инверсии и редактирования. В отличие от других подходов, доработанный ControlNet используется как в инверсии, так и в генерации для управления вниманием с предложенным смешиванием внимания между пространственными картами внимания инверсии и редактирования. Несмотря на простоту, наш метод является первым, который демонстрирует возможность редактирования свойств видео на основе предварительно обученной текстово-изобразительной модели. Мы представляем эксперименты на множестве примеров в рамках нашего унифицированного фреймворка. Мы также сравниваем с редактированием на основе текста с учетом формы и генерацией видео с ручной проработкой движения, демонстрируя превосходство нашей временной согласованности и возможностей редактирования по сравнению с предыдущими работами. Код и модели будут опубликованы в открытом доступе.

Генерация изображений с самокондиционированием через создание представлений
Self-conditioned Image Generation via Generating Representations

Dec 6

ByTianhong Li, Dina Katabi, Kaiming He

В данной статье представлен метод генерации изображений, основанный на условных представлениях (Representation-Conditioned image Generation, RCG), — простая, но эффективная структура, устанавливающая новый стандарт в области безусловной генерации изображений. RCG не использует аннотации, созданные человеком. Вместо этого он основывается на распределении самоконтролируемых представлений, которое отображается из распределения изображений с помощью предварительно обученного кодировщика. В процессе генерации RCG выбирает образцы из этого распределения представлений с использованием модели диффузии представлений (Representation Diffusion Model, RDM) и применяет генератор пикселей для создания изображений, обусловленных выбранными представлениями. Такая конструкция обеспечивает значительное руководство в процессе генерации, что приводит к созданию изображений высокого качества. Протестированный на наборе данных ImageNet 256×256, RCG достигает показателя Frechet Inception Distance (FID) 3.31 и Inception Score (IS) 253.4. Эти результаты не только существенно улучшают современные достижения в области безусловной генерации изображений, но также конкурируют с ведущими методами в условной генерации изображений, сокращая давний разрыв в производительности между этими двумя задачами. Код доступен по адресу https://github.com/LTH14/rcg.

DreamComposer: Управляемая генерация 3D-объектов с использованием многовидовых условий
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

Dec 6

ByYunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu

Используя предобученные двумерные генеративные модели большого масштаба, последние работы способны генерировать высококачественные новые виды из одного изображения, сделанного в естественных условиях. Однако из-за отсутствия информации с нескольких ракурсов эти методы сталкиваются с трудностями в создании управляемых новых видов. В данной статье мы представляем DreamComposer — гибкую и масштабируемую структуру, которая может улучшить существующие диффузионные модели, учитывающие ракурс, путем внедрения условий с нескольких видов. В частности, DreamComposer сначала использует модуль трехмерного преобразования, учитывающий ракурс, для получения трехмерных представлений объекта с нескольких видов. Затем он визуализирует скрытые признаки целевого вида из трехмерных представлений с помощью модуля слияния признаков с нескольких видов. Наконец, признаки целевого вида, извлеченные из входных данных с нескольких ракурсов, внедряются в предобученную диффузионную модель. Эксперименты показывают, что DreamComposer совместим с современными диффузионными моделями для синтеза новых видов в режиме zero-shot, дополнительно улучшая их способность генерировать высококачественные изображения новых видов с условиями с нескольких ракурсов, что делает их готовыми для управляемой реконструкции трехмерных объектов и других приложений.

Создание иллюстрированных инструкций
Generating Illustrated Instructions

Dec 7

BySachit Menon, Ishan Misra, Rohit Girdhar

Мы представляем новую задачу генерации иллюстрированных инструкций, то есть визуальных руководств, адаптированных под потребности пользователя. Мы выделяем уникальные требования для этой задачи и формализуем её с помощью набора автоматических и человеческих метрик оценки, предназначенных для измерения валидности, согласованности и эффективности генерируемых результатов. Мы объединяем возможности крупных языковых моделей (LLM) с мощными моделями генерации изображений на основе диффузии, чтобы предложить простой подход под названием StackedDiffusion, который генерирует такие иллюстрированные инструкции на основе текстового ввода. Полученная модель значительно превосходит базовые подходы и современные мультимодальные LLM; в 30% случаев пользователи даже предпочитают её статьям, созданным человеком. Наиболее примечательно то, что она открывает множество новых и увлекательных приложений, выходящих далеко за рамки возможностей статических статей в интернете, таких как персонализированные инструкции с промежуточными шагами и изображениями, адаптированными под индивидуальную ситуацию пользователя.

Эффективный монотонный многоголовый механизм внимания
Efficient Monotonic Multihead Attention

Dec 7

ByXutai Ma, Anna Sun, Siqi Ouyang, Hirofumi Inaguma, Paden Tomasello

Мы представляем Efficient Monotonic Multihead Attention (EMMA) — современную модель синхронного перевода с численно устойчивой и несмещённой оценкой монотонных выравниваний. Кроме того, мы предлагаем улучшенные стратегии обучения и вывода, включая синхронную тонкую настройку на основе модели офлайн-перевода и снижение дисперсии монотонных выравниваний. Результаты экспериментов показывают, что предложенная модель достигает наилучших результатов в задаче синхронного перевода речи с испанского на английский язык.

HybridNeRF: Эффективный нейронный рендеринг с использованием адаптивных объемных поверхностей
HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric Surfaces

Dec 5

ByHaithem Turki, Vasu Agrawal, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Deva Ramanan, Michael Zollhöfer, Christian Richardt

Нейронные поля излучения обеспечивают передовое качество синтеза изображений, но их рендеринг, как правило, занимает много времени. Одна из причин заключается в том, что они используют объемный рендеринг, что требует множества выборок (и запросов к модели) для каждого луча во время рендеринга. Хотя такое представление является гибким и легко оптимизируемым, большинство реальных объектов можно эффективнее моделировать с помощью поверхностей, а не объемов, что требует значительно меньшего количества выборок на луч. Это наблюдение стимулировало значительный прогресс в представлениях на основе поверхностей, таких как функции знаковых расстояний, однако такие методы могут испытывать трудности при моделировании полупрозрачных и тонких структур. Мы предлагаем метод HybridNeRF, который объединяет преимущества обоих подходов, рендеря большинство объектов как поверхности, в то время как сложные области (обычно небольшие) моделируются объемно. Мы оцениваем HybridNeRF на сложном наборе данных Eyeful Tower, а также на других часто используемых наборах для синтеза изображений. По сравнению с передовыми базовыми методами, включая недавние подходы на основе растеризации, мы снижаем уровень ошибок на 15-30%, достигая при этом реальной частоты кадров (не менее 36 FPS) для разрешений, используемых в виртуальной реальности (2Kx2K).

LEGO: Обучение генерации эгоцентричных фреймов действий через визуальную настройку инструкций
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

Dec 6

ByBolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu

Генерация обучающих изображений повседневных действий человека с эгоцентрической точки зрения представляет собой ключевой шаг на пути к эффективной передаче навыков. В данной работе мы вводим новую задачу — генерацию эгоцентрических кадров действий. Цель заключается в синтезе кадра действия на основе пользовательского текстового запроса и входного эгоцентрического изображения, которое фиксирует окружение пользователя. Примечательно, что существующие эгоцентрические наборы данных не содержат детальных аннотаций, описывающих выполнение действий. Кроме того, модели манипуляции изображениями на основе диффузии не способны контролировать изменение состояния действия в пределах соответствующего пиксельного пространства эгоцентрического изображения. Для решения этой проблемы мы дообучаем визуальную модель большого языка (VLLM) с помощью настройки на визуальные инструкции для создания обогащенных описаний действий. Более того, мы предлагаем метод Learn EGOcentric (LEGO) для генерации кадров действий, используя встраивания изображений и текста из VLLM в качестве дополнительных условий. Мы проверяем предложенную модель на двух эгоцентрических наборах данных — Ego4D и Epic-Kitchens. Наши эксперименты демонстрируют значительное улучшение по сравнению с предыдущими моделями манипуляции изображениями как в количественной, так и в качественной оценке. Мы также проводим детальные исследования и анализ, чтобы предоставить инсайты о нашем методе.

Цепочка кода: Рассуждения с использованием языковой модели, дополненной эмулятором кода
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Dec 7

ByChengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter