Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

LLaVA-Med: Обучение крупного языково-визуального ассистента для биомедицины за один день
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Jun 1, 2023

Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao

111

Генеративный ИИ для диалогов продемонстрировал значительный потенциал в поддержке специалистов в биомедицине, однако текущие исследования сосредоточены исключительно на текстовых данных. Мультимодальный диалоговый ИИ быстро развивается благодаря использованию миллиардов пар изображений и текстов из открытого интернета, но такие модели общего назначения для обработки визуальных и языковых данных всё ещё недостаточно эффективны в понимании и обсуждении биомедицинских изображений. В данной статье мы предлагаем экономичный подход для обучения визуально-языкового диалогового помощника, способного отвечать на открытые исследовательские вопросы о биомедицинских изображениях. Основная идея заключается в использовании крупномасштабного набора данных с широким охватом, включающего изображения и подписи из PubMed Central, генерации данных для обучения следованию инструкциям с помощью GPT-4 на основе этих подписей и последующей тонкой настройки модели общего назначения с использованием нового метода обучения по учебному плану. В частности, модель сначала учится сопоставлять биомедицинскую терминологию с использованием пар изображений и подписей, а затем осваивает семантику открытых диалогов с использованием данных, сгенерированных GPT-4, что в целом имитирует процесс постепенного освоения биомедицинских знаний непрофессионалом. Это позволяет нам обучить крупную языковую и визуальную модель для биомедицины (LLaVA-Med) менее чем за 15 часов (с использованием восьми GPU A100). LLaVA-Med демонстрирует превосходные мультимодальные диалоговые способности и может следовать открытым инструкциям для помощи в анализе биомедицинских изображений. На трёх стандартных наборах данных для визуального ответа на вопросы в биомедицине LLaVA-Med превосходит предыдущие контролируемые модели по некоторым метрикам. Для содействия исследованиям в области мультимодальной биомедицины мы опубликуем наши данные для обучения следованию инструкциям и модель LLaVA-Med.

StyleDrop: Генерация изображений из текста в любом стиле
StyleDrop: Text-to-Image Generation in Any Style

Jun 1, 2023

Kihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan

Предварительно обученные крупные модели для генерации изображений по тексту создают впечатляющие изображения при правильном использовании текстовых запросов. Однако неоднозначности, присущие естественному языку, и эффекты выхода за пределы распределения данных затрудняют синтез стилей изображений, которые используют определенный дизайн, текстуру или материал. В данной статье мы представляем StyleDrop — метод, который позволяет синтезировать изображения, точно следующие определенному стилю, с использованием модели генерации изображений по тексту. Предложенный метод чрезвычайно универсален и захватывает тонкости и детали стиля, предоставленного пользователем, такие как цветовые схемы, тени, дизайнерские паттерны, а также локальные и глобальные эффекты. Он эффективно изучает новый стиль, тонко настраивая очень небольшое количество обучаемых параметров (менее 1% от общего числа параметров модели) и улучшая качество за счет итеративного обучения с использованием обратной связи от человека или автоматизированных систем. Более того, StyleDrop способен выдавать впечатляющие результаты даже в случае, когда пользователь предоставляет всего одно изображение, задающее желаемый стиль. Обширное исследование показывает, что для задачи настройки стиля в моделях генерации изображений по тексту, StyleDrop, реализованный на основе Muse, убедительно превосходит другие методы, включая DreamBooth и текстовую инверсию на Imagen или Stable Diffusion. Дополнительные результаты доступны на нашем проектом сайте: https://styledrop.github.io.

Больше, лучше, быстрее: Человеческий уровень в Atari с человеческой эффективностью
Bigger, Better, Faster: Human-level Atari with human-level efficiency

May 30, 2023

Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro

Мы представляем агента с обучением с подкреплением на основе оценки ценности, которого мы называем BBF, который демонстрирует сверхчеловеческую производительность в бенчмарке Atari 100K. BBF опирается на масштабирование нейронных сетей, используемых для оценки ценности, а также на ряд других проектных решений, которые позволяют осуществлять это масштабирование с высокой эффективностью использования данных. Мы проводим всесторонний анализ этих проектных решений и предоставляем инсайты для будущих исследований. Завершаем обсуждением необходимости обновления критериев для исследований в области эффективного обучения с подкреплением на платформе ALE. Наш код и данные доступны публично по адресу https://github.com/google-research/google-research/tree/master/bigger_better_faster.

Понимание и снижение эффекта копирования в диффузионных моделях
Understanding and Mitigating Copying in Diffusion Models

May 31, 2023

Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein

Изображения, создаваемые диффузионными моделями, такими как Stable Diffusion, становятся всё более распространёнными. Недавние исследования и даже судебные разбирательства показали, что эти модели склонны воспроизводить свои обучающие данные, что остаётся незамеченным для пользователя. В данной работе мы сначала анализируем проблему запоминания в текстово-ориентированных диффузионных моделях. Хотя широко распространено мнение, что дублированные изображения в обучающем наборе ответственны за воспроизведение контента на этапе вывода, мы наблюдаем, что текстовое условие модели играет не менее важную роль. Фактически, в наших экспериментах мы видим, что воспроизведение данных часто не происходит в безусловных моделях, тогда как в текстово-условных случаях это явление распространено. Вдохновлённые нашими выводами, мы предлагаем несколько методов для уменьшения воспроизведения данных как на этапе обучения, так и на этапе вывода, путём рандомизации и дополнения текстовых описаний изображений в обучающем наборе.

Блочно-параллельный трансформер для крупных моделей с длинным контекстом
Blockwise Parallel Transformer for Long Context Large Models

May 30, 2023

Hao Liu, Pieter Abbeel

Трансформеры стали краеугольным камнем современных моделей обработки естественного языка, демонстрируя выдающуюся производительность в широком спектре задач искусственного интеллекта. Однако требования к памяти, обусловленные механизмом самовнимания и крупной полносвязной сетью в трансформерах, ограничивают их способность обрабатывать длинные последовательности, что создает трудности для задач, связанных с множеством длинных последовательностей или долгосрочными зависимостями. Мы представляем новый подход — Блочно-Параллельный Трансформер (BPT), который использует блочные вычисления для самовнимания и объединения полносвязной сети с целью минимизации затрат памяти. Обрабатывая более длинные входные последовательности при сохранении эффективности использования памяти, BPT позволяет обучать последовательности длиной до 32 раз больше, чем в классических трансформерах, и в 2–4 раза длиннее, чем в предыдущих методах, оптимизированных по памяти. Многочисленные эксперименты на задачах языкового моделирования и обучения с подкреплением подтверждают эффективность BPT в снижении требований к памяти и улучшении производительности.

ReviewerGPT? Исследование возможностей использования крупных языковых моделей для рецензирования научных статей
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Jun 1, 2023

Ryan Liu, Nihar B. Shah

Учитывая стремительное развитие крупных языковых моделей (LLM), мы исследуем вопрос: (Как) могут ли крупные языковые модели помочь в рецензировании научных статей или заявок? Сначала мы проводим несколько пилотных исследований, в которых обнаруживаем, что (i) GPT-4 превосходит другие LLM (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), и (ii) запрос с конкретным вопросом (например, на выявление ошибок) работает лучше, чем запрос на написание рецензии. На основе этих наблюдений мы изучаем использование LLM (в частности, GPT-4) для трех задач: 1. Выявление ошибок: Мы создаем 13 коротких статей по компьютерным наукам, в каждую из которых намеренно вставляем ошибку, и просим LLM проверить их корректность. Мы отмечаем, что LLM находит ошибки в 7 из них, включая как математические, так и концептуальные ошибки. 2. Проверка контрольных списков: Мы поручаем LLM проверить 16 закрытых вопросов из контрольных списков в соответствующих разделах 15 статей NeurIPS 2022. Мы обнаруживаем, что из 119 пар {вопрос контрольного списка, статья} LLM демонстрирует точность 86,6%. 3. Выбор «лучшей» статьи: Мы генерируем 10 пар аннотаций, намеренно проектируя каждую пару так, чтобы одна аннотация явно превосходила другую. Однако LLM с трудом справляется с распознаванием этих относительно простых различий, допуская ошибки в оценках для 6 из 10 пар. На основе этих экспериментов мы считаем, что LLM имеют перспективное применение в качестве помощников для рецензирования в рамках конкретных задач, но пока не подходят для полной оценки статей или заявок.

Улучшение обучения CLIP с помощью переформулировок текста
Improving CLIP Training with Language Rewrites

May 31, 2023

Lijie Fan, Dilip Krishnan, Phillip Isola, Dina Katabi, Yonglong Tian

Контрастное предобучение на основе языка и изображений (CLIP) является одним из наиболее эффективных и масштабируемых методов для обучения переносимым моделям компьютерного зрения с использованием парных данных изображений и текста. Модели CLIP обучаются с использованием контрастной функции потерь, которая обычно полагается на аугментацию данных для предотвращения переобучения и использования "коротких путей". Однако в парадигме обучения CLIP аугментация данных применяется исключительно к входным изображениям, в то время как текстовые входы остаются неизменными на протяжении всего процесса обучения, что ограничивает разнообразие текстов, связанных с одним и тем же изображением. В данной статье мы представляем Language augmented CLIP (LaCLIP) — простой, но высокоэффективный подход для улучшения обучения CLIP за счет переписывания текстов. Используя способность крупных языковых моделей к обучению в контексте, мы переписываем текстовые описания, связанные с каждым изображением. Эти переписанные тексты демонстрируют разнообразие в структуре предложений и словарном составе, сохраняя при этом ключевые концепции и смысл оригинала. В процессе обучения LaCLIP случайным образом выбирает либо оригинальные тексты, либо их переписанные версии в качестве аугментации текста для каждого изображения. Многочисленные эксперименты на наборах данных CC3M, CC12M, RedCaps и LAION-400M показывают, что предобучение CLIP с использованием переписанных текстов значительно улучшает производительность переноса без увеличения вычислительных затрат или использования памяти в процессе обучения. В частности, для точности zero-shot на ImageNet LaCLIP превосходит CLIP на 8,2% на CC12M и на 2,4% на LAION-400M. Код доступен по адресу https://github.com/LijieFan/LaCLIP.

Control4D: Динамическое редактирование портретов через обучение 4D GAN на основе 2D редактора с диффузией
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

May 31, 2023

Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu

В последние годы были достигнуты значительные успехи в редактировании изображений с использованием текстовых инструкций. Однако при применении этих редакторов к редактированию динамических сцен новая сцена часто оказывается временно несогласованной из-за покадрового характера работы этих 2D-редакторов. Для решения этой проблемы мы предлагаем Control4D — новый подход для высококачественного и временно согласованного редактирования 4D-портретов. Control4D основан на эффективном 4D-представлении с использованием 2D-диффузионного редактора. Вместо прямого использования обучающих сигналов от редактора наш метод обучает 4D GAN на его основе, избегая несогласованных сигналов обучения. В частности, мы используем дискриминатор для изучения распределения генерации на основе отредактированных изображений, а затем обновляем генератор с помощью сигналов дискриминации. Для более стабильного обучения из отредактированных изображений извлекается многоуровневая информация, которая используется для облегчения обучения генератора. Экспериментальные результаты показывают, что Control4D превосходит предыдущие подходы и достигает более фотореалистичных и согласованных результатов 4D-редактирования. Ссылка на наш проект доступна по адресу: https://control4darxiv.github.io.

Эффективные диффузионные политики для обучения с подкреплением на оффлайн-данных
Efficient Diffusion Policies for Offline Reinforcement Learning

May 31, 2023

Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan

Оффлайн-обучение с подкреплением (RL) направлено на изучение оптимальных политик на основе оффлайн-датасетов, где параметризация политик играет ключевую роль, но часто остается недооцененной. Недавно метод Diffusion-QL значительно улучшил производительность оффлайн-RL, представляя политику с помощью диффузионной модели, успех которой основан на параметризованной цепи Маркова с сотнями шагов для выборки. Однако Diffusion-QL имеет два существенных ограничения. 1) Вычислительная неэффективность при прямом и обратном проходе через всю цепь Маркова во время обучения. 2) Несовместимость с алгоритмами RL, основанными на максимизации правдоподобия (например, методами градиента политики), так как правдоподобие диффузионных моделей является вычислительно сложным. Поэтому мы предлагаем эффективную диффузионную политику (EDP) для преодоления этих двух проблем. EDP приближенно конструирует действия из искаженных на этапе обучения, чтобы избежать запуска цепи выборки. Мы провели обширные эксперименты на бенчмарке D4RL. Результаты показывают, что EDP может сократить время обучения диффузионной политики с 5 дней до 5 часов на задачах gym-locomotion. Более того, мы демонстрируем, что EDP совместима с различными алгоритмами оффлайн-RL (TD3, CRR и IQL) и достигает нового уровня state-of-the-art на D4RL, значительно превосходя предыдущие методы. Наш код доступен по адресу https://github.com/sail-sg/edp.

Люди в 4D: Реконструкция и отслеживание людей с использованием трансформеров
Humans in 4D: Reconstructing and Tracking Humans with Transformers

May 31, 2023

Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik

Мы представляем подход для реконструкции людей и их отслеживания во времени. В основе нашего подхода лежит полностью "трансформеризованная" версия сети для восстановления человеческого меша. Эта сеть, HMR 2.0, продвигает состояние искусства и демонстрирует способность анализировать необычные позы, которые ранее было сложно восстановить из одиночных изображений. Для анализа видео мы используем 3D-реконструкции, полученные с помощью HMR 2.0, в качестве входных данных для системы отслеживания, работающей в 3D. Это позволяет нам работать с несколькими людьми и сохранять их идентичность в случаях окклюзии. Наш полный подход, 4DHumans, достигает передовых результатов в отслеживании людей по моноскопическому видео. Кроме того, мы демонстрируем эффективность HMR 2.0 в задаче распознавания действий, достигая значительных улучшений по сравнению с предыдущими подходами, основанными на позах. Наш код и модели доступны на сайте проекта: https://shubham-goel.github.io/4dhumans/.

Человек или нет? Игровой подход к тесту Тьюринга
Human or Not? A Gamified Approach to the Turing Test

May 31, 2023

Daniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham

Мы представляем игру "Человек или не человек?", вдохновленную тестом Тьюринга, которая оценивает способность чат-ботов с искусственным интеллектом имитировать человека в диалоге, а также способность людей отличать ботов от других людей. В течение месяца в игру сыграли более 1,5 миллиона пользователей, которые участвовали в анонимных двухминутных чат-сессиях либо с другим человеком, либо с языковой моделью ИИ, запрограммированной вести себя как человек. Задача игроков заключалась в том, чтобы правильно угадать, с кем они общались — с человеком или с ИИ. Этот крупнейший на сегодняшний день эксперимент в стиле теста Тьюринга выявил несколько интересных фактов. Например, в целом пользователи правильно угадали личность своего собеседника только в 68% случаев. В тех играх, где пользователи сталкивались с ИИ-ботом, процент правильных ответов был еще ниже — 60% (то есть ненамного выше случайного угадывания). В данном техническом документе подробно описываются разработка, внедрение и результаты этого уникального эксперимента. Хотя этот эксперимент требует множества расширений и уточнений, уже полученные результаты начинают проливать свет на неизбежное ближайшее будущее, в котором люди и ИИ будут тесно взаимодействовать.

Обдумай, затем создай: Усовершенствованная структура промптов для генерации текста
Deliberate then Generate: Enhanced Prompting Framework for Text Generation

May 31, 2023

Bei Li, Rui Wang, Junliang Guo, Kaitao Song, Xu Tan, Hany Hassan, Arul Menezes, Tong Xiao, Jiang Bian, JingBo Zhu

Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи в широком спектре задач генерации естественного языка, где правильное проектирование промптов оказывает значительное влияние. В то время как существующие методы промптинга обычно ограничиваются предоставлением корректной информации, в данной работе мы предлагаем модель обдумывать, вводя новый фреймворк Deliberate then Generate (DTG), который включает инструкции по обнаружению ошибок и кандидатов, которые могут содержать ошибки. DTG — это простая, но эффективная техника, которая может быть применена к различным задачам генерации текста с минимальными изменениями. Мы провели обширные эксперименты на более чем 20 наборах данных, охватывающих 7 задач генерации текста, включая суммаризацию, перевод, диалог и другие. Мы показываем, что DTG стабильно превосходит существующие методы промптинга и достигает наилучших результатов в нескольких задачах генерации текста. Мы также предоставляем глубокий анализ, чтобы раскрыть механизмы, лежащие в основе DTG, что может вдохновить будущие исследования в области промптинга для LLM.

PlaSma: Улучшение небольших языковых моделей для работы с процедурными знаниями в задачах (контрфактического) планирования
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

May 31, 2023

Faeze Brahman, Chandra Bhagavatula, Valentina Pyatkin, Jena D. Hwang, Xiang Lorraine Li, Hirona J. Arai, Soumya Sanyal, Keisuke Sakaguchi, Xiang Ren, Yejin Choi

Процедурное планирование, которое предполагает декомпозицию высокоуровневой цели в последовательность временно упорядоченных шагов, является важной, но сложной задачей для машин. Оно требует интеграции здравого смысла для рассуждений о сложных контекстуализированных ситуациях, которые часто являются контрфактуальными, например, "запись на прием к врачу без телефона". Хотя современные подходы демонстрируют обнадеживающие результаты с использованием больших языковых моделей (LLM), они ограничены такими недостатками, как дорогостоящие вызовы API и проблемы с воспроизводимостью. В данной статье мы предлагаем планирование с использованием более компактных языковых моделей. Мы представляем PlaSma, новый двухэтапный подход, который наделяет небольшие языковые модели процедурными знаниями и способностями к (контрфактуальному) планированию. Конкретно, мы разрабатываем символическую дистилляцию процедурных знаний для улучшения неявных знаний в небольших языковых моделях и алгоритм для времени вывода, который способствует более структурированному и точному рассуждению. Кроме того, мы вводим новую задачу, Контрфактуальное планирование, которая требует пересмотра плана для адаптации к контрфактуальной ситуации. Как в исходной, так и в контрфактуальной постановке, мы показываем, что модели на порядки меньшего размера (770M-11B параметров) могут конкурировать и часто превосходить возможности своих более крупных моделей-учителей.

LLaVA-Med: Обучение крупного языково-визуального ассистента для биомедицины за один день
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Jun 1, 2023

Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao

111

Ежедневные статьи

LLaVA-Med: Обучение крупного языково-визуального ассистента для биомедицины за один день
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

StyleDrop: Генерация изображений из текста в любом стиле
StyleDrop: Text-to-Image Generation in Any Style

Больше, лучше, быстрее: Человеческий уровень в Atari с человеческой эффективностью
Bigger, Better, Faster: Human-level Atari with human-level efficiency

Понимание и снижение эффекта копирования в диффузионных моделях
Understanding and Mitigating Copying in Diffusion Models

Блочно-параллельный трансформер для крупных моделей с длинным контекстом
Blockwise Parallel Transformer for Long Context Large Models

ReviewerGPT? Исследование возможностей использования крупных языковых моделей для рецензирования научных статей
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Улучшение обучения CLIP с помощью переформулировок текста
Improving CLIP Training with Language Rewrites

Control4D: Динамическое редактирование портретов через обучение 4D GAN на основе 2D редактора с диффузией
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

Эффективные диффузионные политики для обучения с подкреплением на оффлайн-данных
Efficient Diffusion Policies for Offline Reinforcement Learning

Люди в 4D: Реконструкция и отслеживание людей с использованием трансформеров
Humans in 4D: Reconstructing and Tracking Humans with Transformers

Человек или нет? Игровой подход к тесту Тьюринга
Human or Not? A Gamified Approach to the Turing Test

Обдумай, затем создай: Усовершенствованная структура промптов для генерации текста
Deliberate then Generate: Enhanced Prompting Framework for Text Generation

Support

Support

Ежедневные статьи

LLaVA-Med: Обучение крупного языково-визуального ассистента для биомедицины за один день
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

StyleDrop: Генерация изображений из текста в любом стиле
StyleDrop: Text-to-Image Generation in Any Style

Больше, лучше, быстрее: Человеческий уровень в Atari с человеческой эффективностью
Bigger, Better, Faster: Human-level Atari with human-level efficiency

Понимание и снижение эффекта копирования в диффузионных моделях
Understanding and Mitigating Copying in Diffusion Models

Блочно-параллельный трансформер для крупных моделей с длинным контекстом
Blockwise Parallel Transformer for Long Context Large Models

ReviewerGPT? Исследование возможностей использования крупных языковых моделей для рецензирования научных статей
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Улучшение обучения CLIP с помощью переформулировок текста
Improving CLIP Training with Language Rewrites

Control4D: Динамическое редактирование портретов через обучение 4D GAN на основе 2D редактора с диффузией
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

Эффективные диффузионные политики для обучения с подкреплением на оффлайн-данных
Efficient Diffusion Policies for Offline Reinforcement Learning

Люди в 4D: Реконструкция и отслеживание людей с использованием трансформеров
Humans in 4D: Reconstructing and Tracking Humans with Transformers

Человек или нет? Игровой подход к тесту Тьюринга
Human or Not? A Gamified Approach to the Turing Test

Обдумай, затем создай: Усовершенствованная структура промптов для генерации текста
Deliberate then Generate: Enhanced Prompting Framework for Text Generation