Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генеративный ИИ для диалогов продемонстрировал значительный потенциал в поддержке специалистов в биомедицине, однако текущие исследования сосредоточены исключительно на текстовых данных. Мультимодальный диалоговый ИИ быстро развивается благодаря использованию миллиардов пар изображений и текстов из открытого интернета, но такие модели общего назначения для обработки визуальных и языковых данных всё ещё недостаточно эффективны в понимании и обсуждении биомедицинских изображений. В данной статье мы предлагаем экономичный подход для обучения визуально-языкового диалогового помощника, способного отвечать на открытые исследовательские вопросы о биомедицинских изображениях. Основная идея заключается в использовании крупномасштабного набора данных с широким охватом, включающего изображения и подписи из PubMed Central, генерации данных для обучения следованию инструкциям с помощью GPT-4 на основе этих подписей и последующей тонкой настройки модели общего назначения с использованием нового метода обучения по учебному плану. В частности, модель сначала учится сопоставлять биомедицинскую терминологию с использованием пар изображений и подписей, а затем осваивает семантику открытых диалогов с использованием данных, сгенерированных GPT-4, что в целом имитирует процесс постепенного освоения биомедицинских знаний непрофессионалом. Это позволяет нам обучить крупную языковую и визуальную модель для биомедицины (LLaVA-Med) менее чем за 15 часов (с использованием восьми GPU A100). LLaVA-Med демонстрирует превосходные мультимодальные диалоговые способности и может следовать открытым инструкциям для помощи в анализе биомедицинских изображений. На трёх стандартных наборах данных для визуального ответа на вопросы в биомедицине LLaVA-Med превосходит предыдущие контролируемые модели по некоторым метрикам. Для содействия исследованиям в области мультимодальной биомедицины мы опубликуем наши данные для обучения следованию инструкциям и модель LLaVA-Med.
Предварительно обученные крупные модели для генерации изображений по тексту создают впечатляющие изображения при правильном использовании текстовых запросов. Однако неоднозначности, присущие естественному языку, и эффекты выхода за пределы распределения данных затрудняют синтез стилей изображений, которые используют определенный дизайн, текстуру или материал. В данной статье мы представляем StyleDrop — метод, который позволяет синтезировать изображения, точно следующие определенному стилю, с использованием модели генерации изображений по тексту. Предложенный метод чрезвычайно универсален и захватывает тонкости и детали стиля, предоставленного пользователем, такие как цветовые схемы, тени, дизайнерские паттерны, а также локальные и глобальные эффекты. Он эффективно изучает новый стиль, тонко настраивая очень небольшое количество обучаемых параметров (менее 1% от общего числа параметров модели) и улучшая качество за счет итеративного обучения с использованием обратной связи от человека или автоматизированных систем. Более того, StyleDrop способен выдавать впечатляющие результаты даже в случае, когда пользователь предоставляет всего одно изображение, задающее желаемый стиль. Обширное исследование показывает, что для задачи настройки стиля в моделях генерации изображений по тексту, StyleDrop, реализованный на основе Muse, убедительно превосходит другие методы, включая DreamBooth и текстовую инверсию на Imagen или Stable Diffusion. Дополнительные результаты доступны на нашем проектом сайте: https://styledrop.github.io.
Мы представляем агента с обучением с подкреплением на основе оценки ценности, которого мы называем BBF, который демонстрирует сверхчеловеческую производительность в бенчмарке Atari 100K. BBF опирается на масштабирование нейронных сетей, используемых для оценки ценности, а также на ряд других проектных решений, которые позволяют осуществлять это масштабирование с высокой эффективностью использования данных. Мы проводим всесторонний анализ этих проектных решений и предоставляем инсайты для будущих исследований. Завершаем обсуждением необходимости обновления критериев для исследований в области эффективного обучения с подкреплением на платформе ALE. Наш код и данные доступны публично по адресу https://github.com/google-research/google-research/tree/master/bigger_better_faster.
Изображения, создаваемые диффузионными моделями, такими как Stable Diffusion, становятся всё более распространёнными. Недавние исследования и даже судебные разбирательства показали, что эти модели склонны воспроизводить свои обучающие данные, что остаётся незамеченным для пользователя. В данной работе мы сначала анализируем проблему запоминания в текстово-ориентированных диффузионных моделях. Хотя широко распространено мнение, что дублированные изображения в обучающем наборе ответственны за воспроизведение контента на этапе вывода, мы наблюдаем, что текстовое условие модели играет не менее важную роль. Фактически, в наших экспериментах мы видим, что воспроизведение данных часто не происходит в безусловных моделях, тогда как в текстово-условных случаях это явление распространено. Вдохновлённые нашими выводами, мы предлагаем несколько методов для уменьшения воспроизведения данных как на этапе обучения, так и на этапе вывода, путём рандомизации и дополнения текстовых описаний изображений в обучающем наборе.
Трансформеры стали краеугольным камнем современных моделей обработки естественного языка, демонстрируя выдающуюся производительность в широком спектре задач искусственного интеллекта. Однако требования к памяти, обусловленные механизмом самовнимания и крупной полносвязной сетью в трансформерах, ограничивают их способность обрабатывать длинные последовательности, что создает трудности для задач, связанных с множеством длинных последовательностей или долгосрочными зависимостями. Мы представляем новый подход — Блочно-Параллельный Трансформер (BPT), который использует блочные вычисления для самовнимания и объединения полносвязной сети с целью минимизации затрат памяти. Обрабатывая более длинные входные последовательности при сохранении эффективности использования памяти, BPT позволяет обучать последовательности длиной до 32 раз больше, чем в классических трансформерах, и в 2–4 раза длиннее, чем в предыдущих методах, оптимизированных по памяти. Многочисленные эксперименты на задачах языкового моделирования и обучения с подкреплением подтверждают эффективность BPT в снижении требований к памяти и улучшении производительности.
Учитывая стремительное развитие крупных языковых моделей (LLM), мы исследуем вопрос: (Как) могут ли крупные языковые модели помочь в рецензировании научных статей или заявок? Сначала мы проводим несколько пилотных исследований, в которых обнаруживаем, что (i) GPT-4 превосходит другие LLM (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), и (ii) запрос с конкретным вопросом (например, на выявление ошибок) работает лучше, чем запрос на написание рецензии. На основе этих наблюдений мы изучаем использование LLM (в частности, GPT-4) для трех задач: 1. Выявление ошибок: Мы создаем 13 коротких статей по компьютерным наукам, в каждую из которых намеренно вставляем ошибку, и просим LLM проверить их корректность. Мы отмечаем, что LLM находит ошибки в 7 из них, включая как математические, так и концептуальные ошибки. 2. Проверка контрольных списков: Мы поручаем LLM проверить 16 закрытых вопросов из контрольных списков в соответствующих разделах 15 статей NeurIPS 2022. Мы обнаруживаем, что из 119 пар {вопрос контрольного списка, статья} LLM демонстрирует точность 86,6%. 3. Выбор «лучшей» статьи: Мы генерируем 10 пар аннотаций, намеренно проектируя каждую пару так, чтобы одна аннотация явно превосходила другую. Однако LLM с трудом справляется с распознаванием этих относительно простых различий, допуская ошибки в оценках для 6 из 10 пар. На основе этих экспериментов мы считаем, что LLM имеют перспективное применение в качестве помощников для рецензирования в рамках конкретных задач, но пока не подходят для полной оценки статей или заявок.
Контрастное предобучение на основе языка и изображений (CLIP) является одним из наиболее эффективных и масштабируемых методов для обучения переносимым моделям компьютерного зрения с использованием парных данных изображений и текста. Модели CLIP обучаются с использованием контрастной функции потерь, которая обычно полагается на аугментацию данных для предотвращения переобучения и использования "коротких путей". Однако в парадигме обучения CLIP аугментация данных применяется исключительно к входным изображениям, в то время как текстовые входы остаются неизменными на протяжении всего процесса обучения, что ограничивает разнообразие текстов, связанных с одним и тем же изображением. В данной статье мы представляем Language augmented CLIP (LaCLIP) — простой, но высокоэффективный подход для улучшения обучения CLIP за счет переписывания текстов. Используя способность крупных языковых моделей к обучению в контексте, мы переписываем текстовые описания, связанные с каждым изображением. Эти переписанные тексты демонстрируют разнообразие в структуре предложений и словарном составе, сохраняя при этом ключевые концепции и смысл оригинала. В процессе обучения LaCLIP случайным образом выбирает либо оригинальные тексты, либо их переписанные версии в качестве аугментации текста для каждого изображения. Многочисленные эксперименты на наборах данных CC3M, CC12M, RedCaps и LAION-400M показывают, что предобучение CLIP с использованием переписанных текстов значительно улучшает производительность переноса без увеличения вычислительных затрат или использования памяти в процессе обучения. В частности, для точности zero-shot на ImageNet LaCLIP превосходит CLIP на 8,2% на CC12M и на 2,4% на LAION-400M. Код доступен по адресу https://github.com/LijieFan/LaCLIP.
В последние годы были достигнуты значительные успехи в редактировании изображений с использованием текстовых инструкций. Однако при применении этих редакторов к редактированию динамических сцен новая сцена часто оказывается временно несогласованной из-за покадрового характера работы этих 2D-редакторов. Для решения этой проблемы мы предлагаем Control4D — новый подход для высококачественного и временно согласованного редактирования 4D-портретов. Control4D основан на эффективном 4D-представлении с использованием 2D-диффузионного редактора. Вместо прямого использования обучающих сигналов от редактора наш метод обучает 4D GAN на его основе, избегая несогласованных сигналов обучения. В частности, мы используем дискриминатор для изучения распределения генерации на основе отредактированных изображений, а затем обновляем генератор с помощью сигналов дискриминации. Для более стабильного обучения из отредактированных изображений извлекается многоуровневая информация, которая используется для облегчения обучения генератора. Экспериментальные результаты показывают, что Control4D превосходит предыдущие подходы и достигает более фотореалистичных и согласованных результатов 4D-редактирования. Ссылка на наш проект доступна по адресу: https://control4darxiv.github.io.
Оффлайн-обучение с подкреплением (RL) направлено на изучение оптимальных политик на основе оффлайн-датасетов, где параметризация политик играет ключевую роль, но часто остается недооцененной. Недавно метод Diffusion-QL значительно улучшил производительность оффлайн-RL, представляя политику с помощью диффузионной модели, успех которой основан на параметризованной цепи Маркова с сотнями шагов для выборки. Однако Diffusion-QL имеет два существенных ограничения. 1) Вычислительная неэффективность при прямом и обратном проходе через всю цепь Маркова во время обучения. 2) Несовместимость с алгоритмами RL, основанными на максимизации правдоподобия (например, методами градиента политики), так как правдоподобие диффузионных моделей является вычислительно сложным. Поэтому мы предлагаем эффективную диффузионную политику (EDP) для преодоления этих двух проблем. EDP приближенно конструирует действия из искаженных на этапе обучения, чтобы избежать запуска цепи выборки. Мы провели обширные эксперименты на бенчмарке D4RL. Результаты показывают, что EDP может сократить время обучения диффузионной политики с 5 дней до 5 часов на задачах gym-locomotion. Более того, мы демонстрируем, что EDP совместима с различными алгоритмами оффлайн-RL (TD3, CRR и IQL) и достигает нового уровня state-of-the-art на D4RL, значительно превосходя предыдущие методы. Наш код доступен по адресу https://github.com/sail-sg/edp.
Мы представляем подход для реконструкции людей и их отслеживания во времени. В основе нашего подхода лежит полностью "трансформеризованная" версия сети для восстановления человеческого меша. Эта сеть, HMR 2.0, продвигает состояние искусства и демонстрирует способность анализировать необычные позы, которые ранее было сложно восстановить из одиночных изображений. Для анализа видео мы используем 3D-реконструкции, полученные с помощью HMR 2.0, в качестве входных данных для системы отслеживания, работающей в 3D. Это позволяет нам работать с несколькими людьми и сохранять их идентичность в случаях окклюзии. Наш полный подход, 4DHumans, достигает передовых результатов в отслеживании людей по моноскопическому видео. Кроме того, мы демонстрируем эффективность HMR 2.0 в задаче распознавания действий, достигая значительных улучшений по сравнению с предыдущими подходами, основанными на позах. Наш код и модели доступны на сайте проекта: https://shubham-goel.github.io/4dhumans/.
Мы представляем игру "Человек или не человек?", вдохновленную тестом Тьюринга, которая оценивает способность чат-ботов с искусственным интеллектом имитировать человека в диалоге, а также способность людей отличать ботов от других людей. В течение месяца в игру сыграли более 1,5 миллиона пользователей, которые участвовали в анонимных двухминутных чат-сессиях либо с другим человеком, либо с языковой моделью ИИ, запрограммированной вести себя как человек. Задача игроков заключалась в том, чтобы правильно угадать, с кем они общались — с человеком или с ИИ. Этот крупнейший на сегодняшний день эксперимент в стиле теста Тьюринга выявил несколько интересных фактов. Например, в целом пользователи правильно угадали личность своего собеседника только в 68% случаев. В тех играх, где пользователи сталкивались с ИИ-ботом, процент правильных ответов был еще ниже — 60% (то есть ненамного выше случайного угадывания). В данном техническом документе подробно описываются разработка, внедрение и результаты этого уникального эксперимента. Хотя этот эксперимент требует множества расширений и уточнений, уже полученные результаты начинают проливать свет на неизбежное ближайшее будущее, в котором люди и ИИ будут тесно взаимодействовать.
Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи в широком спектре задач генерации естественного языка, где правильное проектирование промптов оказывает значительное влияние. В то время как существующие методы промптинга обычно ограничиваются предоставлением корректной информации, в данной работе мы предлагаем модель обдумывать, вводя новый фреймворк Deliberate then Generate (DTG), который включает инструкции по обнаружению ошибок и кандидатов, которые могут содержать ошибки. DTG — это простая, но эффективная техника, которая может быть применена к различным задачам генерации текста с минимальными изменениями. Мы провели обширные эксперименты на более чем 20 наборах данных, охватывающих 7 задач генерации текста, включая суммаризацию, перевод, диалог и другие. Мы показываем, что DTG стабильно превосходит существующие методы промптинга и достигает наилучших результатов в нескольких задачах генерации текста. Мы также предоставляем глубокий анализ, чтобы раскрыть механизмы, лежащие в основе DTG, что может вдохновить будущие исследования в области промптинга для LLM.
Процедурное планирование, которое предполагает декомпозицию высокоуровневой цели в последовательность временно упорядоченных шагов, является важной, но сложной задачей для машин. Оно требует интеграции здравого смысла для рассуждений о сложных контекстуализированных ситуациях, которые часто являются контрфактуальными, например, "запись на прием к врачу без телефона". Хотя современные подходы демонстрируют обнадеживающие результаты с использованием больших языковых моделей (LLM), они ограничены такими недостатками, как дорогостоящие вызовы API и проблемы с воспроизводимостью. В данной статье мы предлагаем планирование с использованием более компактных языковых моделей. Мы представляем PlaSma, новый двухэтапный подход, который наделяет небольшие языковые модели процедурными знаниями и способностями к (контрфактуальному) планированию. Конкретно, мы разрабатываем символическую дистилляцию процедурных знаний для улучшения неявных знаний в небольших языковых моделях и алгоритм для времени вывода, который способствует более структурированному и точному рассуждению. Кроме того, мы вводим новую задачу, Контрфактуальное планирование, которая требует пересмотра плана для адаптации к контрфактуальной ситуации. Как в исходной, так и в контрфактуальной постановке, мы показываем, что модели на порядки меньшего размера (770M-11B параметров) могут конкурировать и часто превосходить возможности своих более крупных моделей-учителей.