Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) за несколько лет превратились из несуществующих в повсеместно обсуждаемые в контексте машинного обучения. Из-за быстрого темпа развития этой области сложно определить оставшиеся вызовы и уже успешные области применения. В данной статье мы стремимся установить систематизированный набор открытых проблем и успешных применений, чтобы исследователи в области машинного обучения могли быстрее понять текущее состояние области и стать продуктивными.
С конца 2022 года крупные языковые модели (LLM) стали чрезвычайно популярными, такие как ChatGPT и Bard, которые привлекли миллионы пользователей. Еженедельно анонсируются сотни новых LLM, многие из которых загружаются на Hugging Face — репозиторий моделей машинного обучения и наборов данных. На сегодняшний день на сайт загружено почти 16 000 моделей для генерации текста. Учитывая огромный приток LLM, важно понимать, какие архитектуры, настройки, методы обучения и семейства моделей являются популярными или трендовыми. Однако на данный момент не существует всеобъемлющего индекса LLM. Мы используем относительно систематическую номенклатуру LLM на Hugging Face для проведения иерархической кластеризации и выявления сообществ среди LLM с помощью n-грамм и частоты терминов, обратной частоте документов. Наши методы успешно идентифицируют семейства LLM и точно группируют модели в значимые подгруппы. Мы представляем общедоступное веб-приложение для навигации и изучения Constellation — нашего атласа из 15 821 LLM. Constellation быстро генерирует различные визуализации, такие как дендрограммы, графы, облака слов и точечные диаграммы. Constellation доступен по следующей ссылке: https://constellation.sites.stanford.edu/.
В эпоху, когда генерация визуального контента всё больше определяется машинным обучением, интеграция обратной связи от человека в генеративные модели открывает значительные возможности для улучшения пользовательского опыта и качества результатов. В данном исследовании рассматриваются стратегии включения итеративной обратной связи в процесс генерации диффузионных моделей, преобразующих текст в изображение. Мы предлагаем FABRIC — подход, не требующий обучения и применимый к широкому спектру популярных диффузионных моделей, который использует слой self-attention, присутствующий в наиболее распространённых архитектурах, для управления процессом диффузии на основе набора изображений с обратной связью. Для обеспечения строгой оценки нашего подхода мы вводим комплексную методологию оценки, предлагающую надёжный механизм для количественного измерения производительности генеративных визуальных моделей, интегрирующих обратную связь от человека. Мы демонстрируем, что результаты генерации улучшаются в ходе нескольких раундов итеративной обратной связи, что неявно оптимизирует произвольные предпочтения пользователей. Потенциальные применения этих результатов охватывают такие области, как персонализированное создание контента и его кастомизация.
Слоевая композиция является одним из самых популярных рабочих процессов редактирования изображений как среди любителей, так и среди профессионалов. Вдохновленные успехом диффузионных моделей, мы исследуем слоевую композицию с точки зрения генерации многослойных изображений. Вместо генерации одного изображения мы предлагаем одновременно генерировать фон, передний план, маску слоя и итоговое композитное изображение. Для достижения генерации многослойных изображений мы обучаем автоэнкодер, способный восстанавливать многослойные изображения, и тренируем диффузионные модели на латентном представлении. Одним из преимуществ предложенного подхода является возможность улучшения рабочих процессов композиции наряду с получением изображений высокого качества. Другим преимуществом является создание масок слоев более высокого качества по сравнению с масками, полученными в результате отдельного этапа сегментации изображений. Экспериментальные результаты показывают, что предложенный метод способен генерировать многослойные изображения высокого качества и задает ориентир для будущих исследований.
Языковые модели и модели, объединяющие язык и зрение, в последнее время продемонстрировали беспрецедентные способности в понимании намерений человека, рассуждениях, понимании сцен и поведении, напоминающем планирование, в текстовой форме, среди многих других задач. В данной работе мы исследуем, как внедрить и использовать такие способности в агентах обучения с подкреплением (Reinforcement Learning, RL). Мы разрабатываем фреймворк, который использует язык в качестве основного инструмента рассуждений, изучая, как это позволяет агенту решать ряд фундаментальных задач RL, таких как эффективное исследование, повторное использование данных опыта, планирование навыков и обучение на основе наблюдений, которые традиционно требуют отдельных, вертикально разработанных алгоритмов. Мы тестируем наш метод в симулированной среде манипуляции робота с редкими наградами, где роботу необходимо складывать набор объектов. Мы демонстрируем значительное улучшение производительности по сравнению с базовыми методами в эффективности исследования и способности повторно использовать данные из оффлайн-наборов, а также показываем, как можно повторно использовать изученные навыки для решения новых задач или имитации видео с экспертами-людьми.
Несмотря на прогресс в области диалогового ИИ, языковые модели сталкиваются с трудностями при обработке разнообразных задач в диалогах, а существующие коллекции наборов данных для диалогов часто недостаточно разнообразны и всеобъемлющи. Для решения этих проблем мы представляем DialogStudio: самую крупную и разнообразную коллекцию наборов данных для диалогов, объединённых в единый формат при сохранении их исходной информации. Наша коллекция охватывает данные из открытых диалогов, целевых диалогов, понимания естественного языка, рекомендательных диалогов, суммаризации диалогов и диалогов, основанных на знаниях, что делает её чрезвычайно богатым и разнообразным ресурсом для исследований в области диалогов и обучения моделей. Для дальнейшего повышения полезности DialogStudio мы определяем лицензии для каждого набора данных и разрабатываем доменно-ориентированные промпты для выбранных диалогов, чтобы облегчить тонкую настройку с учётом инструкций. Кроме того, мы создаём модели диалогового ИИ, используя эту коллекцию данных, и наши эксперименты в сценариях обучения с нуля и с малым количеством примеров демонстрируют превосходство DialogStudio. Для повышения прозрачности и поддержки исследований, основанных на наборах данных и задачах, а также предварительного обучения языковых моделей, все наборы данных, лицензии, коды и модели, связанные с DialogStudio, доступны публично по адресу https://github.com/salesforce/DialogStudio.
Растет интерес к системам управления устройствами, которые могут интерпретировать инструкции на естественном языке и выполнять их на цифровом устройстве, напрямую управляя его пользовательским интерфейсом. Мы представляем набор данных для исследований в области управления устройствами — Android in the Wild (AITW), который на порядки превосходит существующие наборы данных. Этот набор содержит демонстрации взаимодействия с устройствами, включая экраны и действия, а также соответствующие инструкции на естественном языке. Он состоит из 715 тысяч эпизодов, охватывающих 30 тысяч уникальных инструкций, четыре версии Android (v10–13) и восемь типов устройств (от Pixel 2 XL до Pixel 6) с различными разрешениями экрана. Набор включает многошаговые задачи, требующие семантического понимания языка и визуального контекста. Этот набор данных ставит новую задачу: действия, доступные через пользовательский интерфейс, должны быть выведены на основе их визуального представления. Вместо простых действий, основанных на элементах интерфейса, пространство действий состоит из точных жестов (например, горизонтальных прокруток для управления карусельными виджетами). Мы структурируем наш набор данных для анализа устойчивости систем управления устройствами, то есть того, насколько хорошо система справляется с новыми описаниями задач, новыми приложениями или новыми версиями платформ. Мы разрабатываем два агента и сообщаем об их производительности на всем наборе данных. Набор данных доступен по адресу: https://github.com/google-research/google-research/tree/master/android_in_the_wild.
Крупные языковые модели (LLM) продемонстрировали потенциал в воспроизведении человеческого поведения в задачах краудсорсинга, которые ранее считались исключительной прерогативой человека. Однако текущие усилия сосредоточены в основном на простых атомарных задачах. Мы исследуем, могут ли LLM воспроизводить более сложные краудсорсинговые процессы. Мы обнаруживаем, что современные LLM способны имитировать некоторые способности краудворкеров в этих "алгоритмах человеческих вычислений", но уровень успеха варьируется и зависит от понимания заказчиками возможностей LLM, специфических навыков, необходимых для подзадач, и оптимального способа взаимодействия для выполнения этих подзадач. Мы размышляем о различных уровнях чувствительности людей и LLM к инструкциям, подчеркиваем важность внедрения защитных механизмов, ориентированных на человека, для LLM, и обсуждаем потенциал обучения людей и LLM с взаимодополняющими наборами навыков. Ключевым моментом является то, что воспроизведение краудсорсинговых процессов предоставляет ценную платформу для исследования (1) относительных преимуществ LLM в различных задачах (путем сравнения их производительности на подзадачах) и (2) потенциала LLM в сложных задачах, где они могут выполнять часть работы, оставляя остальное людям.
Реалистичная рендеринг-ориентированная на человека играет ключевую роль как в компьютерном зрении, так и в компьютерной графике. За последние годы был достигнут значительный прогресс в алгоритмической части, однако существующие наборы данных и бенчмарки для рендеринга, ориентированного на человека, остаются довольно ограниченными с точки зрения разнообразия, что крайне важно для качества рендеринга. Исследователи обычно вынуждены изучать и оценивать лишь небольшой набор задач рендеринга на текущих наборах данных, в то время как реальные приложения требуют, чтобы методы были устойчивыми в различных сценариях. В данной работе мы представляем DNA-Rendering — крупномасштабный репозиторий высококачественных данных о человеческой деятельности для нейронного рендеринга актеров. DNA-Rendering обладает несколькими привлекательными характеристиками. Во-первых, наш набор данных включает более 1500 человек, 5000 последовательностей движений и объем данных в 67,5 миллионов кадров. Во-вторых, мы предоставляем богатые ресурсы для каждого участника — 2D/3D ключевые точки тела, маски переднего плана, модели SMPLX, материалы одежды и аксессуаров, многовидовые изображения и видео. Эти ресурсы повышают точность современных методов в задачах последующего рендеринга. В-третьих, мы создали профессиональную многовидовую систему для захвата данных, которая включает 60 синхронизированных камер с максимальным разрешением 4096 x 3000, скоростью 15 кадров в секунду и строгими этапами калибровки камер, что обеспечивает высококачественные ресурсы для обучения и оценки задач. Вместе с набором данных мы предоставляем крупномасштабный и количественный бенчмарк, охватывающий множество задач для оценки текущего прогресса в синтезе новых видов, анимации новых поз и рендеринге новых идентичностей. В данной статье мы описываем наши усилия по созданию DNA-Rendering как раскрытие новых наблюдений, вызовов и направлений для будущих исследований в области рендеринга, ориентированного на человека. Набор данных, код и бенчмарки будут общедоступны по адресу https://dna-rendering.github.io/.
Адаптивные оптимизаторы на основе градиентов, в частности Adam, оставили свой след в обучении крупномасштабных моделей глубокого обучения. Сила таких оптимизаторов заключается в их способности быстро сходиться, оставаясь при этом более устойчивыми к выбору гиперпараметров. Однако они часто демонстрируют худшую обобщающую способность по сравнению с неадаптивными методами. Недавние исследования связывают этот разрыв в производительности с выбором плоских минимумов: адаптивные методы склонны находить решения в более острых бассейнах ландшафта потерь, что, в свою очередь, ухудшает обобщение. Чтобы преодолеть эту проблему, мы предлагаем новую версию Adam с расширенной памятью, которая способствует исследованию в направлении более плоских минимумов за счет использования буфера критических моментов в процессе обучения. Интуитивно использование буфера заставляет оптимизатор выходить за пределы бассейна притяжения, если он недостаточно широк. Мы эмпирически показываем, что наш метод улучшает производительность нескольких вариантов Adam на стандартных задачах обучения с учителем в области языкового моделирования и классификации изображений.