Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в моделях генерации изображений по тексту открыли огромный потенциал для визуального творчества. Однако эти модели испытывают трудности с созданием согласованных персонажей, что является критически важным аспектом для множества практических применений, таких как визуализация историй, разработка игровых ассетов, реклама и многое другое. Современные методы обычно полагаются на несколько заранее существующих изображений целевого персонажа или включают трудоемкие ручные процессы. В данной работе мы предлагаем полностью автоматизированное решение для генерации согласованных персонажей, где единственным входным данным является текстовый запрос. Мы представляем итеративную процедуру, которая на каждом этапе идентифицирует согласованный набор изображений, разделяющих схожую идентичность, и извлекает более согласованную идентичность из этого набора. Наш количественный анализ показывает, что наш метод достигает лучшего баланса между соответствием запросу и согласованностью идентичности по сравнению с базовыми методами, и эти результаты подтверждаются пользовательским исследованием. В заключение мы демонстрируем несколько практических применений нашего подхода. Страница проекта доступна по адресу https://omriavrahami.com/the-chosen-one.
Модели диффузии для преобразования текста в изображения продемонстрировали впечатляющие возможности в создании согласованных изображений на основе текстовых запросов, однако вычислительная стоимость их вывода остается серьезной проблемой. Для решения этой задачи мы представляем UFOGen — новую генеративную модель, разработанную для сверхбыстрого одношагового синтеза изображений из текста. В отличие от традиционных подходов, которые сосредоточены на улучшении сэмплеров или использовании методов дистилляции для моделей диффузии, UFOGen применяет гибридную методологию, объединяя модели диффузии с целевой функцией GAN. Благодаря введенной новой целевой функции диффузии-GAN и инициализации с использованием предобученных моделей диффузии, UFOGen эффективно генерирует высококачественные изображения, обусловленные текстовыми описаниями, всего за один шаг. Помимо традиционной генерации изображений из текста, UFOGen демонстрирует универсальность в различных приложениях. Примечательно, что UFOGen является одной из первых моделей, обеспечивающих одношаговую генерацию изображений из текста и решение разнообразных задач, что представляет собой значительный прогресс в области эффективных генеративных моделей. \blfootnote{*Работа выполнена в качестве студента-исследователя Google, значок † указывает на равный вклад.}
Несмотря на успех метода цепочки рассуждений (chain of thought) в улучшении способности языковых моделей к логическому мышлению, лежащие в его основе процессы остаются недостаточно изученными. Хотя логически последовательные рассуждения кажутся принципиально важными для цепочки рассуждений, предыдущие исследования удивительным образом показывают минимальное влияние при использовании некорректных демонстраций. Более того, традиционная цепочка рассуждений не указывает языковым моделям, каких ошибок следует избегать, что потенциально приводит к увеличению числа ошибок. Вдохновленные тем, как люди могут учиться как на положительных, так и на отрицательных примерах, мы предлагаем контрастную цепочку рассуждений для улучшения логического мышления языковых моделей. В отличие от традиционного подхода, наш метод предоставляет как корректные, так и некорректные демонстрации рассуждений, чтобы направлять модель в пошаговом рассуждении, одновременно уменьшая количество ошибок. Для улучшения обобщаемости мы вводим автоматический метод создания контрастных демонстраций. Наши эксперименты на тестовых наборах для оценки логического мышления показывают, что контрастная цепочка рассуждений может служить универсальным улучшением метода подсказок с использованием цепочки рассуждений.
Нейронные поля излучения достигают беспрецедентного качества в синтезе новых видов, но их объемная формулировка остается дорогостоящей, требуя огромного количества выборок для рендеринга изображений с высоким разрешением. Объемные кодирования необходимы для представления размытой геометрии, такой как листва и волосы, и они хорошо подходят для стохастической оптимизации. Тем не менее, многие сцены в конечном итоге состоят в основном из твердых поверхностей, которые могут быть точно отрендерены с использованием одной выборки на пиксель. Основываясь на этом наблюдении, мы предлагаем формулировку нейронного излучения, которая плавно переходит между объемным и поверхностным рендерингом, значительно ускоряя скорость рендеринга и даже улучшая визуальную точность. Наш метод строит явную оболочку в виде сетки, которая пространственно ограничивает нейронное объемное представление. В твердых областях оболочка почти сходится к поверхности и часто может быть отрендерена с одной выборкой. Для этого мы обобщаем формулировку NeuS с помощью изученного пространственно-изменяемого размера ядра, который кодирует распределение плотности, подгоняя широкое ядро к объемным областям и узкое ядро к поверхностным областям. Затем мы извлекаем явную сетку узкой полосы вокруг поверхности, ширина которой определяется размером ядра, и тонко настраиваем поле излучения в пределах этой полосы. Во время вывода мы направляем лучи на сетку и оцениваем поле излучения только в пределах ограниченной области, значительно сокращая количество требуемых выборок. Эксперименты показывают, что наш подход позволяет эффективно рендерить с очень высокой точностью. Мы также демонстрируем, что извлеченная оболочка позволяет использовать приложения, такие как анимация и симуляция.
Мы предлагаем Tied-LoRA — простую парадигму, которая использует связывание весов и выборочное обучение для дальнейшего повышения параметрической эффективности метода низкоранговой адаптации (LoRA). Наши исследования охватывают все возможные комбинации обучения/замораживания параметров в сочетании со связыванием весов для определения оптимального баланса между производительностью и количеством обучаемых параметров. В ходе экспериментов, охватывающих различные задачи и две базовые языковые модели, мы проводим анализ, выявляющий компромиссы между эффективностью и производительностью. Наши эксперименты выявили конкретную конфигурацию Tied-LoRA, которая выделяется, демонстрируя сопоставимую производительность в нескольких задачах при использовании всего 13\% параметров, задействованных в стандартном методе LoRA.
Крупные языковые модели продемонстрировали многообещающие результаты в тестах на генерацию кода. Однако существует значительный разрыв между этими достижениями в тестах и их практической применимостью, что в первую очередь связано с зависимостью реального программирования от существующих библиотек. Вместо оценки способности языковых моделей писать код с нуля, данная работа предлагает новую схему оценки, в которой языковые модели используют открытые библиотеки для выполнения задач машинного обучения. В связи с этим мы представляем ML-Bench — обширный бенчмарк, разработанный для оценки эффективности языковых моделей в использовании существующих функций из открытых библиотек. Он включает 10044 образца, охватывающих 130 задач из 14 известных репозиториев машинного обучения на GitHub. В данной схеме языковая модель получает инструкцию по конкретной задаче машинного обучения и сопровождающий её файл README из кодовой базы, после чего должна сгенерировать код для выполнения задачи. Это требует понимания длинных документов, содержащих переплетение текста и кода, а также сложных межфайловых структур кода, что создаёт новые вызовы. Примечательно, что, хотя GPT-4 демонстрирует значительное улучшение по сравнению с другими языковыми моделями, она справляется только с 39,73% задач, оставляя огромное пространство для улучшений. Мы решаем эти задачи, предлагая ML-Agent, который эффективно ориентируется в кодовой базе, находит документацию, извлекает код и генерирует исполняемый код. Эмпирические результаты показывают, что ML-Agent, построенный на основе GPT-4, приводит к дальнейшим улучшениям. Код, данные и модели доступны по адресу https://ml-bench.github.io/.
Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от доступных сред и бенчмарков. Однако традиционно RL-среды выполняются на CPU, что ограничивает их масштабируемость при использовании типичных академических вычислительных ресурсов. Недавние достижения в JAX позволили шире использовать аппаратное ускорение для преодоления этих вычислительных ограничений, что сделало возможным создание массово параллельных конвейеров обучения и сред RL. Это особенно полезно для исследований в области многопользовательского обучения с подкреплением (MARL). Во-первых, на каждом шаге среды необходимо учитывать множество агентов, что увеличивает вычислительную нагрузку, а во-вторых, сложность выборки возрастает из-за нестационарности, децентрализованной частичной наблюдаемости или других проблем MARL. В данной статье мы представляем JaxMARL — первую открытую кодовую базу, которая сочетает простоту использования с эффективностью, поддерживаемой GPU, и включает большое количество популярных сред MARL, а также базовых алгоритмов. Наши эксперименты показывают, что с точки зрения реального времени обучения наш конвейер на основе JAX может быть до 12500 раз быстрее существующих подходов. Это позволяет проводить эффективные и тщательные оценки, что может помочь смягчить кризис оценки в данной области. Мы также представляем и тестируем SMAX — векторизованную, упрощенную версию популярного StarCraft Multi-Agent Challenge, которая устраняет необходимость запуска игрового движка StarCraft II. Это не только позволяет использовать GPU-ускорение, но и предоставляет более гибкую среду MARL, открывая возможности для самообучения, метаобучения и других будущих приложений в MARL. Код доступен по адресу https://github.com/flairox/jaxmarl.
Недавние решения ведущих лабораторий искусственного интеллекта либо открыть исходный код своих моделей, либо ограничить доступ к ним вызвали дискуссии о том, следует ли и как делиться всё более мощными моделями ИИ. Открытие исходного кода в ИИ обычно подразумевает свободный и публичный доступ к архитектуре модели и её весам, что позволяет любому модифицировать, изучать, развивать и использовать их. Это предоставляет такие преимущества, как возможность внешнего контроля, ускорение прогресса и децентрализация управления разработкой и использованием ИИ. Однако это также увеличивает потенциал для злоупотреблений и непредвиденных последствий. В данной работе проводится анализ рисков и преимуществ открытия исходного кода высокоэффективных базовых моделей. Хотя открытие исходного кода исторически приносило значительные чистые выгоды для большинства процессов разработки программного обеспечения и ИИ, мы утверждаем, что для некоторых высокоэффективных базовых моделей, которые, вероятно, будут разработаны в ближайшем будущем, открытие исходного кода может представлять настолько серьёзные риски, что они перевесят преимущества. В таких случаях высокоэффективные базовые модели не следует открывать, по крайней мере, изначально. Рассматриваются альтернативные стратегии, включая варианты обмена моделями без открытия исходного кода. В заключение статьи предлагаются рекомендации для разработчиков, органов по стандартизации и правительств по установлению безопасных и ответственных практик обмена моделями и сохранению преимуществ открытого исходного кода там, где это безопасно.