Ежедневно отобранные исследовательские статьи по ИИ с переводами
Программное обеспечение является одним из самых мощных инструментов, которыми мы, люди, располагаем; оно позволяет опытному программисту взаимодействовать с миром сложным и глубоким образом. В то же время, благодаря улучшениям в больших языковых моделях (LLM), также произошло быстрое развитие искусственных интеллектуальных агентов, которые взаимодействуют и оказывают влияние на окружающие среды. В данной статье мы представляем OpenDevin, платформу для разработки мощных и гибких искусственных интеллектуальных агентов, которые взаимодействуют с миром аналогично человеческому разработчику: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц. Мы описываем, как платформа позволяет реализовывать новых агентов, безопасно взаимодействовать с изолированными средами для выполнения кода, координировать действия между несколькими агентами и включать оценочные бенчмарки. Основываясь на наших включенных в настоящее время бенчмарках, мы проводим оценку агентов по 15 сложным задачам, включая инженерию программного обеспечения (например, SWE-Bench) и просмотр веб-страниц (например, WebArena), среди прочих. Выпущенный под лицензией MIT, OpenDevin является проектом сообщества, охватывающим академию и промышленность, с более чем 1,3 тыс. вкладов от более чем 160 участников и будет улучшаться в будущем.
Визуальные языковые модели (VLM) стремительно развиваются, подталкиваемые успехом крупных языковых моделей (LLM). В то время как архитектуры моделей и инфраструктуры обучения быстро совершенствуются, кураторство данных остается малоисследованным. Когда количество и качество данных становятся узким местом, существующие работы либо напрямую извлекают больше необработанных данных из Интернета, не гарантируя их качество, либо дистиллируют их из коммерческих черных ящиков (например, GPT-4V / Gemini), ограничивая производительность верхней границей этой модели. В данной работе мы представляем новый подход, включающий этап самоувеличения и этап увеличения специалиста для итеративного улучшения качества данных и производительности модели. На этапе самоувеличения VLM повторно описывает свои собственные данные предварительного обучения для улучшения качества данных, а затем переобучается с нуля, используя этот уточненный набор данных для улучшения производительности модели. Этот процесс может повторяться несколько раундов. Как только самоувеличение насыщается, мы используем несколько специализированных VLM, донастроенных из самоувеличенного VLM с экспертизой в определенной области, чтобы дополнительно внедрить специализированные знания в общий VLM через задачно-ориентированное повторное описывание и переобучение. Совместно с самоувеличением и увеличением специалиста мы представляем VILA^2 (VILA-увеличенный-VILA), семейство VLM, которое последовательно улучшает точность на широком спектре задач по сравнению с предыдущими работами и достигает новых результатов на доске лидеров MMMU среди моделей с открытым исходным кодом.
Анимация человеческого изображения включает создание видеороликов из фотографии персонажа, позволяя пользователю контролировать процесс и раскрывая потенциал для производства видео и фильмов. Хотя недавние подходы достигают впечатляющих результатов с использованием высококачественных обучающих данных, недоступность этих наборов данных затрудняет справедливое и прозрачное сравнение. Более того, эти подходы придают приоритет движению человека в 2D и пренебрегают значимостью движений камеры в видеороликах, что приводит к ограниченному контролю и нестабильной генерации видео. Для разъяснения обучающих данных мы представляем HumanVid, первый крупномасштабный набор данных высокого качества, разработанный специально для анимации человеческого изображения, который объединяет созданные реальные и синтетические данные. Для реальных данных мы собираем обширную коллекцию видеороликов из мира интернета, свободных от авторских прав. Через тщательно разработанную стратегию фильтрации на основе правил мы гарантируем включение видеороликов высокого качества, что приводит к коллекции из 20 тыс. видеороликов, сосредоточенных на людях, с разрешением 1080P. Аннотация движения человека и камеры выполняется с помощью оценщика позы в 2D и метода на основе SLAM. Для синтетических данных мы собираем 2 300 свободных от авторских прав 3D-модели аватаров для дополнения уже доступных 3D-активов. Особенно стоит отметить, что мы представляем метод генерации траектории камеры на основе правил, позволяющий синтетическому конвейеру включать разнообразную и точную аннотацию движения камеры, что редко встречается в реальных данных. Для проверки эффективности HumanVid мы устанавливаем базовую модель под названием CamAnimate, что означает Camera-controllable Human Animation, учитывающую как движения человека, так и камеры в качестве условий. Через обширные эксперименты мы демонстрируем, что такое простое базовое обучение на нашем HumanVid достигает передовых результатов в контроле как позы человека, так и движений камеры, устанавливая новый стандарт. Код и данные будут общедоступны по адресу https://github.com/zhenzhiwang/HumanVid/.
Несмотря на продвинутые возможности интеллекта крупных моделей языка (LLM) в различных приложениях, они все еще сталкиваются с значительными вычислительными и объемными требованиями. Дистилляция знаний (KD) стала эффективной стратегией для улучшения производительности более маленькой LLM (т.е. модели ученика) путем передачи знаний от высокопроизводительной LLM (т.е. модели учителя). Преобладающие техники дистилляции LLM обычно используют черный ящик API модели для создания качественных предварительно обученных и выровненных наборов данных, или применяют дистилляцию белого ящика, изменяя функцию потерь для более эффективной передачи знаний от учителя LLM. Однако эти методы не учитывают различия в знаниях между LLM ученика и учителя в различных областях. Это приводит к излишнему фокусу на области с минимальными разрывами в производительности и недостаточному вниманию к областям с большими разрывами, что снижает общую производительность. В данной статье мы представляем новую рамку дистилляции LLM под названием DDK, которая динамически корректирует состав набора данных дистилляции плавным образом в соответствии с различиями в производительности областей между моделями учителя и ученика, делая процесс дистилляции более стабильным и эффективным. Обширные оценки показывают, что DDK значительно улучшает производительность моделей учеников, превосходя как непрерывно предварительно обученные базовые модели, так и существующие методы дистилляции знаний с большим отрывом.
Быстрое развитие языковых моделей (LMs) требует надежного выравнивания с разнообразными ценностями пользователей. Однако текущие подходы к оптимизации предпочтений часто не удается уловить множественность мнений пользователей, вместо этого укрепляя мнения большинства и маргинализируя меньшинственные точки зрения. Мы представляем PERSONA, воспроизводимую платформу, разработанную для оценки и улучшения плюралистического выравнивания LMs. Мы процедурно генерируем разнообразные профили пользователей на основе данных переписи населения США, что приводит к созданию 1 586 синтетических персон с разнообразными демографическими и идиосинкратическими характеристиками. Затем мы создаем крупномасштабный набор данных для оценки, содержащий 3 868 запросов и 317 200 пар обратной связи, полученных от наших синтетических персон. Используя этот набор данных, мы систематически оцениваем возможности LM в ролевой игре различных пользователей, подтвержденные судьями-людьми, и создаем как эталон, PERSONA Bench, для плюралистических подходов к выравниванию, так и обширный набор данных для создания новых и будущих эталонов. Полный набор данных и эталоны доступны здесь: https://www.synthlabs.ai/research/persona.
Самая фундаментальная способность современных методов искусственного интеллекта, таких как модели больших языковых моделей (LLM), заключается в возможности предсказать следующий токен в длинной последовательности токенов, известной как "моделирование последовательности". Хотя модель Transformers является текущим доминирующим подходом к моделированию последовательностей, ее квадратичная вычислительная сложность относительно длины последовательности является значительным недостатком. Модели пространства состояний (SSM) предлагают многообещающую альтернативу благодаря своей линейной эффективности декодирования и высокой параллелизуемости во время обучения. Однако существующие SSM часто опираются на кажущиеся произвольными линейные рекуррентные конструкции. В данной работе мы исследуем проектирование SSM через призму онлайн-обучения, концептуализируя SSM как мета-модули для конкретных задач онлайн-обучения. Этот подход связывает проектирование SSM с формулировкой точных целей онлайн-обучения, с правилами перехода состояний, выведенными из оптимизации этих целей. Основываясь на этом понимании, мы представляем новую глубокую архитектуру SSM на основе неявного обновления для оптимизации цели онлайн-регрессии. Наши экспериментальные результаты показывают, что наши модели превосходят современные SSM, включая модель Mamba, на стандартных бенчмарках моделирования последовательностей и задачах языкового моделирования.
Мы представляем модель стабильной диффузии видео 4D (SV4D) - латентную модель диффузии для генерации динамического 3D контента согласованного по нескольким кадрам и точкам зрения. В отличие от предыдущих методов, которые полагаются на отдельно обученные генеративные модели для генерации видео и синтеза новых видов, мы разработали объединенную модель диффузии для создания видео новых видов динамических 3D объектов. Конкретно, учитывая монокулярное опорное видео, SV4D генерирует новые виды для каждого кадра видео, которые являются временно согласованными. Затем мы используем сгенерированные видео новых видов для эффективной оптимизации неявного 4D представления (динамический NeRF), без необходимости громоздкой оптимизации на основе SDS, используемой в большинстве предыдущих работ. Для обучения нашей объединенной модели генерации видео новых видов мы составили динамический набор данных 3D объектов из существующего набора данных Objaverse. Обширные экспериментальные результаты на нескольких наборах данных и пользовательские исследования демонстрируют передовую производительность SV4D в синтезе видео новых видов, а также в генерации 4D по сравнению с предыдущими работами.
Можем ли мы наделить визуомоторных роботов обобщающими способностями для работы в разнообразных сценариях открытого мира? В данной статье мы предлагаем Maniwhere, обобщаемую структуру, специально разработанную для обучения с подкреплением на основе зрительных данных, позволяющую обученным политикам роботов обобщаться на сочетание нескольких типов визуальных помех. Конкретно, мы представляем подход к обучению представлений с нескольких видов, объединенный с модулем пространственного трансформатора (STN) для захвата общей семантической информации и соответствий между различными точками зрения. Кроме того, мы используем подход на основе куррикулума для случайной дополнительной обработки, чтобы стабилизировать процесс обучения с подкреплением и укрепить визуальные обобщающие способности. Для демонстрации эффективности Maniwhere мы тщательно разрабатываем 8 задач, включающих артикулированные объекты, бимануальные и ловкие задачи манипуляции руками, продемонстрировав сильные визуальные обобщающие и возможности передачи из симуляции в реальность на 3 аппаратных платформах. Наши эксперименты показывают, что Maniwhere значительно превосходит существующие методы, являющиеся лучшими на сегодняшний день. Видео предоставлены по ссылке https://gemcollector.github.io/maniwhere/.
Разные пользователи находят разные изображения, сгенерированные для одного и того же запроса, привлекательными. Это приводит к персонализированной генерации изображений, которая включает создание изображений, соответствующих визуальным предпочтениям конкретного человека. Однако текущие генеративные модели не персонализированы, так как настроены на создание результатов, которые привлекательны для широкой аудитории. Использование их для генерации изображений, соответствующих индивидуальным пользователям, зависит от итеративного ручного формирования запроса пользователем, что неэффективно и нежелательно. Мы предлагаем персонализировать процесс генерации изображений, сначала захватив общие предпочтения пользователя в однократном процессе, пригласив их прокомментировать небольшой выбор изображений, объясняя, почему им нравится или не нравится каждое изображение. На основе этих комментариев мы выводим структурированные предпочтения пользователя к визуальным атрибутам, то есть их визуальные предпочтения, с помощью большой языковой модели. Эти атрибуты используются для направления модели текста в изображение на производство изображений, настроенных на визуальные предпочтения индивидуального пользователя. Через серию пользовательских исследований и оценок, направляемых большой языковой моделью, мы демонстрируем, что предложенный метод приводит к генерациям, которые хорошо соответствуют визуальным предпочтениям индивидуальных пользователей.
Низкоточные форматы, такие как float8, были введены в аппаратное обеспечение ускоренного машинного обучения для повышения вычислительной эффективности при обучении и выводе крупных языковых моделей. Тем не менее, принятие этим сообществом машинного обучения замедлилось из-за сложных и иногда хрупких техник, необходимых для достижения точности обучения более высокой точности. В данной работе мы представляем Scalify, парадигму распространения масштаба от начала до конца для вычислительных графов, обобщая и формализуя существующие методы масштабирования тензоров. Результаты экспериментов показывают, что Scalify поддерживает матричное умножение с плавающей запятой float8 и представление градиентов, а также хранение состояния оптимизатора с плавающей запятой float16. Наша реализация Scalify на JAX доступна в открытом доступе по ссылке https://github.com/graphcore-research/jax-scalify
Многие сложные задачи, такие как управление транспортными системами, электросетями или цепочками поставок, включают в себя сложные процессы принятия решений, которые должны учитывать несколько конфликтующих целей и координировать действия различных независимых принимающих решения лиц (DMs). Один из подходов к формализации и решению таких задач - это многокритериальное многоагентное обучение с подкреплением (MOMARL). MOMARL расширяет обучение с подкреплением (RL) на проблемы с несколькими агентами, каждому из которых необходимо учитывать несколько целей в своем процессе обучения. В исследованиях по обучению с подкреплением, эталоны имеют важное значение для облегчения прогресса, оценки и воспроизводимости. Значимость эталонов подчеркивается наличием множества фреймворков эталонов, разработанных для различных парадигм RL, включая RL для одного агента (например, Gymnasium), RL для нескольких агентов (например, PettingZoo) и многокритериальное RL для одного агента (например, MO-Gymnasium). Для поддержки развития области MOMARL мы представляем MOMAland, первую коллекцию стандартизированных сред для многокритериального многоагентного обучения с подкреплением. MOMAland решает потребность в комплексной оценке в этом новом направлении, предлагая более 10 разнообразных сред, отличающихся числом агентов, представлением состояний, структурами вознаграждения и учетом полезности. Для обеспечения надежных базовых значений для будущих исследований, MOMAland также включает алгоритмы, способные обучаться политикам в таких условиях.
Последние годы характеризуются резким всплеском изображений, созданных с использованием диффузии, что представляет уникальные вызовы для существующих технологий обнаружения. Хотя задача идентификации этих изображений относится к бинарной классификации, кажущейся простой категории, вычислительная нагрузка значительна при использовании техники "восстановление, затем сравнение". Этот подход, известный как DIRE (Ошибка реконструкции диффузии), не только идентифицирует изображения, созданные с использованием диффузии, но также обнаруживает те, которые были созданы с помощью GAN, подчеркивая широкие возможности этой техники. Для решения вычислительных проблем и повышения эффективности мы предлагаем извлечение знаний, заложенных в моделях диффузии, для разработки быстрых моделей обнаружения дипфейков. Наш подход, направленный на создание небольшого, быстрого, дешевого и легкого детектора дипфейков, синтезированных с использованием диффузии, сохраняет надежное качество работы, существенно снижая операционные требования. Сохраняя производительность, наши экспериментальные результаты показывают скорость вывода в 3,2 раза выше, чем у существующей структуры DIRE. Этот прогресс не только улучшает практичность развертывания этих систем в реальных условиях, но также укладывает дорогу для будущих исследовательских усилий, направленных на использование знаний модели диффузии.
Отрасли автономного вождения обычно нанимают профессиональных художников для создания изысканных 3D-автомобилей. Однако создание цифровых активов крупного масштаба является дорогостоящим. Поскольку уже существует множество наборов данных, содержащих огромное количество изображений автомобилей, мы сосредотачиваемся на восстановлении высококачественных 3D-моделей автомобилей из этих наборов данных. Однако эти наборы данных содержат только одну сторону автомобилей в сцене движущегося вперед. Мы пытаемся использовать существующие генеративные модели для предоставления дополнительной информации о надзоре, но они испытывают затруднения с обобщением в автомобилях, поскольку обучены на синтетических наборах данных, не специфичных для автомобилей. Кроме того, восстановленная текстура 3D-автомобиля смещается из-за большой ошибки в оценке положения камеры при работе с изображениями в естественных условиях. Эти ограничения делают вызовом для предыдущих методов восстановление полных 3D-автомобилей. Для решения этих проблем мы предлагаем новый метод, названный DreamCar, который способен восстанавливать высококачественные 3D-автомобили по нескольким изображениям, даже по одному. Для обобщения генеративной модели мы собираем набор данных автомобилей, названный Car360, с более чем 5 600 транспортными средствами. С помощью этого набора данных мы делаем генеративную модель более устойчивой к автомобилям. Мы используем этот генеративный априори, специфичный для автомобилей, чтобы направлять его восстановление с помощью выборки по дистилляции оценки. Для дополнения информации о надзоре мы используем геометрическую и внешнюю симметрию автомобилей. Наконец, мы предлагаем метод оптимизации положения, который исправляет положения для решения проблемы смещения текстуры. Обширные эксперименты показывают, что наш метод значительно превосходит существующие методы в восстановлении высококачественных 3D-автомобилей. {Наш код доступен по ссылке: https://xiaobiaodu.github.io/dreamcar-project/}