HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

OpenDevin: Открытая платформа для разработчиков программного обеспечения в области искусственного интеллекта в качестве агентов-универсалов
OpenDevin: An Open Platform for AI Software Developers as Generalist Agents

Jul 23

ByXingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin, Robert Brennan, Hao Peng, Heng Ji, Graham Neubig

Программное обеспечение является одним из самых мощных инструментов, которыми мы, люди, располагаем; оно позволяет опытному программисту взаимодействовать с миром сложным и глубоким образом. В то же время, благодаря улучшениям в больших языковых моделях (LLM), также произошло быстрое развитие искусственных интеллектуальных агентов, которые взаимодействуют и оказывают влияние на окружающие среды. В данной статье мы представляем OpenDevin, платформу для разработки мощных и гибких искусственных интеллектуальных агентов, которые взаимодействуют с миром аналогично человеческому разработчику: путем написания кода, взаимодействия с командной строкой и просмотра веб-страниц. Мы описываем, как платформа позволяет реализовывать новых агентов, безопасно взаимодействовать с изолированными средами для выполнения кода, координировать действия между несколькими агентами и включать оценочные бенчмарки. Основываясь на наших включенных в настоящее время бенчмарках, мы проводим оценку агентов по 15 сложным задачам, включая инженерию программного обеспечения (например, SWE-Bench) и просмотр веб-страниц (например, WebArena), среди прочих. Выпущенный под лицензией MIT, OpenDevin является проектом сообщества, охватывающим академию и промышленность, с более чем 1,3 тыс. вкладов от более чем 160 участников и будет улучшаться в будущем.

VILA^2: Расширенный VILA
VILA^2: VILA Augmented VILA

Jul 24

ByYunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin

Визуальные языковые модели (VLM) стремительно развиваются, подталкиваемые успехом крупных языковых моделей (LLM). В то время как архитектуры моделей и инфраструктуры обучения быстро совершенствуются, кураторство данных остается малоисследованным. Когда количество и качество данных становятся узким местом, существующие работы либо напрямую извлекают больше необработанных данных из Интернета, не гарантируя их качество, либо дистиллируют их из коммерческих черных ящиков (например, GPT-4V / Gemini), ограничивая производительность верхней границей этой модели. В данной работе мы представляем новый подход, включающий этап самоувеличения и этап увеличения специалиста для итеративного улучшения качества данных и производительности модели. На этапе самоувеличения VLM повторно описывает свои собственные данные предварительного обучения для улучшения качества данных, а затем переобучается с нуля, используя этот уточненный набор данных для улучшения производительности модели. Этот процесс может повторяться несколько раундов. Как только самоувеличение насыщается, мы используем несколько специализированных VLM, донастроенных из самоувеличенного VLM с экспертизой в определенной области, чтобы дополнительно внедрить специализированные знания в общий VLM через задачно-ориентированное повторное описывание и переобучение. Совместно с самоувеличением и увеличением специалиста мы представляем VILA^2 (VILA-увеличенный-VILA), семейство VLM, которое последовательно улучшает точность на широком спектре задач по сравнению с предыдущими работами и достигает новых результатов на доске лидеров MMMU среди моделей с открытым исходным кодом.

HumanVid: Расшифровка обучающих данных для управляемой камерой человеческого изображения.
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

Jul 24

ByZhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin

Анимация человеческого изображения включает создание видеороликов из фотографии персонажа, позволяя пользователю контролировать процесс и раскрывая потенциал для производства видео и фильмов. Хотя недавние подходы достигают впечатляющих результатов с использованием высококачественных обучающих данных, недоступность этих наборов данных затрудняет справедливое и прозрачное сравнение. Более того, эти подходы придают приоритет движению человека в 2D и пренебрегают значимостью движений камеры в видеороликах, что приводит к ограниченному контролю и нестабильной генерации видео. Для разъяснения обучающих данных мы представляем HumanVid, первый крупномасштабный набор данных высокого качества, разработанный специально для анимации человеческого изображения, который объединяет созданные реальные и синтетические данные. Для реальных данных мы собираем обширную коллекцию видеороликов из мира интернета, свободных от авторских прав. Через тщательно разработанную стратегию фильтрации на основе правил мы гарантируем включение видеороликов высокого качества, что приводит к коллекции из 20 тыс. видеороликов, сосредоточенных на людях, с разрешением 1080P. Аннотация движения человека и камеры выполняется с помощью оценщика позы в 2D и метода на основе SLAM. Для синтетических данных мы собираем 2 300 свободных от авторских прав 3D-модели аватаров для дополнения уже доступных 3D-активов. Особенно стоит отметить, что мы представляем метод генерации траектории камеры на основе правил, позволяющий синтетическому конвейеру включать разнообразную и точную аннотацию движения камеры, что редко встречается в реальных данных. Для проверки эффективности HumanVid мы устанавливаем базовую модель под названием CamAnimate, что означает Camera-controllable Human Animation, учитывающую как движения человека, так и камеры в качестве условий. Через обширные эксперименты мы демонстрируем, что такое простое базовое обучение на нашем HumanVid достигает передовых результатов в контроле как позы человека, так и движений камеры, устанавливая новый стандарт. Код и данные будут общедоступны по адресу https://github.com/zhenzhiwang/HumanVid/.

DDK: Извлечение Доменных Знаний для Эффективных Больших Языковых Моделей
DDK: Distilling Domain Knowledge for Efficient Large Language Models

Jul 23

ByJiaheng Liu, Chenchen Zhang, Jinyang Guo, Yuanxing Zhang, Haoran Que, Ken Deng, Zhiqi Bai, Jie Liu, Ge Zhang, Jiakai Wang, Yanan Wu, Congnan Liu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng

Несмотря на продвинутые возможности интеллекта крупных моделей языка (LLM) в различных приложениях, они все еще сталкиваются с значительными вычислительными и объемными требованиями. Дистилляция знаний (KD) стала эффективной стратегией для улучшения производительности более маленькой LLM (т.е. модели ученика) путем передачи знаний от высокопроизводительной LLM (т.е. модели учителя). Преобладающие техники дистилляции LLM обычно используют черный ящик API модели для создания качественных предварительно обученных и выровненных наборов данных, или применяют дистилляцию белого ящика, изменяя функцию потерь для более эффективной передачи знаний от учителя LLM. Однако эти методы не учитывают различия в знаниях между LLM ученика и учителя в различных областях. Это приводит к излишнему фокусу на области с минимальными разрывами в производительности и недостаточному вниманию к областям с большими разрывами, что снижает общую производительность. В данной статье мы представляем новую рамку дистилляции LLM под названием DDK, которая динамически корректирует состав набора данных дистилляции плавным образом в соответствии с различиями в производительности областей между моделями учителя и ученика, делая процесс дистилляции более стабильным и эффективным. Обширные оценки показывают, что DDK значительно улучшает производительность моделей учеников, превосходя как непрерывно предварительно обученные базовые модели, так и существующие методы дистилляции знаний с большим отрывом.

PERSONA: Воспроизводимая платформа для плюралистического выравнивания
PERSONA: A Reproducible Testbed for Pluralistic Alignment

Jul 24

ByLouis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn

Быстрое развитие языковых моделей (LMs) требует надежного выравнивания с разнообразными ценностями пользователей. Однако текущие подходы к оптимизации предпочтений часто не удается уловить множественность мнений пользователей, вместо этого укрепляя мнения большинства и маргинализируя меньшинственные точки зрения. Мы представляем PERSONA, воспроизводимую платформу, разработанную для оценки и улучшения плюралистического выравнивания LMs. Мы процедурно генерируем разнообразные профили пользователей на основе данных переписи населения США, что приводит к созданию 1 586 синтетических персон с разнообразными демографическими и идиосинкратическими характеристиками. Затем мы создаем крупномасштабный набор данных для оценки, содержащий 3 868 запросов и 317 200 пар обратной связи, полученных от наших синтетических персон. Используя этот набор данных, мы систематически оцениваем возможности LM в ролевой игре различных пользователей, подтвержденные судьями-людьми, и создаем как эталон, PERSONA Bench, для плюралистических подходов к выравниванию, так и обширный набор данных для создания новых и будущих эталонов. Полный набор данных и эталоны доступны здесь: https://www.synthlabs.ai/research/persona.

Longhorn: Модели пространства состояний являются амортизированными онлайн-обучающимися.
Longhorn: State Space Models are Amortized Online Learners

Jul 19

ByBo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu

Самая фундаментальная способность современных методов искусственного интеллекта, таких как модели больших языковых моделей (LLM), заключается в возможности предсказать следующий токен в длинной последовательности токенов, известной как "моделирование последовательности". Хотя модель Transformers является текущим доминирующим подходом к моделированию последовательностей, ее квадратичная вычислительная сложность относительно длины последовательности является значительным недостатком. Модели пространства состояний (SSM) предлагают многообещающую альтернативу благодаря своей линейной эффективности декодирования и высокой параллелизуемости во время обучения. Однако существующие SSM часто опираются на кажущиеся произвольными линейные рекуррентные конструкции. В данной работе мы исследуем проектирование SSM через призму онлайн-обучения, концептуализируя SSM как мета-модули для конкретных задач онлайн-обучения. Этот подход связывает проектирование SSM с формулировкой точных целей онлайн-обучения, с правилами перехода состояний, выведенными из оптимизации этих целей. Основываясь на этом понимании, мы представляем новую глубокую архитектуру SSM на основе неявного обновления для оптимизации цели онлайн-регрессии. Наши экспериментальные результаты показывают, что наши модели превосходят современные SSM, включая модель Mamba, на стандартных бенчмарках моделирования последовательностей и задачах языкового моделирования.

SV4D: Генерация динамического 3D-контента с многокадровой и многопроекционной согласованностью
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

Jul 24

ByYiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani

Мы представляем модель стабильной диффузии видео 4D (SV4D) - латентную модель диффузии для генерации динамического 3D контента согласованного по нескольким кадрам и точкам зрения. В отличие от предыдущих методов, которые полагаются на отдельно обученные генеративные модели для генерации видео и синтеза новых видов, мы разработали объединенную модель диффузии для создания видео новых видов динамических 3D объектов. Конкретно, учитывая монокулярное опорное видео, SV4D генерирует новые виды для каждого кадра видео, которые являются временно согласованными. Затем мы используем сгенерированные видео новых видов для эффективной оптимизации неявного 4D представления (динамический NeRF), без необходимости громоздкой оптимизации на основе SDS, используемой в большинстве предыдущих работ. Для обучения нашей объединенной модели генерации видео новых видов мы составили динамический набор данных 3D объектов из существующего набора данных Objaverse. Обширные экспериментальные результаты на нескольких наборах данных и пользовательские исследования демонстрируют передовую производительность SV4D в синтезе видео новых видов, а также в генерации 4D по сравнению с предыдущими работами.

Обучение манипуляции в любом месте: визуальная обобщаемая структура для обучения с подкреплением
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

Jul 22

ByZhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu

Можем ли мы наделить визуомоторных роботов обобщающими способностями для работы в разнообразных сценариях открытого мира? В данной статье мы предлагаем Maniwhere, обобщаемую структуру, специально разработанную для обучения с подкреплением на основе зрительных данных, позволяющую обученным политикам роботов обобщаться на сочетание нескольких типов визуальных помех. Конкретно, мы представляем подход к обучению представлений с нескольких видов, объединенный с модулем пространственного трансформатора (STN) для захвата общей семантической информации и соответствий между различными точками зрения. Кроме того, мы используем подход на основе куррикулума для случайной дополнительной обработки, чтобы стабилизировать процесс обучения с подкреплением и укрепить визуальные обобщающие способности. Для демонстрации эффективности Maniwhere мы тщательно разрабатываем 8 задач, включающих артикулированные объекты, бимануальные и ловкие задачи манипуляции руками, продемонстрировав сильные визуальные обобщающие и возможности передачи из симуляции в реальность на 3 аппаратных платформах. Наши эксперименты показывают, что Maniwhere значительно превосходит существующие методы, являющиеся лучшими на сегодняшний день. Видео предоставлены по ссылке https://gemcollector.github.io/maniwhere/.

ViPer: Визуальная персонализация генеративных моделей с помощью обучения индивидуальных предпочтений
ViPer: Visual Personalization of Generative Models via Individual Preference Learning

Jul 24

BySogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir

Разные пользователи находят разные изображения, сгенерированные для одного и того же запроса, привлекательными. Это приводит к персонализированной генерации изображений, которая включает создание изображений, соответствующих визуальным предпочтениям конкретного человека. Однако текущие генеративные модели не персонализированы, так как настроены на создание результатов, которые привлекательны для широкой аудитории. Использование их для генерации изображений, соответствующих индивидуальным пользователям, зависит от итеративного ручного формирования запроса пользователем, что неэффективно и нежелательно. Мы предлагаем персонализировать процесс генерации изображений, сначала захватив общие предпочтения пользователя в однократном процессе, пригласив их прокомментировать небольшой выбор изображений, объясняя, почему им нравится или не нравится каждое изображение. На основе этих комментариев мы выводим структурированные предпочтения пользователя к визуальным атрибутам, то есть их визуальные предпочтения, с помощью большой языковой модели. Эти атрибуты используются для направления модели текста в изображение на производство изображений, настроенных на визуальные предпочтения индивидуального пользователя. Через серию пользовательских исследований и оценок, направляемых большой языковой моделью, мы демонстрируем, что предложенный метод приводит к генерациям, которые хорошо соответствуют визуальным предпочтениям индивидуальных пользователей.

Scalify: масштабное распространение для эффективного обучения LLM с низкой точностью.
Scalify: scale propagation for efficient low-precision LLM training

Jul 24

ByPaul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon

Низкоточные форматы, такие как float8, были введены в аппаратное обеспечение ускоренного машинного обучения для повышения вычислительной эффективности при обучении и выводе крупных языковых моделей. Тем не менее, принятие этим сообществом машинного обучения замедлилось из-за сложных и иногда хрупких техник, необходимых для достижения точности обучения более высокой точности. В данной работе мы представляем Scalify, парадигму распространения масштаба от начала до конца для вычислительных графов, обобщая и формализуя существующие методы масштабирования тензоров. Результаты экспериментов показывают, что Scalify поддерживает матричное умножение с плавающей запятой float8 и представление градиентов, а также хранение состояния оптимизатора с плавающей запятой float16. Наша реализация Scalify на JAX доступна в открытом доступе по ссылке https://github.com/graphcore-research/jax-scalify

MOMAland: Набор бенчмарков для многокритериального многоагентного обучения с подкреплением.
MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning

Jul 23

ByFlorian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu

Многие сложные задачи, такие как управление транспортными системами, электросетями или цепочками поставок, включают в себя сложные процессы принятия решений, которые должны учитывать несколько конфликтующих целей и координировать действия различных независимых принимающих решения лиц (DMs). Один из подходов к формализации и решению таких задач - это многокритериальное многоагентное обучение с подкреплением (MOMARL). MOMARL расширяет обучение с подкреплением (RL) на проблемы с несколькими агентами, каждому из которых необходимо учитывать несколько целей в своем процессе обучения. В исследованиях по обучению с подкреплением, эталоны имеют важное значение для облегчения прогресса, оценки и воспроизводимости. Значимость эталонов подчеркивается наличием множества фреймворков эталонов, разработанных для различных парадигм RL, включая RL для одного агента (например, Gymnasium), RL для нескольких агентов (например, PettingZoo) и многокритериальное RL для одного агента (например, MO-Gymnasium). Для поддержки развития области MOMARL мы представляем MOMAland, первую коллекцию стандартизированных сред для многокритериального многоагентного обучения с подкреплением. MOMAland решает потребность в комплексной оценке в этом новом направлении, предлагая более 10 разнообразных сред, отличающихся числом агентов, представлением состояний, структурами вознаграждения и учетом полезности. Для обеспечения надежных базовых значений для будущих исследований, MOMAland также включает алгоритмы, способные обучаться политикам в таких условиях.

DistilDIRE: Маленькое, быстрое, дешевое и легкое обнаружение глубоких фейков с использованием диффузионного синтеза.
DistilDIRE: A Small, Fast, Cheap and Lightweight Diffusion Synthesized Deepfake Detection

Jun 2

ByYewon Lim, Changyeon Lee, Aerin Kim, Oren Etzioni

Последние годы характеризуются резким всплеском изображений, созданных с использованием диффузии, что представляет уникальные вызовы для существующих технологий обнаружения. Хотя задача идентификации этих изображений относится к бинарной классификации, кажущейся простой категории, вычислительная нагрузка значительна при использовании техники "восстановление, затем сравнение". Этот подход, известный как DIRE (Ошибка реконструкции диффузии), не только идентифицирует изображения, созданные с использованием диффузии, но также обнаруживает те, которые были созданы с помощью GAN, подчеркивая широкие возможности этой техники. Для решения вычислительных проблем и повышения эффективности мы предлагаем извлечение знаний, заложенных в моделях диффузии, для разработки быстрых моделей обнаружения дипфейков. Наш подход, направленный на создание небольшого, быстрого, дешевого и легкого детектора дипфейков, синтезированных с использованием диффузии, сохраняет надежное качество работы, существенно снижая операционные требования. Сохраняя производительность, наши экспериментальные результаты показывают скорость вывода в 3,2 раза выше, чем у существующей структуры DIRE. Этот прогресс не только улучшает практичность развертывания этих систем в реальных условиях, но также укладывает дорогу для будущих исследовательских усилий, направленных на использование знаний модели диффузии.

DreamCar: Использование автомобильной специфики для реконструкции 3D-моделей автомобилей в естественных условиях.
DreamCar: Leveraging Car-specific Prior for in-the-wild 3D Car Reconstruction

Jul 24

ByXiaobiao Du, Haiyang Sun, Ming Lu, Tianqing Zhu, Xin Yu

Отрасли автономного вождения обычно нанимают профессиональных художников для создания изысканных 3D-автомобилей. Однако создание цифровых активов крупного масштаба является дорогостоящим. Поскольку уже существует множество наборов данных, содержащих огромное количество изображений автомобилей, мы сосредотачиваемся на восстановлении высококачественных 3D-моделей автомобилей из этих наборов данных. Однако эти наборы данных содержат только одну сторону автомобилей в сцене движущегося вперед. Мы пытаемся использовать существующие генеративные модели для предоставления дополнительной информации о надзоре, но они испытывают затруднения с обобщением в автомобилях, поскольку обучены на синтетических наборах данных, не специфичных для автомобилей. Кроме того, восстановленная текстура 3D-автомобиля смещается из-за большой ошибки в оценке положения камеры при работе с изображениями в естественных условиях. Эти ограничения делают вызовом для предыдущих методов восстановление полных 3D-автомобилей. Для решения этих проблем мы предлагаем новый метод, названный DreamCar, который способен восстанавливать высококачественные 3D-автомобили по нескольким изображениям, даже по одному. Для обобщения генеративной модели мы собираем набор данных автомобилей, названный Car360, с более чем 5 600 транспортными средствами. С помощью этого набора данных мы делаем генеративную модель более устойчивой к автомобилям. Мы используем этот генеративный априори, специфичный для автомобилей, чтобы направлять его восстановление с помощью выборки по дистилляции оценки. Для дополнения информации о надзоре мы используем геометрическую и внешнюю симметрию автомобилей. Наконец, мы предлагаем метод оптимизации положения, который исправляет положения для решения проблемы смещения текстуры. Обширные эксперименты показывают, что наш метод значительно превосходит существующие методы в восстановлении высококачественных 3D-автомобилей. {Наш код доступен по ссылке: https://xiaobiaodu.github.io/dreamcar-project/}

HumanVid: Расшифровка обучающих данных для управляемой камерой человеческого изображения.
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

Jul 24

ByZhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin