Ежедневно отобранные исследовательские статьи по ИИ с переводами
StarCraft II представляет собой одну из самых сложных сред для обучения с подкреплением в симуляции; она частично наблюдаема, стохастична, многопользовательская, и для мастерского владения StarCraft II требуется стратегическое планирование на длительных временных горизонтах с выполнением действий в реальном времени. Кроме того, в этой игре существует активная профессиональная соревновательная сцена. StarCraft II особенно подходит для продвижения алгоритмов обучения с подкреплением на основе оффлайн-данных, как из-за своей сложности, так и благодаря тому, что компания Blizzard выпустила огромный набор данных, содержащий миллионы игр StarCraft II, сыгранных людьми. В данной работе используется этот набор данных и создается бенчмарк под названием AlphaStar Unplugged, который вводит беспрецедентные вызовы для оффлайн-обучения с подкреплением. Мы определяем набор данных (подмножество выпущенных Blizzard данных), инструменты для стандартизации API для методов машинного обучения и протокол оценки. Также представлены базовые агенты, включая поведенческое клонирование, оффлайн-варианты актор-критик и MuZero. Мы улучшаем современное состояние агентов, использующих только оффлайн-данные, и достигаем 90% уровня побед против ранее опубликованного агента AlphaStar, основанного на поведенческом клонировании.
Крупные языковые модели (LLMs) становятся всё более умными и автономными, ориентируясь на выполнение практических задач в реальном мире, выходящих за рамки традиционных задач обработки естественного языка (NLP). В связи с этим возникла острая необходимость оценивать LLMs как агентов в сложных задачах в интерактивных средах. Мы представляем AgentBench — многомерный развивающийся бенчмарк, который в настоящее время включает 8 различных сред для оценки способностей LLM-агентов к рассуждению и принятию решений в условиях многоходовой генерации с открытым концом. Наши обширные тесты, проведённые на 25 LLM (включая API и модели с открытым исходным кодом), показывают, что, хотя ведущие коммерческие LLM демонстрируют высокую способность действовать как агенты в сложных средах, существует значительный разрыв в производительности между ними и моделями с открытым исходным кодом. AgentBench также является частью более масштабного проекта, направленного на более широкое и глубокое систематическое оценивание LLM. Наборы данных, среды и интегрированный пакет для оценки AgentBench доступны по адресу https://github.com/THUDM/AgentBench.
Создание выразительных, разнообразных и высококачественных 3D-аватаров на основе детализированных текстовых описаний и указаний по позе представляет собой сложную задачу из-за сложности моделирования и текстурирования в 3D, которые обеспечивают детализацию и разнообразие стилей (реалистичные, фантастические и т.д.). Мы представляем AvatarVerse — стабильный конвейер для генерации выразительных и высококачественных 3D-аватаров, используя только текстовые описания и указания по позе. В частности, мы вводим 2D диффузионную модель, управляемую сигналом DensePose, чтобы обеспечить контроль 3D-позы аватаров через 2D-изображения, что улучшает согласованность видов в частично наблюдаемых сценариях. Это решает известную проблему Януса и значительно стабилизирует процесс генерации. Кроме того, мы предлагаем прогрессивную стратегию синтеза 3D-моделей с высоким разрешением, которая существенно повышает качество создаваемых 3D-аватаров. В результате предложенный конвейер AvatarVerse достигает zero-shot 3D-моделирования аватаров, которые не только более выразительны, но и обладают более высоким качеством и точностью по сравнению с предыдущими работами. Тщательные качественные оценки и пользовательские исследования демонстрируют превосходство AvatarVerse в синтезе высокоточных 3D-аватаров, устанавливая новый стандарт в создании стабильных и качественных 3D-аватаров. Наш проект доступен по адресу: https://avatarverse3d.github.io
Недавние модели генерации изображений из текста позволили нам преобразовывать слова в яркие, захватывающие образы. Последовавший всплеск методов персонализации также дал возможность представлять уникальные концепции в новых сценах. Однако остается интригующий вопрос: как можно сгенерировать новую, воображаемую концепцию, которую ранее никто не видел? В данной статье мы представляем задачу креативной генерации изображений из текста, где мы стремимся создавать новые элементы широкой категории (например, генерировать питомца, отличающегося от всех существующих). Мы используем малоизученные модели Diffusion Prior и показываем, что проблему креативной генерации можно сформулировать как процесс оптимизации в пространстве выходных данных диффузионного приора, что приводит к набору "ограничений приора". Чтобы предотвратить сходимость нашей сгенерированной концепции к уже существующим элементам, мы включаем модель вопросов и ответов, которая адаптивно добавляет новые ограничения в задачу оптимизации, побуждая модель находить всё более уникальные творения. Наконец, мы демонстрируем, что наши ограничения приора также могут служить мощным механизмом смешивания, позволяя создавать гибриды между сгенерированными концепциями, что вносит ещё больше гибкости в креативный процесс.
Крупные языковые модели (LLMs) продемонстрировали впечатляющую способность к обобщению, например, в понимании произвольных сущностей и отношений. Настройка на инструкции доказала свою эффективность для дистилляции LLMs в более экономичные модели, такие как Alpaca и Vicuna. Однако такие ученические модели всё ещё значительно отстают от оригинальных LLMs в прикладных задачах. В данной работе мы исследуем целевую дистилляцию с настройкой на инструкции, ориентированной на конкретную задачу, чтобы обучать ученические модели, способные преуспеть в широком классе приложений, таких как открытое извлечение информации. Используя распознавание именованных сущностей (NER) в качестве кейс-стади, мы показываем, как ChatGPT может быть дистиллирован в значительно меньшие модели UniversalNER для открытого NER. Для оценки мы собрали крупнейший на сегодняшний день бенчмарк NER, включающий 43 набора данных из 9 различных областей, таких как биомедицина, программирование, социальные сети, право, финансы. Без использования прямого обучения UniversalNER достигает впечатляющей точности NER для десятков тысяч типов сущностей, превосходя общие модели, настроенные на инструкции, такие как Alpaca и Vicuna, в среднем на более чем 30 абсолютных пунктов F1. Имея крошечную долю параметров, UniversalNER не только приобретает способность ChatGPT распознавать произвольные типы сущностей, но и превосходит его точность NER в среднем на 7-9 абсолютных пунктов F1. Примечательно, что UniversalNER значительно опережает современные многозадачные системы, настроенные на инструкции, такие как InstructUIE, которые используют контролируемые примеры NER. Мы также проводим тщательные исследования влияния различных компонентов нашего подхода к дистилляции. Мы опубликуем рецепт дистилляции, данные и модели UniversalNER, чтобы способствовать дальнейшим исследованиям в области целевой дистилляции.
Видеть — значит верить, однако механизм, лежащий в основе того, как человеческое визуальное восприятие связано с нашим познанием, до сих пор остается загадкой. Благодаря недавним достижениям в нейронауках и искусственном интеллекте, мы получили возможность записывать визуально вызванную активность мозга и имитировать способность визуального восприятия с помощью вычислительных подходов. В данной статье мы сосредоточимся на реконструкции визуальных стимулов, восстанавливая наблюдаемые изображения на основе портативно доступных сигналов мозга, а именно данных электроэнцефалографии (ЭЭГ). Поскольку сигналы ЭЭГ имеют динамический формат временных рядов и известны своей зашумленностью, обработка и извлечение полезной информации требуют более тщательных усилий. В этой статье мы предлагаем комплексный подход, названный NeuroImagen, для реконструкции изображений визуальных стимулов из сигналов ЭЭГ. В частности, мы используем новую методику декодирования многоуровневой перцептивной информации для получения многослойных выходных данных из предоставленных сигналов ЭЭГ. Затем латентная диффузионная модель использует извлеченную информацию для реконструкции высококачественных изображений визуальных стимулов. Экспериментальные результаты демонстрируют эффективность реконструкции изображений и превосходные количественные показатели предложенного метода.
Современные достижения в области обработки естественного языка привели к появлению крупных языковых моделей (LLM) как мощных инструментов для решения различных практических задач. Однако, несмотря на их выдающиеся способности, внутренние генеративные возможности LLM могут оказаться недостаточными для выполнения сложных задач, требующих сочетания планирования задач и использования внешних инструментов. В данной работе мы сначала предлагаем структурированную архитектуру, адаптированную для ИИ-агентов на основе LLM, и обсуждаем ключевые способности, необходимые для решения сложных проблем. В рамках этой архитектуры мы разрабатываем два типа агентов (одношаговый и последовательный) для выполнения процесса вывода. Затем мы реализуем эту архитектуру с использованием различных LLM и оцениваем их способности к планированию задач и использованию инструментов (TPTU) на типичных задачах. Подчеркивая ключевые результаты и вызовы, наша цель — предоставить полезный ресурс для исследователей и практиков, чтобы они могли эффективно использовать возможности LLM в своих ИИ-приложениях. Наше исследование подчеркивает значительный потенциал этих моделей, одновременно выявляя области, требующие дальнейшего изучения и улучшения.
При попытке получить более глубокое представление о модели машинного обучения с целью понимания и снижения связанных с ней рисков потенциально ценным источником информации является вопрос: какие обучающие примеры в наибольшей степени способствуют определенному поведению модели? Функции влияния (influence functions) направлены на ответ на контрфактический вопрос: как изменились бы параметры модели (и, следовательно, её выходные данные), если бы в обучающий набор была добавлена определенная последовательность? Хотя функции влияния дали полезные инсайты для небольших моделей, их сложно масштабировать на крупные языковые модели (LLM) из-за трудностей вычисления произведения вектора на обратную матрицу Гессе (IHVP). Мы используем приближение Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) для масштабирования функций влияния на LLM с числом параметров до 52 миллиардов. В наших экспериментах EK-FAC демонстрирует точность, сопоставимую с традиционными оценками функций влияния, при этом вычисление IHVP выполняется на порядки быстрее. Мы исследуем два алгоритмических подхода для снижения затрат на вычисление градиентов кандидатных обучающих последовательностей: фильтрацию по TF-IDF и пакетную обработку запросов. Мы используем функции влияния для изучения паттернов обобщения LLM, включая разреженность паттернов влияния, увеличение уровня абстракции с ростом масштаба модели, способности в математике и программировании, кросс-лингвистическое обобщение и поведение в ролевых сценариях. Несмотря на множество внешне сложных форм обобщения, мы выявляем удивительное ограничение: влияние снижается почти до нуля при изменении порядка ключевых фраз. В целом, функции влияния предоставляют мощный новый инструмент для изучения свойств обобщения LLM.
Увеличение движения помогает визуализировать тонкие, незаметные движения. Однако предыдущие методы работали только для 2D-видео, снятых с фиксированной камеры. Мы представляем метод увеличения движения в 3D, который позволяет усиливать тонкие движения в сценах, снятых движущейся камерой, с поддержкой рендеринга новых ракурсов. Мы представляем сцену с помощью изменяющихся во времени полей излучения и используем принцип Эйлера для увеличения движения, чтобы извлечь и усилить изменение вложения фиксированной точки с течением времени. Мы исследуем и подтверждаем наш предложенный принцип для увеличения движения в 3D, используя как неявные, так и основанные на триплоскостях поля излучения в качестве базового представления 3D-сцены. Мы оцениваем эффективность нашего метода на синтетических и реальных сценах, снятых при различных настройках камеры.
Последние достижения в области крупных визуально-языковых моделей (LVLMs) продемонстрировали значительный прогресс в решении сложных мультимодальных задач. Среди этих передовых разработок выделяется Google Bard благодаря своим выдающимся мультимодальным возможностям, способствующим всестороннему пониманию и рассуждению в различных областях. В данной работе представлена ранняя и всесторонняя оценка мультимодальных способностей LVLMs, с особым акцентом на Bard, путем предложения облегченной версии LVLM-eHub, названной Tiny LVLM-eHub. По сравнению с базовой версией, Tiny LVLM-eHub обладает несколькими привлекательными свойствами. Во-первых, она обеспечивает систематическую оценку шести категорий мультимодальных способностей, включая визуальное восприятие, приобретение визуальных знаний, визуальное рассуждение, визуальный здравый смысл, галлюцинации объектов и воплощенный интеллект, посредством количественной оценки 42 стандартных визуальных тестов, связанных с текстом. Во-вторых, она проводит углубленный анализ предсказаний LVLMs с использованием ансамблевой оценки ChatGPT (CEE), что приводит к надежной и точной оценке и демонстрирует улучшенное соответствие с человеческой оценкой по сравнению с подходом сопоставления слов. В-третьих, она включает всего 2,1 тыс. пар изображение-текст, что облегчает использование для практиков, оценивающих свои собственные автономные LVLMs. Благодаря обширному экспериментальному анализу, это исследование показывает, что Bard превосходит предыдущие LVLMs в большинстве мультимодальных способностей, за исключением галлюцинаций объектов, к которым Bard все еще подвержен. Tiny LVLM-eHub служит базовой оценкой для различных LVLMs и стимулирует инновационные стратегии, направленные на развитие мультимодальных технологий. Наш проект доступен по адресу https://github.com/OpenGVLab/Multi-Modality-Arena.
Существующие крупные языковые модели требуют выполнения K раз для генерации последовательности из K токенов. В данной статье мы представляем RecycleGPT, генеративную языковую модель с высокой скоростью декодирования, которая повторно использует предварительно сгенерированные состояния модели без необходимости полного выполнения модели на каждом шаге. Наш подход основывается на наблюдении, что соседние токены в последовательности обычно имеют сильные корреляции, и следующий токен в последовательности может быть достаточно точно предсказан или выведен на основе предыдущих. Благодаря теоретическим оценкам и практическим тестам на задачах генерации текста, мы демонстрируем эффективность нашего подхода в снижении задержки вывода, достигая ускорения до 1.4 раза при сохранении высокой производительности.
Недавно метод Neural Radiance Fields (NeRF) продемонстрировал значительные успехи в синтезе новых видов, реконструкции поверхностей и других задачах. Однако, поскольку в его конвейере рендеринга не учитывается физическое отражение, NeRF ошибочно воспринимает отражение в зеркале как отдельную виртуальную сцену, что приводит к неточной реконструкции зеркала и несогласованным отражениям в зеркале при многовидовом анализе. В данной статье мы представляем новый фреймворк нейронного рендеринга под названием Mirror-NeRF, который способен обучаться точной геометрии и отражениям зеркал, а также поддерживает различные приложения для манипуляции сценами с зеркалами, такие как добавление новых объектов или зеркал в сцену, синтез отражений этих новых объектов в зеркалах, управление шероховатостью зеркал и т.д. Для достижения этой цели мы предлагаем унифицированное поле излучения, вводя вероятность отражения и трассируя лучи в соответствии с моделью переноса света Whitted Ray Tracing, а также разрабатываем несколько техник для облегчения процесса обучения. Эксперименты и сравнения на синтетических и реальных наборах данных демонстрируют превосходство нашего метода. Код и дополнительные материалы доступны на странице проекта: https://zju3dv.github.io/Mirror-NeRF/.
Для промышленного управления разработка высокопроизводительных контроллеров с использованием небольшого количества данных и низким уровнем технического долга является привлекательной. Фундаментальные модели, обладающие богатыми предварительными знаниями, полученными в ходе предварительного обучения на интернет-масштабных корпусах, имеют потенциал стать эффективными контроллерами при правильной постановке задач. В данной статье мы рассматриваем управление системами HVAC (отопление, вентиляция и кондиционирование воздуха) в зданиях в качестве примера для изучения способностей GPT-4 (одной из ведущих фундаментальных моделей) в роли контроллера. Для управления HVAC мы формулируем задачу как языковую игру, предоставляя GPT-4 на каждом шаге текстовое описание задачи, несколько выбранных примеров и текущие наблюдения, а затем выполняем действия, предложенные GPT-4. Мы проводим серию экспериментов, чтобы ответить на следующие вопросы: 1) Насколько хорошо GPT-4 может управлять HVAC? 2) Насколько хорошо GPT-4 обобщает для различных сценариев управления HVAC? 3) Как различные части текстового контекста влияют на производительность? В целом, мы обнаружили, что GPT-4 достигает производительности, сопоставимой с методами обучения с подкреплением, при использовании небольшого количества данных и низком уровне технического долга, что указывает на потенциал прямого применения фундаментальных моделей к задачам промышленного управления.
Разработка библиотек для глубокого обучения способствовала значительному прогрессу в этой области, позволяя пользователям сосредоточиться на моделировании, в то время как библиотека берет на себя утомительную и трудоемкую задачу оптимизации выполнения для современных аппаратных ускорителей. Однако это принесло пользу лишь определенным типам моделей глубокого обучения, таким как Transformers, чьи примитивы легко отображаются на векторные вычисления. Модели, которые явно учитывают структурированные объекты, такие как деревья и сегментации, не получили равных преимуществ, поскольку они требуют специализированных алгоритмов, которые сложно реализовать в векторной форме. SynJax напрямую решает эту проблему, предоставляя эффективную векторную реализацию алгоритмов вывода для структурированных распределений, охватывающих выравнивание, разметку, сегментацию, деревья составляющих и остовные деревья. С помощью SynJax можно создавать крупномасштабные дифференцируемые модели, которые явно учитывают структуру данных. Код доступен по адресу https://github.com/deepmind/synjax.
Квантование стало основным методом сжатия для уменьшения размера модели, вычислительных требований и энергопотребления современных глубоких нейронных сетей (DNN). С улучшенной поддержкой числовых форматов в современных аппаратных средствах, включая различные варианты целочисленных и чисел с плавающей запятой, смешанная точность квантования стала необходимой для достижения высококачественных результатов при низкой стоимости модели. Предыдущие методы смешанной точности квантования выполняли поиск квантования после обучения, что компрометировало точность, или дифференцируемый поиск квантования, что приводило к высокому использованию памяти из-за ветвления. Поэтому мы предлагаем первый одноэтапный поиск смешанной точности квантования, который устраняет необходимость повторного обучения как для целочисленных, так и для моделей с низкой точностью чисел с плавающей запятой. Мы оцениваем наш поиск квантования для чисел с плавающей запятой и целых чисел (FLIQS) на нескольких сверточных сетях и моделях трансформеров для визуальных данных, чтобы обнаружить Парето-оптимальные модели. Наш подход обнаруживает модели, которые превосходят равномерную точность, ручную смешанную точность и недавние методы поиска целочисленного квантования. С предложенным поиском целочисленного квантования мы увеличиваем точность ResNet-18 на ImageNet на 1.31 процентных пункта и ResNet-50 на 0.90 процентных пункта при эквивалентной стоимости модели по сравнению с предыдущими методами. Кроме того, впервые мы исследуем новый поиск смешанной точности для чисел с плавающей запятой и улучшаем MobileNetV2 до 0.98 процентных пункта по сравнению с предыдущими моделями FP8, достигшими наилучших результатов. Наконец, мы расширяем FLIQS для одновременного поиска в совместном пространстве квантования и архитектуры нейронных сетей и улучшаем точность на ImageNet на 2.69 процентных пункта при аналогичной стоимости модели в пространстве поиска MobileNetV2.
Глубокие генеративные модели способны создавать аудио высокой точности, используя различные типы представлений (например, мел-спектрограммы, мел-частотные кепстральные коэффициенты (MFCC)). В последнее время такие модели применялись для синтеза аудиоволн на основе сильно сжатых представлений. Хотя эти методы дают впечатляющие результаты, они склонны генерировать слышимые артефакты, если используемые представления содержат ошибки или несовершенны. Альтернативный подход к моделированию заключается в использовании диффузионных моделей. Однако они в основном применялись в качестве вокодеров речи (т.е. на основе мел-спектрограмм) или для генерации сигналов с относительно низкой частотой дискретизации. В данной работе мы предлагаем высокоточную многополосную диффузионную модель, которая генерирует любой тип аудио (например, речь, музыку, окружающие звуки) из низкобитрейтных дискретных представлений. При одинаковом битрейте предложенный подход превосходит современные генеративные методы по воспринимаемому качеству. Код для обучения и оценки, а также аудиообразцы доступны на странице facebookresearch/audiocraft на Github.