Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) полезны во многих задачах обработки естественного языка и становятся более мощными с увеличением размера, при этом лучшие модели с открытым исходным кодом содержат более 50 миллиардов параметров. Однако использование этих моделей с 50+ миллиардами параметров требует высокопроизводительного оборудования, что делает их недоступными для большинства исследователей. В данной работе мы исследуем методы для экономически эффективного вывода и тонкой настройки LLM, сравнивая локальные и распределенные стратегии. Мы наблюдаем, что достаточно крупная модель (50+ миллиардов параметров) может эффективно работать даже на географически распределенных устройствах в сети потребительского уровня. Это может позволить эффективно запускать LLM, объединяя простаивающие вычислительные ресурсы нескольких исследовательских групп и добровольцев. Мы решаем две открытые проблемы: (1) как выполнять вывод и тонкую настройку надежно, если любое устройство может внезапно отключиться, и (2) как разделять LLM между устройствами с неравномерным оборудованием, которые могут присоединяться и покидать систему по своему усмотрению. Для этого мы разрабатываем специальные отказоустойчивые алгоритмы вывода и протоколы балансировки нагрузки, которые автоматически назначают устройства для максимизации общей пропускной способности системы. Мы демонстрируем эти алгоритмы в системе Petals — децентрализованной системе, которая запускает Llama 2 (70B) и BLOOM (176B) через Интернет до 10 раз быстрее, чем оффлоадинг, для интерактивной генерации. Мы оцениваем производительность нашей системы в смоделированных условиях и в реальной установке, охватывающей два континента.
Существующие методы сегментации изображений с открытым словарём требуют этапа тонкой настройки на аннотациях масок и/или наборах данных "изображение-текст". Создание масок является трудоёмким процессом, что ограничивает количество категорий в наборах данных для сегментации. В результате, способность предварительно обученных моделей визуального языка (VLM) к работе с открытым словарём значительно снижается после тонкой настройки. Однако без тонкой настройки VLM, обученные на слабом надзоре "изображение-текст", склонны давать неоптимальные предсказания масок, когда текстовые запросы ссылаются на несуществующие в изображении концепции. Для смягчения этих проблем мы представляем новую рекуррентную структуру, которая постепенно отфильтровывает нерелевантные тексты и улучшает качество масок без необходимости обучения. Рекуррентный блок представляет собой двухэтапный сегментатор, построенный на основе VLM с замороженными весами. Таким образом, наша модель сохраняет широкое словарное пространство VLM и усиливает её способность к сегментации. Экспериментальные результаты показывают, что наш метод превосходит не только аналоги без обучения, но и те, которые были тонко настроены на миллионах дополнительных образцов данных, устанавливая новые рекорды для задач семантической сегментации с нулевым обучением и сегментации изображений по ссылкам. В частности, мы улучшаем текущие рекорды на 28.8, 16.0 и 6.9 mIoU на Pascal VOC, COCO Object и Pascal Context соответственно.
3D-симулированные среды играют ключевую роль в воплощённом искусственном интеллекте (Embodied AI), однако их создание требует экспертных знаний и значительных ручных усилий, что ограничивает их разнообразие и масштаб. Чтобы смягчить это ограничение, мы представляем Holodeck — систему, которая автоматически генерирует 3D-среды в соответствии с запросом пользователя. Holodeck способен создавать разнообразные сцены, такие как аркады, спа-салоны и музеи, адаптировать дизайн под различные стили и учитывать семантику сложных запросов, например, "квартира для исследователя с котом" или "офис профессора, который является фанатом Звёздных войн". Holodeck использует крупную языковую модель (GPT-4) для получения знаний о том, как может выглядеть сцена, и применяет обширную коллекцию 3D-объектов из Objaverse для наполнения сцены разнообразными элементами. Чтобы решить задачу корректного размещения объектов, мы используем GPT-4 для генерации пространственных ограничений между объектами и затем оптимизируем компоновку для удовлетворения этих ограничений. Наше масштабное человеческое оценивание показывает, что аннотаторы предпочитают Holodeck в сравнении с ручными процедурными базовыми решениями в жилых сценах, а также что Holodeck способен создавать высококачественные результаты для различных типов сцен. Мы также демонстрируем перспективное применение Holodeck в воплощённом ИИ, обучая агентов навигации в новых сценах, таких как музыкальные комнаты и детские сады, без использования данных, созданных человеком, что является значительным шагом вперёд в разработке универсальных воплощённых агентов.
Данная работа направлена на повышение эффективности моделей диффузии для генерации изображений из текста. Хотя модели диффузии используют вычислительно затратные операции шумоподавления на основе UNet на каждом этапе генерации, мы выявили, что не все операции одинаково важны для итогового качества изображения. В частности, мы наблюдаем, что слои UNet, работающие с картами признаков высокого разрешения, относительно чувствительны к небольшим изменениям. В то же время карты признаков низкого разрешения влияют на семантическую структуру итогового изображения и часто могут быть изменены без заметного ухудшения результата. На основе этого наблюдения мы предлагаем метод Clockwork Diffusion, который периодически повторно использует вычисления из предыдущих этапов шумоподавления для аппроксимации карт признаков низкого разрешения на одном или нескольких последующих шагах. Для нескольких базовых моделей, а также для задач генерации изображений из текста и редактирования изображений, мы демонстрируем, что Clockwork обеспечивает сопоставимые или улучшенные показатели восприятия при значительном снижении вычислительной сложности. Например, для Stable Diffusion v1.5 с 8 шагами DPM++ мы экономим 32% FLOPs с незначительными изменениями в метриках FID и CLIP.
Мы представляем FoundationPose — унифицированную базовую модель для оценки и отслеживания 6D позы объектов, поддерживающую как модели на основе CAD-моделей, так и модели без их использования. Наш подход может быть мгновенно применен на этапе тестирования к новому объекту без необходимости тонкой настройки, при условии, что предоставлена его CAD-модель или захвачено небольшое количество референсных изображений. Мы устраняем разрыв между этими двумя подходами с помощью нейронного неявного представления, которое позволяет эффективно синтезировать новые виды, сохраняя модули оценки позы неизменными в рамках единой структуры. Высокая обобщающая способность достигается за счет масштабного синтетического обучения, поддержанного использованием крупной языковой модели (LLM), новой архитектуры на основе трансформеров и контрастного обучения. Обширная оценка на нескольких публичных наборах данных, включающих сложные сценарии и объекты, показывает, что наш унифицированный подход значительно превосходит существующие методы, специализированные для каждой задачи. Кроме того, он достигает результатов, сопоставимых с методами на уровне экземпляров, несмотря на уменьшенные допущения. Страница проекта: https://nvlabs.github.io/FoundationPose/
Крупные языковые модели (LLM) сталкиваются с трудностями при решении сложных математических задач, требующих комплексных способностей для анализа формулировок, ассоциации предметных знаний, выполнения сложных логических рассуждений и интеграции промежуточных выводов. Попытка решить все эти задачи одновременно может быть чрезмерно сложной для LLM, что приводит к путанице в генерации. В данной работе мы исследуем потенциал улучшения LLM с помощью агентов путем тщательной декомпозиции и моделирования процесса математического рассуждения. В частности, мы предлагаем формальное описание математического решения и расширяем LLM с помощью агентского zero-shot фреймворка под названием Planner-Reasoner-Executor-Reflector (PRER). Мы также разрабатываем и реализуем два MathAgent, которые определяют логические формы и внутренние связи через набор действий различной детализации и направленности: MathAgent-M адаптирует свои действия к LLM, а MathAgent-H ориентируется на человеческое мышление. Эксперименты на наборах данных miniF2F и MATH продемонстрировали эффективность PRER и предложенных MathAgent, показав увеличение на 12,3% (с 53,9% до 66,2%) на miniF2F, 9,2% (с 49,8% до 59,0%) на MATH и 13,2% (с 23,2% до 35,4%) для задач 5-го уровня MATH по сравнению с GPT-4. Дополнительные аналитические результаты предоставляют более глубокие перспективы для изучения поведения LLM в роли агентов.
Обнаружение рационального обоснования определяется как поиск подмножества входных данных, которые максимально поддерживают прогнозирование в последующих задачах. В контексте машинного обучения на графах рациональное обоснование графа определяется как выделение критического подграфа в заданной топологии графа, который фундаментально определяет результаты прогнозирования. В отличие от рационального подграфа, оставшийся подграф называется подграфом окружения. Рационализация графа может улучшить производительность модели, поскольку предполагается, что соответствие между рациональным подграфом и меткой прогноза является инвариантным. Для обеспечения дискриминативной способности извлеченных рациональных подграфов применяется ключевая техника, называемая "интервенцией". Основная идея интервенции заключается в том, что при любых изменениях подграфа окружения семантика рационального подграфа остается неизменной, что гарантирует правильный результат прогнозирования. Однако большинство, если не все, существующие работы по рационализации на графах разрабатывают свои стратегии интервенции на уровне графа, что является грубым подходом. В данной статье мы предлагаем тщательно разработанные стратегии интервенции на графах. Наша идея вдохновлена развитием моделей Transformer, чей модуль самовнимания обеспечивает богатое взаимодействие между входными узлами. На основе модуля самовнимания наш предложенный инвариантный графовый Transformer (IGT) позволяет достичь более детализированной, а именно узлового и виртуального узлового уровня, интервенции. Наши комплексные эксперименты включают 7 реальных наборов данных, и предложенный IGT демонстрирует значительные преимущества в производительности по сравнению с 13 базовыми методами.
Последние достижения в области нейронного рендеринга показали, что, несмотря на низкую скорость, компактные неявные модели способны изучать геометрию сцены и зависящие от угла обзора характеристики на основе множества видов. Для сохранения малого объема памяти при одновременном ускорении времени вывода последние работы используют сети-«сэмплеры», которые адаптивно выбирают небольшое подмножество точек вдоль каждого луча в неявных нейронных полях излучения. Хотя эти методы позволяют сократить время рендеринга до 10 раз, они все же страдают от значительного ухудшения качества по сравнению с базовым NeRF. В отличие от них, мы предлагаем ProNeRF, который обеспечивает оптимальный баланс между объемом памяти (сопоставимым с NeRF), скоростью (выше, чем у HyperReel) и качеством (лучше, чем у K-Planes). ProNeRF оснащен новой сетью сэмплинга с учетом проекции (PAS) и новой стратегией обучения для исследования и использования лучей, что позволяет эффективно проводить детальный сэмплинг частиц. Наш ProNeRF демонстрирует наилучшие метрики, работая в 15–23 раза быстрее с увеличением PSNR на 0,65 дБ по сравнению с NeRF и превосходя лучший опубликованный метод на основе сэмплеров, HyperReel, на 0,95 дБ. Наша стратегия обучения, сочетающая исследование и использование, позволяет ProNeRF изучать полные распределения цвета и плотности сцен, одновременно обучаясь эффективному сэмплингу лучей, сосредоточенному на областях с наибольшей плотностью. Мы предоставляем обширные экспериментальные результаты, подтверждающие эффективность нашего метода на широко используемых наборах данных для фронтальных и 360-градусных сцен, LLFF и Blender соответственно.