Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавнее появление методов самоконтролируемого предварительного обучения привело к значительному росту использования мультимодального обучения в задачах понимания форм документов. Однако существующие подходы, которые расширяют маскированное языковое моделирование на другие модальности, требуют тщательной настройки многозадачности, сложного проектирования целей реконструкции или дополнительных данных для предварительного обучения. В FormNetV2 мы представляем стратегию централизованного контрастного обучения на мультимодальных графах, которая объединяет самоконтролируемое предварительное обучение для всех модальностей в рамках одной функции потерь. Цель контрастного обучения на графах максимизирует согласованность мультимодальных представлений, обеспечивая естественное взаимодействие всех модальностей без необходимости специальной настройки. Кроме того, мы извлекаем признаки изображения в пределах ограничивающего прямоугольника, который соединяет пару токенов, связанных ребром графа, что позволяет захватывать более целенаправленные визуальные подсказки без использования сложного и отдельно предварительно обученного эмбеддера изображений. FormNetV2 устанавливает новые рекорды производительности на бенчмарках FUNSD, CORD, SROIE и Payment при более компактном размере модели.
Растет спрос на доступное создание высококачественных 3D-аватаров, которые можно анимировать и настраивать. Хотя 3D-морфуемые модели обеспечивают интуитивное управление для редактирования и анимации, а также устойчивость при реконструкции лица по одному изображению, они с трудом захватывают геометрические и визуальные детали. Методы, основанные на нейронных неявных представлениях, таких как функции знакового расстояния (SDF) или нейронные поля излучения, приближаются к фотореализму, но их сложно анимировать, и они плохо обобщаются на новые данные. Чтобы решить эту проблему, мы предлагаем новый метод построения неявных 3D-морфуемых моделей лиц, которые одновременно обобщаемы и интуитивно понятны для редактирования. Обучаясь на наборе высококачественных 3D-сканов, наша модель лица параметризуется латентными кодами геометрии, выражения и текстуры с использованием обученной SDF и явной параметризации UV-текстуры. После обучения мы можем реконструировать аватар по одному изображению "в дикой природе", используя обученный априор для проекции изображения в латентное пространство нашей модели. Наши неявные морфуемые модели лиц позволяют визуализировать аватар с новых ракурсов, анимировать выражения лица путем изменения кодов выражений и редактировать текстуры, напрямую рисуя на обученных UV-текстурных картах. Мы демонстрируем количественно и качественно, что наш метод превосходит современные подходы по фотореализму, точности геометрии и выражений.
В данной статье представлен NeuralEditor, который позволяет редактировать нейронные поля излучения (NeRFs) для выполнения задач по изменению формы. Несмотря на впечатляющие результаты в синтезе новых видов, редактирование формы сцены остается фундаментальной проблемой для NeRFs. Наше ключевое наблюдение заключается в использовании явного представления в виде облака точек как базовой структуры для построения NeRFs, вдохновленное интуитивной интерпретацией рендеринга NeRF как процесса проекции или "отображения" связанного 3D облака точек на 2D плоскость изображения. Для этого NeuralEditor вводит новую схему рендеринга, основанную на детерминированном интегрировании в вокселях с адаптивной плотностью, управляемых K-D деревом, что позволяет получать как высококачественные результаты рендеринга, так и точные облака точек через оптимизацию. NeuralEditor выполняет редактирование формы путем сопоставления связанных точек между облаками точек. Обширные оценки показывают, что NeuralEditor достигает передовых результатов как в задачах деформации формы, так и в морфинге сцен. Примечательно, что NeuralEditor поддерживает как инференс с нулевым обучением, так и дальнейшую тонкую настройку отредактированной сцены. Наш код, бенчмарк и демонстрационное видео доступны по адресу https://immortalco.github.io/NeuralEditor.
Многоязычный машинный перевод обещает повысить качество перевода между языками, не являющимися английским. Это выгодно по нескольким причинам, а именно: снижение задержки (нет необходимости переводить дважды) и уменьшение каскадных ошибок (например, избежание потери информации о роде и формальности при переводе через английский язык). С другой стороны, добавление большего количества языков снижает ёмкость модели для каждого языка, что обычно компенсируется увеличением общего размера модели, что усложняет обучение и замедляет процесс вывода. В данной работе мы представляем Языково-специфичные Трансформерные Слои (LSLs), которые позволяют увеличить ёмкость модели, сохраняя при этом объём вычислений и количество параметров, используемых в прямом проходе, неизменными. Основная идея заключается в том, чтобы сделать некоторые слои кодировщика специфичными для исходного или целевого языка, сохраняя при этом остальные слои общими. Мы исследуем оптимальный способ размещения этих слоев, используя подход, вдохновлённый поиском нейронных архитектур, и достигаем улучшения на 1,3 пункта chrF (1,5 spBLEU) по сравнению с отсутствием LSLs в архитектуре с отдельным декодером и на 1,9 пункта chrF (2,2 spBLEU) в архитектуре с общим декодером.
Задачи искусственного интеллекта охватывают широкий спектр областей и направлений. Хотя множество моделей ИИ было разработано для конкретных задач и приложений, они часто требуют значительных усилий со стороны человека для поиска подходящей архитектуры модели, алгоритма оптимизации и гиперпараметров. Последние достижения в области крупных языковых моделей (LLM), таких как ChatGPT, демонстрируют впечатляющие способности в различных аспектах рассуждения, понимания и взаимодействия. В связи с этим мы предлагаем разработать ориентированные на задачи подсказки и автоматически использовать LLM для автоматизации процесса обучения. Для реализации этой концепции мы представляем AutoML-GPT, который использует GPT в качестве связующего звена между различными моделями ИИ и динамически обучает модели с оптимизированными гиперпараметрами. AutoML-GPT динамически принимает запросы пользователя из карточек модели и данных и формирует соответствующий абзац подсказки. В конечном итоге, с помощью этого абзаца подсказки AutoML-GPT автоматически проводит эксперименты, начиная с обработки данных и заканчивая архитектурой модели, настройкой гиперпараметров и прогнозируемым журналом обучения. Используя мощные языковые возможности GPT и доступные модели ИИ, AutoML-GPT может решать множество сложных задач ИИ в различных областях и наборах данных. Этот подход демонстрирует выдающиеся результаты в компьютерном зрении, обработке естественного языка и других сложных областях. Многочисленные эксперименты и исследования показывают, что наш метод может быть универсальным, эффективным и полезным для многих задач ИИ.
Недавнее улучшение возможностей генерации кода благодаря использованию крупных языковых моделей в основном затронуло универсальные языки программирования. Предметно-ориентированные языки, такие как используемые для автоматизации ИТ, получили гораздо меньше внимания, несмотря на активное участие многих разработчиков и их важную роль в современных облачных платформах. Данная работа сосредоточена на генерации Ansible-YAML, широко используемого языка разметки для автоматизации ИТ. Мы представляем Ansible Wisdom — инструмент для генерации кода Ansible-YAML из естественного языка, направленный на повышение производительности автоматизации ИТ. Ansible Wisdom представляет собой модель на основе трансформеров, расширенную за счет обучения на новом наборе данных, содержащем Ansible-YAML. Мы также разработали две новые метрики производительности для YAML и Ansible, чтобы учитывать специфические характеристики этой области. Результаты показывают, что Ansible Wisdom способен точно генерировать скрипты Ansible из запросов на естественном языке с производительностью, сопоставимой или превосходящей существующие передовые модели генерации кода.
Отслеживание объектов с сохранением их идентичности в загроможденных и динамических средах остается сложной задачей для систем компьютерного зрения. В данной статье мы представляем TCOW — новый эталонный набор данных и модель для визуального отслеживания в условиях сильной окклюзии и ограничения. Мы формулируем задачу, цель которой заключается в том, чтобы для заданной видеопоследовательности сегментировать как проекцию целевого объекта, так и окружающий контейнер или объект, вызывающий окклюзию, если таковой присутствует. Для изучения этой задачи мы создаем комбинацию синтетических и аннотированных реальных наборов данных, которые поддерживают как обучение с учителем, так и структурированную оценку производительности модели при различных вариациях задачи, таких как перемещение или вложенное ограничение. Мы оцениваем две недавние модели на основе трансформеров для работы с видео и обнаруживаем, что, хотя они могут быть удивительно эффективны в отслеживании целей при определенных условиях вариаций задачи, остается значительный разрыв в производительности, прежде чем можно будет утверждать, что модель отслеживания приобрела истинное понимание постоянства объекта.
Текстуры являются важным аспектом создания визуально привлекательных и реалистичных 3D-моделей. В данной работе мы исследуем задачу генерации высококачественных текстур для заданных форм 3D-объектов, которая до сих пор была менее изученной по сравнению с общей задачей моделирования 3D-форм. Наша цель — обеспечить контролируемый процесс генерации текстур, при котором один текстурирующий код может соответствовать определённому стилю внешнего вида, независимо от входных форм объектов из одной категории. Мы представляем метод Texture UV Radiance Fields (TUVF), который генерирует текстуры в обучаемом UV-сферическом пространстве, а не непосредственно на 3D-форме. Это позволяет отделить текстуру от базовой формы и переносить её на другие объекты, которые используют то же UV-пространство, то есть принадлежат к той же категории. Мы интегрируем UV-сферическое пространство с полем излучения, что обеспечивает более эффективное и точное представление текстур по сравнению с традиционными текстурными картами. Мы проводим эксперименты на наборах данных реальных объектов, где достигаем не только реалистичного синтеза, но и значительного улучшения в управлении и редактировании текстур по сравнению с современными методами. Страница проекта: https://www.anjiecheng.me/TUVF
Мы сосредоточены на реконструкции высококачественных полей излучения человеческих голов, захвате их анимации во времени и синтезе повторных рендеров с новых точек зрения на произвольных временных шагах. Для этого мы предлагаем новую установку для многокамерного захвата, состоящую из 16 калиброванных камер машинного зрения, которые записывают синхронизированные по времени изображения с разрешением 7.1 МП и частотой 73 кадра в секунду. С помощью нашей установки мы собираем новый набор данных, содержащий более 4700 высококачественных последовательностей с высокой частотой кадров, охватывающих более 220 человеческих голов, на основе которого мы вводим новый бенчмарк для реконструкции человеческих голов. Записанные последовательности охватывают широкий спектр лицевых динамик, включая движения головы, естественные выражения, эмоции и речь. Для реконструкции высококачественных человеческих голов мы предлагаем метод Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). Мы представляем динамику сцены, комбинируя поле деформации и ансамбль 3D многомасштабных хэш-кодировок. Поле деформации позволяет точно моделировать простые движения сцены, в то время как ансамбль хэш-кодировок помогает представлять сложную динамику. В результате мы получаем представления полей излучения человеческих голов, которые захватывают движение во времени и позволяют повторно рендерить произвольные новые точки зрения. В серии экспериментов мы исследуем дизайнерские решения нашего метода и демонстрируем, что наш подход значительно превосходит современные методы динамических полей излучения.
Мы представляем Маскированные Модели Траекторий (Masked Trajectory Models, MTM) как универсальную абстракцию для задач последовательного принятия решений. MTM принимает траекторию, такую как последовательность состояний и действий, и стремится восстановить эту траекторию, учитывая случайные подмножества той же траектории. Обучаясь с использованием высоко рандомизированных паттернов маскирования, MTM осваивает универсальные сети, которые могут выполнять различные роли или функции, просто выбирая подходящие маски на этапе вывода. Например, одна и та же сеть MTM может использоваться как модель прямой динамики, модель обратной динамики или даже как агент обучения с подкреплением (RL) в автономном режиме. В ходе обширных экспериментов на нескольких задачах непрерывного управления мы показываем, что одна и та же сеть MTM — то есть с одинаковыми весами — может соответствовать или превосходить специализированные сети, обученные для вышеупомянутых функций. Кроме того, мы обнаруживаем, что представления состояний, изученные MTM, могут значительно ускорить процесс обучения традиционных алгоритмов RL. Наконец, в тестах на автономное RL мы выясняем, что MTM конкурирует со специализированными алгоритмами автономного RL, несмотря на то, что MTM является универсальным методом самообучения без явных компонентов RL. Код доступен по адресу https://github.com/facebookresearch/mtm.
Недавно метод DeepNorm позволил масштабировать архитектуру Transformer до чрезвычайно большой глубины (например, 1000 слоев), раскрыв перспективный потенциал глубокого масштабирования. Для стабилизации обучения глубоких моделей DeepNorm (Wang et al., 2022) стремится ограничить обновление модели постоянным значением. Хотя применение такого ограничения может быть полезным на ранних этапах обучения модели, оно может привести к недостаточной обученности модели в течение всего процесса обучения. В данной статье мы предлагаем метод BranchNorm, который динамически масштабирует неостаточную ветвь Transformer в соответствии с этапом обучения. BranchNorm не только теоретически стабилизирует обучение, обеспечивая плавные нормы градиентов на начальном этапе, но также способствует лучшей сходимости на последующих этапах обучения. Результаты экспериментов на множестве задач перевода показывают, что BranchNorm достигает лучшего баланса между стабильностью обучения и производительностью сходимости.
Мы представляем полную систему для рендеринга сцен со сложной визуализацией в реальном времени, которая ранее была доступна только для оффлайн-использования. Это достигнуто благодаря сочетанию алгоритмических и системных инноваций. Наша модель визуализации использует иерархические текстуры, обученные с помощью нейронных декодеров, которые генерируют значения отражательной способности и направления для важностного сэмплирования. Чтобы максимально эффективно использовать возможности моделирования декодеров, мы оснащаем их двумя графическими приоритетами. Первый приоритет — преобразование направлений в обученные системы затенения — обеспечивает точное восстановление мезомасштабных эффектов. Второй приоритет — распределение сэмплирования на основе микрограней — позволяет нейронному декодеру эффективно выполнять важностное сэмплирование. Полученная модель визуализации поддерживает анизотропное сэмплирование и рендеринг с учетом уровня детализации, а также позволяет преобразовывать глубоко слоистые графы материалов в компактное унифицированное нейронное представление. Благодаря интеграции аппаратно-ускоренных тензорных операций в шейдеры трассировки лучей, мы демонстрируем возможность эффективного встраивания и выполнения нейронных декодеров внутри трассировщика путей в реальном времени. Мы анализируем масштабируемость с увеличением количества нейронных материалов и предлагаем улучшить производительность с помощью кода, оптимизированного для когерентного и дивергентного выполнения. Наши нейронные шейдеры материалов могут быть более чем на порядок быстрее, чем не-нейронные слоистые материалы. Это открывает возможность использования визуальных эффектов кинематографического качества в реальном времени, таких как игры и живые предпросмотры.
Крупные языковые модели (LLM) лежат в основе многих современных систем обработки естественного языка. Однако эти модели чрезвычайно ресурсоемки даже на этапе вывода, что закономерно вызывает вопрос: когда дополнительные затраты на развертывание более крупной модели оправдываются ожидаемым улучшением возможностей? Более глубокое понимание этого компромисса могло бы выиграть от метрики эффективности вывода, которая (i) легко сравнивается между моделями от разных поставщиков и (ii) отражает реальную стоимость выполнения запросов в изолированной среде производительности. К сожалению, доступ к LLM сегодня в основном ограничен черными ящиками API для генерации текста, а измеренные через этот интерфейс времена выполнения не удовлетворяют этим требованиям: поставщики моделей могут применять различные программные и аппаратные оптимизации, не связанные с моделью, а модели, работающие на общей инфраструктуре, подвержены конкуренции за производительность. Чтобы обойти эти проблемы, мы предлагаем новую метрику для сравнения эффективности вывода между моделями. Эта метрика уравнивает модели, как если бы они работали (i) на одинаковом аппаратном и программном обеспечении и (ii) без конкуренции за производительность. Мы называем эту метрику идеализированным временем выполнения и предлагаем методологию для эффективной оценки этой метрики для авторегрессивных моделей на основе Transformer. Мы также предлагаем варианты метрики, учитывающие стоимость, которые включают количество ускорителей, необходимых для обслуживания модели. Используя эти метрики, мы сравниваем десять современных LLM, чтобы провести первый анализ компромиссов между эффективностью вывода и возможностями; из этого анализа мы делаем несколько наблюдений, включая тот факт, что превосходное время выполнения определенных API часто является побочным продуктом оптимизаций внутри API, а не самой модели. Наша методология также облегчает эффективное сравнение различных программных и аппаратных стеков.
Предварительно обученные большие языковые модели (LLM) фиксируют процедурные знания о мире. В последних работах использовалась способность LLM генерировать абстрактные планы для упрощения сложных задач управления, либо через оценку действий, либо через моделирование действий (тонкую настройку). Однако архитектура трансформеров наследует несколько ограничений, которые затрудняют использование LLM в качестве агента напрямую: например, ограниченная длина входных данных, неэффективность тонкой настройки, смещения из-за предварительного обучения и несовместимость с не текстовыми средами. Для обеспечения совместимости с низкоуровневым обучаемым актором мы предлагаем использовать знания, содержащиеся в LLM, для упрощения задачи управления, а не для её решения. Мы предлагаем фреймворк Plan, Eliminate, and Track (PET). Модуль Plan преобразует описание задачи в список высокоуровневых подзадач. Модуль Eliminate исключает из наблюдения нерелевантные объекты и контейнеры для текущей подзадачи. Наконец, модуль Track определяет, выполнена ли каждая подзадача агентом. На бенчмарке AlfWorld по следованию инструкциям фреймворк PET обеспечивает значительное улучшение на 15% по сравнению с современными методами (SOTA) в обобщении на спецификации целей, заданных человеком.