Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

FormNetV2: Мультимодальное контрастное обучение на графах для извлечения информации из структурированных документов
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

May 4, 2023

Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang, Kihyuk Sohn, Nikolai Glushnev, Renshen Wang, Joshua Ainslie, Shangbang Long, Siyang Qin, Yasuhisa Fujii, Nan Hua, Tomas Pfister

Недавнее появление методов самоконтролируемого предварительного обучения привело к значительному росту использования мультимодального обучения в задачах понимания форм документов. Однако существующие подходы, которые расширяют маскированное языковое моделирование на другие модальности, требуют тщательной настройки многозадачности, сложного проектирования целей реконструкции или дополнительных данных для предварительного обучения. В FormNetV2 мы представляем стратегию централизованного контрастного обучения на мультимодальных графах, которая объединяет самоконтролируемое предварительное обучение для всех модальностей в рамках одной функции потерь. Цель контрастного обучения на графах максимизирует согласованность мультимодальных представлений, обеспечивая естественное взаимодействие всех модальностей без необходимости специальной настройки. Кроме того, мы извлекаем признаки изображения в пределах ограничивающего прямоугольника, который соединяет пару токенов, связанных ребром графа, что позволяет захватывать более целенаправленные визуальные подсказки без использования сложного и отдельно предварительно обученного эмбеддера изображений. FormNetV2 устанавливает новые рекорды производительности на бенчмарках FUNSD, CORD, SROIE и Payment при более компактном размере модели.

Одношаговые неявные морфируемые лица с согласованной параметризацией текстур
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

May 4, 2023

Connor Z. Lin, Koki Nagano, Jan Kautz, Eric R. Chan, Umar Iqbal, Leonidas Guibas, Gordon Wetzstein, Sameh Khamis

Растет спрос на доступное создание высококачественных 3D-аватаров, которые можно анимировать и настраивать. Хотя 3D-морфуемые модели обеспечивают интуитивное управление для редактирования и анимации, а также устойчивость при реконструкции лица по одному изображению, они с трудом захватывают геометрические и визуальные детали. Методы, основанные на нейронных неявных представлениях, таких как функции знакового расстояния (SDF) или нейронные поля излучения, приближаются к фотореализму, но их сложно анимировать, и они плохо обобщаются на новые данные. Чтобы решить эту проблему, мы предлагаем новый метод построения неявных 3D-морфуемых моделей лиц, которые одновременно обобщаемы и интуитивно понятны для редактирования. Обучаясь на наборе высококачественных 3D-сканов, наша модель лица параметризуется латентными кодами геометрии, выражения и текстуры с использованием обученной SDF и явной параметризации UV-текстуры. После обучения мы можем реконструировать аватар по одному изображению "в дикой природе", используя обученный априор для проекции изображения в латентное пространство нашей модели. Наши неявные морфуемые модели лиц позволяют визуализировать аватар с новых ракурсов, анимировать выражения лица путем изменения кодов выражений и редактировать текстуры, напрямую рисуя на обученных UV-текстурных картах. Мы демонстрируем количественно и качественно, что наш метод превосходит современные подходы по фотореализму, точности геометрии и выражений.

NeuralEditor: Редактирование нейронных полей излучения через манипуляции с облаками точек
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

May 4, 2023

Jun-Kun Chen, Jipeng Lyu, Yu-Xiong Wang

В данной статье представлен NeuralEditor, который позволяет редактировать нейронные поля излучения (NeRFs) для выполнения задач по изменению формы. Несмотря на впечатляющие результаты в синтезе новых видов, редактирование формы сцены остается фундаментальной проблемой для NeRFs. Наше ключевое наблюдение заключается в использовании явного представления в виде облака точек как базовой структуры для построения NeRFs, вдохновленное интуитивной интерпретацией рендеринга NeRF как процесса проекции или "отображения" связанного 3D облака точек на 2D плоскость изображения. Для этого NeuralEditor вводит новую схему рендеринга, основанную на детерминированном интегрировании в вокселях с адаптивной плотностью, управляемых K-D деревом, что позволяет получать как высококачественные результаты рендеринга, так и точные облака точек через оптимизацию. NeuralEditor выполняет редактирование формы путем сопоставления связанных точек между облаками точек. Обширные оценки показывают, что NeuralEditor достигает передовых результатов как в задачах деформации формы, так и в морфинге сцен. Примечательно, что NeuralEditor поддерживает как инференс с нулевым обучением, так и дальнейшую тонкую настройку отредактированной сцены. Наш код, бенчмарк и демонстрационное видео доступны по адресу https://immortalco.github.io/NeuralEditor.

Обучение языково-специфичных слоев для многоязычного машинного перевода
Learning Language-Specific Layers for Multilingual Machine Translation

May 4, 2023

Telmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz

Многоязычный машинный перевод обещает повысить качество перевода между языками, не являющимися английским. Это выгодно по нескольким причинам, а именно: снижение задержки (нет необходимости переводить дважды) и уменьшение каскадных ошибок (например, избежание потери информации о роде и формальности при переводе через английский язык). С другой стороны, добавление большего количества языков снижает ёмкость модели для каждого языка, что обычно компенсируется увеличением общего размера модели, что усложняет обучение и замедляет процесс вывода. В данной работе мы представляем Языково-специфичные Трансформерные Слои (LSLs), которые позволяют увеличить ёмкость модели, сохраняя при этом объём вычислений и количество параметров, используемых в прямом проходе, неизменными. Основная идея заключается в том, чтобы сделать некоторые слои кодировщика специфичными для исходного или целевого языка, сохраняя при этом остальные слои общими. Мы исследуем оптимальный способ размещения этих слоев, используя подход, вдохновлённый поиском нейронных архитектур, и достигаем улучшения на 1,3 пункта chrF (1,5 spBLEU) по сравнению с отсутствием LSLs в архитектуре с отдельным декодером и на 1,9 пункта chrF (2,2 spBLEU) в архитектуре с общим декодером.

AutoML-GPT: Автоматизированное машинное обучение с использованием GPT
AutoML-GPT: Automatic Machine Learning with GPT

May 4, 2023

Shujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mingyuan Zhou

Задачи искусственного интеллекта охватывают широкий спектр областей и направлений. Хотя множество моделей ИИ было разработано для конкретных задач и приложений, они часто требуют значительных усилий со стороны человека для поиска подходящей архитектуры модели, алгоритма оптимизации и гиперпараметров. Последние достижения в области крупных языковых моделей (LLM), таких как ChatGPT, демонстрируют впечатляющие способности в различных аспектах рассуждения, понимания и взаимодействия. В связи с этим мы предлагаем разработать ориентированные на задачи подсказки и автоматически использовать LLM для автоматизации процесса обучения. Для реализации этой концепции мы представляем AutoML-GPT, который использует GPT в качестве связующего звена между различными моделями ИИ и динамически обучает модели с оптимизированными гиперпараметрами. AutoML-GPT динамически принимает запросы пользователя из карточек модели и данных и формирует соответствующий абзац подсказки. В конечном итоге, с помощью этого абзаца подсказки AutoML-GPT автоматически проводит эксперименты, начиная с обработки данных и заканчивая архитектурой модели, настройкой гиперпараметров и прогнозируемым журналом обучения. Используя мощные языковые возможности GPT и доступные модели ИИ, AutoML-GPT может решать множество сложных задач ИИ в различных областях и наборах данных. Этот подход демонстрирует выдающиеся результаты в компьютерном зрении, обработке естественного языка и других сложных областях. Многочисленные эксперименты и исследования показывают, что наш метод может быть универсальным, эффективным и полезным для многих задач ИИ.

Автоматическая генерация кода для задач информационных технологий в YAML с использованием больших языковых моделей
Automated Code generation for Information Technology Tasks in YAML through Large Language Models

May 2, 2023

Saurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matt Jones, Alessandro Morari, Ruchir Puri

Недавнее улучшение возможностей генерации кода благодаря использованию крупных языковых моделей в основном затронуло универсальные языки программирования. Предметно-ориентированные языки, такие как используемые для автоматизации ИТ, получили гораздо меньше внимания, несмотря на активное участие многих разработчиков и их важную роль в современных облачных платформах. Данная работа сосредоточена на генерации Ansible-YAML, широко используемого языка разметки для автоматизации ИТ. Мы представляем Ansible Wisdom — инструмент для генерации кода Ansible-YAML из естественного языка, направленный на повышение производительности автоматизации ИТ. Ansible Wisdom представляет собой модель на основе трансформеров, расширенную за счет обучения на новом наборе данных, содержащем Ansible-YAML. Мы также разработали две новые метрики производительности для YAML и Ansible, чтобы учитывать специфические характеристики этой области. Результаты показывают, что Ansible Wisdom способен точно генерировать скрипты Ansible из запросов на естественном языке с производительностью, сопоставимой или превосходящей существующие передовые модели генерации кода.

Отслеживание через контейнеры и преграды в естественных условиях
Tracking through Containers and Occluders in the Wild

May 4, 2023

Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick

Отслеживание объектов с сохранением их идентичности в загроможденных и динамических средах остается сложной задачей для систем компьютерного зрения. В данной статье мы представляем TCOW — новый эталонный набор данных и модель для визуального отслеживания в условиях сильной окклюзии и ограничения. Мы формулируем задачу, цель которой заключается в том, чтобы для заданной видеопоследовательности сегментировать как проекцию целевого объекта, так и окружающий контейнер или объект, вызывающий окклюзию, если таковой присутствует. Для изучения этой задачи мы создаем комбинацию синтетических и аннотированных реальных наборов данных, которые поддерживают как обучение с учителем, так и структурированную оценку производительности модели при различных вариациях задачи, таких как перемещение или вложенное ограничение. Мы оцениваем две недавние модели на основе трансформеров для работы с видео и обнаруживаем, что, хотя они могут быть удивительно эффективны в отслеживании целей при определенных условиях вариаций задачи, остается значительный разрыв в производительности, прежде чем можно будет утверждать, что модель отслеживания приобрела истинное понимание постоянства объекта.

TUVF: Обучение обобщаемых текстурных UV-радиансных полей
TUVF: Learning Generalizable Texture UV Radiance Fields

May 4, 2023

An-Chieh Cheng, Xueting Li, Sifei Liu, Xiaolong Wang

Текстуры являются важным аспектом создания визуально привлекательных и реалистичных 3D-моделей. В данной работе мы исследуем задачу генерации высококачественных текстур для заданных форм 3D-объектов, которая до сих пор была менее изученной по сравнению с общей задачей моделирования 3D-форм. Наша цель — обеспечить контролируемый процесс генерации текстур, при котором один текстурирующий код может соответствовать определённому стилю внешнего вида, независимо от входных форм объектов из одной категории. Мы представляем метод Texture UV Radiance Fields (TUVF), который генерирует текстуры в обучаемом UV-сферическом пространстве, а не непосредственно на 3D-форме. Это позволяет отделить текстуру от базовой формы и переносить её на другие объекты, которые используют то же UV-пространство, то есть принадлежат к той же категории. Мы интегрируем UV-сферическое пространство с полем излучения, что обеспечивает более эффективное и точное представление текстур по сравнению с традиционными текстурными картами. Мы проводим эксперименты на наборах данных реальных объектов, где достигаем не только реалистичного синтеза, но и значительного улучшения в управлении и редактировании текстур по сравнению с современными методами. Страница проекта: https://www.anjiecheng.me/TUVF

NeRSemble: Реконструкция поля излучения человеческих голов на основе данных с нескольких ракурсов
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

May 4, 2023

Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner

Мы сосредоточены на реконструкции высококачественных полей излучения человеческих голов, захвате их анимации во времени и синтезе повторных рендеров с новых точек зрения на произвольных временных шагах. Для этого мы предлагаем новую установку для многокамерного захвата, состоящую из 16 калиброванных камер машинного зрения, которые записывают синхронизированные по времени изображения с разрешением 7.1 МП и частотой 73 кадра в секунду. С помощью нашей установки мы собираем новый набор данных, содержащий более 4700 высококачественных последовательностей с высокой частотой кадров, охватывающих более 220 человеческих голов, на основе которого мы вводим новый бенчмарк для реконструкции человеческих голов. Записанные последовательности охватывают широкий спектр лицевых динамик, включая движения головы, естественные выражения, эмоции и речь. Для реконструкции высококачественных человеческих голов мы предлагаем метод Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). Мы представляем динамику сцены, комбинируя поле деформации и ансамбль 3D многомасштабных хэш-кодировок. Поле деформации позволяет точно моделировать простые движения сцены, в то время как ансамбль хэш-кодировок помогает представлять сложную динамику. В результате мы получаем представления полей излучения человеческих голов, которые захватывают движение во времени и позволяют повторно рендерить произвольные новые точки зрения. В серии экспериментов мы исследуем дизайнерские решения нашего метода и демонстрируем, что наш подход значительно превосходит современные методы динамических полей излучения.

Модели с маскированием траекторий для прогнозирования, представления и управления
Masked Trajectory Models for Prediction, Representation, and Control

May 4, 2023

Philipp Wu, Arjun Majumdar, Kevin Stone, Yixin Lin, Igor Mordatch, Pieter Abbeel, Aravind Rajeswaran

Мы представляем Маскированные Модели Траекторий (Masked Trajectory Models, MTM) как универсальную абстракцию для задач последовательного принятия решений. MTM принимает траекторию, такую как последовательность состояний и действий, и стремится восстановить эту траекторию, учитывая случайные подмножества той же траектории. Обучаясь с использованием высоко рандомизированных паттернов маскирования, MTM осваивает универсальные сети, которые могут выполнять различные роли или функции, просто выбирая подходящие маски на этапе вывода. Например, одна и та же сеть MTM может использоваться как модель прямой динамики, модель обратной динамики или даже как агент обучения с подкреплением (RL) в автономном режиме. В ходе обширных экспериментов на нескольких задачах непрерывного управления мы показываем, что одна и та же сеть MTM — то есть с одинаковыми весами — может соответствовать или превосходить специализированные сети, обученные для вышеупомянутых функций. Кроме того, мы обнаруживаем, что представления состояний, изученные MTM, могут значительно ускорить процесс обучения традиционных алгоритмов RL. Наконец, в тестах на автономное RL мы выясняем, что MTM конкурирует со специализированными алгоритмами автономного RL, несмотря на то, что MTM является универсальным методом самообучения без явных компонентов RL. Код доступен по адресу https://github.com/facebookresearch/mtm.

BranchNorm: Надежное масштабирование сверхглубоких трансформаторов
BranchNorm: Robustly Scaling Extremely Deep Transformers

May 4, 2023

Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou

Недавно метод DeepNorm позволил масштабировать архитектуру Transformer до чрезвычайно большой глубины (например, 1000 слоев), раскрыв перспективный потенциал глубокого масштабирования. Для стабилизации обучения глубоких моделей DeepNorm (Wang et al., 2022) стремится ограничить обновление модели постоянным значением. Хотя применение такого ограничения может быть полезным на ранних этапах обучения модели, оно может привести к недостаточной обученности модели в течение всего процесса обучения. В данной статье мы предлагаем метод BranchNorm, который динамически масштабирует неостаточную ветвь Transformer в соответствии с этапом обучения. BranchNorm не только теоретически стабилизирует обучение, обеспечивая плавные нормы градиентов на начальном этапе, но также способствует лучшей сходимости на последующих этапах обучения. Результаты экспериментов на множестве задач перевода показывают, что BranchNorm достигает лучшего баланса между стабильностью обучения и производительностью сходимости.

Модели нейронного внешнего вида в реальном времени
Real-Time Neural Appearance Models

May 4, 2023

Tizian Zeltner, Fabrice Rousselle, Andrea Weidlich, Petrik Clarberg, Jan Novák, Benedikt Bitterli, Alex Evans, Tomáš Davidovič, Simon Kallweit, Aaron Lefohn

Мы представляем полную систему для рендеринга сцен со сложной визуализацией в реальном времени, которая ранее была доступна только для оффлайн-использования. Это достигнуто благодаря сочетанию алгоритмических и системных инноваций. Наша модель визуализации использует иерархические текстуры, обученные с помощью нейронных декодеров, которые генерируют значения отражательной способности и направления для важностного сэмплирования. Чтобы максимально эффективно использовать возможности моделирования декодеров, мы оснащаем их двумя графическими приоритетами. Первый приоритет — преобразование направлений в обученные системы затенения — обеспечивает точное восстановление мезомасштабных эффектов. Второй приоритет — распределение сэмплирования на основе микрограней — позволяет нейронному декодеру эффективно выполнять важностное сэмплирование. Полученная модель визуализации поддерживает анизотропное сэмплирование и рендеринг с учетом уровня детализации, а также позволяет преобразовывать глубоко слоистые графы материалов в компактное унифицированное нейронное представление. Благодаря интеграции аппаратно-ускоренных тензорных операций в шейдеры трассировки лучей, мы демонстрируем возможность эффективного встраивания и выполнения нейронных декодеров внутри трассировщика путей в реальном времени. Мы анализируем масштабируемость с увеличением количества нейронных материалов и предлагаем улучшить производительность с помощью кода, оптимизированного для когерентного и дивергентного выполнения. Наши нейронные шейдеры материалов могут быть более чем на порядок быстрее, чем не-нейронные слоистые материалы. Это открывает возможность использования визуальных эффектов кинематографического качества в реальном времени, таких как игры и живые предпросмотры.

Дешевая оценка метрик эффективности вывода для авторегрессивных API трансформеров
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

May 3, 2023

Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang

Крупные языковые модели (LLM) лежат в основе многих современных систем обработки естественного языка. Однако эти модели чрезвычайно ресурсоемки даже на этапе вывода, что закономерно вызывает вопрос: когда дополнительные затраты на развертывание более крупной модели оправдываются ожидаемым улучшением возможностей? Более глубокое понимание этого компромисса могло бы выиграть от метрики эффективности вывода, которая (i) легко сравнивается между моделями от разных поставщиков и (ii) отражает реальную стоимость выполнения запросов в изолированной среде производительности. К сожалению, доступ к LLM сегодня в основном ограничен черными ящиками API для генерации текста, а измеренные через этот интерфейс времена выполнения не удовлетворяют этим требованиям: поставщики моделей могут применять различные программные и аппаратные оптимизации, не связанные с моделью, а модели, работающие на общей инфраструктуре, подвержены конкуренции за производительность. Чтобы обойти эти проблемы, мы предлагаем новую метрику для сравнения эффективности вывода между моделями. Эта метрика уравнивает модели, как если бы они работали (i) на одинаковом аппаратном и программном обеспечении и (ii) без конкуренции за производительность. Мы называем эту метрику идеализированным временем выполнения и предлагаем методологию для эффективной оценки этой метрики для авторегрессивных моделей на основе Transformer. Мы также предлагаем варианты метрики, учитывающие стоимость, которые включают количество ускорителей, необходимых для обслуживания модели. Используя эти метрики, мы сравниваем десять современных LLM, чтобы провести первый анализ компромиссов между эффективностью вывода и возможностями; из этого анализа мы делаем несколько наблюдений, включая тот факт, что превосходное время выполнения определенных API часто является побочным продуктом оптимизаций внутри API, а не самой модели. Наша методология также облегчает эффективное сравнение различных программных и аппаратных стеков.

Планируй, Устраняй и Отслеживай — Языковые модели как эффективные наставники для воплощённых агентов
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

May 3, 2023

Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye

Предварительно обученные большие языковые модели (LLM) фиксируют процедурные знания о мире. В последних работах использовалась способность LLM генерировать абстрактные планы для упрощения сложных задач управления, либо через оценку действий, либо через моделирование действий (тонкую настройку). Однако архитектура трансформеров наследует несколько ограничений, которые затрудняют использование LLM в качестве агента напрямую: например, ограниченная длина входных данных, неэффективность тонкой настройки, смещения из-за предварительного обучения и несовместимость с не текстовыми средами. Для обеспечения совместимости с низкоуровневым обучаемым актором мы предлагаем использовать знания, содержащиеся в LLM, для упрощения задачи управления, а не для её решения. Мы предлагаем фреймворк Plan, Eliminate, and Track (PET). Модуль Plan преобразует описание задачи в список высокоуровневых подзадач. Модуль Eliminate исключает из наблюдения нерелевантные объекты и контейнеры для текущей подзадачи. Наконец, модуль Track определяет, выполнена ли каждая подзадача агентом. На бенчмарке AlfWorld по следованию инструкциям фреймворк PET обеспечивает значительное улучшение на 15% по сравнению с современными методами (SOTA) в обобщении на спецификации целей, заданных человеком.

Дешевая оценка метрик эффективности вывода для авторегрессивных API трансформеров
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

May 3, 2023

Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang

Ежедневные статьи

FormNetV2: Мультимодальное контрастное обучение на графах для извлечения информации из структурированных документов
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Одношаговые неявные морфируемые лица с согласованной параметризацией текстур
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

NeuralEditor: Редактирование нейронных полей излучения через манипуляции с облаками точек
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Обучение языково-специфичных слоев для многоязычного машинного перевода
Learning Language-Specific Layers for Multilingual Machine Translation

AutoML-GPT: Автоматизированное машинное обучение с использованием GPT
AutoML-GPT: Automatic Machine Learning with GPT

Отслеживание через контейнеры и преграды в естественных условиях
Tracking through Containers and Occluders in the Wild

TUVF: Обучение обобщаемых текстурных UV-радиансных полей
TUVF: Learning Generalizable Texture UV Radiance Fields

NeRSemble: Реконструкция поля излучения человеческих голов на основе данных с нескольких ракурсов
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Модели с маскированием траекторий для прогнозирования, представления и управления
Masked Trajectory Models for Prediction, Representation, and Control

BranchNorm: Надежное масштабирование сверхглубоких трансформаторов
BranchNorm: Robustly Scaling Extremely Deep Transformers

Модели нейронного внешнего вида в реальном времени
Real-Time Neural Appearance Models

Дешевая оценка метрик эффективности вывода для авторегрессивных API трансформеров
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

Планируй, Устраняй и Отслеживай — Языковые модели как эффективные наставники для воплощённых агентов
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Support

Support

Ежедневные статьи

FormNetV2: Мультимодальное контрастное обучение на графах для извлечения информации из структурированных документов
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction

Одношаговые неявные морфируемые лица с согласованной параметризацией текстур
Single-Shot Implicit Morphable Faces with Consistent Texture Parameterization

NeuralEditor: Редактирование нейронных полей излучения через манипуляции с облаками точек
NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Обучение языково-специфичных слоев для многоязычного машинного перевода
Learning Language-Specific Layers for Multilingual Machine Translation

AutoML-GPT: Автоматизированное машинное обучение с использованием GPT
AutoML-GPT: Automatic Machine Learning with GPT

Отслеживание через контейнеры и преграды в естественных условиях
Tracking through Containers and Occluders in the Wild

TUVF: Обучение обобщаемых текстурных UV-радиансных полей
TUVF: Learning Generalizable Texture UV Radiance Fields

NeRSemble: Реконструкция поля излучения человеческих голов на основе данных с нескольких ракурсов
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Модели с маскированием траекторий для прогнозирования, представления и управления
Masked Trajectory Models for Prediction, Representation, and Control

BranchNorm: Надежное масштабирование сверхглубоких трансформаторов
BranchNorm: Robustly Scaling Extremely Deep Transformers

Модели нейронного внешнего вида в реальном времени
Real-Time Neural Appearance Models

Дешевая оценка метрик эффективности вывода для авторегрессивных API трансформеров
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs

Планируй, Устраняй и Отслеживай — Языковые модели как эффективные наставники для воплощённых агентов
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents