Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обнаружение текста, сгенерированного современными большими языковыми моделями (LLM), считается сложной задачей, поскольку как LLM, так и люди могут демонстрировать широкий спектр сложных поведений. Однако мы обнаружили, что оценка, основанная на сравнении двух тесно связанных языковых моделей, является высокоточным методом для разделения текста, созданного человеком и машиной. На основе этого механизма мы предлагаем новый детектор LLM, который требует только простых вычислений с использованием пары предварительно обученных LLM. Метод, названный Binoculars, достигает наилучшей точности без необходимости использования обучающих данных. Он способен обнаруживать машинный текст из широкого спектра современных LLM без каких-либо модификаций, специфичных для конкретной модели. Мы всесторонне оцениваем Binoculars на различных источниках текста и в различных ситуациях. На широком диапазоне типов документов Binoculars обнаруживает более 90% сгенерированных образцов от ChatGPT (и других LLM) при уровне ложноположительных срабатываний 0,01%, несмотря на отсутствие обучения на данных ChatGPT.
Значительные усилия были направлены на повышение мастерства ролевой игры у открытых крупных языковых моделей (LLM) путем эмуляции их проприетарных аналогов. Тем не менее, мы утверждаем, что LLM изначально обладают способностями к ролевой игре благодаря обширным знаниям о персонажах и потенциальных диалогах, заложенным в их обширных обучающих корпусах. Таким образом, в данном исследовании мы представляем Ditto — метод самонастройки для ролевой игры. Ditto использует знания о персонажах, побуждая LLM, ориентированную на выполнение инструкций, моделировать ролевые диалоги как вариант понимания прочитанного. Этот метод создает набор данных для обучения ролевой игре, включающий 4 000 персонажей, что в десять раз превышает масштаб доступных на данный момент наборов данных по количеству ролей. Затем мы дообучаем LLM с использованием этого самостоятельно сгенерированного набора данных для улучшения ее способностей к ролевой игре. При оценке нашего тщательно разработанного и воспроизводимого бенчмарка для ролевой игры и подмножества ролевых игр в MT-Bench, Ditto, на различных масштабах параметров, последовательно сохраняет идентичность роли и предоставляет точные знания, специфичные для роли, в многоходовых ролевых диалогах. Примечательно, что он превосходит все открытые базовые модели для ролевой игры, демонстрируя уровень производительности, сопоставимый с передовыми проприетарными чат-ботами. Кроме того, мы представляем первый всесторонний эксперимент по кросс-супервизорной настройке в области ролевой игры, который показывает, что внутренние возможности LLM ограничивают знания в рамках ролевой игры. В то же время стили ролевой игры могут быть легко освоены под руководством более мелких моделей. Мы открываем доступ к связанным ресурсам по адресу https://github.com/OFA-Sys/Ditto.
Мы представляем мета-подсказку (meta-prompting) — эффективную методику структурирования, предназначенную для расширения функциональности языковых моделей (LM). Этот подход превращает единую языковую модель в многофункционального дирижера, способного управлять и интегрировать множество независимых запросов к LM. Используя высокоуровневые инструкции, мета-подсказка направляет LM на разбиение сложных задач на более мелкие и управляемые подзадачи. Эти подзадачи затем обрабатываются отдельными "экспертными" экземплярами той же LM, каждый из которых работает под специфическими, адаптированными инструкциями. Ключевую роль в этом процессе играет сама LM в роли дирижера, обеспечивая бесперебойную коммуникацию и эффективную интеграцию результатов работы этих экспертных моделей. Кроме того, она использует свои встроенные механизмы критического мышления и строгой проверки для уточнения и подтверждения конечного результата. Такой подход коллективной подсказки позволяет одной LM одновременно выступать в роли всестороннего организатора и группы разнообразных экспертов, значительно повышая её производительность в широком спектре задач. Нулевой характер мета-подсказки, не зависящий от конкретной задачи, значительно упрощает взаимодействие с пользователем, устраняя необходимость в детальных, специфичных для задачи инструкциях. Более того, наше исследование демонстрирует бесшовную интеграцию внешних инструментов, таких как интерпретатор Python, в структуру мета-подсказки, что расширяет её применимость и полезность. В ходе тщательных экспериментов с GPT-4 мы установили превосходство мета-подсказки над традиционными методами структурирования: в среднем по всем задачам, включая игру "24", "Мат в один ход" и головоломки по программированию на Python, мета-подсказка, дополненная функциональностью интерпретатора Python, превосходит стандартную подсказку на 17.1%, экспертную (динамическую) подсказку на 17.3% и многоперсональную подсказку на 15.2%.
Диффузионные модели продемонстрировали выдающиеся результаты в генерации и редактировании изображений на основе текста. Однако существующие методы часто сталкиваются с трудностями при обработке сложных текстовых запросов, включающих несколько объектов с множеством атрибутов и взаимосвязей. В данной статье мы предлагаем совершенно новый подход к генерации и редактированию изображений на основе текста, не требующий дополнительного обучения, — Recaption, Plan and Generate (RPG), который использует мощные способности мультимодальных языковых моделей (MLLM) к цепочечным рассуждениям для улучшения композиционности текстово-ориентированных диффузионных моделей. Наш подход использует MLLM в качестве глобального планировщика, разбивая процесс генерации сложных изображений на несколько более простых задач генерации в субрегионах. Мы предлагаем дополнительную региональную диффузию для обеспечения композиционной генерации по регионам. Кроме того, мы интегрируем генерацию и редактирование изображений на основе текста в рамках предложенного RPG в замкнутом цикле, что повышает способность к обобщению. Многочисленные эксперименты показывают, что наш RPG превосходит современные диффузионные модели для генерации изображений на основе текста, включая DALL-E 3 и SDXL, особенно в композиции объектов нескольких категорий и семантическом согласовании текста и изображения. Примечательно, что наш RPG демонстрирует широкую совместимость с различными архитектурами MLLM (например, MiniGPT-4) и диффузионными бэкбонами (например, ControlNet). Наш код доступен по адресу: https://github.com/YangLing0818/RPG-DiffusionMaster.
Модели диффузии для генерации изображений из текста представляют собой класс глубоких генеративных моделей, которые продемонстрировали впечатляющую способность к созданию высококачественных изображений. Однако эти модели подвержены скрытым предубеждениям, возникающим из-за использования веб-масштабных пар текст-изображение для обучения, что может приводить к неточному моделированию аспектов изображений, важных для нас. Это может выливаться в субоптимальные результаты, смещения модели и изображения, не соответствующие человеческой этике и предпочтениям. В данной статье мы представляем эффективный масштабируемый алгоритм для улучшения моделей диффузии с использованием обучения с подкреплением (RL) на основе разнообразных функций вознаграждения, таких как человеческие предпочтения, композиционность и справедливость, применяемых к миллионам изображений. Мы показываем, что наш подход значительно превосходит существующие методы согласования моделей диффузии с человеческими предпочтениями. Кроме того, мы демонстрируем, как это существенно улучшает предобученные модели Stable Diffusion (SD), генерируя изображения, которые предпочитаются людьми в 80,3% случаев по сравнению с базовой моделью SD, одновременно улучшая композицию и разнообразие генерируемых образцов.
Понимание и рассуждение о пространственных отношениях является фундаментальной способностью для задач визуального ответа на вопросы (VQA) и робототехники. Хотя языковые модели с визуальным восприятием (VLM) продемонстрировали впечатляющие результаты в некоторых тестах VQA, они всё ещё недостаточно эффективны в задачах трёхмерного пространственного рассуждения, таких как распознавание количественных отношений физических объектов, например расстояний или различий в размерах. Мы предполагаем, что ограниченная способность VLMs к пространственному рассуждению связана с отсутствием трёхмерных пространственных знаний в обучающих данных, и стремимся решить эту проблему, обучая VLMs на данных интернет-масштаба для пространственного рассуждения. Для этого мы представляем систему, которая облегчает такой подход. Сначала мы разрабатываем автоматизированную структуру для генерации 3D пространственных данных VQA, которая масштабируется до 2 миллиардов примеров VQA на основе 10 миллионов реальных изображений. Затем мы исследуем различные факторы в процессе обучения, включая качество данных, конвейер обучения и архитектуру VLM. Наша работа представляет первый набор данных интернет-масштаба для трёхмерного пространственного рассуждения в метрическом пространстве. Обучая VLM на таких данных, мы значительно улучшаем её способности как в качественных, так и в количественных задачах пространственного VQA. Наконец, мы демонстрируем, что эта VLM открывает новые возможности для применения в цепочках рассуждений о пространстве и робототехнике благодаря своей способности к количественной оценке. Сайт проекта: https://spatial-vlm.github.io/
По мере того как возможности крупных мультимодальных моделей (LMM) продолжают развиваться, возникает все большая необходимость в оценке их производительности. Кроме того, существует еще более значительный пробел в оценке продвинутых знаний и способностей к рассуждению LMM в неанглоязычных контекстах, таких как китайский. Мы представляем CMMMU — новый китайский бенчмарк для массового мультидисциплинарного мультимодального понимания, разработанный для оценки LMM на задачах, требующих знаний на уровне университета и тщательного рассуждения в китайском контексте. CMMMU вдохновлен и строго следует шаблону аннотации и анализа MMMU. CMMMU включает 12 тысяч вручную собранных мультимодальных вопросов из университетских экзаменов, тестов и учебников, охватывающих шесть основных дисциплин: искусство и дизайн, бизнес, наука, здоровье и медицина, гуманитарные и социальные науки, а также технологии и инженерия, как и его аналог MMMU. Эти вопросы охватывают 30 предметов и включают 39 высоко гетерогенных типов изображений, таких как графики, диаграммы, карты, таблицы, нотные листы и химические структуры. CMMMU фокусируется на сложном восприятии и рассуждении с использованием предметных знаний в китайском контексте. Мы оценили 11 открытых LLM и одну проприетарную модель GPT-4V(ision). Даже GPT-4V достигает точности всего 42%, что указывает на значительный потенциал для улучшений. CMMMU будет способствовать развитию сообщества в создании следующего поколения LMM, направленных на достижение экспертного искусственного интеллекта, а также содействовать демократизации LMM, предоставляя разнообразные языковые контексты.
Рентгенография органов грудной клетки (РГК) является наиболее часто выполняемым визуализирующим исследованием в клинической практике. Последние достижения в разработке базовых моделей, объединяющих зрение и язык (vision-language foundation models, FMs), открывают возможность автоматизированной интерпретации РГК, что может помочь врачам в принятии клинических решений и улучшить результаты лечения пациентов. Однако разработка FMs, способных точно интерпретировать РГК, сопряжена с рядом трудностей, включая (1) ограниченную доступность крупномасштабных наборов данных, объединяющих зрение и язык, в области медицинских изображений, (2) отсутствие кодировщиков зрения и языка, способных учитывать сложность медицинских данных, и (3) отсутствие систем оценки для тестирования возможностей FMs в интерпретации РГК. В данной работе мы решаем эти проблемы, сначала представляя CheXinstruct — крупномасштабный набор данных для настройки по инструкциям, созданный на основе 28 общедоступных наборов данных. Затем мы представляем CheXagent — FM, настроенную на выполнение инструкций и способную анализировать и резюмировать РГК. Для создания CheXagent мы разработали клиническую большую языковую модель (LLM) для анализа радиологических отчетов, кодировщик зрения для представления изображений РГК и сеть, объединяющую модальности зрения и языка. Наконец, мы представляем CheXbench — новый эталонный тест, предназначенный для систематической оценки FMs по 8 клинически значимым задачам интерпретации РГК. Обширные количественные оценки и качественный анализ с участием пяти экспертов-радиологов демонстрируют, что CheXagent превосходит ранее разработанные FMs общего и медицинского назначения в задачах CheXbench. Кроме того, в целях повышения прозрачности модели, мы проводим оценку справедливости по факторам пола, расы и возраста, чтобы выявить потенциальные различия в производительности. Наш проект доступен по адресу: https://stanford-aimi.github.io/chexagent.html.
Мы представляем Hourglass Diffusion Transformer (HDiT) — генеративную модель изображений, которая демонстрирует линейное масштабирование в зависимости от количества пикселей, поддерживая обучение на высоких разрешениях (например, 1024×1024) непосредственно в пространстве пикселей. Основанная на архитектуре Transformer, известной своей способностью масштабироваться до миллиардов параметров, HDiT устраняет разрыв между эффективностью сверточных U-Net и масштабируемостью Transformers. HDiT успешно обучается без использования типичных методов для высоких разрешений, таких как многоуровневые архитектуры, латентные автокодировщики или самокондиционирование. Мы показываем, что HDiT конкурирует с существующими моделями на ImageNet 256^2 и устанавливает новый рекорд для диффузионных моделей на FFHQ-1024^2.
Мы представляем Diffusion Inference-Time T-Optimization (DITTO) — универсальную структуру для управления предобученными диффузионными моделями преобразования текста в музыку на этапе вывода путем оптимизации начальных латентных шумов. Наш метод позволяет оптимизировать любую дифференцируемую функцию потерь для сопоставления признаков с целью достижения целевого (стилизованного) результата и использует градиентный чекпоинтинг для повышения эффективности использования памяти. Мы демонстрируем удивительно широкий спектр применений для генерации музыки, включая восстановление (inpainting), расширение (outpainting), зацикливание, а также управление интенсивностью, мелодией и музыкальной структурой — всё это без необходимости тонкой настройки базовой модели. При сравнении нашего подхода с методами, основанными на обучении, управлении и оптимизации, мы обнаруживаем, что DITTO достигает наилучших результатов практически во всех задачах, включая превосходство по управляемости, качеству звука и вычислительной эффективности, что открывает путь к высококачественному, гибкому и не требующему обучения управлению диффузионными моделями. Примеры звучания можно найти на https://DITTO-Music.github.io/web/.
Согласование больших языковых моделей (LLM) с человеческими предпочтениями с помощью обучения с подкреплением (RLHF) может привести к "взлому вознаграждения", когда LLM эксплуатируют недостатки модели вознаграждения (RM), чтобы достичь кажущегося высокого уровня вознаграждения, не выполняя при этом основные задачи. Мы выделяем две основные проблемы при проектировании RM для смягчения взлома вознаграждения: сдвиги распределения в процессе RL и несоответствия в человеческих предпочтениях. В качестве решения мы предлагаем модели вознаграждения с усреднением весов (WARM), сначала дообучая несколько RM, а затем усредняя их в пространстве весов. Этот подход основан на наблюдении, что дообученные веса остаются линейно связанными, если они используют одинаковую предварительную подготовку. Усредняя веса, WARM повышает эффективность по сравнению с традиционным ансамблем предсказаний, одновременно улучшая надежность при сдвигах распределения и устойчивость к несоответствиям предпочтений. Наши эксперименты на задачах суммаризации, использующие методы best-of-N и RL, показывают, что WARM улучшает общее качество и согласованность предсказаний LLM; например, политика, дообученная с помощью RL с использованием WARM, имеет 79,4% выигрышей против политики, дообученной с помощью RL с использованием одной RM.
Диффузионные модели в последнее время привлекают все больше внимания исследователей благодаря их впечатляющим способностям к переносу в задачах семантической сегментации. Однако генерация детализированных масок сегментации с использованием диффузионных моделей часто требует дополнительного обучения на аннотированных наборах данных, что оставляет неясным, в какой степени предобученные диффузионные модели сами по себе понимают семантические отношения в создаваемых ими изображениях. Чтобы ответить на этот вопрос, мы используем семантические знания, извлеченные из модели Stable Diffusion (SD), и стремимся разработать сегментатор изображений, способный генерировать детализированные карты сегментации без какого-либо дополнительного обучения. Основная сложность заключается в том, что семантически значимые карты признаков обычно существуют только в пространственно низкоразмерных слоях, что создает трудности при прямом извлечении пиксельных семантических отношений из этих карт. Чтобы преодолеть эту проблему, наша система выявляет семантические соответствия между пикселями изображения и пространственными расположениями низкоразмерных карт признаков, используя процесс генерации SD, и применяет их для построения карт сегментации с разрешением изображения. В ходе обширных экспериментов созданные карты сегментации демонстрируют четкие границы и детально захватывают части изображений, что указывает на наличие высокоточных пиксельных семантических знаний в диффузионных моделях.
Значительный прогресс был достигнут в обучении крупных генеративных моделей для работы с естественным языком и изображениями. Однако развитие 3D-генеративных моделей сдерживается их высокими требованиями к ресурсам для обучения, а также неэффективными, некомпактными и менее выразительными представлениями. В данной статье представлена Make-A-Shape — новая 3D-генеративная модель, разработанная для эффективного обучения в больших масштабах, способная использовать 10 миллионов общедоступных 3D-моделей. С технической точки зрения, мы впервые предлагаем представление на основе вейвлет-дерева для компактного кодирования форм, формулируя схему фильтрации субполосных коэффициентов для эффективного использования их взаимосвязей. Затем мы делаем это представление пригодным для генерации с помощью диффузионной модели, разрабатывая схему упаковки субполосных коэффициентов для размещения представления в низкоразрешающей сетке. Кроме того, мы разрабатываем стратегию адаптивного обучения субполос, чтобы наша модель могла эффективно обучаться генерации как грубых, так и детализированных вейвлет-коэффициентов. Наконец, мы расширяем нашу систему, чтобы она могла управляться дополнительными входными условиями, что позволяет генерировать формы из различных модальностей, таких как одно/многовидовые изображения, облака точек и низкоразрешающие воксели. В наших обширных экспериментах мы демонстрируем различные приложения, включая безусловную генерацию, завершение форм и условную генерацию для широкого спектра модальностей. Наш подход не только превосходит современные методы в достижении высококачественных результатов, но и эффективно генерирует формы за несколько секунд, часто достигая этого всего за 2 секунды для большинства условий.
В данном исследовании мы представляем Orion-14B — семейство многоязычных больших языковых моделей с 14 миллиардами параметров. Мы используем подход к планированию данных для обучения базовой модели на разнообразном корпусе из 2,5 триллионов токенов, включающем тексты на английском, китайском, японском, корейском и других языках. Кроме того, мы дообучили серию моделей, адаптированных для задач диалоговых систем и других специфических применений. Результаты оценки показывают, что Orion-14B достигает передовых показателей в широком спектре задач. Мы делаем семейство моделей Orion-14B и связанный с ним код общедоступными по адресу https://github.com/OrionStarAI/Orion, стремясь вдохновить будущие исследования и практические применения в этой области.
Последние достижения в области языковых моделей (LM) продемонстрировали впечатляющую производительность в задаче преобразования голоса (VC) с нулевым обучением. Однако существующие модели VC на основе LM обычно применяют оффлайн-преобразование от семантики источника к акустическим характеристикам, что требует полного исходного аудио и ограничивает их использование в реальном времени. В данной статье мы представляем StreamVoice — новую потоковую модель на основе LM для VC с нулевым обучением, которая обеспечивает преобразование в реальном времени с использованием произвольных речевых подсказок и исходного аудио. В частности, для реализации потоковой обработки StreamVoice использует полностью причинно-следственную контекстно-зависимую LM с временно-независимым акустическим предсказателем, попеременно обрабатывая семантические и акустические характеристики на каждом шаге авторегрессии, что устраняет зависимость от полного исходного аудио. Чтобы минимизировать возможное снижение производительности из-за неполного контекста при потоковой обработке, мы улучшаем контекстную осведомленность LM с помощью двух стратегий: 1) предвидение контекста с использованием учителя, где учитель обобщает текущий и будущий семантический контекст во время обучения, чтобы направлять прогнозирование модели для отсутствующего контекста; 2) стратегия семантического маскирования, которая способствует предсказанию акустических характеристик на основе предшествующих искаженных семантических и акустических данных, улучшая способность к обучению контексту. Важно отметить, что StreamVoice является первой потоковой моделью VC с нулевым обучением на основе LM, которая не требует предварительного просмотра будущего контекста. Экспериментальные результаты подтверждают способность StreamVoice к потоковому преобразованию при сохранении производительности, сопоставимой с не потоковыми системами VC.
В последние годы был достигнут значительный прогресс в областях компьютерного зрения, обработки естественного языка и робототехники. Сегодня существуют модели зрения, способные распознавать объекты на основе текстовых запросов, навигационные системы, эффективно управляющие мобильными платформами, и модели захвата, способные работать с широким спектром объектов. Несмотря на эти достижения, универсальные приложения робототехники всё ещё отстают, хотя и опираются на такие фундаментальные возможности, как распознавание, навигация и захват. В данной статье мы применяем системно-ориентированный подход для разработки новой робототехнической платформы на основе открытых знаний, названной OK-Robot. Объединяя модели "визуальный язык" (VLMs) для обнаружения объектов, навигационные примитивы для перемещения и примитивы захвата для манипуляции объектами, OK-Robot предлагает интегрированное решение для операций "взять и положить" без необходимости обучения. Для оценки её производительности мы провели тестирование OK-Robot в 10 реальных домашних условиях. Результаты показывают, что OK-Robot достигает успеха в 58,5% случаев в открытых задачах "взять и положить", что представляет собой новый уровень в области манипуляции с мобильными роботами с открытым словарём (OVMM), превосходя предыдущие работы почти в 1,8 раза. В более чистых и упорядоченных средах производительность OK-Robot возрастает до 82%. Однако наиболее важный вывод, полученный благодаря OK-Robot, заключается в критической роли тонких деталей при объединении систем открытых знаний, таких как VLMs, с робототехническими модулями. Видео наших экспериментов доступны на нашем сайте: https://ok-robot.github.io.
Последние достижения в области генерации 3D-аватаров привлекли значительное внимание. Эти прорывы направлены на создание более реалистичных анимируемых аватаров, сокращая разрыв между виртуальным и реальным опытом. Большинство существующих работ используют функцию потерь Score Distillation Sampling (SDS) в сочетании с дифференцируемым рендерером и текстовым условием для управления диффузионной моделью в процессе генерации 3D-аватаров. Однако SDS часто приводит к излишне сглаженным результатам с малым количеством деталей на лице, что ограничивает разнообразие по сравнению с методом ancestral sampling. С другой стороны, другие подходы генерируют 3D-аватар из одного изображения, где проблемы нежелательных эффектов освещения, перспективных искажений и низкого качества изображения затрудняют надежное восстановление 3D-мешей лица с выровненными полными текстурами. В данной статье мы предлагаем новый подход к генерации 3D-аватаров под названием UltrAvatar, который обеспечивает повышенную точность геометрии и превосходное качество текстур на основе физически корректного рендеринга (PBR) без нежелательных эффектов освещения. Для этого предложенный подход включает модель извлечения диффузного цвета и модель диффузии текстур с управлением по аутентичности. Первая удаляет нежелательные эффекты освещения, чтобы выявить истинные диффузные цвета, что позволяет рендерить аватары в различных условиях освещения. Вторая следует двум градиентным направлениям для генерации PBR-текстур, что улучшает рендеринг разнообразных черт лица и деталей, лучше согласованных с геометрией 3D-меша. Мы демонстрируем эффективность и устойчивость предложенного метода, который значительно превосходит современные подходы в экспериментах.
В данной статье мы представляем Human-LRM — одноэтапную прямую модель крупномасштабной реконструкции, предназначенную для предсказания нейронных полей излучения (NeRF) человека по одному изображению. Наш подход демонстрирует выдающуюся адаптивность при обучении на обширных наборах данных, содержащих 3D-сканы и съемку с нескольких ракурсов. Кроме того, чтобы повысить применимость модели в реальных условиях, особенно при наличии окклюзий, мы предлагаем новую стратегию, которая преобразует реконструкцию с нескольких ракурсов в однокадровую с использованием условной диффузионной модели на основе триплоскостей. Это генеративное расширение учитывает естественные вариации форм человеческого тела при наблюдении с одного ракурса и позволяет восстанавливать полное тело человека даже из изображения с окклюзиями. В ходе многочисленных экспериментов мы показываем, что Human-LRM значительно превосходит предыдущие методы на нескольких бенчмарках.
Точное моделирование динамики объектов реального мира имеет ключевое значение для различных приложений, таких как робототехника, инженерия, графика и дизайн. Для более точного воспроизведения сложных реальных динамических процессов, таких как контакт и трение, недавно были предложены обучаемые симуляторы на основе графовых сетей, показавшие значительный потенциал. Однако применение этих обучаемых симуляторов к реальным сценам связано с двумя основными проблемами: во-первых, масштабирование симуляторов для обработки сложности реальных сцен, которые могут включать сотни объектов, каждый из которых имеет сложную 3D-форму, и, во-вторых, обработка входных данных, полученных от систем восприятия, а не 3D-состояний. В данной работе мы представляем метод, который существенно снижает объем памяти, необходимый для работы графовых обучаемых симуляторов. На основе этой модели с эффективным использованием памяти мы затем предлагаем интерфейс восприятия в виде редактируемых NeRF, который может преобразовывать реальные сцены в структурированное представление, пригодное для обработки графовым сетевым симулятором. Мы показываем, что наш метод требует значительно меньше памяти по сравнению с предыдущими графовыми симуляторами, сохраняя при этом их точность, и что симуляторы, обученные на синтетических данных, могут быть применены к реальным сценам, захваченным с нескольких углов камеры. Это открывает путь для расширения применения обучаемых симуляторов в условиях, когда на этапе вывода доступна только информация от систем восприятия.
Виртуальная реальность (VR) открывает перспективы для социальных взаимодействий, которые могут ощущаться более погружающими, чем другие медиа. Ключевым аспектом здесь является возможность точной анимации фотореалистичного аватара, отражающего внешность пользователя, в режиме реального времени при использовании VR-гарнитуры. Хотя высококачественная регистрация персонализированных аватаров на основе изображений с камеры, установленной на гарнитуре (HMC), возможна в офлайн-режиме, производительность универсальных моделей в реальном времени значительно снижается. Онлайн-регистрация также представляет сложность из-за косых углов обзора камеры и различий в модальности. В данной работе мы сначала показываем, что разрыв между доменами аватара и изображений с камеры гарнитуры является одной из основных причин трудностей: архитектура на основе трансформеров достигает высокой точности на данных, согласованных по домену, но её эффективность снижается при повторном введении разрыва между доменами. Опираясь на это наблюдение, мы разрабатываем системный подход, который разделяет задачу на две части: 1) модуль итеративного уточнения, работающий с входными данными из одного домена, и 2) универсальный модуль переноса стиля "изображение-в-изображение", управляемый аватаром и учитывающий текущую оценку выражения лица и позы головы. Эти два модуля взаимно усиливают друг друга, поскольку перенос стиля становится проще при наличии примеров, близких к истинным значениям, а лучшее устранение разрыва между доменами улучшает регистрацию. Наша система эффективно создаёт высококачественные результаты, устраняя необходимость в дорогостоящей офлайн-регистрации для генерации персонализированных меток. Мы подтверждаем точность и эффективность нашего подхода с помощью обширных экспериментов на потребительской гарнитуре, демонстрируя значительные улучшения по сравнению с методами прямой регрессии и офлайн-регистрацией.