Ежедневно отобранные исследовательские статьи по ИИ с переводами
Фундаментальные модели, которые сейчас лежат в основе большинства впечатляющих приложений в глубоком обучении, практически повсеместно основаны на архитектуре Transformer и её ключевом модуле внимания. Многие архитектуры с субквадратичной временной сложностью, такие как линейное внимание, сверточные модели с вентиляцией, рекуррентные модели и структурированные модели пространства состояний (SSM), были разработаны для решения проблемы вычислительной неэффективности Transformers на длинных последовательностях, но они не показали таких же результатов, как механизм внимания, на важных модальностях, таких как язык. Мы выявили, что ключевая слабость таких моделей заключается в их неспособности выполнять рассуждения на основе контента, и предложили несколько улучшений. Во-первых, простое преобразование параметров SSM в функции входных данных устраняет их слабость в работе с дискретными модальностями, позволяя модели избирательно распространять или забывать информацию вдоль измерения длины последовательности в зависимости от текущего токена. Во-вторых, хотя это изменение исключает использование эффективных сверток, мы разработали аппаратно-ориентированный параллельный алгоритм в рекуррентном режиме. Мы интегрировали эти селективные SSM в упрощённую сквозную архитектуру нейронной сети без механизма внимания и даже без блоков MLP (Mamba). Mamba обеспечивает быстрое выполнение (в 5 раз выше пропускная способность по сравнению с Transformers) и линейное масштабирование по длине последовательности, а её производительность улучшается на реальных данных вплоть до последовательностей длиной в миллион элементов. В качестве общей основы для моделирования последовательностей Mamba достигает наилучших результатов на нескольких модальностях, таких как язык, аудио и геномика. В задаче языкового моделирования наша модель Mamba-3B превосходит Transformers того же размера и соответствует Transformers вдвое большего размера как на этапе предварительного обучения, так и на этапе последующей оценки.
Мы представляем MoMask, новую структуру маскированного моделирования для генерации 3D-движений человека на основе текста. В MoMask используется иерархическая схема квантования для представления движений человека в виде многослойных дискретных токенов с высокой детализацией. Начиная с базового слоя, где последовательность токенов движений получается с помощью векторного квантования, остаточные токены возрастающих порядков вычисляются и сохраняются на последующих слоях иерархии. Затем применяются два различных двунаправленных трансформера. Для токенов движений базового слоя используется Masked Transformer, который на этапе обучения предсказывает случайно замаскированные токены движений на основе текстового ввода. На этапе генерации (т.е. вывода), начиная с пустой последовательности, наш Masked Transformer итеративно заполняет пропущенные токены. После этого Residual Transformer учится постепенно предсказывать токены следующего слоя на основе результатов текущего слоя. Многочисленные эксперименты показывают, что MoMask превосходит современные методы в задаче генерации движений из текста, достигая FID 0.045 (по сравнению с 0.141 у T2M-GPT) на наборе данных HumanML3D и 0.228 (по сравнению с 0.514) на KIT-ML. MoMask также может быть легко применен в связанных задачах без дополнительной тонкой настройки модели, таких как текстово-управляемое временное восстановление.
Мы представляем DREAM — новую структуру обучения, обозначающую Модели с Коррекцией Диффузии и Адаптивной Оценкой, которая требует минимальных изменений в коде (всего три строки), но при этом значительно улучшает согласованность обучения и выборки в диффузионных моделях. DREAM включает два компонента: коррекцию диффузии, которая настраивает обучение для отражения процесса выборки, и адаптацию оценки, которая балансирует восприятие и искажение. Применяемый к задаче супер-разрешения изображений (SR), DREAM эффективно управляет компромиссом между минимизацией искажений и сохранением высокого качества изображения. Эксперименты демонстрируют превосходство DREAM над стандартными методами SR на основе диффузии, показывая ускорение сходимости обучения в 2–3 раза и сокращение необходимых шагов выборки в 10–20 раз для достижения сопоставимых или лучших результатов. Мы надеемся, что DREAM вдохновит на переосмысление парадигм обучения диффузионных моделей.
Мультимодальные большие языковые модели (MLLM) недавно продемонстрировали впечатляющие способности в области мультимодального понимания, рассуждения и взаимодействия. Однако существующие MLLM часто страдают от серьезных проблем с галлюцинациями, генерируя текст, который не соответствует фактам, связанным с изображениями. Эта проблема делает существующие MLLM ненадежными и, следовательно, непрактичными в реальных (особенно высокорисковых) приложениях. Для решения этой задачи мы представляем RLHF-V, который повышает надежность MLLM за счет выравнивания поведения на основе детализированной корректирующей обратной связи от человека. В частности, RLHF-V собирает предпочтения людей в виде исправлений на уровне сегментов для галлюцинаций и выполняет плотную оптимизацию прямых предпочтений на основе этой обратной связи. Комплексные эксперименты на пяти эталонных тестах, как в автоматической, так и в человеческой оценке, показывают, что RLHF-V позволяет добиться значительно более надежного поведения MLLM с высокой эффективностью данных и вычислений. Примечательно, что используя 1,4 тыс. аннотированных образцов данных, RLHF-V значительно снижает уровень галлюцинаций базовой MLLM на 34,8%, превосходя конкурирующую модель LLaVA-RLHF, обученную на 10 тыс. аннотированных данных. Финальная модель демонстрирует наилучшие показатели надежности среди открытых MLLM и показывает более высокую устойчивость, чем GPT-4V, в предотвращении галлюцинаций, вызванных излишним обобщением. Мы открываем исходный код, модель и данные по адресу https://github.com/RLHF-V/RLHF-V.
Синтез новых видов из ограниченных наблюдений остается важной и актуальной задачей. Однако высокая эффективность в существующих методах синтеза видов на основе NeRF с использованием малого количества данных часто жертвуется ради получения точного 3D-представления. Для решения этой проблемы мы предлагаем фреймворк для синтеза видов с малым количеством данных, основанный на 3D Gaussian Splatting, который позволяет осуществлять фотореалистичный синтез видов в реальном времени с использованием всего трех обучающих видов. Предложенный метод, названный FSGS, обрабатывает крайне разреженные инициализированные точки SfM с помощью тщательно разработанного процесса Gaussian Unpooling. Наш метод итеративно распределяет новые гауссовы функции вокруг наиболее репрезентативных мест, заполняя локальные детали в пустых областях. Мы также интегрируем предобученный монокулярный оценщик глубины в процесс оптимизации гауссовых функций, используя онлайн-усиленные виды для направления геометрической оптимизации к оптимальному решению. Начиная с разреженных точек, наблюдаемых из ограниченных входных ракурсов, наш FSGS может точно расширяться в невидимые области, полностью покрывая сцену и повышая качество рендеринга новых видов. В целом, FSGS демонстрирует наилучшие результаты как по точности, так и по эффективности рендеринга на различных наборах данных, включая LLFF, Mip-NeRF360 и Blender. Проектный сайт: https://zehaozhu.github.io/FSGS/.
Методы нейронного рендеринга значительно продвинули фотореалистичное 3D-рендеринг сцен в различных академических и промышленных приложениях. Недавний метод 3D Gaussian Splatting достиг наивысшего качества и скорости рендеринга, сочетая преимущества как примитивных, так и объемных представлений. Однако он часто приводит к избыточному количеству гауссов, которые пытаются соответствовать каждому обучающему виду, игнорируя базовую геометрию сцены. В результате модель становится менее устойчивой к значительным изменениям ракурса, текстурированным областям и эффектам освещения. Мы представляем Scaffold-GS, который использует опорные точки для распределения локальных 3D-гауссов и предсказывает их атрибуты на лету на основе направления обзора и расстояния внутри видимого объема. Стратегии роста и обрезки опорных точек разработаны на основе важности нейронных гауссов для надежного улучшения покрытия сцены. Мы показываем, что наш метод эффективно сокращает избыточные гауссы, обеспечивая при этом высококачественный рендеринг. Также демонстрируется улучшенная способность адаптироваться к сценам с различными уровнями детализации и наблюдениями, зависящими от ракурса, без ущерба для скорости рендеринга.
Синтез 3D-лиц с текстовым управлением достиг впечатляющих результатов благодаря использованию моделей диффузии "текст-изображение" (T2I). Однако большинство существующих работ сосредоточено исключительно на прямой генерации, игнорируя редактирование, что ограничивает возможность создания персонализированных 3D-лиц через итеративные изменения. В данной статье мы предлагаем унифицированную текстово-управляемую структуру, охватывающую как генерацию, так и редактирование лиц. На этапе генерации мы предлагаем раздельную генерацию геометрии и текстуры, чтобы минимизировать потерю геометрических деталей, вызванную их совместной обработкой. Кроме того, разделение позволяет использовать сгенерированную геометрию в качестве условия для генерации текстуры, что обеспечивает высокую согласованность геометрии и текстуры. Мы также применяем дообученную модель диффузии текстуры для повышения качества текстуры как в RGB, так и в YUV пространстве. На этапе редактирования мы сначала используем предобученную модель диффузии для обновления геометрии или текстуры лица на основе текстовых описаний. Для обеспечения последовательного редактирования мы вводим регуляризацию сохранения согласованности в UV-области, предотвращая непреднамеренные изменения несвязанных атрибутов лица. Кроме того, мы предлагаем стратегию самоконтролируемого веса согласованности для повышения эффективности редактирования при сохранении согласованности. В ходе всесторонних экспериментов мы демонстрируем превосходство нашего метода в синтезе лиц. Страница проекта: https://faceg2e.github.io/.
Нейронные поля излучения (NeRF) могут быть значительно ускорены с использованием пространственных сеточных представлений. Однако они не учитывают явно масштаб, что приводит к появлению артефактов сглаживания при реконструкции сцен, снятых с разных расстояний камеры. Mip-NeRF и его расширения предлагают рендереры, учитывающие масштаб, которые проецируют объемные усеченные пирамиды вместо точечных выборок, но такие подходы опираются на позиционные кодировки, которые несовместимы с сетевыми методами. Мы предлагаем простое изменение для сеточных моделей, заключающееся в обучении голов моделей на разных разрешениях пространственной сетки. Во время рендеринга мы просто используем более грубые сетки для рендеринга выборок, покрывающих большие объемы. Наш метод может быть легко применен к существующим ускоренным методам NeRF и значительно улучшает качество рендеринга (снижая уровень ошибок на 20-90% для синтетических и неограниченных реальных сцен) при минимальных накладных расходах на производительность (поскольку каждая головка модели быстро вычисляется). По сравнению с Mip-NeRF, мы снижаем уровень ошибок на 20%, при этом обучение происходит более чем в 60 раз быстрее.
В последнее время автоматическое создание 3D-контента на основе текста достигло значительного прогресса благодаря развитию предобученных 2D диффузионных моделей. Существующие методы преобразования текста в 3D обычно оптимизируют 3D-представление, чтобы визуализированное изображение соответствовало заданному тексту, что оценивается с помощью предобученной 2D диффузионной модели. Однако существует значительный разрыв между 2D-изображениями и 3D-активами, обусловленный в основном различиями в атрибутах, связанных с камерой, и исключительным присутствием объектов на переднем плане. В результате прямое использование 2D диффузионных моделей для оптимизации 3D-представлений может приводить к неоптимальным результатам. Для решения этой проблемы мы представляем X-Dreamer — новый подход к созданию высококачественного 3D-контента на основе текста, который эффективно устраняет разрыв между синтезом текста в 2D и текста в 3D. Ключевыми компонентами X-Dreamer являются два инновационных решения: Camera-Guided Low-Rank Adaptation (CG-LoRA) и Attention-Mask Alignment (AMA) Loss. CG-LoRA динамически интегрирует информацию о камере в предобученные диффузионные модели, используя генерацию, зависящую от камеры, для обучаемых параметров. Эта интеграция улучшает соответствие между создаваемыми 3D-активами и перспективой камеры. AMA Loss направляет карту внимания предобученной диффузионной модели с использованием бинарной маски 3D-объекта, уделяя приоритет созданию объекта на переднем плане. Этот модуль гарантирует, что модель сосредоточена на генерации точных и детализированных объектов переднего плана. Многочисленные оценки демонстрируют эффективность нашего предложенного метода по сравнению с существующими подходами преобразования текста в 3D. Наш проект доступен по ссылке: https://xmuxiaoma666.github.io/Projects/X-Dreamer.