Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем StreamDiffusion — конвейер диффузии в реальном времени, разработанный для интерактивной генерации изображений. Существующие модели диффузии хорошо справляются с созданием изображений на основе текстовых или графических подсказок, однако они часто не соответствуют требованиям реального времени. Это ограничение становится особенно заметным в сценариях, связанных с непрерывным вводом данных, таких как метавселенная, прямая трансляция видео и вещание, где высокая пропускная способность является обязательной. Для решения этой проблемы мы предлагаем новый подход, который преобразует исходный последовательный процесс удаления шума в пакетный процесс. StreamBatch устраняет традиционный подход "ожидания и взаимодействия" и обеспечивает плавный и высокопроизводительный поток данных. Для устранения разницы в частоте между вводом данных и пропускной способностью модели мы разработали новую очередь ввода-вывода для параллелизации процесса потоковой передачи. Кроме того, существующий конвейер диффузии использует классификатор-свободное управление (CFG), которое требует дополнительных вычислений U-Net. Чтобы минимизировать избыточные вычисления, мы предлагаем новый алгоритм остаточного классификатор-свободного управления (RCFG), который сокращает количество шагов отрицательного условного удаления шума до одного или даже нуля. Также мы вводим стохастический фильтр подобия (SSF) для оптимизации энергопотребления. Наш StreamBatch обеспечивает ускорение примерно в 1,5 раза по сравнению с последовательным методом удаления шума на различных уровнях. Предложенный RCFG позволяет достичь скорости до 2,05 раз выше, чем у традиционного CFG. Комбинирование предложенных стратегий с существующими зрелыми инструментами ускорения позволяет достичь генерации изображений со скоростью до 91,07 кадров в секунду на одной RTX4090, улучшая пропускную способность AutoPipeline, разработанного Diffusers, более чем в 59,56 раз. Кроме того, наш StreamDiffusion также значительно снижает энергопотребление: в 2,39 раза на одной RTX3060 и в 1,99 раза на одной RTX4090.
Мы представляем VideoPoet — языковую модель, способную синтезировать высококачественные видео с соответствующим аудио на основе широкого спектра входных сигналов. VideoPoet использует архитектуру трансформера, работающую только в режиме декодера, которая обрабатывает мультимодальные входные данные, включая изображения, видео, текст и аудио. Процедура обучения следует подходу, применяемому в крупных языковых моделях (LLM), и состоит из двух этапов: предварительного обучения и адаптации под конкретные задачи. На этапе предварительного обучения VideoPoet интегрирует смесь мультимодальных генеративных задач в рамках авторегрессивной архитектуры трансформера. Предварительно обученная LLM служит основой, которая может быть адаптирована для решения различных задач генерации видео. Мы представляем эмпирические результаты, демонстрирующие передовые возможности модели в генерации видео в режиме zero-shot, с акцентом на способность VideoPoet создавать движения высокой точности. Страница проекта: http://sites.research.google/videopoet/
В данной статье представлен PowerInfer — высокоскоростной механизм вывода (inference) для больших языковых моделей (LLM), работающий на персональном компьютере (ПК) с одной потребительской видеокартой (GPU). Основная идея, лежащая в основе разработки PowerInfer, заключается в использовании высокой локальности, присущей процессу вывода LLM, которая характеризуется степенным распределением активации нейронов. Это распределение указывает на то, что небольшое подмножество нейронов, называемых "горячими нейронами", активируется стабильно для различных входных данных, в то время как большинство нейронов, "холодные нейроны", варьируются в зависимости от конкретных входных данных. PowerInfer использует это наблюдение для создания гибридного механизма вывода, сочетающего GPU и CPU: "горячие" нейроны предварительно загружаются на GPU для быстрого доступа, а "холодные" нейроны вычисляются на CPU, что значительно снижает требования к памяти GPU и объем передаваемых данных между CPU и GPU. PowerInfer также интегрирует адаптивные предсказатели и разреженные операторы, учитывающие активность нейронов, что оптимизирует эффективность активации нейронов и вычислительную разреженность. Оценка показывает, что PowerInfer достигает средней скорости генерации токенов 13,20 токенов/с с пиком 29,08 токенов/с для различных LLM (включая OPT-175B) на одной видеокарте NVIDIA RTX 4090, что всего на 18% ниже, чем на серверной видеокарте A100 высшего класса. Это значительно превосходит llama.cpp — до 11,69 раз — при сохранении точности модели.
Способность человека легко решать мультимодальные задачи в контексте (т.е. с использованием всего нескольких примеров или простых инструкций) — это то, с чем современные мультимодальные системы в значительной степени не справляются. В данной работе мы показываем, что способности крупных мультимодальных моделей к обучению в контексте, независимо от задачи, могут быть значительно улучшены за счет эффективного масштабирования. Мы представляем Emu2, генеративную мультимодальную модель с 37 миллиардами параметров, обученную на крупномасштабных мультимодальных последовательностях с использованием единой авторегрессионной цели. Emu2 демонстрирует мощные способности к обучению в мультимодальном контексте, включая решение задач, требующих мгновенного рассуждения, таких как визуальные подсказки и генерация, основанная на объектах. Модель устанавливает новый рекорд в нескольких задачах мультимодального понимания в условиях обучения с малым количеством примеров. После настройки на выполнение конкретных инструкций Emu2 достигает нового уровня state-of-the-art в сложных задачах, таких как бенчмарки вопросно-ответных систем для крупных мультимодальных моделей и генерация с открытым концом, основанная на предметах. Эти достижения демонстрируют, что Emu2 может служить базовой моделью и универсальным интерфейсом для широкого спектра мультимодальных задач. Код и модели доступны публично для содействия будущим исследованиям.
Генерация эмоционально выразительных говорящих лиц на основе одного портретного изображения остается серьезной задачей. Одновременное достижение выразительного эмоционального разговора и точной синхронизации губ особенно сложно, так как выразительность часто жертвуется ради точности синхронизации. Как широко используется во многих предыдущих работах, сеть LSTM часто не способна уловить тонкости и вариации эмоциональных выражений. Для решения этих проблем мы представляем DREAM-Talk, двухэтапную аудио-управляемую диффузионную систему, разработанную для одновременной генерации разнообразных выражений и точной синхронизации губ. На первом этапе мы предлагаем EmoDiff, новый диффузионный модуль, который генерирует разнообразные, высокодинамичные эмоциональные выражения и позы головы в соответствии с аудио и заданным эмоциональным стилем. Учитывая сильную корреляцию между движением губ и аудио, мы затем уточняем динамику с повышенной точностью синхронизации губ, используя аудио-характеристики и эмоциональный стиль. Для этого мы применяем модуль видео-к-видео рендеринга, чтобы перенести выражения и движения губ с нашего прокси-3D аватара на произвольный портрет. Как количественно, так и качественно, DREAM-Talk превосходит современные методы по выразительности, точности синхронизации губ и воспринимаемому качеству.
Диффузионные модели продемонстрировали впечатляющие возможности в генерации изображений на основе текста и перспективны для персонализированных приложений, связанных с генерацией на основе объектов, где требуется создание кастомных концепций с использованием одного или нескольких референсных изображений. Однако существующие методы, основанные на тонкой настройке, не способны сбалансировать компромисс между изучением объекта и сохранением генеративных возможностей предобученных моделей. Кроме того, другие методы, использующие дополнительные кодировщики изображений, часто теряют важные детали объекта из-за сжатия при кодировании. Для решения этих проблем мы предлагаем DreamTurner — новый метод, который внедряет референсную информацию от общего к детальному, чтобы более эффективно достичь генерации изображений на основе объекта. DreamTurner вводит кодировщик объекта для сохранения общей идентичности объекта, где сжатые общие признаки объекта передаются через слой внимания перед кросс-вниманием между визуальными и текстовыми данными. Затем мы модифицируем слои самовнимания в предобученных моделях генерации изображений на основе текста, превращая их в слои самовнимания объекта, чтобы уточнить детали целевого объекта. Генерируемое изображение запрашивает детальные признаки как из референсного изображения, так и из самого себя в процессе самовнимания объекта. Важно подчеркнуть, что самовнимание объекта — это эффективный, элегантный и не требующий обучения метод для сохранения детальных признаков кастомных объектов, который может использоваться как plug-and-play решение на этапе вывода. Наконец, с дополнительной тонкой настройкой на основе объекта, DreamTurner демонстрирует выдающиеся результаты в генерации изображений на основе объекта, которая может контролироваться текстом или другими условиями, такими как поза. Для получения дополнительной информации посетите страницу проекта: https://dreamtuner-diffusion.github.io/.
Хотя методы оценки глубины по одному изображению достигли значительных успехов на стандартных тестовых наборах, задача оценки метрической глубины в условиях нулевого обучения (zero-shot) остается нерешенной. Основные трудности включают совместное моделирование сцен в помещении и на открытом воздухе, которые часто демонстрируют существенно разные распределения RGB и глубины, а также неоднозначность масштаба глубины из-за неизвестных внутренних параметров камеры. В последних работах предлагались специализированные многоголовые архитектуры для совместного моделирования сцен в помещении и на открытом воздухе. В отличие от этого, мы предлагаем универсальную, не зависящую от задачи диффузионную модель с рядом улучшений, таких как параметризация глубины в логарифмическом масштабе для совместного моделирования сцен в помещении и на открытом воздухе, использование поля зрения (FOV) для устранения неоднозначности масштаба и синтетическое увеличение FOV во время обучения для обобщения за пределы ограниченных внутренних параметров камеры в обучающих наборах данных. Кроме того, благодаря использованию более разнообразной обучающей смеси, чем обычно, и эффективной параметризации диффузии, наш метод DMD (Diffusion for Metric Depth) достигает снижения относительной ошибки (REL) на 25% для нулевого обучения в помещении и на 33% для нулевого обучения на открытом воздухе по сравнению с текущим состоянием искусства (SOTA), используя лишь небольшое количество шагов шумоподавления. Обзор доступен по ссылке: https://diffusion-vision.github.io/dmd.
В данной статье мы представляем Fairy — минималистичную, но мощную адаптацию моделей диффузии для редактирования изображений, улучшенную для применения в задачах редактирования видео. Наш подход основан на концепции кросс-фреймового внимания с использованием якорных точек — механизма, который неявно распространяет признаки диффузии между кадрами, обеспечивая превосходную временную согласованность и высококачественный синтез. Fairy не только устраняет ограничения предыдущих моделей, включая потребление памяти и скорость обработки, но и улучшает временную согласованность благодаря уникальной стратегии аугментации данных. Эта стратегия делает модель эквивариантной к аффинным преобразованиям как в исходных, так и в целевых изображениях. Благодаря своей высокой эффективности, Fairy генерирует 120-кадровые видео размером 512x384 (4 секунды при 30 кадрах в секунду) всего за 14 секунд, что как минимум в 44 раза быстрее, чем в предыдущих работах. Всестороннее пользовательское исследование, включающее 1000 сгенерированных образцов, подтверждает, что наш подход обеспечивает превосходное качество, значительно превосходя существующие методы.
Диффузионные модели стали фактическим стандартом для генерации видео. Однако их зависимость от веб-масштабных данных различного качества часто приводит к визуально непривлекательным результатам, которые не соответствуют текстовым запросам. Для решения этой проблемы мы предлагаем InstructVideo — подход, который обучает текстово-видео диффузионные модели с использованием обратной связи от человека через тонкую настройку на основе вознаграждения. InstructVideo включает два ключевых компонента: 1) Чтобы снизить затраты на тонкую настройку, вызванные необходимостью полного прохода по цепочке DDIM-сэмплирования, мы переосмысливаем тонкую настройку как редактирование. Используя процесс диффузии для искажения сгенерированного видео, InstructVideo требует лишь частичного выполнения цепочки DDIM-сэмплирования, что снижает затраты и повышает эффективность настройки. 2) Для компенсации отсутствия специализированной модели вознаграждения для видео, учитывающей предпочтения человека, мы адаптируем существующие модели вознаграждения для изображений, такие как HPSv2. Для этого мы предлагаем Segmental Video Reward — механизм, предоставляющий сигналы вознаграждения на основе сегментного разреженного сэмплирования, и Temporally Attenuated Reward — метод, который смягчает ухудшение временного моделирования в процессе тонкой настройки. Многочисленные эксперименты, как качественные, так и количественные, подтверждают практичность и эффективность использования моделей вознаграждения для изображений в InstructVideo, значительно улучшая визуальное качество генерируемых видео без ущерба для обобщающей способности. Код и модели будут опубликованы в открытом доступе.
Мы представляем Splatter Image — сверхбыстрый подход для монокулярной реконструкции 3D-объектов, работающий со скоростью 38 кадров в секунду. Splatter Image основан на методе Gaussian Splatting, который недавно обеспечил реализацию рендеринга в реальном времени, быстрого обучения и отличной масштабируемости для многовидовой реконструкции. Впервые мы применяем Gaussian Splatting в условиях монокулярной реконструкции. Наш подход основан на обучении, и на этапе тестирования реконструкция требует только прямого прохода через нейронную сеть. Основное новшество Splatter Image заключается в удивительно простой архитектуре: используется 2D сеть для преобразования изображения в изображение, которая отображает входное изображение в один 3D-гауссовский распределение на каждый пиксель. Полученные гауссовские распределения имеют форму изображения — Splatter Image. Мы также расширяем метод для работы с несколькими входными изображениями, добавляя механизм кросс-видового внимания. Благодаря скорости рендеринга (588 кадров в секунду), мы можем использовать один GPU для обучения, генерируя целые изображения на каждой итерации, чтобы оптимизировать перцептивные метрики, такие как LPIPS. На стандартных бенчмарках мы демонстрируем не только быструю реконструкцию, но и лучшие результаты по сравнению с недавними и гораздо более затратными базовыми методами с точки зрения PSNR, LPIPS и других метрик.
Недавно модель Segment Anything Model (SAM) продемонстрировала мощные возможности сегментации и привлекла большое внимание в области компьютерного зрения. Многочисленные последующие работы разработали различные приложения на основе предобученной SAM и достигли впечатляющих результатов в задачах обработки изображений. Однако SAM состоит из сложных архитектур и требует значительных вычислительных ресурсов, что ограничивает её применение на устройствах с ограниченными вычислительными возможностями, таких как периферийные устройства. В связи с этим, в данной статье мы предлагаем фреймворк для создания компактной модели TinySAM, сохраняя при этом высокую производительность в задачах zero-shot. Мы предлагаем метод полного цикла дистилляции знаний с использованием стратегии онлайн-выбора сложных промптов для обучения облегчённой модели-студента. Также мы адаптируем посттренировочное квантование для задач сегментации с использованием промптов, что дополнительно снижает вычислительные затраты. Кроме того, предлагается иерархическая стратегия сегментации всего изображения, которая ускоряет процесс вывода в 2 раза практически без потери производительности. Благодаря всем предложенным методам, наша TinySAM обеспечивает значительное снижение вычислительных затрат и устанавливает новые стандарты эффективности в задачах сегментации. Эксперименты на различных задачах zero-shot переноса демонстрируют существенное преимущество TinySAM по сравнению с альтернативными методами. Предобученные модели и код будут доступны по ссылкам: https://github.com/xinghaochen/TinySAM и https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
В данной работе представлена новая модель Transformer под названием Cached Transformer, которая использует механизм внимания с кэшированием на основе рекуррентных ворот (Gated Recurrent Cached, GRC) для расширения механизма самовнимания за счет дифференцируемого кэша токенов. GRC-внимание позволяет учитывать как прошлые, так и текущие токены, увеличивая область восприятия внимания и обеспечивая возможность исследования долгосрочных зависимостей. Благодаря использованию рекуррентного блока ворот для непрерывного обновления кэша, наша модель демонстрирует значительные улучшения в шести задачах, связанных с обработкой языка и изображений, включая языковое моделирование, машинный перевод, ListOPs, классификацию изображений, обнаружение объектов и сегментацию экземпляров. Кроме того, наш подход превосходит предыдущие методы, основанные на памяти, в таких задачах, как языковое моделирование, и демонстрирует возможность применения в более широком диапазоне ситуаций.
Для достижения человеческой ловкости роботы должны выводить пространственное восприятие из мультимодальных сенсорных данных, чтобы анализировать контактные взаимодействия. При манипуляции новыми объектами в руке такое пространственное восприятие включает оценку позы и формы объекта. Современные методы восприятия в руке в основном используют зрение и ограничиваются отслеживанием заранее известных объектов. Более того, визуальная окклюзия объектов в руке неизбежна во время манипуляции, что не позволяет текущим системам выходить за пределы задач без окклюзии. Мы объединяем зрение и тактильное восприятие на многофаланговой руке для оценки позы и формы объекта во время манипуляции. Наш метод, NeuralFeels, кодирует геометрию объекта, обучая нейронное поле в реальном времени, и совместно отслеживает его, оптимизируя задачу графа поз. Мы изучаем мультимодальное восприятие в руке в симуляции и реальном мире, взаимодействуя с различными объектами через политику, управляемую проприоцепцией. Наши эксперименты показывают итоговые F-меры реконструкции в 81% и средние отклонения позы в 4,7 мм, которые сокращаются до 2,3 мм при использовании известных CAD-моделей. Кроме того, мы наблюдаем, что при сильной визуальной окклюзии можем достичь улучшения отслеживания до 94% по сравнению с методами, использующими только зрение. Наши результаты демонстрируют, что тактильное восприятие, как минимум, уточняет, а как максимум, устраняет неоднозначность визуальных оценок во время манипуляции в руке. Мы публикуем наш набор данных для оценки из 70 экспериментов, FeelSight, как шаг к созданию эталонных тестов в этой области. Наше нейронное представление, основанное на мультимодальном восприятии, может служить основой для восприятия, способствуя развитию ловкости роботов. Видео можно найти на нашем проектом сайте https://suddhu.github.io/neural-feels/.
Модели диффузии с текстовым управлением произвели революцию в генерации изображений и видео, а также успешно применялись для синтеза 3D-объектов на основе оптимизации. В данной работе мы сосредоточимся на малоизученной задаче текстового описания в 4D и синтезируем динамические, анимированные 3D-объекты с использованием методов дистилляции оценок с дополнительным временным измерением. В отличие от предыдущих работ, мы предлагаем новый подход, основанный на композиционной генерации, и комбинируем модели текстового описания в изображения, видео и многовидовой диффузии с учетом 3D для предоставления обратной связи в процессе оптимизации 4D-объектов, тем самым одновременно обеспечивая временную согласованность, высококачественный визуальный вид и реалистичную геометрию. Наш метод, названный Align Your Gaussians (AYG), использует динамическое 3D-распределение Гаусса с полями деформации в качестве 4D-представления. Ключевым аспектом AYG является новый метод регуляризации распределения движущихся 3D-Гауссов, что стабилизирует оптимизацию и индуцирует движение. Мы также предлагаем механизм усиления движения и новую авторегрессивную схему синтеза для генерации и комбинирования нескольких 4D-последовательностей для более длительной генерации. Эти методы позволяют нам синтезировать яркие динамические сцены, превосходить предыдущие работы как качественно, так и количественно и достигать передовых результатов в задаче текстового описания в 4D. Благодаря 4D-представлению на основе Гауссов, различные 4D-анимации могут быть бесшовно объединены, что мы и демонстрируем. AYG открывает перспективные направления для анимации, симуляции, создания цифрового контента, а также генерации синтетических данных.
Последние достижения в области генеративного ИИ значительно улучшили возможности редактирования изображений и видео, особенно в контексте управления с помощью текстовых запросов. Современные подходы преимущественно опираются на диффузионные модели для выполнения этих задач. Однако вычислительные требования методов, основанных на диффузии, весьма значительны, часто требуя крупномасштабных парных наборов данных для обучения, что затрудняет их применение на практике. Данное исследование решает эту проблему, разделяя процесс текстового редактирования видео на два отдельных этапа. На первом этапе мы используем существующую текстово-изобразительную диффузионную модель для одновременного редактирования нескольких ключевых кадров без дополнительной тонкой настройки. На втором этапе мы представляем эффективную модель под названием MaskINT, основанную на неавторегрессивных маскированных генеративных трансформерах и специализирующуюся на интерполяции кадров между ключевыми, используя структурные подсказки, предоставляемые промежуточными кадрами. Наши всесторонние эксперименты демонстрируют эффективность и производительность MaskINT по сравнению с другими методами, основанными на диффузии. Это исследование предлагает практическое решение для текстового редактирования видео и демонстрирует потенциал неавторегрессивных маскированных генеративных трансформеров в данной области.
В исследованиях искусственного интеллекта оптимизация крупных языковых моделей (LLM) остается важной задачей, критически значимой для продвижения практических приложений и устойчивого развития области. Опираясь на фундаментальные работы лаборатории профессора Сон Хана в MIT, данная статья представляет новый подход к разработке мини-GPT с использованием контекстного прореживания. Наша методология стратегически сокращает вычислительную архитектуру традиционных LLM, таких как Phi-1.5, сохраняя ключевые функциональные возможности при значительном уменьшении размеров моделей. Мы применяем эту технику к разнообразным и сложным наборам данных, включая законодательство США, медицинские вопросы и ответы, диалоги из Skyrim, переводы с английского на тайваньский и статьи по экономике. Результаты подчеркивают эффективность контекстного прореживания не только как теоретической концепции, но и как практического инструмента для создания ресурсоэффективных LLM, ориентированных на конкретные области. Контекстное прореживание является перспективным методом для построения специализированных LLM, и данное исследование служит основой для будущего развития с использованием более мощных вычислительных ресурсов, улучшенной тонкой настройки и квантования.
В данной статье представлено всестороннее исследование роли Classifier-Free Guidance (CFG) в диффузионных моделях с текстовым условием с точки зрения эффективности вывода. В частности, мы отказываемся от стандартного подхода применения CFG на всех этапах диффузии и вместо этого ищем эффективные стратегии управления. Формулируем задачу поиска таких стратегий в рамках дифференцируемого Neural Architecture Search. Наши результаты показывают, что шаги удаления шума, предлагаемые CFG, всё больше соответствуют простым условным шагам, что делает дополнительные вычисления нейронной сети в CFG избыточными, особенно во второй половине процесса удаления шума. На основе этого наблюдения мы предлагаем "Adaptive Guidance" (AG), эффективный вариант CFG, который адаптивно пропускает вычисления сети, когда процесс удаления шума демонстрирует сходимость. Наши эксперименты показывают, что AG сохраняет качество изображений CFG, сокращая при этом вычисления на 25%. Таким образом, AG представляет собой plug-and-play альтернативу Guidance Distillation, достигая 50% ускорения последнего, оставаясь при этом не требующим обучения и сохраняя способность обрабатывать негативные подсказки. Наконец, мы выявляем дополнительные избыточности CFG в первой половине диффузионного процесса, показывая, что полные вычисления нейронной функции могут быть заменены простыми аффинными преобразованиями прошлых оценок градиентов. Этот метод, названный LinearAG, предлагает ещё более дешёвый вывод ценой отклонения от базовой модели. Наши результаты дают представление об эффективности условного процесса удаления шума, что способствует более практичному и быстрому внедрению диффузионных моделей с текстовым условием.
Нейронные 3D-представления сцен продемонстрировали значительный потенциал для реконструкции 3D-моделей из 2D-изображений. Однако реконструкция реальных съемок сложных сцен по-прежнему остается сложной задачей. Существующие универсальные методы 3D-реконструкции часто не способны точно воспроизводить мелкие геометрические детали и недостаточно хорошо моделируют отражающие поверхности в крупномасштабных сценах. Методы, которые явно фокусируются на отражающих поверхностях, могут моделировать сложные и детализированные отражения за счет использования более совершенных параметризаций отражений. Однако мы наблюдаем, что эти методы часто не обладают достаточной устойчивостью в реальных неограниченных сценариях, где присутствуют как неотражающие, так и отражающие компоненты. В данной работе мы предлагаем UniSDF — универсальный метод 3D-реконструкции, способный восстанавливать крупные сложные сцены с отражениями. Мы исследуем как параметризации предсказания цвета на основе видов, так и на основе отражений, и обнаруживаем, что явное объединение этих представлений в 3D-пространстве позволяет восстанавливать поверхности с более точной геометрией, особенно для отражающих поверхностей. Мы дополнительно комбинируем это представление с многоуровневой сеточной архитектурой, которая обучается от грубого к детальному, что позволяет достичь более быстрой реконструкции по сравнению с предыдущими методами. Эксперименты на наборах данных уровня объектов DTU и Shiny Blender, а также на неограниченных наборах данных Mip-NeRF 360 и Ref-NeRF real демонстрируют, что наш метод способен устойчиво восстанавливать сложные крупномасштабные сцены с мелкими деталями и отражающими поверхностями. Подробнее см. на нашей странице проекта: https://fangjinhuawang.github.io/UniSDF.
Нейронные поля излучения достигли выдающихся результатов в моделировании внешнего вида трехмерных сцен. Однако существующие подходы по-прежнему испытывают трудности с учетом зависимости внешнего вида глянцевых поверхностей от угла обзора, особенно в условиях сложного освещения в помещениях. В отличие от существующих методов, которые обычно предполагают удаленное освещение, такое как карта окружения, мы предлагаем обучаемое гауссово направленное кодирование для более точного моделирования эффектов, зависящих от угла обзора, в условиях ближнего освещения. Важно отметить, что наше новое направленное кодирование учитывает пространственно-изменяющийся характер ближнего освещения и имитирует поведение предварительно отфильтрованных карт окружения. В результате это позволяет эффективно вычислять предварительно свернутый цвет бликов в любой трехмерной точке с различными коэффициентами шероховатости. Мы также вводим априорное знание геометрии, основанное на данных, которое помогает уменьшить неоднозначность формы и излучения при моделировании отражений. Мы демонстрируем, что наше гауссово направленное кодирование и априорное знание геометрии значительно улучшают моделирование сложных бликов в нейронных полях излучения, что способствует разложению внешнего вида на более физически осмысленные компоненты.
Обучение прогностических моделей на основе наблюдений с использованием глубоких нейронных сетей (ГНС) представляет собой перспективный подход для решения многих задач планирования и управления в реальных условиях. Однако стандартные ГНС обладают недостаточной структурой для эффективного планирования, а современные методы управления обычно полагаются на обширное сэмплирование или локальный градиентный спуск. В данной статье мы предлагаем новый фреймворк для интегрированного обучения модели и прогностического управления, который подходит для эффективных алгоритмов оптимизации. В частности, мы начинаем с ReLU-нейронной модели динамики системы и, с минимальными потерями в точности прогнозирования, постепенно упрощаем её, удаляя избыточные нейроны. Этот процесс дискретного упрощения аппроксимируется как непрерывная задача, что позволяет осуществлять сквозную оптимизацию как архитектуры модели, так и параметров весов. Упрощённая модель затем используется смешанно-целочисленным прогностическим контроллером, который представляет активации нейронов в виде бинарных переменных и применяет эффективные алгоритмы ветвей и границ. Наш фреймворк применим к широкому спектру ГНС, от простых многослойных перцептронов до сложных графовых нейронных динамик. Он способен эффективно решать задачи, связанные со сложной контактной динамикой, такие как толкание объектов, сортировка составных объектов и манипуляции с деформируемыми объектами. Численные и аппаратные эксперименты показывают, что, несмотря на агрессивное упрощение, наш фреймворк может обеспечивать лучшее замкнутое управление по сравнению с существующими передовыми методами.
Современные методы генерации 3D-моделей из одного изображения часто используют Score Distillation Sampling (SDS). Несмотря на впечатляющие результаты, они имеют ряд недостатков, включая несогласованность между видами, перенасыщенные и излишне сглаженные текстуры, а также низкую скорость генерации. Для устранения этих недостатков мы представляем метод Repaint123, который уменьшает смещение между видами, улучшает качество текстур и ускоряет процесс генерации. Основная идея заключается в сочетании мощных возможностей генерации изображений 2D-диффузионной модели и способности стратегии перерисовки выравнивать текстуры для создания высококачественных и согласованных изображений с разных ракурсов. Мы также предлагаем адаптивную силу перерисовки с учетом видимости для перекрывающихся областей, что повышает качество генерируемых изображений в процессе перерисовки. Полученные высококачественные и согласованные изображения позволяют использовать простую функцию потерь Mean Square Error (MSE) для быстрого создания 3D-контента. Мы провели обширные эксперименты и продемонстрировали, что наш метод способен генерировать высококачественный 3D-контент с согласованностью между видами и детализированными текстурами всего за 2 минуты с нуля. Код доступен по адресу https://github.com/junwuzhang19/repaint123.
Биомедицинские наборы данных визуализации часто являются небольшими и смещенными, что означает, что реальная производительность прогностических моделей может быть значительно ниже ожидаемой при внутреннем тестировании. В данной работе предлагается использование генеративного редактирования изображений для моделирования сдвигов в наборах данных и диагностики режимов сбоя биомедицинских моделей компьютерного зрения; это может быть использовано перед развертыванием для оценки готовности, что потенциально снижает затраты и вред для пациентов. Существующие методы редактирования могут приводить к нежелательным изменениям, при этом из-за совместного появления заболеваний и медицинских вмешательств могут возникать ложные корреляции, что ограничивает практическую применимость. Для решения этой проблемы мы обучаем диффузионную модель "текст-изображение" на нескольких наборах данных рентгенограмм грудной клетки и представляем новый метод редактирования RadEdit, который использует несколько масок, если они присутствуют, для ограничения изменений и обеспечения согласованности в отредактированных изображениях. Мы рассматриваем три типа сдвигов в наборах данных: сдвиг в процессе получения данных, сдвиг в проявлении заболевания и сдвиг в популяции, и демонстрируем, что наш подход позволяет диагностировать сбои и количественно оценивать устойчивость моделей без дополнительного сбора данных, дополняя более качественные инструменты для объяснимого искусственного интеллекта.