Ежедневно отобранные исследовательские статьи по ИИ с переводами
PaliGemma 2 является улучшением открытой модели Vision-Language Model (VLM) PaliGemma на основе семейства языковых моделей Gemma 2. Мы комбинируем видео-кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы оснастить их обширными знаниями для передачи через тонкую настройку. Результирующее семейство базовых моделей, охватывающее различные размеры моделей и разрешения, позволяет нам исследовать факторы, влияющие на производительность передачи (такие как скорость обучения) и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и широту задач передачи за пределами области PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблиц, распознавание молекулярной структуры, распознавание музыкальных нот, а также длинное детализированное подписывание и генерацию радиологических отчетов, на которых PaliGemma 2 достигает передовых результатов.
Недавние подходы показали многообещающие результаты в упрощении многошаговых моделей диффузии текста в изображение до одношаговых. Современная эффективная техника упрощения, т.е. SwiftBrushv2 (SBv2), даже превосходит производительность учителя с ограниченными ресурсами. Однако наше исследование показывает нестабильность при работе с различными основами моделей диффузии из-за использования фиксированной шкалы руководства в рамках потерь вариационного счета дистилляции (VSD). Еще одним недостатком существующих одношаговых моделей диффузии является отсутствие поддержки отрицательного руководства, что критично для практической генерации изображений. В данной статье представлена SNOOPI, новая структура, разработанная для преодоления этих ограничений путем улучшения руководства в одношаговых моделях диффузии как во время обучения, так и во время вывода. Во-первых, мы эффективно улучшаем стабильность обучения через Proper Guidance-SwiftBrush (PG-SB), который использует подход к руководству без классификатора с произвольной шкалой. Изменяя шкалу руководства обеих моделей учителя, мы расширяем их распределения выходов, что приводит к более надежным потерям VSD, позволяющим SB эффективно работать с различными основами, сохраняя конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Negative-Away Steer Attention (NASA), который интегрирует отрицательные подсказки в одношаговые модели диффузии через кросс-внимание для подавления нежелательных элементов на созданных изображениях. Наши экспериментальные результаты показывают, что наши предложенные методы значительно улучшают базовые модели по различным метрикам. Замечательно, мы достигаем показателя HPSv2 в 31.08, устанавливая новый современный стандарт для одношаговых моделей диффузии.
Мы представляем TokenFlow, новаторский объединенный изображенческий токенизатор, который сокращает давнюю пропасть между мультимодальным пониманием и генерацией. Предыдущие исследования пытались использовать один кодировщик векторного квантования (VQ), ориентированный на реконструкцию, для объединения этих двух задач. Мы замечаем, что для понимания и генерации требуются фундаментально разные уровни детализации визуальной информации. Это приводит к критическому компромиссу, особенно ущемляющему производительность в задачах мультимодального понимания. TokenFlow решает эту проблему через инновационную архитектуру с двумя кодовыми книгами, разделяющую обучение семантических и пиксельных признаков, сохраняя их соответствие через общий механизм отображения. Этот дизайн обеспечивает прямой доступ как к высокоуровневым семантическим представлениям, важным для задач понимания, так и к мелкозернистым визуальным признакам, необходимым для генерации, через общие индексы. Наши обширные эксперименты демонстрируют превосходство TokenFlow в различных аспектах. Используя TokenFlow, мы впервые показываем, что дискретный визуальный ввод может превзойти LLaVA-1.5 13B в показателях понимания, достигая среднего улучшения в 7,2\%. Для реконструкции изображений мы достигаем высокого показателя FID в 0,63 при разрешении 384*384. Более того, TokenFlow устанавливает современные стандарты в производительности авторегрессивной генерации изображений с показателем GenEval в 0,55 при разрешении 256*256, достигая сравнимых результатов с SDXL.
Видеоролики 360^градусов предлагают гипер-иммерсивный опыт, который позволяет зрителям исследовать динамичную сцену со всех сторон на 360 градусов. Для достижения более удобного и персонализированного создания контента в формате видеороликов 360^градусов, мы стремимся преобразовать стандартные видеоролики в 360^градусов экирективные видеоролики. В этом контексте мы представляем Imagine360, первую перспективную платформу для генерации видеороликов 360^градусов, которая создает высококачественные видеоролики 360^градусов с разнообразными и насыщенными движениями на основе видео-якорей. Imagine360 изучает детализированные сферические визуальные и движущиеся образцы из ограниченных данных видеороликов 360^градусов с помощью нескольких ключевых конструкций. 1) Во-первых, мы используем двухветвевой дизайн, включая перспективную и панорамную ветви для шумоподавления видеороликов, чтобы обеспечить локальные и глобальные ограничения для генерации видеороликов 360^градусов, с модулем движения и слоями пространственной LoRA, настроенными на расширенных веб-видеороликах 360^градусов. 2) Кроме того, разработана антиподальная маска для захвата долгосрочных зависимостей движения, улучшая обратное движение камеры между антиподальными пикселями через полусферы. 3) Для работы с разнообразными входными перспективными видеороликами мы предлагаем дизайны, учитывающие высоту, которые адаптируются к изменяющемуся маскированию видео из-за изменения высоты на протяжении кадров. Обширные эксперименты показывают, что Imagine360 достигает превосходного качества графики и согласованности движения среди передовых методов генерации видеороликов 360^градусов. Мы считаем, что Imagine360 обладает потенциалом для продвижения персонализированного и иммерсивного создания видеороликов 360^градусов.
Модели диффузии были применены к завершению сцен LiDAR в 3D из-за их высокой стабильности обучения и качества завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В данной статье предлагается новый метод дистилляции, разработанный специально для моделей завершения сцен LiDAR в 3D, получивший название ScoreLiDAR, который обеспечивает эффективное, но высококачественное завершение сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньшее количество шагов после дистилляции. Для улучшения качества завершения мы также представляем новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены LiDAR в 3D. Потеря содержит термин, ограничивающий структуру сцены в целом, а также термин, ограничивающий ключевые точки ориентиров и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунды на кадр (>5 раз) на наборе данных SemanticKITTI и достигает превосходных результатов по сравнению с передовыми моделями завершения сцен LiDAR в 3D. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.
Недавние достижения в области видео больших мультимодальных моделей (LMM) значительно улучшили их способности к пониманию и рассуждениям о видео. Однако их производительность снижается на задачах вне распределения (OOD), которые недостаточно представлены в обучающих данных. Традиционные методы, такие как донастройка на наборах данных OOD, являются непрактичными из-за высоких вычислительных затрат. В то время как обучение в контексте (ICL) с примерами демонстрации показало многообещающую обобщающую производительность в языковых задачах и задачах изображение-язык без донастройки, применение ICL к задачам видео-язык сталкивается с проблемами из-за ограниченной длины контекста в видео LMM, поскольку видео требуют более длинных токенов. Для решения этих проблем мы предлагаем VideoICL, новую видео-систему обучения в контексте для задач OOD, которая вводит стратегию выбора сходных примеров на основе сходства и подход итеративного вывода на основе уверенности. Это позволяет выбирать наиболее релевантные примеры и ранжировать их по сходству для использования в выводе. Если сгенерированный ответ имеет низкую уверенность, наша система выбирает новые примеры и выполняет вывод снова, итеративно уточняя результаты до получения ответа с высокой уверенностью. Этот подход улучшает производительность понимания видео вне распределения путем расширения эффективной длины контекста без дополнительных затрат. Экспериментальные результаты на нескольких бенчмарках демонстрируют значительный прирост производительности, особенно в сценариях, специфичных для области, заложив основу для более широких приложений по пониманию видео. Код будет опубликован на https://github.com/KangsanKim07/VideoICL
Построение реалистичных и анимируемых аватаров по-прежнему требует минут многокамерных или монокулярных видеороликов с поворотом вокруг себя, и большинство методов не обладают точным контролем над жестами и выражениями. Для расширения границ в этой области мы решаем задачу создания аватара, говорящего всем телом, по одному изображению. Мы предлагаем новый конвейер, который решает две критические проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Для достижения плавного обобщения мы используем недавние модели диффузии изображения в видео с управлением позой для генерации неидеальных видеокадров в качестве псевдо-меток. Чтобы преодолеть проблему динамического моделирования, вызванную несогласованными и шумными псевдо-видео, мы представляем тесно связанное гибридное представление аватара 3DGS-сетка и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных неидеальными метками. Обширные эксперименты на различных объектах показывают, что наш метод позволяет создавать фотореалистичных, точно анимируемых и выразительных аватаров, говорящих всем телом, всего лишь по одному изображению.
В данной статье мы представляем открытую модель видео-языка корейско-английского направления (VLM) под названием VARCO-VISION. Мы внедрили стратегию обучения поэтапно, позволяющую модели учиться как лингвистической, так и визуальной информации, сохраняя знания базовой модели. Наша модель демонстрирует выдающуюся производительность в различных сценариях, требующих двуязычного понимания и генерации изображений и текста, по сравнению с моделями схожего размера. VARCO-VISION также способна на ориентацию, ссылочные действия и OCR, расширяя свои возможности и потенциальные применения в реальных сценариях. Помимо модели, мы выпустили пять корейских наборов данных для оценки, включая четыре закрытых и один открытый наборы данных для сравнения. Мы предвидим, что наш веховый момент расширит возможности для исследователей в области искусственного интеллекта, нацеленных на обучение моделей видео-языка. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Эта статья представляет MIDI, новую парадигму для композиционной генерации трехмерных сцен из одного изображения. В отличие от существующих методов, которые полагаются на техники реконструкции или извлечения, или недавних подходов, использующих многоэтапную генерацию объект-за-объектом, MIDI расширяет предварительно обученные модели генерации изображения в трехмерный объект до моделей диффузии с множественными экземплярами, обеспечивая одновременную генерацию нескольких трехмерных экземпляров с точными пространственными отношениями и высокой обобщаемостью. В центре MIDI лежит новый механизм внимания с множественными экземплярами, который эффективно улавливает взаимодействия между объектами и пространственную согласованность непосредственно в процессе генерации, без необходимости в сложных многоэтапных процессах. Метод использует частичные изображения объектов и глобальный контекст сцены в качестве входных данных, напрямую моделируя завершение объекта во время генерации трехмерной модели. Во время обучения мы эффективно контролируем взаимодействия между трехмерными экземплярами, используя ограниченное количество данных на уровне сцены, в то время как включаем данные об отдельных объектах для регуляризации, тем самым сохраняя способность к обобщению предварительного обучения. MIDI демонстрирует передовую производительность в генерации изображения сцены, подтвержденную оценками на синтетических данных, данными реальных сцен и стилизованными изображениями сцен, сгенерированными моделями диффузии текста в изображение.
Недавние достижения в области генеративных моделей значительно улучшили синтез нового вида (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов многовидового выравнивания, таких как явная оценка позы или предварительная реконструкция, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или заслонений между видами. В данной статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, представляя два ключевых компонента: 1) модель диффузии изображения-позы с двойным потоком, которая одновременно генерирует целевые новые виды и позы камеры условий, и 2) модуль выравнивания признаков, осведомленный о геометрии, который извлекает геометрические априорные данные из плотных стереомоделей во время обучения. Обширные эксперименты показывают, что NVComposer достигает передового уровня производительности в задачах генеративного многовидового синтеза NVS, устраняя зависимость от внешнего выравнивания и таким образом улучшая доступность модели. Наш подход показывает существенное улучшение качества синтеза с увеличением количества неопределенных входных видов, подчеркивая его потенциал для более гибких и доступных генеративных систем NVS.
Мы представляем NitroFusion - фундаментально новый подход к одношаговой диффузии, который достигает высококачественной генерации через динамическую адверсариальную структуру. В то время как одношаговые методы предлагают значительные преимущества в скорости, они обычно страдают от деградации качества по сравнению с многошаговыми аналогами. Точно так же, как панель художественных критиков предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход поддерживает большой пул специализированных дискриминаторов, которые совместно направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в конкретных аспектах качества на разных уровнях шума, обеспечивая разнообразную обратную связь, способствующую высококачественной одношаговой генерации. Наша структура объединяет: (i) динамический пул дискриминаторов с специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов и (iii) глобальные и локальные дискриминаторы для оценки качества на многих масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникальным образом поддерживает гибкое развертывание через пошаговое улучшение, позволяя пользователям динамически выбирать между 1-4 шагами шумоподавления с той же моделью для прямой компромисс между качеством и скоростью. Через обширные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одношаговые методы по многим метрикам оценки, особенно выделяясь в сохранении мелких деталей и глобальной согласованности.
Быстрое развитие мультимодальных крупных языковых моделей (MLLM) значительно повлияло на различные мультимодальные задачи. Однако эти модели сталкиваются с вызовами в задачах, требующих пространственного понимания в 3D окружениях. Предпринимались усилия по улучшению MLLM, такие как включение признаков облака точек, однако существует значительный разрыв между изученными моделями представлений и врожденной сложностью 3D сцен. Это расхождение в значительной степени обусловлено обучением MLLM на преимущественно 2D данных, что ограничивает их эффективность в понимании 3D пространств. Для решения этой проблемы в данной статье мы предлагаем новую обобщенную модель, т.е. Video-3D LLM, для понимания 3D сцен. Рассматривая 3D сцены как динамические видео и включая 3D кодирование позиции в эти представления, наш Video-3D LLM более точно выравнивает видеопредставления с пространственными контекстами реального мира. Кроме того, мы реализовали технику максимального покрытия выборки для оптимизации баланса между вычислительными затратами и эффективностью работы. Обширные эксперименты показывают, что наша модель достигает передовых результатов на нескольких бенчмарках понимания 3D сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.
Текущая оценка математических навыков в языковых моделях с ограничениями, поскольку существующие эталоны либо относительно небольшие, в основном сосредоточены на элементарных и старших школьных задачах, либо не обладают разнообразием тематики. Кроме того, включение визуальных элементов в задачи остается малоисследованным. Для устранения этих пробелов мы представляем U-MATH, новый эталон из 1,100 неопубликованных открытых задач университетского уровня, взятых из учебных материалов. Он сбалансирован по шести основным предметам, с 20% мультимодальных задач. Учитывая открытую природу задач U-MATH, мы используем языковую модель для оценки корректности сгенерированных решений. Для этого мы выпускаем mu-MATH, набор данных для оценки способностей языковых моделей в оценке решений. Оценка общедоменных, математических и мультимодальных языковых моделей подчеркивает вызовы, представленные U-MATH. Наши результаты показывают, что языковые модели достигают максимальной точности всего лишь 63% на текстовых задачах, с еще более низким показателем в 45% на визуальных задачах. Оценка решений оказывается сложной для языковых моделей, лучшая языковая модель-оценщик достигает F1-скора 80% на mu-MATH.
Генерация синтетических данных с использованием больших языковых моделей - это многообещающая парадигма для дополнения естественных данных почти в бесконечном диапазоне задач. Учитывая эту разнообразие, прямые сравнения алгоритмов генерации синтетических данных редки, что затрудняет понимание источников улучшений и наличие узких мест. Мы предлагаем оценивать алгоритмы по характеристикам синтетических данных, сгенерированных каждым алгоритмом, с учетом качества данных, разнообразия и сложности. Мы выбрали эти три характеристики из-за их значимости в процессах с открытым концом и влияния, которое они оказывают на возможности последующих моделей. Мы считаем, что качество является важным для обобщения модели в пределах распределения, разнообразие - важным для обобщения вне распределения, а сложность - полезной для обоих случаев. Кроме того, мы подчеркиваем наличие компромиссов между качеством и разнообразием в обучающих данных и последующие эффекты на производительность модели. Затем мы исследуем влияние различных компонентов в конвейере синтетических данных на каждую характеристику данных. Это исследование позволяет нам систематизировать и сравнивать алгоритмы генерации синтетических данных по используемым компонентам и результатам на состав данных QDC. Этот анализ расширяется до обсуждения важности балансировки QDC в синтетических данных для эффективного обучения с подкреплением и алгоритмов самоусовершенствования. Аналогично компромиссам между качеством и разнообразием в обучающих данных, часто существуют компромиссы между качеством выходных данных модели и разнообразием, которые влияют на состав синтетических данных. Мы замечаем, что многие модели в настоящее время оцениваются и оптимизируются только по качеству выходных данных, тем самым ограничивая разнообразие выходных данных и потенциал для самоусовершенствования. Мы утверждаем, что балансировка этих компромиссов является важной для развития будущих алгоритмов самоусовершенствования и выделяем ряд работ, продвигающихся в этом направлении.
Внутренние характеристики из крупномасштабных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра последующих задач. Работы, использующие эти характеристики, обычно должны добавлять шум к изображениям перед их передачей через модель для получения семантических характеристик, поскольку модели не предоставляют наиболее полезные характеристики при подаче изображений с малым или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя устранить путем ансамблирования с различными случайными шумами. Мы решаем эту проблему, представив легкий, ненадзорный метод тонкой настройки, который позволяет диффузионным основам обеспечивать высококачественные, лишенные шума семантические характеристики. Мы показываем, что эти характеристики легко превосходят предыдущие диффузионные характеристики с большим отрывом в широком спектре настроек извлечения и последующих задач, предлагая лучшую производительность даже по сравнению с методами на основе ансамблей за долю стоимости.
При слиянии гетерогенных открытых LLM с различными архитектурами и размерами можно интегрировать преимущества различных моделей, однако существующие методы слияния сталкиваются с значительными проблемами, такими как выравнивание словаря и объединение матриц распределения. Эти процедуры не только сложны, но также подвержены появлению шума и ошибок. В данной статье мы предлагаем метод неявного слияния, Оптимизацию Предпочтительной Награды (WRPO), который использует оптимизацию предпочтений между исходными LLM и целевым LLM для эффективного передачи их возможностей. WRPO устраняет необходимость в выравнивании словаря и слиянии матриц, и может быть эффективно масштабирован для различных LLM. Для решения распределительных отклонений между исходными и целевыми LLM, WRPO вводит стратегию постепенной адаптации, которая постепенно перераспределяет зависимость от предпочтительных примеров от целевого LLM к исходным LLM. Обширные эксперименты на бенчмарках MT-Bench, AlpacaEval-2 и Arena-Hard показывают, что WRPO последовательно превосходит существующие методы слияния знаний и различные базовые методы донастройки. Примененный к модели LLaMA3-8B-Instruct в качестве целевой модели, WRPO достигает контролируемой по длине победной доли 55.9% против GPT-4-Preview-1106 на AlpacaEval-2 и доли победы 46.2% против GPT-4-0314 на Arena-Hard. Наш код доступен по адресу https://github.com/SLIT-AI/WRPO.
Текст служит ключевым управляющим сигналом в генерации видео из-за его повествовательной природы. Для преобразования текстовых описаний в видеоролики текущие модели диффузии видео заимствуют признаки у текстовых кодировщиков, однако испытывают затруднения из-за ограниченного понимания текста. Недавний успех крупных языковых моделей (LLM) демонстрирует мощь трансформеров только декодера, что предлагает три явных преимущества для генерации текста в видео (T2V), а именно, точное понимание текста благодаря превосходной масштабируемости, воображение за пределами входного текста, обеспечиваемое предсказанием следующего токена, и гибкость в приоритизации интересов пользователя через настройку инструкций. Тем не менее разрыв в распределении признаков, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLM в установленных моделях T2V. В данной работе решается эта проблема с помощью Mimir, конечной обучающей структуры, представляющей собой тщательно выверенный токенный сливатель для гармонизации результатов от текстовых кодировщиков и LLM. Такой дизайн позволяет модели T2V полностью использовать изученные видеоприоритеты, сохраняя при этом возможности, связанные с текстом, LLM. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в создании видеороликов высокого качества с отличным пониманием текста, особенно при обработке коротких подписей и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/
Большие мультимодальные модели (LMM) добились значительных прорывов благодаря развитию настройки инструкций. Однако существующие модели, хотя и способны понимать изображения и видео на глобальном уровне, все еще испытывают трудности с пониманием на уровне экземпляра, требующим более тонкого понимания и выравнивания. Понимание на уровне экземпляра крайне важно, поскольку фокусируется на конкретных элементах, которые нас больше всего интересуют. К нашему восторгу, существующие работы показывают, что современные LMM демонстрируют сильные возможности понимания экземпляров, когда им предоставляют явные визуальные подсказки. Под влиянием этого мы представляем автоматизированный процесс аннотации, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляра из изображений и видео с помощью явных визуальных подсказок для руководства на уровне экземпляра. На основе этого процесса мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров с помощью настройки инструкций по явным визуальным подсказкам. Inst-IT включает в себя бенчмарк для диагностики мультимодального понимания на уровне экземпляра, крупномасштабный набор данных для настройки инструкций и непрерывную парадигму обучения настройке инструкций для эффективного улучшения пространственно-временных возможностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что благодаря усилению Inst-IT наши модели не только достигают выдающихся результатов на бенчмарке Inst-IT, но также демонстрируют значительное улучшение на различных общих бенчмарках понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляра, но и укрепляет общие возможности общего понимания изображений и видео.
Мы представляем LumiNet, новую архитектуру, которая использует генеративные модели и скрытые внутренние представления для эффективного переноса освещения. Учитывая исходное изображение и изображение целевого освещения, LumiNet синтезирует переосвещенную версию исходной сцены, которая передает освещение цели. Наш подход вносит два ключевых вклада: стратегию курирования данных из модели переосвещения на основе StyleGAN для нашего обучения и модифицированный ControlNet на основе диффузии, который обрабатывает как скрытые внутренние свойства исходного изображения, так и скрытые внешние свойства целевого изображения. Мы дополнительно улучшаем перенос освещения через обученный адаптер (MLP), который внедряет скрытые внешние свойства цели через кросс-внимание и донастройку. В отличие от традиционного ControlNet, который генерирует изображения с условными картами из одной сцены, LumiNet обрабатывает скрытые представления из двух разных изображений, сохраняя геометрию и альбедо из исходного, в то время как передает характеристики освещения из цели. Эксперименты демонстрируют, что наш метод успешно передает сложные явления освещения, включая зеркальные блики и косвенное освещение между сценами с различными пространственными компоновками и материалами, превосходя существующие подходы на сложных внутренних сценах, используя только изображения в качестве входных данных.