Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете представлено новое семейство мультимодальных моделей Gemini, демонстрирующих выдающиеся способности в понимании изображений, аудио, видео и текста. Семейство Gemini включает модели Ultra, Pro и Nano, которые подходят для задач, начиная от сложных рассуждений до использования на устройствах с ограниченной памятью. Оценка на широком спектре тестовых наборов данных показывает, что наиболее мощная модель Gemini Ultra устанавливает новый уровень в 30 из 32 таких тестов, в частности становясь первой моделью, достигшей уровня эксперта-человека на хорошо изученном экзаменационном тесте MMLU, а также улучшая результаты в каждом из 20 мультимодальных тестов, которые мы исследовали. Мы считаем, что новые возможности моделей Gemini в кросс-модальных рассуждениях и понимании языка откроют широкий спектр применений, и обсуждаем наш подход к их ответственному внедрению для пользователей.
Мы представляем VecFusion, новую нейронную архитектуру, способную генерировать векторные шрифты с различными топологическими структурами и точным позиционированием контрольных точек. Наш подход основан на каскадной диффузионной модели, которая состоит из растровой диффузионной модели, за которой следует векторная диффузионная модель. Растровая модель генерирует низкокачественные растровые шрифты с дополнительной информацией о контрольных точках, фиксируя глобальный стиль и форму шрифта, в то время как векторная модель синтезирует векторные шрифты, основываясь на низкокачественных растровых шрифтах, полученных на первом этапе. Для синтеза длинных и сложных кривых наша векторная диффузионная модель использует архитектуру трансформера и новое векторное представление, которое позволяет моделировать разнообразную векторную геометрию и точно предсказывать положение контрольных точек. Наши эксперименты показывают, что в отличие от предыдущих генеративных моделей для векторной графики, новая каскадная векторная диффузионная модель генерирует векторные шрифты более высокого качества, с сложными структурами и разнообразными стилями.
Модели диффузии изображений нашли применение в различных задачах, таких как генерация изображений по текстовым описаниям и управляемый синтез изображений. Недавние исследования представили методы тонкой настройки, которые вносят незначительные изменения в исходные модели, демонстрируя перспективные результаты в адаптации базовых генеративных моделей диффузии. Вместо модификации основной архитектуры модели диффузии мы исследуем роль пропускных соединений (skip connection) в U-Net и показываем, что иерархические признаки, объединяющие информацию на больших расстояниях между кодировщиком и декодировщиком, оказывают значительное влияние на содержание и качество генерации изображений. На основе этого наблюдения мы предлагаем эффективную генеративную структуру настройки, названную SCEdit, которая интегрирует и редактирует пропускные соединения с использованием легковесного модуля настройки SC-Tuner. Кроме того, предложенная структура позволяет легко расширяться до управляемого синтеза изображений путем внедрения различных условий с помощью Controllable SC-Tuner, упрощая и унифицируя проектирование сети для многокондиционных входов. Наш SCEdit значительно сокращает количество обучаемых параметров, использование памяти и вычислительные затраты благодаря легковесным модулям настройки, при этом обратное распространение осуществляется только через блоки декодировщика. Многочисленные эксперименты, проведенные на задачах генерации изображений по текстовым описаниям и управляемого синтеза изображений, демонстрируют превосходство нашего метода с точки зрения эффективности и производительности. Страница проекта: https://scedit.github.io/
Крупные языковые модели (LLM) продемонстрировали впечатляющую способность к рассуждениям и генерации на уровне человека, что стимулирует активные исследования их применения в решении математических задач. Однако текущие работы в основном сосредоточены на текстовых математических задачах, с ограниченным изучением задач, включающих геометрическую информацию. Для устранения этого пробела мы стремимся научить LLM решать геометрические задачи, понимая визуальный ввод. Сначала мы анализируем ограничения современных мультимодальных крупных языковых моделей (MLLM) в этой области: они испытывают трудности с точным пониманием базовых геометрических элементов и их взаимосвязей. Чтобы преодолеть эти трудности, мы используем уникальные характеристики геометрических задач (такие как уникальная геометрическая логическая форма и масштабируемость) и возможности текстовых LLM для создания обогащенного мультимодального набора данных на основе существующих данных. Расширенный набор данных, Geo170K, содержит более 170 тысяч пар изображение-описание и вопрос-ответ, связанных с геометрией. Используя созданный нами набор данных Geo170K, мы разрабатываем G-LLaVA, которая демонстрирует выдающуюся производительность в решении геометрических задач, значительно превосходя GPT-4-V на бенчмарке MathVista при использовании всего 7 миллиардов параметров.
Современные модели генерации изображений на основе текста (Text-to-Image, T2I), такие как Stable Diffusion и Imagen, достигли значительного прогресса в создании высококачественных изображений на основе текстовых описаний. Однако многие сгенерированные изображения по-прежнему страдают от таких проблем, как артефакты/неправдоподобие, несоответствие текстовым описаниям и низкая эстетическая качественность. Вдохновленные успехом обучения с подкреплением с использованием обратной связи от человека (Reinforcement Learning with Human Feedback, RLHF) для крупных языковых моделей, предыдущие работы собирали оценки, предоставленные людьми, в качестве обратной связи на сгенерированные изображения и обучали модель вознаграждения для улучшения генерации T2I. В данной работе мы обогащаем сигнал обратной связи путем (i) выделения областей изображения, которые являются неправдоподобными или не соответствуют тексту, и (ii) аннотирования слов в текстовом запросе, которые неправильно представлены или отсутствуют на изображении. Мы собираем такую расширенную обратную связь от человека для 18 тысяч сгенерированных изображений и обучаем мультимодальный трансформер для автоматического предсказания этой расширенной обратной связи. Мы показываем, что предсказанная расширенная обратная связь от человека может быть использована для улучшения генерации изображений, например, путем отбора высококачественных данных для тонкой настройки и улучшения генеративных моделей или создания масок с предсказанными тепловыми картами для восстановления проблемных областей. Примечательно, что улучшения обобщаются на модели (Muse), которые не использовались для генерации изображений, на которых собирались данные обратной связи от человека (вариации Stable Diffusion).
Гауссово сплатинг (Gaussian splatting) стал мощным методом представления 3D-данных, объединяющим преимущества как явных (например, полигональных сеток), так и неявных (например, NeRF) 3D-представлений. В данной работе мы стремимся использовать гауссово сплатинг для создания реалистичных анимируемых аватаров на основе текстовых описаний, устраняя ограничения (например, гибкость и эффективность), накладываемые представлениями на основе полигональных сеток или NeRF. Однако прямое применение гауссова сплатинга не позволяет генерировать высококачественные анимируемые аватары и страдает от нестабильности обучения; оно также не способно захватывать тонкие геометрии аватаров и часто приводит к дегенерации частей тела. Для решения этих проблем мы, во-первых, предлагаем примитивное 3D-представление на основе гауссовых функций, где гауссовы распределения определяются внутри примитивов, управляемых позой, что облегчает анимацию. Во-вторых, для стабилизации и оптимизации обучения миллионов гауссовых функций мы предлагаем использовать нейронные неявные поля для предсказания атрибутов гауссовых функций (например, цветов). Наконец, для захвата тонких геометрий аватаров и извлечения детализированных сеток мы предлагаем новый подход к обучению неявных сеток на основе SDF (Signed Distance Function) для 3D-гауссовых функций, который регулирует базовые геометрии и извлекает высокодетализированные текстурированные сетки. Наш предложенный метод, GAvatar, позволяет масштабно генерировать разнообразные анимируемые аватары, используя только текстовые запросы. GAvatar значительно превосходит существующие методы как по качеству внешнего вида, так и по геометрии, а также обеспечивает чрезвычайно быстрый рендеринг (100 кадров в секунду) при разрешении 1K.
В последнее время трехмерное понимание стало популярным для облегчения автономным агентам принятия дальнейших решений. Однако существующие 3D-наборы данных и методы часто ограничены конкретными задачами. С другой стороны, недавние достижения в области крупных языковых моделей (LLM) и мультимодальных языковых моделей (MLM) продемонстрировали исключительную производительность в общих языковых и визуальных задачах. Поэтому интересно раскрыть потенциал MLM для выполнения более широкого круга задач в качестве универсального инструмента для работы с 3D. Однако текущие исследования MLM меньше сосредоточены на 3D-задачах из-за отсутствия крупномасштабных наборов данных, ориентированных на выполнение инструкций в трехмерной среде. В данной работе мы представляем всеобъемлющий набор данных для выполнения инструкций в 3D, названный M3DBench, который обладает следующими характеристиками: 1) Он поддерживает общие мультимодальные инструкции, включающие текст, изображения, 3D-объекты и другие визуальные подсказки. 2) Он объединяет разнообразные 3D-задачи как на уровне регионов, так и на уровне сцен, охватывая широкий спектр фундаментальных способностей в реальных трехмерных средах. 3) Это крупномасштабный набор данных для выполнения инструкций в 3D, содержащий более 320 тысяч пар "инструкция-ответ". Кроме того, мы устанавливаем новый эталон для оценки производительности крупных моделей в понимании мультимодальных 3D-подсказок. Многочисленные эксперименты демонстрируют эффективность нашего набора данных и базового подхода, поддерживающего общие задачи, ориентированные на 3D, что может вдохновить будущие исследования.
Рост интереса к мультимодальным большим языковым моделям (MLLM), таким как GPT-4V(ision) от OpenAI, стал заметным трендом как в академических кругах, так и в индустрии. Эти модели наделяют большие языковые модели (LLM) мощными возможностями в области визуального понимания, позволяя им решать разнообразные мультимодальные задачи. Совсем недавно Google представил Gemini — свою новейшую и наиболее продвинутую MLLM, разработанную с нуля для работы с мультимодальностью. Учитывая превосходные способности к рассуждению, может ли Gemini бросить вызов лидирующей позиции GPT-4V в области мультимодального обучения? В данной статье мы представляем предварительное исследование способностей Gemini Pro к визуальному пониманию, охватывающее четыре области: базовое восприятие, продвинутое познание, сложные задачи компьютерного зрения и различные экспертные навыки. Мы сравниваем Gemini Pro с передовой моделью GPT-4V, чтобы оценить её предельные возможности, а также с последней открытой MLLM, Sphinx, что позволяет выявить разрыв между ручными усилиями и закрытыми системами. Качественные примеры показывают, что, хотя GPT-4V и Gemini демонстрируют разные стили и предпочтения в ответах, они могут проявлять сопоставимые способности к визуальному рассуждению, в то время как Sphinx всё ещё отстаёт от них в плане обобщаемости на различные области. В частности, GPT-4V склонен давать подробные объяснения и промежуточные шаги, тогда как Gemini предпочитает выдавать прямой и лаконичный ответ. Количественная оценка на популярном бенчмарке MME также демонстрирует потенциал Gemini как серьёзного конкурента GPT-4V. Наше раннее исследование Gemini также выявило некоторые общие проблемы MLLM, указывающие на то, что до достижения искусственного общего интеллекта ещё остаётся значительное расстояние. Наш проект для отслеживания прогресса MLLM доступен по адресу: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
Визуальное повествование часто использует изображения с нетипичным соотношением сторон, такие как свитки, комиксы и панорамы, для создания выразительного и увлекательного нарратива. Хотя генеративный искусственный интеллект достиг значительных успехов и продемонстрировал потенциал для преобразования творческой индустрии, создание согласованного и привлекательного контента с произвольным размером и контролируемым стилем, концепцией и компоновкой остается сложной задачей, что является ключевым для визуального повествования. Чтобы преодолеть недостатки предыдущих методов, включая повторяющийся контент, несогласованность стиля и отсутствие управляемости, мы предлагаем MagicScroll — многослойную прогрессивную генеративную модель на основе диффузии с новым семантически осознанным процессом удаления шума. Модель обеспечивает детализированный контроль над генерируемым изображением на уровнях объектов, сцен и фона с использованием текстовых, графических и композиционных условий. Мы также создаем первый эталон для генерации изображений с нетипичным соотношением сторон для визуального повествования, включая такие медиа, как картины, комиксы и кинематографические панорамы, с использованием специализированных метрик для систематической оценки. Благодаря сравнительным и абляционным исследованиям MagicScroll демонстрирует многообещающие результаты в согласовании с текстом повествования, улучшении визуальной согласованности и вовлечении аудитории. Мы планируем опубликовать код и эталонные данные с целью улучшения сотрудничества между исследователями в области ИИ и творческими специалистами, занимающимися визуальным повествованием.
Языковые модели (ЯМ) обычно сообщают о перплексии на монолитных данных, исключенных из обучения. Неявно или явно эти данные состоят из доменов — различных распределений языка. Вместо предположения, что перплексия на одном распределении экстраполируется на другие, метод анализа перплексии для оценки языковых моделей (Paloma) измеряет соответствие ЯМ 585 текстовым доменам, начиная от nytimes.com и заканчивая r/depression на Reddit. Мы приглашаем отправлять результаты на наш бенчмарк и организуем их по сравнимости на основе соблюдения рекомендаций, таких как удаление загрязнения бенчмарка из предварительного обучения. Отправки также могут включать количество параметров и токенов обучения, чтобы проводить сравнения Парето-эффективности для производительности как функции этих показателей затрат. Мы заполняем наш бенчмарк результатами 6 базовых моделей, предварительно обученных на популярных корпусах. В кейс-стадиях мы демонстрируем анализы, возможные с использованием Paloma, например, показывая, что предварительное обучение без данных, выходящих за пределы Common Crawl, приводит к нестабильному соответствию многим доменам.
Недавние подходы к редактированию изображений на основе диффузии продемонстрировали впечатляющие возможности редактирования изображений с простой композицией. Однако локализованное редактирование в сложных сценах до сих пор недостаточно изучено в литературе, несмотря на растущие практические потребности. Существующие методы восстановления на основе масок не способны сохранить базовую структуру в области редактирования. В то же время методы, основанные на внимании без использования масок, часто демонстрируют утечку редактирования и смещение в более сложных композициях. В данной работе мы разрабатываем MAG-Edit — метод оптимизации на этапе вывода, не требующий обучения, который позволяет выполнять локализованное редактирование изображений в сложных сценах. В частности, MAG-Edit оптимизирует скрытые шумовые характеристики в моделях диффузии, максимизируя два ограничения на перекрестное внимание, основанные на маске для токена редактирования, что, в свою очередь, постепенно улучшает локальное соответствие желаемому текстовому запросу. Многочисленные количественные и качественные эксперименты демонстрируют эффективность нашего метода в достижении как текстового соответствия, так и сохранения структуры при локализованном редактировании в сложных сценах.
В данной статье исследуется задача дистилляции предпочтений для крупных визуально-языковых моделей (LVLMs) с целью улучшения их способности генерировать полезные и достоверные ответы, основанные на визуальном контексте. Сначала создается набор данных обратной связи по визуально-языковым моделям (VLFeedback) с использованием аннотаций, выполненных искусственным интеллектом. В частности, ответы генерируются моделями, выбранными из 12 LVLMs, на основе мультимодальных инструкций, взятых из различных наборов данных. Для оценки сгенерированных ответов по критериям полезности, визуальной достоверности и этических соображений применяется GPT-4V. Далее предпочтения дистиллируются в модель Qwen-VL-Chat с использованием метода оптимизации прямых предпочтений (DPO). Полученная модель Silkie демонстрирует относительное улучшение на 6,9% и 9,5% на бенчмарке MME по показателям восприятия и когнитивных способностей соответственно. Silkie также показывает снижение уровня галлюцинаций, устанавливая новый рекордный показатель 3,02 на бенчмарке MMHal-Bench. Дополнительный анализ показывает, что применение DPO с набором данных VLFeedback в основном улучшает способности LVLMs к детальному восприятию и сложным когнитивным задачам, что приводит к более комплексным улучшениям по сравнению с наборами данных, аннотированными человеком.
Диффузионные модели достигли значительных успехов в генерации высококачественных изображений, однако их применение для создания видео остается сложной задачей из-за сложности временного движения. Редактирование видео с нулевым обучением предлагает решение, используя предварительно обученные диффузионные модели изображений для преобразования исходных видео в новые. Тем не менее, существующие методы сталкиваются с трудностями в поддержании строгой временной согласованности и эффективного потребления памяти. В данной работе мы предлагаем новый подход для улучшения временной согласованности в генерируемых видео путем объединения токенов самовнимания между кадрами. Выравнивая и сжимая временно избыточные токены между кадрами, наш метод повышает временную согласованность и снижает потребление памяти при вычислениях самовнимания. Стратегия объединения сопоставляет и выравнивает токены в соответствии с временной корреляцией между кадрами, способствуя естественной временной согласованности в генерируемых видео. Для управления сложностью обработки видео мы разделяем видео на фрагменты и разрабатываем локальное объединение токенов внутри фрагментов и глобальное объединение токенов между фрагментами, обеспечивая как краткосрочную непрерывность видео, так и долгосрочную согласованность содержания. Наш подход к редактированию видео плавно расширяет достижения в редактировании изображений на редактирование видео, демонстрируя превосходные результаты в временной согласованности по сравнению с современными методами.
Спекулятивное декодирование повышает эффективность крупных языковых моделей (LLM) за счет использования черновой модели для создания черновиков, которые затем проверяются более крупной целевой моделью. Однако процесс создания черновиков в спекулятивном декодировании включает медленное авторегрессивное генерацию и генерацию токенов различной важности с одинаковым распределением времени. Эти две неэффективности приводят к его неоптимальной производительности. Для решения этой проблемы мы представляем каскадное спекулятивное создание черновиков (CS. Drafting) — новый подход, который использует два типа каскадов. Вертикальный каскад устраняет авторегрессивную генерацию в нейронных моделях. Горизонтальный каскад обеспечивает эффективное распределение времени при создании черновиков, что подтверждается нашим теоретическим анализом. Объединяя оба каскада, наш алгоритм CS. Drafting достиг дополнительного ускорения до 72 процентов по сравнению со спекулятивным декодированием в наших экспериментах, сохраняя при этом то же распределение выходных данных.
Крупные языковые модели (LLMs) всё чаще применяются для решения сложных многошаговых задач планирования, где этап извлечения инструментов (Tool Retrieval, TR) играет ключевую роль в достижении успешных результатов. Два распространённых подхода к TR — это одношаговое извлечение, использующее полный запрос, и последовательное извлечение с использованием декомпозиции задачи (Task Decomposition, TD), при котором полный запрос разбивается на отдельные атомарные подзадачи. В то время как одношаговое извлечение не обладает гибкостью для обработки «зависимостей между инструментами», подход TD требует соблюдения «соответствия атомарности подзадач и инструментов», так как набор инструментов может динамически изменяться. Для устранения этих ограничений мы представляем прогрессивный фреймворк извлечения инструментов для улучшения планирования (Progressive Tool retrieval to Improve Planning, ProTIP). ProTIP — это лёгкий фреймворк, основанный на контрастивном обучении, который неявно выполняет декомпозицию задачи без явного требования меток подзадач, одновременно сохраняя атомарность подзадач и инструментов. На наборе данных ToolBench ProTIP значительно превосходит подход, основанный на декомпозиции задач ChatGPT, демонстрируя улучшение на 24% по метрике Recall@K=10 для TR и на 41% по точности использования инструментов для генерации планов.
Успех крупных языковых моделей изменил парадигмы оценки в области обработки естественного языка (NLP). Интерес сообщества сместился в сторону сравнения моделей NLP на множестве задач, доменов и наборов данных, часто в экстремальных масштабах. Это создает новые инженерные вызовы: усилия по созданию наборов данных и моделей были разрозненными, а их форматы и интерфейсы несовместимы. В результате для проведения справедливых и контролируемых сравнений в масштабе часто требуются значительные усилия по (пере)реализации. Catwalk призван решить эти проблемы. Catwalk предоставляет унифицированный интерфейс для широкого спектра существующих наборов данных и моделей NLP, начиная от классического обучения с учителем и тонкой настройки до более современных подходов, таких как обучение в контексте. Его тщательно разработанные абстракции позволяют легко расширять функциональность для многих других задач. Catwalk существенно снижает барьеры для проведения контролируемых экспериментов в масштабе. Например, мы выполнили тонкую настройку и оценку более 64 моделей на более чем 86 наборах данных с помощью одной команды, не написав ни строчки кода. Разрабатываемый командой AllenNLP в Allen Institute for Artificial Intelligence (AI2), Catwalk является продолжающимся проектом с открытым исходным кодом: https://github.com/allenai/catwalk.
Методы дистилляции знаний недавно продемонстрировали себя как перспективное направление для ускорения синтеза крупномасштабных диффузионных моделей, требуя лишь нескольких шагов вывода. Хотя несколько мощных методов дистилляции были предложены в последнее время, общее качество образцов, создаваемых учеником, обычно ниже по сравнению с образцами учителя, что ограничивает их практическое применение. В данной работе мы исследуем относительное качество образцов, создаваемых учителем — диффузионной моделью для генерации изображений по тексту — и её дистиллированной версией ученика. В качестве основного эмпирического результата мы обнаруживаем, что заметная часть образцов ученика демонстрирует превосходную точность по сравнению с образцами учителя, несмотря на «приближённый» характер ученика. На основе этого открытия мы предлагаем адаптивное взаимодействие между учеником и учителем — диффузионными моделями — для эффективного синтеза изображений по тексту. В частности, дистиллированная модель создаёт начальный образец, а затем оракул решает, требуется ли его дальнейшее улучшение с помощью медленной модели учителя. Многочисленные эксперименты демонстрируют, что разработанный конвейер превосходит современные альтернативы для генерации изображений по тексту при различных бюджетах вывода с точки зрения предпочтений человека. Кроме того, предложенный подход может быть естественным образом использован в популярных приложениях, таких как редактирование изображений с использованием текста и управляемая генерация.
Обучение без дополнительного обучения в диффузионных моделях использует готовые предобученные сети, такие как модель оценки эстетики, для управления процессом генерации. Современные алгоритмы обучения без дополнительного обучения получают функцию энергии управления на основе одношаговой оценки чистого изображения. Однако, поскольку готовые предобученные сети обучаются на чистых изображениях, процедура одношаговой оценки чистого изображения может быть неточной, особенно на ранних этапах процесса генерации в диффузионных моделях. Это приводит к неточности управления на ранних временных шагах. Чтобы преодолеть эту проблему, мы предлагаем метод Symplectic Adjoint Guidance (SAG), который вычисляет градиентное управление в двух внутренних этапах. Во-первых, SAG оценивает чистое изображение с помощью n вызовов функции, где n служит гибким гиперпараметром, который можно настроить для удовлетворения конкретных требований к качеству изображения. Во-вторых, SAG использует симплектический сопряженный метод для точного и эффективного получения градиентов с точки зрения требований к памяти. Многочисленные эксперименты демонстрируют, что SAG генерирует изображения более высокого качества по сравнению с базовыми методами как в задачах управляемой генерации изображений, так и видео.
В данной статье представлен инновационный 3D объемный кодировщик, разработанный для генерации 3D-моделей из текста. Для масштабирования обучающих данных диффузионной модели создана легковесная сеть, которая эффективно извлекает объемные признаки из многовидовых изображений. Затем 3D-объемы обучаются на диффузионной модели для генерации 3D-моделей из текста с использованием 3D U-Net. В исследовании также рассматриваются проблемы неточных описаний объектов и высокоразмерных объемных признаков. Предложенная модель, обученная на общедоступном наборе данных Objaverse, демонстрирует многообещающие результаты в создании разнообразных и узнаваемых образцов на основе текстовых запросов. Особенно важно, что она обеспечивает более точный контроль над характеристиками частей объекта с помощью текстовых подсказок, способствуя креативности модели за счет бесшовного объединения нескольких концепций в одном объекте. Данное исследование вносит значительный вклад в развитие генерации 3D-моделей, предлагая эффективную, гибкую и масштабируемую методологию представления. Код доступен по адресу https://github.com/tzco/VolumeDiffusion.
Мы предлагаем метод реконструкции динамических сцен с использованием деформируемых 3D-гауссов, адаптированный для монохромного видео. Основываясь на эффективности гауссовского сплайсинга, наш подход расширяет представление для учета динамических элементов с помощью деформируемого набора гауссов, расположенных в каноническом пространстве, и зависящего от времени поля деформации, задаваемого многослойным перцептроном (MLP). Кроме того, в предположении, что большинство естественных сцен содержат большие статические области, мы позволяем MLP сосредоточить свои вычислительные ресурсы, дополнительно включая статическое облако гауссовых точек. Объединенные динамическое и статическое облака точек формируют вход для растеризатора гауссовского сплайсинга, что позволяет осуществлять рендеринг в реальном времени. Дифференцируемый конвейер оптимизируется сквозным образом с использованием самоконтролируемой функции потерь для рендеринга. Наш метод демонстрирует результаты, сопоставимые с современными методами динамических нейронных полей излучения, при этом обеспечивая значительно более быструю оптимизацию и рендеринг. Проектный веб-сайт: https://lynl7130.github.io/gaufre/index.html