Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем GLM-4.1V-Thinking, модель обработки визуальной и языковой информации (VLM), разработанную для продвижения универсального мультимодального мышления. В данном отчете мы делимся ключевыми результатами разработки обучающей системы, ориентированной на развитие навыков рассуждения. Сначала мы создаем мощную базовую модель для обработки визуальных данных с большим потенциалом посредством масштабного предварительного обучения, что, по сути, задает верхний предел для итоговой производительности. Затем метод обучения с подкреплением с использованием учебного плана (RLCS) раскрывает полный потенциал модели, приводя к всестороннему улучшению ее возможностей в широком спектре задач, включая решение STEM-задач, понимание видео, распознавание контента, программирование, привязку к данным, агентов на основе графического интерфейса и понимание длинных документов, среди прочего. Для содействия исследованиям в этой области мы открываем исходный код GLM-4.1V-9B-Thinking, которая демонстрирует наивысшую производительность среди моделей сопоставимого размера. В комплексной оценке на 28 публичных тестовых наборах наша модель превосходит Qwen2.5-VL-7B практически по всем задачам и показывает сопоставимую или даже превосходящую производительность на 18 тестовых наборах по сравнению с значительно более крупной Qwen2.5-VL-72B. Примечательно, что GLM-4.1V-9B-Thinking также демонстрирует конкурентоспособную или превосходящую производительность по сравнению с закрытыми моделями, такими как GPT-4o, в сложных задачах, включая понимание длинных документов и STEM-рассуждения, что дополнительно подчеркивает ее высокие возможности. Код, модели и дополнительная информация доступны по адресу https://github.com/THUDM/GLM-4.1V-Thinking.
Математические рассуждения стали символом прогресса в больших языковых моделях (LLM), где новые модели быстро превосходят человеческий уровень на бенчмарках, таких как MATH и AIME. Однако, по мере того как рейтинги в математике улучшаются каждую неделю, возникает вопрос: отражают ли эти успехи более широкие способности к решению задач или же это лишь узкая переобученность? Чтобы ответить на этот вопрос, мы оцениваем более 20 открытых моделей, настроенных на рассуждения, на широком наборе задач, включая математику, научные вопросы, планирование агентов, программирование и стандартное выполнение инструкций. Удивительно, но мы обнаруживаем, что большинство моделей, успешных в математике, не переносят свои достижения в другие области. Для тщательного изучения этого явления мы проводим контролируемые эксперименты на моделях Qwen3-14B, используя только математические данные, но разные методы настройки. Мы выясняем, что модели, настроенные с помощью обучения с подкреплением (RL), хорошо обобщаются в различных областях, в то время как модели, настроенные с помощью контролируемого тонкого обучения (SFT), часто теряют общие способности. Анализ сдвигов в латентном пространстве и распределении токенов показывает, что SFT вызывает значительный дрейф представлений и выходных данных, тогда как RL сохраняет структуру общих областей. Наши результаты указывают на необходимость пересмотра стандартных подходов к пост-обучению, особенно зависимости от данных, дистиллированных с помощью SFT, для продвижения моделей рассуждений.
Мы представляем SciArena — открытую и совместную платформу для оценки базовых моделей на задачах, связанных с научной литературой. В отличие от традиционных тестов для понимания и синтеза научной литературы, SciArena напрямую вовлекает исследовательское сообщество, следуя подходу Chatbot Arena, где сообщество голосует за сравнение моделей. Используя коллективный интеллект, SciArena предлагает сообществу возможность оценивать производительность моделей на открытых научных задачах, требующих длинных ответов, основанных на литературе. Платформа в настоящее время поддерживает 23 открытые и проприетарные базовые модели и собрала более 13 000 голосов от доверенных исследователей из различных научных областей. Мы анализируем собранные данные и подтверждаем, что заданные вопросы разнообразны, соответствуют реальным потребностям литературы, а участвующие исследователи демонстрируют высокую самосогласованность и согласованность в своих оценках. Мы обсуждаем результаты и выводы на основе рейтинговой таблицы моделей. Чтобы способствовать дальнейшим исследованиям в области создания автоматизированных систем оценки для задач, связанных с литературой, мы выпускаем SciArena-Eval — мета-оценочный тест, основанный на собранных данных о предпочтениях. Этот тест измеряет точность моделей в оценке качества ответов, сравнивая их попарные оценки с голосами людей. Наши эксперименты подчеркивают сложность теста и необходимость в более надежных автоматизированных методах оценки.
Мультимодальные модели эмбеддингов, построенные на основе каузальных моделей "Визуальный язык" (Vision Language Models, VLMs), продемонстрировали перспективность в решении различных задач. Однако современные подходы сталкиваются с тремя ключевыми ограничениями: использование каузального внимания в архитектуре VLM неоптимально для задач эмбеддинга; проблемы масштабируемости из-за зависимости от высококачественных размеченных парных данных для контрастивного обучения; и ограниченное разнообразие в целях обучения и данных. Для решения этих проблем мы предлагаем MoCa, двухэтапную структуру для преобразования предобученных VLMs в эффективные двунаправленные мультимодальные модели эмбеддингов. Первый этап, Modality-aware Continual Pre-training, вводит совместную цель реконструкции, которая одновременно устраняет шум в чередующихся текстовых и визуальных данных, улучшая двунаправленное контекстно-зависимое рассуждение. Второй этап, Heterogeneous Contrastive Fine-tuning, использует разнообразные, семантически насыщенные мультимодальные данные, выходящие за рамки простых пар "изображение-описание", для улучшения обобщения и согласованности. Наш метод устраняет указанные ограничения за счет введения двунаправленного внимания через непрерывное предобучение, эффективного масштабирования с использованием массивных немаркированных данных через совместные цели реконструкции и использования разнообразных мультимодальных данных для повышения устойчивости представлений. Эксперименты показывают, что MoCa последовательно улучшает производительность на бенчмарках MMEB и ViDoRe-v2, достигая новых рекордных результатов, и демонстрирует высокую масштабируемость как с увеличением размера модели, так и с объемом обучающих данных на MMEB.
Последние достижения в области диффузионных моделей позволили добиться высококачественной генерации видео, однако дополнительное временное измерение значительно увеличивает вычислительные затраты, делая обучение и вывод длинных видео чрезмерно дорогостоящими. В данной работе мы выявляем явление, которое называем Пространственно-временным затуханием энергии в видео-диффузионных моделях: оценки внимания после softmax уменьшаются по мере увеличения пространственного и временного расстояния между токенами, подобно физическому затуханию сигнала или волн в природе. Вдохновленные этим, мы предлагаем Радиальное внимание — масштабируемый механизм разреженного внимания со сложностью O(n log n), который преобразует затухание энергии в экспоненциально убывающую плотность вычислений, что значительно эффективнее стандартного плотного внимания O(n^2) и выразительнее линейного внимания. В частности, Радиальное внимание использует простую статическую маску внимания, где каждый токен взаимодействует с пространственно близкими токенами, причем размер окна внимания уменьшается с увеличением временного расстояния. Кроме того, оно позволяет предварительно обученным видео-диффузионным моделям увеличивать длину генерации с помощью эффективной тонкой настройки на основе LoRA. Многочисленные эксперименты показывают, что Радиальное внимание сохраняет качество видео на моделях Wan2.1-14B, HunyuanVideo и Mochi 1, достигая ускорения до 1.9 раз по сравнению с исходным плотным вниманием. При минимальной настройке оно позволяет генерировать видео длиной до 4 раз больше, сокращая затраты на обучение до 4.4 раз по сравнению с прямой тонкой настройкой и ускоряя вывод до 3.7 раз по сравнению с выводом с использованием плотного внимания.
Диффузионные большие языковые модели (dLLM) представляют собой убедительную альтернативу авторегрессивным (AR) моделям, поскольку их модели удаления шума работают со всей последовательностью целиком. Глобальное планирование и итеративное уточнение, характерные для dLLM, особенно полезны для генерации кода. Однако текущие механизмы обучения и вывода для dLLM в области программирования всё ещё недостаточно изучены. Чтобы раскрыть поведение декодирования dLLM и реализовать их потенциал для генерации кода, мы систематически исследуем процессы удаления шума и методы обучения с подкреплением (RL). Мы обучаем 7B-модель dLLM, DiffuCoder, на 130 миллиардах токенов кода. Используя эту модель в качестве тестовой платформы, мы анализируем её поведение при декодировании, выявляя, чем оно отличается от AR-моделей: (1) dLLM могут определять, насколько каузальной должна быть их генерация, не полагаясь на полу-AR декодирование, и (2) увеличение температуры сэмплинга разнообразит не только выбор токенов, но и порядок их генерации. Это разнообразие создаёт богатое пространство поиска для RL-прогонов. Для RL-обучения, чтобы снизить дисперсию оценок логарифмической вероятности токенов и сохранить эффективность обучения, мы предлагаем coupled-GRPO — новую схему сэмплинга, которая создаёт комплементарный маскирующий шум для завершений, используемых в обучении. В наших экспериментах coupled-GRPO значительно улучшает производительность DiffuCoder на бенчмарках генерации кода (+4.4% на EvalPlus) и снижает зависимость от каузальности AR при декодировании. Наша работа даёт более глубокое понимание механизмов генерации dLLM и предлагает эффективную, нативную для диффузии RL-обучающую структуру. https://github.com/apple/ml-diffucoder.
Способны ли машины по-настоящему мыслить, рассуждать и действовать в различных областях подобно людям? Этот вечный вопрос продолжает формировать поиск Искусственного Общего Интеллекта (AGI). Несмотря на растущие возможности моделей, таких как GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 и Grok 3, которые демонстрируют мультимодальную гибкость и частичное рассуждение, эти системы остаются принципиально ограниченными из-за их зависимости от предсказания на уровне токенов и отсутствия заземлённого агентства. В данной статье предлагается междисциплинарный синтез развития AGI, охватывающий искусственный интеллект, когнитивную нейронауку, психологию, генеративные модели и системы на основе агентов. Мы анализируем архитектурные и когнитивные основы общего интеллекта, подчеркивая роль модульного рассуждения, устойчивой памяти и координации множества агентов. В частности, мы акцентируем внимание на появлении агентских RAG-фреймворков, которые сочетают поиск, планирование и динамическое использование инструментов для обеспечения более адаптивного поведения. Мы обсуждаем стратегии обобщения, включая сжатие информации, адаптацию во время тестирования и методы без обучения, как ключевые пути к гибкому, доменно-независимому интеллекту. Модели "Видение-Язык" (VLMs) переосмысливаются не только как модули восприятия, но и как развивающиеся интерфейсы для воплощённого понимания и совместного выполнения задач. Мы также утверждаем, что истинный интеллект возникает не только за счёт масштаба, но благодаря интеграции памяти и рассуждения: оркестровке модульных, интерактивных и самоулучшающихся компонентов, где сжатие обеспечивает адаптивное поведение. Опираясь на достижения в нейросимволических системах, обучении с подкреплением и когнитивных каркасах, мы исследуем, как современные архитектуры начинают сокращать разрыв между статистическим обучением и целенаправленным познанием. Наконец, мы выделяем ключевые научные, технические и этические вызовы на пути к AGI.
С быстрым развитием мультимодальных больших языковых моделей способность глубоко понимать и интерпретировать человеческие намерения стала критически важной функцией, требующей детального и вдумчивого рассуждения. В последних исследованиях обучение с подкреплением (Reinforcement Learning, RL) продемонстрировало потенциал в улучшении способности к рассуждению у больших языковых моделей (Large Language Models, LLMs). Тем не менее, проблемы, связанные с адаптацией RL к мультимодальным данным и форматам, остаются в значительной степени нерешенными. В данной работе мы выделяем две проблемы в существующих моделях мультимодального рассуждения: недостаточное понимание глобального контекста и проблема "коротких путей". Недостаточное понимание контекста может возникать, когда модель неправильно интерпретирует мультимодальный контекст, что приводит к неверным ответам. Проблема "коротких путей" возникает, когда модель упускает ключевые подсказки в мультимодальных входных данных, напрямую отвечая на запрос без учета мультимодальной информации. Для решения этих проблем мы подчеркиваем необходимость того, чтобы модель рассуждала с четким пониманием глобального контекста в мультимодальных входных данных. Это понимание глобального контекста может эффективно предотвратить упущение ключевых мультимодальных подсказок и обеспечить тщательный процесс рассуждения. Для обеспечения точной интерпретации мультимодальной контекстной информации мы внедряем контекстное вознаграждение, оцениваемое большой языковой моделью, наряду с вознаграждениями за формат и точность. Кроме того, для улучшения способности к сложному рассуждению мы используем LLM для оценки логического вознаграждения, определяя, успешно ли процесс рассуждения интегрирует мультимодальную информацию с логическими методами. Мы также представляем эталонный набор данных для всестороннего рассуждения, IntentBench, предназначенный для оценки моделей в понимании сложных человеческих намерений и эмоций. Наш предложенный метод демонстрирует превосходную производительность на нескольких всесторонних эталонных наборах данных по сравнению с другими открытыми всесторонними моделями.
Амодальная сегментация и восстановление амодального содержания требуют использования априорных знаний об объектах для оценки затененных масок и характеристик объектов в сложных сценах. До сих пор ни один набор данных не предоставлял дополнительное измерение для контекста объектов: возможность использования нескольких камер, разделяющих вид на сцену. Мы представляем MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content — крупнейший на сегодняшний день набор данных для амодальной сегментации и первый набор данных с амодальным содержанием. В нем моделируются сложные сцены с бытовыми объектами в видеоматериалах, снятых с нескольких камер. MOVi-MC-AC вносит вклад в растущую литературу по обнаружению, отслеживанию и сегментации объектов, предлагая два новых аспекта для глубокого обучения в области компьютерного зрения. Настройки с несколькими камерами (MC), где объекты могут быть идентифицированы и отслежены между различными уникальными перспективами камер, редко встречаются как в синтетических, так и в реальных видеоматериалах. Мы вводим новую сложность в синтетические видеоматериалы, предоставляя согласованные идентификаторы объектов для обнаружения и сегментации как между кадрами, так и между несколькими камерами, каждая из которых имеет уникальные характеристики и паттерны движения в одной сцене. Восстановление амодального содержания (AC) — это реконструктивная задача, в которой модели предсказывают внешний вид целевых объектов через затенения. В литературе по амодальной сегментации уже были выпущены наборы данных с метками для амодального обнаружения, отслеживания и сегментации. В то время как другие методы полагаются на медленные схемы "вырезания и вставки" для генерации псевдометок амодального содержания, они не учитывают естественные затенения, присутствующие в модальных масках. MOVi-MC-AC предоставляет метки для ~5,8 миллионов экземпляров объектов, устанавливая новый максимум в литературе по амодальным наборам данных, а также являясь первым набором данных с эталонным амодальным содержанием. Полный набор данных доступен по адресу https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
Мультимодальные крупные языковые модели (MLLMs) продемонстрировали выдающиеся способности к визуальному анализу в области естественных изображений, текстовых документов и графического дизайна. Однако их способность интерпретировать нотные записи остается недостаточно изученной. Чтобы восполнить этот пробел, мы представляем MusiXQA — первый всеобъемлющий набор данных для оценки и развития MLLMs в области понимания нотных записей. MusiXQA включает высококачественные синтетические нотные листы, созданные с помощью MusiXTeX, с структурированными аннотациями, охватывающими высоту и длительность нот, аккорды, ключи, ключевые и размерные обозначения, а также текст, что позволяет выполнять разнообразные задачи визуального вопросно-ответного анализа. В ходе обширных экспериментов мы выявили значительные ограничения современных передовых MLLMs в этой области. Помимо бенчмаркинга, мы разработали Phi-3-MusiX — MLLM, дообученную на нашем наборе данных, которая демонстрирует значительное улучшение производительности по сравнению с методами на основе GPT. Предложенные набор данных и модель закладывают основу для будущих достижений в области MLLMs для понимания нотных записей. Код, данные и модель будут опубликованы после принятия работы.
Данные являются основой для обучения языковых моделей (LM). Современные исследования посвящены повышению эффективности данных, что направлено на максимизацию производительности путем выбора минимального или оптимального подмножества обучающих данных. Методы, такие как фильтрация данных, выборка и отбор, играют ключевую роль в этой области. В дополнение к этому мы определяем Эффективность данных (Data Efficacy), которая фокусируется на максимизации производительности за счет оптимизации организации обучающих данных и остается относительно малоизученной. В данной работе представлена общая парадигма DELT для учета эффективности данных при обучении LM, которая подчеркивает важность организации обучающих данных. DELT состоит из трех компонентов: Оценка данных, Отбор данных и Упорядочивание данных. Среди этих компонентов мы разработали Оценку обучаемости и качества (Learnability-Quality Scoring, LQS) как новый пример Оценки данных, которая учитывает как обучаемость, так и качество каждого образца данных с точки зрения согласованности градиентов. Мы также предложили Упорядочивание с перекрытием (Folding Ordering, FO) как новый пример Упорядочивания данных, который решает такие проблемы, как забывание модели и смещение распределения данных. Комплексные эксперименты подтверждают эффективность данных при обучении LM, что демонстрирует следующее: Во-первых, различные реализации предложенной парадигмы DELT в разной степени улучшают производительность LM без увеличения объема данных и размера модели. Во-вторых, среди этих реализаций комбинация предложенной нами LQS для оценки данных и Folding для упорядочивания данных достигает наиболее значительного улучшения. Наконец, эффективность данных может быть достигнута вместе с эффективностью использования данных путем применения отбора данных. Таким образом, мы считаем, что эффективность данных является перспективным фундаментальным направлением в обучении LM.
Последние достижения в моделях генерации видео позволили создавать высококачественные короткие видеоролики на основе текстовых запросов. Однако расширение этих моделей для генерации более длинных видео остается значительной проблемой, главным образом из-за ухудшения временной согласованности и визуальной точности. Наши предварительные наблюдения показывают, что прямое применение моделей генерации коротких видео к более длинным последовательностям приводит к заметному снижению качества. Дальнейший анализ выявил систематическую тенденцию, при которой высокочастотные компоненты становятся все более искаженными с увеличением длины видео, что мы обозначаем как высокочастотное искажение. Для решения этой проблемы мы предлагаем FreeLong, бесплатную от обучения структуру, предназначенную для балансировки частотного распределения признаков длинных видео в процессе шумоподавления. FreeLong достигает этого путем смешения глобальных низкочастотных признаков, которые захватывают целостную семантику всего видео, с локальными высокочастотными признаками, извлеченными из коротких временных окон, чтобы сохранить мелкие детали. На основе этого FreeLong++ расширяет двухветвевую структуру FreeLong до многоканальной архитектуры с несколькими ветвями внимания, каждая из которых работает на отдельном временном масштабе. Упорядочивая несколько размеров окон от глобального до локального, FreeLong++ обеспечивает многополосное частотное слияние от низких до высоких частот, гарантируя как семантическую непрерывность, так и детализированную динамику движения в более длинных видеопоследовательностях. Без необходимости дополнительного обучения FreeLong++ может быть интегрирован в существующие модели генерации видео (например, Wan2.1 и LTX-Video) для создания более длинных видео с существенно улучшенной временной согласованностью и визуальной точностью. Мы демонстрируем, что наш подход превосходит предыдущие методы в задачах генерации длинных видео (например, в 4 и 8 раз больше исходной длины). Он также поддерживает согласованную генерацию видео по нескольким запросам с плавными переходами между сценами и позволяет управляемую генерацию видео с использованием длинных последовательностей глубины или поз.
Модели, работающие с визуальными и языковыми данными (Vision-Language Models, VLMs), преуспевают в описательных задачах, однако остается неясным, действительно ли они понимают сцены на основе визуальных наблюдений. Мы представляем IR3D-Bench — эталонный тест, который бросает вызов VLMs, требуя от них продемонстрировать понимание через активное создание, а не пассивное распознавание. Основанный на парадигме анализа через синтез, IR3D-Bench ставит перед агентами, работающими с визуальными и языковыми данными (Vision-Language Agents, VLAs), задачу активного использования инструментов программирования и визуализации для воссоздания базовой 3D-структуры входного изображения, достигая агентного обратного рендеринга через использование инструментов. Этот подход "понимание через создание" исследует генеративные способности VLAs, связанные с использованием инструментов, выходя за рамки описательных или диалоговых возможностей, измеряемых традиционными тестами на понимание сцен. Мы предлагаем комплексный набор метрик для оценки геометрической точности, пространственных отношений, атрибутов внешнего вида и общей правдоподобности. Первоначальные эксперименты по агентному обратному рендерингу, основанному на различных современных VLMs, выявляют текущие ограничения, особенно в визуальной точности, а не в базовом использовании инструментов. IR3D-Bench, включая данные и протоколы оценки, публикуется для содействия систематическому изучению и разработке VLAs, использующих инструменты, с целью достижения подлинного понимания сцен через создание.
Отчет Европейского агентства по борьбе с преступностью прогнозирует, что к 2026 году до 90% онлайн-контента может быть синтетически сгенерировано, что вызывает обеспокоенность среди политиков, предупреждающих, что «Генеративный ИИ может стать усилителем политической дезинформации. Совокупный эффект генеративного текста, изображений, видео и аудио может превзойти влияние любого отдельного модальности». В ответ на это законопроект Калифорнии AB 3211 предписывает маркировку изображений, видео и аудио, созданных с помощью ИИ. Однако сохраняются опасения относительно уязвимости техник невидимой маркировки к подделке и возможности их полного обхода злоумышленниками. Атаки на удаление водяных знаков с использованием генеративного ИИ, особенно недавно представленная визуальная парафразная атака, продемонстрировали способность полностью удалять водяные знаки, создавая парафраз исходного изображения. В данной статье представлена PECCAVI — первая техника маркировки изображений, устойчивая к визуальным парафразным атакам и не вызывающая искажений. В визуальных парафразных атаках изображение изменяется с сохранением его ключевых семантических областей, называемых Неплавящимися Точками (NMPs). PECCAVI стратегически встраивает водяные знаки в эти NMPs и использует многоканальную маркировку в частотной области. Также применяется шумовое полирование для противодействия попыткам обратного инжиниринга, направленным на обнаружение NMPs с целью нарушения встроенного водяного знака, что повышает долговечность. PECCAVI является модель-агностичной. Все соответствующие ресурсы и коды будут опубликованы в открытом доступе.
Крупные языковые модели (LLMs) демонстрируют высокие результаты в сложных задачах благодаря продвинутым техникам подсказок, таким как "Цепочка мыслей" (Chain-of-Thought, CoT) и "Дерево мыслей" (Tree-of-Thought, ToT). Однако их зависимость от ручного создания специфических для задачи подсказок ограничивает адаптивность и эффективность. Мы представляем "Смесь рассуждений" (Mixture of Reasoning, MoR) — обучающую структуру, которая внедряет разнообразные стратегии рассуждений в LLMs для автономного, адаптивного к задачам рассуждения без необходимости внешнего инжиниринга подсказок. MoR состоит из двух этапов: "Генерация мыслей", где создаются шаблоны цепочек рассуждений с использованием моделей, таких как GPT-4o, и "Построение набора данных для тонкой настройки" (SFT Dataset Construction), где шаблоны связываются с эталонными наборами данных для контролируемой тонкой настройки. Наши эксперименты показывают, что MoR значительно улучшает производительность: MoR150 достигает показателя 0.730 (улучшение на 2,2%) с использованием CoT-подсказок и 0.734 (улучшение на 13,5%) по сравнению с базовыми методами. MoR устраняет необходимость в специфических для задачи подсказках, предлагая универсальное решение для устойчивого рассуждения в разнообразных задачах.
Мы представляем Ella — воплощённого социального агента, способного к непрерывному обучению в сообществе в трёхмерном открытом мире, где агенты накапливают опыт и приобретают знания через повседневные визуальные наблюдения и социальные взаимодействия. В основе возможностей Ella лежит структурированная долговременная мультимодальная система памяти, которая эффективно хранит, обновляет и извлекает информацию. Она состоит из семантической памяти, организованной вокруг имён, для систематизации полученных знаний, и пространственно-временной эпизодической памяти для фиксации мультимодальных переживаний. Интегрируя эту систему непрерывной памяти с базовыми моделями, Ella извлекает релевантную информацию для принятия решений, планирует повседневные действия, выстраивает социальные связи и эволюционирует автономно, сосуществуя с другими разумными существами в открытом мире. Мы проводим оценки, ориентированные на возможности, в динамичном трёхмерном открытом мире, где 15 агентов участвуют в социальной активности в течение нескольких дней и проходят серию контролируемых тестов с неизвестными условиями. Экспериментальные результаты показывают, что Ella способна влиять, руководить и сотрудничать с другими агентами для достижения целей, демонстрируя свою способность эффективно обучаться через наблюдение и социальное взаимодействие. Наши результаты подчеркивают трансформационный потенциал сочетания структурированных систем памяти с базовыми моделями для развития воплощённого интеллекта. Дополнительные видео можно найти по адресу https://umass-embodied-agi.github.io/Ella/.
Точное моделирование материалов имеет решающее значение для достижения фотореалистичного рендеринга, сокращая разрыв между компьютерной графикой и реальными фотографиями. В то время как традиционные подходы полагаются на табличные данные BRDF, современные исследования сместились в сторону неявных нейронных представлений, которые предлагают компактные и гибкие решения для широкого круга задач. Однако их поведение в частотной области остается недостаточно изученным. Для решения этой проблемы мы представляем FreNBRDF — частотно-скорректированное нейронное представление материалов. Используя сферические гармоники, мы интегрируем частотные аспекты в нейронное моделирование BRDF. Мы предлагаем новый частотно-скорректированный метод потерь, основанный на частотном анализе нейронных материалов, и включаем его в универсальный и адаптивный конвейер реконструкции и редактирования. Этот подход повышает точность, адаптивность и эффективность. Многочисленные эксперименты демонстрируют, что наш метод улучшает точность и устойчивость реконструкции и редактирования внешнего вида материалов по сравнению с современными базовыми методами, обеспечивая более структурированные и интерпретируемые последующие задачи и приложения.
3D Gaussian Splatting обеспечивает высококачественную рендеринг в реальном времени, но часто создает миллионы сплатов, что приводит к чрезмерным затратам на хранение и вычисления. Мы предлагаем новый метод сжатия с потерями, основанный на обучаемых оценках уверенности, смоделированных как бета-распределения. Уверенность каждого сплата оптимизируется с помощью потерь, учитывающих реконструкцию, что позволяет удалять сплаты с низкой уверенностью, сохраняя при этом визуальное качество. Предложенный подход не зависит от архитектуры и может быть применен к любой вариации Gaussian Splatting. Кроме того, средние значения уверенности служат новой метрикой для оценки качества сцены. Многочисленные эксперименты демонстрируют благоприятные компромиссы между сжатием и качеством по сравнению с предыдущими работами. Наш код и данные доступны по адресу https://github.com/amirhossein-razlighi/Confident-Splatting.