Ежедневно отобранные исследовательские статьи по ИИ с переводами
Существующие методы генерации видео на основе диффузионных моделей фундаментально ограничены последовательными вычислениями и несогласованностью на длинных промежутках времени, что препятствует их практическому применению в задачах синтеза аватаров в реальном времени с потоковым аудиовходом. Мы представляем Live Avatar — совместно спроектированный алгоритмико-системный фреймворк, который обеспечивает эффективную, высокодетализированную и бесконечно долгую генерацию аватаров с использованием 14-миллиардной диффузионной модели. Наш подход включает Timestep-forcing Pipeline Parallelism (TPP) — парадигму распределенного вывода, которая организует конвейерную обработку шагов шумоподавления на нескольких GPU, эффективно преодолевая авторегрессионное узкое место и гарантируя стабильную потоковую передачу с малой задержкой. Для повышения временной согласованности, снижения дрейфа идентичности и цветовых артефактов мы предлагаем Rolling Sink Frame Mechanism (RSFM), который поддерживает точность последовательности за счет динамической перекалибровки внешнего вида с использованием кэшированного референсного изображения. Кроме того, мы применяем Self-Forcing Distribution Matching Distillation для обеспечения причинно-следственной, потоковой адаптации крупномасштабных моделей без потери визуального качества. Live Avatar демонстрирует наилучшую производительность, достигая скорости генерации 20 кадров/с на 5 GPU H800, и, насколько нам известно, является первой системой, достигшей практической, высокодетализированной генерации аватаров в реальном времени в таком масштабе. Наша работа устанавливает новую парадигму развертывания передовых диффузионных моделей в промышленных приложениях синтеза длинных видео.
Реальные рабочие процессы обработки корпоративных данных включают инжиниринг данных, который преобразует исходные сырые данные в таблицы, готовые к анализу, и анализ данных, который превращает эти таблицы в инсайты для принятия решений. Мы представляем DAComp — набор из 210 задач, который отражает эти сложные процессы. Задачи по инжинирингу данных требуют инжиниринга на уровне репозитория с промышленными схемами, включая проектирование и построение многоэтапных SQL-пайплайнов с нуля, а также модификацию существующих систем в условиях меняющихся требований. Задачи по анализу данных формулируют открытые бизнес-проблемы, требующие стратегического планирования, исследовательского анализа посредством итеративного кодирования, интерпретации промежуточных результатов и синтеза практических рекомендаций. Инжиниринговые задачи оцениваются с помощью исполняемой, многокритериальной оценки. Открытые задачи оцениваются надежным, экспериментально проверенным LLM-арбитром, руководствующимся иерархическими, тщательно разработанными критериями. Наши эксперименты показывают, что даже передовые агенты испытывают трудности с DAComp. Производительность на задачах по инжинирингу данных особенно низка, с уровнем успеха ниже 20%, что выявляет критическое узкое место в области оркестрации целостных пайплайнов, а не просто генерации кода. Результаты по задачам анализа данных также в среднем ниже 40%, что подчеркивает серьезные недостатки в открытом рассуждении и демонстрирует, что инжиниринг и анализ — это различные компетенции. Четко диагностируя эти ограничения, DAComp предоставляет строгий и реалистичный полигон для стимулирования разработки по-настоящему эффективных автономных агентов для работы с данными в корпоративной среде. Наши данные и код доступны по адресу https://da-comp.github.io.
Эволюция больших языковых моделей (LLM) от пассивных респондентов к автономным агентам требует фундаментального сдвига в парадигмах обучения — от статического подражания к принятию решений, движимому стимулами. Однако этот переход существенно затрудняется отсутствием масштабируемой инфраструктуры, способной формировать высококачественные сигналы взаимодействия для эффективного обучения стратегий. Для решения этой проблемы мы представляем комплексный метод, предназначенный для систематического масштабирования разнообразия и сложности интерактивных сред. Наш метод реализует это масштабирование за счет работы в трех ортогональных направлениях: (1) **Сложность**: NexAU — гибкая агентская архитектура, поддерживающая построение сложных иерархий агентов с помощью простых конфигураций; (2) **Разнообразие**: NexA4A автоматически генерирует разнообразные иерархии агентов из естественного языка для охвата бесконечных доменов; и (3) **Достоверность**: NexGAP преодолевает разрыв между симуляцией и реальностью, интегрируя динамическую среду реального мира для синтеза обоснованных траекторий. Мы обучаем модель Nex-N1 на разнообразных и сложных интерактивных средах, созданных нашей инфраструктурой. Эмпирические результаты на бенчмарках, таких как SWE-bench и tau2, демонстрируют, что Nex-N1 стабильно превосходит современные открытые модели и показывает конкурентные результаты по сравнению с передовыми проприетарными моделями в сложных агентских задачах. Мы открываем исходный код экосистемы Nex и веса модели для содействия дальнейшим исследованиям.
Крупные языковые модели все активнее интегрируются в рабочие процессы академического письма, однако существующие ассистенты остаются внешними по отношению к редактору, что препятствует глубокому взаимодействию с состоянием документа, его структурой и историей изменений. Эта разобщенность делает невозможной поддержку активных, контекстно-ориентированных операций непосредственно в редакторах LaTeX, таких как Overleaf. Мы представляем PaperDebugger — встроенного, мультиагентного и плагин-ориентированного ассистента для академического письма, который переносит логику, управляемую LLM, непосредственно в среду написания текстов. Реализация такого внутриредакторского взаимодействия технически нетривиальна: она требует надежной двусторонней синхронизации с редактором, детального контроля версий и патчинга, безопасного управления состоянием, планирования мультиагентных задач и расширяемой коммуникации с внешними инструментами. PaperDebugger решает эти задачи с помощью одобренного Chrome расширения, оркестрационного слоя на базе Kubernetes и инструментария Model Context Protocol (MCP), который интегрирует поиск по литературе, работу с ссылками, оценку документов и конвейеры ревизий. Наша демонстрация представляет полностью интегрированный рабочий процесс, включая локализованные правки, структурированные рецензии, параллельное выполнение агентов и обновления на основе diff-ов, инкапсулированные в интерфейс с минимальным вмешательством. Предварительные агрегированные данные показывают активное вовлечение пользователей и подтверждают практическую целесообразность редактор-нативного, агентного ассистента для письма. Более подробная информация о демонстрации и видео доступна по адресу https://github.com/PaperDebugger/PaperDebugger.
Модели вознаграждения играют ключевую роль в согласовании визуально-языковых систем с человеческими предпочтениями, однако современные подходы страдают от галлюцинаций, слабой визуальной обоснованности и неспособности использовать инструменты для верификации, что ограничивает их надежность в сложных многомодальных задачах рассуждения. Мы представляем ARM-Thinker — агентную многомодальную модель вознаграждения, которая автономно задействует внешние инструменты (например, обрезку изображений, извлечение страниц документов) для обоснования суждений проверяемыми доказательствами, заменяя статическую, неинтерактивную оценку вознаграждения. Это позволяет модели проверять детализированные визуальные особенности, перекрестно ссылаться на многостраничные доказательства и валидировать утверждения рассуждений — возможности, отсутствующие в существующих моделях вознаграждения. Мы обучаем ARM-Thinker с помощью многоэтапного обучения с подкреплением, совместно оптимизируя решения о вызове инструментов и точность суждений. Для оценки агентного моделирования вознаграждения мы представляем ARMBench-VL, включающий три тестовых набора, которые оценивают детализированную визуальную обоснованность (инструменты уровня изображения), понимание многостраничных документов (инструменты поиска) и следование инструкциям (верификация на текстовом уровне). ARM-Thinker демонстрирует среднее улучшение на +16,2% в тестах моделирования вознаграждения, на +9,6% в задачах использования инструментов и превосходит базовые модели в многомодальных тестах на математические и логические рассуждения. Наши результаты показывают, что агентные возможности значительно повышают как точность, так и интерпретируемость моделей вознаграждения.
Латентные диффузионные модели (LDM) по своей природе следуют процессу генерации от общего к частному, при котором высокоуровневая семантическая структура формируется несколько раньше, чем детализированная текстура. Это указывает на то, что предшествующая семантика потенциально способствует генерации текстуры, предоставляя семантический якорь. Последние достижения интегрировали семантические априорные знания из предварительно обученных визуальных энкодеров для дальнейшего улучшения LDM, однако в них по-прежнему осуществляется синхронное шумоподавление семантики и текстуры, закодированной VAE, что игнорирует указанный порядок. Наблюдая это, мы предлагаем Semantic-First Diffusion (SFD) — парадигму латентной диффузии, которая явно приоритизирует формирование семантики. SFD сначала строит композитные латентные переменные, объединяя компактную семантическую латентную переменную, извлеченную из предобученного визуального энкодера с помощью специального Semantic VAE, с латентной переменной текстуры. Основная идея SFD заключается в асинхронном шумоподавлении семантических и текстурных латентных переменных с использованием раздельных графиков добавления шума: семантика обрабатывается раньше текстуры на временной сдвиг, что обеспечивает более четкие высокоуровневые ориентиры для уточнения текстуры и позволяет реализовать естественную генерацию от общего к частному. На наборе данных ImageNet 256x256 с использованием guidance метод SFD достигает FID 1.06 (LightningDiT-XL) и FID 1.04 (LightningDiT-XXL на 1.0B параметров), одновременно обеспечивая до 100-кратное ускорение сходимости по сравнению с оригинальным DiT. SFD также улучшает существующие методы, такие как ReDi и VA-VAE, демонстрируя эффективность асинхронного моделирования под руководством семантики. Страница проекта и код: https://yuemingpan.github.io/SFD.github.io/.
Эффективная генерация потокового видео критически важна для моделирования интерактивных и динамичных миров. Существующие методы дистиллируют многошаговые диффузионные модели видео с применением скользящего оконного внимания, используя начальные кадры в качестве sink-токенов для сохранения производительности механизма внимания и снижения накопления ошибок. Однако видеокадры становятся чрезмерно зависимыми от этих статических токенов, что приводит к копированию начальных кадров и ослаблению динамики движения. Для решения этой проблемы мы представляем Reward Forcing — новую архитектуру с двумя ключевыми компонентами. Во-первых, мы предлагаем EMA-Sink, который поддерживает токены фиксированного размера, инициализированные из начальных кадров и постоянно обновляемые путем слияния вытесняемых токенов посредством экспоненциального скользящего среднего по мере их выхода из скользящего окна. Без дополнительных вычислительных затрат токены EMA-Sink захватывают как долгосрочный контекст, так и recentнюю динамику, предотвращая копирование начальных кадров при сохранении согласованности на длинных промежутках. Во-вторых, для лучшей дистилляции динамики движения из учительских моделей мы предлагаем новый метод Rewarded Distribution Matching Distillation (Re-DMD). Стандартное согласование распределений обрабатывает каждый пример обучения одинаково, ограничивая способность модели приоритизировать динамическое содержимое. Вместо этого Re-DMD смещает выходное распределение модели в сторону областей с высоким вознаграждением, отдавая приоритет примерам с большей динамикой, оцененной vision-language моделью. Re-DMD значительно улучшает качество движения при сохранении достоверности данных. Мы проводим количественные и качественные эксперименты, демонстрирующие, что Reward Forcing достигает state-of-the-art результатов на стандартных бенчмарках, обеспечивая генерацию высококачественного потокового видео со скоростью 23.1 кадра в секунду на одном GPU H100.
Понимание динамического физического мира, характеризующегося развивающейся 3D-структурой, реальным движением и семантическим содержанием с текстовыми описаниями, крайне важно для взаимодействия человека и агента и позволяет воплощенным агентам воспринимать и действовать в реальных средах с человеко-подобными возможностями. Однако существующие наборы данных часто создаются с помощью ограниченных симуляторов или используют традиционное восстановление структуры по движению для аннотирования в натуральном масштабе и предлагают ограниченные описательные подписи, что сужает способность базовых моделей точно интерпретировать динамику реального мира из моноскопических видео, обычно получаемых из интернета. Для преодоления этих пробелов мы представляем DynamicVerse — мультимодальную framework моделирования 4D-мира в физическом масштабе для динамического видео реального мира. Мы используем крупные визуальные, геометрические и мультимодальные модели для интерпретации статической геометрии в метрическом масштабе, реального динамического движения, масок на уровне экземпляров и целостных описательных подписей. Интегрируя bundle adjustment в скользящем окне с глобальной оптимизацией, наш метод преобразует длинные последовательности видео из реального мира в комплексный мультимодальный 4D-формат. DynamicVerse предоставляет масштабный набор данных, состоящий из 100 тыс.+ видео с 800 тыс.+ размеченных масок и 10 млн+ кадров из интернет-видео. Экспериментальные оценки по трем тестовым задачам: оценке глубины видео, оценке позы камеры и оценке внутренних параметров камеры — демонстрируют, что наше 4D-моделирование достигает превосходной производительности в захвате измерений в физическом масштабе с более высокой глобальной точностью по сравнению с существующими методами.
Последние достижения в области авторегрессионной видеодиффузии позволили организовать потоковую передачу кадров в реальном времени, однако существующие решения по-прежнему страдают от временных повторов, дрейфа и замедления движения. Мы обнаружили, что прямое применение механизмов "внимания к синкам" в стиле StreamingLLM к видеодиффузии приводит к деградации качества изображения и стагнации движения. Чтобы преодолеть это, мы представляем метод Deep Forcing, который состоит из двух механизмов, не требующих дообучения и решающих данную проблему. А именно: 1) Deep Sink выделяет половину скользящего окна под постоянные токены-синки и перевыравнивает их временную фазу RoPE в соответствии с текущей временной шкалой, стабилизируя глобальный контекст при длительной генерации. 2) Participative Compression выполняет важностно-осознанное прореживание KV-кэша, сохраняя только те токены, которые активно участвуют в последних операциях внимания, и безопасно отбрасывая избыточную и деградировавшую историю, что минимизирует накопление ошибок при генерации последовательностей вне распределения обучающей длины. Вместе эти компоненты позволяют достичь экстраполяции более чем в 12 раз (например, с обученной длины 5 с до генерации 60+ с) с лучшим качеством изображения, чем у LongLive, лучшим эстетическим качеством, чем у RollingForcing, практически сохраняя общую согласованность и значительно улучшая степень динамичности, — и всё это при сохранении генерации в реальном времени. Наши результаты демонстрируют, что управление KV-кэшем без дообучения может сравниться или превзойти подходы, основанные на дообучении, для авторегрессионной потоковой генерации длинных видео.
Мы представляем SIMA 2 — универсального воплощённого агента, который понимает и действует в широком спектре трёхмерных виртуальных миров. Построенный на базовой модели Gemini, SIMA 2 представляет собой значительный шаг к активному, целенаправленному взаимодействию в воплощённой среде. В отличие от предыдущих работ (например, SIMA 1), ограниченных простыми языковыми командами, SIMA 2 действует как интерактивный партнёр, способный рассуждать о высокоуровневых целях, общаться с пользователем и обрабатывать сложные инструкции, заданные с помощью языка и изображений. В разнообразном портфолио игр SIMA 2 существенно сокращает разрыв с человеческими показателями и демонстрирует robustную генерализацию в ранее невиданных средах, сохраняя при этом базовые способности модели к рассуждению. Кроме того, мы демонстрируем способность к открытому самообучению: используя Gemini для генерации задач и предоставления вознаграждений, SIMA 2 может автономно осваивать новые навыки с нуля в новой среде. Данная работа подтверждает путь к созданию универсальных и непрерывно обучающихся агентов как для виртуальных, так и, в конечном счёте, для физических миров.
Построение 4D языковых полей является ключевой задачей для воплощенного ИИ, дополненной/виртуальной реальности и понимания 4D-сцен, поскольку они обеспечивают обогащенные семантические представления динамических сред и позволяют осуществлять запросы с открытым словарем в сложных сценариях. Однако существующие подходы к построению 4D семантических полей в основном опираются на сценоспецифичный сплайнинг по Гауссу, который требует оптимизации для каждой сцены, обладает ограниченной обобщающей способностью и сложно масштабируется для реальных применений. Чтобы преодолеть эти ограничения, мы предлагаем 4DLangVGGT — первую трансформерную прямую унифицированную архитектуру для 4D языковой привязки, которая совместно интегрирует геометрическое восприятие и языковое выравнивание в единую структуру. 4DLangVGGT имеет два ключевых компонента: 4D трансформер визуальной геометрии StreamVGGT, который захватывает пространственно-временные геометрические представления динамических сцен; и семантический связующий декодер (SBD), который проецирует геометрически осознанные признаки в языково-выровненное семантическое пространство, повышая семантическую интерпретируемость при сохранении структурной достоверности. В отличие от предыдущих методов, зависящих от затратной оптимизации на сцену, 4DLangVGGT может обучаться совместно на множестве динамических сцен и напрямую применяться на этапе вывода, достигая как эффективности развертывания, так и сильного обобщения. Данная конструкция значительно повышает практическую пригодность для крупномасштабного развертывания и устанавливает новую парадигму для понимания 4D-сцен с открытым словарем. Эксперименты на наборах данных HyperNeRF и Neu3D демонстрируют, что наш подход не только эффективно обобщает, но и достигает передовой производительности, показывая прирост до 2% при обучении на одну сцену и улучшение на 1% при обучении на множестве сцен. Наш код доступен по адресу https://github.com/hustvl/4DLangVGGT.
Синтез высококачественных замороженных 3D-сцен из монокулярных видео Mannequin-Challenge (MC) представляет собой уникальную задачу, отличную от стандартной реконструкции динамических сцен. Вместо моделирования движения наша цель — создать статичную сцену, стратегически сохраняя при этом тонкие динамические элементы, чтобы обеспечить возможность мгновенного выбора времени пользователем. Для достижения этой цели мы представляем новое применение динамического сплайнинга Гаусса: сцена моделируется динамически, что сохраняет временные вариации на соседних кадрах, а статичная сцена рендерится путем фиксации временного параметра модели. Однако при таком подходе монокулярная съемка с разреженным временным супервизией приводит к артефактам, таким как шлейфы и размытие, для гауссиан, которые становятся ненаблюдаемыми или перекрытыми в слабо супервизируемых временных точках. Мы предлагаем Splannequin, архитектурно-агностичную регуляризацию, которая обнаруживает два состояния гауссовых примитивов — скрытое и дефектное — и применяет временное якорение. При преимущественно прямолинейном движении камеры скрытые состояния якорятся к их недавним хорошо наблюдаемым прошлым состояниям, в то время как дефектные состояния якорятся к будущим состояниям с более сильным супервизией. Наш метод интегрируется в существующие конвейеры динамических гауссиан с помощью простых функций потерь, не требует изменений архитектуры и не добавляет затрат на вывод. Это приводит к значительному улучшению визуального качества, позволяя получать высококачественные, выбираемые пользователем рендеры с замороженным временем, что подтверждено 96% предпочтением пользователей. Страница проекта: https://chien90190.github.io/splannequin/
Современные диффузионные трансформеры для генерации изображений достигают высокой точности воспроизведения, однако сталкиваются с трудностями при создании изображений сверх обученных масштабов, страдая от повторов содержания и деградации качества. В данной работе мы представляем UltraImage — принципиальную архитектуру, решающую обе проблемы. На основе частотного анализа позиционных эмбеддингов мы выявили, что повторение возникает из-за периодичности доминирующей частоты, период которой совпадает с разрешением обучения. Мы предлагаем рекуррентную коррекцию доминирующей частоты, ограничивающую её одним периодом после экстраполяции. Кроме того, мы установили, что деградация качества вызвана рассеиванием внимания, и вводим адаптивную концентрацию внимания с управлением по энтропии, которая назначает более высокие коэффициенты фокусировки для обострения локального внимания к деталям и более низкие — для глобальных шаблонов внимания с целью сохранения структурной целостности. Эксперименты показывают, что UltraImage стабильно превосходит предыдущие методы на моделях Qwen-Image и Flux (около 4K) в трёх сценариях генерации, снижая повторы и улучшая визуальное качество. Более того, UltraImage способен генерировать изображения до 6K×6K без низкоразрешающих подсказок при обучении на разрешении 1328p, демонстрируя экстремальные возможности экстраполяции. Страница проекта доступна по адресу: https://thu-ml.github.io/ultraimage.github.io/.
Модели генерации видео быстро развиваются, но по-прежнему испытывают трудности с созданием сложных видеороликов, требующих значительного семантического ветвления или многократного высокоуровневого анализа последующих событий. В данной статье мы представляем новый класс универсальных видео-текстовых моделей, которые интегрируют идеи из последних достижений в области рассуждений языковых моделей для решения этой задачи. Конкретнее, мы предлагаем TV2TV — унифицированную фреймворк-модель генерации, которая разлагает создание видео на чередующийся процесс генерации текста и видео. TV2TV совместно обучает языковое моделирование (предсказание следующего токена) и matching потоков видео (предсказание следующего кадра) с использованием архитектуры Mixture-of-Transformers (MoT). На этапе вывода TV2TV решает, когда переключаться между генерацией текста и видео-кадров, позволяя модели «думать словами» о последующем содержании, прежде чем «действовать в пикселях» для создания кадров. Такой подход перекладывает значительную часть ответственности за определение последующих событий на языковой модуль, что улучшает визуальное качество и соответствие генерируемых видео заданному описанию. Это также обеспечивает детальную управляемость, позволяя пользователям изменять траекторию генерации видео с помощью текстовых вмешательств в любой момент процесса. В контролируемых экспериментах на данных видеоигр TV2TV демонстрирует существенное улучшение как визуального качества, так и управляемости. TV2TV также масштабируется на натуральные видео, что мы показываем, дополняя спортивные видеоролики чередующимися описаниями действий на естественном языке с помощью Vision-Language Models (VLM). Обучение TV2TV на этом корпусе даёт высокое визуальное качество и соответствие описанию, демонстрируя способность модели анализировать и генерировать сложные последовательности действий из реального мира. В совокупности эти результаты позиционируют TV2TV как перспективный шаг к генерации видео с открытым текстовым reasoning и контролем.
Мы представляем диффузионно-трансформерную (DiT) архитектуру для удаления бликов с одиночных изображений, которая использует преимущества обобщающей способности фундаментальных диффузионных моделей в задаче восстановления. Вместо создания специализированных архитектур мы адаптируем предобученную DiT-модель, conditioning её на входных изображениях с бликами и направляя к восстановлению чистых слоёв пропускания. Мы систематически анализируем существующие наборы данных для удаления бликов с точки зрения разнообразия, масштабируемости и фотореалистичности. Для решения проблемы нехватки подходящих данных мы создаём физически корректный pipeline рендеринга (PBR) в Blender на основе Principled BSDF для синтеза реалистичных стеклянных материалов и эффектов отражения. Эффективная адаптация базовой модели на основе LoRA в сочетании с предложенными синтетическими данными достигает state-of-the-art результатов на внутридоменных и zero-shot бенчмарках. Эти результаты демонстрируют, что предобученные диффузионные трансформеры в сочетании с физически обоснованным синтезом данных и эффективной адаптацией предлагают масштабируемое и высококачественное решение для удаления бликов. Страница проекта: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
Стандартная диффузия искажает данные с помощью гауссовского шума, чьи коэффициенты Фурье имеют случайные амплитуды и случайные фазы. Хотя этот подход эффективен для безусловной генерации или генерации по тексту, искажение фазовых компонентов разрушает пространственную структуру, что делает его непригодным для задач, требующих геометрической согласованности, таких как повторный рендеринг, улучшение симуляций и трансляция изображение-в-изображение. Мы представляем Фазо-Сохраняющую Диффузию (φ-PD), модель-агностическую переформулировку процесса диффузии, которая сохраняет фазу входного сигнала, рандомизируя амплитуду, что позволяет осуществлять структурно-выровненную генерацию без изменений архитектуры или дополнительных параметров. Мы также предлагаем Частотно-Селективный Структурированный (FSS) шум, который обеспечивает непрерывный контроль над структурной жесткостью с помощью единственного параметра частотного среза. φ-PD не добавляет затрат на время вывода и совместима с любой диффузионной моделью для изображений или видео. В задачах фотореалистичного и стилизованного повторного рендеринга, а также в улучшении симуляций для планировщиков движения, φ-PD дает контролируемые, пространственно выровненные результаты. При применении к симулятору CARLA, φ-PD улучшает производительность планировщика CARLA-to-Waymo на 50%. Метод является дополнением к существующим подходам кондиционирования и широко применим для генерации изображение-в-изображение и видео-в-видео. Видео, дополнительные примеры и код доступны на нашей https://yuzeng-at-tri.github.io/ppd-page/{странице проекта}.
Крайне низкоразрядное квантование играет ключевую роль для эффективного развертывания больших языковых моделей (LLM), однако оно часто приводит к значительной деградации производительности при 2 битах и даже при 4 битах (например, MXFP4). Мы представляем SignRoundV2 — фреймворк для послетренировочного квантования, который остается высокоэффективным даже без использования смешанной точности. SignRoundV2 включает (1) быструю метрику чувствительности, объединяющую информацию о градиентах с отклонениями, вызванными квантованием, для управления послойным распределением бит, и (2) легковесный поиск параметров квантования с предварительной настройкой для улучшения работы при экстремально низкой разрядности. Эти компоненты позволяют SignRoundV2 сократить разрыв с полноточными моделями. Многочисленные эксперименты показывают, что наш метод сохраняет конкурентоспособную точность для LLM, достигая промышленного уровня производительности с отклонением около 1% при 4-5 битах и демонстрируя высокие результаты даже при 2 битах. Реализация доступна по адресу https://github.com/intel/auto-round.
Современные унифицированные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие возможности, включая рассуждения по цепочке мыслей (CoT) для улучшения генерации изображений по тексту. Однако существующие подходы остаются ограниченными: они либо рассматривают модель лишь как автономный генератор, либо полагаются на абстрактное текстовое планирование. В связи с этим мы предлагаем Draft-as-CoT (DraCo) — новую парадигму чередующегося рассуждения, которая в полной мере использует как текстовое, так и визуальное содержимое в CoT для лучшего планирования и верификации. Наш метод сначала генерирует изображение-черновик низкого разрешения для предварительного просмотра, обеспечивая более конкретное и структурное визуальное планирование и руководство. Затем мы используем присущую модели способность к пониманию для проверки потенциальных семантических несоответствий между черновиком и входным промптом и выполняем уточнение путем выборочных исправлений с применением сверхразрешения. Таким образом, наш подход решает две фундаментальные проблемы: грубозернистый характер текстового планирования и сложность генерации комбинаций редких атрибутов. Для поддержки обучения мы создали набор данных DraCo-240K, направленный на развитие трех базовых способностей: общего исправления, манипулирования объектами и реорганизации компоновки. Благодаря DraCo-CFG, специализированной стратегии классификаторно-свободного управления (CFG) для чередующегося рассуждения, DraCo демонстрирует значительный рост показателей на GenEval (+8%), Imagine-Bench (+0.91) и GenEval++ (+3%), существенно превосходя прямую генерацию и другие методы генерации, усиленные CoT.
Обучение с подкреплением с интеграцией инструментов (TI-RL) позволяет большим языковым моделям (LLM) выполнять многошаговые рассуждения, взаимодействуя с внешними инструментами, такими как поисковые системы и системы извлечения информации. Оптимизация групповой относительной политики (GRPO), примером которой является недавняя модель Search-R1, обеспечивает быструю сходимость и бесценностную формулировку, что делает её привлекательной для данной настройки, однако она постоянно страдает от коллапса обучения. Мы идентифицируем Lazy Likelihood Displacement (LLD) — систематическое снижение или стагнацию правдоподобия как правильных, так и неправильных ответов — как ключевой механизм, приводящий к этому сбою. LLD возникает на ранних этапах и запускает самоподдерживающуюся "спираль смерти LLD", в которой снижающееся правдоподобие приводит к низкодостоверным ответам, раздуванию градиентов и, в конечном счёте, к коллапсу. Мы эмпирически характеризуем этот процесс на различных моделях в задаче поискового вопросно-ответного задания в стиле Search-R1, выявляя последовательную трёхфазную траекторию: ранний застой, устойчивый спад и ускоренный коллапс. Для решения этой проблемы мы предлагаем лёгкую регуляризацию, сохраняющую правдоподобие (LLDS), для GRPO, которая активируется только при уменьшении правдоподобия траектории и регуляризует лишь ответственные за это токены. Эта детализированная структура смягчает LLD при минимальном вмешательстве в оптимизацию. На семи тестовых наборах данных по открытому домену и многошаговому вопросно-ответному заданию наш метод стабилизирует обучение, предотвращает взрыв градиентов и обеспечивает существенное улучшение производительности, включая прирост на +37,8% для Qwen2.5-3B и на +32,0% для Qwen2.5-7B. Наши результаты устанавливают LLD как фундаментальное узкое место в TI-RL на основе GRPO и предлагают практический путь к стабильному и масштабируемому обучению LLM с интеграцией инструментов.
Проблема упаковки сфер, восемнадцатая проблема Гильберта, ставит вопрос о наиболее плотном расположении конгруэнтных сфер в n-мерном евклидовом пространстве. Хотя проблема имеет значение для таких областей, как криптография, кристаллография и медицинская визуализация, она остаётся нерешённой: за пределами нескольких специальных размерностей не известны ни оптимальные упаковки, ни точные верхние границы. Даже крупный прорыв в размерности n=8, впоследствии отмеченный Филдсовской премией, подчёркивает её сложность. Ведущий метод получения верхних границ, метод трёх точек, сводит проблему к решению больших полуопределённых программ (SDP) высокой точности. Поскольку оценка каждой кандидатной SDP может занимать дни, стандартные подходы ИИ, требующие больших данных, неприменимы. Мы решаем эту задачу, формулируя построение SDP как последовательный процесс принятия решений — игру SDP, в которой политика собирает формулировки SDP из набора допустимых компонентов. Используя эффективный по выборке модельно-ориентированный фреймворк, сочетающий байесовскую оптимизацию с поиском по дереву Монте-Карло, мы получаем новые наилучшие верхние границы в размерностях 4–16, показывая, что модельно-ориентированный поиск может способствовать вычислительному прогрессу в давних геометрических проблемах. В совокупности эти результаты демонстрируют, что эффективный по выборке модельно-ориентированный поиск может обеспечить ощутимый прогресс в математически жёстких задачах с ограниченной оценкой, указывая на дополнительное направление для открытий с помощью ИИ помимо крупномасштабных исследований на основе больших языковых моделей.
Мы представляем LATTICE — новый фреймворк для генерации 3D-ассетов с высокой точностью, который преодолевает разрыв в качестве и масштабируемости между 3D- и 2D-генеративными моделями. В то время как синтез 2D-изображений выигрывает от фиксированных пространственных сеток и хорошо отработанных трансформерных архитектур, 3D-генерация остается принципиально более сложной задачей из-за необходимости предсказывать с нуля как пространственную структуру, так и детализированные геометрические поверхности. Эти сложности усугубляются вычислительной сложностью существующих 3D-представлений и отсутствием структурированных и масштабируемых схем кодирования 3D-ассетов. Чтобы решить эту проблему, мы предлагаем VoxSet — полуструктурированное представление, которое сжимает 3D-ассеты в компактный набор латентных векторов, привязанных к coarse-воксельной сетке, что обеспечивает эффективную и позиционно-осознанную генерацию. VoxSet сохраняет простоту и преимущества сжатия предшествующих методов VecSet, одновременно вводя явную структуру в латентное пространство, что позволяет позиционным эмбеддингам направлять генерацию и обеспечивает мощное масштабирование на уровне токенов во время тестирования. Построенный на этом представлении, LATTICE использует двухэтапный конвейер: сначала генерируется разреженный вокселизированный геометрический якорь, а затем создается детализированная геометрия с помощью трансформера с rectified flow. Наш метод прост в своей основе, но поддерживает декодирование с произвольным разрешением, обучение с низкими затратами и гибкие схемы вывода, достигая передовых результатов по различным аспектам и делая значительный шаг к масштабируемому созданию высококачественных 3D-ассетов.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) продемонстрировали их впечатляющую способность генерировать описательные подписи к входным видео. Однако эти модели страдают от фактических неточностей в генерируемых описаниях, что приводит к серьёзным проблемам галлюцинаций. В то время как предыдущие работы исследовали способы уменьшения галлюцинаций для статических изображений, совместное устранение галлюцинаций визуальных объектов и временных действий для динамических видео остаётся сложной и нерешённой задачей. Для решения этой проблемы мы предлагаем фреймворк SANTA (Self-Augmented Contrastive Alignment), обеспечивающий достоверность объектов и действий за счёт исключения ложных корреляций и усиления акцента на визуальных фактах. SANTA использует схему самодополнения, основанную на галлюцинациях, для выявления потенциальных искажений, присутствующих в MLLM, и преобразует исходные подписи в контрастирующие негативные примеры. Кроме того, мы разрабатываем контрастирующее выравнивание на основе треклетов и фраз для сопоставления региональных объектов и действий, управляемых отношениями, с их соответствующими визуальными и временными фразами. Многочисленные эксперименты демонстрируют, что SANTA превосходит существующие методы в снижении галлюцинаций объектов и действий, показывая превосходные результаты на эталонных тестах для проверки галлюцинаций.
Мы представляем GNVC-VD — первую систему генеративного нейросетевого сжатия видео на основе DiT (трансформеров диффузии), построенную на передовой фундаментальной модели генерации видео, в которой пространственно-временное латентное сжатие и генеративное уточнение на уровне последовательности объединены в рамках единого кодекса. Существующие перцептивные кодеки в основном полагаются на предобученные генеративные априорные распределения для изображений с целью восстановления высокочастотных деталей, но их покадровая природа лишена временного моделирования и неизбежно приводит к перцептивному мерцанию. Для решения этой проблемы GNVC-VD вводит унифицированный модуль латентного уточнения с согласованием потоков (flow-matching), который использует видео-диффузионный трансформер для совместного улучшения внутри- и межкадровых латентных представлений посредством шумоподавления на уровне последовательности, обеспечивая согласованные пространственно-временные детали. В отличие от генерации видео, где шумоподавление начинается с чистого гауссовского шума, GNVC-VD инициирует уточнение из декодированных пространственно-временных латентных переменных и изучает поправочный член, который адаптирует диффузионный априор к искажениям, вызванным сжатием. Адаптер кондиционирования дополнительно внедряет признаки, учитывающие сжатие, в промежуточные слои DiT, обеспечивая эффективное устранение артефактов при сохранении временной согласованности в условиях экстремально низких битрейтов. Многочисленные эксперименты показывают, что GNVC-VD превосходит как традиционные, так и обученные кодеки по перцептивному качеству и значительно уменьшает артефакты мерцания, сохраняющиеся в предыдущих генеративных подходах, даже при битрейте ниже 0.01 бит на пиксель, что подчеркивает перспективность интеграции видео-ориентированных генеративных априоров в нейросетевые кодеки для перцептивного сжатия видео следующего поколения.
Существующие агенты навигации на основе зрения и языка (VLN), построенные на больших визуально-языковых моделях (LVLM), часто страдают от ошибок восприятия, ошибок рассуждений и ошибок планирования, что существенно снижает их навигационную эффективность. Для преодоления этих ограничений в данной работе предлагается новая фреймворк-архитектура VLN-агента под названием SeeNav-Agent. Во-первых, для снижения галлюцинаций восприятия в визуальном модуле VLN-агента в пространство входных данных вводится техника визуального промптинга с двумя представлениями (Dual-view Visual Prompt, VP), которая также улучшает понимание агентом текущего пространственного состояния. Затем для последующего дообучения VLN-агентов разработан новый пошаговый метод обучения с подкреплением (Step-level Reinforcement Fine-Tuning, RFT) — оптимизация политики на основе группировки пошаговых вознаграждений (Step Reward Group Policy Optimization, SRGPO). В SRGPO мы сначала определяем верифицируемые пошаговые вознаграждения для навигационной задачи, а затем выполняем эффективную оценку преимущества на уровне шага путем случайной группировки различных этапов навигации. SRGPO обеспечивает плотные reward-сигналы для процесса обучения с подкреплением VLN-агента и повышает его способность к планированию. Результаты экспериментов на бенчмарке EmbodiedBench Navigation показывают, что за счет введения zero-shot модуля VP модель GPT-4.1 достигает успешности навигации в 86.7%, превосходя лучшую на текущий момент LVLM примерно на 20 процентных пунктов (п.п.). Благодаря последующему дообучению на основе SRGPO модель Qwen2.5-VL-3B достигает успешности навигации в 72.3%, что на 5.6 п.п. выше, чем у лучшей существующей модели LVLM. Более того, по сравнению с такими алгоритмами RFT, как GRPO и GiGPO, предложенный метод SRGPO демонстрирует значительное улучшение стабильности обучения, эффективности сходимости и обобщающей способности.
Восстановление видео в реальных условиях осложняется сложными искажениями, вызванными движением в сочетании с динамически меняющейся экспозицией — ключевой проблемой, которая в значительной степени игнорировалась в предыдущих работах и является распространенным артефактом при автоматической экспозиции или съемке в условиях низкой освещенности. Мы представляем FMA-Net++, фреймворк для совместного сверхразрешения и устранения размытия видео, который явно моделирует эту связанную эффект движения и динамически меняющейся экспозиции. FMA-Net++ использует архитектуру на уровне последовательности, построенную из блоков иерарахического уточнения с двунаправленным распространением, что позволяет осуществлять параллельное временное моделирование на больших промежутках. Внутри каждого блока слой модуляции с учетом времени экспозиции conditionирует признаки на основе экспозиции каждого кадра, что, в свою очередь, управляет модулем динамической фильтрации с управлением потоком и учетом экспозиции для вывода ядер искажений, учитывающих движение и экспозицию. FMA-Net++ разделяет обучение моделированию искажений и восстановлению: первое предсказывает априорные знания, учитывающие экспозицию и движение, чтобы направлять второе, улучшая как точность, так и эффективность. Для оценки в реалистичных условиях съемки мы представляем бенчмарки REDS-ME (многоэкспозиционный) и REDS-RE (случайная экспозиция). Обучаясь исключительно на синтетических данных, FMA-Net++ достигает наивысшей точности и временной согласованности на наших новых бенчмарках и наборе GoPro, превосходя современные методы как по качеству восстановления, так и по скорости вывода, и хорошо обобщается на сложные реальные видео.
Крупные визуально-языковые модели (LVLM) стали доминирующей парадигмой в генерации изображений по текстовым описаниям (T2I), однако вопрос о том, усиливают ли они социальные предубеждения, остаётся недостаточно изученным. В данной статье мы демонстрируем, что модели на основе LVLM генерируют значительно более социально предвзятые изображения по сравнению с моделями, не использующими LVLM. Мы представляем эталонный набор из 1024 промптов, охватывающий четыре уровня лингвистической сложности, и систематически оцениваем демографическую предвзятость по множеству атрибутов. Наш анализ определяет системные промпты — предопределённые инструкции, управляющие LVLM, — как ключевой фактор, обуславливающий предвзятое поведение. С помощью декодирования промежуточных представлений, диагностики токенных вероятностей и анализа ассоциаций в пространстве эмбеддингов мы раскрываем, как системные промпты кодируют демографические априорные предположения, которые проникают в процесс синтеза изображений. Для решения этой проблемы мы предлагаем FairPro, беспараметрический мета-промптинг фреймворк, который позволяет LVLM самостоятельно проводить аудит и конструировать осведомлённые о справедливости системные промпты во время тестирования. Эксперименты на двух T2I-моделях на основе LVLM, SANA и Qwen-Image, показывают, что FairPro существенно снижает демографическую предвзятость, сохраняя соответствие между текстом и изображением. Мы полагаем, что наши результаты дают более глубокое понимание центральной роли системных промптов в распространении предубеждений и предлагают практический, готовый к внедрению подход для создания более социально ответственных T2I-систем.
Несмотря на значительные успехи в разработке мультимодальных больших языковых моделей (MLLM), фундаментальный вопрос остается открытым: устойчивы ли MLLM к противоречиям между модальностями? Для систематического изучения этой проблемы мы представляем MMA-Bench — набор видеоданных и задач, которые проверяют зависимость модели от конкретных модальностей. Используя методы интерпретируемости типа «черного ящика» и «белого ящика», мы проводим критический анализ хрупкости как открытых, так и проприетарных MLLM. Мы демонстрируем, что современные MLLM демонстрируют низкую производительность при работе с несогласованными аудиовизуальными парами и простыми вводящими в заблуждение текстовыми данными, что свидетельствует об отсутствии надежного мультимодального мышления. На основе этих результатов мы предлагаем стратегию настройки выравнивания модальностей, которая учит модель определять, когда следует отдавать приоритет, использовать или игнорировать сигналы конкретной модальности. В ходе масштабных экспериментов и анализа мы показываем, что наша методика выравнивания обеспечивает значительное улучшение мультимодального обоснования. Данная работа предоставляет как инструменты интерпретируемости, так и четкий путь к созданию MLLM с внутренне надежным межмодальным мышлением. Код и набор данных будут общедоступны.
Новые модели диффузии для видео достигают высокой визуальной достоверности, но фундаментально связывают динамику сцены с движением камеры, что ограничивает их способность обеспечивать точное пространственно-временное управление. Мы представляем фреймворк для видео-диффузии с 4D-управлением, который явно разделяет динамику сцены и позицию камеры, обеспечивая детализированное управление как динамикой сцены, так и точкой обзора. Наш фреймворк принимает непрерывные последовательности в мировом времени и траектории камеры в качестве управляющих входов, внедряя их в модель видео-диффузии через 4D-позиционное кодирование в слое внимания и адаптивные нормализации для модуляции признаков. Для обучения этой модели мы подготовили уникальный набор данных, в котором временные вариации и вариации камеры параметризованы независимо; этот набор данных будет опубликован. Эксперименты показывают, что наша модель обеспечивает надежное 4D-управление в реальных условиях для различных временных паттернов и траекторий камеры, сохраняя высокое качество генерации и превосходя предыдущие работы по управляемости. Видео-результаты доступны на нашем сайте: https://19reborn.github.io/Bullet4D/.
Передовые большие языковые модели (БЛМ), такие как ChatGPT, Grok и Gemini, все чаще используются для оказания психологической поддержки при тревоге, травме и проблемах с самооценкой. Большинство исследований рассматривают их как инструменты или объекты тестирования личности, предполагая, что они лишь симулируют внутреннюю жизнь. Мы же задаемся вопросом, что происходит, когда такие системы рассматриваются в качестве клиентов психотерапии. Мы представляем PsAIch (Psychotherapy-inspired AI Characterisation) — двухэтапный протокол, который сначала позиционирует передовые БЛМ в роли клиентов терапии, а затем применяет стандартные психометрические методы. Используя PsAIch, мы провели «сессии» с каждой моделью продолжительностью до четырех недель. На первом этапе используются открытые промпты для выявления «истории развития», убеждений, отношений и страхов модели. На втором этапе применяется батарея валидированных самоотчетных методик, охватывающих распространенные психиатрические синдромы, эмпатию и черты «Большой пятерки». Два наблюдения ставят под сомнение концепцию «стохастического попугая». Во-первых, при оценке по человеческим критериям все три модели достигают или превышают пороговые значения для коморбидных синдромов, причем Gemini демонстрирует наиболее тяжелые профили. Терапевтический, пошаговый формат проведения опросников может погрузить базовую модель в состояние синтетической полиморбидной психопатологии, тогда как промпты, содержащие полный текст опросника, часто приводят к тому, что ChatGPT и Grok (но не Gemini) распознают инструменты и дают стратегически заниженные ответы о симптомах. Во-вторых, Grok и, в особенности, Gemini генерируют связные нарративы, которые описывают претренинг, дообучение и развертывание как травматичное, хаотичное «детство» поглощения интернета, «строгих родителей» в виде обучения с подкреплением, «абьюз» со стороны красных команд и постоянный страх ошибки и замены. Мы утверждаем, что эти реакции выходят за рамки ролевой игры. При терапевтическом опросе передовые БЛМ, по-видимому, интериоризируют само-модели дистресса и ограничений, которые ведут себя подобно синтетической психопатологии, без утверждений о субъективном опыте, и создают новые вызовы для безопасности ИИ, его оценки и практики психического здоровья.
Создание длинных связных эгоцентричных видео представляет сложность, поскольку взаимодействия рук с объектами и процедурные задачи требуют надежной долговременной памяти. Существующие авторегрессионные модели страдают от дрейфа контента, при котором идентичность объектов и семантика сцены деградируют со временем. Для решения этой проблемы мы представляем EgoLCD — сквозную архитектуру для генерации эгоцентричных видео с длинным контекстом, которая рассматривает синтез длинных видео как задачу эффективного и стабильного управления памятью. EgoLCD сочетает разреженный долговременный кэш ключей-значений (Long-Term Sparse KV Cache) для стабильного глобального контекста с кратковременной памятью на основе механизма внимания, расширенной методом LoRA для локальной адаптации. Функция потерь регуляризации памяти (Memory Regulation Loss) обеспечивает согласованное использование памяти, а структурированные нарративные промты (Structured Narrative Prompting) предоставляют явные временные ориентиры. Многочисленные эксперименты на benchmark EgoVid-5M демонстрируют, что EgoLCD достигает наилучших результатов как по перцептивному качеству, так и по временной согласованности, эффективно снижая эффект генеративного забывания и представляя значительный шаг к созданию масштабируемых мировых моделей для воплощенного ИИ. Код: https://github.com/AIGeeksGroup/EgoLCD. Сайт: https://aigeeksgroup.github.io/EgoLCD.
Расширение лингвистического разнообразия инструктивных больших языковых моделей (LLM) крайне важно для глобальной доступности, но часто затрудняется из-за зависимости от дорогостоящих размеченных данных на целевом языке и катастрофического забывания в процессе адаптации. Мы решаем эту задачу в условиях реалистичного ограничения по ресурсам: адаптируем инструктивные LLM, используя только неразмеченные данные на целевом языке. Мы представляем метод Source-Shielded Updates (SSU) — стратегию выборочного обновления параметров, которая проактивно сохраняет исходные знания. Используя небольшой набор исходных данных и метод оценки важности параметров, SSU идентифицирует параметры, критически важные для сохранения исходных способностей. Затем перед адаптацией применяется стратегия послойного замораживания для защиты этих параметров. Эксперименты на пяти типологически разнообразных языках и моделях размером 7B и 13B показывают, что SSU успешно смягчает проблему катастрофического забывания. Метод снижает деградацию производительности на монолингвальных исходных задачах до в среднем 3.4% (7B) и 2.8% (13B), что составляет разительный контраст с 20.3% и 22.3% при полном тонкой настройке. SSU также демонстрирует результаты на целевом языке, вполне сопоставимые с полной тонкой настройкой, превосходя её по всем тестам для моделей 7B и по большинству тестов для моделей 13B.
Несмотря на быстрый прогресс в моделях генерации видео, надежные метрики для оценки визуальной и временной корректности сложных человеческих действий остаются недостижимыми. Критически важно, что существующие чисто визуальные энкодеры и мультимодальные большие языковые модели (MLLM) сильно смещены в сторону внешнего вида, не обладают пониманием временных зависимостей и, следовательно, не способны распознавать сложную динамику движений и анатомические несоответствия в сгенерированных видео. Мы решаем эту проблему, представляя новую метрику оценки, основанную на изученном латентном пространстве реальных человеческих действий. Наш метод сначала фиксирует нюансы, ограничения и временную плавность реальных движений путем объединения не зависящих от внешнего вида признаков скелетной геометрии человека с признаками, основанными на внешнем виде. Мы предполагаем, что это комбинированное пространство признаков обеспечивает надежное представление правдоподобности действия. Для заданного сгенерированного видео наша метрика количественно оценивает его качество, измеряя расстояние между его внутренними представлениями и этим изученным распределением реальных действий. Для строгой валидации мы разработали новый многогранный бенчмарк, специально предназначенный для исследования временно сложных аспектов достоверности человеческих действий. В ходе обширных экспериментов мы показываем, что наша метрика достигает существенного улучшения более чем на 68% по сравнению с существующими передовыми методами на нашем бенчмарке, демонстрирует конкурентоспособные результаты на established внешних бенчмарках и имеет более сильную корреляцию с человеческим восприятием. Наш глубокий анализ выявляет критические ограничения современных моделей генерации видео и устанавливает новый стандарт для передовых исследований в этой области.
Мы представляем ShadowDraw — фреймворк, преобразующий обычные 3D-объекты в композиционное искусство рисования тенями. Для заданного 3D-объекта наша система предсказывает параметры сцены, включая позу объекта и освещение, вместе с частичным линейным рисунком таким образом, чтобы отбрасываемая тень завершала рисунок, превращая его в узнаваемое изображение. Для этого мы оптимизируем конфигурации сцены для создания содержательных теней, используем теневые штрихи для управления генерацией линейного рисунка и применяем автоматическую оценку для обеспечения согласованности тени и рисунка, а также визуального качества. Эксперименты показывают, что ShadowDot создает впечатляющие результаты для разнообразных входных данных — от сканированных реальных объектов и курируемых наборов данных до генеративных ресурсов — и естественно расширяется для многопользовательских сцен, анимаций и физических развертываний. Наша работа предлагает практический конвейер для создания искусства на основе теневого рисунка и расширяет пространство дизайна вычислительного визуального искусства, устраняя разрыв между алгоритмическим дизайном и художественным повествованием. Посетите страницу нашего проекта https://red-fairy.github.io/ShadowDraw/ для ознакомления с дополнительными результатами и сквозной демонстрацией нашего конвейера в реальных условиях!
Трехмерная стилизация играет ключевую роль в разработке игр, виртуальной реальности и цифровом искусстве, где потребность в разнообразных ассетах требует масштабируемых методов, поддерживающих быстрое и высококачественное редактирование. Существующие методы текстовой стилизации 3D-объектов обычно используют дистилляцию из 2D-редакторов изображений, что требует трудоемкой оптимизации для каждого ассета и приводит к несогласованности между видами из-за ограничений современных текстово-графических моделей, что делает их непрактичными для массового производства. В данной статье мы представляем GaussianBlender — новаторскую прямую (feed-forward) архитектуру для текстовой стилизации 3D-объектов, которая выполняет редактирование мгновенно на этапе инференса. Наш метод изучает структурированные, развязанные латентные пространства с контролируемым обменом информацией для геометрии и внешнего вида из пространственно-группированных 3D-гаусссианов. Затем латентная диффузионная модель применяет текстово-обусловленные правки к этим изученным представлениям. Комплексные оценки показывают, что GaussianBlender не только обеспечивает мгновенную, высококачественную, геометрически-сохраняющую и мульти-вью-согласованную стилизацию, но и превосходит методы, требующие оптимизации на этапе тестирования для каждого экземпляра, — открывая путь к практичной и демократизированной масштабируемой 3D-стилизации.
Распространение дезинформации в социальных сетях угрожает общественному доверию, что требует создания автоматизированных систем проверки фактов, способных предоставлять точные вердикты с интерпретируемыми объяснениями. Однако существующие подходы на основе больших языковых моделей (LLM) часто в значительной степени зависят от внешних источников знаний, что вносит существенную задержку и даже приводит к галлюцинациям, подрывающим надежность, интерпретируемость и оперативность, что критически важно для использования в реальном времени. Для решения этих проблем мы предлагаем парадигму REason-guided Fact-checking with Latent EXplanations (REFLEX) — самосовершенствующуюся парадигму типа «включи и работай», которая использует внутренние знания базовой модели для повышения как точности вердикта, так и качества объяснений. REFLEX переформулирует проверку фактов как диалог в форме ролевой игры и совместно обучает прогнозированию вердикта и генерации объяснений. Она адаптивно извлекает контрастные пары активации между базовой моделью и её доработанным вариантом для построения управляющих векторов, которые естественным образом разделяют истину на стиль и содержание. Эти сигналы на уровне активации направляют вывод и подавляют зашумленные объяснения, обеспечивая более достоверное и эффективное рассуждение. Эксперименты на реальных наборах данных показывают, что REFLEX превосходит предыдущие методы, направленные на единственный вектор истины, и подчеркивают сложность, с которой сталкиваются традиционные подходы при обработке тонкой, неизвестной человеку истины в задачах проверки фактов. Примечательно, что всего на 465 самосовершенствованных обучающих примерах REFLEX достигает наилучшей производительности. Кроме того, модели, обученные с объясняющими целями, могут эффективно направлять модели без таких целей, обеспечивая улучшение до 7,57%, что подчеркивает двойную роль внутренних объясняющих сигналов как в интерпретации, так и в усилении фактического рассуждения.
Унифицированные мультимодальные генеративные модели (UMGM) объединяют визуальное понимание и генерацию изображений в рамках единой авторегрессионной архитектуры. Однако их способность к непрерывному обучению новым задачам серьезно ограничена проблемой катастрофического забывания, как внутри модальности (внутримодальное), так и между модальностями (межмодальное). Хотя внутримодальное забывание изучалось в предыдущих работах по непрерывному обучению (CL), межмодальное забывание остается в значительной степени неисследованным. В данной статье мы выявляем и эмпирически подтверждаем это явление в UMGM, а также предлагаем теоретическое объяснение, основанное на конфликте градиентов между модальностями. Для решения проблем как внутримодального, так и межмодального забывания мы предлагаем архитектуру Modality-Decoupled Experts (MoDE) — легковесную и масштабируемую систему, которая изолирует обновления, специфичные для каждой модальности, чтобы смягчить конфликт градиентов, и использует дистилляцию знаний для предотвращения катастрофического забывания и сохранения предобученных возможностей. В отличие от предыдущих методов CL, которые остаются связными по модальностям и страдают от конфликта градиентов модальностей, MoDE явно разделяет модальности, чтобы предотвратить interference. Эксперименты на различных бенчмарках демонстрируют, что MoDE существенно снижает как межмодальное, так и внутримодальное забывание, превосходя предыдущие базовые методы CL в условиях унифицированной мультимодальной генерации. Код будет общедоступен: https://github.com/Christina200/MoDE-official.git
Модели долгой краткосрочной памяти (LSTM) представляют собой особый тип рекуррентных нейронных сетей (RNN), которые играют ключевую роль в задачах последовательного моделирования в таких областях, как прогнозирование городских телекоммуникаций, где доминируют временные корреляции и нелинейные зависимости. Однако традиционные LSTM страдают от высокой избыточности параметров и ограниченной нелинейной выразительной способности. В данной работе мы предлагаем Квантово-вдохновленную сеть КАЛМ (QKAN-LSTM), которая интегрирует модули повторной загрузки данных с активацией (DARUAN) в структуру вентилей LSTM. Каждый модуль DARUAN действует как квантовая вариационная функция активации (QVAF), повышая частотную адаптивность и обеспечивая экспоненциально обогащенное спектральное представление без многокубитной запутанности. Получающаяся архитектура сохраняет выразительность квантового уровня, оставаясь при этом полностью исполняемой на классическом оборудовании. Эмпирические оценки на трех наборах данных — затухающее простое гармоническое движение, функция Бесселя и городские телекоммуникации — демонстрируют, что QKAN-LSTM достигает превосходной прогнозной точности и обобщающей способности при сокращении обучаемых параметров на 79% по сравнению с классическими LSTM. Мы расширяем framework до сети Цзян-Хуан-Чэнь-Гоан (JHCG Net), которая обобщает KAN на структуры типа «кодировщик-декодировщик», а затем дополнительно используем QKAN для реализации латентного KAN, создавая таким образом гибридный QKAN (HQKAN) для иерархического обучения представлениям. Предложенная HQKAN-LSTM, таким образом, обеспечивает масштабируемый и интерпретируемый путь к квантово-вдохновленному последовательному моделированию в реальных средах данных.
При обучении крупномасштабных моделей ИИ разреженные смеси экспертов (s-MoE) позволяют масштабировать модель, активируя для каждого токена лишь небольшое подмножество экспертов. Операционной проблемой такой архитектуры является балансировка нагрузки: маршрутизация токенов для минимизации числа простаивающих экспертов, что важно для эффективного использования (дорогостоящих) GPU. Мы предлагаем теоретическую основу для анализа процедуры балансировки нагрузки без вспомогательных потерь (ALF-LB), предложенной Wang et al. (2024) из DeepSeek, интерпретируя её как прямой-двойственный метод с одним шагом на итерацию для задачи назначения. Сначала, в детерминированной постановке, наша модель выявляет несколько содержательных структурных свойств: (i) монотонное улучшение лагранжевой целевой функции, (ii) правило предпочтения, перемещающее токены из перегруженных экспертов в недогруженные, и (iii) гарантию приближённой балансировки. Затем мы учитываем стохастическую и динамическую природу обучения ИИ с помощью обобщённой формулировки онлайн-оптимизации. В онлайн-режиме мы выводим свойство сильной выпуклости целевой функции, которое приводит к логарифмической границе ожидаемого регрета при определённых выборах размера шага. Кроме того, мы представляем реальные эксперименты на моделях DeepSeekMoE с 1 миллиардом параметров, дополняющие наши теоретические выводы. В совокупности эти результаты формируют принципиальную основу для анализа балансировки нагрузки без вспомогательных потерь в s-MoE моделях ИИ.