Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Wan-Move — простую и масштабируемую платформу, которая добавляет управление движением в модели генерации видео. Существующие методы управления движением обычно страдают от грубой гранулярности контроля и ограниченной масштабируемости, что делает их результаты непригодными для практического использования. Мы сокращаем этот разрыв, достигая точного и высококачественного управления движением. Наша ключевая идея заключается в том, чтобы напрямую наделить исходные признаковые условия осведомленностью о движении для управления синтезом видео. Для этого мы сначала представляем движения объектов с помощью плотных точечных траекторий, что позволяет осуществлять детализированный контроль над сценой. Затем мы проецируем эти траектории в латентное пространство и распространяем признаки первого кадра вдоль каждой траектории, создавая выровненную пространственно-временную карту признаков, которая указывает, как должен двигаться каждый элемент сцены. Эта карта признаков служит обновленным латентным условием, которое естественным образом интегрируется в готовую модель «изображение-в-видео» (например, Wan-I2V-14B) в качестве управления движением без каких-либо изменений архитектуры. Это устраняет необходимость во вспомогательных кодировщиках движения и позволяет легко масштабировать дообучение базовых моделей. Благодаря масштабированному обучению Wan-Move генерирует 5-секундные видео в разрешении 480p, чья управляемость движением, согласно пользовательским исследованиям, сопоставима с коммерческим инструментом Motion Brush от Kling 1.5 Pro. Для поддержки всесторонней оценки мы дополнительно разработали MoveBench — тщательно подобранный бенчмарк, отличающийся разнообразными категориями контента и гибридно-верифицированными аннотациями. Его отличительными чертами являются больший объем данных, более длительная продолжительность видео и высококачественные аннотации движений. Многочисленные эксперименты на MoveBench и публичном наборе данных последовательно демонстрируют превосходное качество движения Wan-Move. Код, модели и данные бенчмарка находятся в открытом доступе.
Нейральный рендеринг, в частности метод трёхмерного гауссова размытия (3DGS), быстро развивается и становится ключевым компонентом для построения мировых моделей. Однако существующие решения для просмотра остаются фрагментированными, громоздкими или ограниченными устаревшими конвейерами, что приводит к высоким затратам на развёртывание и ограниченной поддержке динамического контента и генеративных моделей. В данной работе мы представляем Visionary — открытую, веб-ориентированную платформу для рендеринга различных вариантов гауссова размытия и полигональных сеток в реальном времени. Построенная на эффективном рендерере WebGPU с покадровым выводом ONNX, платформа позволяет осуществлять динамическую нейронную обработку, сохраняя при этом лёгкий, запускаемый одним щелчком мыши интерфейс в браузере. Она вводит стандартизированный контракт Gaussian Generator, который не только поддерживает стандартный рендеринг 3DGS, но и позволяет подключаемым алгоритмам генерировать или обновлять гауссовы распределения каждый кадр. Такая архитектура вывода также позволяет применять прямую генеративную постобработку. Платформа дополнительно предлагает плагин-библиотеку для three.js с лаконичным TypeScript API для бесшовной интеграции в существующие веб-приложения. Эксперименты показывают, что при работе с идентичными ресурсами 3DGS Visionary демонстрирует превосходную эффективность рендеринга по сравнению с текущими веб-вьюерами благодаря GPU-ускоренной сортировке примитивов. Платформа уже поддерживает множество вариантов, включая 3DGS на основе MLP, 4DGS, нейральные аватары, а также сети для стилевой трансформации и улучшения. Объединяя вывод и рендеринг непосредственно в браузере, Visionary существенно снижает барьер для воспроизведения, сравнения и развёртывания методов семейства 3DGS, выступая в качестве универсального носителя мировой модели как для реконструктивных, так и для генеративных парадигм.
Замена лиц в видео играет ключевую роль в кинопроизводстве и индустрии развлечений, однако достижение высокой точности и временной согласованности в длинных и сложных видеопоследовательностях остается серьезной проблемой. Вдохновленные последними достижениями в редактировании изображений с управлением по референсу, мы исследуем возможность аналогичного использования богатых визуальных атрибутов исходных видео для улучшения как точности, так и временной согласованности при замене лиц. На основе этого подхода представлена модель LivingSwap — первая система замены лиц в видео с управлением по видеореференсу. Наш метод использует ключевые кадры в качестве управляющих сигналов для внедрения целевой идентичности, обеспечивая гибкое и контролируемое редактирование. Комбинируя conditioning по ключевым кадрам с управлением по видеореференсу, модель выполняет временное сшивание для обеспечения стабильного сохранения идентичности и высокоточной реконструкции в длинных видеопоследовательностях. Для решения проблемы нехватки данных для обучения с управлением по референсу мы создали парный датасет для замены лиц Face2Face и дополнительно инвертировали пары данных для обеспечения надежного ground-truth контроля. Многочисленные эксперименты демонстрируют, что наш метод достигает state-of-the-art результатов, бесшовно интегрируя целевую идентичность с выражением лица, освещением и движением исходного видео, одновременно значительно сокращая ручной труд в производственных процессах. Страница проекта: https://aim-uofa.github.io/LivingSwap
Повествование в реальных видеороликах часто разворачивается через множество кадров — дискретных, но семантически связанных клипов, которые вместе передают связную историю. Однако существующие методы генерации многокадрового видео (МКВ) сталкиваются с трудностями при эффективном моделировании контекста между кадрами на больших промежутках, поскольку они полагаются на ограниченные временные окна или условие от одного ключевого кадра, что приводит к снижению производительности при сложных сюжетах. В данной работе мы предлагаем OneStory, который обеспечивает глобальное, но компактное моделирование межкадрового контекста для согласованной и масштабируемой генерации повествования. OneStory переформулирует задачу МКВ как задачу генерации следующего кадра, позволяя осуществлять авторегрессионный синтез кадров с использованием предобученных моделей «изображение-в-видео» для сильного визуального обусловливания. Мы вводим два ключевых модуля: модуль выбора кадров, который строит семантически релевантную глобальную память на основе информативных кадров из предыдущих сцен, и адаптивный модуль обусловливания, который выполняет важностно-ориентированную пачфикацию для генерации компактного контекста для прямого обусловливания. Дополнительно мы создали высококачественный многокадровый датасет с референциальными описаниями, отражающий паттерны повествования из реального мира, и разработали эффективные стратегии обучения в рамках парадигмы «следующий кадр». OneStory, дообученный на нашем датасете из 60 тыс. примеров на основе предобученной I2V-модели, демонстрирует наилучшую согласованность повествования в разнообразных и сложных сценах как в текстовых, так и в изображенческих условиях, обеспечивая контролируемое и иммерсивное создание длинных видео-историй.
Масштабирование вычислений на этапе вывода позволило большим языковым моделям (LLM) достичь высоких показателей в рассуждениях, однако изначально последовательный характер декодирования приводит к значительным задержкам, особенно при решении сложных задач. Современные исследования в области адаптивного параллельного рассуждения направлены на повышение эффективности вывода за счет декомпозиции процесса решения проблемы на параллельные потоки рассуждений, когда это целесообразно. Однако существующие методы для реалистичных задач либо ограничиваются обучением с подкреплением на основе поведенческого клонирования, либо демонстрируют значительное падение точности по сравнению с широко используемыми последовательными базовыми подходами типа длинной цепочки мыслей (CoT). Кроме того, многие из них требуют использования специализированных механизмов вывода, что усложняет развертывание. Мы представляем ThreadWeaver — фреймворк для адаптивного параллельного рассуждения, который обеспечивает точность на уровне популярных последовательных моделей рассуждений сопоставимого размера, при этом значительно сокращая задержку вывода. Производительность ThreadWeaver обусловлена тремя ключевыми инновациями: 1) двухэтапный генератор параллельных траекторий, который создает масштабируемые высококачественные данные CoT с параллельной разметкой для контролируемой тонкой настройки; 2) совместная разработка обучения и вывода на основе префиксного дерева (trie), которая позволяет осуществлять параллельное рассуждение на любом стандартном авторегрессионном механизме вывода без модификации позиционных эмбеддингов или KV-кэшей; и 3) фреймворк обучения с подкреплением, учитывающий параллелизацию, который учит модель балансировать между точностью и эффективностью распараллеливания. На шести сложных benchmarks математических рассуждений ThreadWeaver, дообученный на основе Qwen3-8B, демонстрирует точность, сопоставимую с передовыми последовательными моделями рассуждений (в среднем 71.9% и 79.9% на AIME24), обеспечивая при этом до 1.53x ускорение средней задержки на токен, что устанавливает новый парето-фронтир между точностью и эффективностью.
Сегментация экземпляров на видео (Video Instance Segmentation, VIS) сталкивается со значительными проблемами аннотирования из-за двойных требований к маскам на уровне пикселей и меткам временной согласованности. Хотя современные неконтролируемые методы, такие как VideoCutLER, устраняют зависимость от оптического потока с помощью синтетических данных, они остаются ограниченными разрывом между синтетическим и реальным доменами. Мы представляем AutoQ-VIS — новую неконтролируемую архитектуру, которая преодолевает этот разрыв с помощью самообучения, управляемого качеством. Наш подход создает замкнутую систему между генерацией псевдометок и автоматической оценкой качества, обеспечивая прогрессивную адаптацию от синтетических к реальным видео. Эксперименты демонстрируют наилучшие результаты с показателем 52.6 AP_{50} на наборе YouTubeVIS-2019 val, превосходя предыдущий state-of-the-art метод VideoCutLER на 4.4%, при этом не требуя человеческих аннотаций. Это подтверждает жизнеспособность самообучения с учетом качества для неконтролируемой VIS. Код будет доступен по адресу https://github.com/wcbup/AutoQ-VIS.
Современные большие языковые модели демонстрируют впечатляющие способности к рассуждениям с использованием длинных цепочек мыслей, однако это сопряжено со значительными вычислительными затратами на этапе вывода, что мотивирует разработку методов для улучшения соотношения производительности и стоимости. Среди таких методов, Спекулятивное Декодирование ускоряет вывод, используя быструю, но неточную черновую модель для авторегрессионного предложения токенов, которые затем параллельно проверяются более мощной целевой моделью. Однако из-за избыточных отклонений, вызванных несовпадением токенов на семантически эквивалентных шагах, традиционное спекулятивное декодирование на уровне токенов плохо справляется с задачами рассуждений. Хотя в последних работах произошел переход к семантической проверке на уровне шагов, которая повышает эффективность, принимая или отклоняя целые шаги рассуждения, существующие методы уровня шагов все равно перегенерируют множество отклоненных шагов с незначительным улучшением, растрачивая ценные ресурсы целевой модели. Для решения этой проблемы мы предлагаем Arbitrage — новую структуру спекулятивного генерации на уровне шагов, которая динамически направляет генерацию на основе относительного преимущества между черновой и целевой моделями. Вместо применения фиксированного порога принятия, Arbitrage использует легковесный маршрутизатор, обученный предсказывать, когда целевая модель с высокой вероятностью произведет смыслово лучший шаг. Такая маршрутизация аппроксимирует идеальный Арбитражный Оракул, который всегда выбирает шаг более высокого качества, достигая почти оптимального баланса между эффективностью и точностью. На множестве benchmarks математических рассуждений Arbitrage стабильно превосходит предыдущие базовые методы спекулятивного декодирования уровня шагов, сокращая задержку вывода до приблизительно 2 раз при сохранении точности.
Обучение с подражанием в физическом мире ограничено дефицитом разнообразных данных о роботизированных манипуляциях с длительным горизонтом. Существующие модели генерации видео в этой области способны синтезировать лишь короткие клипы простых действий и часто опираются на заданные вручную траектории. Для решения этой проблемы мы представляем MIND-V — иерархическую структуру, предназначенную для синтеза физически правдоподобных и логически согласованных видео роботизированных манипуляций с длительным горизонтом. Вдохновлённая когнитивной наукой, MIND-V объединяет высокоуровневое планирование с пиксельным синтезом через три ключевых компонента: Семантический центр рассуждений (SRH), использующий предварительно обученную визуально-языковую модель для планирования задач; Поведенческий семантический мост (BSB), переводящий абстрактные инструкции в инвариантные к домену представления; и Моторный генератор видео (MVG) для условного рендеринга видео. MIND-V применяет поэтапные визуальные прогнозы будущего — стратегию оптимизации на этапе тестирования для повышения устойчивости при длительном горизонте. Для согласования генерируемых видео с физическими законами мы вводим пост-тренировочную фазу подкреплённого обучения GRPO, направляемую новой наградой за физическую предсказуемость (PFC). PFC использует мировую модель V-JEPA для обеспечения физической правдоподобности путём выравнивания предсказанной и фактической динамической эволюции в пространстве признаков. MIND-V демонстрирует передовые результаты в генерации видео роботизированных манипуляций с длительным горизонтом, устанавливая масштабируемую и управляемую парадигму для синтеза данных в физическом мире.
Мультимодальные большие языковые модели (MБЯМ) должны совместно интерпретировать визуальную информацию, аудио и язык, однако существующие видео-бенчмарки редко оценивают детализированные рассуждения о человеческой речи. Многие задачи остаются решаемыми на основе визуальных данных или лишь грубо оценивают речь, что даёт ограниченное представление о способности моделей соотносить того, кто говорит, что сказано и когда это происходит. Мы представляем AV-SpeakerBench — тщательно отобранный бенчмарк из 3212 вопросов с множественным выбором, сфокусированный на спикер-центричном аудиовизуальном анализе в реальных видео. Его особенности: (1) спикер-ориентированная формулировка, где основным объектом анализа являются говорящие, а не сцены; (2) дизайн вопросов, основанный на слиянии модальностей, встраивающий аудиовизуальные зависимости в семантику вопросов; и (3) экспертные аннотации, обеспечивающие временную точность и кросс-модальную достоверность. Комплексные оценки показывают, что семейство моделей Gemini стабильно превосходит открытые системы, причём Gemini 2.5 Pro демонстрирует наилучшие результаты. Среди открытых моделей Qwen3-Omni-30B приближается к Gemini 2.0 Flash, но значительно уступает Gemini 2.5 Pro, в основном из-за более слабого аудиовизуального слияния, а не визуального восприятия. Мы считаем, что AV-SpeakerBench закладывает строгую основу для развития детализированного аудиовизуального анализа в будущих мультимодальных системах.
Последние достижения в области больших языковых моделей (LLМ) привели к появлению мощных кодирующих агентов, что позволило ассистентам по коду эволюционировать в инженеров по коду. Однако существующие методы по-прежнему сталкиваются со значительными трудностями в достижении высокоточной синтеза кодовой базы из документации — например, преобразования научных статей в код — в основном из-за фундаментального конфликта между информационной перегрузкой и контекстными ограничениями LLМ. В данной работе мы представляем DeepCode, полностью автономный фреймворк, который принципиально решает эту проблему за счёт управления информационными потоками на системной основе. Рассматривая синтез репозитория как проблему оптимизации канала, DeepCode органично сочетает четыре информационные операции для максимизации релевантных задаче сигналов при ограниченном контекстном бюджете: сжатие исходных данных через дистилляцию blueprint-ов, структурированное индексирование с использованием stateful code memory, условное внедрение знаний посредством retrieval-augmented generation и замкнутую коррекцию ошибок. Обширные оценки на бенчмарке PaperBench демонстрируют, что DeepCode достигает наилучшей производительности, значительно превосходя ведущие коммерческие агенты, такие как Cursor и Claude Code, и, что ключевым образом, превосходя экспертов-людей уровня PhD из ведущих институтов по ключевым метрикам воспроизведения. Систематически преобразуя спецификации из статей в реализации производственного уровня, сопоставимые по качеству с работами экспертов-людей, данная работа закладывает новые основы для автономного научного воспроизведения, способного ускорить оценку исследований и научные открытия.
Доработка моделей методом обучения с подкреплением (ОП) играет ключевую роль в согласовании генеративных моделей с человеческими предпочтениями, однако запредельные вычислительные затраты остаются главным препятствием для их широкого внедрения. Мы представляем TreeGRPO — новую структуру ОП, которая кардинально повышает эффективность обучения, переосмысливая процесс удаления шума как поисковое дерево. Исходя из общих начальных зашумленных сэмплов, TreeGRPO стратегически ветвится, генерируя множество кандидатных траекторий, при этом эффективно повторно используя их общие префиксы. Этот древовидный подход дает три ключевых преимущества: (1) Высокая эффективность использования сэмплов, достигающая лучших результатов при том же объеме обучающих данных; (2) Точное распределение заслуг через обратное распространение вознаграждения, которое вычисляет преимущества для конкретных шагов, преодолевая ограничение равномерного распределения заслуг в методах, основанных на траекториях; и (3) Усреднение вычислений, при котором ветвление с множеством потомков позволяет выполнять несколько обновлений политики за один прямой проход. Многочисленные эксперименты на диффузионных и flow-моделях демонстрируют, что TreeGRPO обеспечивает ускорение обучения в 2,4 раза, одновременно устанавливая превосходящий парето-фронт в пространстве компромисса между эффективностью и вознаграждением. Наш метод стабильно превосходит базовые алгоритмы GRPO в различных тестах и моделях вознаграждения, предлагая масштабируемый и эффективный путь для согласования визуальных генеративных моделей на основе ОП. Сайт проекта доступен по адресу treegrpo.github.io.
В данной статье представлена модульная нейросетевая система обработки изображений (ISP), которая обрабатывает исходные RAW-данные и формирует высококачественные изображения, готовые к отображению. В отличие от предыдущих нейросетевых ISP-решений, наш метод обеспечивает высокую степень модульности, предоставляя полный контроль над множеством промежуточных этапов процесса формирования изображения. Такая модульная архитектура не только достигает высокой точности рендеринга, но также улучшает масштабируемость, удобство отладки, способность к обобщению для незнакомых камер и гибкость настройки под различные стили, соответствующие пользовательским предпочтениям. Для демонстрации преимуществ данного подхода мы разработали интерактивный инструмент фоторедактирования, использующий нашу нейросетевую ISP-систему для поддержки разнообразных операций редактирования и фотографических стилей. Инструмент тщательно спроектирован для максимального использования преимуществ высококачественного рендеринга нашей нейросетевой ISP-системы и обеспечения неограниченной возможности повторного редактирования. Наш метод представляет собой полностью обучаемую архитектуру с вариантами различной производительности, все умеренного размера (от ~0,5 млн до ~3,9 млн параметров для всего конвейера), и стабильно демонстрирует конкурентоспособные качественные и количественные результаты на множестве тестовых наборов. Смотрите дополнительное видео по ссылке: https://youtu.be/ByhQjQSjxVM
Крупные языковые модели (LLM) демонстрируют превосходные способности к генерации, однако доминирующее авторегрессионное (AR) декодирование по своей природе является последовательным, что создает узкое место в пропускной способности. Диффузионные языковые модели (DLM), особенно их блочные варианты, позволяют осуществлять параллельную генерацию и двунаправленное рассуждение внутри блока, однако обучение больших DLM с нуля является дорогостоящим и расточительным по отношению к знаниям, содержащимся в зрелых AR-чеках. Предыдущие попытки "адаптации" либо модифицировали логиты или случайным образом расширяли маски внимания до полнопоследовательной диффузии, либо просто переносили AR-веса в рецепт блочной диффузии, не решая фундаментального несоответствия между AR-причинностью и блочной двунаправленностью. Мы переосмысливаем адаптацию как внутрипарадигмальный путь от AR к блочной диффузии, рассматривая AR как частный случай блочной диффузии с размером блока = 1. Конкретно, мы разрабатываем путь адаптации следующим образом: используем контекстно-каузальную маску внимания (каузальную в контексте, двунаправленную только внутри активного блока), эффективную процедуру параллельной адаптации, вспомогательную AR-функцию потерь для максимизации использования данных и сохранения предобученных знаний, а также постепенное увеличение размера блока генерации. Данный рецепт органично интегрируется с маскированной блочной диффузией и сохраняет согласованность обучения и вывода. Построенные на этих компонентах модели NBDiff-7B (Base и Instruct) смогли унаследовать способности к моделированию длинного контекста и логическому рассуждению, достигли наилучшей производительности в классе 7B-параметрических DLM и показали значительный прирост на бенчмарках общего знания, математики и кода по сравнению с сильными базовыми моделями. Эти результаты демонстрируют, что принципиальная адаптация от AR к блочной диффузии является эффективной и вычислительно экономной альтернативой обучению DLM с нуля. Код: https://github.com/YuchuanTian/NBDiff.
Понимание и реконструкция сложной геометрии и движения динамических сцен из видеопоследовательностей остается серьезной проблемой в компьютерном зрении. В данной статье представлена модель D4RT — простая, но мощная прямоточная модель, разработанная для эффективного решения этой задачи. D4RT использует унифицированную трансформерную архитектуру для совместного вывода глубины, пространственно-временных соответствий и полных параметров камеры из одного видео. Её ключевым нововведением является новый механизм запросов, который позволяет обойти сложные вычисления, связанные с плотным декодированием для каждого кадра, и сложность управления несколькими декодерами для конкретных задач. Наш интерфейс декодирования позволяет модели независимо и гибко исследовать 3D-положение любой точки в пространстве и времени. В результате получается легковесный и высокомасштабируемый метод, обеспечивающий исключительно эффективные обучение и вывод. Мы демонстрируем, что наш подход устанавливает новый state-of-the-art, превосходя предыдущие методы в широком спектре задач 4D-реконструкции. Анимированные результаты доступны на странице проекта: https://d4rt-paper.github.io/.
Хотя недавние крупные визуально-языковые модели (VLM) улучшили обобщающую способность в навигации на основе зрения и языка (VLN), существующие методы обычно полагаются на сквозные конвейеры, которые напрямую отображают визуально-языковые входные данные в краткосрочные дискретные действия. Такие подходы часто приводят к фрагментированным движениям, создают высокую задержку и плохо справляются с реальными проблемами, такими как избегание динамических препятствий. Мы предлагаем DualVLN — первую базовую модель VLN с двухсистемной архитектурой, которая синергетически интегрирует высокоуровневое планирование с низкоуровневым выполнением действий. Система 2, глобальный планировщик на основе VLM, «медленно осмысливает» окружение, предсказывая среднесрочные целевые точки маршрута с помощью визуально-обоснованных рассуждений. Система 1, легковесная политика на основе диффузионного трансформера с мультимодальным условием, «движется быстро», используя как явные пиксельные цели, так и латентные признаки от Системы 2 для генерации плавных и точных траекторий. Двухсистемный дизайн обеспечивает надежное управление в реальном времени и адаптивное локальное принятие решений в сложных динамических средах. Благодаря раздельному обучению VLM сохраняет свою обобщающую способность, а Система 1 достигает интерпретируемой и эффективной локальной навигации. DualVLN превосходит предыдущие методы во всех тестах VLN, а эксперименты в реальном мире демонстрируют надежное долгосрочное планирование и адаптивность в динамических средах в реальном времени.
Фундаментальные агенты быстро развивают способности к рассуждениям и взаимодействию с реальными средами, что делает оценку их ключевых компетенций все более важной. Хотя было разработано множество бенчмарков для оценки производительности агентов, большинство из них сосредоточены на академических условиях или искусственно созданных сценариях, игнорируя проблемы, возникающие в реальных приложениях. Для решения этой проблемы мы фокусируемся на высокопрактичной реальной области — электронной коммерции, которая предполагает большой объем разнообразных пользовательских взаимодействий, динамичные рыночные условия и задачи, непосредственно связанные с реальными процессами принятия решений. С этой целью мы представляем EcomBench — целостный бенчмарк для электронной коммерции, предназначенный для оценки производительности агентов в реалистичных условиях электронной торговли. EcomBench построен на основе подлинных пользовательских запросов, встроенных в ведущие глобальные экосистемы электронной коммерции, и тщательно отобран и аннотирован экспертами для обеспечения ясности, точности и релевантности предметной области. Он охватывает несколько категорий задач в сценариях электронной коммерции и определяет три уровня сложности, оценивающие ключевые способности агентов, такие как глубокий информационный поиск, многошаговые рассуждения и интеграция знаний из различных источников. Основывая оценку на реальных контекстах электронной коммерции, EcomBench предоставляет строгую и динамичную тестовую среду для измерения практических возможностей агентов в современных условиях электронной торговли.
Крупные модели рассуждений демонстрируют высокую производительность на сложных задачах, генерируя развернутые цепочки мыслей, однако они часто «передумывают»: продолжают рассуждать еще долго после того, как у них уже достаточно информации для правильного ответа. Это приводит к неэффективным вычислительным затратам на этапе вывода и может снижать точность. Существующие попытки досрочной остановки либо манипулируют декодированием с помощью дополнительной выборки и эвристик, либо полагаются на вспомогательные модели-верификаторы, либо работают лишь как пассивные аналитические конвейеры без формальных гарантий. Мы представляем LYNX — механизм онлайн досрочного выхода, который превращает внутреннее осознание модели, основанное на ее скрытых состояниях, в решения об остановке, контролируемые уверенностью. LYNX привязывает решения о выходе к естественным сигналам рассуждения (например, «хм», «подождите») в процессе генерации, обучает легковесный пробник на скрытых состояниях в позициях этих сигналов, используя супервизию от принудительных выходов, и оборачивает полученные оценки в split conformal prediction для получения свободного от распределения контроля над преждевременными выходами. Ключевым моментом является то, что мы обучаем и калибруем этот пробник один раз на общем математическом корпусе и повторно используем его без изменений на различных бенчмарках, при разных температурах декодирования и даже на нематематических задачах. Для трех семейств моделей объемом от 1.5 до 32 миллиардов параметров, один математически обученный пробник на базовую модель обеспечивает выгодный компромисс между точностью и эффективностью. На GSM8K LYNX сохраняет или улучшает точность базового уровня, сокращая количество токенов на 40–65%; на MATH-500 он повышает точность до 12 процентных пунктов при сокращении токенов примерно на 35–60%; на AIME 2024 он восстанавливает базовую точность с экономией более 50% токенов; а на CommonsenseQA, нематематическом бенчмарке, он передается zero-shot с небольшим приростом точности и до 70% сокращением токенов. По сравнению с современными методами досрочного выхода, LYNX предлагает конкурентоспособные или превосходящие Парето-границы, оставаясь полностью онлайн-методом, не требующим прокси-моделей на этапе вывода и предоставляя явные, настраиваемые пользователем гарантии уверенности.
Монокулярное 3D-отслеживание ставит целью захват долговременного движения пикселей в трехмерном пространстве по одному монокулярному видео и демонстрирует быстрый прогресс в последние годы. Однако мы полагаем, что существующие методы монокулярного 3D-отслеживания все еще не способны адекватно отделить движение камеры от динамического движения переднего плана и не могут плотно отслеживать вновь появляющиеся динамические объекты в видео. Для устранения этих двух ограничений мы предлагаем TrackingWorld — новый конвейер для плотного 3D-отслеживания практически всех пикселей в мироцентричной системе 3D-координат. Во-первых, мы вводим апсемплер отслеживания, который эффективно преобразует произвольные разреженные 2D-треки в плотные 2D-треки. Затем, чтобы обобщить существующие методы отслеживания на вновь появляющиеся объекты, мы применяем апсемплер ко всем кадрам и уменьшаем избыточность 2D-треков, устраняя треки в перекрывающихся областях. Наконец, мы представляем эффективную оптимизационную framework для обратного проецирования плотных 2D-треков в мироцентричные 3D-траектории путем оценки поз камеры и 3D-координат этих 2D-треков. Обширные оценки на синтетических и реальных наборах данных показывают, что наша система достигает точного и плотного 3D-отслеживания в мироцентричной системе координат.
Опухоли головного мозга представляют серьезную угрозу для жизни человека, поэтому крайне важно точно выявлять их на ранних стадиях для улучшения диагностики и лечения. Радиологи могут выявлять опухоли головного мозга вручную по МРТ-снимкам пациентов. Однако в последние годы заболеваемость опухолями мозга среди детей и подростков возросла, что привело к значительному увеличению объема данных, и, как следствие, ручное выявление стало трудоемким и сложным. С появлением искусственного интеллекта в современном мире и его широким применением в медицинской области мы можем предложить подход к системе КАД (компьютерная aided diagnosis) для автоматического раннего выявления опухолей головного мозга. Все существующие модели для этой задачи не являются полностью обобщаемыми и показывают низкую производительность на валидационных данных. Поэтому мы предложили две новые архитектуры глубокого обучения: (a) SAETCN (Self-Attention Enhancement Tumor Classification Network) для классификации различных типов опухолей головного мозга. Мы достигли точности 99,38% на валидационном наборе данных, что делает ее одной из немногих новых архитектур на основе глубокого обучения, способных точно обнаруживать опухоли головного мозга. Мы обучили модель на наборе данных, содержащем изображения трех типов опухолей (глиомы, менингиомы и опухоли гипофиза) и случаи без опухолей; и (b) SAS-Net (Self-Attentive Segmentation Network) для точной сегментации опухолей головного мозга. Мы достигли общей пиксельной точности 99,23%.
Большие языковые модели с расширенной памятью (LLM) демонстрируют высокую согласованность в ходе продолжительных диалогов за счет сохранения релевантных воспоминаний и их включения в контекст. Такая персонализация на основе памяти также является ключевой в локальных (on-device) сценариях, которые позволяют пользователям сохранять конфиденциальность своих бесед и данных. Однако системы с расширенной памятью обычно полагаются на LLM, которые слишком ресурсоемки для локального развертывания на устройствах. Хотя малые языковые модели (SLM) более пригодны для локального вывода, чем LLM, они не могут обеспечить достаточную производительность. Кроме того, эти системы на основе LLM не обладают встроенными визуальными возможностями, что ограничивает их применимость в мультимодальных контекстах. В данной статье мы представляем (i) MemLoRA — новую систему памяти, которая позволяет осуществлять локальное развертывание, оснащая SLM специализированными адаптерами памяти, и (ii) ее визуальное расширение MemLoRA-V, которое интегрирует малые визуально-языковые модели (SVLM) в системы памяти, обеспечивая встроенное визуальное понимание. Следуя принципам дистилляции знаний, каждый адаптер обучается отдельно для выполнения конкретных операций с памятью: извлечения знаний, обновления памяти и генерации с augmentation памяти. Оснащенные адаптерами памяти, малые модели обеспечивают точные операции с памятью на устройстве без зависимости от облачных сервисов. При выполнении текстовых операций MemLoRA превосходит базовые модели в 10 раз крупнее (например, Gemma2-27B) и демонстрирует производительность, сопоставимую с моделями в 60 раз крупнее (например, GPT-OSS-120B) по критериям бенчмарка LoCoMo. Для оценки операций визуального понимания мы расширяем LoCoMo сложными задачами визуального ответа на вопросы (Visual Question Answering), требующими прямого визуального рассуждения. В этих тестах наша интеграция VLM в MemLoRA-V показывает значительное улучшение по сравнению с подходами на основе генерации заголовков изображений (точность 81.3 против 23.7), сохраняя при этом высокую производительность в текстовых задачах, что демонстрирует эффективность нашего метода в мультимодальных контекстах.
Восстановление человеческой меши (HMR) направлено на реконструкцию 3D позы и формы человека из 2D наблюдений и является основой для человеко-ориентированного понимания в реальных сценариях. В то время как современные методы HMR на основе изображений, такие как SAM 3D Body, демонстрируют высокую устойчивость на изображениях из неконтролируемой среды, они полагаются на покадровый вывод при применении к видео, что приводит к временной несогласованности и ухудшению производительности при окклюзиях. Мы решаем эти проблемы без дополнительного обучения, используя присущую видео непрерывность человеческого движения. Мы предлагаем SAM-Body4D, бесплатную от обучения систему для временно согласованного и устойчивого к окклюзиям HMR из видео. Сначала мы генерируем идентично-согласованные маскилеты с помощью модели сегментации видео с поддержкой промптов, затем улучшаем их с помощью модуля Occlusion-Aware для восстановления потерянных областей. Улучшенные маскилеты направляют SAM 3D Body для создания согласованных траекторий полномасштабной меши, в то время как стратегия на основе паддинга позволяет осуществлять эффективный вывод для нескольких людей. Результаты экспериментов показывают, что SAM-Body4D достигает повышенной временной стабильности и устойчивости в сложных видео из неконтролируемой среды без какого-либо переобучения. Наш код и демо доступны по адресу: https://github.com/gaomingqi/sam-body4d.
Быстрые суррогатные модели, обобщающие геометрию, для нестационарных течений остаются сложной задачей. Мы представляем зависящую от времени, учитывающую геометрию Deep Operator Network (DeepONet), которая предсказывает поля скорости для течений при умеренных числах Рейнольдса вокруг параметрических и непараметрических форм. Модель кодирует геометрию через ствол (trunk) на основе поля знаковых расстояний (SDF) и историю течения через ветвь сверточной нейронной сети (CNN), обученную на 841 высокоточном моделировании. На отложенных (тестовых) геометриях модель достигает ошибки около 5% по относительной L2-норме на одном шаге и ускорения до 1000 раз по сравнению с методами вычислительной гидродинамики (CFD). Мы предоставляем ориентированную на физику диагностику прогнозирования (rollout), включая фазовую ошибку в контрольных точках и нормы дивергенции, для количественной оценки точности на длительных интервалах. Результаты выявляют точное воспроизведение краткосрочных переходных процессов, но накопление ошибки в мелкомасштабных следах за телом, наиболее выраженное для геометрий с острыми углами. Мы анализируем режимы сбоев и описываем практические методы их устранения. Код, разделения данных и скрипты открыто опубликованы по адресу: https://github.com/baskargroup/TimeDependent-DeepONet для обеспечения воспроизводимости и сравнительного анализа.
Метод 3D Gaussian Splatting (3DGS) стал мощным явным представлением, обеспечивающим выполнение 3D-реконструкции и синтеза новых ракурсов в реальном времени с высокой точностью. Однако его практическое применение ограничивается значительными требованиями к памяти и вычислительным ресурсам, необходимым для хранения и визуализации миллионов гауссиан. Эти проблемы становятся еще более серьезными в 4D-сценах с динамикой. Для их решения быстро развивается направление Efficient Gaussian Splatting, предлагающее методы сокращения избыточности при сохранении качества реконструкции. Данный обзор впервые представляет единую систематизацию методов эффективного 3D и 4D Gaussian Splatting. Для 3D- и 4D-случаев мы систематически классифицируем существующие методы по двум основным направлениям — сжатие параметров и реструктуризация сжатия — и всесторонне обобщаем ключевые идеи и методологические тенденции в каждой категории. Кроме того, мы рассматриваем широко используемые наборы данных, метрики оценки и репрезентативные сравнительные тесты. В заключение обсуждаются текущие ограничения и намечаются перспективные направления исследований, нацеленные на создание масштабируемого, компактного и работающего в реальном времени Gaussian Splatting для представления как статических, так и динамических 3D-сцен.
Мы представляем два новых тестовых набора REST и REST+ (Render-Equivalence Stress Tests) для систематической оценки кросс-модальной несогласованности в мультимодальных больших языковых моделях (MLLM). MLLM обучаются представлять визуальную и текстовую информацию в едином пространстве эмбеддингов, однако они не способны одинаково выполнять задачи в обеих модальностях. Наши тестовые наборы содержат примеры с идентичной семантической информацией в трёх модальностях (изображение, текст, смешанная), и мы демонстрируем, что современные MLLM не могут последовательно рассуждать на основе этих различных модальностей. Мы оценили 15 MLLM и обнаружили, что степень модальной несогласованности существенно варьируется, даже с учётом проблем распознавания текста (OCR). Ни отображение текста в виде изображения, ни преобразование изображения в текст не решают проблему несогласованности. Даже при корректном OCR мы выявили, что визуальные характеристики (цвет текста и разрешение, но не шрифт) и количество визуальных токенов влияют на производительность модели. Наконец, мы установили, что наш показатель согласованности коррелирует с модальным разрывом между текстом и изображениями, что указывает на механистическую интерпретацию кросс-модальной несогласованности MLLM.
На протяжении десятилетий процедурные миры строились на основе процедурных шумовых функций, таких как шум Перлина, которые являются быстрыми и бесконечными, но принципиально ограничены в реалистичности и крупномасштабной согласованности. Мы представляем Terrain Diffusion — преемника шума Перлина в эпоху ИИ, который объединяет точность диффузионных моделей со свойствами, сделавшими процедурный шум незаменимым: бесшовную бесконечную протяженность, консистентность по сиду и постоянное время произвольного доступа. В его основе лежит InfiniteDiffusion — новый алгоритм для бесконечной генерации, позволяющий осуществлять бесшовный синтез безграничных ландшафтов в реальном времени. Иерархический стек диффузионных моделей связывает планетарный контекст с локальными деталями, в то время как компактное лапласово кодирование стабилизирует выходные данные в динамических диапазонах земного масштаба. Фреймворк с открытым исходным кодом для работы с бесконечными тензорами поддерживает манипуляции с неограниченными тензорами с постоянной памятью, а консистентная дистилляция за несколько шагов обеспечивает эффективную генерацию. В совокупности эти компоненты устанавливают диффузионные модели в качестве практической основы для процедурного создания миров, способной синтезировать целые планеты согласованно, контролируемо и без ограничений.