Ежедневно отобранные исследовательские статьи по ИИ с переводами
Память стала и продолжает оставаться ключевой способностью агентов на основе фундаментальных моделей. По мере того как исследования памяти агентов стремительно расширяются и привлекают беспрецедентное внимание, область становится все более фрагментированной. Существующие работы, относящиеся к теме памяти агентов, часто существенно различаются по своей мотивации, реализации и протоколам оценки, а распространение слабо определенной терминологии еще больше затрудняет концептуальную ясность. Традиционные таксономии, такие как долговременная/кратковременная память, оказались недостаточными для отражения разнообразия современных систем памяти агентов. Данная работа направлена на предоставление актуального обзора текущих исследований памяти агентов. Мы начинаем с четкого разграничения области памяти агентов и ее отличия от смежных концепций, таких как память больших языковых моделей (LLM), генерация с усилением retrieval (RAG) и инженерия контекста. Затем мы рассматриваем память агентов через единые призмы форм, функций и динамики. С точки зрения форм мы выделяем три основных реализации памяти агентов: память на уровне токенов, параметрическая и латентная память. С точки зрения функций мы предлагаем более детальную таксономию, различающую фактологическую, эпизодическую и рабочую память. С точки зрения динамики мы анализируем, как память формируется, развивается и извлекается с течением времени. Для поддержки практической разработки мы составили всеобъемлющий перечень бенчмарков памяти и фреймворков с открытым исходным кодом. Помимо консолидации, мы формулируем перспективный взгляд на emerging research frontiers, включая автоматизацию памяти, интеграцию с обучением с подкреплением, мультимодальную память, память в мультиагентных системах и проблемы доверия. Мы надеемся, что этот обзор послужит не только справочным материалом по существующим работам, но и концептуальной основой для переосмысления памяти как первоклассной primitive при проектировании будущего агентного интеллекта.
Мы представляем QwenLong-L1.5 — модель, которая достигает превосходных способностей к рассуждению в длинном контексте благодаря системным инновациям в пост-обучении. Ключевые технические прорывы QwenLong-L1.5 заключаются в следующем: (1) **Конвейер синтеза данных для длинного контекста**: Мы разработали системную framework для генерации сложных задач на рассуждение, требующих многошагового обоснования на основе глобально распределенных свидетельств. Путем декомпозиции документов на атомарные факты и их базовые отношения с последующим программным составлением проверяемых вопросов на рассуждение наш подход создает высококачественные обучающие данные в масштабе, существенно выходя за рамки простых задач поиска и обеспечивая подлинные возможности рассуждения в длинном контексте. (2) **Стабилизированное обучение с подкреплением для тренировки длинного контекста**: Для преодоления критической нестабильности в RL для длинного контекста мы вводим сбалансированное по задачам семплирование с оценкой преимуществ, специфичной для задачи, чтобы снизить смещение вознаграждения, и предлагаем Adaptive Entropy-Controlled Policy Optimization (AEPO), который динамически регулирует баланс между исследованием и эксплуатацией. (3) **Архитектура с расширенной памятью для сверхдлинных контекстов**: Признавая, что даже расширенные окна контекста не могут вместить сколь угодно длинные последовательности, мы разработали framework управления памятью с многоэтапным RL-обучением слияния, который бесшовно интегрирует одношаговое рассуждение с итеративной обработкой на основе памяти для задач, превышающих 4 миллиона токенов. На базе Qwen3-30B-A3B-Thinking, QwenLong-L1.5 демонстрирует производительность, сопоставимую с GPT-5 и Gemini-2.5-Pro на бенчмарках рассуждения в длинном контексте, превосходя свой базовый уровень в среднем на 9.90 баллов. На сверхдлинных задачах (1M~4M токенов) фреймворк памяти-агента QwenLong-L1.5 дает прирост в 9.48 балла по сравнению с агентским базовым уровнем. Кроме того, приобретенная способность к рассуждению в длинном контексте приводит к улучшению производительности в общих областях, таких как научное рассуждение, использование инструментов памяти и расширенный диалог.
Качество латентного пространства в визуальных токенизаторах (например, VAEs) имеет решающее значение для современных генеративных моделей. Однако стандартная парадигма обучения, основанная на реконструкции, порождает латентное пространство, смещенное в сторону низкоуровневой информации, что приводит к фундаментальному недостатку: лучшая точность на пиксельном уровне не приводит к генерации более высокого качества. Это означает, что значительные вычислительные ресурсы, вложенные в предварительное обучение визуального токенизатора, слабо трансформируются в улучшение генеративных характеристик. Мы определяем это как «проблему масштабирования предварительного обучения» и предлагаем необходимый сдвиг парадигмы: чтобы быть эффективным для генерации, латентное пространство должно компактно представлять высокоуровневую семантику. Мы представляем VTP, унифицированную структуру для предварительного обучения визуального токенизатора, впервые реализующую совместную оптимизацию контрастивных image-text, самоконтролируемых и реконструкционных потерь. Наше крупномасштабное исследование выявляет два ключевых результата: (1) понимание является ключевым драйвером генерации и (2) значительно лучшие свойства масштабирования, при которых генеративная производительность эффективно масштабируется с вычислительными ресурсами, параметрами и данными, выделенными на предварительное обучение токенизатора. После крупномасштабного предварительного обучения наш токенизатор демонстрирует конкурентоспособные показатели (78.2% zero-shot accuracy и 0.36 rFID на ImageNet) и в 4.1 раза более быструю сходимость при генерации по сравнению с передовыми методами дистилляции. Что более важно, он эффективно масштабируется: без изменения стандартных параметров обучения DiT, исключительно за счет увеличения FLOPS, инвестированных в предварительное обучение VTP, достигается улучшение FID на 65.8% в нисходящей генерации, в то время как традиционный автоэнкодер стагнирует очень рано, уже на 1/10 от этих вычислительных затрат. Наши предварительно обученные модели доступны по адресу https://github.com/MiniMax-AI/VTP.
Авторегрессионные модели (ARMs) ограничены медленным последовательным выводом. Хотя маскированные диффузионные модели (MDMs) предлагают параллельную альтернативу, они страдают от существенных недостатков: высоких вычислительных затрат из-за невозможности кэширования ключей-значений (KV) и несогласованной генерации, вызванной изучением зависимостей в неразрешимом пространстве комбинаций токенов. Для преодоления этих ограничений мы представляем ReFusion — новую маскированную диффузионную модель, которая достигает превосходной производительности и эффективности за счёт перехода от параллельного декодирования на уровне токенов к более высокому уровню слотов, где каждый слот представляет собой фиксированную по длине непрерывную подпоследовательность. Это реализуется через итеративный процесс декодирования «план-и-заполнение»: на этапе планирования на основе диффузии сначала определяется набор слабозависимых слотов, а затем на авторегрессионном этапе заполнения эти выбранные слоты декодируются параллельно. Слотовая архитектура одновременно позволяет полностью повторно использовать KV-кэш в рамках единой каузальной структуры и снижает сложность обучения, переходя от пространства комбинаций токенов к управляемому пространству перестановок на уровне слотов. Многочисленные эксперименты на семи разнородных бенчмарках показывают, что ReFusion не только значительно превосходит предыдущие MDMs с приростом производительности на 34% и ускорением в среднем более чем в 18 раз, но и сокращает разрыв в производительности с мощными ARMs, сохраняя среднее ускорение в 2.33 раза.
Построение видеомировых моделей на основе предобученных систем генерации видео представляет собой важный, но сложный шаг на пути к общему пространственно-временному интеллекту. Мировая модель должна обладать тремя ключевыми свойствами: управляемостью, долгосрочным визуальным качеством и временной согласованностью. Для достижения этой цели мы используем прогрессивный подход — сначала улучшаем управляемость, а затем расширяем возможности в сторону долгосрочной генерации высокого качества. Мы представляем LongVie 2, сквозную авторегрессионную框架, обученную в три этапа: (1) Мультимодальное управление, которое интегрирует плотные и разреженные управляющие сигналы для обеспечения неявного контроля на уровне мира и повышения управляемости; (2) Обучение с учетом деградации на входном кадре, устраняющее разрыв между обучением и долгосрочным выводом для сохранения высокого визуального качества; и (3) Управление на основе исторического контекста, которое согласует контекстную информацию между смежными клипами для обеспечения временной согласованности. Мы также представляем LongVGenBench — комплексный бенчмарк, содержащий 100 одноминутных видео высокого разрешения, охватывающих разнообразные реальные и синтетические среды. Многочисленные эксперименты демонстрируют, что LongVie 2 достигает передовых результатов в области долгосрочной управляемости, временной согласованности и визуального правдоподобия, а также поддерживает непрерывную генерацию видео длительностью до пяти минут, что знаменует значительный шаг к унифицированному моделированию видеомиров.
Мы представляем эталонный комплекс для оценки финансовых и бухгалтерских задач (Finch), предназначенный для тестирования ИИ-агентов на реальных профессиональных рабочих процессах корпоративного уровня. Эти процессы включают взаимосвязанные операции: ввод данных, структурирование, форматирование, веб-поиск, извлечение данных из разных файлов, вычисления, моделирование, валидацию, перевод, визуализацию и составление отчетов. Finch создан на основе аутентичных рабочих пространств компаний, включая Enron (15 000 таблиц и 500 000 писем от 150 сотрудников) и другие финансовые институты, что сохраняет присущую реальным данным неупорядоченность мультимодальных артефактов (текст, таблицы, формулы, диаграммы, код и изображения) и охватывает различные области, такие как бюджетирование, трейдинг и управление активами. Мы предлагаем процесс построения рабочих процессов, сочетающий автоматизированное обнаружение с помощью больших языковых моделей (LLM) и экспертной разметки: (1) LLM-ассистированное, проверенное экспертами извлечение рабочих процессов из реальных цепочек писем и истории версий файлов электронных таблиц и (2) тщательную экспертной разметку рабочих процессов, потребовавшую более 700 часов работы специалистов. В результате получено 172 составных рабочих процесса, включающих 384 задачи, с использованием 1 710 таблиц (27 миллионов ячеек), а также PDF-документов и других артефактов, что отражает присущую реальной корпоративной работе сложность, долгосрочный характер, необходимость глубоких знаний и коллаборации. Мы провели как человеческую, так и автоматизированную оценку передовых ИИ-систем, включая GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 и Qwen 3 Max. GPT 5.1 Pro, затратив в сумме 48 часов, справился лишь с 38,4% рабочих процессов, а Claude Sonnet 4.5 — только с 25,0%. Детальные case-стадии дополнительно выявляют проблемы, которые реальные корпоративные рабочие процессы создают для ИИ-агентов.
Последние достижения в области кодирующих агентов свидетельствуют о быстром прогрессе в направлении автономной разработки программного обеспечения, однако существующие бенчмарки не позволяют строго оценить долгосрочные возможности, необходимые для построения полноценных программных систем. Большинство предыдущих оценок сосредоточено на локализованной генерации кода, завершении по шаблону или краткосрочных задачах исправления, оставляя открытым вопрос о том, способны ли агенты поддерживать последовательные рассуждения, планирование и выполнение в течение длительных временных горизонтов, требуемых для создания реальных репозиториев. Для устранения этого пробела мы представляем NL2Repo Bench — бенчмарк, явно предназначенный для оценки способности кодирующих агентов к долгосрочной генерации репозиториев. Имея только один документ с требованиями на естественном языке и пустое рабочее пространство, агенты должны автономно проектировать архитектуру, управлять зависимостями, реализовывать многомодульную логику и создавать полностью устанавливаемую Python-библиотеку. Наши эксперименты с передовыми открытыми и проприетарными моделями показывают, что долгосрочная генерация репозиториев в значительной степени остается нерешенной задачей: даже самые мощные агенты демонстрируют средний уровень прохождения тестов ниже 40% и редко завершают создание целого репозитория корректно. Детальный анализ выявляет фундаментальные долгосрочные ошибки, включая преждевременное завершение, потерю глобальной согласованности, хрупкие межфайловые зависимости и неадекватное планирование на сотнях шагов взаимодействия. NL2Repo Bench устанавливает строгий, верифицируемый полигон для измерения устойчивой агентной компетенции и выделяет долгосрочные рассуждения как ключевое узкое место для следующего поколения автономных кодирующих агентов.
В последние годы модели генерации аватаров достигли значительного прогресса. Однако существующие подходы демонстрируют ограниченную эффективность при создании длительных видео высокого разрешения, страдая от временного дрейфа, деградации качества и слабого следования текстовым промптам с увеличением продолжительности видео. Для решения этих проблем мы предлагаем KlingAvatar 2.0 — каскадную пространственно-временную архитектуру, выполняющую апскейлинг как в пространственном разрешении, так и во временном измерении. Данная архитектура сначала генерирует ключевые кадры видео низкого разрешения, фиксирующие глобальную семантику и движение, а затем уточняет их в высокоразрешенные, временно согласованные суб-клипы с использованием стратегии первых-последних кадров, сохраняя плавные временные переходы в длинных видео. Для улучшения межмодального слияния инструкций и согласованности в продолжительных видео мы вводим Co-Reasoning Director, состоящий из трёх экспертов — больших языковых моделей (LLM), специализированных по модальностям. Эти эксперты анализируют приоритеты модальностей и выводят скрытые намерения пользователя, преобразуя входные данные в детализированные сценарии через многократный диалог. Negative Director дополнительно уточняет негативные промпты для улучшения соответствия инструкциям. На основе этих компонентов мы расширяем архитектуру для поддержки ID-специфичного управления несколькими персонажами. Многочисленные эксперименты демонстрируют, что наша модель эффективно решает задачи эффективной, многомодально согласованной генерации длительных видео высокого разрешения, обеспечивая улучшенную визуальную чёткость, реалистичный рендеринг губ и зубов с точной синхронизацией артикуляции, устойчивое сохранение идентичности и последовательное следование многомодальным инструкциям.
Линейное внимание и модели пространства состояний (SSM) обещают решить проблему квадратичной стоимости в языковых моделях с длинным контекстом, использующих softmax-внимание. Мы представляем Error-Free Linear Attention (EFLA) — численно устойчивую, полностью параллельную и обобщенную формулировку дельта-правила. В частности, мы формулируем онлайн-обновление обучения как динамическую систему в непрерывном времени и доказываем, что ее точное решение не только достижимо, но и вычислимо за линейное время с полным параллелизмом. Используя ранговую-1 структуру матрицы динамики, мы напрямую выводим точное замкнутое решение, эффективно соответствующее методу Рунге—Кутты бесконечного порядка. Этот механизм внимания теоретически свободен от накопления ошибок, идеально捕捉 непрерывную динамику при сохранении линейной сложности. В ходе обширного экспериментального анализа мы показываем, что EFLA обеспечивает устойчивую работу в зашумленных средах, достигая более низкой перплексии языкового моделирования и превосходя DeltaNet по производительности на downstream-бенчмарках без введения дополнительных параметров. Наша работа закладывает новую теоретическую основу для построения высокоточной и масштабируемой линейной attention-модели.
Психические расстройства затрагивают сотни миллионов людей по всему миру, а Интернет стал основным средством получения поддержки, информации и диагностики. Большие языковые модели (БЯМ) предлагают масштабируемую и доступную помощь, однако их применение в сфере психического здоровья остается рискованным, когда их рассуждения являются неполными, непоследовательными или необоснованными. Существующие психологические БЯМ делают акцент на эмоциональном понимании или воспроизведении знаний, но упускают пошаговые, клинически выверенные рассуждения, необходимые для оценки, диагностики, планирования вмешательств, абстрагирования и верификации. Для решения этих проблем мы представляем MentraSuite — унифицированную структуру для развития надежных рассуждений в области психического здоровья. Мы предлагаем MentraBench, комплексный эталонный набор, охватывающий пять ключевых аспектов рассуждений, шесть задач и 13 наборов данных, который оценивает как производительность при решении задач, так и качество рассуждений по пяти параметрам: лаконичность, связность, избегание галлюцинаций, понимание задачи и внутренняя согласованность. Далее мы представляем Mindora, дообученную модель, оптимизированную с помощью гибридного SFT-RL фреймворка с функцией вознаграждения за обнаружение противоречий для обеспечения достоверных и последовательных рассуждений. Для поддержки обучения мы создаем высококачественные траектории, используя новую стратегию генерации траекторий рассуждений, которая стратегически фильтрует сложные примеры и применяет структурированный процесс переформулирования, ориентированный на согласованность, для создания лаконичных, удобочитаемых и сбалансированных траекторий. Среди 20 оцененных БЯМ модель Mindora демонстрирует наивысшую среднюю производительность на MentraBench и выдающиеся результаты по надежности рассуждений, что подтверждает ее эффективность для сложных сценариев в сфере психического здоровья.
Конкурс BEHAVIOR 2025 года разработан для строгого отслеживания прогресса в решении долгосрочных задач физическими агентами в симулированных средах. BEHAVIOR-1K фокусируется на повседневных домашних задачах, с которыми люди больше всего хотят получить помощь от роботов. Эти задачи представляют собой проблемы мобильного манипулирования с длинным горизонтом планирования в реалистичных условиях, сокращая разрыв между текущими исследованиями и реальными приложениями, ориентированными на человека. В данном отчете представлено наше решение для конкурса BEHAVIOR 2025, занявшее очень близкое 2-е место и значительно превзошедшее остальные представленные работы. Основываясь на архитектуре π_{0.5}, мы сосредоточились на систематическом построении нашего решения путем изучения эффектов методов обучения и данных. С помощью тщательного абляционного анализа мы демонстрируем потенциал масштабирования на этапах предварительного и последующего обучения для достижения конкурентоспособной производительности. Мы обобщаем наши практические выводы и рекомендации по проектированию, которые, как мы надеемся, предоставят полезные идеи для более широкого сообщества воплощенного ИИ при адаптации мощных базовых моделей к сложным воплощенным сценариям.
Модели "Vision-Language-Action" (VLA) предлагают перспективную парадигму для обучения роботов, интегрируя визуальное восприятие с обучением стратегий на основе языковых команд. Однако большинство существующих подходов полагаются на 2D-визуальные входные данные для выполнения действий в 3D-физических средах, что создает значительный разрыв между восприятием и привязкой действий. Чтобы устранить этот разрыв, мы предлагаем парадигму предварительного обучения VLA с пространственной осведомленностью, которая выполняет явное выравнивание между визуальным и физическим пространством на этапе предварительного обучения, позволяя моделям приобретать понимание 3D-пространства до обучения роботизированным стратегиям. Исходя из предобученных моделей "vision-language", мы используем масштабные видео с демонстрациями человека для извлечения 3D-визуальных и 3D-действенных аннотаций, формируя новый источник контроля, который согласовывает 2D-визуальные наблюдения с 3D-пространственными рассуждениями. Мы реализуем эту парадигму в VIPA-VLA — архитектуре с двойным кодировщиком, которая включает 3D-визуальный кодировщик для обогащения семантических визуальных представлений признаками с учетом 3D-пространства. При адаптации к последующим задачам робототехники VIPA-VLA демонстрирует значительно улучшенную привязку между 2D-зрением и 3D-действиями, что приводит к более надежным и обобщаемым роботизированным стратегиям.
Агенты на основе больших языковых моделей (LLM) часто работают жадным, пошаговым образом, выбирая действия исключительно на основе текущего наблюдения, без учета долгосрочных последствий или альтернативных путей. Эта недальновидность особенно проблематична в веб-средах, которые являются лишь частично наблюдаемыми — ограничены контентом, видимым в браузере (например, DOM и UI-элементами) — где одна ошибка часто требует сложной и ненадежной навигации для отмены. Без явного механизма возврата агенты с трудом исправляют ошибки или систематически исследуют альтернативные пути. Методы поиска по дереву предоставляют принципиальную основу для такого структурированного исследования, но существующие подходы не имеют механизмов безопасного возврата, что делает их подверженными непреднамеренным побочным эффектам. Они также предполагают, что все действия обратимы, игнорируя наличие необратимых действий — ограничения, которые снижают их эффективность в реальных веб-задачах. Для решения этих проблем мы представляем WebOperator — фреймворк поиска по дереву, который обеспечивает надежный возврат и стратегическое исследование. Наш метод включает стратегию поиска по принципу «лучший первый», которая ранжирует действия как по оценкам вознаграждения, так и по соображениям безопасности, вместе с надежным механизмом возврата, проверяющим осуществимость ранее пройденных путей перед их воспроизведением, что предотвращает непреднамеренные побочные эффекты. Для дальнейшего руководства исследованием WebOperator генерирует кандидаты действий из множества различных контекстов рассуждений, чтобы обеспечить разнообразное и устойчивое исследование, а затем формирует высококачественный набор действий, отфильтровывая недействительные действия до выполнения и объединяя семантически эквивалентные. Результаты экспериментов на WebArena и WebVoyager демонстрируют эффективность WebOperator. На WebArena WebOperator достигает наилучшего показателя успеха в 54.6% с использованием gpt-4o, подчеркивая ключевое преимущество интеграции стратегического предвидения с безопасным выполнением.
Мы представляем новую парадигму цифрового человека — Интерактивный Интеллект, способный к выражению, согласованному с личностью, адаптивному взаимодействию и саморазвитию. Для её реализации предлагается Mio (Multimodal Interactive Omni-Avatar) — сквозная фреймворк-архитектура, состоящая из пяти специализированных модулей: Модуль мышления, Модуль речи, Аниматор лица, Аниматор тела и Модуль визуализации. Данная унифицированная архитектура интегрирует когнитивные рассуждения с реальным многомодальным воплощением, обеспечивая плавное и последовательное взаимодействие. Кроме того, мы создали новый эталонный тест для строгой оценки возможностей интерактивного интеллекта. Многочисленные эксперименты демонстрируют, что наша система превосходит современные методы по всем оцениваемым параметрам. В совокупности эти достижения выводят цифровых людей за рамки поверхностного подражания, приближая их к интеллектуальному взаимодействию.
Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали высокие возможности в различных областях, их применение для генерации детализированных результатов 3D-восприятия и прогнозирования в автономном вождении остается недостаточно изученным. В данной статье мы предлагаем DrivePI — новую пространственно-ориентированную 4D MLLM, которая служит унифицированной структурой «Вижение-Язык-Действие» (VLA), совместимой также с моделями «Вижение-Действие» (VA). Наш метод совместно выполняет пространственное понимание, 3D-восприятие (т.е. 3D-оккупанс), прогнозирование (т.е. поток оккупанса) и планирование (т.е. выходные действия) параллельно за счет сквозной оптимизации. Для получения как точной геометрической информации, так и богатого визуального представления наш подход интегрирует облака точек, многовидовые изображения и языковые инструкции в единую архитектуру MLLM. Мы также разработали механизм генерации данных для создания вопросно-ответных пар «текст-оккупанс» и «текст-поток» для 4D-пространственного понимания. Примечательно, что даже с моделью Qwen2.5 объемом всего 0.5B в качестве основы MLLM, DrivePI как единая унифицированная модель соответствует или превосходит как существующие VLA-модели, так и специализированные VA-модели. В частности, по сравнению с VLA-моделями, DrivePI превосходит OpenDriveVLA-7B на 2.5% по средней точности на nuScenes-QA и снижает частоту столкновений на 70% относительно ORION (с 0.37% до 0.11%) на nuScenes. По сравнению со специализированными VA-моделями, DrivePI превосходит FB-OCC на 10.3 RayIoU для 3D-оккупанса на OpenOcc, снижает mAVE с 0.591 до 0.509 для потока оккупанса на OpenOcc и достигает на 32% меньшей ошибки L2, чем VAD (с 0.72м до 0.49м) для планирования на nuScenes. Код будет доступен по адресу https://github.com/happinesslz/DrivePI.
Модели «визуальный язык» (VLMs) превосходно справляются с визуальным ответом на вопросы (VQA), но остаются ограниченными статическим зрением, осуществляя вывод на основе неподвижных изображений. В отличие от них, воплощенные агенты требуют амбулаторного зрения — активного перемещения для получения более информативных ракурсов. Мы представляем задачу визуально обоснованного выбора активного обзора (VG-AVS), которая заключается в выборе наиболее информативной следующей точки обзора, используя только визуальную информацию с текущего изображения, без опоры на память о сцене или внешние знания. Для поддержки этой задачи мы создали синтетический набор данных с автоматически сгенерированными парами «запрос-целевой вид» и промптами «вопрос-ответ». Также мы предлагаем фреймворк, дообучающий предварительно обученные VLMs посредством контролируемого тонкого обучения (SFT) с последующей оптимизацией стратегии на основе обучения с подкреплением. Наш подход демонстрирует высокую производительность в ответах на вопросы на основе выбора точки обзора и robustly обобщается на неизвестные синтетические и реальные сцены. Более того, интеграция нашего обученного фреймворка VG-AVS в существующие системы EQA, основанные на исследовании сцены, повышает точность решения последующих задач ответа на вопросы.
Хотя многие модели "визуальный язык" (VLM) разрабатываются для ответов на четко сформулированные, прямые вопросы с конкретными целями, как в большинстве бенчмарков, на практике они часто испытывают трудности со сложными открытыми задачами, которые обычно требуют многократного исследования и рассуждений в визуальном пространстве. Такие пути визуального мышления не только обеспечивают пошаговое исследование и проверку, подобно ИИ-детективу, но и дают лучшую интерпретацию окончательных ответов. Однако оценить эти пути сложно из-за обширного пространства промежуточных шагов. Чтобы устранить этот разрыв, мы разработали набор для оценки «Визуальные рассуждения с многошаговым исследованием (V-REX)», который состоит из бенчмарка сложных задач на визуальное рассуждение, требующих изначально многошагового исследования, и протокола оценки. V-REX охватывает широкий спектр сценариев применения в различных областях. V-REX преобразует многошаговое исследовательское рассуждение в Цепочку Вопросов (CoQ) и разделяет способности VLM на: (1) **Планирование**: декомпозиция открытой задачи путем выбора цепочки исследовательских вопросов; и (2) **Следование**: последовательное ответы на подготовленную CoQ для сбора информации и выведения окончательного ответа. Путем тщательного подбора ограниченного набора вариантов вопросов и ответов на каждом шаге, V-REX позволяет провести надежный количественный и детальный анализ промежуточных шагов. Оценивая передовые проприетарные и открытые VLM, мы выявляем устойчивые тенденции масштабирования, значительные различия между способностями к планированию и следованию, а также существенный потенциал для улучшения в области многошагового исследовательского рассуждения.
Модели диффузии могут непреднамеренно воспроизводить примеры из обучающих данных, что вызывает опасения в отношении конфиденциальности и авторских прав по мере масштабирования их применения. Существующие методы снижения рисков на этапе вывода обычно манипулируют классификаторно-независимой guidance (CFG) или добавляют шум к эмбеддингам промптов; однако они часто не способны эффективно снижать запоминание данных без ущерба для соответствия условию промпта. Мы представляем CAPTAIN — не требующий дообучения фреймворк, который снижает запоминание за счет прямой модификации латентных признаков в процессе денойзинга. CAPTAIN сначала применяет частотную инициализацию шума, чтобы уменьшить тенденцию к воспроизведению запомненных паттернов на ранних этапах денойзинга. Затем он определяет оптимальные временные шаги для инжекции признаков и локализует запомненные области. Наконец, CAPTAIN инжектирует семантически согласованные признаки из незапомненных референсных изображений в локализованные латентные области, подавляя запоминание при сохранении соответствия промпту и визуального качества. Наши эксперименты показывают, что CAPTAIN достигает значительного снижения запоминания по сравнению с базовыми методами на основе CFG, сохраняя при этом высокое соответствие целевому промпту.
Модели Vision-Language-Action (VLA) продемонстрировали впечатляющую способность к обобщению в разнообразных задачах роботизированного манипулирования. Однако развертывание этих моделей в неструктурированных средах остается сложной задачей из-за критической необходимости одновременного обеспечения соответствия задаче и гарантий безопасности, особенно в предотвращении потенциальных столкновений во время физического взаимодействия. В данной работе мы представляем архитектуру Vision-Language-Safe Action (VLSA) под названием AEGIS, которая содержит подключаемый слой ограничений безопасности (SC), сформулированный с помощью функций контрольных барьеров. AEGIS напрямую интегрируется с существующими VLA-моделями для повышения безопасности с теоретическими гарантиями, сохраняя при этом их исходную производительность по следованию инструкциям. Для оценки эффективности нашей архитектуры мы создали комплексный бенчмарк для критически важных по безопасности задач SafeLIBERO, охватывающий различные сценарии манипулирования, характеризующиеся разной степенью пространственной сложности и вмешательства препятствий. Многочисленные эксперименты демонстрируют превосходство нашего метода над современными базовыми подходами. Примечательно, что AEGIS достигает улучшения показателя избегания препятствий на 59,16%, одновременно существенно повышая процент успешного выполнения задач на 17,25%. Для обеспечения воспроизводимости и будущих исследований мы публикуем наш код, модели и наборы данных бенчмарка по адресу https://vlsa-aegis.github.io/.
Выравнивание представлений (REPA) направляет генеративное обучение путем дистилляции представлений из мощного предварительно обученного визуального энкодера в промежуточные признаки диффузии. Мы исследуем фундаментальный вопрос: какой аспект целевого представления важен для генерации — его глобальная семантическая информация (например, измеряемая точностью на ImageNet-1K) или его пространственная структура (т.е. попарное косинусное сходство между патч-токенами)? Распространенное мнение гласит, что лучшая глобальная семантическая производительность приводит к лучшей генерации в качестве целевого представления. Чтобы изучить это, мы сначала проводим масштабный эмпирический анализ на основе 27 различных визуальных энкодеров и различных масштабов моделей. Результаты удивительны: пространственная структура, а не глобальная производительность, определяет качество генерации целевого представления. Для дальнейшего исследования мы вводим две простые модификации, которые специально усиливают передачу пространственной информации. Мы заменяем стандартный MLP-проекционный слой в REPA на простой сверточный слой и вводим слой пространственной нормализации для внешнего представления. Удивительно, но наш простой метод (реализованный менее чем в 4 строках кода), названный iREPA, последовательно улучшает скорость сходимости REPA для разнообразных визуальных энкодеров, размеров моделей и вариантов обучения (таких как REPA, REPA-E, Meanflow, JiT и др.). Наша работа мотивирует пересмотр фундаментального механизма работы выравнивания представлений и того, как его можно использовать для улучшения обучения генеративных моделей. Код и страница проекта доступны по адресу https://end2end-diffusion.github.io/irepa.
Хотя эффективное пост-обучение объединяет контролируемое тонкое настройку (SFT) и обучение с подкреплением (RL), оптимальный механизм использования экспертных траекторий остается нерешенным. Мы предлагаем Пластично-Потолочный Фреймворк для теоретического обоснования этой области, разлагая производительность на базовую производительность SFT и последующую пластичность RL. Путем масштабного бенчмаркинга мы устанавливаем последовательный конвейер SFT-then-RL в качестве превосходного стандарта, преодолевая проблемы стабильности синхронизированных подходов. Кроме того, мы выводим точные правила масштабирования: (1) Переход к RL на стабильной фазе SFT или фазе слабого переобучения максимизирует итоговый потолок, обеспечивая базовую производительность SFT без ущерба для пластичности RL; (2) Опровергая принцип «меньше значит больше» в контексте масштабирования SFT-then-RL, мы демонстрируем, что объем данных определяет основной потенциал пост-обучения, тогда как сложность траекторий выступает мультипликатором производительности; и (3) Устанавливая, что минимальная потеря валидации SFT служит надежным индикатором для выбора экспертных траекторий, максимизирующих итоговый потолок производительности. Наши результаты предоставляют практические рекомендации для максимизации ценности, извлекаемой из экспертных траекторий.
Медленный процесс вывода диффузионных моделей изображений значительно ухудшает интерактивный пользовательский опыт. Для решения этой проблемы мы представляем Diffusion Preview — новую парадигму, использующую быструю выборку с малым числом шагов для генерации предварительных результатов оценки пользователем, откладывая полное пошаговое уточнение до тех пор, пока превью не будет признано удовлетворительным. Существующие методы ускорения, включая решатели без обучения и пост-тренировочную дистилляцию, не способны обеспечить высокое качество превью или гарантировать согласованность между превью и финальными результатами. Мы предлагаем ConsistencySolver, основанный на общих линейных многошаговых методах, — легкий обучаемый решатель высокого порядка, оптимизированный с помощью обучения с подкреплением, который улучшает качество превью и согласованность. Экспериментальные результаты демонстрируют, что ConsistencySolver значительно повышает качество генерации и согласованность в сценариях с малым числом шагов, что делает его идеальным для эффективных рабочих процессов «превью-и-уточнение». Примечательно, что он достигает показателей FID, сопоставимых с Multistep DPM-Solver, используя на 47% меньше шагов, и превосходит базовые методы дистилляции. Кроме того, пользовательские исследования показывают, что наш подход сокращает общее время взаимодействия пользователя почти на 50%, сохраняя качество генерации. Код доступен по адресу https://github.com/G-U-N/consolver.
Физически осведомленная модель мира для вождения крайне важна для планирования траектории, синтеза данных за пределами распределения и замкнутой оценки. Однако существующие методы часто полагаются на единую диффузионную модель для прямого преобразования действий вождения в видео, что усложняет обучение и приводит к физически некорректным результатам. Для преодоления этих ограничений мы предлагаем GenieDrive — новую архитектуру, предназначенную для генерации физически осведомленных видео сценариев вождения. Наш подход начинается с генерации 4D-оккупанса, который служит физически обоснованной основой для последующего создания видео. 4D-оккупанс содержит богатую физическую информацию, включая высокоразрешенные 3D-структуры и динамику. Для эффективного сжатия такого высокоразрешенного оккупанса мы предлагаем VAE, который кодирует его в латентное представление в виде три-плоскости, сокращая размер латентного пространства до всего 58% от используемого в предыдущих методах. Мы также вводим механизм Mutual Control Attention (MCA) для точного моделирования влияния управления на эволюцию оккупанса и совместно обучаем VAE с последующим модулем прогнозирования end-to-end для максимизации точности предсказаний. В совокупности эти решения обеспечивают улучшение mIoU прогнозирования на 7.2% при скорости вывода 41 кадр/с, используя лишь 3.47 млн параметров. Дополнительно в модель генерации видео вводится Normalized Multi-View Attention для создания многовидовых видео вождения с учетом нашего 4D-оккупанса, что значительно улучшает качество видео с сокращением FVD на 20.7%. Эксперименты демонстрируют, что GenieDrive позволяет достичь высоко контролируемой, многовидово согласованной и физически осведомленной генерации видео вождения.
Чрезмерное согласование моделей генерации изображений с обобщёнными эстетическими предпочтениями вступает в противоречие с намерениями пользователя, особенно когда запрашиваются «антиэстетичные» результаты для художественных или критических целей. Такое следование приоритизирует ценности, центрированные на разработчике, в ущерб автономии пользователя и эстетическому плюрализму. Мы проверяем это смещение, создавая широкоспектральный эстетический набор данных и оценивая современные модели генерации и оценки. Мы обнаруживаем, что эстетически согласованные модели генерации часто по умолчанию выдают условно красивые результаты, не соблюдая инструкции по созданию низкокачественных или негативных изображений. Ключевым моментом является то, что модели оценки штрафуют антиэстетичные изображения, даже когда они идеально соответствуют явному запросу пользователя. Мы подтверждаем это системное смещение с помощью редактирования «изображение-в-изображение» и оценки на примере реальных абстрактных произведений искусства.
Современные нейросетевые архитектуры для обработки 3D-облаков точек включают как сверточные слои, так и блоки внимания, однако оптимальный способ их компоновки остается неясным. Мы анализируем роль различных вычислительных блоков в сетях для 3D-облаков точек и обнаруживаем интуитивно понятное поведение: свертка адекватно извлекает низкоуровневую геометрию на высоком разрешении в начальных слоях, где внимание является затратным без принесения преимуществ; внимание эффективнее захватывает высокоуровневую семантику и контекст на низком разрешении в глубоких слоях. Руководствуясь этим принципом проектирования, мы предлагаем новый улучшенный бэкбон для 3D-облаков точек, который использует свертки на начальных стадиях и переключается на внимание в более глубоких слоях. Чтобы избежать потери информации о пространственной структуре при удалении избыточных сверточных слоев, мы вводим новое, не требующее обучения позиционное кодирование PointROPE. Получившаяся модель LitePT имеет в 3,6 раза меньше параметров, работает в 2 раза быстрее и использует в 2 раза меньше памяти, чем передовая модель Point Transformer V3, но при этом соответствует или даже превосходит ее по производительности на ряде задач и наборов данных. Код и модели доступны по адресу: https://github.com/prs-eth/LitePT.
Диффузионная дистилляция значительно ускорила синтез изображений с условными классами, однако ее применимость к генерации изображений по произвольным текстовым описаниям (T2I) остается неясной. Мы представляем первое систематическое исследование, адаптирующее и сравнивающее передовые методы дистилляции на мощной T2I-модели учителя FLUX.1-lite. Объединив существующие методы в единую схему, мы выявляем ключевые препятствия, возникающие при переходе от дискретных меток классов к свободным языковым промптам. Помимо углубленного методологического анализа, мы предлагаем практические рекомендации по масштабированию входных данных, архитектуре сети и гиперпараметрам, сопровождаемые открытой реализацией и предобученными студенческими моделями. Наши результаты закладывают прочную основу для внедрения быстрых, высокоточных и ресурсоэффективных диффузионных генераторов в реальные T2I-приложения. Код доступен по адресу github.com/alibaba-damo-academy/T2I-Distill.
Генерация видео по музыке (Music-to-Video, M2V) для полноформатных песен сталкивается со значительными трудностями. Существующие методы создают короткие, несвязанные видеоклипы, которые не согласуются со структурой музыки, ритмом или текстом песни и страдают от отсутствия временной согласованности. Мы предлагаем AutoMV, многоагентную систему, которая генерирует полноценные музыкальные видео (MVs) непосредственно из песни. AutoMV сначала применяет инструменты обработки музыки для извлечения музыкальных атрибутов, таких как структура, вокальные дорожки и синхронизированный по времени текст, и формирует эти признаки в качестве контекстных входных данных для последующих агентов. Затем агент-сценарист и агент-режиссер используют эту информацию для создания короткого сценария, определения профилей персонажей в общем внешнем банке и спецификации инструкций по съемке. После этого эти агенты вызывают генератор изображений для ключевых кадров и различные генераторы видео для сцен "истории" или "певца". Агент-верификатор оценивает их выходные данные, обеспечивая многоагентное взаимодействие для создания связного длинного MV. Для оценки генерации M2V мы дополнительно предлагаем эталонный набор с четырьмя высокоуровневыми категориями (Музыкальное содержание, Техническое качество, Пост-продакшн, Художественность) и двенадцатью детализированными критериями. Этот бенчмарк был применен для сравнения коммерческих продуктов, AutoMV и MVs, снятых людьми, с привлечением экспертов-оценщиков: AutoMV значительно превосходит текущие базовые уровни по всем четырем категориям, сокращая разрыв с профессиональными MVs. Наконец, мы исследуем использование больших мультимодальных моделей в качестве автоматических судей для MVs; хотя результаты обнадеживают, они все еще отстают от экспертов-людей, что указывает на направления для будущей работы.
Визуальные токенизаторы играют ключевую роль в диффузионных моделях. Размерность латентного пространства определяет как точность реконструкции, так и семантическую выразительность латентных признаков. Однако между размерностью и качеством генерации существует фундаментальный компромисс, что ограничивает существующие методы низкоразмерными латентными пространствами. Хотя недавние работы используют базовые модели компьютерного зрения для обогащения семантики визуальных токенизаторов и ускорения сходимости, высокоразмерные токенизаторы по-прежнему уступают своим низкоразмерным аналогам. В данной работе мы предлагаем RecTok, который преодолевает ограничения высокоразмерных визуальных токенизаторов за счет двух ключевых инноваций: дистилляции семантики потоков и дистилляции с выравниванием реконструкции. Наше ключевое наблюдение заключается в том, чтобы сделать прямой поток в flow matching семантически насыщенным, что служит пространством обучения для диффузионных трансформеров, вместо фокусировки на латентном пространстве, как в предыдущих работах. Конкретно, наш метод дистиллирует семантическую информацию из VFM в траектории прямого потока в flow matching. Мы дополнительно усиливаем семантику за счет введения потерь на реконструкцию маскированных признаков. Наш RecTok демонстрирует превосходные результаты в реконструкции изображений, качестве генерации и дискриминационной производительности. Он достигает state-of-the-art результатов на gFID-50K как с использованием классификатор-фри гайдинга, так и без него, сохраняя при этом семантически богатую структуру латентного пространства. Более того, при увеличении латентной размерности мы наблюдаем последовательное улучшение показателей. Код и модель доступны по адресу https://shi-qingyu.github.io/rectok.github.io.
Крупные языковые модели (LLM) могут генерировать токены рассуждений перед финальным ответом для повышения производительности на сложных задачах. Хотя эти последовательности напоминают процессы человеческого мышления, эмпирические данные свидетельствуют, что они не являются достоверным объяснением реального процесса рассуждений модели. Для устранения этого разрыва между видимостью и функцией мы представляем концептуальную модель «Состояние через Токены» (SoT). SoT переосмысливает токены рассуждений не как лингвистическое повествование, а как экстернализованное вычислительное состояние — единственный персистирующий носитель информации между бессостоятельными циклами генерации модели. Это объясняет, как токены могут управлять корректными рассуждениями, не будучи достоверным объяснением при прочтении как текст, и выявляет ранее упускавшиеся исследовательские вопросы о таких токенах. Мы утверждаем, что для подлинного понимания процессов, осуществляемых LLM, исследования должны выйти за рамки чтения токенов рассуждений как текста и сосредоточиться на их декодировании как состояния.
Проблема обобщения остаётся ключевой задачей для интерактивной генерации 3D-сцен. Существующие подходы на основе машинного обучения формируют пространственное понимание на ограниченных наборах данных сцен, что ограничивает обобщение для новых компоновок. Вместо этого мы перепрограммируем предварительно обученный генератор 3D-объектов, чтобы он функционировал как обучающийся на уровне сцены, заменяя привязку к данным на модель-центрированный пространственный контроль. Это перепрограммирование раскрывает переносимые пространственные знания генератора, позволяя обобщать для неизвестных компоновок и новых композиций объектов. Примечательно, что пространственное мышление возникает даже тогда, когда обучающие сцены состоят из случайно составленных объектов. Это демонстрирует, что переносимое априорное знание о сцене, заложенное в генераторе, предоставляет богатый сигнал для обучения выводу близости, поддержки и симметрии на основе чисто геометрических признаков. Заменяя широко используемое каноническое пространство, мы реализуем этот подход через видово-центричную формулировку пространства сцены, создавая полностью прямой, обобщаемый генератор сцен, который изучает пространственные отношения непосредственно из модели объектов. Количественные и качественные результаты показывают, что 3D-генератор объектов является неявным пространственным учеником и системой логического вывода, указывая путь к базовым моделям для интерактивного понимания и генерации 3D-сцен. Страница проекта: https://luling06.github.io/I-Scene-project/
Мы представляем Flowception — новую неавторегрессионную систему генерации видео переменной длины. Flowception изучает вероятностный путь, чередующий дискретные вставки кадров с непрерывным шумоподавлением кадров. По сравнению с авторегрессионными методами, Flowception снижает накопление ошибок и дрейф, поскольку механизм вставки кадров во время выборки служит эффективным механизмом сжатия для обработки долгосрочного контекста. По сравнению с методами полных последовательностей, наш подход сокращает FLOPs при обучении в три раза, лучше адаптируется к вариантам локального внимания и позволяет совместно изучать длину видео с их содержанием. Количественные эксперименты демонстрируют улучшение метрик FVD и VBench по сравнению с авторегрессионными и полнопоследовательными базовыми методами, что дополнительно подтверждается качественными результатами. Наконец, благодаря обучению вставке и шумоподавлению кадров в последовательности, Flowception обеспечивает бесшовную интеграцию различных задач, таких как генерация видео из изображений и интерполяция видео.
Понимание движения является основой физического мышления, позволяя моделям выводить динамику и предсказывать будущие состояния. Однако современные модели по-прежнему демонстрируют низкие результаты на новых бенчмарках движения, в первую очередь из-за нехватки крупномасштабных наборов данных с детализированной разметкой движения. Существующие наборы данных о движении часто создаются с помощью дорогостоящей ручной разметки, что серьезно ограничивает их масштабируемость. Для решения этой проблемы мы представляем FoundationMotion — полностью автоматизированный конвейер курации данных, который создает крупномасштабные наборы данных о движении. Наш подход сначала обнаруживает и отслеживает объекты на видео для извлечения их траекторий, а затем использует эти траектории и видеокадры вместе с большими языковыми моделями (LLM) для генерации детализированных описаний и разнообразных вопросно-ответных пар о движении и пространственном мышлении. Используя наборы данных, созданные этим конвейером, мы дообучаем модели с открытым исходным кодом, включая NVILA-Video-15B и Qwen2.5-7B, достигая значительного улучшения понимания движения без ухудшения производительности на других задачах. Примечательно, что наши модели превосходят сильные закрытые базовые модели, такие как Gemini-2.5 Flash, и крупные модели с открытым исходным кодом, такие как Qwen2.5-VL-72B, на различных наборах данных и бенчмарках для понимания движения. Таким образом, FoundationMotion предоставляет масштабируемое решение для курации детализированных наборов данных о движении, которые позволяют эффективно дообучать разнообразные модели для улучшения возможностей понимания движения и пространственного мышления.
Мы представляем FIN-bench-v2 — унифицированный набор тестов для оценки больших языковых моделей на финском языке. FIN-bench-v2 объединяет финскоязычные версии широко используемых бенчмарков вместе с обновленной и расширенной версией оригинального FIN-bench в единую коллекцию с согласованным форматом, охватывающую задания с множественным выбором и генеративные задачи по таким направлениям, как понимание прочитанного, здравый смысл, анализ тональности, знание мира и соответствие требованиям. Все наборы данных конвертированы в формат HuggingFace Datasets и включают промпты типа «заполнение пропуска» и «множественный выбор» с пятью вариантами для каждой задачи; для машинно-переведенных ресурсов, таких как GoldenSwag и XED, проведена человеческая аннотация или проверка. Для отбора надежных задач мы предварительно обучаем набор декодерных моделей объемом 2,15 млрд параметров и используем их кривые обучения для вычисления монотонности, отношения сигнал-шум, неслучайности результатов и согласованности порядка моделей, оставляя только задачи, удовлетворяющие всем критериям. Дополнительно мы оцениваем набор более крупных инструктивно-настроенных моделей, чтобы охарактеризовать производительность across задачам и формам промптов. Все наборы данных, промпты и конфигурации оценки общедоступны через нашу версию Language Model Evaluation Harness по адресу https://github.com/LumiOpen/lm-evaluation-harness. Дополнительные ресурсы размещены в отдельном репозитории по адресу https://github.com/TurkuNLP/FIN-bench-v2.
Реальные сцены часто состоят из нескольких статических и динамических объектов. Фиксация их четырехмерных структур, композиции и пространственно-временной конфигурации в естественных условиях, хотя и представляет огромный интерес, является столь же сложной задачей. Поэтому существующие работы часто фокусируются на одном объекте за раз, опираясь на категориально-специфичные параметрические модели формы для динамических объектов. Это может приводить к несогласованным конфигурациям сцены, вдобавок к ограничению смоделированными категориями объектов. Мы предлагаем COM4D (Compositional 4D) — метод, который последовательно и совместно предсказывает структуру и пространственно-временную конфигурацию 4D/3D объектов, используя только supervision на статических мультиобъектных или динамических одиночных объектах. Мы достигаем этого за счет тщательно разработанного обучения пространственных и временных механизмов внимания на основе 2D видеовхода. Обучение разделено на изучение композиций объектов, с одной стороны, и динамики отдельных объектов на протяжении видео — с другой, что полностью исключает необходимость в данных для обучения 4D композиции. На этапе вывода предложенный нами механизм смешивания внимания комбинирует эти независимо изученные типы внимания, не требуя каких-либо примеров 4D композиций. Чередуя пространственные и временные рассуждения, COM4D реконструирует полные и устойчивые 4D сцены с множеством взаимодействующих объектов непосредственно из монохромных видео. Более того, COM4D демонстрирует результаты на уровне state-of-the-art в существующих отдельных задачах реконструкции 4D объектов и композитной 3D реконструкции, несмотря на полностью data-driven подход.
Понимание диаграмм играет ключевую роль при внедрении мультимодальных больших языковых моделей (МБЯМ) в реальные сценарии, такие как анализ научных статей и технических отчетов. В отличие от натуральных изображений, диаграммы сочетают структурированное визуальное расположение (пространственное свойство) с лежащим в основе представлением данных (текстовое свойство) — понимание обоих аспектов необходимо для точного, детализированного анализа диаграмм. Руководствуясь этим наблюдением, мы предлагаем START (Spatial and Textual learning for chART understanding) — подход к пониманию диаграмм через пространственное и текстовое обучение. В частности, мы вводим (i) привязку элементов диаграммы и (ii) генерацию кода по диаграмме для усиления понимания МБЯМ как визуальной структуры диаграммы, так и деталей данных. Для облегчения пространственного и текстового обучения мы предлагаем START-Dataset, сгенерированный с помощью нового конвейера создания данных, который сначала использует МБЯМ для преобразования реальных изображений диаграмм в исполняемый код диаграмм, восстанавливая исходное представление данных при сохранении визуального распределения реальных диаграмм. Затем мы модифицируем код с помощью большой языковой модели (БЯМ), чтобы определить позиции элементов диаграммы, которые отражают её визуальную структуру, решая задачи, недоступные для существующих методов. Для оценки способности модели понимать пространственные структуры диаграмм мы предлагаем эталонный тест Chart Spatial understanding Benchmark (CS-Bench), заполняющий критический пробел в комплексной оценке понимания диаграмм. Благодаря пространственному и текстовому обучению START демонстрирует стабильное улучшение результатов по сравнению с базовыми моделями для различных размеров моделей и наборов данных и значительно превосходит предыдущие state-of-the-art методы. Код, данные и модели будут общедоступны.
Видеоддиффузионные модели произвели революцию в генеративном синтезе видео, однако они неточны, медленны и могут быть непрозрачными в процессе генерации — оставляя пользователей в неведении в течение длительного времени. В данной работе мы предлагаем DiffusionBrowser — модель-агностичную, легковесную декодерную структуру, которая позволяет пользователям интерактивно генерировать превью в любой точке (временной шаг или блок трансформера) процесса шумоподавления. Наша модель способна генерировать многомодальные превью-представления, включающие RGB и внутренние параметры сцены, со скоростью более чем в 4 раза превышающей реальное время (менее 1 секунды для 4-секундного видео), которые передают согласованные внешний вид и движение итогового видео. С помощью обученного декодера мы демонстрируем возможность интерактивного управления генерацией на промежуточных шагах добавления шума посредством реинжекции стохастичности и модального steering, открывая новую возможность контроля. Кроме того, мы систематически исследуем модель с использованием обученных декодеров, раскрывая, как сцена, объекты и другие детали компонируются и собираются в ходе иначе черно-боксного процесса шумоподавления.
Последние достижения в области больших мультимодальных моделей свидетельствуют о том, что явные механизмы логического вывода играют ключевую роль в повышении надежности, интерпретируемости и межмодальной согласованности моделей. Хотя такие подходы, ориентированные на рассуждения, доказали свою эффективность для задач обработки языка и изображений, их применение к трехмерным данным остается недостаточно развитым. CoRe3D представляет собой унифицированную систему логического вывода для понимания и генерации 3D-контента, которая совместно оперирует семантическими и пространственными абстракциями, позволяя высокоуровневым интенциям, выведенным из языка, напрямую направлять формирование низкоуровневого 3D-содержания. Центральным элементом данной архитектуры является пространственно-обоснованное представление для рассуждений, которое декомпозирует латентное пространство 3D на локализованные области, позволяя модели рассуждать о геометрии композиционным и процедурным способом. Благодаря тесной интеграции семантических цепочек рассуждений со структурированным пространственным выводом, CoRe3D генерирует 3D-результаты, которые демонстрируют высокую локальную согласованность и точное соответствие лингвистическим описаниям.
Текстовая инверсия (TI) является эффективным методом персонализации в задачах генерации изображений по тексту, но часто не справляется со сложными запросами. Мы связываем эти неудачи с инфляцией нормы эмбеддингов: изученные токены смещаются к величинам, выходящим за пределы распределения, что ухудшает условие, задаваемое промптом, в трансформерах с предварительной нормализацией. Эмпирически мы показываем, что семантика в основном кодируется направлением в токенном пространстве CLIP, в то время как завышенные нормы вредят контекстуализации; теоретически мы анализируем, как большие величины ослабляют позиционную информацию и затрудняют остаточные обновления в блоках с предварительной нормализацией. Мы предлагаем Направленную текстовую инверсию (DTI), которая фиксирует величину эмбеддинга на уровне, соответствующем распределению, и оптимизирует только направление на единичной гиперсфере с помощью риманова SGD. Мы формулируем обучение направлению как MAP с априорным распределением фон Мизеса-Фишера, что дает постоянный по направлению априорный градиент, который просто и эффективно интегрировать. В различных задачах персонализации DTI улучшает соответствие тексту по сравнению с TI и её вариантами, сохраняя при этом схожесть с объектом. Ключевым является то, что гиперсферическая параметризация DTI позволяет осуществлять плавную, семантически согласованную интерполяцию между изученными концепциями (slerp) — возможность, отсутствующая в стандартной TI. Наши результаты позволяют предположить, что оптимизация только направления является надежным и масштабируемым путем для персонализации, точно следующей промпту.
Модели мира продемонстрировали впечатляющие результаты в задачах обучения роботов. Многие из этих задач по своей природе требуют мультимодального анализа; например, наполнение бутылки водой делает только визуальную информацию неоднозначной или неполной, что требует анализа временной эволюции аудиосигнала с учетом его физических свойств и частотных характеристик. В данной статье мы предлагаем генеративную модель сопоставления латентных потоков для прогнозирования будущих аудионаблюдений, что позволяет системе учитывать долгосрочные последствия при интеграции в политику робота. Мы демонстрируем превосходные возможности нашей системы на двух задачах манипулирования, требующих восприятия реальных аудиосигналов или музыки, в сравнении с методами без прогнозирования. Мы также подчеркиваем, что успешное обучение действиям робота для этих задач зависит не просто от мультимодального ввода, но критически важно точное предсказание будущих аудиосостояний, которые воплощают внутренние ритмические паттерны.
Точные данные о рыболовстве имеют решающее значение для эффективного и устойчивого управления морскими ресурсами. С недавним внедрением систем электронного мониторинга (ЭМ) собирается больше видеоданных, чем можно реалистично просмотреть вручную. В данной статье решается эта проблема путем разработки оптимизированного конвейера глубокого обучения для автоматизированной повторной идентификации (Re-ID) рыб с использованием нового набора данных AutoFish, который имитирует системы ЭМ с конвейерными лентами и шестью внешне схожими видами рыб. Мы показываем, что ключевые метрики Re-ID (R1 и mAP@k) существенно улучшаются за счет использования трюка с выбором сложных троек (hard triplet mining) в сочетании с пользовательским конвейером преобразования изображений, включающим нормализацию, специфичную для набора данных. Применяя эти стратегии, мы демонстрируем, что архитектура Swin-T на основе Vision Transformer последовательно превосходит ResNet-50 на основе сверточной нейронной сети, достигая пиковой производительности в 41,65% mAP@k и 90,43% точности Rank-1. Глубокий анализ показывает, что основная трудность заключается в различении визуально схожих особей одного вида (внутривидовые ошибки), где несоответствие углов обзора оказывается значительно более пагубным, чем частичная окклюзия. Исходный код и документация доступны по адресу: https://github.com/msamdk/Fish_Re_Identification.git
Возрастная макулярная дегенерация (ВМД) и состояния, связанные с хориоидальной неоваскуляризацией (ХНВ), являются ведущими причинами потери зрения во всем мире, при этом оптическая когерентная томография (ОКТ) служит краеугольным камнем для раннего выявления и ведения пациентов. Однако развертывание передовых моделей глубокого обучения, таких как ConvNeXtV2-Large, в клинической практике затруднено из-за их высоких вычислительных потребностей. Поэтому желательно разработать эффективные модели, которые сохраняют высокую диагностическую производительность, обеспечивая при этом возможность развертывания в реальном времени. В данном исследовании предлагается новая структура дистилляции знаний, названная KD-OCT, для сжатия высокопроизводительной модели-учителя ConvNeXtV2-Large, улучшенной с помощью расширенных аугментаций, стохастического усреднения весов и фокальной потери, в облегченную модель-ученика EfficientNet-B2 для классификации случаев нормы, друз и ХНВ. KD-OCT использует дистилляцию в реальном времени с комбинированной функцией потерь, балансирующей передачу "мягких" знаний от учителя и контроль по "жестким" истинным меткам. Эффективность предложенного метода оценивается на наборе данных Глазной больницы Нур (NEH) с использованием перекрестной проверки на уровне пациента. Результаты экспериментов демонстрируют, что KD-OCT превосходит сопоставимые многомасштабные или feature-fusion ОКТ-классификаторы по балансу эффективность-точность, достигая производительности, близкой к учителю, при значительном сокращении размера модели и времени вывода. Несмотря на сжатие, модель-ученик превосходит большинство существующих фреймворков, что способствует ее развертыванию на периферийных устройствах для скрининга ВМД. Код доступен по адресу https://github.com/erfan-nourbakhsh/KD-OCT.