Ежедневно отобранные исследовательские статьи по ИИ с переводами
Видео-ориентированные модели мира развиваются в рамках двух основных парадигм: генерации видео и 3D-реконструкции. Однако существующие бенчмарки для оценки либо узко фокусируются на визуальном качестве и соответствии тексту и видео для генеративных моделей, либо опираются на метрики статической 3D-реконструкции, которые принципиально игнорируют временную динамику. Мы утверждаем, что будущее моделирования мира лежит в 4D-генерации, которая совместно моделирует пространственную структуру и временную эволюцию. В этой парадигме ключевой способностью является интерактивный отклик: возможность достоверно отражать то, как действия взаимодействия управляют переходами состояний в пространстве и времени. Однако ни один существующий бенчмарк систематически не оценивает это критически важное измерение. Чтобы заполнить этот пробел, мы предлагаем Omni-WorldBench — комплексный бенчмарк, специально разработанный для оценки интерактивных способностей отклика моделей мира в 4D-сценариях. Omni-WorldBench состоит из двух ключевых компонентов: Omni-WorldSuite, систематического набора промптов, охватывающего различные уровни взаимодействия и типы сцен; и Omni-Metrics, агент-ориентированной системы оценки, которая количественно определяет возможности моделирования мира путем измерения причинно-следственного воздействия действий взаимодействия как на конечные результаты, так и на траектории эволюции промежуточных состояний. Мы проводим масштабную оценку 18 репрезентативных моделей мира из различных парадигм. Наш анализ выявляет критические ограничения текущих моделей мира в области интерактивного отклика, предоставляя практические insights для будущих исследований. Omni-WorldBench будет публично выпущен для стимулирования прогресса в области интерактивного 4D-моделирования мира.
Мы представляем daVinci-MagiHuman — открытую генеративную фреймворк-модель для работы с аудио и видео, ориентированную на создание контента с участием человека. daVinci-MagiHuman совместно генерирует синхронизированные видео и аудио, используя однопоточный трансформер, который обрабатывает текст, видео и аудио в рамках единой токенной последовательности исключительно с помощью self-attention. Эта однопоточная архитектура позволяет избежать сложностей многопоточных или cross-attention архитектур, оставаясь при этом простой для оптимизации с использованием стандартной инфраструктуры для обучения и вывода. Модель демонстрирует особую эффективность в сценариях с участием человека, создавая выразительную мимику лица, естественную координацию речи и выражения эмоций, реалистичные движения тела и точную синхронизацию аудио и видео. Она поддерживает многоязыковую речевую генерацию на китайском (мандаринский и кантонский диалекты), английском, японском, корейском, немецком и французском языках. Для эффективного вывода мы объединили однопоточный бэкбон с дистилляцией модели, супер-разрешением в латентном пространстве и Turbo VAE декодером, что позволяет генерировать 5-секундное видео с разрешением 256p за 2 секунды на одном GPU H100. При автоматической оценке daVinci-MagiHuman демонстрирует наивысшее качество визуала и соответствие тексту среди ведущих открытых моделей, а также наименьший процент ошибок распознавания слов (14.60%) для разборчивости речи. В попарном человеческом оценивании модель демонстрирует процент предпочтений в 80.0% против Ovi 1.1 и 60.9% против LTX 2.3 по результатам 2000 сравнений. Мы открываем полный стек модели, включая базовую модель, дистиллированную модель, модель для супер-разрешения и код для вывода.
Обучение глубоких исследовательских агентов требует длительных траекторий, которые чередуют поиск, агрегацию свидетельств и многошаговые рассуждения. Однако существующие конвейеры сбора данных обычно полагаются на проприетарные веб-API, что делает синтез крупномасштабных траекторий дорогостоящим, нестабильным и сложным для воспроизведения. Мы представляем OpenResearcher — воспроизводимый конвейер, который разделяет однократную начальную загрузку корпуса и многоходовый синтез траекторий и полностью выполняет цикл «поиск-просмотр» в автономном режиме, используя три явных браузерных примитива: поиск, открытие и поиск внутри страницы, работая с корпусом из 15 миллионов документов. Используя GPT-OSS-120B в качестве учительской модели, мы синтезировали более 97 тысяч траекторий, включая значительную часть длинных траекторий со 100+ вызовами инструментов. Контролируемое тонкое обучение модели-основы 30B-A3B на этих траекториях позволяет достичь точности 54,8% на BrowseComp-Plus, что на 34,0 пункта выше, чем у базовой модели, при сохранении конкурентоспособности на BrowseComp, GAIA и xbench-DeepSearch. Поскольку среда работает автономно и полностью инструментирована, это также позволяет проводить контролируемый анализ; наше исследование выявляет практические аспекты проектирования конвейера глубокого исследования, включая стратегии фильтрации данных, выбор конфигурации агента и то, как успех поиска связан с точностью конечного ответа. Мы публикуем конвейер, синтезированные траектории, контрольные точки модели и автономную поисковую среду по адресу https://github.com/TIGER-AI-Lab/OpenResearcher.
Модели «зрение–язык» (VLMs) обычно обрабатывают изображения в исходном высоком разрешении, что вынуждает идти на компромисс между точностью и вычислительной эффективностью: входные данные высокого разрешения сохраняют мелкие детали, но требуют значительных вычислительных затрат, в то время как входные данные низкого разрешения, хотя и обеспечивают эффективность, потенциально упускают критически важную визуальную информацию, например, мелкий текст. Мы представляем AwaRes, пространственную framework по требованию, которая разрешает этот компромисс «точность–эффективность» за счёт работы с глобальным обзором в низком разрешении и использования вызова инструментов для извлечения только тех сегментов высокого разрешения, которые необходимы для данного запроса. Мы автоматически создаём размеченные данные: арбитр сравнивает ответы на основе низкого и высокого разрешения, чтобы определить, требуется ли обрезка (cropping), а модель привязки (oracle grounding model) локализует доказательства для правильного ответа, которые мы сопоставляем с дискретным набором обрезков для формирования многошаговых траекторий использования инструментов. Мы обучаем нашу framework, начиная с SFT «с нуля» (cold-start), с последующим применением многошагового GRPO с композитным вознаграждением, сочетающим семантическую правильность ответа с явными штрафами за стоимость обрезков. Страница проекта: https://nimrodshabtay.github.io/AwaRes
Мы представляем LongCat-Flash-Prover — флагманскую открытую модель Mixture-of-Experts (MoE) с 560 миллиардами параметров, которая развивает нативное формальное рассуждение в Lean4 за счёт агентного рассуждения с интеграцией инструментов (Tool-Integrated Reasoning, TIR). Мы декомпозируем задачу нативного формального рассуждения на три независимые формальные способности: автоформализацию, создание эскизов (скетчинг) и доказательство. Для поддержки этих способностей мы предлагаем Гибридный экспертный итерационный фреймворк (Hybrid-Experts Iteration Framework) для расширения высококачественных траекторий задач, включая генерацию формального утверждения по заданной неформальной проблеме, создание полного доказательства непосредственно из утверждения или леммо-подобного эскиза. В ходе агентного обучения с подкреплением (RL) мы представляем алгоритм Иерархической оптимизации стратегии с важностным взвешиванием (Hierarchical Importance Sampling Policy Optimization, HisPO), направленный на стабилизацию обучения MoE-модели на таких задачах с длинным горизонтом. Он использует стратегию маскирования градиентов, учитывающую устаревание стратегии и присущие расхождения между механизмами обучения и вывода на уровне как последовательности, так и отдельных токенов. Кроме того, мы также внедряем механизмы проверки согласованности теорем и корректности для устранения проблем взлома функции вознаграждения (reward hacking). Обширные оценки показывают, что наша модель LongCat-Flash-Prover устанавливает новое state-of-the-art значение для моделей с открытыми весами как в автоформализации, так и в доказательстве теорем. Продемонстрировав выдающуюся эффективность по выборке, она достигает 97.1% успешных решений на MiniF2F-Test, используя всего 72 шага вывода на задачу. На более сложных бенчмарках модель решает 70.8% задач ProverBench и 41.5% задач PutnamBench, делая не более 220 попыток на задачу, что значительно превосходит существующие открытые базовые модели.
Понимание длинных видео остается сложной задачей для мультимодальных больших языковых моделей (MLLM) из-за ограниченных размеров контекстного окна, что требует выявления разреженных сегментов видео, релевантных запросу. Однако существующие методы в основном локализуют ключевые фрагменты, опираясь исключительно на запрос, игнорируя внутреннюю структуру видео и различную степень релевантности между сегментами. Для решения этой проблемы мы предлагаем фреймворк VideoDetective, который интегрирует релевантность "запрос-сегмент" и аффинность между сегментами для эффективного поиска ключевых фрагментов при ответах на вопросы по длинным видео. В частности, мы разделяем видео на сегменты и представляем их в виде визуально-временного графа аффинности, построенного на основе визуального сходства и временной близости. Затем мы выполняем цикл "Гипотеза-Верификация-Уточнение" для оценки релевантности наблюдаемых сегментов запросу и распространяем эти оценки на ненаблюдаемые сегменты, получая глобальное распределение релевантности, которое направляет локализацию наиболее важных сегментов для финального ответа при разреженном наблюдении. Эксперименты показывают, что наш метод стабильно обеспечивает значительное улучшение результатов для широкого спектра основных MLLM на репрезентативных бенчмарках, с повышением точности до 7.5% на VideoMME-long. Наш код доступен по адресу https://videodetective.github.io/
Несмотря на выдающиеся успехи крупномасштабных предобученных моделей представления изображений (т.е. визуальных энкодеров) в решении различных задач компьютерного зрения, они преимущественно обучаются на данных 2D-изображений и, как следствие, часто не способны улавливать трехмерные пространственные взаимосвязи между объектами и фоном в реальном мире, что ограничивает их эффективность во многих прикладных задачах. Для решения этой проблемы мы предлагаем SpatialBoost — масштабируемую структуру, которая повышает пространственную осведомленность существующих предобученных визуальных энкодеров путем внедрения 3D-пространственных знаний, выраженных в лингвистических описаниях. Основная идея заключается в преобразовании плотной 3D-пространственной информации из 2D-изображений в лингвистические выражения, которые затем используются для внедрения таких пространственных знаний в визуальные энкодеры с помощью большой языковой модели (LLM). Для этого мы применяем многошаговый процесс рассуждений по цепочке мыслей (Chain-of-Thought, CoT), который постепенно интегрирует плотные пространственные знания и выстраивает иерархическое пространственное понимание. Для проверки эффективности мы адаптируем SpatialBoost к передовым визуальным энкодерам, таким как DINOv3, и оцениваем достигаемый прирост производительности на широком наборе тестов, требующих как 3D-восприятия, так и общих способностей компьютерного зрения. Например, SpatialBoost улучшает производительность DINOv3 с 55.9 до 59.7 mIoU на наборе данных ADE20K, достигая рекордного результата с приростом на 3.8% по сравнению с предобученной моделью DINOv3.
Хотя недавние достижения в области генеративных латентных пространств обеспечили значительный прогресс в генерации одиночных изображений, оптимальное латентное пространство для синтеза новых ракурсов (NVS) остаётся в значительной степени неисследованным. В частности, NVS требует геометрически согласованной генерации между различными точками обзора, однако существующие подходы обычно работают в независимом от вида латентном пространстве VAE. В данной статье мы предлагаем Geometric Latent Diffusion (GLD) — фреймворк, который перепрофилирует геометрически согласованное пространство признаков моделей геометрического фундамента в качестве латентного пространства для мультивьюзовской диффузии. Мы показываем, что эти признаки не только обеспечивают высокоточную реконструкцию RGB, но и кодируют сильные геометрические соответствия между ракурсами, создавая хорошо подходящее латентное пространство для NVS. Наши эксперименты демонстрируют, что GLD превосходит как VAE, так и RAE по метрикам качества 2D-изображений и 3D-согласованности, одновременно ускоряя обучение более чем в 4,4 раза по сравнению с латентным пространством VAE. Примечательно, что GLD остаётся конкурентоспособным с передовыми методами, использующими крупномасштабное предварительное обучение на текстово-изображенческих данных, несмотря на обучение своей диффузионной модели с нуля без такого генеративного предобучения.
Современное обучение языковых моделей обычно применяет многозадачную тонкую настройку с учителем (SFT) с использованием однородных вычислительных ресурсов для всех подвыборок данных. Этот подход является принципиально неоптимальным: из-за неоднородной динамики обучения быстрее обучающиеся задачи преждевременно переобучаются, тогда как более медленные остаются недообученными. Для решения этой проблемы мы представляем mSFT — итеративный алгоритм поиска смесей данных для многозадачного обучения, учитывающий переобучение. mSFT обучает модель на активной смеси, идентифицирует и исключает наиболее рано переобучающуюся подвыборку, возвращаясь к её конкретному оптимальному контрольному пункту перед продолжением обучения. Многочисленные оценки демонстрируют, что mSFT стабильно превосходит 4 базовых метода на 10 тестовых наборах и 6 базовых моделях. Дальнейший анализ подтверждает, что mSFT сохраняет устойчивое преимущество при различных размерах наборов данных, гранулярности задач и нечувствителен к своему единственному новому гиперпараметру (вычислительному бюджету). Примечательно, что при малом вычислительном бюджете mSFT способен улучшить производительность, одновременно снижая количество FLOPs обучения. В итоге, mSFT представляет собой практический алгоритм многозадачной SFT, учитывающий переобучение, который максимизирует потенциал моделей на разнообразных смесях данных.
Методы групповой относительной оптимизации политики (Group Relative Policy Optimization, GRPO) для генерации видео, такие как FlowGRPO, остаются значительно менее надежными по сравнению с их аналогами для языковых моделей и изображений. Этот разрыв возникает из-за того, что генерация видео имеет сложное пространство решений, а преобразование ОДУ в СДУ, используемое для исследования, может вносить избыточный шум. Это снижает качество сгенерированных последовательностей и делает оценку вознаграждения менее достоверной, что дестабилизирует послетренировочную адаптацию. Чтобы решить эту проблему, мы рассматриваем предварительно обученную модель как задающую допустимое многообразие видеоданных и формулируем ключевую задачу как ограничение исследования в окрестности этого многообразия, что гарантирует сохранение качества rollout-ов и надежность оценок вознаграждения. Мы предлагаем метод SAGE-GRPO (Stable Alignment via Exploration), который применяет ограничения как на микро-, так и на макроуровне. На микроуровне мы выводим точное СДУ с учетом многообразия, включающее логарифмическую поправку на кривизну, и вводим уравнитель нормы градиента для стабилизации выборки и обновлений на разных временных шагах. На макроуровне мы используем двойной регион доверия с периодически перемещаемым якорем и пошаговыми ограничениями, так что регион доверия отслеживает контрольные точки, находящиеся ближе к многообразию, и ограничивает долгосрочный дрейф. Мы оцениваем SAGE-GRPO на модели HunyuanVideo1.5, используя оригинальный VideoAlign в качестве модели вознаграждения, и наблюдаем устойчивое улучшение по сравнению с предыдущими методами по метрикам VQ, MQ, TA и визуальным метрикам (CLIPScore, PickScore), что демонстрирует превосходную производительность как в максимизации вознаграждения, так и в общем качестве видео. Код и визуальная галерея доступны по адресу https://dungeonmassster.github.io/SAGE-GRPO-Page/.
Методы прямого прохода 3D гауссовского сглаживания позволяют осуществлять реконструкцию за один проход и рендеринг в реальном времени. Однако они обычно используют жесткие конвейеры «пиксель-Гаусс» или «воксель-Гаусс», которые равномерно распределяют гауссовы функции, что приводит к избыточности гауссовых функций между различными ракурсами. Более того, в них отсутствует эффективный механизм для контроля общего количества гауссовых функций при сохранении точности реконструкции. Для решения этих проблем мы представляем F4Splat, который выполняет прогнозируемое уплотнение для методов прямого прохода 3D гауссовского сглаживания, вводя стратегию распределения, управляемую оценкой уплотнения. Эта стратегия адаптивно распределяет гауссовы функции в соответствии с пространственной сложностью и степенью перекрытия между ракурсами. Наша модель прогнозирует оценки уплотнения для каждой области, чтобы оценить требуемую плотность гауссовых функций, и позволяет явно контролировать итоговый бюджет гауссовых функций без переобучения. Такое пространственно-адаптивное распределение снижает избыточность в простых областях и минимизирует дублирование гауссовых функций в перекрывающихся ракурсах, создавая компактные, но качественные 3D-представления. Многочисленные эксперименты демонстрируют, что наша модель превосходит предыдущие методы прямого прохода без калибровки по качеству синтеза новых видов, используя при этом значительно меньше гауссовых функций.
Задача открыто-словарного 3D-обнаружения объектов заключается в локализации и распознавании объектов, выходящих за пределы фиксированной таксономии обучения. В условиях многовидовых RGB-настроек современные подходы часто разделяют построение геометрически-ориентированных экземпляров и семантическую маркировку, генерируя класс-независимые фрагменты и назначая открыто-словарные категории постфактум. Несмотря на гибкость, такое разделение приводит к тому, что построение экземпляров управляется в основном геометрической согласованностью без семантических ограничений на этапе слияния. Когда геометрические данные зависят от ракурса и неполны, такое чисто геометрическое слияние может приводить к необратимым ошибкам ассоциации, включая избыточное слияние различных объектов или фрагментацию единого экземпляра. Мы предлагаем Group3D — многовидовую открыто-словарную систему 3D-обнаружения, которая интегрирует семантические ограничения непосредственно в процесс построения экземпляров. Group3D поддерживает адаптивный к сцене словарь, полученный из мультимодальной большой языковой модели (MLLM), и организует его в группы семантической совместимости, кодирующие допустимые межвидовые категориальные эквивалентности. Эти группы выступают в качестве ограничений при слиянии: 3D-фрагменты ассоциируются только тогда, когда они удовлетворяют как семантической совместимости, так и геометрической согласованности. Такое семантически управляемое слияние смягчает проблему избыточного слияния, вызванного геометрией, и учитывает вариабельность категорий между видами. Group3D поддерживает как сценарии с известными, так и с неизвестными позами, полагаясь исключительно на RGB-наблюдения. Эксперименты на ScanNet и ARKitScenes показывают, что Group3D достигает передовых результатов в многовидовом открыто-словарном 3D-обнаружении, демонстрируя при этом сильную обобщающую способность в сценариях zero-shot. Страница проекта доступна по адресу https://ubin108.github.io/Group3D/.
Повышение качества воплощенного мышления в мультимодальных больших языковых моделях (МБЯМ) является ключевым для построения на их основе моделей «зрение-язык-действие» (VLA), способных эффективно трансформировать мультимодальное понимание в низкоуровневые действия. В связи с этим в последних работах исследуется улучшение воплощенного мышления в МБЯМ с помощью обучения на данных типа «визуальный вопрос-ответ». Однако сообщается, что такие подходы приводят к нестабильной работе VLA, часто давая лишь незначительный или даже отрицательный прирост производительности. В данной статье мы предлагаем более систематическую框架 обучения МБЯМ под названием RoboAlign, которая надежно повышает производительность VLA. Наша ключевая идея заключается в сэмплировании токенов действий с помощью zero-shot рассуждений на естественном языке и последующем улучшении этих рассуждений с использованием обучения с подкреплением (RL) для повышения точности действий. В результате RoboAlign преодолевает модальный разрыв между языком и низкоуровневыми действиями в МБЯМ и способствует передаче знаний от МБЯМ к VLA. Для проверки эффективности RoboAlign мы обучаем модели VLA, добавляя диффузионный головной модуль действий к базовой МБЯМ, и оцениваем их на основных робототехнических бенчмарках. Примечательно, что выполняя RL-выравнивание после SFT с использованием менее 1% данных, RoboAlign достигает улучшения производительности на 17,5%, 18,9% и 106,6% по сравнению с SFT-базисами на средах LIBERO, CALVIN и в реальном мире соответственно.
Крупные языковые модели (LLM) демонстрируют галлюцинации при выполнении задач, требующих работы со знаниями. Графовая генерация с расширением на основе поиска (RAG) показала себя как перспективное решение, однако существующие подходы страдают от фундаментальных ограничений по полноте и точности при работе с "черными ящиками" графов знаний — графами, схема и структура которых заранее неизвестны. Мы выделяем три ключевые проблемы, вызывающие потерю полноты (неопределенность семантической инстанциировки и неопределенность структурных путей) и потерю точности (неопределенность сравнительной оценки доказательств). Для решения этих проблем мы формализуем задачу поиска как задачу поиска оптимального информативного подграфа (Optimal Informative Subgraph Retrieval, OISR) — вариант задачи о групповом дереве Штейнера — и доказываем, что она является NP-трудной и APX-трудной. Мы предлагаем BubbleRAG, не требующий обучения конвейер, который системно оптимизирует как полноту, так и точность за счет семантической группировки якорей, эвристического пузырькового расширения для обнаружения графов-кандидатов на роль доказательств (CEG), композитного ранжирования и расширения с учетом логического вывода. Эксперименты на бенчмарках многозвенного вопросно-ответного поиска показывают, что BubbleRAG достигает наилучших результатов, превосходя сильные базовые методы как по F1-мере, так и по точности, оставаясь при этом решением типа "plug-and-play".
Подкрепляемое обучение с верифицируемыми вознаграждениями (RLVR) существенно улучшило способности больших языковых моделей к рассуждению. Хотя существующие анализы показывают, что изменения, вызванные RLVR, являются разреженными, они в основном сосредоточены на величине этих обновлений, в значительной степени упуская из виду их направление. В данной работе мы утверждаем, что направление обновлений является более важной перспективой для понимания эффектов RLVR, которое может быть захвачено разницей в логарифмических вероятностях на уровне токенов со знаком, Δlog p, между базовой и финальной RLVR-моделями. С помощью статистического анализа и интервенций с заменой токенов мы демонстрируем, что Δlog p более эффективно идентифицирует разреженные, но критически важные для рассуждений обновления, чем метрики, основанные на величине (например, дивергенция или энтропия). Основываясь на этом наблюдении, мы предлагаем два практических приложения: (1) метод экстраполяции во время тестирования, который усиливает политику вдоль изученного направления Δlog p для повышения точности рассуждений без дополнительного обучения; (2) метод перевзвешивания во время обучения, который фокусирует обучение на токенах с низкой вероятностью (соответствующих более высокому Δlog p), что улучшает производительность рассуждений в различных моделях и бенчмарках. Наша работа устанавливает направление изменений в качестве ключевого принципа для анализа и улучшения RLVR.
Посттренировка агентных задач с длинным горизонтом сталкивается с противоречием между вычислительной эффективностью и обобщающей способностью. Хотя контролируемая донастройка (SFT) вычислительно эффективна, она часто страдает от деградации на данных за пределами домена (OOD). Напротив, сквозное обучение с подкреплением (E2E RL) сохраняет OOD-способности, но требует высоких вычислительных затрат из-за множества циклов он-полисичных прогонов. Мы представляем PivotRL — новую структуру, которая работает с существующими SFT-траекториями, чтобы объединить вычислительную эффективность SFT с OOD-точностью E2E RL. PivotRL опирается на два ключевых механизма: во-первых, он выполняет локальные он-полисичные прогоны и фильтрует их для выявления поворотных точек — информативных промежуточных шагов, на которых сэмплированные действия демонстрируют высокую дисперсию исходов; во-вторых, он использует вознаграждения для функционально эквивалентных действий, а не требует строгого строкового соответствия с демонстрационными данными SFT. Теоретически мы показываем, что эти механизмы создают сильные обучающие сигналы с высокой нормой натурального градиента, одновременно максимально сохраняя порядок вероятностей политики для действий, не связанных с обучающими задачами. По сравнению со стандартной SFT на идентичных данных мы демонстрируем, что PivotRL в среднем достигает на 4.17% более высокой точности внутри домена в четырёх агентных областях и на 10.04% более высокой OOD-точности в неагентных задачах. Примечательно, что в агентных задачах по программированию PivotRL достигает конкурентоспособной точности с E2E RL, используя в 4 раза меньше циклов прогона. PivotRL используется в модели NVIDIA Nemotron-3-Super-120B-A12B, выступая в качестве рабочей лошадки в посттренировке агентов на производственных масштабах.
Существующие методы оптимизации промптов полагаются на локальные сигналы для обновления поведения, часто игнорируя более широкие и повторяющиеся паттерны между задачами, что приводит к слабой обобщающей способности; кроме того, они зависят от полных перезаписей промптов или неструктурированных слияний, что ведет к потере знаний. Эти ограничения усугубляются в рабочих процессах исследовательского программирования, которые включают гетерогенные репозитории, неполноценно специфицированные окружения и слабую обратную связь, где воспроизведение результатов из публичных кодобаз является устоявшимся режимом оценки. Мы представляем REVERE (Reflective Evolving Research Engineer) — фреймворк, который непрерывно обучается на глобальном тренировочном контексте, распознает повторяющиеся режимы сбоев в траекториях выполнения кода из разных репозиториев, distillирует их в переиспользуемые эвристики и выполняет целевые правки в трех настраиваемых полях: системный промпт, шаблон промпта задачи и кумулятивный читшит. REVERE, благодаря этой рефлексивной оптимизационной структуре, улучшает производительность по сравнению с предыдущими state-of-the-art инструкциями, созданными экспертами для задач исследовательского программирования, на 4.50% на SUPER, 3.51% на ResearchCodeBench и 4.89% на ScienceAgentBench в соответствии с их метриками. Эти результаты демонстрируют, что агенты, оснащенные механизмами непрерывного обучения и консолидации глобальной памяти, могут существенно развивать свои возможности с течением времени.
Модели, объединяющие зрение и язык, такие как CLIP, являются ключевыми компонентами мультимодального ИИ, однако их крупномасштабные, некурируемые обучающие данные вносят серьёзные социальные и ложные смещения. Существующие постфактумные методы устранения смещений часто работают непосредственно в плотном пространстве эмбеддингов CLIP, где информация о смещениях и релевантная для задачи информация сильно переплетены. Это переплетение ограничивает их способность удалять смещения без ухудшения семантической точности. В данной работе мы предлагаем Sparse Embedding Modulation (SEM) — постфактумную, zero-shot-методику устранения смещений, работающую в латентном пространстве Sparse Autoencoder (SAE). Разлагая текстовые эмбеддинги CLIP на разделимые признаки, SEM идентифицирует и модулирует нейроны, связанные со смещениями, сохраняя при этом нейроны, релевантные запросу. Это позволяет осуществлять более точные нелинейные вмешательства. На четырёх бенчмарк-наборах данных и двух архитектурах CLIP SEM демонстрирует значительное улучшение справедливости в задачах поиска и zero-shot-классификации. Наши результаты показывают, что разреженные латентные представления обеспечивают эффективную основу для постфактумного устранения смещений в моделях «зрение–язык».
Генеративные модели и визуальные энкодеры долгое время развивались по отдельности, будучи оптимизированы для разных целей и основаны на различных математических принципах. Тем не менее, они обладают фундаментальным общим свойством: гауссовостью латентного пространства. Генеративные модели отображают гауссов шум в изображения, в то время как энкодеры отображают изображения в семантические эмбеддинги, координаты которых, как показывает практика, ведут себя как гауссовы. Мы выдвигаем гипотезу, что оба подхода являются взглядами на общий латентный источник — Универсальное Нормальное Вложение (Universal Normal Embedding, UNE): приблизительно гауссово латентное пространство, из которого эмбеддинги энкодеров и инвертированный DDIM-шум возникают как зашумленные линейные проекции. Для проверки гипотезы мы представляем NoiseZoo — набор данных латентных представлений для каждого изображения, включающий инвертированный диффузионный шум DDIM и соответствующие представления энкодеров (CLIP, DINO). На CelebA линейные пробы в обоих пространствах дают сильные, согласованные предсказания атрибутов, что указывает на то, что генеративный шум кодирует содержательную семантику вдоль линейных направлений. Эти направления также позволяют выполнять точные контролируемые редактирования (например, улыбка, пол, возраст) без изменения архитектуры, причем простая ортогонализация позволяет снизить ложные переплетения. В совокупности наши результаты предоставляют эмпирическое подтверждение гипотезы UNE и раскрывают общую гауссоподобную латентную геометрию, которая конкретно связывает кодирование и генерацию. Код и данные доступны по адресу https://rbetser.github.io/UNE/
Метод Weight-Decomposed Low-Rank Adaptation (DoRA) расширяет LoRA за счет разделения величины и направления весов, однако его прямой проход требует вычисления поэлементной нормы по строкам для матрицы W + sBA. Все изученные нами основные фреймворки реализуют это вычисление через материализацию плотного произведения [d_out, d_in] матриц BA. При d_in = 8192 и ранге r = 384 вычисление нормы для одного модуля требует около 512 МБ временной рабочей памяти в формате bf16, что делает DoRA с высоким рангом дорогостоящим и часто неосуществимым в типичных конфигурациях с одной GPU при работе с сотнями адаптируемых модулей и использованием контрольных точек. Мы представляем два системных усовершенствования. *Факторизованная норма* разлагает квадрат нормы на базовую, перекрестную и Грама компоненты, вычислимые через промежуточные значения сложности O(d_out r + r^2), что исключает необходимость плотного произведения. *Слияние ядер Triton* объединяет четырехъядерную композицию DoRA в один проход, сокращая объем пересылаемых данных в памяти примерно в 4 раза и используя численно устойчивую форму, которая избегает катастрофической потери точности в режиме масштабирования близком к единице, где на практике концентрируются масштабы величин. На шести Vision-Language моделях (VLM) объемом 8-32B, протестированных на трех GPU NVIDIA (RTX 6000 PRO, H200, B200) при r = 384 в bf16, объединенная реализация оказывается в 1.5-2.0 раза быстрее реализации DoRA от Hugging Face PEFT при выводе и в 1.5-1.9 раза быстрее при вычислении градиента (без учета шага оптимизатора), с пиковым потреблением VRAM ниже до 7 ГБ. Микробенчмарки на шести GPU, охватывающих четыре поколения архитектур (L40S, A100, RTX 6000 PRO, H200, B200, B300), подтверждают ускорение ядра композиции в 1.5-2.7 раза. Косинусное сходство финальных логитов превышает 0.9999 для всех пар модель/GPU, а кривые обучения при нескольких сидах совпадают со средним отклонением потерь на шаг в пределах 7.1 x 10^-4 за 2000 шагов.
Крупные языковые модели (LLM) достигли выдающейся надежности и расширенных возможностей благодаря пролонгированному рассуждению на этапе тестирования. Однако расширение этих возможностей на мультимодальные крупные языковые модели (MLLM) остается серьезной проблемой из-за критической нехватки высококачественных данных для рассуждений с длинными цепочками и оптимизированных конвейеров обучения. Для преодоления этого разрыва мы представляем унифицированную мульти-агентную систему визуального мышления, которая систематически эволюционирует от нашей базовой ориентированной на изображения модели Insight-V в обобщенную пространственно-временную архитектуру Insight-V++. Сначала мы предлагаем масштабируемый конвейер генерации данных, оснащенный многоуровневой оценкой, который автономно синтезирует структурированные, сложные траектории рассуждений в областях изображений и видео без вмешательства человека. Понимая, что прямое обучение MLLM на таких сложных данных дает неоптимальные результаты, мы разрабатываем двух-агентную архитектуру, состоящую из агента рассуждений для выполнения обширных аналитических цепочек и агента-суммаризатора для критической оценки и выделения итоговых результатов. Хотя наша первоначальная система использовала оптимизацию прямых предпочтений (DPO), ее внеполитическая природа фундаментально ограничивала потенциал обучения с подкреплением. Для преодоления этих ограничений, особенно в контексте понимания длинных видео, Insight-V++ вводит два новых алгоритма, ST-GRPO и J-GRPO, которые улучшают пространственно-временное рассуждение и повышают устойчивость оценки. Ключевым моментом является то, что, используя надежную обратную связь от агента-суммаризатора, мы направляем итеративный процесс генерации путей рассуждений, переобучая всю мульти-агентную систему в непрерывном, самосовершенствующемся цикле. Многочисленные эксперименты на базовых моделях, таких как LLaVA-NeXT и Qwen2.5-VL, демонстрируют значительный прирост производительности на сложных тестах для рассуждений над изображениями и видео, при сохранении высоких способностей на традиционных задачах, сфокусированных на восприятии.
Мы представляем Обобщённую Дискретную Диффузию по Снимкам (GDDS) — унифицированную структуру для дискретного диффузионного моделирования, которая поддерживает произвольные процессы зашумления в больших дискретных пространствах состояний. Наша формулировка охватывает все существующие подходы к дискретной диффузии, обеспечивая при этом значительно большую гибкость в выборе динамики искажения. Прямой процесс зашумления опирается на униформизацию и позволяет осуществлять быстрое произвольное искажение. Для обратного процесса мы выводим простую нижнюю оценку правдоподобия (ELBO), основанную на латентных переменных снимков, а не на всём пути зашумления, что позволяет эффективно обучать стандартные архитектуры генеративного моделирования с чёткой вероятностной интерпретацией. Наши эксперименты на задачах генерации с большим словарным запасом показывают, что предложенная структура превосходит существующие методы дискретной диффузии по эффективности обучения и качеству генерации, и впервые на таком масштабе опережает авторегрессионные модели. Мы предоставляем код и блог-пост на странице проекта: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.
Концепция «сингулярности ИИ» часто ошибочно представляется как единый богоподобный разум. Эволюция предлагает иной путь: интеллект по своей сути является плюралистичным, социальным и реляционным. Последние достижения в области агентного ИИ показывают, что передовые модели рассуждений, такие как DeepSeek-R1, улучшаются не просто за счет «более долгих размышлений». Вместо этого они симулируют внутренние «сообщества мысли» — спонтанные когнитивные дебаты, в которых различные «агенты» спорят, проверяют и примиряют позиции для решения сложных задач. Более того, мы вступаем в эру человеко-машинных кентавров: гибридных субъектов, в которых коллективное агентство превосходит индивидуальный контроль. Масштабирование такого интеллекта требует перехода от диадического согласования (RLHF) к институциональному согласованию. Создавая цифровые протоколы по образцу организаций и рынков, мы можем построить социальную инфраструктуру сдержек и противовесов. Следующий взрыв интеллекта будет не единым кремниевым мозгом, а сложным, комбинаторным обществом, которое специализируется и разрастается, подобно городу. Ни один разум не является островом.
Динамическая маршрутизация промптов позволяет выбирать наиболее подходящую большую языковую модель из пула кандидатов для каждого запроса, оптимизируя производительность при управлении затратами. По мере масштабирования пулов моделей до десятков передовых систем с минимальным разрывом в качестве существующие подходы сталкиваются со значительными трудностями: ручные таксономии задач не способны отразить тонкие различия в возможностях, а монолитные маршрутизаторы не справляются с дифференциацией subtle различий для разнородных задач. Мы предлагаем двухуровневую архитектуру маршрутизации, которая преодолевает эти ограничения за счет автоматического обнаружения детализированных типов задач и оценки качества с учетом контекста задачи. На первом этапе используется кластеризация на основе графов для выявления латентных типов задач и обучения классификатора для распределения промптов по обнаруженным категориям. Второй этап задействует архитектуру смеси экспертов с специализированными головками прогнозирования для получения точных оценок качества. На этапе вывода мы агрегируем прогнозы обоих уровней, достигая баланса между стабильностью на уровне задач и адаптивностью к конкретным промптам. Тестирование на 10 бенчмарках с 11 передовыми моделями показало, что наш метод стабильно превосходит существующие базовые подходы и превышает показатели сильнейшей индивидуальной модели, обеспечивая при этом менее половины ее стоимости.
Повторное использование и вызов существующего кода остаются дорогостоящими и ненадежными, поскольку большинство практических инструментов встроены в гетерогенные репозитории кода и не имеют стандартизированных исполняемых интерфейсов. Хотя большие языковые модели (LLM) и фреймворки вызова инструментов на основе Model Context Protocol (MCP) позволяют выполнять задачи на естественном языке, современные подходы сильно зависят от ручной курации и стандартизации инструментов, что фундаментально ограничивает масштабируемость. В данной статье мы предлагаем ToolRosetta — унифицированную систему, которая автоматически преобразует репозитории открытого кода и API в совместимые с MCP инструменты, надежно вызываемые LLM. Для поставленной пользователем задачи ToolRosetta автономно планирует цепочки инструментов, идентифицирует релевантные кодобазы и конвертирует их в исполняемые MCP-сервисы, обеспечивая сквозное выполнение задачи при минимальном участии человека. Кроме того, ToolRosetta включает уровень проверки безопасности для снижения рисков, присущих выполнению произвольного кода. Масштабные эксперименты в различных научных областях демонстрируют, что ToolRosetta способна автоматически стандартизировать большое количество инструментов с открытым кодом и сократить трудозатраты на воспроизведение и развертывание кода. Примечательно, что за счет бесшовного использования специализированных open-source инструментов агенты на базе ToolRosetta стабильно повышают производительность выполнения задач по сравнению с коммерческими LLM и существующими агентскими системами.
Метод низкоранговой адаптации (LoRA) является де-факто стандартной стратегией тонкой настройки для генерации персонализированных изображений на основе предварительно обученных диффузионных моделей. Выбор подходящего ранга чрезвычайно важен, поскольку он позволяет балансировать между производительностью и потреблением памяти, однако на сегодняшний день это решение часто основывается на консенсусе в сообществе, без учета сложности персонализируемого объекта. Причина очевидна: стоимость подбора оптимального ранга для каждого компонента LoRA имеет комбинаторную сложность, поэтому на практике используются упрощенные подходы, такие как фиксация одинакового ранга для всех компонентов. В данной статье мы делаем первый шаг к преодолению этой проблемы. Вдохновленные вариационными методами, которые изучают адаптивную ширину нейронных сетей, мы позволяем рангам каждого слоя свободно адаптироваться в процессе тонкой настройки на конкретном объекте. Мы достигаем этого за счет введения упорядочивания важности позиций ранга, что эффективно стимулирует создание более высоких рангов только в случае действительной необходимости. Качественно и количественно наш метод, LoRA^2, демонстрирует конкурентоспособный баланс между метриками DINO, CLIP-I и CLIP-T на 29 объектах, требуя при этом значительно меньше памяти и более низкий ранг по сравнению с версиями LoRA с высоким рангом. Код: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.
Искусственные интеллектуальные агенты демонстрируют растущую эффективность в решении изолированных задач программной инженерии, таких как исправление проблем на GitHub. Однако долгосрочные задачи, включающие множество взаимозависимых подзадач, по-прежнему представляют сложности как с точки зрения точности, так и своевременного выполнения. Естественным подходом к решению таких задач в сжатые сроки является асинхронное многоАгентное collaboration, при котором несколько агентов работают над разными частями задачи одновременно. Однако эффективное применение многоагентных систем оказалось на удивление трудным: параллельные правки нескольких агентов конфликтуют друг с другом, зависимости сложно синхронизировать, а объединение частичных результатов в целостное решение представляет проблему. С другой стороны, разработчики-люди давно используют зрелую инфраструктуру collaboration для управления этими challenges в крупных программных проектах. Вдохновляясь этими примитивами collaboration, мы представляем Централизованную Асинхронную Изолированную Делегацию (ЦАИД) — структурированную парадигму координации множества агентов, основанную на трёх ключевых примитивах программной инженерии: централизованное делегирование задач, асинхронное выполнение и изолированные рабочие пространства. ЦАИД формирует учитывающие зависимости планы задач через центральный менеджер, выполняет подзадачи параллельно в изолированных пространствах и консолидирует прогресс посредством структурированной интеграции с выполняемой проверкой на основе тестов. В эмпирической оценке мы установили, что ЦАИД повышает точность на 26,7% абсолютных пунктов по сравнению с одноагентными базовыми уровнями в задачах воспроизведения научных статей (PaperBench) и на 14,3% в задачах разработки Python-библиотек (Commit0). Системный анализ показывает, что ветвление и слияние являются центральным механизмом координации для многоагентного collaboration, а примитивы программной инженерии, такие как git worktree, git commit и git merge, позволяют реализовать его надежным и исполняемым образом.
Крупные визуально-языковые модели (LVLM) превосходно справляются с семантическим пониманием, но испытывают трудности с тонкой пространственной привязкой, поскольку модель должна неявно выводить сложную геометрию, никогда не производя пространственной интерпретации. Мы представляем Perceptio — улучшенную LVLM с восприятием, обладающую способностями к 2D- и 3D-пространственному рассуждению, благодаря явным токенам семантической сегментации и токенам глубины, генерируемым непосредственно внутри авторегрессионной последовательности. Конкретно мы (i) дистиллируем кодбук глубины VQ-VAE из сильного монокулярного учителя для токенизации плотной глубины в компактные последовательности и (ii) интегрируем токены семантической сегментации на основе SAM2 и токены глубины VQ-VAE внутрь LLM, так что модель сначала излучает пространственные токены, а затем отвечает. Для стабилизации генерации токенов глубины мы вводим новые составные целевые функции для токенов глубины (маркерные, токенные и счетные потери) и технику мягкого слияния для дифференцируемой реконструкции. Мы применяем стратегию многозадального совместного обучения на разнообразных наборах данных, позволяя модели изучать токены восприятия для решения множества последующих задач. Построенная на основе InternVL, Perceptio достигает передовой производительности на бенчмарках: улучшая сегментацию по референциальным выражениям на +0.8/+1.4/+1.1 cIoU на RefCOCO/+/g, точность пространственного понимания HardBLINK на 10.3% и точность MMBench на 1.0%, что демонстрирует, что явная пространственная цепочка рассуждений существенно усиливает пространственную привязку в LVLM.
Диффузионные трансформаторы (DiT) являются основой высококачественных видеомировых моделей, но остаются вычислительно дорогими из-за последовательного шумоподавления и затратной пространственно-временной внимательности. Бесплатное для обучения кэширование признаков ускоряет вывод за счет повторного использования промежуточных активаций на шагах денойзинга; однако существующие методы в значительной степени опираются на предположение о нулевом порядке удержания, т.е. повторно используют кэшированные признаки как статические снимки, когда глобальный дрейф невелик. Это часто приводит к артефактам ореола, размытию и несогласованности движения в динамических сценах. Мы предлагаем WorldCache, фреймворк динамического кэширования с перцепционными ограничениями, который улучшает как момент, так и способ повторного использования признаков. WorldCache вводит адаптивные к движению пороги, оценку дрейфа с учетом значимости, оптимальную аппроксимацию посредством смешивания и деформации, а также фазозависимое планирование порогов на шагах диффузии. Наш целостный подход позволяет осуществлять адаптивное, согласованное с движением повторное использование признаков без переобучения. На модели Cosmos-Predict2.5-2B, протестированной на PAI-Bench, WorldCache достигает ускорения вывода в 2.3 раза при сохранении 99.4% качества базового уровня, существенно превосходя предыдущие бесплатные для обучения методы кэширования. Наш код доступен по адресу https://umair1221.github.io/World-Cache/{World-Cache}.
Офлайн-безопасное обучение с подкреплением (RL) ставит целью поиск политик, максимизирующих вознаграждение, из статических наборов данных при строгих ограничениях безопасности. Существующие методы часто опираются на мягкие ожидаемые стоимостные цели или итеративный генеративный вывод, что может быть недостаточным для критичных к безопасности систем реального времени. Мы предлагаем Safe Flow Q-Learning (SafeFQL), который расширяет FQL для безопасного офлайн-RL, комбинируя функцию ценности безопасности, вдохновленную теорией достижимости Гамильтона–Якоби, с эффективной потоковой политикой за один шаг. SafeFQL изучает ценность безопасности с помощью самосогласованной рекурсии Беллмана, обучает потоковую политику путем поведенческого клонирования и дистиллирует её в актора за один шаг для выбора действий, максимизирующих вознаграждение и обеспечивающих безопасность, без использования rejection sampling на этапе эксплуатации. Чтобы учесть ошибку аппроксимации из-за конечности данных в изученной границе безопасности, мы добавляем шаг калибровки с помощью конформного предсказания, который корректирует порог безопасности и обеспечивает вероятностное покрытие безопасности для конечных выборок. Экспериментально SafeFQL демонстрирует умеренно более высокую стоимость офлайн-обучения в обмен на существенно более низкую задержку вывода по сравнению с диффузионными безопасными генеративными базовыми методами, что является преимуществом для развертывания в реальном времени в критичных к безопасности системах. В задачах навигации лодки и в среде Safety Gymnasium MuJoCo SafeFQL соответствует или превосходит предыдущие показатели офлайн-безопасного RL, при этом значительно сокращая количество нарушений ограничений.
Вокализации животных предоставляют ключевые данные для оценки состояния дикой природы, особенно в сложных условиях, таких как леса, способствуя идентификации видов и экологическому мониторингу. Недавние достижения в области глубокого обучения позволили автоматизировать классификацию видов по их вокализациям. Однако классификация видов, не представленных в обучающей выборке, остается сложной задачей. Для преодоления этого ограничения мы представляем AnimalCLAP — таксономически ориентированную языково-аудио платформу, включающую новый набор данных и модель, которые учитывают иерархическую биологическую информацию. В частности, наш набор данных по вокализациям состоит из 4225 часов записей, охватывающих 6823 вида, аннотированных 22 экологическими признаками. Модель AnimalCLAP обучается на этих данных для согласования аудио- и текстовых представлений с использованием таксономических структур, что улучшает распознавание неизвестных видов. Мы демонстрируем, что предложенная модель эффективно выводит экологические и биологические атрибуты видов непосредственно из их вокализаций, превосходя по производительности CLAP. Наши набор данных, код и модели будут общедоступны по адресу https://dahlian00.github.io/AnimalCLAP_Page/.
Модели мира обучаются предсказывать будущие состояния среды, что позволяет осуществлять планирование и мысленное моделирование. Современные подходы по умолчанию используют предикторы на основе трансформеров, работающие в обученных латентных пространствах. Это имеет свою цену: вычислительная сложность O(N^2) и отсутствие явного пространственного индуктивного смещения. В данной статье ставится фундаментальный вопрос: необходимо ли самовнимание для предиктивного моделирования мира, или альтернативные вычислительные субстраты могут достичь сопоставимых или превосходящих результатов? Я представляю FluidWorld, концептуальную модель мира, чья предиктивная динамика управляется уравнениями в частных производных (УЧП) типа реакция-диффузия. Вместо использования отдельного нейросетевого предиктора, само интегрирование УЧП порождает прогноз будущего состояния. В строгом трехстороннем сравнительном анализе с равным количеством параметров для безусловного предсказания видео UCF-101 (64x64, ~800K параметров, идентичные энкодер, декодер, функции потерь и данные), FluidWorld сравнивается с базовым трансформером (самовнимание) и базовой моделью ConvLSTM (сверточная рекуррентность). В то время как все три модели сходятся к сопоставимой ошибке одношагового предсказания, FluidWorld демонстрирует в 2 раза меньшую ошибку реконструкции, порождает представления с сохранением пространственной структуры на 10-15% выше и эффективной размерностью на 18-25% больше, а что критически важно — поддерживает согласованные многошаговые прогнозы, в то время как обе базовые модели быстро деградируют. Все эксперименты были проведены на одном потребительском ПК (Intel Core i5, NVIDIA RTX 4070 Ti) без использования крупномасштабных вычислений. Эти результаты доказывают, что динамика на основе УЧП, которая изначально обеспечивает пространственную сложность O(N), адаптивные вычисления и глобальную пространственную согласованность благодаря диффузии, является жизнеспособной и параметрически эффективной альтернативой как механизму внимания, так и сверточной рекуррентности для моделирования мира.
Диффузионные языковые модели (DLM) обладают привлекательными преимуществами по сравнению с авторегрессионными (AR) моделями, такими как полное параллельное декодирование с механизмом внимания и гибкость генерации. Однако они страдают от значительного несоответствия между обучением и выводом: DLM обучаются с помощью статической цели маскированного предсказания за один шаг, но развертываются через многошаговую траекторию прогрессивного шумоподавления. Мы предлагаем MemDLM (DLM с расширенной памятью), которая сокращает этот разрыв за счет внедрения смоделированного процесса шумоподавления в обучение с помощью двухуровневой оптимизации. Внутренний цикл обновляет набор быстрых весов, формируя Параметрическую Память, которая фиксирует локальный траекторный опыт каждого примера, в то время как внешний цикл обновляет базовую модель с учетом этой памяти. Перекладывая нагрузку по запоминанию с представлений токенов на параметры, MemDLM обеспечивает более быструю сходимость и меньшие потери при обучении. Более того, внутренний цикл может быть повторно активирован во время вывода в качестве шага адаптации, что дает дополнительные преимущества в понимании длинного контекста. Мы обнаружили, что при активации во время вывода эта Параметрическая Память действует как возникающий механизм поиска в весах, помогая MemDLM further снижать узкие места внимания на уровне токенов в сложных задачах поиска "иголки в стоге сена". Код: https://github.com/JarvisPei/MemDLM.
Последние достижения в технологиях синтеза речи позволяют генерировать синтетическую речь высокой точности, практически неотличимую от настоящего человеческого голоса. Хотя современные исследования демонстрируют эффективность речевых энкодеров на основе самообучения для обнаружения дипфейков, эти модели плохо обобщаются на незнакомых дикторов. Наш количественный анализ показывает, что представления этих энкодеров существенно зависят от информации о дикторе, что заставляет детекторы использовать специфичные для диктора корреляции, а не признаки, связанные с артефактами. Мы называем это явление **запутанностью с диктором** (speaker entanglement). Чтобы снизить эту зависимость, мы представляем SNAP — фреймворк, обнуляющий влияние диктора. Мы оцениваем подпространство диктора и применяем ортогональную проекцию для подавления зависящих от диктора компонент, изолируя артефакты синтеза в остаточных признаках. Снижая запутанность с диктором, SNAP побуждает детекторы фокусироваться на артефакт-связанных паттернах, что приводит к передовой производительности.
Глубокие нейронные сети (ГНС) достигли выдающихся успехов в компьютерном зрении, но остаются крайне уязвимыми к атакам со стороны противника. Среди них камуфляжные атаки манипулируют видимым внешним видом объекта, чтобы обмануть детекторы, оставаясь незаметными для человека. В данной статье мы предлагаем новую структуру, которая формулирует камуфляжные атаки на транспортные средства как задачу условного редактирования изображений. В частности, мы исследуем стратегии генерации камуфляжа как на уровне изображения, так и на уровне сцены, и дообучаем ControlNet для синтеза закамуфлированных транспортных средств непосредственно на реальных изображениях. Мы разрабатываем унифицированную целевую функцию, которая совместно обеспечивает структурную достоверность транспортного средства, согласованность стиля и эффективность атаки. Многочисленные эксперименты на наборах данных COCO и LINZ показывают, что наш метод достигает значительно более высокой эффективности атаки, приводя к снижению метрики AP50 более чем на 38%, при этом лучше сохраняя структуру транспортного средства и повышая незаметность с точки зрения человеческого восприятия по сравнению с существующими подходами. Кроме того, наша структура эффективно обобщается на неизвестные черно-бокс детекторы и демонстрирует многообещающую переносимость в физический мир. Страница проекта доступна по адресу https://humansensinglab.github.io/CtrlCamo.
Аудиовизуальная навигация позволяет воплощенным агентам перемещаться к звукоизлучающим целям, используя как слуховые, так и визуальные сигналы. Однако большинство существующих подходов опираются на предварительно рассчитанные импульсные характеристики помещений (ИХП) для бинаурального рендеринга аудио, что ограничивает агентов дискретными позициями в сетке и приводит к пространственно-непрерывным наблюдениям. Чтобы создать более реалистичные условия, мы представляем семантическую аудиовизуальную навигацию в непрерывных средах (SAVN-CE), где агенты могут свободно перемещаться в 3D-пространстве и воспринимать временно и пространственно согласованные аудиовизуальные потоки. В этой среде цели могут периодически замолкать или полностью прекращать излучать звук, что приводит к потере агентом информации о цели. Для решения этой задачи мы предлагаем MAGNet, многомодальную модель на основе трансформеров, которая совместно кодирует пространственные и семантические представления целей и интегрирует исторический контекст с сигналами самодвижения для обеспечения рассуждений о целях с расширенной памятью. Комплексные эксперименты демонстрируют, что MAGNet значительно превосходит современные методы, достигая абсолютного улучшения показателя успешности до 12,1%. Эти результаты также подчеркивают его устойчивость к звукам малой длительности и сценариям навигации на большие расстояния. Код доступен по адресу https://github.com/yichenzeng24/SAVN-CE.
Обучение с подкреплением (RL) играет ключевую роль в преобразовании больших языковых моделей (LLM) в автономные агенты, способные к долгосрочному планированию, однако практическая методика масштабирования RL в сложных, многоходовых средах остается неразработанной. В данной статье представлено систематическое эмпирическое исследование с использованием TravelPlanner — сложного тестового набора, требующего координации инструментов для удовлетворения многогранных ограничений. Мы декомпозируем пространство проектирования агентного RL по пяти направлениям: формирование функции вознаграждения, масштабирование модели, состав данных, выбор алгоритма и стабильность среды. Наши контролируемые эксперименты выявили семь ключевых выводов, например: (1) выбор вознаграждения и алгоритма зависит от масштаба, поскольку меньшие модели выигрывают от поэтапных вознаграждений и расширенного исследования, тогда как более крупные модели эффективно сходятся при использовании простых плотных вознаграждений; (2) ~1000 обучающих примеров со сбалансированной смесью сложности представляют собой оптимальную точку для производительности как внутри домена, так и за его пределами; и (3) стабильность среды критически важна для предотвращения деградации политики. На основе нашей обобщенной методики наши модели, обученные с помощью RL, демонстрируют наилучшие результаты на TravelPlanner, значительно превосходя ведущие LLM.
Клонирование поведения является фундаментальной парадигмой в машинном обучении, позволяющей обучать политики на основе экспертных демонстраций в таких областях, как робототехника, автономное вождение и генеративные модели. Авторегрессионные модели, такие как трансформеры, доказали свою высокую эффективность — от больших языковых моделей (LLM) до систем «зрение-язык-действие» (VLA). Однако применение авторегрессионных моделей к задачам непрерывного управления требует дискретизации действий посредством квантования — широко распространенной практики, но слабо изученной в теоретическом плане. В данной статье закладываются теоретические основы для этой практики. Мы анализируем, как ошибка квантования распространяется вдоль горизонта планирования и взаимодействует со статистической сложностью выборки. Мы показываем, что клонирование поведения с квантованными действиями и логарифмическими потерями достигает оптимальной сложности выборки, соответствуя существующим нижним границам, и приводит лишь к полиномиальной зависимости от горизонта при ошибке квантования при условии, что динамика системы устойчива, а политика удовлетворяет условию вероятностной гладкости. Мы также характеризуем случаи, когда различные схемы квантования удовлетворяют или нарушают эти требования, и предлагаем модельную аугментацию, которая теоретически улучшает границу ошибки без требования гладкости политики. Наконец, мы устанавливаем фундаментальные пределы, которые совместно учитывают влияние ошибки квантования и статистической сложности.
Мы изучаем, может ли апериодическая иерархия обеспечить структурное преимущество для сжатия без потерь по сравнению с периодическими альтернативами. Мы показываем, что квазикристаллические замощения Фибоначчи избегают коллапса конечной глубины, который поражает периодические иерархии: используемые позиции для поиска n-грамм остаются ненулевыми на каждом уровне, в то время как периодические замощения коллапсируют после O(log p) уровней для периода p. Это создает преимущество апериодической иерархии: повторное использование словаря остается доступным на всех масштабах вместо того, чтобы исчезать за конечной глубиной. Наш анализ дает четыре основных следствия. Во-первых, свойство Золотой Компенсации показывает, что экспоненциальный спад количества позиций точно сбалансирован экспоненциальным ростом длины фразы, поэтому потенциальное покрытие остается инвариантным к масштабу с асимптотическим значением Wvarphi/5. Во-вторых, используя закон сложности Штурма p(n)=n+1, мы показываем, что иерархии Фибоначчи/Штурма максимизируют эффективность покрытия кодовой книги среди бинарных апериодических замощений. В-третьих, при наличии дальнодействующих корреляций результирующая иерархия достигает меньшей энтропии кодирования, чем сравнимые периодические иерархии. В-четвертых, избыточность затухает сверхэкспоненциально с глубиной, тогда как периодические системы остаются заблокированными на глубине, где происходит коллапс. Мы проверяем эти результаты с помощью Quasicryth, компрессора текста без потерь, построенного на десятиуровневой иерархии Фибоначчи с длинами фраз {2,3,5,8,13,21,34,55,89,144}. В контролируемых A/B-экспериментах с идентичными кодексами преимущество апериодической схемы над базовым периодом-5 растет с 36 243 Б при 3 МБ до 11 089 469 Б при 1 ГБ, что объясняется активацией более глубоких уровней иерархии. На enwik9 Quasicryth достигает 225 918 349 Б (22.59%), при этом замощение Фибоначчи экономит 20 735 733 Б по сравнению с отсутствием замощения.
Системы диалога, основанные на знаниях, ставят целью генерацию информативных, контекстно-релевантных ответов за счет использования внешних источников знаний. Однако большинство существующих подходов сосредоточены исключительно на английском языке, не имеют явных механизмов цитирования для проверки фактических утверждений и предлагают ограниченную прозрачность процесса принятия решений моделью. Мы представляем XKD-Dial — прогрессивный четырехэтапный конвейер обучения для объяснимой генерации диалогов на основе знаний в двуязычной среде (английский-хинди), включающий: (1) мультиязычную адаптацию, (2) SFT-дообучение на диалогах на английском языке с привязкой к цитированию, (3) двуязычное SFT-дообучение на диалогах и (4) GRPO-выравнивание с учетом цитирования в функциях вознаграждения. Мы оцениваем шесть моделей, охватывающих архитектуры типа «кодировщик-декодировщик» (250M-3B) и только декодера (1B-7B), на каждом этапе конвейера. Наши ключевые вклады заключаются в следующем: (i) три пост-фактум анализа объяснимости — выравнивание кросс-внимания, атрибуция Integrated Gradients и причинно-следственное обоснование на основе окклюзии — систематически применяются на протяжении траектории обучения, чтобы раскрыть, *как* усваивается поведение цитирования, а не только *усваивается ли* оно; (ii) SFT-дообучение с цитированием снижает уровень галлюцинаций до 0.0% для моделей «кодировщик-декодировщик», начиная со 2-го этапа; (iii) прогрессивный конвейер предотвращает катастрофическое забывание, одновременно улучшая возможности работы с хинди; (iv) меньшие модели после SFT-дообучения соответствуют по качеству большим моделям на английском языке; и (v) GRPO дает незначительное улучшение по сравнению с хорошо спроектированным SFT для задач структурированного цитирования. Оценка проводится по шести автоматическим метрикам (BLEU, ROUGE, BERTScore, FactScore, Citation-F1 и уровень галлюцинаций).
В данной работе представлена модель AdditiveLLM2 — многомодальная, адаптированная к предметной области большая языковая модель, построенная на основе инструктивно-дообученного варианта модели Gemma 3 с использованием относительно небольшого набора данных объемом около 50 миллионов токенов. Набор данных (AdditiveLLM2-OA) состоит из статей по аддитивным технологиям с открытым доступом, из которых были извлечены данные для процессов доменной адаптивной предварительной подготовки и визуального инструктивного дообучения. Различные этапы разработанной модели оценивались с помощью Additive-Manufacturing-Benchmark, который включает в себя специализированные задачи для области аддитивного производства, собранные из опубликованных ресурсов. AdditiveLLM2 демонстрирует компетентность как в языковых, так и в визуальных задачах, достигая точности свыше 90% в области общих знаний об аддитивном производстве. Данная стратегия доменной адаптивной предварительной подготовки и инструктивного дообучения описывает доступный метод специализации больших языковых моделей для таких предметных областей, как аддитивное производство.