Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные модели рассуждений продемонстрировали высокие способности к решению задач, однако реальные задачи часто требуют использования внешних инструментов и долгосрочных взаимодействий. Существующие агентские фреймворки обычно следуют предопределенным рабочим процессам, что ограничивает автономное и глобальное выполнение задач. В данной статье мы представляем DeepAgent — энд-ту-энд агент глубокого рассуждения, который выполняет автономное мышление, обнаружение инструментов и выполнение действий в рамках единого связного процесса рассуждений. Для решения проблем долгосрочных взаимодействий, в частности взрывного роста длины контекста из-за множественных вызовов инструментов и накопления истории взаимодействий, мы предлагаем механизм автономного сворачивания памяти, который сжимает прошлые взаимодействия в структурированные эпизодическую, рабочую и инструментальную памяти, снижая накопление ошибок при сохранении критически важной информации. Для эффективного и стабильного обучения универсальному использованию инструментов мы разработали энд-ту-энд стратегию обучения с подкреплением ToolPO, которая использует API, симулированные с помощью LLM, и применяет атрибуцию преимущества вызова инструментов для назначения детализированного кредита токенам вызова инструментов. Многочисленные эксперименты на восьми бенчмарках, включая задачи общего использования инструментов (ToolBench, API-Bank, TMDB, Spotify, ToolHop) и прикладные задачи (ALFWorld, WebShop, GAIA, HLE), демонстрируют, что DeepAgent стабильно превосходит базовые методы как в сценариях с размеченными инструментами, так и в сценариях открытого поиска инструментов. Данная работа представляет шаг в сторону создания более универсальных и эффективных агентов для реальных приложений. Код и демонстрация доступны по адресу https://github.com/RUC-NLPIR/DeepAgent.
Передовые модели логического вывода продемонстрировали впечатляющие способности в самых разных областях благодаря дообучению больших языковых моделей (LLM) с подкреплением (RL). Однако, несмотря на широкий успех этой парадигмы, значительная часть литературы посвящена разграничению действительно новых поведений, которые возникают в процессе RL, но отсутствуют в базовых моделях. В нашей работе мы подходим к этому вопросу с другой стороны, задаваясь вопросом, можно ли добиться сопоставимых логических способностей от базовых моделей на этапе вывода с помощью чистого сэмплинга, без какого-либо дополнительного обучения. Вдохновленные методами Монте-Карло по цепи Маркова (MCMC) для выборки из "заостренных" распределений, мы предлагаем простой итеративный алгоритм выборки, использующий собственные функции правдоподобия базовых моделей. На различных базовых моделях мы показываем, что наш алгоритм обеспечивает существенный прирост в логических рассуждениях, который почти соответствует и даже превосходит результаты, достигнутые с помощью RL, на множестве разовых задач, включая MATH500, HumanEval и GPQA. Более того, наш метод выборки позволяет избежать снижения разнообразия при множественных сэмплах, что характерно для моделей, дообученных с подкреплением. Ключевым моментом является то, что наш метод не требует обучения, курируемых наборов данных или верификатора, что предполагает широкую применимость за пределами легко проверяемых областей.
Единый и универсальный семантический контроль в генерации видео остается важной нерешенной проблемой. Существующие методы либо порождают артефакты из-за наложения неподходящих пиксельных паттернов из структурно-ориентированных контролей, либо опираются на не универсальную тонкую настройку под конкретные условия или специализированные архитектуры. Мы представляем Video-As-Prompt (VAP) — новую парадигму, которая переосмысливает эту задачу как контекстную генерацию. VAP использует эталонное видео в качестве прямого семантического промпта, направляя замороженный Video Diffusion Transformer (DiT) через подключаемый модуль Mixture-of-Transformers (MoT). Эта архитектура предотвращает катастрофическое забывание и управляется временно-смещенным позиционным кодированием, которое исключает ложные априорные предположения для надежного извлечения контекста. Для реализации этого подхода и стимулирования будущих исследований мы создали VAP-Data — крупнейший датасет для семантически контролируемой генерации видео, содержащий более 100 тыс. пар видео по 100 семантическим условиям. Как единая универсальная модель, VAP устанавливает новый рекорд для открытых методов, демонстрируя 38.7% пользовательских предпочтений, что сопоставимо с ведущими коммерческими моделями, настроенными под конкретные условия. Высокая zero-shot обобщающая способность VAP и поддержка различных приложений знаменуют значительный прогресс в создании универсальных контролируемых систем генерации видео.
Мы решаем задачу генерации бесконечно расширяемого 3D-мира — крупных, непрерывных сред с согласованной геометрией и реалистичным внешним видом. Существующие методы сталкиваются с ключевыми проблемами: подходы, поднимающие 2D в 3D, страдают от геометрической и визуальной несогласованности между видами, 3D-неявные представления сложно масштабировать, а современные 3D-фундаментальные модели в основном ориентированы на объекты, что ограничивает их применимость для генерации на уровне сцен. Наше ключевое прозрение заключается в использовании сильных априорных знаний генерации из предварительно обученных 3D-моделей для создания структурированных блоков сцены. С этой целью мы предлагаем WorldGrow, иерархическую структуру для синтеза неограниченных 3D-сцен. Наш метод включает три ключевых компонента: (1) конвейер подготовки данных, который извлекает высококачественные блоки сцен для обучения, делая структурированные 3D-латентные представления пригодными для генерации сцен; (2) механизм 3D-впечатывания блоков, который обеспечивает контекстно-зависимое расширение сцены; и (3) стратегию генерации от грубого к детальному, которая гарантирует как правдоподобие глобальной компоновки, так и точность локальной геометрии и текстуры. При оценке на крупном наборе данных 3D-FRONT, WorldGrow демонстрирует наилучшие результаты в реконструкции геометрии, одновременно уникальным образом поддерживая бесконечную генерацию сцен с фотореалистичным и структурно согласованным результатом. Эти результаты подчеркивают его способность к построению крупномасштабных виртуальных сред и потенциал для создания будущих моделей мира.
Отсутствие конкретного определения искусственного общего интеллекта (ИОИ) скрывает разрыв между современным узкоспециализированным ИИ и человеческим уровнем познания. В данной статье представлен измеримый подход для решения этой проблемы, определяющий ИОИ как соответствие когнитивной универсальности и компетентности хорошо образованного взрослого человека. Чтобы реализовать это на практике, мы основываем нашу методологию на теории Кэттелла-Хорна-Кэрролла — наиболее эмпирически подтвержденной модели человеческого познания. Данный подход расчленяет общий интеллект на десять ключевых когнитивных доменов, включая мышление, память и восприятие, и адаптирует устоявшиеся психометрические батареи для оценки систем ИИ. Применение этого подхода выявляет сильно "неровный" когнитивный профиль у современных моделей. Несмотря на высокую компетентность в областях, требующих обширных знаний, современные системы ИИ демонстрируют критические пробелы в базовых когнитивных механизмах, особенно в долговременном хранении памяти. Полученные оценки ИОИ (например, GPT-4 — 27%, GPT-5 — 58%) конкретно количественно определяют как быстрый прогресс, так и существенный разрыв, остающийся до достижения ИОИ.
Групповая относительная оптимизация политик (GRPO) продемонстрировала значительный потенциал для задач генерации изображений по тексту (T2I) на основе согласования потоков, однако сталкивается с двумя ключевыми ограничениями: неточным атрибутированием преимущества и игнорированием временной динамики генерации. В данной работе мы утверждаем, что смещение парадигмы оптимизации с пошагового уровня на уровень фрагментов может эффективно смягчить эти проблемы. Основываясь на этой идее, мы предлагаем Chunk-GRPO — первый подход к генерации T2I на основе GRPO, работающий на уровне фрагментов. Ключевая идея заключается в группировке последовательных шагов в согласованные «фрагменты», которые отражают внутреннюю временную динамику согласования потоков, и в оптимизации политик на уровне этих фрагментов. Дополнительно мы вводим опциональную стратегию взвешенной выборки для дальнейшего повышения производительности. Многочисленные эксперименты показывают, что Chunk-GRPO достигает превосходных результатов как в согласовании с предпочтениями, так и в качестве изображений, что подчеркивает перспективность оптимизации на уровне фрагментов для методов на основе GRPO.
Дискретные диффузионные модели стали перспективным направлением для задач компьютерного зрения и обработки естественного языка, предлагая двунаправленное моделирование контекста и теоретическую возможность параллелизации. Однако их практическое применение серьезно ограничивается расхождением между обучением и выводом, что приводит к катастрофическому накоплению ошибок: первоначальные ошибки токенов при параллельном декодировании загрязняют контекст генерации, вызывая цепную реакцию нарастающих ошибок и приводя к синтаксическим ошибкам и семантическим галлюцинациям. Для решения этой фундаментальной проблемы мы переосмысливаем процесс генерации как переход от пассивного шумоподавления к активному уточнению. Мы представляем ReDiff — диффузионную структуру с усиленным уточнением, которая учит модель идентифицировать и исправлять собственные ошибки. Наш подход включает двухэтапный процесс обучения: сначала мы формируем базовую способность к ревизии, обучая модель исправлять синтетические ошибки; затем мы реализуем новейший цикл онлайн-самокоррекции, где модель явно обучается редактировать собственные flawed черновики, учась на исправлениях эксперта. Это обучение на ошибках наделяет модель crucial способностью пересматривать и уточнять уже сгенерированный вывод, эффективно разрывая цепь ошибок. Многочисленные эксперименты демонстрируют, что ReDiff значительно улучшает связность и фактическую точность генерируемого контента, обеспечивая стабильную и эффективную параллельную генерацию, значительно превосходящую традиционные методы шумоподавления. Наши коды и модели доступны по адресу https://rediff-hku.github.io/.
Увеличение длины контекста в больших языковых моделях (LLM) дает значительные преимущества, но вычислительно затратно. Основная причина затратности — механизм самовнимания, чья сложность O(N^2) по отношению к длине последовательности создает серьезное узкое место для памяти и задержек. К счастью, матрица внимания часто является разреженной, особенно для длинных последовательностей, что указывает на возможность оптимизации. Блочно-разреженное внимание стало перспективным решением, которое разбивает последовательности на блоки и пропускает вычисления для части этих блоков. Однако эффективность этого метода сильно зависит от базовых паттернов внимания, что может приводить к неоптимальной разреженности на уровне блоков. Например, важные ключевые токены для запросов в пределах одного блока могут быть распределены по множеству других блоков, что приводит к вычислительной избыточности. В данной работе мы предлагаем Permuted Block-Sparse Attention (PBS-Attn) — модульный метод, который использует свойства перестановки внимания для увеличения разреженности на уровне блоков и повышения вычислительной эффективности предварительного заполнения (prefilling) в LLM. Мы провели всесторонние эксперименты на сложных реалистичных наборах данных с длинным контекстом, показав, что PBS-Attn стабильно превосходит существующие методы блочно-разреженного внимания по точности модели и близко соответствует базовому уровню полного внимания. Благодаря нашим специализированным ядрам permuted-FlashAttention, PBS-Attn обеспечивает сквозное ускорение до 2.75 раз при предварительном заполнении длинного контекста, подтверждая свою практическую жизнеспособность. Код доступен по адресу https://github.com/xinghaow99/pbs-attn.
Граундинг графического интерфейса (GUI), который преобразует инструкции на естественном языке в actionable элементы интерфейса, является ключевой способностью GUI-агентов. Предыдущие работы в основном рассматривают инструкции как статический прокси пользовательского намерения, упуская из виду влияние разнообразия и качества инструкций на производительность граундинга. В результате тщательного анализа существующих датасетов граундинга мы обнаружили 23,3% дефектов в их инструкциях и показали, что использование разнообразия инструкций на этапе вывода дает до 76% относительного улучшения производительности. В данной статье мы представляем парадигму Instruction-as-Reasoning, трактующую инструкции как динамические аналитические пути, предлагающие различные перспективы и позволяющие модели выбирать наиболее эффективный путь в процессе рассуждений. Для достижения этого мы предлагаем двухэтапную框架 обучения: supervised fine-tuning (SFT) на синтезированных разнообразных инструкциях для формирования многоперспективного мышления, с последующим reinforcement learning (RL) для оптимизации выбора и композиции путей. Наши итоговые модели UI-Ins-7B и UI-Ins-32B достигают state-of-the-art результатов на пяти сложных бенчмарках граундинга и демонстрируют emergent reasoning, выборочно комбинируя и синтезируя новые инструкционные пути на этапе вывода. В частности, UI-Ins-32B достигает наилучшей точности граундинга: 87,3% на UI-I2E-Bench, 57,0% на ScreenSpot-Pro и 84,9% на MMBench-GUI L2. Кроме того, наша модель демонстрирует сильный агентный потенциал, достигая 74,1% успеха на AndroidWorld при использовании UI-Ins-7B в качестве исполнителя. Наш глубинный анализ выявляет дополнительные инсайты, такие как формулирование рассуждений для усиления, а не препятствования производительности граундинга, и как наш метод смягчает коллапс политик в框架 SFT+RL. Весь код и чекпоинты моделей будут публично доступны по адресу https://github.com/alibaba/UI-Ins.
В данной работе мы показываем, что визуальные диффузионные модели могут служить эффективными геометрическими решателями: они способны напрямую рассуждать о геометрических задачах, работая в пространстве пикселей. Мы сначала демонстрируем это на задаче о вписанном квадрате — давней геометрической проблеме, которая ставит вопрос, содержит ли каждая жорданова кривая четыре точки, образующие квадрат. Затем мы расширяем подход на две другие известные сложные геометрические задачи: задачу Штейнера и задачу о простом многоугольнике. Наш метод рассматривает каждый экземпляр задачи как изображение и обучает стандартную визуальную диффузионную модель, которая преобразует гауссовский шум в изображение, представляющее допустимое приближённое решение, близкое к точному. Модель учится преобразовывать зашумленные геометрические структуры в правильные конфигурации, фактически переформулируя геометрические рассуждения как генерацию изображений. В отличие от предыдущих работ, требующих специализированных архитектур и доменно-ориентированных адаптаций при применении диффузии к параметрическим геометрическим представлениям, мы используем стандартную визуальную диффузионную модель, работающую с визуальным представлением задачи. Эта простота подчёркивает удивительную связь между генеративным моделированием и решением геометрических задач. Помимо конкретных изученных проблем, наши результаты указывают на более широкую парадигму: работа в пространстве изображений предоставляет универсальный и практичный фреймворк для аппроксимации печально известных сложных задач и открывает двери для решения гораздо более широкого класса сложных геометрических проблем.
Крупные языковые модели для видео (VideoLLMs) расширяют возможности визуально-языковых моделей на пространственно-временные входные данные, позволяя решать такие задачи, как ответы на вопросы по видео (VideoQA). Несмотря на недавние успехи в области VideoLLMs, их внутренние механизмы, определяющие, где и как они извлекают и передают видео- и текстовую информацию, остаются малоизученными. В данном исследовании мы изучаем внутренний поток информации в VideoLLMs с помощью методов механистической интерпретируемости. Наш анализ выявляет устойчивые закономерности для различных задач VideoQA: (1) временное рассуждение в VideoLLMs начинается с активных межкадровых взаимодействий в ранних и средних слоях, (2) за которыми следует прогрессирующая интеграция видео и языка в средних слоях. Это обеспечивается выравниванием видеопредставлений и языковых эмбеддингов, содержащих временные концепты. (3) После завершения этой интеграции модель готова генерировать правильные ответы в средних и поздних слоях. (4) На основе нашего анализа мы показываем, что VideoLLMs могут сохранять свою производительность в задачах VideoQA, выбирая эти эффективные информационные пути, одновременно подавляя значительное количество ребер внимания, например, 58% в LLaVA-NeXT-7B-Video-FT. Эти результаты дают представление о том, как VideoLLMs выполняют временное рассуждение, и предлагают практические идеи для улучшения интерпретируемости моделей и их обобщающей способности на смежных задачах. Страница нашего проекта с исходным кодом доступна по адресу https://map-the-flow.github.io.
Слияние моделей представляет собой эффективную стратегию пост-обучения для интеграции знаний из нескольких дообученных контрольных точек общей базовой модели. Существующие методы работают в параметрическом пространстве, комбинируя векторы задач для смягчения конфликтов, но остаются ограниченными параметрической несовместимостью. Мы предлагаем Функциональные Двойные Якоря (ФДЯ) — фреймворк, который вместо этого моделирует пространство входных представлений. ФДЯ являются синтетическими входами, индуцированные градиенты которых согласуются с векторами задач, фиксируя функциональные сдвиги, специфичные для задачи, относительно предобученной модели. Этот подход объединяет совместное многозадачное обучение и последующее слияние, обеспечивая как устойчивость, так и гибкость. Мы также вводим принципиальную схему инициализации и показываем, что ФДЯ дополняют слияние моделей в параметрическом пространстве. Комплексные эксперименты демонстрируют эффективность ФДЯ при слиянии моделей.
Дизайн промптов играет ключевую роль в генерации видео по тексту (Text-to-Video, T2V), однако пользовательские промпты часто бывают краткими, неструктурированными и не согласованными с обучающими данными, что ограничивает генеративный потенциал диффузионных T2V-моделей. Мы представляем RAPO++ — кросc-стадийную структуру оптимизации промптов, которая объединяет согласованное с обучающими данными уточнение, итеративное масштабирование в режиме тестирования и тонкую настройку больших языковых моделей (LLM) для существенного улучшения T2V-генерации без модификации базовой генеративной архитектуры. На Этапе 1 Retrieval-Augmented Prompt Optimization (RAPO) обогащает пользовательские промпты семантически релевантными модификаторами, извлеченными из графа отношений, и перестраивает их для соответствия распределениям обучающих данных, повышая композиционность и достоверность множества объектов. Этап 2 представляет Sample-Specific Prompt Optimization (SSPO) — механизм с обратной связью, который итеративно уточняет промпты, используя мульти-источниковую оценку, включающую семантическое соответствие, пространственную достоверность, временную согласованность и специфичные для задачи сигналы, такие как оптический поток, что приводит к прогрессивному улучшению качества генерации видео. Этап 3 использует оптимизированные пары промптов из SSPO для тонкой настройки LLM-переписывателя, интериоризируя специфичные для задачи паттерны оптимизации и обеспечивая эффективную генерацию высококачественных промптов еще до начала вывода. Масштабные эксперименты на пяти современных T2V-моделях и пяти бенчмарках демонстрируют, что RAPO++ достигает значительного улучшения в семантическом соответствии, композиционном reasoning, временной стабильности и физической правдоподобности, существенно превосходя существующие методы. Наши результаты подчеркивают, что RAPO++ является модельно-агностичным, экономически эффективным и масштабируемым решением, устанавливающим новый стандарт оптимизации промптов в T2V-генерации. Код доступен по адресу https://github.com/Vchitect/RAPO.
Мы раскрываем, что внутренние репрезентации больших языковых моделей (LLM) служат надежными индикаторами усвоенных знаний, и предлагаем RECALL — новую модель-агностичную структуру слияния моделей, учитывающую репрезентации, для непрерывного обучения без доступа к историческим данным. RECALL вычисляет межмодельное сходство на основе послойных скрытых представлений на кластеризованных типичных примерах и выполняет адаптивное иерархическое слияние параметров для согласования знаний между моделями. Данная конструкция позволяет сохранять общедоменные признаки в поверхностных слоях, обеспечивая адаптацию к конкретным задачам в более глубоких слоях. В отличие от предыдущих методов, требующих меток задач или ведущих к компромиссам в производительности, RECALL обеспечивает плавную интеграцию данных из множества доменов и высокую устойчивость к катастрофическому забыванию. Многочисленные эксперименты на пяти задачах NLP и в различных сценариях непрерывного обучения демонстрируют, что RECALL превосходит базовые методы как по сохранению знаний, так и по способности к обобщению, предлагая масштабируемое и не требующее данных решение для эволюции LLM.
Традиционные метрики информационного поиска (ИП), такие как nDCG, MAP и MRR, предполагают, что пользователи-люди последовательно просматривают документы с уменьшающимся вниманием к более низким позициям в ранжировании. Это предположение не работает в системах генерации с усилением поиском (RAG), где результаты поиска потребляются большими языковыми моделями (LLM), которые, в отличие от людей, обрабатывают все извлеченные документы как единое целое, а не последовательно. Кроме того, традиционные метрики ИП не учитывают связанные, но нерелевантные документы, которые активно ухудшают качество генерации, а не просто игнорируются. Из-за этих двух основных несоответствий, а именно: дисконтирование позиции для человека против машины и релевантность для человека против полезности для машины, классические метрики ИП не позволяют точно прогнозировать производительность RAG. Мы представляем схему разметки на основе полезности, которая количественно оценивает как позитивный вклад релевантных пассажей, так и негативное влияние отвлекающих. На основе этого мы предлагаем UDCG (Накопленный выигрыш с учетом полезности и отвлечения) — метрику, использующую позиционное дисконтирование, ориентированное на LLM, для прямой оптимизации корреляции с точностью ответа в end-to-end сценарии. Эксперименты на пяти наборах данных и шести LLM демонстрируют, что UDCG улучшает корреляцию до 36% по сравнению с традиционными метриками. Наша работа представляет собой важный шаг к согласованию оценки ИП с потребителями-LLM и позволяет проводить более надежную оценку компонентов RAG.
Современные методы, такие как генерация с расширением выборки или цепочечные рассуждения, приводят к увеличению длины контекста и росту вычислительных затрат на вывод. Техники сжатия контекста позволяют снизить эти затраты, однако наиболее эффективные подходы требуют дообучения целевой модели или даже модификации её архитектуры. Это может ухудшить её общие способности при использовании не по целевому назначению. В данной работе мы исследуем альтернативный подход: энкодер, который сжимает контекст в непрерывные представления, заменяющие эмбеддинги токенов в декодерах больших языковых моделей. Сначала мы проводим систематическое исследование стратегий обучения и архитектурных решений для энкодера. Наши результаты привели к созданию адаптируемого компрессора текстовых представлений под названием ARC-Encoder, который выдает в x раз меньше непрерывных представлений (обычно x∈{4,8}), чем исходных текстовых токенов. Мы оцениваем ARC-Encoder в различных сценариях использования больших языковых моделей, от обучения в контексте до расширения окна контекста, на инструктивных и базовых декодерах. Результаты показывают, что ARC-Encoder достигает наилучших результатов на нескольких бенчмарках, одновременно повышая вычислительную эффективность при выводе. Наконец, мы демонстрируем, что наши модели можно адаптировать к нескольким декодерам одновременно, что позволяет одному энкодеру обобщаться на различные декодеры больших языковых моделей. Это делает ARC-Encoder гибким и эффективным решением для портативных энкодеров, которые seamlessly работают с несколькими большими языковыми моделями. Мы публикуем код обучения по адресу https://github.com/kyutai-labs/ARC-Encoder, набор данных для дообучения и предобученные модели доступны по адресу https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
В последнее время был достигнут значительный прогресс в области многомодального непрерывного обучения, целью которого является последовательное изучение новых задач в многомодальных условиях при сохранении производительности на ранее изученных. Однако существующие методы в основном сосредоточены на крупнозернистых задачах и имеют ограничения в решении проблемы переплетения модальностей в условиях мелкозернистого непрерывного обучения. Чтобы заполнить этот пробел, мы представляем новую задачу — Непрерывную Аудиовизуальную Сегментацию (CAVS), направленную на непрерывную сегментацию новых классов с использованием аудио-подсказок. В ходе всестороннего анализа выявлены две ключевые проблемы: 1) семантический дрейф многомодальных данных, когда звучащий объект помечается как фон в последовательных задачах; 2) путаница из-за совместного появления, когда часто совместно встречающиеся классы склонны混淆ться. В данной работе разработана Коллизионная Многомодальная Репетиционная (CMR) структура для решения этих проблем. В частности, для борьбы с семантическим дрейфом предложена Стратегия Выбора Многомодальных Образцов (MSS) для отбора образцов с высокой межмодальной согласованностью для репетиции. Одновременно, для устранения путаницы из-за совместного появления разработан Механизм Коллизионной Репетиции Образцов (CSR), позволяющий увеличивать частоту репетиции образцов этих легко混淆емых классов в процессе обучения. Кроме того, мы создали три аудиовизуальных инкрементальных сценария для проверки эффективности нашего метода. Всесторонние эксперименты демонстрируют, что наш метод значительно превосходит методы однмодального непрерывного обучения.
Крупные языковые модели (LLM) все чаще развертываются в агентских системах, взаимодействующих с внешней средой; это делает их уязвимыми для инъекций в промпты при обработке непроверенных данных. Чтобы преодолеть это ограничение, мы предлагаем SIC (Soft Instruction Control) — простой, но эффективный итерационный цикл санации промптов, разработанный для инструментально-расширенных LLM-агентов. Наш метод многократно проверяет входящие данные на наличие инструкций, которые могут нарушить поведение агента. Если такой контент обнаружен, вредоносное содержимое перезаписывается, маскируется или удаляется, а результат перепроверяется. Процесс продолжается до тех пор, пока входные данные не будут очищены или не будет достигнут максимальный лимит итераций; если императивное инструктивное содержимое остается, агент останавливается для обеспечения безопасности. Благодаря возможности многократных проходов наш подход признает, что отдельные перезаписи могут быть неудачными, но позволяет системе выявлять и исправлять пропущенные инъекции на последующих шагах. Хотя метод полезен уже сейчас, анализ наихудшего сценария показывает, что SIC не является непогрешимым; сильный противник все еще может достичь 15% ASR, внедряя неимперативные рабочие процессы. Тем не менее, это повышает уровень защиты.
Последние достижения в области больших моделей рассуждений (LRM) ввели промежуточный процесс «мышления» перед генерацией окончательных ответов, что улучшило их способности к рассуждению при выполнении сложных задач. Однако потенциал LRM в качестве оценщиков качества машинного перевода (МП) остается недостаточно изученным. Мы представляем первый систематический анализ использования LRM в роли судьи для оценки МП. Мы выявляем ключевые проблемы, показывая, что LRM требуют специально подготовленных оценочных материалов, склонны к «избыточному мышлению» на простых примерах и имеют проблемы с механизмами оценки, ведущими к завышению баллов. Для решения этих проблем мы предлагаем калибровать мышление LRM путем их обучения на синтетических, подобных человеческим, траекториях мышления. Наши эксперименты на бенчмарках WMT24 Metrics демонстрируют, что этот подход значительно сокращает вычислительные затраты на мышление примерно в 35 раз, одновременно улучшая оценочную производительность для моделей различного масштаба от 7B до 32B (например, модель R1-Distill-Qwen-7B показывает улучшение на +8.7 пунктов корреляции). Эти результаты подчеркивают потенциал эффективно калиброванных LRM для развития детализированной автоматической оценки машинного перевода.
Интерактивные мировые модели, симулирующие динамику объектов, крайне важны для робототехники, VR и AR. Однако обучение физически согласованных моделей динамики по ограниченным видеоданным из реального мира остается серьезной проблемой, особенно для деформируемых объектов с пространственно-вариативными физическими свойствами. Для преодоления проблемы нехватки данных мы предлагаем PhysWorld — новую структуру, которая использует симулятор для синтеза физически правдоподобных и разнообразных демонстраций с целью обучения эффективных мировых моделей. В частности, мы сначала создаем физически согласованный цифровой двойник в симуляторе MPM посредством выбора конститутивной модели и глобально-локальной оптимизации физических свойств. Затем мы применяем парциальные возмущения к физическим свойствам и генерируем различные паттерны движения для цифрового двойника, синтезируя обширные и разнообразные демонстрации. Наконец, используя эти демонстрации, мы обучаем легковесную мировую модель на основе GNN, в которую встроены физические свойства. Реальное видео может быть использовано для дальнейшего уточнения физических свойств. PhysWorld обеспечивает точные и быстрые прогнозы будущих состояний для различных деформируемых объектов, а также хорошо обобщается на новые взаимодействия. Эксперименты показывают, что PhysWorld демонстрирует конкурентную производительность, обеспечивая при этом скорость вывода в 47 раз выше, чем современный метод-лидер PhysTwin.
Мы применяем теорию категорий для извлечения мультимодальной структуры документа, что позволяет нам разработать информационно-теоретические меры, методы суммаризации и расширения содержания, а также самоконтролируемое улучшение больших предобученных моделей. Сначала мы разрабатываем математическое представление документа как категории пар "вопрос-ответ". Во-вторых, мы разрабатываем процедуру ортогонализации для разделения информации, содержащейся в одном или нескольких документах, на непересекающиеся части. Структуры, извлеченные на первом и втором этапах, позволяют нам разработать методы измерения и перечисления информации, содержащейся в документе. Мы также опираемся на эти этапы для разработки новых методов суммаризации, а также для решения новой проблемы — экзегезы, приводящей к расширению исходного документа. Наша методология пар "вопрос-ответ" позволяет провести новый анализ методов суммаризации с помощью теории нормы искажения. Мы реализуем наши методы с использованием больших предобученных моделей и предлагаем мультимодальное расширение нашей общей математической框架. Наконец, мы разрабатываем новый самоконтролируемый метод с использованием RLVR для улучшения больших предобученных моделей, применяя ограничения согласованности, такие как композируемость и замкнутость относительно определенных операций, которые естественным образом вытекают из нашей категориальной теоретической рамки.
Обучение с подкреплением (RL) стало ключевым подходом для расширения возможностей больших языковых моделей. Однако в моделях со смесью экспертов (MoE) механизм маршрутизации часто вызывает нестабильность, иногда приводя к катастрофическому коллапсу RL-обучения. Мы анализируем согласованность обучения и вывода в MoE-моделях и выявляем значительное расхождение в поведении маршрутизации между этими двумя фазами. Более того, даже в идентичных условиях фреймворк маршрутизации может давать различные выборы экспертов при повторных прямых проходах. Для решения этой фундаментальной несогласованности мы предлагаем метод Rollout Routing Replay (R3), который записывает распределения маршрутизации из механизма вывода и воспроизводит их во время обучения. R3 существенно сокращает KL-дивергенцию политик между обучением и выводом и смягчает экстремальные расхождения без ущерба для скорости обучения. Многочисленные эксперименты в различных условиях подтверждают, что R3 успешно стабилизирует RL-обучение, предотвращает коллапс и превосходит такие методы, как GSPO и TIS. Мы полагаем, что данная работа может предложить новое решение для стабилизации RL в MoE-моделях.
Foley Control — это облегчённый подход к созданию фоновых звуков на основе видео, при котором предобученные одномодальные модели остаются замороженными, а обучается лишь небольшой кросс-аттенционный мост между ними. Мы соединяем видеоэмбеддинги V-JEPA2 с замороженной тексто-аудио моделью (T2A) Stable Audio Open DiT, добавляя компактный видео-кросс-аттеншн после существующего текстового кросс-аттеншна модели, так что текстовые промты задают глобальную семантику, а видео уточняет временны́е характеристики и локальную динамику. Замороженные базовые модели сохраняют сильные маргинальные распределения (видео; аудио при заданном тексте), а мост обучается зависимости «аудио–видео», необходимой для синхронизации, — без переобучения аудио-априори. Для экономии памяти и стабилизации обучения мы агрегируем видео-токены перед кондиционированием. На курированных видео-аудио бенчмарках Foley Control демонстрирует конкурентоспособное временно́е и семантическое соответствие при значительно меньшем количестве обучаемых параметров по сравнению с современными мультимодальными системами, сохраняя при этом управляемость через промты и производственно-ориентированную модульность (возможность замены/обновления энкодеров или T2A-основы без сквозного переобучения). Хотя мы фокусируемся на задаче Video-to-Foley, та же архитектура моста потенциально применима к другим аудио-модальностям (например, речи).
Искусственные интеллектуальные агенты обладают потенциалом для революционного повышения научной продуктивности за счет автоматизации обзоров литературы, воспроизведения экспериментов, анализа данных и даже предложения новых направлений исследований; действительно, сегодня существует множество таких агентов — от универсальных систем «глубокого исследования» до специализированных научных агентов, таких как AI Scientist и AIGS. Строгая оценка этих агентов критически важна для прогресса. Однако существующие бенчмарки имеют ряд недостатков: они (1) не предоставляют целостных, ориентированных на продукт метрик реальных сценариев использования, таких как научные исследования; (2) не включают воспроизводимые инструменты агентов, необходимые для контролируемого сравнения их базовых возможностей; (3) не учитывают смещающие переменные, такие как стоимость модели и доступ к инструментам; (4) не предлагают стандартизированные интерфейсы для быстрого прототипирования и оценки агентов; и (5) не содержат всеобъемлющих базовых агентов, необходимых для выявления реальных достижений. В ответ на это мы определяем принципы и инструментарий для более строгого тестирования агентов. Используя их, мы представляем AstaBench — набор, который предоставляет первую целостную меру способности агентов выполнять научные исследования, включающую 2400+ задач, охватывающих весь процесс научного открытия и различные научные области, а также множество задач, вдохновленных реальными запросами пользователей к развернутым агентам Asta. Наш набор сопровождается первой научно-исследовательской средой с производственными инструментами поиска, которые обеспечивают контролируемую и воспроизводимую оценку, лучше учитывая смещающие факторы. Параллельно мы предоставляем комплексный набор из девяти научно-оптимизированных классов агентов Asta и многочисленные базовые линии. Наше масштабное тестирование 57 агентов across 22 классов выявило несколько интересных результатов, наиболее важным из которых является то, что, несмотря на значительный прогресс в отдельных аспектах, ИИ все еще далек от решения задачи научно-исследовательской помощи.
Визуальное рассуждение в мультимодальных больших языковых моделях (MLLM) в основном изучалось в статических, полностью наблюдаемых условиях, что ограничивает их эффективность в реальных условиях, где информация часто неполна из-за окклюзии или ограниченного поля зрения. В отличие от этого, люди активно исследуют и взаимодействуют с окружающей средой — перемещаются, осматривают и манипулируют объектами — чтобы собирать информацию через замкнутый процесс, интегрирующий восприятие, рассуждение и действие. Вдохновленные этой человеческой способностью, мы представляем задачу активного визуального рассуждения (Active Visual Reasoning, AVR), расширяющую визуальное рассуждение до частично наблюдаемых интерактивных сред. AVR требует от агентов: (1) активно получать информацию посредством последовательных физических действий, (2) интегрировать наблюдения за несколько шагов для согласованного рассуждения и (3) динамически корректировать решения на основе развивающейся визуальной обратной связи. Для строгой оценки AVR мы представляем CLEVR-AVR, симуляционный бенчмарк с многораундовыми интерактивными средами, предназначенный для оценки как корректности рассуждений, так и эффективности сбора информации. Мы представляем AVR-152k, крупномасштабный набор данных, который предлагает богатые аннотации цепочки мыслей (Chain-of-Thought, CoT), детализирующие итеративное рассуждение для идентификации неопределенности, прогнозирования прироста информации в зависимости от действия и выбора действий, максимизирующих информацию, что критически важно для обучения агентов в марковском процессе принятия решений высшего порядка. На основе этого мы разрабатываем PhysVLM-AVR, MLLM, достигающую наилучших результатов на CLEVR-AVR, в телесном рассуждении (OpenEQA, RoboVQA) и пассивном визуальном рассуждении (GeoMath, Geometry30K). Наш анализ также показывает, что современные телесные MLLM, несмотря на способность обнаруживать неполноту информации, испытывают трудности с активным получением и интеграцией новой информации посредством взаимодействия, что указывает на фундаментальный разрыв в возможностях активного рассуждения.
3D лидарные сенсоры играют ключевую роль в автономной навигации, мониторинге окружающей среды и прецизионном картографировании в приложениях дистанционного зондирования. Для эффективной обработки массивных облаков точек, генерируемых этими сенсорами, лидарные данные часто проецируются в 2D дальностные изображения, организующие точки по их угловым положениям и расстояниям. Хотя такие представления в виде дальностных изображений обеспечивают эффективную обработку, традиционные методы проецирования страдают от фундаментальных геометрических несоответствий, вызывающих необратимую потерю информации, что ограничивает их применение в задачах, требующих высокой точности. Мы представляем ALICE-LRI (Automatic LiDAR Intrinsic Calibration Estimation for Lossless Range Images) — первый универсальный, сенсорно-независимый метод, обеспечивающий генерацию дальностных изображений без потерь из облаков точек вращающегося лидара без использования метаданных производителя или калибровочных файлов. Наш алгоритм автоматически восстанавливает внутреннюю геометрию любого вращающегося лидарного сенсора, определяя критические параметры, включая конфигурацию лазерных лучей, угловые распределения и калибровочные поправки для каждого луча, что позволяет осуществлять проецирование без потерь и полное восстановление облака точек с нулевой потерей точек. Всесторонняя оценка на полных наборах данных KITTI и DurLAR демонстрирует, что ALICE-LRI обеспечивает идеальное сохранение точек — ни одна точка не теряется во всех облаках точек. Геометрическая точность сохраняется в пределах точностных характеристик сенсора, что подтверждает геометрическую безпотерьность при работе в реальном времени. Мы также представляем исследование по сжатию, которое подтверждает существенные преимущества для последующей обработки, демонстрируя значительное улучшение качества в практических приложениях. Этот парадигмальный сдвиг от приближённых к безпотерьным лидарным проекциям открывает новые возможности для высокоточных приложений дистанционного зондирования, требующих полного сохранения геометрии.