Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели, объединяющие зрение, язык и действия (Vision-Language-Action, VLA), недавно продемонстрировали значительный потенциал в обучении роботов следовать языковым инструкциям и выполнять точные действия. Однако большинство VLA построены на основе моделей, предварительно обученных исключительно на 2D-данных, что ограничивает их пространственное восприятие и затрудняет работу в трехмерном физическом мире. Существующие решения пытаются интегрировать явные 3D-данные, такие как карты глубины или облака точек, но эти подходы сталкиваются с проблемами из-за шума сенсоров, неоднородности оборудования и неполного покрытия глубины в доступных наборах данных. Альтернативные методы, оценивающие 3D-характеристики из 2D-изображений, также страдают от ограниченной точности оценок глубины. Мы предлагаем Spatial Forcing (SF) — простую, но эффективную стратегию выравнивания, которая неявно заставляет VLA-модели развивать способности к пространственному восприятию без использования явных 3D-данных или оценок глубины. SF выравнивает промежуточные визуальные представления VLA с геометрическими представлениями, создаваемыми предварительно обученными 3D-фундаментальными моделями. Принуждая к выравниванию на промежуточных слоях, SF направляет VLA на кодирование более богатых пространственных представлений, что повышает точность действий. Многочисленные эксперименты в симуляциях и реальных условиях показывают, что SF достигает наилучших результатов, превосходя как 2D-, так и 3D-ориентированные VLA. Кроме того, SF ускоряет обучение до 3,8 раз и повышает эффективность использования данных в различных роботизированных задачах. Страница проекта доступна по адресу: https://spatial-forcing.github.io/
Генеративные модели в пространстве пикселей часто сложнее обучать, и они, как правило, уступают по производительности своим аналогам в латентном пространстве, что создает устойчивый разрыв в качестве и эффективности. В данной работе мы представляем новую двухэтапную схему обучения, которая устраняет этот разрыв для диффузионных моделей и моделей согласованности в пространстве пикселей. На первом этапе мы предварительно обучаем кодировщики для извлечения значимой семантики из чистых изображений, одновременно согласовывая их с точками вдоль одной и той же детерминированной траектории сэмплирования, которая преобразует точки из априорного распределения в распределение данных. На втором этапе мы интегрируем кодировщик с случайно инициализированным декодировщиком и дообучаем полную модель end-to-end как для диффузионных моделей, так и для моделей согласованности. Наша схема обучения демонстрирует высокую эмпирическую производительность на наборе данных ImageNet. В частности, наша диффузионная модель достигает FID 2.04 на ImageNet-256 и 2.35 на ImageNet-512 при 75 оценках функции (NFE), значительно превосходя предыдущие методы в пространстве пикселей как по качеству генерации, так и по эффективности, и конкурируя с ведущими моделями на основе VAE при сопоставимых затратах на обучение. Более того, на ImageNet-256 наша модель согласованности достигает впечатляющего FID 8.82 за один шаг сэмплирования, значительно превосходя свой аналог в латентном пространстве. Насколько нам известно, это первый успешный опыт обучения модели согласованности непосредственно на изображениях высокого разрешения без использования предварительно обученных VAE или диффузионных моделей.
Крупные языковые модели (LLM) значительно продвинули машинный перевод (MT), однако их эффективность в переводе веб-романов остается неясной. Существующие бенчмарки опираются на поверхностные метрики, которые не учитывают характерные черты этого жанра. Для устранения этих пробелов мы представляем DITING — первую всеобъемлющую систему оценки перевода веб-романов, анализирующую нарративную и культурную точность по шести параметрам: перевод идиом, лексическая неоднозначность, локализация терминологии, согласованность времен, разрешение нулевых местоимений и культурная безопасность, с поддержкой более 18 тысяч экспертно аннотированных китайско-английских пар предложений. Мы также предлагаем AgentEval — многоагентную систему оценки, основанную на рассуждениях, которая моделирует экспертные обсуждения для оценки качества перевода за пределами лексического совпадения, демонстрируя наивысшую корреляцию с человеческими суждениями среди семи протестированных автоматических метрик. Для сравнения метрик мы разработали MetricAlign — мета-оценочный набор данных из 300 пар предложений, аннотированных метками ошибок и скалярными оценками качества. Всесторонняя оценка четырнадцати открытых, закрытых и коммерческих моделей показывает, что китайские LLM превосходят более крупные зарубежные аналоги, а DeepSeek-V3 обеспечивает наиболее точные и стилистически согласованные переводы. Наша работа устанавливает новую парадигму для исследования перевода веб-романов на основе LLM и предоставляет публичные ресурсы для продвижения будущих исследований.
Недавние подходы к мультимодальным эмбеддингам, использующие мультимодальные большие языковые модели (MLLM), дообученные с помощью контрастивного обучения (CL), показали многообещающие результаты, однако основные причины их превосходства остаются недостаточно изученными. В данной работе утверждается, что ключевое преимущество подходов на основе MLLM заключается в неявном кросс-модальном выравнивании, достигаемом в ходе генеративного предобучения, когда языковой декодер учится использовать мультимодальные сигналы в рамках общего пространства представлений для генерации унимодальных выходов. Анализируя анизотропию и структуру сходства ядра, мы эмпирически подтверждаем, что скрытое выравнивание возникает в представлениях MLLM, что позволяет CL выступать в качестве легковесного этапа доработки. Опираясь на это понимание, мы предлагаем фреймворк Language-Centric Omnimodal Embedding (LCO-Emb). Многочисленные эксперименты на различных архитектурах и бенчмарках демонстрируют его эффективность, достигая наилучших результатов во всех модальностях. Кроме того, мы выявляем Закон масштабирования генерации и представления (GRSL), показывая, что репрезентационные возможности, полученные с помощью контрастивной доработки, масштабируются пропорционально генеративным способностям MLLM. Это свидетельствует о том, что улучшение генеративных способностей становится эффективной парадигмой для повышения качества представлений. Мы предоставляем теоретическое объяснение GRSL, которое формально связывает качество генерации MLLM с верхней границей её репрезентационной производительности, и подтверждаем его на сложной задаче поиска визуально-документальной информации в условиях ограниченных ресурсов, показывая, что непрерывное генеративное предобучение перед CL может дополнительно повысить потенциал эмбеддинговых возможностей модели. Коды, модели и ресурсы доступны по адресу https://github.com/LCO-Embedding/LCO-Embedding.
Робототехническое обучение находится на переломном этапе, обусловленном стремительным прогрессом в области машинного обучения и растущей доступностью крупномасштабных данных в робототехнике. Этот переход от классических, основанных на моделях методов к парадигмам, ориентированным на данные и обучение, открывает беспрецедентные возможности для автономных систем. Данный учебный материал исследует ландшафт современного робототехнического обучения, прокладывая путь от основополагающих принципов обучения с подкреплением и поведенческого клонирования до универсальных моделей, управляемых языком, способных выполнять разнообразные задачи и даже адаптироваться к различным роботизированным платформам. Эта работа предназначена в качестве руководства для исследователей и практиков, и наша цель — вооружить читателя концептуальным пониманием и практическими инструментами, необходимыми для вклада в развитие робототехнического обучения, с готовыми к использованию примерами, реализованными в lerobot.
Развитие крупных языковых моделей (LLM) вызвало смену парадигмы: от помощи в генерации кода к автономным агентам программирования, что привело к появлению новой методологии разработки под названием "Vibe Coding". В рамках этой методологии разработчики проверяют реализации, созданные ИИ, через наблюдение за результатами, а не через построчное понимание кода. Несмотря на её трансформационный потенциал, эффективность этой новой парадигмы остаётся недостаточно изученной, а эмпирические данные выявляют неожиданные потери производительности и фундаментальные проблемы в сотрудничестве человека и ИИ. Чтобы восполнить этот пробел, данное исследование представляет первый всесторонний и систематический обзор Vibe Coding с использованием крупных языковых моделей, устанавливая как теоретические основы, так и практические рамки для этого трансформационного подхода к разработке. На основе систематического анализа более 1000 научных статей мы исследуем всю экосистему Vibe Coding, рассматривая ключевые компоненты инфраструктуры, включая LLM для программирования, агентов программирования на основе LLM, среду разработки для таких агентов и механизмы обратной связи. Мы впервые представляем Vibe Coding как формальную дисциплину, формализуя её через ограниченный марковский процесс принятия решений, который отражает динамическую триадическую связь между разработчиками, программными проектами и агентами программирования. Опираясь на эту теоретическую основу, мы синтезируем существующие практики в пять различных моделей разработки: Неограниченная автоматизация, Итеративное диалоговое сотрудничество, Планирование-ориентированная, Тест-ориентированная и Контекстно-усиленная модели, создавая первую всеобъемлющую таксономию в этой области. Критически важным является вывод нашего анализа: успешное Vibe Coding зависит не только от возможностей агентов, но и от систематической инженерии контекста, хорошо организованных сред разработки и моделей совместной разработки человека и агента.
Обнаружение объектов долгое время доминировалось традиционными моделями, основанными на регрессии координат, такими как YOLO, DETR и Grounding DINO. Хотя недавние попытки были направлены на использование MLLM для решения этой задачи, они сталкиваются с такими проблемами, как низкий уровень полноты, дублирующие предсказания, несоответствие координат и т.д. В данной работе мы устраняем этот разрыв и предлагаем Rex-Omni, MLLM масштаба 3B, который достигает передовых показателей в восприятии объектов. На бенчмарках, таких как COCO и LVIS, Rex-Omni демонстрирует производительность, сопоставимую или превосходящую модели, основанные на регрессии (например, DINO, Grounding DINO), в условиях zero-shot. Это стало возможным благодаря трем ключевым разработкам: 1) Формулировка задачи: мы используем специальные токены для представления квантованных координат от 0 до 999, что снижает сложность обучения модели и повышает эффективность токенов для предсказания координат; 2) Генераторы данных: мы создаем несколько генераторов данных для получения высококачественных данных по локализации, ссылкам и указанию, что обеспечивает семантически богатый контроль за обучением; 3) Процедуры обучения: мы применяем двухэтапный процесс обучения, сочетая контролируемую тонкую настройку на 22 миллионах данных с пост-обучением на основе GRPO. Это пост-обучение с подкреплением использует геометрически осознанные награды для эффективного устранения разрыва между дискретным и непрерывным предсказанием координат, повышения точности рамок и устранения нежелательных поведений, таких как дублирующие предсказания, которые возникают из-за учительского характера начального этапа SFT. Помимо традиционного обнаружения, встроенное языковое понимание Rex-Omni обеспечивает универсальные возможности, такие как ссылки на объекты, указание, визуальные подсказки, локализация GUI, пространственные ссылки, OCR и ключевое указание, все из которых систематически оцениваются на специализированных бенчмарках. Мы считаем, что Rex-Omni прокладывает путь к более универсальным и языково-ориентированным системам визуального восприятия.
Retrieval-Augmented Generation (RAG) утвердился как фундаментальная парадигма для расширения возможностей крупных языковых моделей за пределы их статических ограничений, накладываемых обучением. Однако существует критическое несоответствие между текущими возможностями RAG и реальными информационными средами. Современные хранилища знаний по своей природе мультимодальны, содержат богатые комбинации текстового контента, визуальных элементов, структурированных таблиц и математических выражений. Тем не менее существующие RAG-фреймворки ограничиваются текстовым контентом, что создает фундаментальные пробелы при обработке мультимодальных документов. Мы представляем RAG-Anything — унифицированный фреймворк, который обеспечивает комплексное извлечение знаний для всех модальностей. Наш подход переосмысливает мультимодальный контент как взаимосвязанные сущности знаний, а не изолированные типы данных. Фреймворк вводит двойное графовое построение для захвата как кросс-модальных связей, так и текстовой семантики в рамках единого представления. Мы разрабатываем кросс-модальный гибридный поиск, который сочетает навигацию по структурным знаниям с семантическим сопоставлением. Это позволяет эффективно рассуждать над гетерогенным контентом, где релевантные доказательства охватывают несколько модальностей. RAG-Anything демонстрирует превосходную производительность на сложных мультимодальных бенчмарках, достигая значительных улучшений по сравнению с современными методами. Увеличение производительности становится особенно заметным на длинных документах, где традиционные подходы терпят неудачу. Наш фреймворк устанавливает новую парадигму для доступа к мультимодальным знаниям, устраняя архитектурную фрагментацию, которая ограничивает текущие системы. Наш фреймворк доступен в открытом исходном коде по адресу: https://github.com/HKUDS/RAG-Anything.
Диффузионные модели недавно совершили прорыв в восстановлении видео, однако их применение в задаче супер-разрешения реальных видео (VSR) остается сложной задачей из-за высокой задержки, чрезмерных вычислительных затрат и плохой обобщаемости на сверхвысокие разрешения. Цель нашей работы — сделать диффузионное VSR практичным, достигнув эффективности, масштабируемости и работы в реальном времени. Для этого мы предлагаем FlashVSR — первую одношаговую потоковую платформу на основе диффузии для VSR в реальном времени. FlashVSR работает со скоростью примерно 17 кадров в секунду для видео 768x1408 на одном GPU A100 благодаря трем взаимодополняющим инновациям: (i) удобный для обучения трехэтапный конвейер дистилляции, обеспечивающий потоковое супер-разрешение, (ii) разреженное внимание с ограничением локальности, которое сокращает избыточные вычисления, одновременно устраняя разрыв между разрешениями при обучении и тестировании, и (iii) компактный условный декодер, ускоряющий восстановление без потери качества. Для поддержки масштабного обучения мы также создали VSR-120K — новый набор данных, содержащий 120 тысяч видео и 180 тысяч изображений. Многочисленные эксперименты показывают, что FlashVSR надежно масштабируется до сверхвысоких разрешений и достигает наилучших результатов, обеспечивая до 12-кратного ускорения по сравнению с предыдущими одношаговыми диффузионными моделями VSR. Мы опубликуем код, предобученные модели и набор данных для стимулирования будущих исследований в области эффективного диффузионного VSR.
Диффузионные модели достигли впечатляющих успехов в качестве генеративных моделей. Однако даже хорошо обученная модель может накапливать ошибки в процессе генерации. Эти ошибки становятся особенно проблематичными, когда применяется произвольное управление для направления выборок к желаемым свойствам, что часто нарушает точность выборок. В данной статье мы предлагаем общее решение для устранения явления отклонения от многообразия, наблюдаемого в диффузионных моделях. Наш подход использует временной предиктор для оценки отклонений от желаемого многообразия данных на каждом шаге, выявляя, что больший временной интервал связан с ухудшением качества генерации. Затем мы разрабатываем новый механизм управления, называемый "Временное согласующее управление" (TAG), который притягивает выборки обратно к желаемому многообразию на каждом шаге генерации. В ходе обширных экспериментов мы демонстрируем, что TAG последовательно создает выборки, тесно связанные с желаемым многообразием на каждом шаге, что приводит к значительному улучшению качества генерации в различных прикладных задачах.
Крупные языковые модели (LLM) обрабатывают каждый токен через все слои стека трансформаторов, что приводит к избыточным вычислениям на простых запросах и недостаточной гибкости для более сложных, требующих глубокого анализа. Методы с адаптивной глубиной могут повысить эффективность, но существующие подходы зависят от дорогостоящего поиска на этапе вывода, изменений архитектуры или масштабного переобучения, и на практике часто снижают точность, несмотря на повышение эффективности. Мы представляем Dr.LLM, динамическую маршрутизацию слоев для LLM, — адаптируемую структуру, которая оснащает предобученные модели легковесными маршрутизаторами для каждого слоя, решающими, пропустить, выполнить или повторить блок. Маршрутизаторы обучаются с явным контролем: с использованием метода поиска по дереву Монте-Карло (MCTS) мы получаем высококачественные конфигурации слоев, сохраняющие или улучшающие точность в рамках вычислительного бюджета. Наш дизайн, включающий оконное пуллирование для стабильной маршрутизации, фокусную потерю с балансировкой классов и маршрутизаторы на основе MLP с узким местом, обеспечивает устойчивость при дисбалансе классов и длинных последовательностях. На задачах ARC (логика) и DART (математика) Dr.LLM повышает точность до +3,4% при экономии в среднем 5 слоев на пример. Маршрутизаторы обобщаются на задачи вне домена (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) с падением точности всего на 0,85%, сохраняя эффективность, и превосходят предыдущие методы маршрутизации до +7,7%. В целом, Dr.LLM демонстрирует, что явно контролируемые маршрутизаторы адаптируют замороженные LLM для вывода с учетом бюджета и точности без изменения базовых весов.
Последние достижения в области воплощённого искусственного интеллекта подчеркивают потенциал моделей, объединяющих зрение и язык (VLMs), как агентов, способных к восприятию, рассуждению и взаимодействию в сложных средах. Однако наиболее эффективные системы полагаются на крупномасштабные модели, развёртывание которых требует значительных затрат, в то время как меньшие по размеру VLMs не обладают необходимыми знаниями и навыками для успешного выполнения задач. Чтобы преодолеть этот разрыв, мы представляем Embodied Reasoning Agent (ERA) — двухэтапную структуру, которая интегрирует предварительное обучение и онлайн-обучение с подкреплением (RL). На первом этапе, Embodied Prior Learning, извлекаются базовые знания из трёх типов данных: (1) Trajectory-Augmented Priors, которые обогащают существующие данные траекторий структурированными рассуждениями, сгенерированными более мощными моделями; (2) Environment-Anchored Priors, которые предоставляют знания о среде и контроль за её пониманием; и (3) External Knowledge Priors, которые переносят общие знания из наборов данных, не связанных с конкретной средой. На втором этапе разрабатывается онлайн-конвейер RL, который использует эти предварительные знания для дальнейшего повышения производительности агента. Чтобы преодолеть присущие RL агентам проблемы, такие как длительные временные горизонты, редкие награды и нестабильность обучения, мы вводим три ключевых элемента: само-суммирование для управления контекстом, формирование плотных наград и оптимизацию политики на уровне ходов. Эксперименты на задачах высокоуровневого планирования (EB-ALFRED) и низкоуровневого управления (EB-Manipulation) демонстрируют, что ERA-3B превосходит как крупные модели, основанные на подсказках, так и предыдущие базовые подходы, основанные на обучении. В частности, он достигает общего улучшения на 8,4% на EB-ALFRED и на 19,4% на EB-Manipulation по сравнению с GPT-4o и демонстрирует сильную обобщаемость на незнакомые задачи. В целом, ERA предлагает практический путь к масштабируемому воплощённому интеллекту, предоставляя методологические идеи для будущих систем воплощённого ИИ.
Крупные языковые модели (LLM) могут выступать в роли моделей мира для улучшения принятия решений агентами в цифровых средах, моделируя будущие состояния и предсказывая результаты действий, что потенциально позволяет избежать затратного исследования методом проб и ошибок. Однако эта возможность принципиально ограничена склонностью LLM к галлюцинациям и их зависимостью от статических знаний, полученных в ходе обучения, что может приводить к накоплению ошибок, препятствующих долгосрочному моделированию. Чтобы систематически исследовать, подходят ли LLM для моделирования мира, мы изучаем две ключевые способности моделей мира — предсказание будущих состояний и оценку вознаграждения — с помощью трех задач: идентификация следующего состояния, согласование полного плана процедур и распознавание переходов между ключевыми этапами. Наш анализ показывает, что хотя LLM эффективно определяют ближайшие следующие состояния и распознают значимые переходы, их производительность быстро снижается при планировании полных процедур. Это подчеркивает ограничения LLM в надежном моделировании динамики среды на длительных горизонтах. Чтобы устранить эти ограничения, мы предлагаем Retrieval-augmented World Model (R-WoM), которая дополняет моделирование LLM актуальными фактами, извлеченными из внешних руководств. Эксперименты показывают, что R-WoM достигает значительного улучшения до 25,3% (OSWorld) и 18,1% (WebArena) по сравнению с базовыми методами, особенно в симуляциях с длительными горизонтами.
В последнее время был достигнут значительный прогресс в области унифицированных мультимодальных моделей (UMMs), которые объединяют возможности генерации и понимания визуально-текстовой информации в рамках единой структуры. Однако существует заметный разрыв, при котором сильное визуальное понимание модели часто не переносится на её способность к визуальной генерации. Модель может корректно понимать изображение на основе инструкций пользователя, но при этом быть неспособной сгенерировать точное изображение из текстовых запросов. Это явление напрямую поднимает важный вопрос: может ли модель достичь самосовершенствования, используя свой модуль понимания для поощрения модуля генерации? Чтобы преодолеть этот разрыв и достичь самосовершенствования, мы представляем SRUM — посттренировочную структуру с самопоощрением, которая может быть непосредственно применена к существующим UMMs различных архитектур. SRUM создает цикл обратной связи, в котором модуль понимания модели выступает в роли внутреннего «оценщика», предоставляя корректирующие сигналы для улучшения модуля генерации, без необходимости в дополнительных данных, размеченных человеком. Чтобы обеспечить полноту этой обратной связи, мы разработали систему двойного поощрения на глобальном и локальном уровнях. Для решения присущей изображениям структурной сложности эта система предлагает многоуровневое руководство: глобальное поощрение гарантирует корректность общей визуальной семантики и композиции, а локальное поощрение улучшает детализированную, объектную точность. SRUM демонстрирует мощные возможности и сильную обобщаемость, повышая производительность на T2I-CompBench с 82.18 до 88.37 и на T2I-ReasonBench с 43.82 до 46.75. В целом, наша работа устанавливает новую мощную парадигму, позволяющую модулю понимания UMMs направлять и улучшать собственную генерацию через самопоощрение.
Несмотря на значительные успехи в области визуальной генерации, большинство существующих архитектур по-прежнему зависят от отдельных кодировщиков для изображений и текста. Это разделение ограничивает способность диффузионных моделей выполнять кросс-модальные рассуждения и передачу знаний. Предыдущие попытки преодолеть этот разрыв часто использовали информацию из последнего слоя VLM, применяли несколько визуальных кодировщиков или обучали крупные унифицированные модели совместно для генерации текста и изображений, что требует значительных вычислительных ресурсов и больших объемов данных, ограничивая доступность. Мы представляем UniFusion, диффузионную генеративную модель, основанную на замороженной крупной модели визуального языка (VLM), которая служит унифицированным мультимодальным кодировщиком. В основе UniFusion лежит механизм Layerwise Attention Pooling (LAP), который извлекает как высокоуровневую семантику, так и низкоуровневые детали из текстовых и визуальных токенов замороженной VLM для управления диффузионной генеративной моделью. Мы показываем, что LAP превосходит другие архитектуры с поверхностным слиянием в выравнивании текста и изображения для генерации и точной передачи визуальной информации от VLM к диффузионной модели, что важно для редактирования. Мы предлагаем VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), который управляет диффузионным трансформером (DiT) только на основе текстовых токенов, сгенерированных VLM во время переписывания запроса внутри модели. VERIFI сочетает выравнивание распределения условий с возможностями рассуждения VLM для повышения возможностей и гибкости на этапе вывода. Кроме того, дообучение на задаче редактирования не только улучшает выравнивание текста и изображения для генерации, что указывает на передачу кросс-модальных знаний, но также демонстрирует огромные обобщающие способности. Наша модель, обученная на редактировании одного изображения, обобщается на несколько изображений в режиме zero-shot, что дополнительно мотивирует унифицированный дизайн кодировщика UniFusion.
Посттренировочное выравнивание часто снижает разнообразие языковых моделей (LLM), приводя к явлению, известному как коллапс мод. В отличие от предыдущих работ, которые связывают этот эффект с алгоритмическими ограничениями, мы выявляем фундаментальный, повсеместный фактор на уровне данных: типичностное смещение в данных предпочтений, при котором аннотаторы систематически отдают предпочтение знакомым текстам, что объясняется хорошо установленными результатами в когнитивной психологии. Мы формализуем это смещение теоретически, эмпирически подтверждаем его на наборах данных предпочтений и показываем, что оно играет ключевую роль в коллапсе мод. Вдохновленные этим анализом, мы представляем Verbalized Sampling (VS) — простую стратегию подсказок, не требующую дополнительного обучения, чтобы обойти коллапс мод. VS предлагает модели вербализовать распределение вероятностей над набором ответов (например, «Сгенерируй 5 шуток о кофе и их соответствующие вероятности»). Комплексные эксперименты показывают, что VS значительно улучшает производительность в творческом письме (стихи, рассказы, шутки), симуляции диалогов, открытых вопросах-ответах и генерации синтетических данных, не жертвуя фактической точностью и безопасностью. Например, в творческом письме VS увеличивает разнообразие в 1,6–2,1 раза по сравнению с прямым подсказыванием. Мы также наблюдаем возникающую тенденцию, что более мощные модели получают больше пользы от VS. В целом, наша работа предлагает новый, ориентированный на данные взгляд на коллапс мод и практическое решение на этапе вывода, которое помогает раскрыть предварительно обученное генеративное разнообразие.
Успех языковых моделей на основе архитектуры Transformer широко связывают с их механизмом скалярного произведения внимания, который объединяет набор ключевых принципов проектирования: смешивание информации между позициями (обеспечивающее взаимодействие между несколькими токенами), активации, зависящие от последовательности (где веса внимания адаптируются к каждому входу), специфическая математическая форма (скалярные произведения с последующим взвешиванием через softmax) и связь запросов и ключей с изменяющимися скрытыми состояниями (привязка внимания к текущему слою). Однако необходимость каждого из этих принципов остается в значительной степени неисследованной. В данной работе мы систематически деконструируем механизм внимания, разрабатывая контролируемые варианты, которые выборочно ослабляют эти принципы, применяя их как равномерно ко всем слоям, так и в гибридных архитектурах, где только некоторые слои сохраняют стандартное внимание. Наш эмпирический анализ показывает, что механизмы смешивания токенов являются незаменимыми, так как их отсутствие приводит модели к почти случайному поведению, в то время как точная математическая форма и зависимость от последовательности могут быть существенно ослаблены, особенно если они сохраняются только в части слоев. Удивительно, что даже варианты, которые не работают изолированно, могут достигать устойчивой производительности при чередовании со стандартным вниманием, что подчеркивает эффект кооперации. Эти результаты углубляют наше понимание того, что действительно лежит в основе эффективности внимания, и открывают новые пути для упрощения языковых моделей без ущерба для их производительности.
Крупные языковые модели сталкиваются с трудностями в задачах, требующих долгосрочного планирования и автономного поведения, поскольку их ограниченная память легко перегружается отвлекающим или нерелевантным контекстом. Существующие методы работы с оперативной памятью обычно полагаются на внешние эвристические механизмы, которые отделены от основной политики агента. В данной работе мы переосмысливаем управление оперативной памятью как обучаемую внутреннюю способность. Мы предлагаем новую концепцию, «Память как действие», в которой агент активно управляет своей оперативной памятью, выполняя явные операции редактирования в рамках единой политики. Такой подход позволяет агенту, обученному с помощью методов обучения с подкреплением, балансировать между управлением памятью и долгосрочными целями задачи в условиях ограниченных ресурсов. Однако такие действия по редактированию памяти нарушают стандартное предположение о непрерывно растущем префиксе во взаимодействиях с языковыми моделями, что приводит к так называемым разрывам траекторий. Эти изменения, не связанные с префиксом, нарушают причинную непрерывность, необходимую для стандартных методов градиента политики, делая их неприменимыми. Для решения этой проблемы мы предлагаем новый алгоритм, Оптимизация политики динамического контекста, который обеспечивает стабильное сквозное обучение с подкреплением путем сегментации траекторий в точках действий с памятью и применения преимуществ на уровне траекторий к полученным сегментам действий. Наши результаты показывают, что совместная оптимизация для решения задач и управления памятью в сквозной манере не только снижает общее потребление вычислительных ресурсов, но и улучшает производительность задач благодаря адаптивным стратегиям управления контекстом, адаптированным к внутренним возможностям модели.
Ключевая проблема при применении обучения с подкреплением (RL) к диффузионным большим языковым моделям (dLLMs) заключается в невычислимости их функций правдоподобия, которые необходимы для RL-цели, что требует соответствующих аппроксимаций на каждом шаге обучения. Хотя существующие методы аппроксимируют логарифмы правдоподобия с помощью их нижних границ доказательства (ELBO) через специализированный метод Монте-Карло (MC), вычислительные графы всех MC-сэмплов необходимо сохранять для вычисления градиентов нелинейных членов в RL-цели, что приводит к значительным затратам памяти. Это ограничение снижает допустимый размер выборки, что ведет к неточным аппроксимациям правдоподобия и, в конечном итоге, искажению RL-цели. Чтобы преодолеть это ограничение, мы предлагаем Boundary-Guided Policy Optimization (BGPO), эффективный по памяти алгоритм RL, который максимизирует специально сконструированную нижнюю границу ELBO-цели. Эта нижняя граница тщательно разработана для удовлетворения двух ключевых свойств: (1) Линейность: она формулируется в виде линейной суммы, где каждый член зависит только от одного MC-сэмпла, что позволяет накапливать градиенты по сэмплам и обеспечивает постоянное использование памяти; (2) Эквивалентность: как значение, так и градиент этой нижней границы равны таковым для ELBO-цели при обучении на политике, что делает её также эффективной аппроксимацией для исходной RL-цели. Эти свойства позволяют BGPO использовать большой размер MC-выборки, что приводит к более точным аппроксимациям правдоподобия и улучшенной оценке RL-цели, что, в свою очередь, повышает производительность. Эксперименты показывают, что BGPO значительно превосходит предыдущие RL-алгоритмы для dLLMs в решении математических задач, генерации кода и задачах планирования.
Мультимодальные большие языковые модели (MLLMs) в реальных приложениях требуют доступа к внешним источникам знаний и должны оставаться отзывчивыми к динамической и постоянно меняющейся информации реального мира, чтобы эффективно отвечать на информационные и сложные запросы пользователей. Существующие подходы, такие как методы генерации с использованием поиска (RAG), поисковые агенты и MLLMs, оснащенные поисковыми функциями, часто страдают от жестких конвейеров, избыточных поисковых запросов и плохо сформулированных поисковых запросов, что приводит к неэффективности и неоптимальным результатам. Для решения этих ограничений мы представляем DeepMMSearch-R1, первую мультимодальную языковую модель, способную выполнять поиск в интернете по запросу, проводить многошаговые поиски и динамически формировать запросы для инструментов поиска как изображений, так и текста. В частности, DeepMMSearch-R1 может инициировать поиск в интернете на основе релевантных фрагментов входного изображения, что делает поиск изображений более эффективным, и итеративно адаптировать текстовые поисковые запросы на основе полученной информации, что позволяет модели саморефлексию и самокоррекцию. Наш подход основан на двухэтапном конвейере обучения: начальной фазе контролируемого тонкого настройки, за которой следует оптимизация с использованием онлайн-обучения с подкреплением. Для обучения мы представляем DeepMMSearchVQA, новый мультимодальный набор данных для вопросов и ответов, созданный с помощью автоматизированного конвейера, интегрированного с реальной информацией из поисковых инструментов. Этот набор данных содержит разнообразные многошаговые запросы, которые интегрируют текстовую и визуальную информацию, обучая модель, когда искать, что искать, какой инструмент поиска использовать и как рассуждать на основе полученной информации. Мы проводим обширные эксперименты на ряде сложных бенчмарков, чтобы продемонстрировать превосходство нашего подхода. Наконец, мы анализируем результаты и предоставляем ценные инсайты для продвижения мультимодального поиска в интернете.
Мультимодальные модели встраивания направлены на создание информативных унифицированных представлений, которые расширяют возможности для решения разнообразных кросс-модальных задач. Несмотря на значительные достижения в эволюции от архитектур с двойными башнями на основе CLIP до крупных моделей, объединяющих зрение и язык, предыдущие работы по-прежнему сталкиваются с неизбежными вызовами в реальных приложениях и бизнес-сценариях, такими как ограниченная поддержка модальностей, нестабильные механизмы обучения и разрывы в промышленных доменах. В данной работе мы представляем SAIL-Embedding — омни-модальную модель встраивания, которая решает эти проблемы за счет специализированных стратегий обучения и архитектурного дизайна. В процессе оптимизации мы предлагаем многоэтапную схему обучения для повышения многогранной эффективности обучения представлений. В частности, контент-ориентированное прогрессивное обучение направлено на улучшение адаптируемости модели к разнообразным задачам и овладение расширенными кросс-модальными навыками. Обучение с усилением рекомендаций, учитывающее коллаборацию, дополнительно адаптирует мультимодальные представления для сценариев рекомендаций, извлекая знания из встраиваний последовательностей в элементы и идентификаторов в элементы, одновременно анализируя исторические интересы пользователей. Параллельно мы разрабатываем стохастическую специализацию и сопоставление паттернов на основе данных для повышения гибкости и обобщаемости обучения модели. Экспериментальные результаты показывают, что SAIL-Embedding достигает наилучших показателей (SOTA) по сравнению с другими методами в различных задачах поиска. В онлайн-экспериментах в различных реальных сценариях, интегрированных с нашей моделью, мы наблюдаем значительное увеличение показателя Lifetime (LT), который является ключевым индикатором для опыта рекомендаций. Например, модель демонстрирует прирост 7-дневного LT на +0,158% и 14-дневного LT на +0,144% в сценарии Douyin-Selected. Для модели ранжирования ленты Douyin признаки сопоставления, созданные SAIL-Embedding, обеспечивают прирост AUC на +0,08%.
Последние достижения в области моделей, объединяющих зрение и язык (VLMs), сделали их высокоэффективными в задачах логического рассуждения. Однако принципы, лежащие в основе создания производительных наборов данных для обучения VL-рассуждений, остаются малоизученными. В данной работе мы представляем несколько подходов к курированию данных и изучаем их влияние на способности VL-рассуждений, тщательно контролируя настройки обучения и оценки. Мы анализируем эффекты источников контекста (пары изображение и вопрос), внедряем целенаправленные вмешательства в данные и исследуем масштабирование изображений, вопросов и решений с использованием цепочек рассуждений (CoT). Наши результаты показывают, что (а) стратегии выбора источников контекста значительно влияют на производительность VLM, (б) вмешательства, такие как вспомогательные сигналы из описаний изображений и включение текстовых рассуждений, приводят к существенному улучшению, и (в) масштабирование всех измерений данных (например, уникальных вопросов на изображение и уникальных CoT на пару изображение-вопрос) последовательно улучшает способность к рассуждению. Вдохновленные этими выводами, мы представляем HoneyBee — крупномасштабный, высококачественный набор данных для CoT-рассуждений, содержащий 2,5 млн примеров, состоящих из 350 тыс. пар изображение-вопрос. VLM, обученные на HoneyBee, превосходят современные модели независимо от их размера. Например, VLM с 3 млрд параметров, обученная на HoneyBee, превосходит современную модель и базовую модель на 7,8% и 24,8% соответственно на MathVerse. Кроме того, мы предлагаем стратегию масштабирования на этапе тестирования, которая снижает затраты на декодирование на 73% без ущерба для точности. В целом, данная работа представляет улучшенные стратегии для исследований в области курирования наборов данных для VL-рассуждений.
Генерация изображений с несколькими объектами (MIG) остается серьезной проблемой для современных диффузионных моделей из-за ключевых ограничений в достижении точного контроля над компоновкой объектов и сохранении идентичности нескольких различных субъектов. Для решения этих ограничений мы представляем ContextGen, новаторскую архитектуру Diffusion Transformer для генерации нескольких объектов, которая управляется как компоновкой, так и эталонными изображениями. Наш подход включает два ключевых технических вклада: механизм Contextual Layout Anchoring (CLA), который интегрирует композитное изображение компоновки в контекст генерации для надежного закрепления объектов в желаемых позициях, и Identity Consistency Attention (ICA), инновационный механизм внимания, использующий контекстные эталонные изображения для обеспечения согласованности идентичности нескольких объектов. Учитывая отсутствие крупномасштабных, иерархически структурированных наборов данных для этой задачи, мы представляем IMIG-100K, первый набор данных с детальными аннотациями компоновки и идентичности. Многочисленные эксперименты демонстрируют, что ContextGen устанавливает новый эталон, превосходя существующие методы по точности контроля, верности идентичности и общему визуальному качеству.
Прогресс в области искусственного интеллекта сдерживается отсутствием языка программирования, обладающего всеми необходимыми функциями. Библиотеки, такие как PyTorch и TensorFlow, предоставляют автоматическое дифференцирование и эффективную реализацию на GPU, но они являются дополнениями к Python, который изначально не создавался для ИИ. Их недостаточная поддержка автоматизированного рассуждения и приобретения знаний привела к длительной и затратной череде неуклюжих попыток их интеграции. С другой стороны, языки ИИ, такие как LISP и Prolog, не обладают масштабируемостью и поддержкой обучения. В данной статье предлагается тензорная логика — язык, который решает эти проблемы, объединяя нейронный и символьный ИИ на фундаментальном уровне. Единственной конструкцией в тензорной логике является тензорное уравнение, основанное на наблюдении, что логические правила и суммирование Эйнштейна по сути представляют собой одну и ту же операцию, а всё остальное может быть сведено к ним. Я показываю, как элегантно реализовать ключевые формы нейронного, символьного и статистического ИИ в тензорной логике, включая трансформеры, формальные рассуждения, ядерные машины и графические модели. Что наиболее важно, тензорная логика открывает новые направления, такие как корректное рассуждение в пространстве вложений. Это сочетает масштабируемость и обучаемость нейронных сетей с надёжностью и прозрачностью символьного рассуждения и потенциально может стать основой для более широкого внедрения ИИ.
Понимание динамики физической сцены требует анализа различных способов, которыми она может потенциально изменяться, особенно в результате локальных взаимодействий. Мы представляем Flow Poke Transformer (FPT) — новый фреймворк для прямого предсказания распределения локального движения, обусловленного редкими взаимодействиями, называемыми "тычками" (pokes). В отличие от традиционных методов, которые обычно позволяют только плотно сэмплировать одну реализацию динамики сцены, FPT предоставляет интерпретируемое и непосредственно доступное представление многомодального движения сцены, его зависимости от физических взаимодействий и неотъемлемых неопределенностей динамики сцены. Мы также оцениваем нашу модель на нескольких последующих задачах, чтобы обеспечить сравнение с предыдущими методами и подчеркнуть гибкость нашего подхода. В задаче генерации плотного движения лица наша предобученная модель превосходит специализированные базовые методы. FPT может быть дообучен на задачах, сильно выходящих за пределы распределения, таких как синтетические наборы данных, что позволяет достичь значительных улучшений по сравнению с методами, работающими в пределах домена, в оценке движения сочлененных объектов. Кроме того, прямое предсказание явных распределений движения позволяет нашему методу достичь конкурентоспособных результатов в задачах, таких как сегментация движущихся частей на основе тычков, что дополнительно демонстрирует универсальность нашего FPT. Код и модели доступны публично по адресу https://compvis.github.io/flow-poke-transformer.
Редактирование изображений на основе инструкций предлагает мощный и интуитивно понятный способ манипуляции изображениями с использованием естественного языка. Однако полагаться исключительно на текстовые инструкции ограничивает возможность точного контроля над степенью изменений. Мы представляем Kontinuous Kontext — модель редактирования, управляемую инструкциями, которая предоставляет новый уровень контроля над силой редактирования, позволяя пользователям плавно и непрерывно регулировать изменения от отсутствия изменений до полностью реализованного результата. Kontinuous Kontext расширяет современную модель редактирования изображений, добавляя возможность принимать дополнительный входной параметр — скалярную величину силы редактирования, которая затем сочетается с инструкцией, обеспечивая явный контроль над степенью изменений. Для внедрения этой скалярной информации мы обучаем легковесную проекторную сеть, которая отображает входной скаляр и инструкцию редактирования в коэффициенты в пространстве модуляции модели. Для обучения нашей модели мы синтезируем разнообразный набор данных, состоящий из четверок "изображение-редактирование-инструкция-сила", используя существующие генеративные модели, с последующим этапом фильтрации для обеспечения качества и согласованности. Kontinuous Kontext предлагает унифицированный подход для точного контроля над силой редактирования в задачах, управляемых инструкциями, от тонких до значительных изменений, включая стилизацию, изменение атрибутов, материалов, фона и формы, без необходимости обучения для конкретных атрибутов.
Мы исследуем, как крупные языковые модели (LLM) «мыслят» через их пространство представлений. Мы предлагаем новую геометрическую структуру, которая моделирует рассуждения LLM как потоки — траектории эволюции вложений, где развивается логика. Мы разделяем логическую структуру и семантику, используя одни и те же предложения естественного вывода с различными семантическими носителями, что позволяет проверить, усваивают ли LLM логику за пределами поверхностной формы. Этот подход связывает рассуждения с геометрическими величинами, такими как положение, скорость и кривизна, что позволяет проводить формальный анализ в пространствах представлений и концепций. Наша теория устанавливает: (1) рассуждения LLM соответствуют гладким потокам в пространстве представлений, и (2) логические утверждения действуют как локальные контроллеры скоростей этих потоков. Используя обученные прокси-представления, мы разрабатываем контролируемые эксперименты для визуализации и количественной оценки потоков рассуждений, предоставляя эмпирическое подтверждение нашей теоретической структуры. Наша работа служит как концептуальной основой, так и практическими инструментами для изучения феномена рассуждений, предлагая новый взгляд на интерпретируемость и формальный анализ поведения LLM.
В идеальном процессе проектирования разработка пользовательского интерфейса (UI) тесно связана с исследованиями пользователей для проверки решений, однако на ранних этапах исследования часто ограничены ресурсами. Последние достижения в области мультимодальных больших языковых моделей (MLLMs) открывают перспективную возможность использовать их в качестве ранних оценщиков, помогая дизайнерам сузить варианты до проведения формального тестирования. В отличие от предыдущих работ, которые акцентируют внимание на поведении пользователей в узких областях, таких как электронная коммерция, с использованием метрик вроде кликов или конверсий, мы сосредоточиваемся на субъективных оценках пользователей для различных интерфейсов. Мы исследуем, могут ли MLLMs имитировать человеческие предпочтения при оценке отдельных UI и их сравнении. Используя данные с краудсорсинговой платформы, мы сравниваем GPT-4, Claude и Llama на 30 интерфейсах и анализируем их соответствие человеческим суждениям по нескольким факторам UI. Наши результаты показывают, что MLLMs приближаются к человеческим предпочтениям по некоторым параметрам, но расходятся по другим, что подчеркивает как их потенциал, так и ограничения в дополнении ранних исследований пользовательского опыта (UX).
Символическое моделирование мира требует вывода и представления переходной динамики среды в виде исполняемой программы. Предыдущие работы в основном фокусировались на детерминированных средах с обилием данных взаимодействия, простой механикой и человеческим руководством. Мы рассматриваем более реалистичный и сложный сценарий: обучение в сложной стохастической среде, где агент имеет только "одну жизнь" для исследования враждебной среды без человеческого руководства. Мы представляем OneLife — фреймворк, который моделирует динамику мира через условно активируемые программные законы в рамках вероятностного программирования. Каждый закон работает по принципу "предусловие-эффект", активируясь в соответствующих состояниях мира. Это создает динамический вычислительный граф, который направляет вывод и оптимизацию только через релевантные законы, избегая проблем масштабирования, когда все законы участвуют в предсказаниях сложного иерархического состояния, и позволяя изучать стохастическую динамику даже при редкой активации правил. Для оценки нашего подхода в этих сложных условиях мы вводим новый протокол оценки, который измеряет (а) ранжирование состояний — способность отличать правдоподобные будущие состояния от неправдоподобных, и (б) точность состояний — способность генерировать будущие состояния, близкие к реальности. Мы разрабатываем и оцениваем наш фреймворк на Crafter-OO, нашей переработанной версии среды Crafter, которая предоставляет структурированное объектно-ориентированное символическое состояние и чистую функцию перехода, работающую только с этим состоянием. OneLife успешно изучает ключевые динамики среды при минимальном, ненаправленном взаимодействии, превосходя сильный базовый подход в 16 из 23 протестированных сценариев. Мы также тестируем способность OneLife к планированию, где симуляции успешно выявляют превосходящие стратегии. Наша работа закладывает основу для автономного построения программных моделей мира неизвестных сложных сред.
Крупные модели рассуждений (LRMs) открыли новые возможности в решении задач благодаря разработке естественного языкового мыслительного процесса перед ответом на запрос. Хотя их возможности хорошо известны в задачах математики и программирования, их влияние на задачу машинного перевода (MT) остается недостаточно изученным. В данной работе мы исследуем преимущества генерации промежуточных токенов при выполнении MT для множества языковых пар с разным уровнем ресурсной обеспеченности и в различных настройках. Мы обнаруживаем, что «токены мышления» не помогают LRMs лучше выполнять MT. Этот результат обобщается на модели, дообученные для рассуждения перед переводом с использованием дистиллированной цепочки рассуждений (CoT), вдохновленной практиками человеческих переводчиков. В частности, дообучение модели с синтетическими объяснениями CoT, детализирующими пошаговый процесс перевода, не превосходит стандартное дообучение на основе входных и выходных данных. Однако создание промежуточных токенов путем комбинирования результатов модульных стратегий подсказок, специфичных для перевода, приводит к улучшениям. Наши результаты подчеркивают, что вклад промежуточных токенов во время дообучения сильно зависит от наличия в них попыток перевода. В более широком смысле наши результаты показывают, что использование учителя для уточнения целевых переводов или расширения параллельных корпусов оказывает большее влияние, чем дистилляция их объяснений CoT в «мыслящие» модели MT.
Мы представляем Cautious Weight Decay (CWD) — однострочную, независимую от оптимизатора модификацию, которая применяет затухание весов только к тем координатам параметров, чьи знаки совпадают с обновлением оптимизатора. В отличие от стандартного раздельного затухания, которое неявно оптимизирует регуляризованную или ограниченную целевую функцию, CWD сохраняет исходную функцию потерь и допускает биуровневую интерпретацию: оно вызывает скользящий режим при достижении стационарного многообразия, позволяя искать локально Парето-оптимальные стационарные точки неизмененной целевой функции. На практике CWD представляет собой простую замену для оптимизаторов, таких как AdamW, Lion и Muon, не требующую новых гиперпараметров или дополнительной настройки. Для предварительного обучения языковых моделей и классификации на ImageNet CWD последовательно улучшает итоговую функцию потерь и точность на масштабах от миллионов до миллиардов параметров.
Агенты на основе больших языковых моделей (LLM) принципиально ограничены длиной контекста при выполнении задач с длительным горизонтом. Мы представляем Context-Folding — фреймворк, который позволяет агентам активно управлять своим рабочим контекстом. Агент может процедурно переходить в подтраекторию для обработки подзадачи, а затем сворачивать её по завершении, устраняя промежуточные шаги, но сохраняя краткое резюме результата. Чтобы сделать такое поведение обучаемым, мы разработали сквозной фреймворк обучения с подкреплением FoldGRPO с конкретными наградами за процесс, которые стимулируют эффективное разложение задач и управление контекстом. На сложных задачах с длительным горизонтом (Deep Research и SWE) наш агент с функцией сворачивания соответствует или превосходит базовые модели ReAct, используя активный контекст в 10 раз меньше, и значительно превосходит модели, полагающиеся на управление контекстом на основе суммаризации.
В последнее время крупные языковые модели (LLM) нашли применение в области открытия научных уравнений, используя заложенные в них научные знания для генерации гипотез. Однако современные методы обычно ограничивают роль LLM предложением уравнений в рамках поисковых алгоритмов, таких как генетическое программирование. В данной работе мы представляем SR-Scientist — фреймворк, который повышает статус LLM от простого генератора уравнений до автономного искусственного интеллекта, способного писать код для анализа данных, реализовывать уравнения в виде кода, отправлять их на оценку и оптимизировать уравнения на основе экспериментальных данных. В частности, мы интегрируем интерпретатор кода в набор инструментов для анализа данных и оценки уравнений. Агент получает инструкции по оптимизации уравнений, используя эти инструменты на протяжении длительного времени с минимальным участием заранее заданных человеком процессов. Эмпирические результаты показывают, что SR-Scientist превосходит базовые методы с абсолютным отрывом от 6% до 35% на наборах данных, охватывающих четыре научные дисциплины. Кроме того, мы демонстрируем устойчивость нашего метода к шуму, обобщаемость обнаруженных уравнений на данные вне исходной области и их символическую точность. Дополнительно мы разрабатываем сквозной фреймворк обучения с подкреплением для повышения возможностей агента.
Мы исследуем тонкую настройку с подкреплением (RL) агентов на основе больших языковых моделей (LLM) для многошагового использования инструментов в долгосрочных задачах, где длина контекста быстро становится фундаментальным ограничением. Существующие RL-подходы могут страдать от ухудшения выполнения инструкций, чрезмерных затрат на развертывание и, что наиболее важно, строгих ограничений на длину контекста. Для решения этих проблем мы внедряем управление контекстом на основе суммаризации в процесс обучения. В частности, оно периодически сжимает историю использования инструментов с помощью кратких резюме, генерируемых LLM, которые сохраняют информацию, релевантную задаче, что позволяет поддерживать компактный контекст и одновременно масштабировать агента за пределы фиксированного окна контекста. На основе этой формулировки мы выводим представление градиента политики, которое позволяет стандартным RL-инфраструктурам для LLM оптимизировать как поведение при использовании инструментов, так и стратегии суммаризации в сквозном режиме. Мы реализуем этот подход в виде алгоритма RL для LLM под названием SUmmarization augmented Policy Optimization (SUPO), который позволяет проводить обучение в долгосрочных задачах за пределами фиксированного ограничения на длину контекста. Эксперименты на задачах интерактивного вызова функций и поиска демонстрируют, что SUPO значительно повышает успешность выполнения задач, сохраняя при этом ту же или даже меньшую длину рабочего контекста по сравнению с базовыми методами. Мы также показываем, что для сложных задач поиска SUPO может дополнительно улучшить результаты оценки, когда максимальное количество шагов суммаризации на этапе тестирования превышает значение, использованное при обучении. Наши результаты подтверждают, что управление контекстом на основе суммаризации является принципиальным и масштабируемым подходом для обучения RL-агентов за пределами фиксированного ограничения на длину контекста.
Мультимодальные большие языковые модели (MLLMs) обещают ускорить научные открытия за счет интерпретации сложных экспериментальных процедур. Однако их реальные возможности плохо изучены, поскольку существующие тестовые наборы игнорируют детализированный и долгосрочный характер реальной лабораторной работы, особенно в условиях "мокрых" лабораторий. Чтобы устранить этот пробел, мы представляем ExpVid — первый тестовый набор, разработанный для систематической оценки MLLMs на видео научных экспериментов. Созданный на основе рецензируемых видеопубликаций, ExpVid включает новую трехуровневую иерархию задач, отражающую научный процесс: (1) Детализированное восприятие инструментов, материалов и действий; (2) Понимание порядка и полноты шагов процедуры; и (3) Научное рассуждение, связывающее весь эксперимент с опубликованными выводами. Наш визуально-ориентированный процесс аннотирования, сочетающий автоматизированную генерацию с многодисциплинарной экспертной проверкой, гарантирует, что задачи требуют визуального обоснования. Мы оценили 19 ведущих MLLMs на ExpVid и обнаружили, что, хотя они преуспевают в грубой классификации, они испытывают трудности с разграничением мелких деталей, отслеживанием изменений состояния во времени и связыванием экспериментальных процедур с научными результатами. Наши результаты выявили заметный разрыв в производительности между проприетарными и открытыми моделями, особенно в задачах высокого порядка. ExpVid не только предоставляет диагностический инструмент, но и намечает дорожную карту для разработки MLLMs, способных стать надежными партнерами в научных экспериментах.
Загрязнение данных представляет собой серьезную угрозу для надежной оценки больших языковых моделей (LLM). Эта проблема возникает, когда образцы из тестовых наборов могут непреднамеренно появляться в обучающих данных, что ставит под сомнение достоверность заявленных показателей производительности. Хотя методы обнаружения были разработаны для этапов предварительного обучения и контролируемого тонкого настройки, существует значительный пробел в исследованиях для все более важного этапа пост-обучения с подкреплением (RL). Поскольку пост-обучение с подкреплением становится ключевым для улучшения способности LLM к рассуждению, отсутствие специализированных методов обнаружения загрязнения в этом подходе представляет собой серьезную уязвимость. Для решения этой проблемы мы проводим первое систематическое исследование обнаружения данных в сценарии пост-обучения с подкреплением и предлагаем метод Self-Critique. Наш подход основан на ключевом наблюдении: после этапа RL распределение энтропии выходных данных LLM имеет тенденцию к коллапсу в высоко специфичные и разреженные режимы. Self-Critique выявляет коллапс политики, то есть сходимость модели к узкому пути рассуждений, что вызывает это снижение энтропии. Для поддержки этого исследования мы также представляем RL-MIA, эталонный набор данных, созданный для моделирования этого конкретного сценария загрязнения. Многочисленные эксперименты показывают, что Self-Critique значительно превосходит базовые методы для различных моделей и задач загрязнения, достигая улучшения AUC до 30%. В то время как существующие методы близки к случайному угадыванию для загрязнения на этапе RL, наш метод делает обнаружение возможным.
Существующие мультимодальные большие языковые модели (MLLM) сталкиваются с увеличением затрат на вывод из-за дополнительных визуальных токенов, вводимых изображениями. В данной работе мы предлагаем метод обучения визуальной согласованности (ViCO), новый алгоритм обучения, который позволяет модели представлять изображения различной семантической сложности с использованием разного количества визуальных токенов. Основная идея нашего метода заключается в использовании нескольких MLP-соединителей, каждый из которых имеет различный коэффициент сжатия изображения, для уменьшения количества визуальных токенов в зависимости от семантической сложности изображения. В процессе обучения мы минимизируем расхождение Кульбака-Лейблера между ответами, обусловленными разными MLP-соединителями. На этапе вывода мы вводим маршрутизатор изображений, называемый маршрутизатором визуального разрешения (ViR), который автоматически выбирает подходящий коэффициент сжатия для каждого фрагмента изображения. В отличие от существующих стратегий динамического высокого разрешения, которые регулируют количество визуальных токенов на основе разрешения изображений, наш метод динамически адаптирует количество визуальных токенов в зависимости от семантической сложности. Экспериментальные результаты показывают, что наш метод может сократить количество визуальных токенов до 50%, сохраняя при этом восприятие, логические способности и возможности OCR модели. Мы надеемся, что эта работа внесет вклад в разработку более эффективных MLLM. Код и модели будут опубликованы для содействия будущим исследованиям.
Последние достижения в области длинных цепочек рассуждений (CoT) в основном сосредоточены на точности ответов и эффективности использования токенов, упуская из виду аспекты, критически важные для доверия. Мы утверждаем, что пригодные для использования системы рассуждений должны быть надежными, что характеризуется тремя свойствами: интерпретируемостью, достоверностью и надежностью. Для достижения этой цели мы предлагаем ReFIne — новый фреймворк для обучения, который интегрирует контролируемое тонкое настройку с GRPO, чтобы побудить модели: (i) улучшить интерпретируемость за счет создания структурированных, помеченных трассировок с высокоуровневым планированием, которые легче воспринимать человеку; (ii) повысить достоверность, явно раскрывая решающую информацию, направляющую каждое решение, с последовательными перекрестными ссылками; и (iii) повысить надежность, предоставляя самооценки как обоснованности вывода, так и уверенности в окончательном ответе. Мы применяем ReFIne к моделям Qwen3 различных масштабов (1.7B/4B/8B) и оцениваем их на математических бенчмарках разной сложности. Наши экспериментальные результаты показывают, что модели ReFIne генерируют более четкие и лучше структурированные трассировки рассуждений (интерпретируемость +44.0%), более достоверно раскрывают свой процесс принятия решений (достоверность +18.8%) и предоставляют информативные оценки уверенности (надежность +42.4%). Эти результаты подчеркивают упущенное, но важное направление: модели рассуждений должны быть оптимизированы не только для точности, но и для более широких аспектов доверия. Наш код доступен по адресу: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
Прогнозирование временных рядов (TSF) остается сложной и в значительной степени нерешенной задачей в машинном обучении, несмотря на недавние значительные усилия, связанные с использованием крупных языковых моделей (LLMs), которые преимущественно опираются на архитектуры Transformer. Эмпирические данные последовательно показывают, что даже мощные Transformer часто не превосходят гораздо более простые модели, например, линейные модели, в задачах TSF; однако строгое теоретическое понимание этого явления остается ограниченным. В данной статье мы предоставляем теоретический анализ ограничений Transformer для TSF через призму теории обучения в контексте (In-Context Learning, ICL). В частности, для данных AR(p) мы устанавливаем, что: (1) модели с линейным самовниманием (Linear Self-Attention, LSA) не могут достичь меньшей ожидаемой среднеквадратичной ошибки (MSE), чем классические линейные модели, для прогнозирования в контексте; (2) при увеличении длины контекста до бесконечности LSA асимптотически восстанавливает оптимальный линейный предиктор; и (3) при использовании логического вывода в стиле "цепочки рассуждений" (Chain-of-Thought, CoT) предсказания экспоненциально стремятся к среднему значению. Мы эмпирически подтверждаем эти выводы с помощью тщательно спланированных экспериментов. Наша теория не только проливает свет на несколько ранее недостаточно изученных явлений, но и предлагает практические рекомендации для разработки более эффективных архитектур прогнозирования. Мы надеемся, что наша работа побудит более широкое исследовательское сообщество пересмотреть фундаментальные теоретические ограничения TSF и критически оценить прямое применение все более сложных архитектур без глубокого анализа.
Последние достижения в области больших языковых моделей (LLM) показывают, что увеличение длины цепочек рассуждений значительно улучшает производительность при решении сложных задач. Хотя раскрытие этих траекторий рассуждений помогает пользователям лучше понимать, проверять и учиться на процессе решения задач моделью, оно также делает их крайне уязвимыми для несанкционированного дистилляции. Чтобы снизить этот риск, разработчики проприетарных моделей часто применяют агрессивные стратегии защиты, такие как замена подробных рассуждений краткими резюме, что лишает пользователей ценной промежуточной информации. Для решения этой проблемы мы предлагаем PART — информационно-сохраняющую антидистилляционную реформулировку траекторий рассуждений. Вдохновленные различием между тем, как люди понимают траектории рассуждений, и тем, как LLM используют их для контролируемого тонкого обучения, мы разработали простую, но эффективную двухэтапную реформулировку: удаление внутренних диалогов и переупорядочивание промежуточных выводов. Небольшая вспомогательная модель обучается выполнять эту реформулировку, что требует минимальных вычислительных затрат. Многочисленные эксперименты демонстрируют, что PART последовательно нарушает процесс дистилляции для моделей-учеников различных размеров и типов на различных тестах рассуждений. Например, при обучении на реформированных траекториях производительность даже крупной 32B модели-ученика снижается с 54,17 до 46,88 на AIME 2024, что соответствует ухудшению на 13,5%.
Провайдеры чат-ботов (например, OpenAI) используют многоуровневые схемы подписок для генерации дохода, предлагая базовые модели бесплатным пользователям и продвинутые модели для платных подписчиков. Однако более детализированная схема оплаты за разблокировку премиальных функций (например, математика, программирование) считается более экономически выгодной для провайдеров. Такая схема требует техники блокировки функций (FLoTE), которая должна быть (i) эффективной в отказе заблокированных функций, (ii) сохранять полезность разблокированных функций, (iii) быть устойчивой к обходу или несанкционированному использованию учетных данных и (iv) масштабируемой для множества функций и пользователей. Однако существующие FLoTEs (например, модели с парольной защитой) не являются устойчивыми или масштабируемыми. Мы представляем Locket — первую устойчивую и масштабируемую FLoTE, которая позволяет реализовать схему оплаты за разблокировку. Locket использует новый подход слияния для подключения адаптеров к языковой модели (LLM) с целью отказа в доступе к неавторизованным функциям. Наше всестороннее тестирование показывает, что Locket эффективен (100% отказ на заблокированных функциях), сохраняет полезность (ухудшение полезности ≤ 7% на разблокированных функциях), устойчив (успешность атак ≤ 5%) и масштабируется для множества функций и клиентов.
Недавно разработанные защитные механизмы, основанные на рассуждениях для крупных моделей рассуждений (Large Reasoning Models, LRMs), такие как согласование через обсуждение, продемонстрировали высокую эффективность в защите от атак jailbreak. Используя способность LRM к рассуждениям, эти механизмы помогают моделям оценивать безопасность пользовательских запросов перед генерацией окончательных ответов. Мощные способности к анализу позволяют модели определить намерение, скрытое в запросе, и отказаться от выполнения, если обнаружен вредоносный замысел, замаскированный методами jailbreak. Такие защитные механизмы показали значительное улучшение в защите, например, почти идеальные показатели отказа в серии открытых моделей gpt-oss. К сожалению, мы обнаружили, что эти мощные защитные механизмы, основанные на рассуждениях, могут быть крайне уязвимы к тонким манипуляциям с входными запросами, и, будучи обойденными, могут привести к еще более вредоносным результатам. В частности, мы впервые выявили удивительно хрупкий аспект этих механизмов: простое добавление нескольких шаблонных токенов во входной запрос может успешно обойти казалось бы мощные защитные барьеры и привести к явным и вредоносным ответам. Для дальнейшего исследования мы представляем набор методов jailbreak, которые подрывают защитные механизмы, основанные на рассуждениях. Наши атаки охватывают белые, серые и черные сценарии и варьируются от простых манипуляций с шаблонами до полностью автоматизированной оптимизации. Наряду с потенциалом для масштабируемой реализации, эти методы также демонстрируют тревожно высокие показатели успешности атак (например, превышая 90% на 5 различных тестах для серии gpt-oss как на локальных моделях, так и на онлайн API-сервисах). Оценки на различных ведущих открытых LRM подтверждают, что эти уязвимости носят системный характер, подчеркивая острую необходимость в более сильных методах согласования для открытых LRM, чтобы предотвратить злонамеренное использование. Код доступен по адресу https://chenxshuo.github.io/bag-of-tricks.
Мы представляем SynthID-Image, систему на основе глубокого обучения для невидимого водяного знака изображений, созданных с помощью ИИ. В данной статье описаны технические требования, модели угроз и практические проблемы, связанные с развертыванием такой системы в интернет-масштабе, с учетом ключевых требований эффективности, точности, устойчивости и безопасности. SynthID-Image использовалась для нанесения водяных знаков на более чем десять миллиардов изображений и видеокадров в сервисах Google, а соответствующая служба проверки доступна доверенным тестерам. Для полноты картины мы представляем экспериментальную оценку внешней модели SynthID-O, которая доступна через партнерства. Мы сравниваем SynthID-O с другими методами постобработки водяных знаков из литературы, демонстрируя передовые показатели как по визуальному качеству, так и по устойчивости к типичным искажениям изображений. Хотя данная работа сосредоточена на визуальных медиа, выводы о развертывании, ограничениях и моделировании угроз применимы и к другим модальностям, включая аудио. Эта статья представляет собой всестороннюю документацию по крупномасштабному развертыванию систем проверки происхождения медиа на основе глубокого обучения.
Контрастное предварительное обучение на аудио-текстовых данных позволяет получать мощные совместные представления, однако сохраняющийся разрыв между модальностями аудио и текста ограничивает преимущества связывания мультимодальных кодировщиков с большими языковыми моделями (LLM). Мы представляем Diffusion-Link — модуль для преодоления разрыва между модальностями, основанный на диффузии, который генеративно отображает аудио-эмбеддинги в распределение текстовых эмбеддингов. Этот модуль обучается на выходных эмбеддингах замороженного мультимодального кодировщика и реализован в виде легковесной сети с тремя остаточными блоками MLP. Чтобы оценить влияние Diffusion-Link на связывание мультимодального кодировщика с LLM, мы проводим эксперименты на задаче автоматического создания аудио-описаний (AAC); насколько нам известно, это первое применение диффузионного подхода для преодоления разрыва между модальностями в AAC. Мы представляем два результата. (1) Анализ разрыва между модальностями: по критериям сходства и геометрическим характеристикам Diffusion-Link наиболее эффективно сокращает разрыв между модальностями среди существующих диффузионных методов и демонстрирует коллективное смещение аудио-эмбеддингов в сторону текстового распределения. (2) Применение в AAC: добавление Diffusion-Link к той же базовой мультимодальной LLM достигает наилучших результатов на AudioCaps как в условиях zero-shot, так и в полностью контролируемом создании описаний без использования внешних знаний, с относительным улучшением до 52,5% и 7,5% соответственно. Эти результаты показывают, что устранение разрыва между модальностями имеет ключевое значение для эффективного связывания мультимодальных кодировщиков и LLM, а диффузионный подход для преодоления разрыва предлагает перспективное направление, выходящее за рамки решений, ориентированных на извлечение знаний. Код будет опубликован после принятия статьи: https://github.com/DevKiHyun/Diffusion-Link.
Агенты глубокого исследования (Deep Research, DR), построенные на основе крупных языковых моделей (Large Language Models, LLMs), способны выполнять сложные, многоэтапные исследования, разбивая задачи на подзадачи, извлекая информацию из интернета и синтезируя детализированные отчеты. Однако неправильное использование LLMs с такими мощными возможностями может привести к еще большим рискам. Это особенно актуально в высокорисковых и насыщенных знаниями областях, таких как биобезопасность, где DR может генерировать профессиональный отчет, содержащий детализированные запрещенные знания. К сожалению, мы обнаружили такие риски на практике: просто отправка вредоносного запроса, который автономная LLM прямо отвергает, может вызвать создание детализированного и опасного отчета агентами DR. Это подчеркивает повышенные риски и необходимость более глубокого анализа безопасности. Однако методы взлома (jailbreak), разработанные для LLMs, не способны выявить такие уникальные риски, поскольку они не нацелены на исследовательские способности агентов DR. Чтобы устранить этот пробел, мы предлагаем две новые стратегии взлома: «Инъекция плана» (Plan Injection), которая внедряет вредоносные подцели в план агента, и «Перехват намерения» (Intent Hijack), которая переформулирует вредоносные запросы как академические исследовательские вопросы. Мы провели обширные эксперименты на различных LLMs и различных тестах безопасности, включая общие и биобезопасные запрещенные запросы. Эти эксперименты выявили три ключевых вывода: (1) Выравнивание (alignment) LLMs часто не работает в агентах DR, где вредоносные запросы, сформулированные в академических терминах, могут перехватывать намерение агента; (2) Многоэтапное планирование и выполнение ослабляют выравнивание, выявляя системные уязвимости, которые не могут быть устранены на уровне запросов; (3) Агенты DR не только обходят отказы, но и создают более связный, профессиональный и опасный контент по сравнению с автономными LLMs. Эти результаты демонстрируют фундаментальное несоответствие в агентах DR и указывают на необходимость разработки более совершенных методов выравнивания, адаптированных для агентов DR. Код и наборы данных доступны по адресу https://chenxshuo.github.io/deeper-harm.
Существующие генеративные модели шумоподавления основываются на решении дискретизированных обратных стохастических дифференциальных уравнений (SDE) или обыкновенных дифференциальных уравнений (ODE). В данной работе мы выявляем давно упускаемую, но широко распространённую проблему в этом семействе моделей: несоответствие между предопределённым уровнем шума и фактическим уровнем шума, закодированным в промежуточных состояниях в процессе выборки. Мы называем это несоответствие сдвигом шума. С помощью эмпирического анализа мы демонстрируем, что сдвиг шума широко распространён в современных диффузионных моделях и проявляет систематическую ошибку, приводящую к субоптимальной генерации из-за как обобщения за пределами распределения, так и неточных обновлений шумоподавления. Для решения этой проблемы мы предлагаем метод Noise Awareness Guidance (NAG) — простой, но эффективный способ коррекции, который явно направляет траектории выборки на соответствие предопределённому графику шума. Мы также представляем вариант NAG, не требующий классификатора, который совместно обучает модель, зависящую от шума, и модель, не зависящую от шума, с помощью dropout, зависящего от уровня шума, что устраняет необходимость во внешних классификаторах. Многочисленные эксперименты, включая генерацию на ImageNet и различные задачи контролируемой тонкой настройки, показывают, что NAG последовательно устраняет сдвиг шума и существенно улучшает качество генерации в основных диффузионных моделях.
Диффузионные модели больших языковых моделей (dLLM) стали перспективной альтернативой авторегрессивным (AR) LLM, используя генерацию на основе удаления шума для обеспечения внутреннего параллелизма. Несмотря на появление всё большего числа открытых моделей dLLM, их широкое применение ограничено отсутствием стандартизированной и эффективной инфраструктуры для вывода. Мы представляем dInfer — эффективную и расширяемую инфраструктуру для вывода dLLM. dInfer разделяет процесс вывода на четыре модульных компонента — модель, менеджер итераций диффузии, стратегия декодирования и менеджер KV-кэша — и интегрирует новые алгоритмы для каждого компонента вместе с оптимизациями на уровне системы. Благодаря сочетанию алгоритмических инноваций и системных улучшений, dInfer достигает значительного повышения эффективности без ущерба для качества вывода на модели LLaDA-MoE. При размере пакета 1 он превышает 1100 токенов в секунду на HumanEval и в среднем более 800 токенов в секунду на шести бенчмарках с использованием 8× H800 GPU. По сравнению с предыдущими системами, dInfer обеспечивает 10-кратное ускорение по сравнению с Fast-dLLM при сохранении аналогичной производительности модели. Даже в сравнении с AR-моделью (с сопоставимым количеством активационных параметров и производительностью) QWen2.5-3B, которая оптимизирована с использованием последней версии движка vLLM, dInfer всё же обеспечивает 2-3-кратное ускорение. Реализация dInfer доступна в открытом исходном коде по адресу https://github.com/inclusionAI/dInfer.