Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) достигли значительных успехов в понимании исходного кода, однако с ростом масштаба программных систем вычислительная эффективность стала критическим узким местом. В настоящее время эти модели используют текстовую парадигму, которая рассматривает исходный код как линейную последовательность токенов, что приводит к линейному увеличению длины контекста и связанных с этим вычислительных затрат. Стремительное развитие мультимодальных LLM (MLLM) открывает возможность оптимизации эффективности за счет представления исходного кода в виде визуализированных изображений. В отличие от текста, который сложно сжать без потери смысла, модальность изображения по своей природе подходит для сжатия. Путем регулировки разрешения изображения можно масштабировать до доли от их исходной стоимости в токенах, сохраняя при этом узнаваемость для моделей с возможностями компьютерного зрения. Чтобы исследовать осуществимость этого подхода, мы проводим первое систематическое исследование эффективности MLLM для понимания кода. Наши эксперименты показывают, что: (1) MLLM могут эффективно понимать код при значительном сокращении количества токенов, достигая сжатия до 8 раз; (2) MLLM могут эффективно использовать визуальные подсказки, такие как подсветка синтаксиса, улучшая производительность автодополнения кода при 4-кратном сжатии; и (3) Задачи понимания кода, такие как обнаружение клонов, демонстрируют исключительную устойчивость к визуальному сжатию, причем некоторые коэффициенты сжатия даже незначительно превосходят исходные текстовые входные данные. Наши результаты подчеркивают как потенциал, так и текущие ограничения MLLM в понимании кода, что указывает на переход к представлению кода в виде изображений как путь к более эффективному выводу.
Языковые агенты продемонстрировали значительный потенциал для автоматизации задач. Реализация этого потенциала для решения всё более сложных, долгосрочных задач привела к появлению парадигмы "под-агент-как-инструмент" для многошагового решения задач. Однако в существующих подходах по-прежнему отсутствует динамическое абстрактное представление под-агентов, что снижает адаптивность. Мы решаем эту проблему с помощью унифицированной, независимой от фреймворка абстракции агента, которая моделирует любого агента как кортеж (Инструкция, Контекст, Инструменты, Модель). Этот кортеж выступает в роли композиционного рецепта для возможностей, позволяя системе порождать специализированные исполнители для каждой задачи по требованию. На основе этой абстракции мы представляем агентную систему AOrchestra, в которой центральный оркестратор конкретизирует кортеж на каждом шаге: он формирует релевантный для задачи контекст, выбирает инструменты и модели, а также делегирует выполнение путём динамического автоматического создания агентов. Такая архитектура позволяет сократить трудозатраты на разработку и остаётся независимой от фреймворка с поддержкой plug-and-play для различных агентов в качестве исполнителей задач. Она также обеспечивает контролируемый компромисс между производительностью и стоимостью, позволяя системе приближаться к Парето-эффективности. На трёх сложных наборах задач (GAIA, SWE-Bench, Terminal-Bench) AOrchestra в связке с Gemini-3-Flash демонстрирует относительное улучшение в 16.28% по сравнению с сильнейшим базовым методом. Код доступен по адресу: https://github.com/FoundationAgents/AOrchestra.
Данная работа основана на предыдущих взаимодополняющих наблюдениях за динамикой цепочки мыслей (CoT): крупные языковые модели (LLM) демонстрируют латентное планирование последующих рассуждений до появления явной CoT, что снижает значимость явной цепочки; однако CoT остается критически важной для задач, требующих многошаговых рассуждений. Для углубления понимания взаимосвязи между внутренними состояниями LLM и их вербализованными траекториями рассуждений мы исследуем силу латентного планирования в LLM с помощью нашего метода probing — Tele-Lens, применяемого к скрытым состояниям в различных предметных областях. Наши эмпирические результаты показывают, что LLM демонстрируют миопический горизонт, в основном осуществляя инкрементальные переходы без точного глобального планирования. Используя эту характеристику, мы выдвигаем гипотезу об улучшении оценки неопределенности CoT и подтверждаем, что небольшое подмножество позиций в CoT может эффективно представлять неопределенность всего пути. Мы также подчеркиваем важность использования динамики CoT и демонстрируем, что автоматическое распознавание обходных путей в CoT может быть достигнуто без снижения производительности. Наш код, данные и модели доступны по адресу https://github.com/lxucs/tele-lens.
Автоматизация исследований в области ИИ отличается от традиционной разработки программного обеспечения из-за вычислительно затратной оценки (например, обучения моделей) и неочевидной атрибуции производительности. Современные агенты на основе больших языковых моделей (LLM) часто сталкиваются здесь с трудностями, генерируя монолитные скрипты, которые игнорируют стоимость выполнения и причинно-следственные факторы. Мы представляем MARS (Modular Agent with Reflective Search) — фреймворк, оптимизированный для автономных исследований в области ИИ. MARS основывается на трёх принципах: (1) Планирование с учётом бюджета через поиск по дереву Монте-Карло (MCTS) с ограничениями по стоимости для явного балансирования производительности и затрат на выполнение; (2) Модульное конструирование, использующее конвейер «Проектирование-Декомпозиция-Реализация» для управления сложными исследовательскими репозиториями; и (3) Сравнительная рефлексивная память, которая решает проблему распределения заслуг путём анализа различий между решениями для извлечения высокоинформативных инсайтов. MARS демонстрирует наилучшую производительность среди фреймворков с открытым исходным кодом на MLE-Bench в сопоставимых условиях, сохраняя конкурентоспособность с топовыми методами глобального рейтинга. Более того, система демонстрирует качественные моменты «озарения», когда 63% всех используемых уроков возникают в результате межветочного переноса, что показывает способность агента эффективно обобщать инсайты across путями поиска.
В то время как большие языковые модели (LLM) превосходно справляются с краткосрочными задачами, их масштабирование для долгосрочных агентских рабочих процессов остается сложной задачей. Ключевое узкое место заключается в нехватке обучающих данных, которые фиксируют аутентичные структуры с длинными зависимостями и межэтапную эволюционную динамику — существующие методы синтеза либо ограничиваются сценариями с одной функциональностью, скованными распределением модели, либо требуют непомерных затрат на человеческую разметку, не обеспечивая масштабируемого высококачественного контроля. Мы решаем эту проблему, переосмысливая синтез данных через призму эволюции реального программного обеспечения. Наше ключевое наблюдение: последовательности Pull Request (PR) естественным образом воплощают в себе сигналы контроля для долгосрочного обучения. Они декомпозируют сложные цели на проверяемые единицы提交, сохраняют функциональную согласованность между итерациями и кодируют аутентичные паттерны доработки через истории исправления ошибок. Основываясь на этом, мы предлагаем **daVinci-Agency** — подход, который систематически извлекает структурированный контроль из цепочек PR с помощью трех взаимосвязанных механизмов: (1) прогрессивная декомпозиция задач через непрерывные коммиты, (2) обеспечение долгосрочной согласованности через единые функциональные цели и (3) проверяемая доработка на основе аутентичных траекторий исправления ошибок. В отличие от синтетических траекторий, которые рассматривают каждый шаг независимо, структура daVinci-Agency, основанная на PR, изначально сохраняет причинно-следственные зависимости и итеративные улучшения, необходимые для обучения устойчивому целеориентированному поведению, и позволяет естественно согласовывать его с проектно-ориентированным, полнопроцессным моделированием задач. Получаемые траектории значительны по объему — в среднем 85 тыс. токенов и 116 вызовов инструментов — и при этом обладают замечательной эффективностью использования данных: дообучение модели GLM-4.6 на 239 образцах от daVinci-Agency приводит к широкому улучшению результатов по различным бенчмаркам, с notably относительным приростом в 47% на Toolathlon. Помимо производительности на бенчмарках, наш анализ подтверждает...
Существующие методы управления движением человека при генерации видео обычно опираются на 2D-позы или явные 3D-параметрические модели (например, SMPL) в качестве управляющих сигналов. Однако 2D-позы жестко привязывают движение к исходной точке обзора, что исключает синтез из новых ракурсов. Явные 3D-модели, хотя и несут структурную информацию, страдают от присущих им неточностей (например, неоднозначности глубины и неточной динамики), которые, будучи использованы в качестве строгого ограничения, подавляют мощное внутреннее 3D-восприятие крупномасштабных генераторов видео. В данной работе мы пересматриваем задачу управления движением с 3D-ориентированной точки зрения, предлагая неявное, независимое от вида представление движения, которое естественным образом согласуется с пространственными априорными знаниями генератора, вместо того чтобы зависеть от внешне реконструированных ограничений. Мы представляем 3DiMo — подход, который совместно обучает кодировщик движения с предварительно обученным генератором видео для преобразования исходных кадров в компактные, независимые от ракурса токены движения, семантически внедряемые с помощью кросс-внимания. Для развития 3D-восприятия мы проводим обучение с использованием данных, богатых разнообразием ракурсов (например, видео с одним видом, несколькими видами и с движущейся камеры), заставляя модель обеспечивать согласованность движения при различных точках обзора. Дополнительно мы применяем вспомогательную геометрическую супервизию, которая использует SMPL лишь для первоначальной инициализации и постепенно ослабляется до нуля, позволяя модели перейти от внешнего 3D-руководства к обучению подлинному пониманию пространственного 3D-движения на основе данных и априорных знаний генератора. Эксперименты подтверждают, что 3DiMo точно воспроизводит заданные движения с гибким, управляемым текстом контролем камеры, значительно превосходя существующие методы как по точности передачи движения, так и по визуальному качеству.
Модели мира стали ключевым направлением исследований в области искусственного интеллекта, направленным на улучшение больших моделей путем их обогащения знаниями о физической динамике и устройстве мира. Основная цель состоит в том, чтобы позволить агентам понимать, предсказывать и взаимодействовать со сложными средами. Однако современная исследовательская картина остается фрагментированной: подходы в основном сосредоточены на внедрении знаний о мире в изолированные задачи, такие как визуальное прогнозирование, 3D-оценка или символьное заземление, а не на создании единого определения или framework. Хотя такие предметно-ориентированные интеграции дают прирост производительности, им часто не хватает системной согласованности, необходимой для целостного понимания мира. В данной статье мы анализируем ограничения таких разрозненных подходов и предлагаем единую спецификацию проектирования для моделей мира. Мы полагаем, что robustная модель мира не должна быть простым набором возможностей, а представляет собой нормативную framework, которая целостно объединяет взаимодействие, восприятие, символьные рассуждения и пространственное представление. Эта работа призвана дать структурированную перспективу для направления будущих исследований в сторону создания более общих, надежных и принципиальных моделей мира.
Подкрепляемое обучение с проверяемыми вознаграждениями (RLVR) стало ключевым подходом для улучшения логических способностей больших языковых моделей. Однако стандартные фреймворки, такие как Group Relative Policy Optimization (GRPO), обычно используют равномерный бюджет rollout, что приводит к неэффективному использованию ресурсов. Более того, существующие адаптивные методы часто опираются на метрики на уровне экземпляров, такие как процент успешного выполнения задач, не учитывая динамическое состояние обучения модели. Для решения этих ограничений мы предлагаем CoBA-RL — алгоритм подкрепляемого обучения, предназначенный для адаптивного распределения бюджета rollout на основе эволюционирующих возможностей модели. В частности, CoBA-RL использует ориентированную на возможности функцию ценности для сопоставления задач с их потенциальной учебной выгодой и применяет жадную стратегию на основе кучи для эффективной самокалибровки распределения вычислительных ресурсов на образцы с высокой учебной ценностью. Многочисленные эксперименты демонстрируют, что наш подход эффективно балансирует компромисс между исследованием и использованием, обеспечивая стабильное улучшение обобщения на множестве сложных бенчмарков. Эти результаты подчеркивают, что количественная оценка учебной ценности образцов и оптимизация распределения бюджета имеют ключевое значение для повышения эффективности пост-тренинговой обработки больших языковых моделей.
Дистилляция с согласованием распределений (DMD) выравнивает многошаговый генератор с его малошаговым аналогом, чтобы обеспечить генерацию высокого качества при низких вычислительных затратах на вывод. Однако DMD склонна к коллапсу мод, поскольку её обратная KL-дивергенция по своей природе способствует режиму поиска мод. Существующие методы борьбы с этим обычно полагаются на перцептивную или состязательную регуляризацию, что влечёт за собой значительные вычислительные затраты и нестабильность обучения. В данной работе мы предлагаем фреймворк дистилляции с разделением ролей, который явно разделяет функции дистиллированных шагов: первый шаг посвящён сохранению разнообразия сэмплов с помощью целевого предиктора (например, v-предиктора), тогда как последующие шаги фокусируются на улучшении качества под стандартной потерей DMD, причём градиенты от цели DMD блокируются на первом шаге. Мы называем этот подход Diversity-Preserved DMD (DP-DMD), который, несмотря на свою простоту — отсутствие перцептивной основы, дискриминатора, вспомогательных сетей и дополнительных эталонных изображений — сохраняет разнообразие сэмплов, поддерживая визуальное качество на уровне современных методов в обширных экспериментах по генерации изображений по тексту.
Последние достижения в области больших языковых моделей (LLM) позволили программным инженерным агентам решать сложные задачи модификации кода. Большинство существующих подходов полагаются на обратную связь от выполнения в контейнеризованных средах, которые требуют полной установки зависимостей и физического выполнения программ и тестов. Несмотря на эффективность, данная парадигма ресурсоемка и сложна в поддержке, что существенно затрудняет обучение агентов и ограничивает масштабируемость. Мы предлагаем SWE-World — фреймворк без использования Docker, который заменяет физические среды выполнения обученным суррогатом для тренировки и оценки программных инженерных агентов. SWE-World использует модели на основе LLM, обученные на данных реального взаимодействия агента со средой, для прогнозирования промежуточных результатов выполнения и финальной тестовой обратной связи, что позволяет агентам обучаться без взаимодействия с физическими контейнеризованными средами. Данный подход сохраняет стандартный цикл взаимодействия агента со средой, одновременно устраняя необходимость дорогостоящего создания и поддержки сред в процессе оптимизации и оценки агентов. Кроме того, поскольку SWE-World может имитировать финальные результаты оценки кандидатных траекторий без реальной отправки, это позволяет выбирать наилучшее решение среди нескольких попыток во время тестирования, тем самым способствуя эффективному масштабированию на этапе тестирования (TTS) в задачах программной инженерии. Эксперименты на SWE-bench Verified показывают, что SWE-World повышает результаты Qwen2.5-Coder-32B с 6.2% до 52.0% с помощью SFT без Docker, до 55.0% с обучением с подкреплением без Docker и до 68.2% при дальнейшем применении TTS. Код доступен по адресу https://github.com/RUCAIBox/SWE-World.
В данном техническом отчете представлена SWE-Master — открытая и полностью воспроизводимая платформа пост-обучения для создания эффективных агентов в области программной инженерии. SWE-Master системно исследует полный конвейер разработки агентов, включая синтез учительских траекторий и курацию данных, обучение с учителем на длинных горизонтах, обучение с подкреплением с обратной связью от реального выполнения, а также проектирование инфраструктуры вывода. Начиная с базовой открытой модели с ограниченными исходными возможностями в области SWE, SWE-Master демонстрирует, как системная оптимизация позволяет раскрыть мощные способности к решению долгосрочных задач программной инженерии. Мы оцениваем SWE-Master на SWE-bench Verified — стандартном бенчмарке для реалистичных задач программной инженерии. В идентичных экспериментальных условиях наш подход достигает показателя разрешения 61,4% с моделью Qwen2.5-Coder-32B, существенно превосходя существующие открытые базовые методы. При дальнейшем включении масштабирования на этапе тестирования с обратной связью от среды на основе LLM, SWE-Master достигает 70,8% при TTS@8, демонстрируя высокий потенциал производительности. SWE-Master предоставляет практичную и прозрачную основу для продвижения воспроизводимых исследований агентов программной инженерии. Код доступен по адресу https://github.com/RUCAIBox/SWE-Master.
В настоящее время обучение и оценка отчетов, сгенерированных системами DeepResearch, остаются сложной задачей из-за отсутствия верифицируемых сигналов вознаграждения. В связи с этим общепринятой практикой стала оценка на основе рубрик. Однако существующие подходы либо опираются на грубые, предопределенные рубрики, которым не хватает достаточной детализации, либо зависят от созданных вручную специфичных для запроса рубрик, что дорого и сложно масштабировать. В данной статье мы предлагаем конвейер для обучения специфичных для запроса генераторов рубрик, согласованных с человеческими предпочтениями и адаптированных для генерации отчетов DeepResearch. Сначала мы создаем набор данных запросов в стиле DeepResearch, аннотированных человеческими предпочтениями по парным отчетам, и обучаем генераторы рубрик с помощью обучения с подкреплением и гибридной функцией вознаграждения, сочетающей контроль со стороны человеческих предпочтений и оценку рубрик на основе ВБМ. Для лучшей обработки рассуждений на длинных горизонтах мы дополнительно вводим рабочий процесс Марковских состояний мультиагентной системы (MaMs) для генерации отчетов. Эмпирически мы показываем, что наши генераторы рубрик обеспечивают более дискриминативный и лучше согласованный с человеком контроль по сравнению с существующими стратегиями проектирования рубрик. Более того, при интеграции в учебную среду MaMs системы DeepResearch, оснащенные нашими генераторами рубрик, стабильно превосходят все открытые базовые модели на DeepResearch Bench и демонстрируют результаты, сопоставимые с ведущими закрытыми моделями.
Параллельное мышление стало перспективной парадигмой для рассуждений, однако оно накладывает значительные вычислительные нагрузки. Существующие методы повышения эффективности в основном опираются на локальные сигналы в рамках отдельных траекторий и не имеют принципиальных механизмов для использования глобальной динамики между параллельными ветвями. Мы представляем 2D-зондирование — интерфейс, который раскрывает динамику ширины-глубины параллельного мышления за счет периодического получения промежуточных ответов от всех ветвей. Наш анализ выявляет три ключевых наблюдения: немонотонное масштабирование при распределении между шириной и глубиной, неоднородную длину ветвей рассуждения и раннюю стабилизацию глобального консенсуса. Руководствуясь этими наблюдениями, мы представляем Parallel-Probe, беспараметричный контроллер, предназначенный для оптимизации параллельного мышления в режиме онлайн. Parallel-Probe использует раннюю остановку на основе консенсуса для регулирования глубины рассуждений и обрезку ветвей на основе отклонений для динамической настройки ширины. Многочисленные эксперименты на трех наборах данных и с несколькими моделями демонстрируют, что Parallel-Probe устанавливает превосходную границу Парето для масштабирования во время тестирования. По сравнению со стандартным мажоритарным голосованием, метод сокращает количество последовательных токенов до 35,8% и общую стоимость токенов более чем на 25,8%, сохраняя при этом конкурентоспособную точность.
Последние достижения в области мультимодальных моделей вознаграждения (reward models, RM) значительно стимулировали развитие визуальной генерации. Существующие подходы обычно используют моделирование предпочтений в стиле Брэдли-Терри или задействуют генеративные VLM в качестве судей, с последующей оптимизацией моделей визуальной генерации с помощью обучения с подкреплением. Однако современные RM имеют фундаментальные ограничения: они часто следуют универсальному подходу, который предполагает единое распределение предпочтений или опирается на фиксированные оценочные критерии. Как следствие, они нечувствительны к контент-специфичным визуальным признакам, что приводит к систематическому рассогласованию с субъективными и контекстно-зависимыми человеческими предпочтениями. Для решения этой проблемы, вдохновляясь человеческой оценкой, мы предлагаем UnifiedReward-Flex — унифицированную персонализированную модель вознаграждения для визуальной генерации, которая объединяет моделирование вознаграждения с гибким и контекстно-адаптивным рассуждением. Конкретно, получая промпт и сгенерированный визуальный контент, модель сначала интерпретирует семантический замысел и основывается на визуальных свидетельствах, а затем динамически строит иерархическую оценку, конкретизируя детализированные критерии в рамках как предзаданных, так и самостоятельно сгенерированных высокоуровневых аспектов. Наш конвейер обучения состоит из двух этапов: (1) сначала мы извлекаем струкрированные, высококачественные траектории рассуждений из передовых закрытых VLM для начальной настройки методом SFT, наделяя модель гибким и контекстно-адаптивным поведением рассуждений; (2) затем мы применяем прямую оптимизацию предпочтений (DPO) к тщательно отобранным парам предпочтений, чтобы дополнительно усилить достоверность рассуждений и дискриминативную согласованность. Для проверки эффективности мы интегрируем UnifiedReward-Flex в框架 GRPO для синтеза изображений и видео, и обширные результаты демонстрируют её превосходство.
Ранжирование является ключевым компонентом современных поисковых систем, которые обычно сочетают эффективный поиск на первом этапе с более выразительной моделью для уточнения результатов. Хотя большие языковые модели способствовали быстрому прогрессу в текстовом переранжировании, подходы на основе логического вывода для поиска видео остаются малоизученными. Для решения этой проблемы мы представляем RANKVIDEO — систему переранжирования для видео-поиска, которая явно анализирует пары «запрос-видео», используя содержание видео для оценки релевантности. RANKVIDEO обучается по двухэтапной учебной программе, включающей контролируемую тонкую настройку на основе восприятия с последующим обучением переранжированию, которое сочетает точечные, парные цели и дистилляцию уверенности учителя, и поддерживается конвейером синтеза данных для создания пар «запрос-видео», требующих интенсивного логического анализа. Эксперименты на крупном бенчмарке MultiVENT 2.0 демонстрируют, что RANKVIDEO стабильно улучшает производительность поиска в двухэтапной框架, обеспечивая среднее улучшение на 31% по nDCG@10 и превосходя альтернативы на основе только текста и моделей «визуальный язык-текст», оставаясь при этом более эффективной.
Метод обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) усовершенствовал логические рассуждения больших языковых моделей (LLM), однако остается ограниченным неэффективным исследованием среды при ограниченных бюджетах прогонов, что приводит к низкому проценту успешных сэмплирований и нестабильному обучению в сложных задачах. Мы выяснили, что многие неудачи исследования вызваны не сложностью задачи, а небольшим количеством токенов в промпте, которые вносят интерференцию. Основываясь на этом наблюдении, мы предлагаем фреймворк Less Noise Sampling Framework (LENS), который сначала выполняет промптинг, идентифицируя и удаляя токены интерференции, а затем передает успешные прогоны из процесса очистки для управления оптимизацией политики на исходных зашумленных промптах. Это позволяет модели научиться игнорировать интерференцию в реальных зашумленных условиях промптинга. Результаты экспериментов показывают, что LENS значительно превосходит GRPO, демонстрируя более высокую производительность и более быструю сходимость со средним приростом в 3.88% и ускорением более чем в 1.6 раза. Наша работа подчеркивает ключевую роль удаления токенов интерференции для повышения эффективности прогонов, предлагая новую перспективу для исследований RLVR.
Поисковый интеллект эволюционирует от Глубокого поиска к Широкому поиску — парадигме, необходимой для извлечения и синтеза всеобъемлющей информации в условиях сложных ограничений при параллельном выполнении. Однако прогресс в этой области сдерживается отсутствием специализированных бенчмарков и методик оптимизации для оценки широты поиска. Для решения этих задач мы проводим глубокий анализ Широкого поиска с двух перспектив: Конвейер данных и Оптимизация агентов. Во-первых, мы создаем WideSeekBench — бенчмарк общего широкого информационного поиска (General Broad Information Seeking, GBIS), построенный с помощью строгого многопоточного конвейера данных для обеспечения разнообразия по объему целевой информации, логическим ограничениям и доменам. Во-вторых, мы представляем WideSeek — динамическую иерархическую мультиагентную архитектуру, способную автономно создавать параллельные под-агенты в зависимости от требований задачи. Кроме того, мы разрабатываем унифицированную систему обучения, которая линеаризует траектории мультиагентного взаимодействия и оптимизирует систему с помощью сквозного обучения с подкреплением (RL). Результаты экспериментов демонстрируют эффективность WideSeek и мультиагентного RL, подчеркивая, что масштабирование количества агентов является перспективным направлением для развития парадигмы Широкого поиска.
В дискретном генеративном моделировании доминируют две парадигмы с различными возможностями: Masked Diffusion Language Models (MDLM) демонстрируют превосходство в семантическом понимании и zero-shot обобщении, тогда как Uniform-noise Diffusion Language Models (UDLM) достигают высокого качества генерации за малое число шагов, однако ни одна из них не обеспечивает сбалансированной производительности по обоим направлениям. Для решения этой проблемы мы предлагаем XDLM — подход, объединяющий две парадигмы посредством стационарного шумового ядра. Ключевые вклады XDLM заключаются в следующем: (1) принципиальное теоретическое объединение MDLM и UDLM, где каждая парадигма является частным случаем; (2) снижение требований к памяти благодаря алгебраическому упрощению апостериорных вероятностей. Эксперименты показывают, что XDLM расширяет границу Парето между способностью к пониманию и качеством генерации. Количественно XDLM превосходит UDLM на 5.4 пункта в zero-shot текстовых тестах и опережает MDLM в малошаговой генерации изображений (FID 54.1 против 80.8). При масштабировании для тонкой настройки крупной языковой модели с 8 млрд параметров XDLM достигает показателя 15.0 на MBPP всего за 32 шага, эффективно удваивая базовую производительность. Наконец, анализ динамики обучения выявляет превосходный потенциал XDLM для долгосрочного масштабирования. Код доступен по адресу https://github.com/MzeroMiko/XDLM
Парадигма гомотопии, представляющая собой общий принцип решения сложных задач, встречается в самых различных областях, таких как робастная оптимизация, глобальная оптимизация, поиск корней полиномов и сэмплирование. Практические решатели для этих задач обычно следуют структуре «предиктор-корректор» (ПК), но опираются на эвристики, задаваемые вручную для выбора размера шага и критериев остановки итераций, которые часто являются субоптимальными и специфичными для конкретной задачи. Чтобы решить эту проблему, мы объединяем эти задачи в единую framework, что позволяет разработать универсальный нейросетевой решатель. Основываясь на этом унифицированном подходе, мы предлагаем Нейросетевой Предиктор-Корректор (НПК), который заменяет ручные эвристики автоматически обучаемыми политиками. НПК формулирует выбор политики как проблему последовательного принятия решений и использует обучение с подкреплением для автоматического обнаружения эффективных стратегий. Для дальнейшего повышения обобщающей способности мы вводим амортизированный механизм обучения, позволяющий проводить одноразовое офлайн-обучение для целого класса задач и эффективный онлайн-вывод на новых экземплярах. Эксперименты на четырех репрезентативных задачах гомотопии демонстрируют, что наш метод эффективно обобщается на незнакомые экземпляры. Он стабильно превосходит классические и специализированные базовые методы по эффективности, одновременно демонстрируя превосходную стабильность across tasks, что подчеркивает ценность объединения методов гомотопии в единую нейросетевую framework.
Квадратичная сложность механизма внимания остается ключевым ограничением при выводе моделей в контекстах большой длины. Существующие методы ускорения либо разрежают матрицу внимания с помощью структурированных паттернов, либо безвозвратно исключают токены на определенных слоях, что может сохранять нерелевантные токены или опираться на необратимые ранние решения, игнорируя динамику важности токенов между слоями и головами внимания. В данной работе мы предлагаем Token Sparse Attention — легковесный и динамичный механизм разрежения на уровне токенов, который сжимает Q, K, V для каждого заголовка в уменьшенное множество токенов при вычислении внимания, а затем декомпрессирует выход обратно в исходную последовательность, позволяя переоценивать информацию о токенах на последующих слоях. Кроме того, наш метод открывает новые возможности проектирования на стыке селекции токенов и разреженного внимания. Подход полностью совместим с реализациями плотного внимания, включая Flash Attention, и может быть легко интегрирован с существующими ядрами разреженного внимания. Эксперименты показывают, что Token Sparse Attention стабильно улучшает компромисс между точностью и задержкой, обеспечивая до 3.23-кратного ускорения внимания для контекста длиной 128K токенов при деградации точности менее 1%. Эти результаты демонстрируют, что динамическое и чередующееся разрежение на уровне токенов является дополнительной и эффективной стратегией для масштабируемого вывода в длинных контекстах.
Помощь неискусным пользователям в разработке сложных интерактивных веб-сайтов стала популярной задачей для код-агентов на основе больших языковых моделей (LLM). Однако существующие код-агенты зачастую генерируют только фронтенд-страницы, маскируя отсутствие реальной полноценной обработки данных и хранения за счет визуальных эффектов. Примечательно, что создание промышленных полнофункциональных веб-приложений значительно сложнее простой генерации фронтенда, требуя тщательного контроля за потоками данных, всестороннего понимания постоянно обновляемых пакетов и зависимостей, а также точной локализации трудноуловимых ошибок в кодовой базе. Для решения этих проблем мы представляем FullStack-Agent — унифицированную агентную систему для полнофункционального агентного кодирования, состоящую из трех частей: (1) FullStack-Dev, мультиагентный фреймворк с мощными возможностями планирования, редактирования кода, навигации по кодовой базе и локализации ошибок; (2) FullStack-Learn, инновационный метод масштабирования данных и самосовершенствования, который осуществляет обратный перевод собранных и синтезированных репозиториев веб-сайтов для улучшения базовой LLM в FullStack-Dev; (3) FullStack-Bench, комплексный бенчмарк, систематически тестирующий фронтенд, бэкенд и функциональность базы данных сгенерированного сайта. Наш FullStack-Dev превосходит предыдущий state-of-the-art метод на 8,7%, 38,2% и 15,9% в тестах фронтенда, бэкенда и базы данных соответственно. Кроме того, FullStack-Learn повышает производительность модели на 30 млрд параметров на 9,7%, 9,5% и 2,8% по трем наборам тестов за счет самосовершенствования, демонстрируя эффективность нашего подхода. Код доступен по адресу https://github.com/mnluzimu/FullStack-Agent.
Определение эффективной смеси данных является ключевым фактором при предварительном обучении больших языковых моделей (LLM), где модели должны балансировать между общей компетентностью и мастерством в сложных задачах, таких как математика и программирование. Однако поиск оптимальной смеси остается нерешенной проблемой, поскольку существующие подходы либо полагаются на ненадежные прокси-эксперименты в малом масштабе, либо требуют непомерно дорогого исследования в крупном масштабе. Чтобы решить эту проблему, мы предлагаем DeMix (Decouple Searching from Training Mix) — новую концепцию, которая использует слияние моделей для прогнозирования оптимальных пропорций данных. Вместо обучения прокси-моделей для каждой проверяемой смеси DeMix обучает компонентные модели на кандидатских наборах данных в крупном масштабе и выводит прокси-смеси данных посредством взвешенного слияния моделей. Эта парадигма разделяет затраты на поиск и обучение, позволяя оценивать неограниченное количество проверяемых смесей без дополнительной нагрузки по обучению и, таким образом, способствуя лучшему обнаружению смесей за счет большего количества поисковых испытаний. Многочисленные эксперименты демонстрируют, что DeMix преодолевает компромисс между достаточностью, точностью и эффективностью, обеспечивая получение оптимальной смеси с более высокой производительностью на бенчмарках при меньших затратах на поиск. Кроме того, мы публикуем DeMix Corpora — всеобъемлющий набор данных объемом 22 триллиона токенов, содержащий высококачественные данные для предварительного обучения с проверенными смесями для содействия открытым исследованиям. Наш код и DeMix Corpora доступны по адресу https://github.com/Lucius-lsr/DeMix.
Адаптивное мультимодальное рассуждение стало перспективным направлением в моделях «зрение-язык» (Vision-Language Models, VLM), нацеленным на динамическое переключение между инструментально-расширенным визуальным рассуждением и текстовым рассуждением для повышения как эффективности, так и результативности. Однако существующие методы оценки опираются на статические метки сложности и упрощённые метрики, которые не способны отразить динамический характер сложности относительно меняющихся возможностей моделей. Как следствие, они не позволяют чётко разграничить адаптивный выбор режима и общую производительность, пренебрегая детальным анализом процесса. В данной статье мы предлагаем AdaptMMBench — комплексный бенчмарк для оценки адаптивного мультимодального рассуждения в пяти областях: реальный мир, OCR, графический интерфейс, знание и математика, охватывающий как задачи прямого восприятия, так и сложные рассуждения. AdaptMMBench использует метрику коэффициента корреляции Мэттьюса (MCC) для оценки рациональности выбора различных режимов рассуждения, изолируя эту метакогнитивную способность путём динамического определения сложности задач на основе границ возможностей моделей. Кроме того, AdaptMMBench позволяет проводить многомерную оценку процесса по таким параметрам, как покрытие ключевых шагов, эффективность инструментов и вычислительная эффективность. Наша оценка показывает, что, хотя адаптивный выбор режима масштабируется с ростом возможностей модели, он заметно отделён от итоговой точности. Напротив, покрытие ключевых шагов коррелирует с производительностью, хотя эффективность использования инструментов остаётся крайне нестабильной across различных архитектур моделей.
Понимание культуры требует рассуждений с учетом контекста, традиций и неявных социальных знаний, что далеко выходит за рамки простого воспроизведения изолированных фактов. Однако большинство бенчмарков для вопросно-ответных систем, сфокусированных на культуре, опираются на одношаговые вопросы, которые могут позволять моделям использовать поверхностные сигналы вместо демонстрации подлинного культурного мышления. В данной работе мы представляем ID-MoCQA — первую крупномасштабную многошаговую вопросно-ответную базу данных для оценки культурного понимания больших языковых моделей, основанную на индонезийских традициях и доступную как на английском, так и на индонезийском языках. Мы предлагаем новую методологию, которая систематически преобразует одношаговые культурные вопросы в цепочки многошаговых рассуждений, охватывающих шесть типов подсказок (например, здравый смысл, временные, географические). Наш многоэтапный процесс валидации, сочетающий экспертный анализ и фильтрацию с использованием LLM-как-судии, обеспечивает высокое качество пар "вопрос-ответ". Проведенная нами оценка современных моделей выявляет существенные пробелы в культурных рассуждениях, особенно в задачах, требующих тонких выводов. ID-MoCQA предоставляет сложный и необходимый бенчмарк для повышения культурной компетентности больших языковых моделей.
Авторегрессионные видеомиры моделируют будущие визуальные наблюдения, обусловленные действиями. Хотя они эффективны на коротких горизонтах, эти модели часто сталкиваются с трудностями при генерации на длинных горизонтах, поскольку небольшие ошибки предсказания накапливаются со временем. Существующие методы смягчают эту проблему за счет введения предварительно обученных учительских моделей и согласования распределений на уровне последовательностей, что влечет дополнительные вычислительные затраты и не предотвращает распространение ошибок за пределы обучающего горизонта. В данной работе мы предлагаем LIVE — интерактивную видеомодель мира для длинных горизонтов, которая ограничивает накопление ошибок с помощью новой цели цикличной согласованности, устраняя необходимость в дистилляции на основе учителя. В частности, LIVE сначала выполняет прямое прогнозирование из реальных кадров, а затем применяет обратный процесс генерации для восстановления исходного состояния. Диффузионная потеря вычисляется для реконструированного конечного состояния, создавая явное ограничение на распространение ошибок на длинных горизонтах. Кроме того, мы предлагаем единую модель, объединяющую различные подходы, и вводим прогрессивный учебный план для стабилизации обучения. Эксперименты показывают, что LIVE достигает передовых результатов на бенчмарках для длинных горизонтов, генерируя стабильные высококачественные видео далеко за пределами длин обучающих последовательностей.
Следование модальности представляет собой способность мультимодальных больших языковых моделей (МБЯМ) избирательно использовать мультимодальный контекст в соответствии с инструкциями пользователя. Это свойство является фундаментальным для обеспечения безопасности и надежности при реальном применении. Однако лежащие в основе этого процесса принятия решений механизмы остаются слабо изученными. В данной статье мы исследуем его рабочий механизм через призму информационных потоков. Наши результаты показывают, что токены инструкций функционируют как структурные якоря для арбитража модальностей: поверхностные слои внимания осуществляют неселективную передачу информации, направляя мультимодальные сигналы к этим якорям в качестве латентного буфера; конкуренция модальностей разрешается в глубоких слоях внимания под руководством интенции инструкции, в то время как MLP-слои проявляют семантическую инерцию, выступая в роли противодействующей силы. Кроме того, мы идентифицировали разреженное множество специализированных голов внимания, которые управляют этим арбитражем. Причинностные интервенции демонстрируют, что манипулирование всего 5% этих критически важных голов позволяет снизить коэффициент следования модальности на 60% путем блокировки или повысить его на 60% за счет целевого усиления неудачных примеров. Наша работа представляет собой значительный шаг к прозрачности моделей и предлагает принципиальную основу для оркестровки мультимодальной информации в МБЯМ.
Специализация ролей в мульти-LLM-агентных системах часто реализуется через мульти-LoRA, где агенты используют общий предобученный базовый блок и различаются только легковесными адаптерами. Несмотря на общие веса базовой модели, каждый агент независимо формирует и хранит собственный KV-кэш для одних и тех же длинных, дополненных инструментами траекторий, что приводит к значительным накладным расходам по памяти и вычислениям. Существующие методы разделения KV-кэша в значительной степени игнорируют настройку мульти-LoRA. Мы наблюдаем, что различия в кэше между агентами в основном обусловлены выходами адаптеров, в то время как активации из общего предобученного базового блока остаются высоко схожими. Основываясь на этом наблюдении, мы предлагаем LRAgent — фреймворк разделения KV-кэша для мульти-LoRA агентов, который декомпозирует кэш на общий базовый компонент из предобученных весов и адаптерозависимый компонент из весов LoRA. LRAgent снижает нагрузку на память за счет разделения базового компонента и хранения адаптерного компонента в его исходной низкоранговой форме, а также дополнительно сокращает вычислительные затраты, используя архитектуры shared-A multi-LoRA, за счет разделения низкорангового кэша и избежания избыточных вычислений для контекстов, уже обработанных другими агентами. Для эффективного восстановления вклада адаптеров во время выполнения мы представляем Flash-LoRA-Attention — ядро, которое переупорядочивает вычисление внимания, чтобы избежать материализации низкорангового кэша в полную размерность. LRAgent достигает пропускной способности и задержки до первого токена, близких к полностью разделяемому кэшированию, сохраняя при этом точность, близкую к базовому уровню без разделения кэша, в бенчмарках агентских вопросно-ответных систем.
Поисково-интегрированное рассуждение позволяет языковым агентам выходить за пределы статического параметрического знания, активно запрашивая внешние источники. Однако обучение таких агентов с помощью обучения с подкреплением затруднено проблемой распределения заслуг на разных масштабах: существующие методы обычно полагаются на разреженные, траекторные вознаграждения, которые не позволяют отличить качественное рассуждение от случайных догадок, что приводит к избыточному или вводящему в заблуждение поисковому поведению. Для решения этой проблемы мы предлагаем Search-R2 — новую фреймворк-коллаборацию «Актор-Уточнитель», которая улучшает рассуждение за счет целенаправленного вмешательства, причем оба компонента совместно оптимизируются в процессе обучения. Наш подход декомпозирует процесс генерации на Актора, который создает начальные траектории рассуждений, и Мета-Уточнителя, который выборочно диагностирует и исправляет ошибочные шаги с помощью механизма «вырезать и перегенерировать». Для обеспечения детального контроля мы вводим гибридный дизайн вознаграждения, который сочетает правильность результата с плотным процессуальным вознаграждением, количественно оценивающим информационную плотность извлеченных свидетельств. Теоретически мы формализуем взаимодействие Актора и Уточнителя как сглаженную смешанную политику, доказывая, что выборочная коррекция дает строгое улучшение производительности по сравнению с сильными базовыми методами. Многочисленные эксперименты на различных наборах данных для общего и многошагового вопросно-ответного поиска демонстрируют, что Search-R2 стабильно превосходит сильные базовые методы на основе RAG и обучения с подкреплением для моделей разных масштабов, достигая превосходной точности рассуждений при минимальных накладных расходах.
По мере перехода больших языковых моделей (LLM) от курируемых обучающих наборов к открытым реальным средам возникает фундаментальное ограничение: статическое обучение не успевает за постоянными изменениями в среде развертывания. Масштабирование вычислительных ресурсов на этапах обучения и вывода улучшает статические возможности, но не устраняет разрыв между обучением и развертыванием. Мы утверждаем, что для преодоления этого ограничения требуется новая ось масштабирования — эволюция. Существующие методы адаптации во время развертывания, будь то параметрическая тонкая настройка или эвристическое накопление памяти, лишены стратегической агентности, необходимой для диагностики сбоев и создания устойчивых улучшений. Наша позиция заключается в том, что агентная эволюция представляет собой неизбежное будущее адаптации LLM, преобразуя саму эволюцию из фиксированного конвейера в автономного агента-эволюционера. Мы реализуем это видение в общей структуре A-Evolve, которая рассматривает улучшение во время развертывания как целенаправленный оптимизационный процесс над постоянным состоянием системы. Кроме того, мы предлагаем гипотезу масштабирования эволюции: способность к адаптации масштабируется с объемом вычислений, выделенных на эволюцию, что позиционирует агентную эволюцию как масштабируемый путь к устойчивой адаптации в открытом мире.
Мы представляем WorldVQA — эталонный набор данных, разработанный для оценки атомарных знаний мультимодальных больших языковых моделей (MLLM) о визуальном мире. В отличие от существующих оценок, которые часто смешивают извлечение визуальных знаний с рассуждением, WorldVQA разделяет эти способности, чтобы строго измерить «то, что модель запомнила». Бенчмарк оценивает атомарную способность к локализации и именованию визуальных сущностей в рамках стратифицированной таксономии — от распространённых объектов головных классов до редких элементов «длинного хвоста». Мы ожидаем, что WorldVQA станет строгим тестом на визуальную фактическую точность, установив таким образом стандарт для оценки энциклопедической широты охвата и уровня галлюцинаций современных и перспективных фронтирных моделей.
Автономные агенты на основе больших языковых моделей (LLM) обещают ускорить научные открытия от начала до конца, однако строгая оценка их способности к верифицируемым открытиям остается ключевой проблемой. Существующие бенчмарки сталкиваются с компромиссом: они либо сильно полагаются на оценку LLM-как-судьи автоматически генерируемых научных результатов, либо оптимизируют удобные, но изолированные метрики производительности, которые служат грубыми прокси для научного инсайта. Чтобы устранить этот пробел, мы представляем FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) — бенчмарк, который оценивает агентов через повторное открытие установленных результатов из недавних высокоэффективных исследований в области машинного обучения. Агентам предоставляется лишь общий исследовательский вопрос, извлеченный из опубликованной верифицированной работы, и они должны автономно исследовать идеи, проектировать эксперименты, реализовывать код, выполнять свои планы и делать выводы, подкрепленные эмпирическими данными. Мы оцениваем ряд современных агентов с передовыми LLM, такими как GPT-5, на FIRE-Bench. Наши результаты показывают, что полный цикл научного исследования остается сложной задачей для современных агентских систем: даже самые мощные агенты демонстрируют ограниченный успех в повторном открытии (<50 F1), имеют высокую дисперсию между запусками и проявляют повторяющиеся ошибки в проектировании экспериментов, их выполнении и доказательном рассуждении. FIRE-Bench предоставляет строгую и диагностическую основу для измерения прогресса в направлении надежного научного открытия, управляемого агентами.
Сопоставление объектов с соответствующими текстовыми описаниями является фундаментальной задачей и практическим требованием в области понимания визуально-языковых данных. Хотя современные мультимодальные модели эмбеддингов преуспевают в глобальном согласовании изображений и текстов, они часто испытывают трудности с тонким сопоставлением между областями изображения и конкретными фразами. В данной работе мы представляем ObjEmbed — новую модель эмбеддинга MLLM, которая декомпозирует входное изображение на множественные региональные эмбеддинги, каждый из которых соответствует отдельному объекту, вместе с глобальными эмбеддингами. Она поддерживает широкий спектр задач визуального понимания, таких как визуальное позиционирование, локальный поиск изображений и глобальный поиск изображений. ObjEmbed обладает тремя ключевыми свойствами: (1) **Объектно-ориентированное представление**: Модель захватывает как семантические, так и пространственные аспекты объектов, генерируя два взаимодополняющих эмбеддинга для каждой области: эмбеддинг объекта для семантического сопоставления и эмбеддинг IoU, который предсказывает качество локализации. Итоговый показатель соответствия объекта комбинирует семантическое сходство с предсказанным IoU, что позволяет осуществлять более точный поиск. (2) **Универсальность**: Модель единообразно обрабатывает как задачи на уровне регионов, так и на уровне всего изображения. (3) **Эффективное кодирование**: Все объекты на изображении, вместе с полным изображением, кодируются за один прямой проход для обеспечения высокой эффективности. Превосходная производительность на 18 разнообразных бенчмарках демонстрирует её высокую семантическую различительную способность.
Панацеральный скрининг в крупномасштабных КТ-сканах остается сложной задачей для существующих методов ИИ, в первую очередь из-за трудностей локализации разнообразных типов мелких очагов поражения в больших объемах КТ-данных. Крайний дисбаланс между объектом и фоном существенно препятствует способности моделей концентрироваться на патологических областях, в то время как избыточное внимание к здоровым регионам не только снижает эффективность, но и увеличивает количество ложноположительных срабатываний. Вдохновившись диагностической стратегией радиологов "беглый взгляд - фокусировка", мы представляем GF-Screen - фреймворк с подкрепляемым обучением "Glance and Focus" для панацерального скрининга. GF-Screen использует модель "Glance" для локализации патологических областей и модель "Focus" для точной сегментации очагов, причем результаты сегментации модели Focus используются для подкрепления модели Glance через обучение с подкреплением (RL). В частности, модель Glance вырезает группу подобъемов из всего КТ-скана и обучается выбирать подобъемы с патологиями для последующей сегментации моделью Focus. Учитывая, что операция выбора недифференцируема для обучения сегментации, мы предлагаем использовать результаты сегментации для подкрепления модели Glance. Для оптимизации модели Glance мы вводим новую парадигму группового относительного обучения, которая использует групповое относительное сравнение для приоритизации прогнозов с высоким преимуществом и отбраковки прогнозов с низким преимуществом внутри групп подобъемов, что не только повышает эффективность, но и снижает ложноположительные результаты. Таким образом, мы впервые эффективно расширяем передовые методы RL для решения специфических задач панацерального скрининга. Масштабные эксперименты на 16 внутренних и 7 внешних наборах данных по 9 типам поражений продемонстрировали эффективность GF-Screen. Примечательно, что GF-Screen лидирует в публичной валидационной таблице лидеров панацерального челленджа MICCAI FLARE25, значительно превосходя решение-чемпион FLARE24 (+25.6% DSC и +28.2% NSD).
В последнее время наблюдается значительный исследовательский интерес к обучению больших языковых моделей (LLM) с подкреплением (RL) для решения реальных задач, таких как многошаговая генерация кода. Хотя онлайн-RL обычно показывает лучшие результаты по сравнению с офлайн-RL, его высокая стоимость обучения и нестабильность препятствуют широкому распространению. В данной статье мы, основываясь на наблюдении, что многошаговую генерацию кода можно представить как одношаговый восстанавливаемый марковский процесс принятия решений, предлагаем контекстное бандитское обучение на офлайн-траекториях (Cobalt) — новый метод, сочетающий преимущества онлайн- и офлайн-RL. Cobalt сначала собирает траектории генерации кода с помощью эталонной LLM и разбивает их на частичные траектории, используемые в качестве контекстных промптов. Затем, в процессе онлайн-бандитского обучения, LLM обучается завершать каждый промпт с частичной траекторией путем одношаговой генерации кода. Cobalt превосходит две базовые многошаговые онлайн-RL модели на основе GRPO и VeRPO и существенно улучшает показатели R1-Distill 8B и Qwen3 8B на целых 9.0 и 6.2 абсолютных балла Pass@1 в LiveCodeBench. Кроме того, мы анализируем поведение LLM, связанное с контекстным взломом функции вознаграждения, и дополняем обучение Cobalt возмущенными траекториями для смягчения этой проблемы. В целом, наши результаты демонстрируют, что Cobalt является перспективным решением для задач итеративного принятия решений, таких как многошаговая генерация кода. Наш код и данные доступны по адресу https://github.com/OSU-NLP-Group/cobalt.
Несмотря на недавний прогресс в визуально-языковых моделях (VLM), существующие подходы часто не способны генерировать персонализированные ответы на основе конкретного опыта пользователя, поскольку они не умеют ассоциировать визуальные входные данные с накопленным визуально-текстовым контекстом пользователя. Мы впервые формализуем эту проблему как контекстуальную визуальную персонализацию, которая требует от VLM распознавания визуальных образов и текстового поиска в персонализированном визуальном опыте при интерпретации новых изображений. Для решения этой задачи мы предлагаем CoViP — унифицированную архитектуру, которая рассматривает персонализированное описание изображений как ключевую задачу контекстуальной визуальной персонализации и улучшает эту способность посредством пост-обучения с подкреплением и генерации с обогащением описаниями. Мы также вводим диагностические оценки, которые явно исключают текстовые «короткие пути» и проверяют, действительно ли VLM используют визуальный контекст. Масштабные эксперименты демонстрируют, что существующие открытые и проприетарные VLM обладают существенными ограничениями, в то время как CoViP не только улучшает персонализированное описание изображений, но и обеспечивает комплексный прогресс в различных downstream-задачах персонализации. Эти результаты подчеркивают, что CoViP представляет собой важный этап на пути к созданию устойчивой и обобщаемой контекстуальной визуальной персонализации.
Крупные языковые модели (LLM) и модели «зрение-язык» (VLM) продемонстрировали впечатляющие возможности. Однако их развертыванию препятствуют значительные вычислительные затраты. Существующие методы структурированного прунинга, хотя и эффективны с точки зрения аппаратного обеспечения, часто страдают от существенной деградации точности. В данной статье мы утверждаем, что эта неудача проистекает из этапно-агностического подхода к прунингу, который игнорирует асимметричные роли этапов предварительного заполнения (prefill) и декодирования (decode). Благодаря введению механизма виртуального гейта наш анализ важности показывает, что глубокие слои критически важны для предсказания следующего токена (декодирование), но в значительной степени избыточны для кодирования контекста (предварительное заполнение). Используя это наблюдение, мы предлагаем Прунинг Только для Предварительного Заполнения (POP) — стратегию вывода, учитывающую этапы, которая безопасно пропускает глубокие слои на вычислительно интенсивном этапе предварительного заполнения, сохраняя при этом полную модель для чувствительного этапа декодирования. Для обеспечения перехода между этапами мы вводим независимые проекции Ключ-Значение (KV) для сохранения целостности кэша и стратегию обработки границы для обеспечения точности первого генерируемого токена. Масштабные эксперименты на моделях Llama-3.1, Qwen3-VL и Gemma-3 в различных модальностях демонстрируют, что POP достигает ускорения задержки предварительного заполнения до 1.37 раза при минимальной потере производительности, эффективно преодолевая ограничения компромисса «точность-эффективность», присущие существующим методам структурированного прунинга.
Задача позиционирования в графическом интерфейсе пользователя (GUI) заключается в переводе инструкций на естественном языке в исполняемые экранные координаты, что позволяет автоматизировать взаимодействие с GUI. Однако некорректное позиционирование может привести к дорогостоящим и труднообратимым действиям (например, к ошибочному подтверждению платежей), вызывая обеспокоенность относительно надежности моделей. В данной статье мы представляем SafeGround — осознающий неопределенность фреймворк для моделей позиционирования в GUI, который обеспечивает прогнозирование с учетом риска за счет калибровки до тестирования. SafeGround использует метод количественной оценки неопределенности, учитывающий распределение, для захвата пространственного разброса стохастических выборок из выходных данных любой заданной модели. Затем в процессе калибровки SafeGround выводит порог принятия решений во время тестирования со статистически гарантированным контролем уровня ложных открытий (False Discovery Rate, FDR). Мы применяем SafeGround к нескольким моделям позиционирования в GUI для сложного бенчмарка ScreenSpot-Pro. Результаты экспериментов показывают, что наша мера неопределенности последовательно превосходит существующие базовые методы в различении корректных и некорректных прогнозов, в то время как калиброванный порог надежно обеспечивает строгий контроль рисков и открывает потенциал для существенного повышения точности на системном уровне. Для различных моделей позиционирования в GUI SafeGround повышает точность на системном уровне до 5,38 процентных пунктов по сравнению с выводом только на основе Gemini.
Последние достижения в области больших языковых моделей (LLM) открыли новые пути для ускорения научных исследований. Хотя модели становятся все более способными помогать в решении рутинных задач, их способность вносить вклад в новейшие, экспертные математические открытия изучена меньше. Мы представляем серию кейс-стади, демонстрирующих, как исследователи успешно сотрудничали с продвинутыми моделями ИИ, в частности с моделями на базе Google Gemini (особенно Gemini Deep Think и его расширенными вариантами), для решения открытых проблем, опровержения гипотез и генерации новых доказательств в различных областях теоретической информатики, а также в других сферах, таких как экономика, оптимизация и физика. На основе этого опыта мы выявляем общие методы эффективного сотрудничества человека и ИИ в теоретических исследованиях, такие как итеративное уточнение, декомпозиция проблем и междисциплинарный перенос знаний. Хотя большинство наших результатов получено с помощью этого интерактивного, разговорного метода, мы также выделяем конкретные примеры, выходящие за рамки стандартных чат-интерфейсов. К ним относятся использование модели в качестве строгого рецензента-оппонента для выявления скрытых недостатков в существующих доказательствах и ее встраивание в «нейросимволический» цикл, который автономно пишет и исполняет код для проверки сложных выводов. Вместе эти примеры подчеркивают потенциал ИИ не просто как инструмента автоматизации, но как универсального, подлинного партнера в творческом процессе научного открытия.
Методы защиты конфиденциальности в системах распознавания лиц, основанные на преобразованиях (PPFR), направлены на верификацию личностей при одновременном сокрытии лицевых данных от злоумышленников и недобросовестных поставщиков услуг. Существующие подходы к оценке в основном рассматривают приватность как устойчивость к реконструкции на пиксельном уровне, измеряемую с помощью PSNR и SSIM. Мы демонстрируем, что этот реконструкционно-ориентированный подход несостоятелен. Мы представляем FaceLinkGen — атаку на извлечение идентичности, которая выполняет связывание/сопоставление и регенерацию лиц непосредственно из защищенных шаблонов без восстановления исходных пикселей. На трех современных системах PPFR FaceLinkGen достигает точности сопоставления свыше 98,5% и успеха регенерации выше 96%, сохраняя показатели более 92% для сопоставления и 94% для регенерации в условиях, близких к полному отсутствию априорных знаний. Эти результаты выявляют структурный разрыв между метриками пиксельных искажений, широко используемыми в оценке PPFR, и реальной приватностью. Мы показываем, что визуальное обфускации оставляет информацию об идентичности в значительной степени открытой как для внешних злоумышленников, так и для ненадежных поставщиков услуг.
Малые языковые модели всё чаще рассматриваются как перспективный и экономически эффективный подход к созданию агентного ИИ, причём сторонники утверждают, что их возможностей достаточно для агентных рабочих процессов. Однако, хотя малые агенты могут почти не уступать крупным в простых задачах, остаётся неясным, как их производительность масштабируется со сложностью задачи, когда становятся необходимы большие модели и как лучше использовать малых агентов для долгосрочных рабочих нагрузок. В данной работе мы эмпирически показываем, что производительность малых агентов не масштабируется со сложностью задач в области глубокого поиска и программирования, и представляем Strategy Auctions for Workload Efficiency (SALE) — агентный фреймворк, вдохновлённый биржами фриланса. В SALE агенты делают ставки в виде кратких стратегических планов, которые оцениваются системным механизмом стоимости и ценности и улучшаются через общую память аукциона, что позволяет осуществлять маршрутизацию для каждой задачи и непрерывное самоулучшение без обучения отдельного маршрутизатора или полного выполнения всеми моделями. На задачах глубокого поиска и программирования разной сложности SALE снижает зависимость от самого крупного агента на 53%, сокращает общие затраты на 35% и стабильно превосходит показатель pass@1 крупнейшего агента при незначительных накладных расходах сверх выполнения финального трейса. В отличие от этого, существующие маршрутизаторы, основанные на описаниях задач, либо уступают крупнейшему агенту, либо не снижают затраты — часто и то, и другое — что подчёркивает их плохую пригодность для агентных рабочих процессов. Эти результаты свидетельствуют, что хотя малые агенты могут быть недостаточны для сложных нагрузок, их можно эффективно «масштабировать вверх» за счёт скоординированного распределения задач и самоулучшения во время тестирования. В более широком смысле они обосновывают системный взгляд на агентный ИИ, в котором прирост производительности достигается не столько за счёт всё более крупных индивидуальных моделей, сколько за счёт рыночно-вдохновлённых механизмов координации, организующих разнородных агентов в эффективные и адаптивные экосистемы.
В данной работе мы пересматриваем оптимизацию архитектуры Transformer через призму геометрии второго порядка и устанавливаем прямую связь между проектированием архитектуры, масштабом активаций, матрицей Гессе и максимально допустимой скоростью обучения. Мы представляем простую стратегию нормализации, названную SimpleNorm, которая стабилизирует масштабы промежуточных активаций по построению. Затем, анализируя гессиан функции потерь относительно активаций сети, мы теоретически показываем, что SimpleNorm значительно уменьшает спектральную норму гессиана, тем самым допуская использование более высоких стабильных скоростей обучения. Мы проверяем наши теоретические выводы с помощью обширных экспериментов на крупных GPT-моделях с масштабами параметров 1B, 1.4B, 7B и 8B. Эмпирически, наша сеть SimpleGPT, основанная на SimpleNorm, выдерживает скорости обучения в 3–10 раз выше стандартных значений, последовательно демонстрирует высокую оптимизационную стабильность и достигает существенно лучших результатов по сравнению с общепризнанными базовыми методами. В частности, при обучении моделей масштаба 7B в течение 60 тысяч шагов, SimpleGPT достигает значения функции потерь на 0.08 ниже, чем у LLaMA2 с QKNorm, снижая потери с 2.290 до 2.208. Наш исходный код будет опубликован по адресу https://github.com/Ocram7/SimpleGPT.
С появлением крупных языковых моделей (LLM) агенты общего назначения получили фундаментальное развитие. Однако оценка таких агентов сопряжена с уникальными трудностями, отличающими их от статических бенчмарков вопросов и ответов. Мы наблюдаем, что современные бенчмарки для агентов сильно искажены побочными факторами, включая системные промпты, конфигурации набора инструментов и динамику окружения. Существующие оценки часто опираются на фрагментированные, специфичные для исследователей фреймворки, где инженерия промптов для рассуждений и использования инструментов значительно варьируется, что затрудняет attribution прироста производительности самой модели. Кроме того, отсутствие стандартизированных данных окружения приводит к неотслеживаемым ошибкам и невоспроизводимым результатам. Эта нехватка стандартизации вносит существенную несправедливость и непрозрачность в данную область. Мы полагаем, что унифицированная система оценки необходима для строгого прогресса в оценке агентов. С этой целью мы представляем предложение, направленное на стандартизацию оценки агентов.
Сегментация медицинских изображений эволюционирует от узкоспециализированных моделей к обобщающим фреймворкам. В последних исследованиях используются мультимодальные большие языковые модели (MLLM) в качестве автономных агентов, применяющих обучение с подкреплением с верифицируемым вознаграждением (RLVR) для координации специализированных инструментов, таких как Segment Anything Model (SAM). Однако эти подходы часто полагаются на одношаговые жесткие стратегии взаимодействия и не имеют процессного контроля во время обучения, что ограничивает их способность полностью раскрывать динамический потенциал интерактивных инструментов и приводит к избыточным действиям. Для преодоления этого разрыва мы предлагаем MedSAM-Agent — фреймворк, который переформулирует интерактивную сегментацию как многошаговый процесс автономного принятия решений. Во-первых, мы внедряем гибридную стратегию prompting для генерации траекторий, курируемых экспертами, что позволяет модели усваивать эвристики принятия решений, подобные человеческим, и адаптивные стратегии уточнения. Кроме того, мы разрабатываем двухэтапный конвейер обучения, который интегрирует многошаговую сквозную верификацию результатов с дизайном процессного вознаграждения, учитывающим клиническую достоверность, для повышения эффективности взаимодействия и принятия решений. Масштабные эксперименты на 6 медицинских модальностях и 21 наборе данных демонстрируют, что MedSAM-Agent достигает наилучших результатов, эффективно объединяя автономные медицинские рассуждения с надежной итеративной оптимизацией. Код доступен по ссылке: https://github.com/CUHK-AIM-Group/MedSAM-Agent.
Клинические интерфейсы «мозг-текст» предназначены для парализованных пациентов, которые не могут предоставить обширные записи для обучения. Предварительное обучение улучшает эффективную по данным генерализацию за счет изучения статистических априорных распределений между испытуемыми, но эти априорные распределения критически зависят от контекста. В то время как естественная речь может разворачиваться постепенно в течение нескольких минут, большинство методов предварительно обучаются с контекстом длиной всего в несколько секунд. Таким образом, мы предлагаем MEG-XL — модель, предварительно обученную с контекстом МЭГ длиной 2,5 минуты на каждый образец, что в 5–300 раз больше, чем в предыдущих работах, и эквивалентно 191 тыс. токенов, захватывая расширенный нейронный контекст. При дообучении на задаче декодирования слов из данных мозга MEG-XL достигает производительности контролируемых методов с использованием лишь части данных (например, 1 час против 50 часов) и превосходит фоновые модели мозга. Мы обнаружили, что модели, предварительно обученные с более длинными контекстами, изучают представления, которые лучше переносятся на задачу декодирования слов. Наши результаты показывают, что предварительное обучение с длинным контекстом помогает использовать расширенный нейронный контекст, который другие методы без необходимости отбрасывают. Код, веса модели и инструкции доступны по адресу https://github.com/neural-processing-lab/MEG-XL.
Исследования с использованием конфиденциальных данных традиционно ограничивались проблемой недостатка данных, что резко контрастирует с другими областями, получившими преимущества от масштабирования данных. Эта проблема становится все более актуальной, поскольку современные ИИ-агенты, такие как OpenClaw и Gemini Agent, получают постоянный доступ к высокочувствительной личной информации. Для решения этого давнего ограничения и растущих рисков мы представляем Privasis (сокр. от англ. «privacy oasis» — оазис конфиденциальности), первый миллионный полностью синтетический набор данных, созданный с нуля — обширное хранилище текстов с богатой и разнообразной личной информацией, — предназначенный для расширения и ускорения исследований в областях, где обработка конфиденциальных социальных данных неизбежна. По сравнению с существующими наборами данных, Privasis, содержащий 1,4 миллиона записей, предлагает на порядки больший масштаб при высоком качестве и значительно большее разнообразие типов документов, включая медицинские истории, юридические документы, финансовые отчеты, календари и текстовые сообщения, с общим количеством в 55,1 миллиона размеченных атрибутов, таких как этническая принадлежность, дата рождения, место работы и т.д. Мы используем Privasis для создания параллельного корпуса для очистки текстов с помощью нашего конвейера, который декомпозирует тексты и применяет целевую санацию. Наши компактные модели очистки (≤4 млрд параметров), обученные на этом наборе данных, превосходят передовые большие языковые модели, такие как GPT-5 и Qwen-3 235B. Мы планируем опубликовать данные, модели и код для ускорения будущих исследований в области конфиденциальных данных и агентов.
Повышение способностей к рассуждению у больших языковых моделей (LLM) обычно зависит либо от возможности модели сэмплировать правильное решение для последующего усиления, либо от наличия более мощной модели, способной решить задачу. Однако многие сложные проблемы остаются неразрешимыми даже для современных передовых моделей, что препятствует извлечению достоверных обучающих сигналов. Многообещающей альтернативой является использование высококачественных решений экспертов-людей, но простое имитирование этих данных не работает, поскольку они по своей природе лежат вне распределения: экспертные решения обычно носят дидактический характер и содержат неявные логические пропуски, предназначенные для человеческого восприятия, а не для вычислительных моделей. Кроме того, высококачественные экспертные решения дороги, что требует обобщающих методов обучения с высокой эффективностью использования данных. Мы предлагаем Обучение с имитацией и выравниванием распределения (Distribution Aligned Imitation Learning, DAIL) — двухэтапный метод, который преодолевает разрыв в распределении, сначала преобразуя экспертные решения в детальные, соответствующие распределению цепочки рассуждений, а затем применяя контрастную цель для фокусировки обучения на экспертных инсайтах и методологиях. Мы обнаружили, что DAIL позволяет использовать менее 1000 высококачественных экспертных решений для достижения прироста в 10-25% по метрике pass@k для моделей Qwen2.5-Instruct и Qwen3, повысить эффективность рассуждений в 2–4 раза и обеспечить обобщение за пределами домена.
Высококачественная обратная связь необходима для эффективного взаимодействия человека и ИИ. Она устраняет пробелы в знаниях, исправляет отклонения и формирует поведение системы как в процессе взаимодействия, так и на протяжении всей разработки модели. Однако, несмотря на свою важность, обратная связь человека для ИИ часто бывает нерегулярной и низкого качества. Этот разрыв мотивирует критическое изучение человеческой обратной связи во время взаимодействия с системами ИИ. Чтобы понять и преодолеть трудности, мешающие пользователям давать качественную обратную связь, мы провели два исследования, изучающие динамику обратной связи между людьми и диалоговыми агентами. Наше формирующее исследование, через призму максим Грайса, выявило четыре барьера обратной связи — общее основание, проверяемость, коммуникацию и информативность, — которые препятствуют предоставлению пользователями высококачественной обратной связи. Основываясь на этих выводах, мы формулируем три проектных требования и показываем, что системы, включающие поддержку, соответствующую этим требованиям, позволили пользователям предоставлять обратную связь более высокого качества. Наконец, мы подробно излагаем призыв к действию для широкого сообщества ИИ о необходимости развития возможностей больших языковых моделей для преодоления барьеров обратной связи.
Взаимосвязи между объектами и языком являются фундаментальными для осмысленной коммуникации между человеком и ИИ, а также для практически полезного воплощённого интеллекта. Мы представляем HieraNav — задачу навигации к цели с многогранулярностью и открытым словарём, в которой агенты интерпретируют инструкции на естественном языке для достижения целей на четырёх семантических уровнях: сцена, комната, регион и экземпляр. Для этого мы предлагаем Language as a Map (LangMap) — крупномасштабный бенчмарк, построенный на основе реальных 3D-сканов помещений с исчерпывающими проверенными человеком аннотациями и задачами, охватывающими эти уровни. LangMap предоставляет метки регионов, дискриминативные описания регионов, дискриминативные описания экземпляров, охватывающие 414 категорий объектов, и более 18K задач навигации. Каждая цель снабжена как краткими, так и подробными описаниями, что позволяет проводить оценку для различных стилей инструкций. LangMap демонстрирует превосходное качество аннотаций, превосходя GOAT-Bench на 23.8% по дискриминативной точности при использовании в четыре раза меньше слов. Всесторонние оценки zero-shot и supervised моделей на LangMap показывают, что более богатый контекст и память повышают успешность, в то время как задачи с длинным хвостом, малыми, контекстно-зависимыми и удалёнными целями, а также с выполнением нескольких целей остаются сложными. HieraNav и LangMap создают строгую испытательную среду для развития языково-управляемой воплощённой навигации. Проект: https://bo-miao.github.io/LangMap
Понимание принципов работы компонентов трансформаторов в больших языковых моделях (LLM) имеет важное значение, поскольку они лежат в основе последних технологических достижений в области искусственного интеллекта. В данной работе мы вновь обращаемся к проблемам интерпретируемости прямых (feed-forward) модулей (FFN) и предлагаем MemoryLLM — подход, который позволяет отделить FFN от механизма самовнимания (self-attention) и изучать декомпозированные FFN как контекстно-независимую поэлементную нейросетевую память выборки. В частности, мы исследуем, как входные токены обращаются к ячейкам памяти внутри параметров FFN, и оцениваем важность памяти FFN для различных прикладных задач. MemoryLLM обеспечивает контекстную независимость FFN за счёт их изолированного обучения напрямую на эмбеддингах токенов, без использования механизма самовнимания. Этот подход позволяет предварительно вычислять FFN в виде таблиц поиска по токенам (ToL), что даёт возможность гибко перемещать их между видеопамятью (VRAM) и долговременным хранилищем, дополнительно повышая эффективность вывода. Мы также представляем Flex-MemoryLLM — архитектуру, занимающую промежуточное положение между классической архитектурой трансформатора и MemoryLLM. Данная архитектура сокращает разрыв в производительности, вызванный обучением FFN на контекстно-независимых эмбеддингах токенов.
Мультимодальные системы рекомендаций обычно интегрируют поведение пользователей с мультимодальными данными объектов, что позволяет выявлять более точные пользовательские предпочтения. Одновременно с ростом популярности больших моделей (БМ) мультимодальные рекомендации всё активнее используют их преимущества в области семантического понимания и контекстного анализа. Однако представления, формируемые БМ, изначально оптимизированы для общих семантических задач, в то время как рекомендательные модели в значительной степени опираются на разреженные характеристики уникальных идентификаторов (ID) пользователей и объектов. Существующие подходы игнорируют фундаментальное расхождение в представлениях между большими моделями и системами рекомендаций, что приводит к несовместимости мультимодальных представлений и неоптимальной производительности рекомендаций. Для преодоления этого разрыва мы предлагаем RecGOAT — новую, но простую дуальную систему семантического выравнивания для мультимодальных рекомендаций, усиленных большими языковыми моделями, которая обеспечивает теоретически гарантированную способность к выравниванию. RecGOAT сначала использует графовые сети внимания для обогащения коллаборативной семантики путём моделирования отношений "объект-объект", "пользователь-объект" и "пользователь-пользователь" с использованием представлений БМ для пользователей/объектов и истории взаимодействий. Кроме того, мы разрабатываем прогрессивную систему выравнивания мультимодальности и ID на двух уровнях детализации, которая достигает семантического выравнивания на уровне экземпляров и на уровне распределения с помощью контрастивного обучения между модальностями (CMCL) и оптимального адаптивного транспорта (OAT) соответственно. Теоретически мы демонстрируем, что унифицированные представления, полученные с помощью нашей системы выравнивания, обладают превосходной семантической согласованностью и полнотой. Многочисленные эксперименты на трёх публичных наборах данных показывают, что наш RecGOAT достигает наилучшей производительности, что эмпирически подтверждает наши теоретические выводы. Дополнительно развёртывание на крупной платформе онлайн-рекламы подтвердило эффективность и масштабируемость модели в промышленных сценариях рекомендаций. Код доступен по адресу https://github.com/6lyc/RecGOAT-LLM4Rec.
Многие системы машинного обучения имеют доступ к нескольким источникам данных для одной и той же целевой переменной прогноза, однако эти источники часто различаются по надежности и информативности для разных входных данных. В биоакустической классификации идентичность вида может быть выведена как из акустического сигнала, так и из пространственно-временного контекста, такого как местоположение и сезон; в то время как байесовский вывод обосновывает мультипликативное объединение свидетельств, на практике мы обычно имеем доступ лишь к дискриминативным предикторам, а не к калиброванным генеративным моделям. Мы представляем Fusion under INdependent Conditional Hypotheses (FINCH) — адаптивную лог-линейную систему слияния данных, которая интегрирует предварительно обученный аудиоклассификатор со структурированным пространственно-временным предиктором. FINCH изучает зависящую от каждого примера функцию гейтирования, которая оценивает надежность контекстной информации на основе статистик неопределенности и информативности. Полученное семейство методов слияния включает классификатор, работающий только с аудиоданными, в качестве частного случая и явно ограничивает влияние контекстных данных, формируя гипотезный класс с контролируемым риском и интерпретируемым резервным режимом, основанным только на аудио. На различных тестовых наборах FINCH стабильно превосходит слияние с фиксированными весами и базовые модели, использующие только аудио, улучшая устойчивость и компромиссы ошибок даже в случаях, когда контекстная информация сама по себе слаба. Мы достигаем наилучших на сегодняшний день результатов на CBI и соревновательных или улучшенных результатов на нескольких подмножествах BirdSet, используя легковесный, интерпретируемый подход, основанный на объединении свидетельств. Код доступен: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{анонимный репозиторий}.
Ключ-значение (KV) кеш больших языковых моделей (LLM) основан на префиксах, что делает его крайне неэффективным для обработки контекстов, извлекаемых в произвольном порядке. Для обеспечения повторного использования KV без позиционных ограничений была предложена позиционно-независимая кеширование (PIC), однако существующие подходы часто приводят к значительной деградации точности, ограничивая их практическое применение. Для решения этой проблемы мы предлагаем нативную PIC путем повторного введения энкодера в распространенные декодер-только LLM и явного обучения его для поддержки PIC. Мы также разработали COMB — систему кеширования с поддержкой PIC, которая бесшовно интегрируется с существующими фреймворками вывода. Экспериментальные результаты показывают, что COMB сокращает время до первого токена (TTFT) на 51–94% и увеличивает пропускную способность в 3 раза при сопоставимой точности. Кроме того, улучшение качества при использовании DeepSeek-V2-Lite-Chat демонстрирует применимость COMB к другим типам декодер-только LLM. Наш код доступен по адресу https://github.com/shijuzhao/Comb.