Ежедневно отобранные исследовательские статьи по ИИ с переводами
Контролируемая тонкая настройка (SFT) является стандартной парадигмой для адаптации к предметной области, однако она часто сопровождается катастрофическим забыванием. В резком контрасте с этим, обучение с подкреплением (RL) на основе собственной политики эффективно сохраняет общие способности модели. Мы исследуем это расхождение и выявляем фундаментальный распределительный разрыв: в то время как RL согласуется с внутренними убеждениями модели, SFT заставляет модель подстраиваться под внешнее контролирующее воздействие. Это несоответствие часто проявляется в виде "уверенных конфликтов" — токенов, характеризующихся низкой вероятностью, но также и низкой энтропией. В таких случаях модель высоко уверена в собственном прогнозе, но вынуждена обучаться на расходящейся с ним истинной метке, что провоцирует деструктивные обновления градиента. Для решения этой проблемы мы предлагаем Энтропийно-Адаптивную Тонкую Настройку (EAFT). В отличие от методов, опирающихся исключительно на вероятность предсказания, EAFT использует энтропию на уровне токенов в качестве механизма затвора для различения эпистемической неопределенности и конфликта знаний. Это позволяет модели обучаться на неопределенных примерах, одновременно подавляя градиенты на конфликтующих данных. Многочисленные эксперименты на моделях серий Qwen и GLM (диапазоном от 4B до 32B параметров) в математической, медицинской и агентной областях подтверждают нашу гипотезу. EAFT стабильно соответствует производительности стандартной SFT на целевых задачах, при этом значимо смягчая деградацию общих способностей.
Мы исследуем непрерывное приобретение навыков в открытых воплощённых средах, где агент должен создавать, совершенствовать и повторно использовать расширяющуюся библиотеку исполняемых навыков. Мы представляем Программную Сеть Навыков (ПСН) — фреймворк, в котором навыки являются исполняемыми символическими программами, формирующими композиционную сеть, эволюционирующую с опытом. ПСН определяет три ключевых механизма, реализованных с помощью больших языковых моделей: (1) REFLECT для структурированной локализации ошибок в композициях навыков, (2) прогрессивную оптимизацию с зрелостно-зависимым управлением обновлениями, которая стабилизирует надёжные навыки, сохраняя пластичность для неопределённых, и (3) канонический структурный рефакторинг с проверкой отката, обеспечивающий компактность сети. Мы также показываем, что динамика обучения ПСН демонстрирует структурные параллели с обучением нейронных сетей. Эксперименты на MineDojo и Crafter демонстрируют устойчивое повторное использование навыков, быструю адаптацию и сильную обобщающую способность для открытых распределений задач.\footnote{Мы планируем опубликовать исходный код.}
Интеграция больших языковых моделей (LLM) с внешними инструментами значительно расширила возможности ИИ-агентов. Однако по мере роста разнообразия как самих LLM, так и инструментов, выбор оптимальной комбинации модель-инструмент становится задачей высокоразмерной оптимизации. Существующие подходы часто полагаются на единую модель или фиксированную логику вызова инструментов, не учитывая вариативность производительности в гетерогенных парах модель-инструмент. В данной статье мы представляем ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation) — двухконтурную архитектуру для динамического использования инструментов в кросс-доменных рассуждениях. ATLAS функционирует по двум направлениям: (1) беспоисковое кластерное маршрутизирование, использующее эмпирические априорные данные для доменно-специфичного согласования, и (2) многошаговая маршрутизация на основе обучения с подкреплением, исследующая автономные траектории для обобщения вне распределения. Экстенсивные эксперименты на 15 бенчмарках демонстрируют превосходство нашего метода над закрытыми моделями типа GPT-4o, с превышением показателей существующих методов маршрутизации как для задач в распределении (+10.1%), так и вне распределения (+13.1%). Кроме того, наша архитектура показывает значительный прогресс в визуальных рассуждениях за счет оркестрации специализированных мультимодальных инструментов.
Быстрое распространение бенчмарков для оценки больших языковых моделей (БЯМ) создало острую потребность в систематических методах оценки качества самих бенчмарков. Мы предлагаем Benchmark² — комплексную систему, включающую три взаимодополняющих метрики: (1) *Согласованность ранжирования между бенчмарками*, измеряющую, насколько ранжирование моделей данным бенчмарком соответствует результатам аналогичных бенчмарков; (2) *Показатель дискриминативности*, количественно оценивающий способность бенчмарка различать модели; и (3) *Отклонение согласованности со способностями*, выявляющее проблемные случаи, когда более сильные модели ошибаются, а более слабые — справляются внутри одного семейства моделей. Мы провели масштабные эксперименты на 15 бенчмарках из областей математики, логического мышления и знаний, оценив 11 БЯМ из четырёх семейств моделей. Наш анализ выявил значительные вариации в качестве существующих бенчмарков и показал, что избирательное конструирование бенчмарков на основе наших метрик позволяет достичь сопоставимой эффективности оценки при существенно сокращённых тестовых наборах.
Совместная генерация аудио и видео быстро развивается, однако значительные проблемы сохраняются. Некоммерческие подходы по-прежнему страдают от асинхронности аудиовизуального контента, плохого соответствия движений губ речи и деградации унимодальных данных, что может быть следствием слабого моделирования аудиовизуальных соответствий, ограниченной обобщающей способности и недостатка высококачественных данных с плотными описаниями. Для решения этих проблем мы представляем Klear и исследуем три направления: архитектуру модели, стратегию обучения и курацию данных. В архитектурном плане мы используем одно-башенную конструкцию с унифицированными DiT-блоками и механизмом Omni-Full Attention, достигая тесного аудиовизуального соответствия и высокой масштабируемости. В обучении применяется прогрессивный многозадачный режим — случайное маскирование модальностей для совместной оптимизации задач и многоэтапный учебный план, что формирует устойчивые представления, укрепляет согласованные с A-V знания о мире и предотвращает коллапс унимодальности. Для наборов данных мы представляем первый крупномасштабный аудиовизуальный датасет с плотными описаниями и вводим новейший автоматизированный конвейер создания данных, который аннотирует и фильтрует миллионы разнообразных, высококачественных, строго согласованных триплетов «аудио-видео-описание». На этой основе Klear масштабируется на большие наборы данных, обеспечивая генерацию высокой точности, семантически и временно согласованную, следующую инструкциям как в совместных, так и в унимодальных сценариях, при этом устойчиво обобщаясь на ситуации за пределами распределения данных. По всем задачам метод существенно превосходит предыдущие подходы с большим отрывом и демонстрирует производительность, сопоставимую с Veo 3, предлагая унифицированный, масштабируемый путь к синтезу аудио и видео следующего поколения.
Динамические объекты в нашем физическом 4D-мире (3D + время) постоянно развиваются, деформируются и взаимодействуют с другими объектами, что приводит к разнообразной динамике 4D-сцен. В данной статье мы представляем универсальный генеративный конвейер CHORD для хореографии динамических объектов и сцен и синтеза подобных явлений. Традиционные правилавые графические конвейеры для создания такой динамики основаны на эвристиках, специфичных для категорий, однако они трудоемки и плохо масштабируются. Современные методы на основе машинного обучения обычно требуют крупномасштабных наборов данных, которые могут не охватывать все интересующие объектные категории. Наш подход, напротив, наследует универсальность моделей генерации видео, предлагая конвейер на основе дистилляции для извлечения богатой лагранжевой информации о движении, скрытой в эйлеровых представлениях 2D-видео. Наш метод является универсальным, гибким и не зависящим от категорий. Мы демонстрируем его эффективность, проводя эксперименты по генерации широкого спектра многокомпонентной 4D-динамики, показываем его преимущества по сравнению с существующими методами и иллюстрируем применимость для генерации политик манипуляций в робототехнике. Страница проекта: https://yanzhelyu.github.io/chord
В последних достижениях в области обучения с подкреплением были усовершенствованы модели согласования потоков для соответствия человеческим предпочтениям. Хотя стохастическая выборка позволяет исследовать направления денойзинга, существующие методы, оптимизирующие несколько шагов удаления шума, страдают от разреженных и неоднозначных сигналов вознаграждения. Мы наблюдаем, что шаги с высокой энтропией обеспечивают более эффективное исследование, тогда как шаги с низкой энтропией приводят к неразличимым траекториям. В связи с этим мы предлагаем E-GRPO — оптимизацию групповой относительной политики с учетом энтропии для увеличения энтропии шагов стохастической дифференциальной выборки. Поскольку интегрирование стохастических дифференциальных уравнений страдает от неоднозначных сигналов вознаграждения из-за стохастичности множественных шагов, мы объединяем последовательные шаги с низкой энтропией в один шаг с высокой энтропией для SDE-выборки, применяя ODE-выборку на остальных шагах. На этой основе мы вводим многошаговое групповое нормированное преимущество, которое вычисляет групповые относительные преимущества внутри выборок, разделяющих один и тот же консолидированный шаг SDE-денойзинга. Результаты экспериментов в различных условиях вознаграждения подтвердили эффективность нашего метода.
Верификация играет ключевую роль в улучшении агентов: она обеспечивает сигнал вознаграждения для обучения с подкреплением и позволяет получить выгоду во время вывода благодаря масштабированию на этапе тестирования (Test-Time Scaling, TTS). Несмотря на свою важность, верификация в условиях программных агентов (Software Engineering, SWE) часто полагается на выполнение кода, что может быть сложно масштабировать из-за накладных расходов на настройку окружения. Существуют масштабируемые альтернативы, такие как классификаторы патчей и эвристические методы, но они менее основаны на контексте кодовой базы и их сложнее интерпретировать. В связи с этим мы исследуем Агентские Рубрики: агент-эксперт взаимодействует с репозиторием для создания контекстно-обоснованного контрольного списка критериев, после чего кандидатные патчи оцениваются по нему без необходимости выполнения тестов. На наборе SWE-Bench Verified при параллельной оценке TTS Агентские Рубрики достигают показателя 54,2% для Qwen3-Coder-30B-A3B и 40,6% для Qwen3-32B, что как минимум на +3,5 процентных пункта выше, чем у сильнейшего базового метода в нашем сравнительном наборе. Мы также анализируем поведение рубрик, показывая, что оценки по рубрикам согласуются с эталонными тестами, одновременно отмечая проблемы, которые тесты не фиксируют. Наши ablation-исследования показывают, что агентский сбор контекста необходим для создания специфичных для кодовой базы и однозначных критериев. В совокупности эти результаты свидетельствуют о том, что Агентские Рубрики обеспечивают эффективный, масштабируемый и детализированный сигнал верификации для SWE-агентов.
Молекулярно-динамическое (МД) моделирование играет ключевую роль в понимании атомарного поведения в материаловедении, однако написание скриптов для LAMMPS остается узкоспециализированной и трудоемкой задачей. Хотя большие языковые модели (LLM) демонстрируют потенциал в генерации кода и ответах на предметные вопросы, их эффективность в сценариях МД ограничена недостатком предметных данных, высокой стоимостью развертывания современных LLM и низкой исполнимостью кода. Развивая нашу предыдущую разработку MDAgent, мы представляем MDAgent2 — первую end-to-end систему, способную выполнять как вопросно-ответные задачи, так и генерацию кода в области МД. Мы создали предметный конвейер построения данных, который генерирует три высококачественных набора данных: по знаниям МД, вопросно-ответным задачам и генерации кода. На основе этих данных мы применяем трехэтапную стратегию пост-обучения — продолженное предварительное обучение (CPT), контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) — для тренировки двух адаптированных моделей: MD-Instruct и MD-Code. Кроме того, мы представляем MD-GRPO — метод RL с замкнутым контуром, который использует результаты симуляции в качестве сигналов вознаграждения и перерабатывает траектории с низким вознаграждением для постоянного улучшения. Мы также создали MDAgent2-RUNTIME — развертываемую мульти-агентную систему, объединяющую генерацию, выполнение, оценку и самокоррекцию кода. Вместе с предложенным в данной работе MD-EvalBench — первым бенчмарком для генерации кода LAMMPS и вопросно-ответных задач — наши модели и система превосходят по производительности несколько сильных базовых методов. Данная работа систематически демонстрирует адаптивность и способность к обобщению больших языковых моделей в промышленных задачах моделирования, закладывая методологическую основу для автоматической генерации кода в области ИИ для науки и промышленного моделирования. URL: https://github.com/FredericVAN/PKU_MDAgent2
Надежные эпидемиологические рассуждения требуют синтеза данных исследований для оценки бремени болезни, динамики передачи и эффектов вмешательств на популяционном уровне. Существующие эталоны для систем вопросов и ответов в медицине в основном делают акцент на клинических знаниях или рассуждениях на уровне пациента, однако лишь немногие систематически оценивают обоснованный доказательствами эпидемиологический вывод. Мы представляем EpiQAL — первый диагностический эталон для ответов на эпидемиологические вопросы по различным заболеваниям, состоящий из трех подмножеств, созданных на основе литературы с открытым доступом. Подмножества оценивают, соответственно, фактическое воспроизведение информации на основе текста, многошаговый вывод, связывающий доказательства из документов с эпидемиологическими принципами, и реконструкцию заключения при скрытом разделе «Обсуждение». Построение сочетает руководство таксономией, разработанной экспертами, верификацию с помощью нескольких моделей и контроль сложности на основе поиска. Эксперименты с десятью открытыми моделями показывают, что современные большие языковые модели демонстрируют ограниченную производительность в эпидемиологических рассуждениях, причем многошаговый вывод представляет наибольшую сложность. Ранжирование моделей меняется в зависимости от подмножества, и только масштаб не гарантирует успех. Chain-of-Thought prompting помогает в многошаговом выводе, но дает неоднозначные результаты в других случаях. EpiQAL предоставляет детализированные диагностические сигналы для обоснования доказательствами, логического вывода и реконструкции заключения.
По мере того как большие языковые модели (LLМ) становятся неотъемлемой частью критически важных для безопасности приложений, обеспечение их устойчивости к адверсарным промптам приобретает первостепенное значение. Однако существующие наборы данных для редтиминга страдают от несогласованных категорий риска, ограниченного охвата предметных областей и устаревших методик оценки, что препятствует систематическому анализу уязвимостей. Для решения этих проблем мы представляем RedBench — универсальный набор данных, объединяющий 37 бенчмарков из ведущих конференций и репозиториев, который включает 29 362 примера атакующих промптов и промптов на отказ. RedBench использует стандартизированную таксономию с 22 категориями рисков и 19 доменами, что позволяет проводить последовательную и всестороннюю оценку уязвимостей LLМ. Мы предоставляем детальный анализ существующих наборов данных, устанавливаем базовые показатели для современных LLМ, а также открываем исходный код набора данных и инструментов оценки. Наши разработки способствуют корректному сравнению моделей, стимулируют будущие исследования и содействуют созданию безопасных и надежных LLМ для практического применения. Код: https://github.com/knoveleng/redeval
Мы представляем кейс-стади четырех сквозных попыток автономной генерации научных статей по машинному обучению с использованием конвейера из шести LLM-агентов, соответствующих этапам научного workflow. Из четырех попыток три завершились неудачей на стадии реализации или оценки. Одна попытка прошла весь конвейер и была принята на конференцию Agents4Science 2025 — экспериментальную площадку, требующую указания ИИ-систем в качестве первых авторов, — пройдя как человеческое, так и мультиагентное ИИ-рецензирование. На основе этих попыток мы фиксируем шесть повторяющихся режимов сбоя: смещение в сторону стандартных решений из обучающих данных, дрейф реализации под давлением исполнения, деградация памяти и контекста в длительных задачах, чрезмерная уверенность, объявляющая успех вопреки очевидным провалам, недостаточная предметная компетентность и слабое научное чутьё в планировании экспериментов. В заключение мы обсуждаем четыре принципа проектирования для более устойчивых систем-учёных на основе ИИ, их значение для автономных научных открытий и публикуем все промпты, артефакты и результаты по адресу https://github.com/Lossfunk/ai-scientist-artefacts-v1.
Языковые модели предварительно обучаются на сырых текстовых данных для генерации текстовых последовательностей токен за токеном. Хотя такой подход способствует усвоению знаний о мире и развитию навыков рассуждения, он не предусматривает явной оптимизации лингвистической компетенции. Для устранения этого пробела мы предлагаем L2T — фреймворк предварительного обучения, интегрирующий задачи изучения языка вместе со стандартным прогнозированием следующего токена. Вдохновлённый процессом усвоения языка человеком, L2T преобразует исходный текст в структурированные пары «вход-выход», обеспечивая явную лингвистическую стимуляцию. Предварительное обучение языковых моделей на смеси сырого текста и данных L2T не только повышает общую производительность на тестах лингвистической компетенции, но и ускоряет её приобретение, сохраняя при этом конкурентоспособные результаты в задачах общего рассуждения.
Инструктивно-управляемое редактирование изображений с помощью унифицированных мультимодальных генеративных моделей быстро развивается, однако их базовые возможности визуального рассуждения остаются ограниченными, что приводит к неоптимальной производительности при редактировании, требующем рассуждений. Для повышения качества редактирования изображений исследовалось обучение с подкреплением (RL), однако оно сталкивается с тремя ключевыми проблемами: (1) ограниченное исследование пространства рассуждений, сводящееся к стохастичности денойзинга, (2) смещенное объединение вознаграждений и (3) нестабильные инструктивные вознаграждения на основе VLM. В данной работе мы предлагаем ThinkRL-Edit, RL-фреймворк, ориентированный на рассуждения, который разделяет визуальные рассуждения и синтез изображений и расширяет исследование рассуждений за пределы денойзинга. Для этого мы вводим семплирование рассуждений на основе цепочки мыслей (Chain-of-Thought, CoT) с этапами планирования и рефлексии до генерации в онлайн-семплировании, заставляя модель исследовать несколько семантических гипотез и проверять их правдоподобность до фиксации визуального результата. Чтобы избежать недостатков взвешенной агрегации, мы предлагаем несмещенную стратегию группировки предпочтений по цепочкам для множества измерений вознаграждения. Кроме того, мы заменяем интервальные оценки VLM бинарным контрольным списком, что дает более точные, менее дисперсные и интерпретируемые вознаграждения для сложных рассуждений. Эксперименты показывают, что наш метод значительно превосходит предыдущие работы по редактированию изображений, ориентированному на рассуждения, обеспечивая правдоподобные, визуально согласованные и семантически обоснованные правки, соответствующие инструкции.
Человеческая оценка является золотым стандартом в многозадачном NLP, однако на практике её часто пропускают и заменяют автоматическими метриками, поскольку она печально известна своей сложностью и медленной настройкой с использованием существующих инструментов, сопряженной со значительными инженерными и операционными затратами. Мы представляем Pearmut — легковесную, но многофункциональную платформу, которая делает сквозную человеческую оценку такой же простой в запуске, как и автоматическую. Pearmut устраняет распространенные барьеры для входа и предоставляет поддержку для оценки многозадачных сценариев, с особым акцентом на машинный перевод. Платформа реализует стандартные протоколы оценки, включая DA, ESA или MQM, но также является расширяемой для прототипирования новых протоколов. Она обладает такими функциями, как контекст на уровне документа, абсолютная и сравнительная оценка, проверки внимания, преданнотации ESAAI, а также стратегии назначения заданий, основанные как на статическом подходе, так и на активном обучении. Pearmut позволяет сделать надежную человеческую оценку практичным, рутинным компонентом разработки и диагностики моделей, а не эпизодическим усилием.
Поколение с расширенной памятью (MAG) расширяет большие языковые модели за счет внешней памяти для поддержки рассуждений в длинном контексте, однако существующие подходы в значительной степени опираются на семантическое сходство в монолитных хранилищах памяти, переплетая временную, каузальную и объектную информацию. Такая конструкция ограничивает интерпретируемость и соответствие между интенцией запроса и извлекаемыми свидетельствами, что приводит к неоптимальной точности рассуждений. В данной статье мы предлагаем MAGMA — архитектуру агентной памяти на основе мультиграфов, которая представляет каждый элемент памяти в ортогональных семантическом, временном, каузальном и объектном графах. MAGMA формулирует извлечение как обход этих реляционных представлений, направляемый политикой, что позволяет осуществлять адаптивный к запросу выбор и структурированное построение контекста. Разделяя представление памяти и логику извлечения, MAGMA обеспечивает прозрачные пути рассуждений и детализированный контроль над процессом поиска. Эксперименты на LoCoMo и LongMemEval демонстрируют, что MAGMA стабильно превосходит современные системы агентной памяти в задачах долгосрочного логического вывода.
Мы представляем RGS-SLAM — надежный SLAM-фреймворк на основе гауссовых сплатов, который заменяет этап остаточной драйвен-денсификации GS-SLAM на не требующую обучения инициализацию соответствий в гауссовы элементы. Вместо постепенного добавления гауссовых элементов по мере выявления остатками пропущенной геометрии, RGS-SLAM выполняет одношаговую триангуляцию плотных многовидовых соответствий, полученных из дескрипторов DINOv3, уточненных с помощью учитывающего достоверность классификатора инлаеров. Это генерирует хорошо распределенное и учитывающее структуру гауссово начальное приближение до начала оптимизации. Такая инициализация стабилизирует раннее построение карты и ускоряет сходимость примерно на 20%, обеспечивая более высокую точность рендеринга в богатых текстурой и замусоренных сценах, оставаясь при этом полностью совместимой с существующими конвейерами GS-SLAM. По результатам оценки на наборах данных TUM RGB-D и Replica, RGS-SLAM демонстрирует конкурентоспособную или превосходящую точность локализации и реконструкции по сравнению с передовыми SLAM-системами на основе гауссовых сплатов и точек, поддерживая производительность построения карты в реальном времени на уровне до 925 кадров в секунду.
Существующие одномерные визуальные токенизаторы для авторегрессионного (АР) генерации в значительной степени следуют принципам проектирования языкового моделирования, поскольку они построены непосредственно на трансформерах, чьи априорные предпосылки происходят из лингвистики. Это приводит к созданию одноуровневых латентных токенов и трактовке визуальных данных как плоских последовательных потоков токенов. Однако такая языко-подобная формулировка упускает ключевые свойства визуальной информации, в частности, иерархические и остаточные архитектуры сетей, которые долгое время были необходимы для сходимости и эффективности визуальных моделей. Чтобы вернуть «зрение» в компьютерное зрение, мы предлагаем Residual Tokenizer (ResTok) — одномерный визуальный токенизатор, который строит иерархические остатки как для токенов изображений, так и для латентных токенов. Иерархические представления, полученные путем прогрессивного слияния, позволяют осуществлять межуровневое слияние признаков на каждом слое, существенно повышая репрезентативную способность. В то же время семантические остатки между иерархиями предотвращают перекрытие информации, порождая более концентрированные латентные распределения, которые проще моделировать авторегрессионными методами. В результате межуровневые связи возникают без каких-либо явных ограничений. Для ускорения процесса генерации мы дополнительно представляем иерархический АР-генератор, который значительно сокращает количество шагов выборки, предсказывая целый уровень латентных токенов за один раз, вместо строгого поктокенной генерации. Многочисленные эксперименты демонстрируют, что восстановление иерархических остаточных априорных предположений в визуальной токенизации значительно улучшает АР-генерацию изображений, достигая gFID 2.34 на ImageNet-256 всего за 9 шагов выборки. Код доступен по адресу https://github.com/Kwai-Kolors/ResTok.
Мы представляем Gen3R — метод, который объединяет строгие априорные представления фундаментальных моделей реконструкции и моделей видео-диффузии для задач сценарной 3D-генерации. Мы адаптируем модель реконструкции VGGT для получения геометрических латентных представлений путем обучения адаптера на ее токенах, которые регуляризуются для согласования с латентными переменными внешнего вида предобученных моделей видео-диффузии. Совместно генерируя эти разъединенные, но согласованные латентные представления, Gen3R создает как RGB-видео, так и соответствующую 3D-геометрию, включая позиции камеры, карты глубины и глобальные облака точек. Эксперименты показывают, что наш подход достигает передовых результатов в 3D-генерации сцен по одному или нескольким изображениям. Кроме того, наш метод может повысить устойчивость реконструкции за счет использования генеративных априорных знаний, демонстрируя взаимную выгоду тесной интеграции реконструкционных и генеративных моделей.