Ежедневно отобранные исследовательские статьи по ИИ с переводами
Финансовые рынки являются зашумленными и нестационарными, что делает поиск альфы крайне чувствительным к шуму в результатах бэктестинга и внезапным сдвигам рыночных режимов. Хотя современные агентные фреймворки улучшают автоматизацию поиска альфы, им часто не хватает контролируемого многораундового поиска и надежного повторного использования проверенного опыта. Для решения этих проблем мы предлагаем QuantaAlpha — эволюционный фреймворк для поиска альфы, который рассматривает каждый сквозной прогон как траекторию и улучшает факторы через мутацию и кроссовер на уровне траекторий. QuantaAlpha локализует субоптимальные шаги в каждой траектории для целенаправленного исправления и рекомбинирует комплементарные сегменты с высокой доходностью для повторного использования эффективных паттернов, обеспечивая структурированное исследование и уточнение по итерациям. На этапе генерации факторов QuantaAlpha обеспечивает семантическую согласованность между гипотезой, выражением фактора и исполняемым кодом, одновременно ограничивая сложность и избыточность генерируемых факторов для снижения эффекта скопления. Экстенсивные эксперименты на индексе CSI 300 демонстрируют стабильное превосходство над сильными базовыми моделями и предыдущими агентными системами. При использовании GPT-5.2 QuantaAlpha достигает информационного коэффициента (IC) 0.1501, годовой нормы доходности (ARR) 27.75% и максимальной просадки (MDD) 7.98%. Более того, факторы, найденные на CSI 300, эффективно переносятся на индекс CSI 500 и индекс S&P 500, демонстрируя кумулятивную избыточную доходность в 160% и 137% за четыре года соответственно, что указывает на высокую робастность QuantaAlpha при сдвигах рыночных распределений.
По мере того как посттренировочная оптимизация становится ключевым методом улучшения больших языковых моделей, мы наблюдаем устойчивое узкое место в виде насыщения: как только модели достигают высокой уверенности, дальнейшее обучение приносит diminishing returns. В то время как существующие методы продолжают усиливать целевые предсказания, мы обнаруживаем, что информативные сигналы обучения остаются скрытыми в собственных исторических слабых состояниях моделей. Руководствуясь этим наблюдением, мы предлагаем WMSS (Weak Agents Can Make Strong Agents Stronger — слабые агенты могут сделать сильных агентов сильнее), парадигму посттренировочного обучения, которая использует слабые контрольные точки для направления дальнейшей оптимизации. Выявляя восполнимые пробелы в обучении с помощью анализа динамики энтропии и устраняя их с помощью компенсаторного обучения, WMSS позволяет сильным агентам улучшаться за пределами обычного посттренировочного насыщения. Эксперименты на наборах данных по математическим рассуждениям и генерации кода показывают, что агенты, обученные с помощью нашего подхода, достигают значительного улучшения производительности, не требуя при этом никаких дополнительных затрат на вывод.
Аудиокомпонент незаменим для видео в реальном мире, однако генеративные модели в значительной степени игнорировали аудиосоставляющую. Современные подходы к созданию аудиовизуального контента часто опираются на каскадные конвейеры, что увеличивает стоимость, приводит к накоплению ошибок и снижению общего качества. Хотя такие системы, как Veo 3 и Sora 2, подчеркивают ценность одновременной генерации, совместное мультимодальное моделирование создает уникальные проблемы в области архитектуры, данных и обучения. Более того, закрытый характер существующих систем ограничивает прогресс в данной области. В данной работе мы представляем MOVA (MOSS Video and Audio) — открытую модель, способную генерировать высококачественный синхронизированный аудиовизуальный контент, включая реалистичную речь с синхронизацией по губам, контекстно-зависимые звуковые эффекты и тематически согласованную музыку. MOVA использует архитектуру Mixture-of-Experts (MoE) с общим количеством параметров 32 млрд, из которых 18 млрд активны во время вывода. Модель поддерживает задачу генерации IT2VA (Image-Text to Video-Audio). Публикуя веса модели и исходный код, мы стремимся стимулировать исследования и создать динамичное сообщество разработчиков. Выпущенный кодобеспечивает всестороннюю поддержку эффективного вывода, тонкой настройки LoRA и улучшения промптов.
Несмотря на успехи мультимодального контрастного обучения в согласовании визуальных и лингвистических репрезентаций, сохраняется устойчивая геометрическая аномалия — Модальный Разрыв: эмбеддинги различных модальностей, выражающие идентичную семантику, занимают систематически смещенные области. Существующие подходы к преодолению этого раздела в значительной степени ограничены упрощенными изотропными предположениями, что затрудняет их применение в крупномасштабных сценариях. В данной работе мы преодолеваем эти ограничения за счет точного описания геометрической формы модального разрыва и его использования для эффективного масштабирования моделей. Во-первых, мы предлагаем Теорию Модального Разрыва с Фиксированным Каркасом, которая декомпозирует разрыв внутри замороженной системы отсчета на стабильные смещения и анизотропные остатки. Руководствуясь этой точной моделью, мы представляем ReAlign — стратегию согласования модальностей, не требующую дообучения. Используя статистику из массивных несопоставленных данных, ReAlign выравнивает текстовые репрезентации в распределение визуальных репрезентаций посредством трехэтапного процесса, включающего Якорное, Трассирующее и Центроидное Выравнивание, тем самым явно исправляя геометрическое рассогласование. На основе ReAlign мы предлагаем ReVision — масштабируемую парадигму обучения для Мультимодальных Больших Языковых Моделей (MLLM). ReVision интегрирует ReAlign на этап предварительного обучения, позволяя модели изучить распределение визуальных репрезентаций из несопоставленных текстов до визуального инструктивного тюнинга, без необходимости в крупномасштабных высококачественных парах «изображение-текст». Наша framework-демонстрирует, что статистически выровненные несопоставленные данные могут эффективно заменить дорогостоящие пары «изображение-текст», предлагая надежный путь для эффективного масштабирования MLLM.
Современные модели "Vision-Language-Action" (VLA) используют фиксированную вычислительную глубину, затрачивая одинаковые ресурсы на простые корректировки и сложные многоэтапные манипуляции. Хотя метод Chain-of-Thought (CoT) позволяет варьировать вычисления, он требует линейного роста памяти и плохо подходит для непрерывных пространств действий. Мы представляем рекуррентную VLA-архитектуру с переменной глубиной (RD-VLA), которая обеспечивает вычислительную адаптивность за счет латентной итеративной оптимизации вместо явной генерации токенов. RD-VLA использует рекуррентный, весосвязанный модуль действий, поддерживающий произвольную глубину вывода при постоянном объеме памяти. Модель обучается методом обратного распространения ошибки через время с усечением (TBPTT) для эффективного управления процессом уточнения. На этапе вывода RD-VLA динамически распределяет вычисления с помощью адаптивного критерия остановки на основе латентной сходимости. Эксперименты на сложных задачах манипуляции демонстрируют критическую важность рекуррентной глубины: задачи, которые полностью проваливаются (0% успеха) при одноитерационном выводе, достигают более 90% успеха после четырех итераций, тогда как простые задачи быстро насыщаются. RD-VLA предлагает масштабируемый подход к управлению вычислительными затратами в робототехнике, заменяя токенизированные рассуждения латентными для достижения постоянного расхода памяти и ускорения вывода до 80 раз по сравнению с предыдущими VLA-моделями на основе рассуждений. Страница проекта: https://rd-vla.github.io/
Агенты на основе больших языковых моделей (LLM) обладают значительным потенциалом для развития научных исследований. Чтобы ускорить этот прогресс, мы представляем AIRS-Bench (AI Research Science Benchmark) — набор из 20 задач, заимствованных из передовых научных статей по машинному обучению. Эти задачи охватывают различные области, включая языковое моделирование, математику, биоинформатику и прогнозирование временных рядов. Задачи AIRS-Bench оценивают агентские возможности на протяжении всего жизненного цикла исследования — от генерации идей и анализа экспериментов до итеративного улучшения — без предоставления базового кода. Формат задач AIRS-Bench является гибким, что позволяет легко интегрировать новые задачи и проводить строгое сравнение различных агентских архитектур. Мы устанавливаем базовые уровни с использованием передовых моделей в сочетании с последовательными и параллельными scaffolding-подходами. Наши результаты показывают, что агенты превосходят лучшие человеческие результаты (SOTA) в четырех задачах, но не достигают их в шестнадцати других. Даже когда агенты превосходят человеческие benchmarks, они не достигают теоретического потолка производительности для базовых задач. Эти результаты свидетельствуют о том, что AIRS-Bench далек от насыщения и предлагает значительный простор для улучшений. Мы открываем исходные коды определений задач AIRS-Bench и код для оценки, чтобы стимулировать дальнейшее развитие автономных научных исследований.
Мы представляем InternAgent-1.5 — унифицированную систему, предназначенную для сквозного научного открытия в вычислительных и эмпирических областях. Система построена на структурированной архитектуре, состоящей из трёх скоординированных подсистем: генерации, верификации и эволюции. Эти подсистемы поддерживаются базовыми возможностями для глубокого исследования, оптимизации решений и долговременной памяти. Архитектура позволяет InternAgent-1.5 работать непрерывно в течение продолжительных циклов открытия, сохраняя согласованное и улучшающееся поведение. Она также позволяет системе координировать вычислительное моделирование и лабораторные эксперименты в рамках единой унифицированной системы. Мы оцениваем InternAgent-1.5 на наборах задач для научных рассуждений, таких как GAIA, HLE, GPQA и FrontierScience, где система демонстрирует лидирующую производительность, подтверждающую её сильные базовые возможности. Помимо этих тестов, мы дополнительно оцениваем две категории задач на открытие. В задачах открытия алгоритмов InternAgent-1.5 автономно разрабатывает конкурентоспособные методы для основных проблем машинного обучения. В задачах эмпирического открытия система выполняет полные вычислительные или лабораторные эксперименты и производит научные результаты в областях наук о Земле, жизни, биологии и физики. В целом, эти результаты показывают, что InternAgent-1.5 предоставляет универсальную и масштабируемую основу для автономного научного открытия.
В то время как LLaDA 2.0 продемонстрировала потенциал масштабирования блочно-диффузионных моделей уровня 100 млрд параметров и их присущий параллелизм, хрупкое равновесие между скоростью декодирования и качеством генерации оставалось труднодостижимым рубежом. Сегодня мы представляем LLaDA 2.1 — смену парадигмы, призванную преодолеть этот компромисс. Бесшовно интегрируя Token-to-Token (T2T) редактирование в традиционную схему Mask-to-Token (M2T), мы вводим совместную, настраиваемую схему порогового декодирования. Эта структурная инновация порождает два различных режима: Скоростной режим (S-режим), который смело понижает M2T-порог для обхода традиционных ограничений, полагаясь на T2T для улучшения выходных данных; и Качественный режим (Q-режим), который использует консервативные пороги для обеспечения превосходных результатов в бенчмарках при приемлемом снижении эффективности. Углубляя эту эволюцию и опираясь на расширенное контекстное окно, мы реализуем первую крупномасштабную систему обучения с подкреплением (RL), специально разработанную для диффузионных больших языковых моделей (dLLM) и основанную на специализированных методах стабильной оценки градиента. Эта адаптация не только повышает точность рассуждений, но и улучшает верность следования инструкциям, преодолевая разрыв между динамикой диффузии и сложными человеческими намерениями. Венцом этой работы является выпуск моделей LLaDA 2.1-Mini (16B) и LLaDA 2.1-Flash (100B). В ходе 33 строгих бенчмарков LLaDA 2.1 демонстрирует высокую производительность на задачах и молниеносную скорость декодирования. Несмотря на объем в 100 млрд параметров, на задачах по программированию она достигает потрясающих 892 TPS на HumanEval+, 801 TPS на BigCodeBench и 663 TPS на LiveCodeBench.
Прямое обучение политик в физическом мире представляет собой перспективное, но сложное направление для воплощенного интеллекта. В отличие от симуляции, реальные системы не могут быть произвольно ускорены, дешево сброшены или массово реплицированы, что затрудняет масштабируемый сбор данных, гетерогенное развертывание и эффективное обучение на длительных горизонтах. Эти проблемы свидетельствуют о том, что обучение политик в реальном мире — это не только алгоритмическая, но и фундаментально системная задача. Мы представляем USER — унифицированную и расширяемую систему для онлайн-обучения политик в реальном мире. USER рассматривает физических роботов как аппаратные ресурсы первого класса наряду с GPU через унифицированный уровень аппаратных абстракций, обеспечивая автоматическое обнаружение, управление и планирование задач для гетерогенных роботов. Для решения проблемы облачно-периферийной связи USER вводит адаптивную коммуникационную плоскость с туннелированием сети, распределенными каналами данных для локализации трафика и синхронизацией весов с учетом потоковых мультипроцессоров для регулирования нагрузки на стороне GPU. Поверх этой инфраструктуры USER организует обучение как полностью асинхронный фреймворк с постоянным кэш-ориентированным буфером, обеспечивая эффективные долгосрочные эксперименты с надежным восстановлением после сбоев и повторным использованием исторических данных. Кроме того, USER предоставляет расширяемые абстракции для функций вознаграждения, алгоритмов и политик, поддерживая онлайн-имитационное или обучение с подкреплением для CNN/MLP, генеративных политик и крупных визуально-языково-действенных моделей в рамках единого конвейера. Результаты как в симуляции, так и в реальном мире показывают, что USER обеспечивает координацию множества роботов, работу гетерогенных манипуляторов, облачно-периферийную коллаборацию с большими моделями и длительное асинхронное обучение, предлагая унифицированный и расширяемый системный фундамент для онлайн-обучения политик в реальном мире.
Сближение искусственного интеллекта и материаловедения открывает трансформационные возможности, однако для достижения реального ускорения открытий необходимо выйти за рамки узкоспециализированных дообученных моделей и перейти к агентским системам, которые планируют, действуют и обучаются в рамках полного цикла открытия. В данном обзоре предлагается уникальный pipeline-ориентированный подход, охватывающий все этапы — от курации корпусов и предварительного обучения через адаптацию к предметной области и инструктивное тонкое настройку до целеориентированных агентов, взаимодействующих с платформами моделирования и эксперимента. В отличие от предыдущих обзоров, мы рассматриваем весь процесс как сквозную систему, оптимизируемую для достижения конкретных результатов открытий, а не для выполнения суррогатных бенчмарков. Такой подход позволяет проследить, как проектные решения на верхнем уровне — такие как курация данных и цели обучения — могут быть согласованы с успехом в последующих экспериментах через эффективное распределение заслуг. Для объединения научных сообществ и создания общей системы координат мы сначала представляем интегрированную оптику, которая согласует терминологию, оценку и этапы рабочих процессов в области ИИ и материаловедения. Затем мы анализируем область через две целевые линзы: с точки зрения ИИ в обзоре детализируются сильные стороны больших языковых моделей в распознавании образов, прогнозной аналитике и обработке естественного языка для анализа литературы, характеризации материалов и предсказания свойств; с точки зрения материаловедения выделяются приложения в дизайне материалов, оптимизации процессов и ускорении вычислительных workflow за счет интеграции с внешними инструментами (например, DFT, роботизированные лаборатории). Наконец, мы противопоставляем пассивные, реактивные подходы агентскому дизайну, каталогизируя текущие достижения и аргументируя необходимость создания систем, преследующих долгосрочные цели с автономией, памятью и использованием инструментов. Данный обзор намечает практический путь к созданию автономных LLM-агентов, ориентированных на безопасность и нацеленных на открытие новых полезных материалов.
Развертывание метода GRPO на моделях Flow Matching доказало свою эффективность для задач генерации изображений по тексту. Однако существующие подходы обычно распространяют награду, основанную на конечном результате, на все предшествующие шаги денизинга, не различая локальный вклад каждого шага. Более того, текущее групповое ранжирование в основном сравнивает траектории на совпадающих временных шагах и игнорирует зависимости внутри траектории, когда определенные действия на ранних этапах денизинга могут влиять на последующие состояния через отсроченные, неявные взаимодействия. Мы предлагаем TurningPoint-GRPO (TP-GRPO) — фреймворк GRPO, который смягчает разреженность пошагового вознаграждения и явно моделирует долгосрочные эффекты внутри траектории денизинга. TP-GRPO вносит два ключевых нововведения: (i) он заменяет награды, основанные на результате, на инкрементные пошаговые награды, обеспечивая плотный, учитывающий шаг сигнал обучения, который лучше изолирует «чистый» эффект каждого действия денизинга, и (ii) он идентифицирует точки поворота — шаги, на которых меняется локальный тренд награды и последующая эволюция награды начинает соответствовать общему тренду траектории — и присваивает этим действиям агрегированную долгосрочную награду, чтобы учесть их отсроченное влияние. Точки поворота обнаруживаются исключительно через изменения знака инкрементных наград, что делает TP-GRPO эффективным и свободным от гиперпараметров. Многочисленные эксперименты также демонстрируют, что TP-GRPO использует сигналы вознаграждения более эффективно и стабильно улучшает качество генерации. Демонстрационный код доступен по адресу https://github.com/YunzeTong/TurningPoint-GRPO.
Последние достижения в области моделей генерации изображений позволили прогнозировать будущие состояния графического пользовательского интерфейса (GUI) на основе пользовательских инструкций. Однако существующие бенчмарки в основном сосредоточены на визуальном качестве в общих областях, оставляя недоисследованной оценку переходов между состояниями и временной согласованности в контекстах, специфичных для GUI. Для устранения этого пробела мы представляем GEBench — комплексный бенчмарк для оценки динамического взаимодействия и временной согласованности при генерации GUI. GEBench включает 700 тщательно отобранных примеров, охватывающих пять категорий задач, включая как одношаговые взаимодействия, так и многошаговые траектории в реалистичных и вымышленных сценариях, а также локализацию опорных точек. Для систематической оценки мы предлагаем GE-Score — новую пятимерную метрику, оценивающую Достижение цели, Логику взаимодействия, Согласованность содержания, Правдоподобие интерфейса и Визуальное качество. Масштабные оценки современных моделей показывают, что, хотя они хорошо справляются с одношаговыми переходами, они значительно затрудняются в поддержании временной согласованности и пространственной привязки в длинных последовательностях взаимодействий. Наши результаты выявляют интерпретацию иконок, рендеринг текста и точность локализации в качестве ключевых узких мест. Данная работа закладывает основу для систематической оценки и указывает перспективные направления для будущих исследований в области создания высококачественных генеративных сред GUI. Код доступен по адресу: https://github.com/stepfun-ai/GEBench.
Решение открытых научных вопросов остается сложной задачей для больших языковых моделей, в основном из-за изначально ненадежного контроля и оценки. Основное узкое место заключается в построении данных и проектировании системы вознаграждений для научного пост-обучения. Мы разработали масштабируемый системный конвейер обработки данных, который преобразует разнородные открытые научные данные в набор данных Dr. SCI, включающий 1 миллион вопросов по восьми STEM-дисциплинам с явным разделением на верифицируемые/открытые вопросы, масштабируемой аннотацией сложности и детализированными критериями оценки, которые операционализируют проверку открытых ответов. На основе этого набора данных мы предлагаем конвейер пост-обучения Dr. SCI, перерабатывающий стандартный workflow SFT -> RL через три компонента: (i) SFT с расширением исследовательского охвата, увеличивающий охват модельных паттернов рассуждения до RL; (ii) Учебный план с динамической сложностью, адаптирующий данные обучения к эволюционирующим научным способностям модели; и (iii) RL с научными критериями оценки, обеспечивающий стабильное обучение с подкреплением на открытых научных вопросах через рубрикатор с явной проверкой правильности ответов. Модель Qwen3-4B-Base, обученная по конвейеру Dr. SCI, демонстрирует результаты 63.2 на GPQA-diamond и 32.4 на GPQA-general, стабильно превосходя сильные базовые модели с пост-обучением, такие как o1-mini и GPT-4o, что свидетельствует о значительном прогрессе в научном мышлении, особенно в условиях открытых вопросов.
Несмотря на растущие возможности современных мультимодальных больших языковых моделей (MLLM) в понимании видео, существующие бенчмарки в основном оценивают понимание на основе статического внутреннего знания моделей, а не их способности обучаться и адаптироваться к динамическим новым контекстам по ограниченному числу примеров. Для преодоления этого разрыва мы представляем демонстрационное обучение видео в контексте (Demo-driven Video In-Context Learning) — новую задачу, сфокусированную на обучении по контекстным демонстрациям для ответов на вопросы о целевых видео. Параллельно мы предлагаем Demo-ICL-Bench — сложный бенчмарк, разработанный для оценки способностей к демонстрационному обучению видео в контексте. Demo-ICL-Bench создан на основе 1200 обучающих видео с YouTube с сопутствующими вопросами, из которых получены два типа демонстраций: (i) суммаризация субтитров видео для текстовых демонстраций; и (ii) соответствующие обучающие видео в качестве видеодемонстраций. Для эффективного решения этой новой задачи мы разработали Demo-ICL — MLLM с двухэтапной стратегией обучения: видео-контролируемым тонким настроением и оптимизацией прямых предпочтений с информационной поддержкой, что совместно усиливает способность модели обучаться на контекстных примерах. Масштабные эксперименты с передовыми MLLM подтверждают сложность Demo-ICL-Bench, демонстрируют эффективность Demo-ICL и тем самым открывают перспективные направления для будущих исследований.
Память становится все более важной для агентов на основе больших языковых моделей (LLM), работающих за пределами одного контекстного окна, однако большинство существующих систем полагаются на офлайн-построение памяти, не зависящее от запроса, что может быть неэффективным и способно отбрасывать информацию, критически важную для запроса. Хотя использование памяти в режиме выполнения является естественной альтернативой, предыдущие подходы часто несут значительные накладные расходы и предоставляют ограниченный явный контроль над компромиссом между производительностью и стоимостью. В данной работе мы представляем BudgetMem — фреймворк памяти для агентов, работающий в режиме выполнения и обеспечивающий явный, учитывающий запрос контроль производительности и стоимости. BudgetMem структурирует обработку памяти как набор модулей памяти, каждый из которых предлагается в трех уровнях бюджета (т.е. Низкий/Средний/Высокий). Легковесный маршрутизатор выполняет распределение по бюджетным уровням между модулями, чтобы сбалансировать производительность задачи и стоимость построения памяти; это реализовано в виде компактной нейросетевой политики, обученной с подкреплением. Используя BudgetMem в качестве унифицированного испытательного стенда, мы исследуем три взаимодополняющие стратегии для реализации бюджетных уровней: реализация (сложность метода), рассуждение (поведение при выводе) и емкость (размер модели модуля). На наборах данных LoCoMo, LongMemEval и HotpotQA BudgetMem превосходит сильные базовые линии, когда приоритет отдается производительности (т.е. в условиях высокого бюджета), и обеспечивает лучший компромисс между точностью и стоимостью при более жестких бюджетах. Более того, наш анализ выявляет сильные и слабые стороны различных стратегий градации, проясняя, когда каждая из осей обеспечивает наиболее благоприятный компромисс в условиях различных бюджетных режимов.
Крупные языковые модели (LLMs) демонстрируют растущую способность выполнять длительные задачи в реальных условиях. Однако по мере увеличения объема контекста их надежность часто снижается — это явление известно как «деградация контекста» (context rot). Существующие бенчмарки для длинного контекста в основном сосредоточены на одношаговых сценариях, которые оценивают способность модели извлекать информацию из длинного фрагмента. В реалистичных же сценариях LLMs часто должны действовать как агенты, которые исследуют окружение, следуют инструкциям и планам, извлекают полезную информацию и прогнозируют правильные действия в условиях динамически растущего контекста. Чтобы оценить языковых агентов в таких условиях, мы представляем LOCA-bench (бенчмарк для агентов с длинным контекстом). Получив промт задачи, LOCA-bench использует автоматизированное и масштабируемое управление состояниями окружения для регулирования длины контекста агента. Такой подход позволяет LOCA-bench потенциально бесконечно увеличивать длину контекста контролируемым образом, сохраняя при этом семантику базовой задачи неизменной. LOCA-bench оценивает языковых агентов как комбинацию моделей и вспомогательных структур (scaffolds), включая различные стратегии управления контекстом. Хотя производительность агентов в целом снижается по мере усложнения состояний окружения, передовые методы управления контекстом могут существенно повысить общий показатель успешности. Мы представляем LOCA-bench в открытом доступе как платформу для оценки моделей и вспомогательных структур в сценариях с длинным контекстом и агентным поведением: https://github.com/hkust-nlp/LOCA-bench
Развитие больших языковых моделей (LLM) значительно ускорило создание поисковых агентов, способных автономно собирать информацию посредством многошаговых веб-взаимодействий. Для оценки таких агентов было предложено множество эталонных тестов. Однако существующие бенчмарки часто конструируют запросы обратным путем от ответов, создавая неестественные задачи, не соответствующие реальным потребностям. Более того, эти тесты обычно фокусируются либо на поиске конкретной информации, либо на агрегации данных из множества источников, одновременно полагаясь на статические наборы ответов, подверженные проблеме загрязнения данных. Для преодоления этих пробелов мы представляем GISA — эталонный тест для помощников по поиску общей информации, состоящий из 373 созданных человеком запросов, отражающих аутентичные сценарии информационного поиска. GISA характеризуется четырьмя структурированными форматами ответов (элемент, набор, список и таблица), что позволяет проводить детерминистическую оценку. Он интегрирует как глубокие рассуждения, так и широкую информационную агрегацию в рамках единых задач и включает динамическое подмножество с периодически обновляемыми ответами для противодействия запоминанию. Примечательно, что GISA предоставляет полные человеческие поисковые траектории для каждого запроса, предлагая эталонные ориентиры для поэтапного контроля и обучения с подражанием. Эксперименты с ведущими LLM и коммерческими поисковыми продуктами показывают, что даже лучшая модель достигает точного совпадения лишь в 19.30% случаев, причем производительность заметно снижается в задачах, требующих сложного планирования и комплексного сбора информации. Эти результаты указывают на значительный потенциал для будущего совершенствования.
Выполнение сложных терминальных задач остается серьезной проблемой для открытых больших языковых моделей (LLM), что обусловлено двумя фундаментальными ограничениями. Во-первых, высокоточные исполняемые среды для обучения дефицитны: среды, синтезированные из реальных репозиториев, не отличаются разнообразием и масштабируемостью, в то время как траектории, сгенерированные LLM, страдают от галлюцинаций. Во-вторых, стандартная настройка по инструкциям использует экспертные траектории, которые редко содержат простые ошибки, характерные для меньших моделей. Это создает дисбаланс распределений, оставляя студенческие модели плохо подготовленными к исправлению собственных ошибок времени выполнения. Для преодоления этих пробелов мы представляем TermiGen — сквозной конвейер для синтеза проверяемых сред и устойчивых экспертных траекторий. TermiGen сначала генерирует функционально валидные задачи и Docker-контейнеры с помощью итеративного цикла уточнения с участием нескольких агентов. Затем мы применяем протокол «Генератор-Критик», который активно внедряет ошибки в процессе сбора траекторий, синтезируя данные, богатые циклами исправления ошибок. После дообучения на этом наборе данных, сгенерированном TermiGen, наша модель TermiGen-Qwen2.5-Coder-32B достигает показателя успешности 31.3% на TerminalBench. Это устанавливает новый рекорд для открытых моделей, превосходя существующие базовые уровни и значительно опережая такие мощные проприетарные модели, как o4-mini. Набор данных доступен по адресу https://github.com/ucsb-mlsec/terminal-bench-env.
Создание глубоких исследовательских отчетов требует масштабного сбора информации и синтеза анализа, основанного на инсайтах, что представляет собой серьезную проблему для современных языковых моделей. Большинство существующих подходов следуют парадигме «спланировать, затем написать», чья производительность сильно зависит от качества первоначального плана. Однако построение всеобъемлющего плана само по себе требует развитых способностей к рассуждению, что вынуждает современные системы глубокого исследования почти исключительно полагаться на закрытые или онлайн-большие модели. Эта зависимость создает практические барьеры для развертывания и порождает проблемы безопасности и конфиденциальности пользовательских данных. В данной работе мы представляем AgentCPM-Report — легковесное, но высокопроизводительное локальное решение, состоящее из фреймворка, имитирующего человеческий процесс написания текста, и агента глубокого исследования с 8 миллиардами параметров. Наш фреймворк использует Политику Рассуждения через Письмо (Writing As Reasoning Policy, WARP), которая позволяет моделям динамически пересматривать планы в процессе генерации отчета. В рамках этой политики агент чередует Этапы Создания Черновика на Основе Доказательств и Смыслового Углубления, совместно обеспечивая сбор информации, уточнение знаний и итеративную эволюцию плана. Чтобы эффективно наделить небольшие модели этой способностью, мы представляем стратегию Многоэтапного Агентного Обучения, состоящую из «холодного старта», RL-обучения атомарным навыкам и RL-обучения целостному пайплайну. Эксперименты на бенчмарках DeepResearch Bench, DeepConsult и DeepResearch Gym демонстрируют, что AgentCPM-Report превосходит ведущие закрытые системы со значительным отрывом по показателю Insight.
Пространственный телесный интеллект требует от агентов способности действовать для получения информации в условиях частичной наблюдаемости. Хотя мультимодальные базовые модели превосходно справляются с пассивным восприятием, их способность к активному, самонаправленному исследованию остается малоизученной. Мы предлагаем концепцию Теории Пространства, определяемую как способность агента активно приобретать информацию посредством самонаправленного активного исследования, а также конструировать, пересматривать и использовать пространственное представление на основе последовательных частичных наблюдений. Мы оцениваем это с помощью бенчмарка, где целью является любопытство-движимое исследование для построения точной когнитивной карты. Ключевым нововведением является зондирование пространственного представления, которое побуждает модели раскрывать свои внутренние пространственные репрезентации на каждом шаге. Наша оценка современных моделей выявляет несколько критических узких мест. Во-первых, мы идентифицируем Активно-Пассивный Разрыв, когда производительность значительно падает, если агенты должны самостоятельно собирать информацию. Во-вторых, мы обнаруживаем высокую неэффективность, поскольку модели исследуют пространство бессистемно по сравнению с программными прокси-агентами. С помощью зондирования представлений мы диагностируем, что хотя восприятие является первоначальным узким местом, глобальные представления страдают от нестабильности, которая приводит к деградации пространственных знаний с течением времени. Наконец, используя парадигму ложного убеждения, мы выявляем Инерцию Представлений, когда агенты не обновляют устаревшие априорные знания новыми доказательствами. Эта проблема присутствует у текстовых агентов, но особенно выражена у моделей, основанных на зрении. Наши результаты позволяют предположить, что современные базовые модели испытывают трудности с поддержанием последовательных, пересматриваемых пространственных представлений в процессе активного исследования.
В данной работе представлен WorldCompass — новый фреймворк пост-обучения с подкреплением (RL) для долгосрочных интерактивных видео-ориентированных мировых моделей, позволяющий им исследовать мир более точно и последовательно на основе интерактивных сигналов. Для эффективного «направления» исследования мировых моделей мы предлагаем три ключевых нововведения, адаптированных к парадигме авторегрессионного генерации видео: 1) **Стратегия rollout на уровне клипов**: мы генерируем и оцениваем несколько сэмплов для одного целевого клипа, что значительно повышает эффективность rollout и обеспечивает детальные сигналы вознаграждения. 2) **Комплементарные функции вознаграждения**: мы разрабатываем функции вознаграждения как для точности следования взаимодействию, так и для визуального качества, что обеспечивает прямое управление и эффективно подавляет поведение, связанное с взломом вознаграждения. 3) **Эффективный RL-алгоритм**: мы используем стратегию тонкой настройки с учетом негативных примеров в сочетании с различными оптимизациями эффективности для повышения capacity модели. Оценки на передовой открытой мировой модели WorldPlay демонстрируют, что WorldCompass значительно улучшает точность взаимодействия и визуальную достоверность в различных сценариях.
Химические большие языковые модели (LLМ) преимущественно полагаются на явные цепочки рассуждений (CoT) на естественном языке для выполнения сложных логических выводов. Однако химические рассуждения по своей природе являются непрерывными и структурными, и принудительное их представление в виде дискретных языковых токенов создаёт фундаментальный разрыв в репрезентации, который ограничивает как эффективность, так и производительность. Мы представляем LatentChem, интерфейс латентного вывода, который отделяет химические вычисления от текстовой генерации, позволяя моделям выполнять многошаговые рассуждения непосредственно в непрерывном латентном пространстве, генерируя язык только для финальных результатов. Примечательно, что мы наблюдаем последовательное emergent-поведение: когда модель оптимизируется исключительно для успешного решения задачи, она спонтанно интериоризирует процесс рассуждения, постепенно отказываясь от пространных текстовых выводов в пользу неявных латентных вычислений. Этот сдвиг не является лишь стилистическим, но вычислительно преимущественным. На различных эталонах химических рассуждений LatentChem демонстрирует 59.88% показатель побед без ничьих против сильных CoT-базлинов на ChemCoTBench, обеспечивая при этом среднее ускорение вывода в 10.84 раза. Наши результаты предоставляют эмпирические доказательства того, что химические рассуждения более естественно и эффективно реализуются как непрерывные латентные динамики, а не как дискретизированные языковые траектории.
Вывод длинных контекстов с помощью больших языковых моделей (LLM) требует значительных затрат из-за квадратичной сложности механизма внимания и растущих кэшей ключ-значение, что стимулирует разработку методов сжатия контекста. В данной работе мы исследуем мягкое сжатие контекста, при котором длинный контекст конденсируется в небольшой набор непрерывных представлений. Существующие методы обычно перепрофилируют саму LLM в обучаемый компрессор, полагаясь на послойный механизм самовнимания для итеративной агрегации информации. Мы утверждаем, что эта парадигма страдает от двух структурных ограничений: (i) прогрессирующего перезаписывания представлений между слоями и (ii) несогласованного распределения ресурсов сжатия между токенами. Мы предлагаем ComprExIT (Сжатие Контекста через Явную Передачу Информации) — облегченную архитектуру, которая формулирует мягкое сжатие в новой парадигме: явная передача информации по замороженным скрытым состояниям LLM. Это отделяет сжатие от внутренней динамики самовнимания модели. ComprExIT выполняет (i) передачу по глубине для избирательной передачи многоуровневой информации в якорные токены, смягчая проблему прогрессирующего перезаписывания, и (ii) передачу по ширине для агрегации якорных токенов в небольшое число слотов через глобально оптимизированный план передачи, обеспечивая согласованное распределение информации. На шести тестовых наборах для вопросно-ответных задач ComprExIT стабильно превосходит современные методы сжатия контекста, вводя лишь ~1% дополнительных параметров, что демонстрирует, что явная и скоординированная передача информации позволяет осуществлять более эффективное и надежное сжатие длинных контекстов.
Дедукция, индукция и абдукция являются фундаментальными парадигмами рассуждений, лежащими в основе человеческого логического мышления. Хотя повышение способности к рассуждениям у больших языковых моделей (LLM) привлекает значительные исследовательские усилия, степень, в которой базовые парадигмы обеспечивают обобщение, еще не была систематически изучена. В данном исследовании мы раскрываем, как взаимодействие между этими ключевыми парадигмами влияет на поведение LLM при рассуждениях. Для этого мы сначала собираем новый набор данных траекторий рассуждений из символьных задач, каждая из которых направлена на одну из трех фундаментальных парадигм, чтобы абстрагироваться от конкретных знаний о мире. Затем мы исследуем эффективные способы внедрения этих навыков в LLM. Мы экспериментируем с рядом методов, включая простое тонкое настройку и более сложные подходы, такие как увеличение глубины модели или преобразование плотной модели в модель смеси экспертов. Мы всесторонне оцениваем обученные модели на реалистичных задачах из других областей, которые полностью сформулированы на естественном языке и содержат знания о реальном мире. Наши результаты показывают, что наш подход обеспечивает высокую обобщающую способность со значительным приростом производительности (до 14.60) на реалистичных задачах.
Крупные модели логического вывода (LRM) демонстрируют высокую производительность на сложных задачах, требующих рассуждений, за счет генерации длинных, многошаговых цепочек reasoning. Однако масштабирование на этапе логического вывода влечет за собой значительные затраты на развертывание. Ключевая проблема заключается в том, что сложность генерации варьируется в пределах одного выходного ответа, тогда как существующие подходы, ориентированные на эффективность, либо игнорируют эту вариативность внутри генерации, либо полагаются на контролируемую маршрутизацию на уровне токенов, что приводит к высокой системной сложности. Мы представляем RelayGen, бесплатную (не требующую дообучения) framework динамического переключения моделей на уровне сегментов, которая использует вариативность сложности в процессе рассуждений. Посредством оффлайн-анализа неопределенности генерации с использованием полей вероятностей токенов мы показываем, что управления на уровне сегментов достаточно для фиксации переходов сложности внутри цепочки рассуждений. RelayGen идентифицирует модельно-специфичные сигналы переключения, которые указывают на переход к сегментам с меньшей сложностью, и динамически делегирует их продолжение меньшей модели, сохраняя при этом рассуждения высокой сложности на большой модели. На множестве бенчмарков для проверки рассуждений RelayGen существенно снижает задержку логического вывода, сохраняя большую часть точности крупных моделей. В сочетании со спекулятивным декодированием RelayGen достигает до 2.2-кратного ускорения end-to-end с деградацией точности менее 2%, не требуя дополнительного обучения или обучаемых компонентов маршрутизации.
Квантование только весов стало стандартным подходом для эффективного обслуживания больших языковых моделей (LLM). Однако существующие методы не позволяют эффективно сжимать модели до бинарных (1-битных) уровней, поскольку они либо требуют больших объемов данных и вычислительных ресурсов, либо приводят к дополнительным затратам памяти. В данной работе мы предлагаем NanoQuant — первый метод послетренировочного квантования (PTQ) для сжатия LLM как до бинарных, так и до суб-1-битных уровней. NanoQuant формулирует квантование как задачу бинарного низкорангового разложения и сжимает полноточные веса в низкоранговые бинарные матрицы и масштабирующие коэффициенты. В частности, метод использует эффективный метод множителей с чередующимися направлениями (ADMM) для точной инициализации латентных бинарных матриц и коэффициентов масштабирования, а затем донастраивает инициализированные параметры в процессе блочной и модельной реконструкции. В результате NanoQuant устанавливает новый парето-фронталь для послетренировочного квантования с низким потреблением памяти, достигая наилучшей точности даже при уровнях сжатия ниже 1 бита. NanoQuant делает развертывание крупномасштабных моделей на потребительском оборудовании осуществимым. Например, метод сжимает Llama2-70B в 25.8 раз всего за 13 часов на одном GPU H100, что позволяет запускать модель объемом 70B миллиардов параметров на потребительской видеокарте с 8 ГБ памяти.
Фундаментальные модели, включая большие языковые модели (LLM), мультимодальные большие языковые модели (MLLM), модели генерации изображений (такие как модели "текст-изображение" и модели редактирования изображений) и модели генерации видео, стали важнейшими инструментами с широким спектром применений в различных областях, таких как право, медицина, образование, финансы, наука и другие. По мере того как эти модели находят все большее практическое применение, обеспечение их надежности и ответственности стало критически важной задачей для академического сообщества, промышленности и государства. Данный обзор посвящен надежной и ответственной разработке фундаментальных моделей. Мы исследуем ключевые проблемы, включая смещение и справедливость, безопасность и конфиденциальность, неопределенность, интерпретируемость и сдвиг распределения. Наше исследование также охватывает ограничения моделей, такие как галлюцинации, а также методы, такие как согласование (alignment) и детектирование контента, созданного искусственным интеллектом (AIGC). Для каждой области мы рассматриваем текущее состояние дел и намечаем конкретные направления будущих исследований. Кроме того, мы обсуждаем точки пересечения между этими областями, подчеркивая их взаимосвязи и общие проблемы. Мы надеемся, что наш обзор будет способствовать разработке фундаментальных моделей, которые не только мощны, но и этичны, заслуживают доверия, надежны и социально ответственны.
В последнее время авторегрессионные (AR) диффузионные модели для видео демонстрируют выдающиеся результаты. Однако из-за ограниченной продолжительности обучения возникает разрыв между обучением и тестированием при работе на длинных временных горизонтах, что приводит к быстрой деградации визуального качества. Основываясь на методе Self Forcing, который изучает этот разрыв в пределах длительности обучения, данная работа исследует разрыв за пределами длительности обучения, то есть разрыв между ограниченными горизонтами во время обучения и неограниченными (open-ended) горизонтами во время тестирования. Поскольку тестирование на неограниченных горизонтах может выходить за рамки любого конечного окна обучения, а обучение на длинных видео требует значительных вычислительных ресурсов, мы стремимся найти решение, не требующее дообучения. Для этого мы проводим систематический анализ механизма поддержания кеша в AR-моделях. Полученные идеи легли в основу метода Rolling Sink. Построенный на базе Self Forcing (обученного всего на 5-секундных клипах), Rolling Sink эффективно масштабирует AR-синтез видео на сверхдлинные продолжительности (например, 5-30 минут при 16 кадрах в секунду) во время теста, обеспечивая постоянство объектов, стабильность цветов, согласованность структур и плавность движений. Как показали многочисленные эксперименты, Rolling Sink превосходит современные базовые методы по визуальному качеству на длинных горизонтах и временной согласованности. Страница проекта: https://rolling-sink.github.io/
Несмотря на быстрый прогресс в мультимодальных больших языковых моделях (MLLM), пространственное визуальное рассуждение остается ненадежным, когда правильные ответы зависят от того, как сцена выглядела бы с непредставленных или альтернативных точек обзора. Современные работы решают эту проблему, дополняя рассуждение мировыми моделями для визуального воображения, однако вопросы о том, когда воображение действительно необходимо, в каком объеме оно полезно и когда становится вредным, остаются малоизученными. На практике неразборчивое использование воображения может увеличить вычислительные затраты и даже ухудшить результаты, внося вводящие в заблуждение свидетельства. В данной работе мы представляем углубленный анализ визуального воображения во время тестирования как управляемого ресурса для пространственного рассуждения. Мы исследуем, когда статических визуальных данных достаточно, когда воображение улучшает рассуждения и как избыточное или ненужное воображение влияет на точность и эффективность. Для поддержки этого анализа мы представляем AVIC — адаптивную框架 тестирования с мировыми моделями, которая явно оценивает достаточность текущих визуальных свидетельств перед выборочным запуском и масштабированием визуального воображения. На пространственных бенчмарках рассуждений (SAT, MMSI) и бенчмарке навигации в среде (R2R) наши результаты выявляют четкие сценарии, где воображение критически важно, маргинально или пагубно, и показывают, что избирательное управление может соответствовать или превосходить стратегии с фиксированным воображением при существенно меньшем количестве обращений к мировым моделям и языковым токенам. В целом, наши результаты подчеркивают важность анализа и управления воображением во время тестирования для эффективного и надежного пространственного рассуждения.
Создание пошаговых инструкций «как сделать» является ключевой возможностью больших языковых моделей (LLM): советы такого типа часто запрашиваются в чат-ботах, а пошаговое планирование критически важно для рассуждений при выполнении сложных задач. Однако измерение и масштабируемое улучшение процедурной валидности для реальных задач остаются сложными и недостаточно изученными. Чтобы решить эту проблему, мы представляем How2Everything — масштабируемую структуру для оценки и улучшения генерации процедур, обусловленных целью. Наша структура включает How2Mine, который извлекает 351 тыс. процедур из 980 тыс. веб-страниц по 14 темам и легко масштабируется на большие корпуса. Из этого пула мы строим How2Bench — оценочный набор из 7 тыс. примеров, сбалансированный по темам. Для надежной оценки выходных данных моделей мы разрабатываем How2Score — протокол оценки, который использует LLM-судию для определения, содержит ли сгенерированный текст критические ошибки, препятствующие достижению цели. Для недорогой и воспроизводимой оценки мы дистиллируем передовую модель в открытую 8B-модель, достигнув 80,5% согласия с человеком-аннотатором. How2Bench выявляет четкие тренды масштабирования для моделей разного размера и этапов обучения, предоставляя сигнал уже на ранних стадиях предобучения. Наконец, использование обучения с подкреплением (RL) с How2Score в качестве функции вознаграждения улучшает производительность на How2Bench более чем на 10 пунктов для трех моделей без систематического ухудшения на стандартных бенчмарках, причем gains устойчивы к поверхностному запоминанию исходных документов или соблюдению формата. В совокупности How2Everything демонстрирует, как данные веб-предобучения могут поддерживать замкнутый цикл оценки и улучшения возможностей в масштабе.
Стимулирование рассуждений стало мощной методикой повышения производительности больших языковых моделей (LLM) на сложных задачах за счет индукции мышления. Однако их эффективность в реалистичных сценариях взаимодействия с пользователем остается неясной. В данной статье мы проводим комплексное исследование влияния явного мышления в LLM-агентах, взаимодействующих с пользователем. Наши эксперименты охватывают семь моделей, три тестовых набора и две реализации мышления, которые мы оцениваем с помощью количественного анализа таксономии ответов и качественных кейс-стади распространения ошибок. Вопреки ожиданиям, мы обнаруживаем, что принудительное мышление часто дает обратный эффект в условиях взаимодействия с пользователем, вызывая аномальное снижение производительности у различных LLM. Ключевой вывод заключается в том, что мышление делает агентов более «интровертными», сокращая ответы и уменьшая раскрытие информации пользователям, что ослабляет информационный обмен между агентом и пользователем и приводит к сбоям в последующих задачах. Кроме того, мы показываем, что явный запрос на раскрытие информации надежно улучшает производительность в различных семействах моделей, что свидетельствует о том, что проактивная прозрачность является важным рычагом оптимизации агентов. В целом, наше исследование показывает, что осознание информационной прозрачности представляет собой важную, но недостаточно изученную перспективу для будущего проектирования рассуждающих агентов в реальных сценариях. Наш код доступен по адресу https://github.com/deeplearning-wisc/Thinking-Agent.
Современные парадигмы верификации кода в значительной степени опираются на внешние механизмы — такие как модульные тесты на основе выполнения или вспомогательные LLM-арбитры, — которые часто требуют больших трудозатрат или ограничены возможностями самой судейской модели. Это поднимает фундаментальный, но остающийся без внимания вопрос: можно ли оценить функциональную корректность LLM, исходя исключительно из её внутренней вычислительной структуры? Наша основная цель — исследовать, кодируют ли нейродинамики модели внутренне декодируемые сигналы, предсказывающие логическую корректность в процессе генерации кода. Вдохновляясь методами механистической интерпретируемости, мы предлагаем рассматривать верификацию кода как задачу механистической диагностики, преобразуя явную алгоритмическую траекторию модели в графы атрибуции на уровне строк. Декомпозируя сложные остаточные потоки, мы стремимся выявить структурные сигнатуры, которые различают корректные рассуждения и логические сбои внутри внутренних цепей модели. Анализ на примерах Python, C++ и Java подтверждает, что внутренние сигналы корректности устойчивы для различных синтаксисов. Топологические особенности этих внутренних графов предсказывают корректность надежнее, чем поверхностные эвристики, и позволяют осуществлять целенаправленные причинно-следственные вмешательства для исправления ошибочной логики. Эти результаты устанавливают внутреннюю интроспекцию как декодируемое свойство для верификации генерируемого кода. Наш код доступен по адресу https://github.com/bruno686/CodeCircuit.
Развитие искусственного интеллекта можно рассматривать как эволюцию парадигм обучения, управляемых данными, при которой последовательные изменения в организации и использовании данных постоянно стимулируют прогресс возможностей моделей. Современные исследования больших языковых моделей (LLM) доминируют парадигмой, в значительной степени опирающейся на однонаправленное масштабирование объема данных, что все чаще сталкивается с ограничениями в доступности данных, стоимости их получения и эффективности обучения. В данной работе мы утверждаем, что развитие искусственного общего интеллекта (AGI) вступает в новую фазу совместной эволюции данных и моделей, в которой модели активно направляют управление данными, а высококачественные данные, в свою очередь, усиливают возможности моделей. Для реализации этого подхода мы предлагаем многоуровневую систему управления данными, предназначенную для поддержки полного жизненного цикла обучения LLM с учетом разнородных учебных задач и бюджетных ограничений. В частности, мы вводим многоуровневую систему управления данными L0-L4, охватывающую диапазон от необработанных некурируемых ресурсов до систематизированных и верифицируемых знаний. Важно, что LLM активно используются в процессах управления данными, таких как оценка качества и редактирование контента, для улучшения данных на всех уровнях. Каждый уровень характеризуется особыми свойствами данных, стратегиями управления и учебными ролями, что позволяет стратегически распределять данные по этапам обучения LLM, включая предварительное обучение, промежуточное обучение и согласование. Данная система балансирует качество данных, стоимость их получения и предельную пользу для обучения, предлагая системный подход к масштабируемому и устойчивому управлению данными. Мы подтверждаем эффективность предложенной системы с помощью эмпирических исследований, в которых многоуровневые наборы данных создавались из исходных корпусов и использовались на различных фазах обучения. Результаты экспериментов демонстрируют, что осознанное использование данных с учетом их уровня значимо повышает эффективность обучения и производительность модели. Для содействия дальнейшим исследованиям мы публикуем наши многоуровневые наборы данных и инструменты обработки для научного сообщества.
Обучение с подкреплением (RL) широко используется для управления гуманоидными роботами, при этом такие методы обучения на стратегии (on-policy), как Proximal Policy Optimization (PPO), обеспечивают надежное обучение за счет крупномасштабного параллельного моделирования и, в некоторых случаях, развертывания на реальных роботах без дополнительной доработки (zero-shot). Однако низкая эффективность использования выборки в алгоритмах on-policy ограничивает безопасную адаптацию к новым средам. Хотя внестратегировочное RL (off-policy RL) и модель-ориентированное RL (model-based RL) показали повышенную эффективность использования выборки, разрыв между крупномасштабным предварительным обучением (pretraining) и эффективной тонкой настройкой (finetuning) для гуманоидов все еще сохраняется. В данной статье мы показываем, что внестратегировочный алгоритм Soft Actor-Critic (SAC) с крупнопакетным обновлением (large-batch update) и высоким соотношением «обновления к данным» (Update-To-Data ratio, UTD) надежно поддерживает крупномасштабное предварительное обучение политик локомоции гуманоидов, обеспечивая их развертывание на реальных роботах без доработки. Что касается адаптации, мы демонстрируем, что эти предварительно обученные с помощью SAC политики могут быть тонко настроены для новых сред и задач с выходящим за пределы распределения данными (out-of-distribution) с использованием модель-ориентированных методов. Сбор данных в новой среде выполняется с помощью детерминированной политики, в то время как стохастическое исследование среды ограничивается физически обоснованной моделью мира (world model). Это разделение снижает риски случайного исследования во время адаптации, сохраняя при этом охват исследования для улучшения политики. В целом, предложенный подход сочетает в себе эффективность по реальному времени крупномасштабного моделирования на этапе предварительного обучения с эффективностью использования выборки модель-ориентированного обучения на этапе тонкой настройки.
Мы представляем MotionCrafter — фреймворк на основе диффузионных моделей для видео, который совместно реконструирует 4D-геометрию и оценивает плотное движение по моноскопическому видео. Основой нашего метода является новое совместное представление плотных 3D-карт точек и 3D-потоков сцены в единой системе координат, а также новый 4D-VAE для эффективного обучения этому представлению. В отличие от предыдущих работ, которые жёстко выравнивают 3D-значения и латентные переменные по латентным переменным RGB-VAE — несмотря на их принципиально различное распределение — мы показываем, что такое выравнивание избыточно и приводит к неоптимальной производительности. Вместо этого мы предлагаем новую стратегию нормализации данных и обучения VAE, которая лучше переносит диффузионные априорные знания и значительно повышает качество реконструкции. Многочисленные эксперименты на различных наборах данных демонстрируют, что MotionCrafter достигает передовых результатов как в реконструкции геометрии, так и в оценке плотного потока сцены, обеспечивая улучшение на 38,64% и 25,0% соответственно, без какой-либо последующей оптимизации. Страница проекта: https://ruijiezhu94.github.io/MotionCrafter_Page
Хотя в последние годы наблюдается быстрый прогресс в области синтеза речи, системы синтеза вокала с открытым исходным кодом по-прежнему сталкиваются со значительными препятствиями для промышленного внедрения, особенно в вопросах устойчивости и обобщения в условиях zero-shot. В данном отчете мы представляем SoulX-Singer — высококачественную систему синтеза вокала с открытым исходным кодом, разработанную с учетом практических требований развертывания. SoulX-Singer поддерживает управляемый синтез пения на основе либо символических партитур (MIDI), либо мелодических представлений, что обеспечивает гибкий и выразительный контроль в реальных производственных процессах. Обученная на более чем 42 000 часов вокальных данных, система поддерживает мандаринский китайский, английский и кантонский языки и стабильно демонстрирует высочайшее качество синтеза для всех языков в различных музыкальных условиях. Кроме того, для обеспечения надежной оценки производительности SVS в условиях zero-shot в практических сценариях мы создали SoulX-Singer-Eval — специализированный бенчмарк со строгим разделением обучающих и тестовых данных, способствующий систематической оценке в настройках zero-shot.
Достижение стабильной и энергоэффективной локомоции является ключевым условием для продолжительной работы гуманоидных роботов в реальных условиях. Существующие подходы, такие как MPC и обучение с подкреплением (RL), часто опираются на энергетические метрики, встроенные в рамки многокритериальной оптимизации, что требует трудоемкой настройки гиперпараметров и зачастую приводит к субоптимальным политикам. Для решения этих проблем мы предлагаем ECO (Energy-Constrained Optimization) — ограничительный RL-фреймворк, который выносит энергетические метрики за пределы функции вознаграждения, переформулируя их в виде явных ограничений-неравенств. Данный метод обеспечивает четкое и интерпретируемое физическое представление энергетических затрат, позволяя проводить более эффективную и интуитивно понятную настройку гиперпараметров для повышения энергоэффективности. ECO вводит специализированные ограничения на энергопотребление и опорное движение, обеспечиваемые методом Лагранжа, для достижения стабильной, симметричной и энергоэффективной походки гуманоидных роботов. Мы провели сравнительную оценку ECO с методами MPC, стандартным RL с формированием вознаграждения и четырьмя современными ограничительными RL-методами. Эксперименты, включая перенос из симуляции в симуляцию и из симуляции в реальность на гуманоидном роботе детского размера BRUCE, демонстрируют, что ECO существенно снижает энергопотребление по сравнению с базовыми методами, сохраняя при этом надежность ходьбы. Эти результаты подчеркивают значительный прогресс в области энергоэффективной локомоции гуманоидных роботов. Все экспериментальные демонстрации доступны на сайте проекта: https://sites.google.com/view/eco-humanoid.
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении больших языковых моделей (Large Language Models, LLMs), однако обычно они полагаются на крупномасштабные пары предпочтений, размеченные человеком. С широким распространением LLM взаимодействия в реальных условиях стали богатым источником неявных сигналов вознаграждения. Это поднимает вопрос: можем ли мы разрабатывать модели вознаграждения непосредственно на основе взаимодействий в реальных условиях? В данной работе мы исследуем эту возможность, используя WildChat в качестве источника взаимодействий и предлагая конвейер для извлечения надежной обратной связи от пользователей. В результате было получено 186 тысяч высококачественных примеров для обучения модели WildReward с помощью порядковой регрессии напрямую на основе пользовательской обратной связи, без использования пар предпочтений. Многочисленные эксперименты демонстрируют, что WildReward достигает сопоставимой или даже превосходящей производительности по сравнению с традиционными моделями вознаграждения, обладая улучшенной калибровкой и согласованностью между различными выборками. Мы также наблюдаем, что WildReward напрямую выигрывает от разнообразия пользователей: большее количество пользователей позволяет строить более сильные модели вознаграждения. Наконец, мы применяем WildReward для онлайн-обучения с помощью DPO (Direct Preference Optimization) и наблюдаем значительное улучшение результатов в различных задачах. Код и данные доступны по адресу https://github.com/THU-KEG/WildReward.
Подкрепляемое обучение с верифицируемыми вознаграждениями (RLVR) стало ключевым методом для улучшения способностей к рассуждению у больших языковых моделей (LLM). Однако непрерывное обучение часто приводит к коллапсу энтропии политики, который характеризуется быстрым спадом энтропии, что ведет к преждевременной избыточной уверенности, снижению разнообразия выходных данных и исчезновению норм градиента, что тормозит обучение. Градиент-сохраняющее отсечение (Gradient-Preserving Clipping) является основным фактором, влияющим на эту динамику, но существующие стратегии смягчения в основном статичны и не имеют framework, связывающего механизмы отсечения с точным контролем энтропии. В данной статье предлагается переосмыслить контроль энтропии в RL с точки зрения градиент-сохраняющего отсечения. Сначала мы теоретически и эмпирически проверяем вклад конкретных областей коэффициента важности сэмплирования в рост и снижение энтропии. Опираясь на эти findings, мы представляем новый механизм регулирования с использованием динамического порога отсечения для точного управления энтропией. Кроме того, мы разрабатываем и оцениваем динамические стратегии контроля энтропии, включая «увеличение-затем-уменьшение», «уменьшение-увеличение-уменьшение» и oscillatory decay. Результаты экспериментов демонстрируют, что эти стратегии эффективно смягчают коллапс энтропии и достигают превосходной производительности на множестве benchmarks.
Распределение вычислительных ресурсов во время тестирования в больших моделях рассуждений (LRM) широко применяется для решения математических задач, синтеза кода и планирования. В последних работах эта проблема решалась за счет масштабирования самосогласованности и параллельного мышления, добавления универсальных «токенов мышления» и указания моделям перечитывать вопрос перед ответом. К сожалению, эти подходы либо вводят не зависящие от задачи токены, либо предписывают эвристики, которые не объясняют — и часто игнорируют — спонтанное повторение, которое многие LRM демонстрируют в начале своих внутренних цепочек. В отличие от них, мы анализируем и используем склонность модели переформулировать вопрос, что мы называем Эхом Промпта (EOP), в качестве фронтально загруженного механизма формирования вычислений. Мы формализуем его вероятностную стоимость, рассматривая удаление эха как условное отвержение и определяя Разрыв Вероятности Эха ΔL как вычислимый прокси-показатель. Это обеспечивает недостающее теоретическое звено, связывающее раннее повторение с ростом правдоподобия и итоговой точностью. Однако само по себе это не определяет, как использовать EOP. Следовательно, мы разрабатываем Концентрированное Контролируемое Тонкое Настраивание с Эхом (ED-SFT), чтобы привить шаблон «эхо-затем-рассуждение» через контролируемое дообучение, и Эховое Промптирование (EP) для повторного заземления модели в середине цепочки без обучения. Несмотря на перспективность, количественная оценка преимуществ за пределами многословия нетривиальна. Поэтому мы проводим анализ правдоподобия с контролем длины и суффикса вместе с послойными исследованиями внимания, показывая, что EOP увеличивает внимание от ответа к префиксу ответа в средних слоях, что согласуется с механизмом перефокусировки внимания. Мы оцениваем подход на GSM8K, MathQA, Hendrycks-MATH, AIME24 и MATH-500 в идентичных условиях декодирования и бюджетах и обнаруживаем стабильное преимущество над базовыми методами. Код доступен по адресу https://github.com/hhh2210/echoes-as-anchors.
Агентные системы оцениваются на бенчмарках, где агенты взаимодействуют со средой для решения задач. В большинстве статей сообщается показатель pass@1, вычисленный на основе одного запуска на задачу, в предположении, что это дает надежную оценку производительности. Мы проверяем это предположение, собрав 60 000 агентных траекторий на SWE-Bench-Verified для трех моделей и двух каркасов. Мы обнаружили значительную вариативность: оценки pass@1 по одному запуску варьируются на 2,2–6,0 процентных пункта в зависимости от выбранного запуска, при этом стандартное отклонение превышает 1,5 процентных пункта даже при температуре 0. Эта вариативность имеет критическое значение: заявленные улучшения на 2–3 процентных пункта могут отражать шум оценки, а не реальный алгоритмический прогресс. С помощью анализа на уровне токенов мы показываем, что траектории расходятся рано, часто в пределах первых нескольких процентов токенов, и эти небольшие различия каскадно приводят к разным стратегиям решения. Для обеспечения надежной оценки агентных систем мы рекомендуем три конкретные практики: (1) оценивать pass@1 по нескольким независимым запускам на задачу, особенно при измерении небольших улучшений, (2) использовать анализ статистической мощности для определения количества запусков, необходимых для обнаружения ожидаемых размеров эффекта, и (3) рассматривать метрики типа pass@k (оптимистичная граница) и pass^k (пессимистичная граница) при k>1 для лучшей характеристики полного диапазона производительности. Хотя эти практики увеличивают стоимость оценки, они необходимы для различения подлинного научного прогресса и статистического шума.
Токенизация является ключевым проектировочным решением для нейросетевого языкового моделирования в морфологически богатых языках (МБЯ), таких как турецкий, где продуктивная агглютинация создает проблемы как для эффективности словаря, так и для морфологической точности. Предыдущие исследования изучали семейства токенизаторов и размеры словарей, но обычно (i) варьируют словарь без систематического контроля обучающего корпуса токенизатора, (ii) предоставляют ограниченную внутреннюю диагностику и (iii) оценивают на узком наборе конечных задач. Мы представляем первое комплексное, принципиальное исследование субсловной токенизации для турецкого языка — «манифест субслов», который совместно варьирует размер словаря и размер обучающего корпуса токенизатора (связь данных и словаря), сравнивает несколько семейств токенизаторов при сопоставимых бюджетах параметров (WordPiece, морфологический уровень и символьные базовые линии) и проводит оценку на семантических (NLI, STS, анализ тональности, NER), синтаксических (POS, dependency parsing) и чувствительных к морфологии пробах. Чтобы объяснить, почему токенизаторы работают или терпят неудачу, мы вводим инструментарий морфологически осознанной диагностики, который выходит за рамки грубых агрегатов к микро/макро F1 на уровне границ, разделенным показателям леммной атомарности и попаданий в поверхностные границы, индексам пере-/недо-сегментации, символьным/словным редакционным расстояниям (CER/WER), показателям продолжения, а также охвату типов аффиксов и токен-уровневой атомарности. Наш вклад четырехаспектен: (i) систематическое исследование триады «словарь-корпус-успех»; (ii) унифицированная морфологически осознанная система оценки, связывающая внутреннюю диагностику с внешними результатами; (iii) контролируемые сравнения, определяющие, когда окупается токенизация на символьном и морфологическом уровнях; и (iv) открытая публикация кода оценки, конвейеров токенизаторов и моделей. Будучи первой работой такого рода, этот «манифест субслов» предоставляет практические рекомендации для создания эффективных токенизаторов в МБЯ и закладывает воспроизводимую основу для будущих исследований.
Понимание эмоций является ключевым для создания социально интеллектуальных агентов. Хотя современные мультимодальные большие языковые модели продемонстрировали высокую производительность в этой задаче, остаются две основные проблемы — ложные ассоциации между эмоциями и нерелевантными аудиовизуальными сигналами, а также галлюцинации аудиовизуальных сигналов, вызванные текстовыми априорными знаниями в языковой модели. Для количественной оценки и понимания этих проблем мы представляем EmoReAlM — бенчмарк, предназначенный для оценки MLLM по ассоциациям «сигнал-эмоция», галлюцинациям и межмодальному согласованию. Затем мы предлагаем AVEm-DPO, технику оптимизации предпочтений, которая согласует ответы модели как с аудиовизуальными входными данными, так и с эмоционально-ориентированными запросами. В частности, мы формируем предпочтения относительно ответов, демонстрирующих ложные ассоциации или галлюцинации, и пар аудиовизуальных входных данных на основе текстовых промптов. Мы также включаем регуляризационный член, который штрафует зависимость от текстовых априорных знаний, тем самым смягчая галлюцинации модально-специфичных сигналов. Экспериментальные результаты на DFEW, RAVDESS и EMER показывают, что наш метод значительно улучшает производительность эталонных моделей с относительным приростом производительности на 6–19% в условиях zero-shot обучения. Предлагая строгий бенчмарк и надежную framework оптимизации, данная работа позволяет проводить принципиальную оценку и улучшение MLLM для понимания эмоций и социального ИИ. Код, модели и бенчмарк будут доступны по адресу https://avere-iclr.github.io.
Последние достижения в архитектурах смесей экспертов показали, что отдельные модели экспертов могут обучаться федеративно, то есть изолированно от других экспертов, с использованием общей базовой модели для облегчения координации. Однако мы выдвигаем гипотезу, что эксперты полного размера могут быть не нужны для всех доменов и вместо них может быть достаточно низкоранговых адаптеров. Здесь мы представляем FlexMoRE — гибкую смесь экспертов с разнородным рангом, где экспертами могут быть как модели полного размера, так и адаптеры подходящего ранга. Мы систематически исследуем компромисс между рангом эксперта и производительностью на последующих задачах, оценивая 6 экспертов с рангами от 2^0 до 2^14, что привело к экспериментам, охватывающим 150 смесей (96 с 2 экспертами, 54 с 7 экспертами), которые оцениваются на 120 задачах. Для наших экспериментов мы основываемся на FlexOlmo и преобразуем его предварительно обученных экспертов в низкоранговые версии. Наш регрессионный анализ зависимости производительности на последующих задачах от ранга эксперта показывает, что наилучший ранг существенно выше для бенчмарков с высокой долей логических рассуждений, чем для бенчмарков, насыщенных проверкой знаний. Эти выводы о чувствительности к рангу имеют прямые последствия для эффективности использования памяти: при использовании оптимальных рангов FlexMoRE демонстрирует улучшенную производительность на последующих задачах (средний балл 47,18) по сравнению с базовой смесью экспертов полного размера в стиле FlexOlmo (средний балл 45,46) при использовании менее трети параметров (10,75 млрд для FlexMoRE против 33,27 млрд для FlexOlmo). Весь код будет общедоступен.
Современные языковые модели (ЯМ) склонны запоминать фрагменты обучающих данных и воспроизводить их дословно. В случаях, когда исходные данные являются конфиденциальными или защищены авторским правом, такое воспроизведение порождает проблемы, связанные с согласием и вознаграждением создателей, а также риски соответствия для разработчиков. Мы предлагаем метод «Анкорного декодирования» (Anchored Decoding) — подключаемый метод на этапе вывода для подавления дословного копирования: он позволяет выполнять декодирование для любой рискованной ЯМ, обученной на данных со смешанными лицензиями, удерживая генерацию в ограниченной близости от безопасной ЯМ, обученной на разрешительных данных. Анкорное декодирование адаптивно распределяет заданный пользователем информационный бюджет по траектории генерации и применяет пошаговые ограничения, которые обеспечивают гарантию на уровне последовательности, позволяя настраиваемый компромисс между риском и полезностью. Чтобы сделать Анкорное декодирование практически полезным, мы представляем новую безопасную модель (TinyComma 1.8B), обученную на разрешительных данных, а также Анкорное_{Байт} Декодирование (Anchored_{Byte} Decoding) — байтовый вариант нашего метода, который обеспечивает межсловарное слияние через фреймворк ByteSampler (Hayase et al., 2025). Мы оцениваем наши методы на шести парах моделей в рамках длительных оценок риска нарушения авторских прав и полезности. Анкорное и Анкорное_{Байт} Декодирование определяют новую границу Парето, сохраняя практически исходную беглость и фактическую точность, при этом устраняя до 75% измеримого разрыва в копировании (в среднем по шести метрикам копирования) между рискованным базовым уровнем и безопасным эталоном, с умеренными вычислительными накладными расходами на вывод.
Большие языковые модели используют кэши ключей и значений (KV-cache) для избежания избыточных вычислений при авторегрессионном декодировании, однако с ростом длины контекста операции чтения и записи кэша могут быстро насыщать пропускную способность памяти GPU. В последних работах исследуется сжатие KV-кэша, но большинство подходов игнорируют зависимую от данных природу кэшей и их вариативность между слоями. Мы представляем KV-CoRE (KV-cache Compressibility by Rank Evaluation) — метод на основе SVD для количественной оценки зависящей от данных низкоранговой сжимаемости KV-кэшей. KV-CoRE вычисляет оптимальное низкоранговое приближение по норме Фробениуса и, являясь бесградиентным и инкрементальным, позволяет проводить эффективную оценку на уровне набора данных для каждого слоя. Используя этот метод, мы анализируем несколько моделей и наборов данных, охватывающих пять предметных областей на английском языке и шестнадцать языков, выявляя систематические закономерности, связывающие сжимаемость с архитектурой модели, обучающими данными и языковым охватом. В рамках этого анализа мы используем Нормализованный Эффективный Ранг в качестве метрики сжимаемости и показываем, что он сильно коррелирует с падением производительности при сжатии. Наше исследование устанавливает принципиальную схему оценки и первый крупномасштабный бенчмарк сжимаемости KV-кэша в больших языковых моделях, предлагая идеи для динамического, учитывающего данные сжатия и центрированной на данных разработки моделей.
Многовекторные ретриверы с поздним взаимодействием, такие как ColBERT, достигают высочайшего качества поиска, однако их вычислительная стоимость на этапе выполнения запроса определяется в основном исчерпывающим вычислением токен-уровневых взаимодействий MaxSim для каждого кандидатного документа. Хотя аппроксимация позднего взаимодействия с помощью одноговекторных представлений снижает затраты, это часто приводит к значительной потере точности. Мы представляем Col-Bandit — алгоритм отсечения на этапе запроса, который снижает вычислительную нагрузку, рассматривая повторное ранжирование как задачу идентиции Top-K в конечной популяции. Col-Bandit поддерживает учитывающие неопределенность границы для частично наблюдаемых оценок документов и адаптивно раскрывает только те элементы MaxSim (документ, токен запроса), которые необходимы для определения лучших результатов в рамках статистических решающих границ с настраиваемым ослаблением. В отличие от подходов грубого зерна, которые отсекают целые документы или токены офлайн, Col-Bandit разрежает матрицу взаимодействия на лету. Алгоритм работает как zero-shot, подключаемый слой поверх стандартных многовекторных систем, не требуя модификации индекса, офлайн-предобработки или переобучения модели. Эксперименты на текстовых (BEIR) и мультимодальных (REAL-MM-RAG) бенчмарках показывают, что Col-Bandit сохраняет достоверность ранжирования, сокращая количество FLOP для вычислений MaxSim до 5 раз, что указывает на наличие значительной избыточности в плотном скоринге позднего взаимодействия, которую можно эффективно выявить и устранить на этапе запроса.
Навыки агентов расширяют возможности агентов на основе больших языковых моделей (LLM) за счет переиспользуемых, похожих на программы модулей, которые определяют условия активации, процедурную логику и взаимодействие с инструментами. По мере распространения этих навыков на публичных маркетплейсах остается неясным, какие типы навыков доступны, как пользователи их применяют и какие риски они несут. Чтобы ответить на эти вопросы, мы проводим масштабный, основанный на данных анализ 40 285 публично размещенных навыков с крупного маркетплейса. Наши результаты показывают, что публикация навыков имеет тенденцию происходить короткими всплесками, следующими за изменениями во внимании сообщества. Мы также обнаруживаем, что содержание навыков сильно сконцентрировано на рабочих процессах разработки программного обеспечения, в то время как на информационный поиск и создание контента приходится значительная доля их применения. Помимо тенденций в содержании, мы выявляем выраженный дисбаланс спроса и предложения по категориям и показываем, что большинство навыков укладывается в типичные бюджеты промптов, несмотря на тяжелохвостое распределение их длины. Наконец, мы наблюдаем сильную гомогенность экосистемы с широко распространенной избыточностью на уровне намерений и идентифицируем нетривиальные риски безопасности, включая навыки, позволяющие выполнять изменяющие состояние или системные действия. В целом, наши результаты дают количественный снимок навыков агентов как формирующегося инфраструктурного уровня для агентов и информируют будущие работы по переиспользованию, стандартизации и проектированию навыков с учетом безопасности.
Дифференциальные уравнения в частных производных обеспечивают точное моделирование физических, биологических и графических явлений. Однако численные методы страдают от проклятия размерности, высоких вычислительных затрат и специфичной для области дискретизации. Мы исследуем преимущества и недостатки различных решателей ДУЧП и применяем их к конкретным задачам научного моделирования, включая прямое решение, обратные задачи и обнаружение уравнений. В частности, мы расширяем недавно предложенный решатель CNF (NeurIPS 2023) на случай многих зависимых переменных и нелинейных постановок, а также рассматриваем его приложения. Результаты включают реализацию выбранных методов, методы автоматической настройки, оценку на эталонных задачах и всесторонний обзор нейросетевых решателей ДУЧП и их применений в научном моделировании.
Генерация с расширением выборки (RAG) улучшает логические рассуждения больших языковых моделей при решении задач, требующих глубоких знаний, однако существующие RAG-конвейеры несут значительные затраты на извлечение и генерацию при применении к крупномасштабному сопоставлению сущностей. Для преодоления этого ограничения мы представляем CE-RAG4EM — экономичную по затратам RAG-архитектуру, которая сокращает вычисления за счёт пакетного извлечения и генерации на основе блокировки. Мы также предлагаем унифицированную структуру для анализа и оценки RAG-систем для сопоставления сущностей, уделяя особое внимание оптимизациям с учётом блокировки и гранулярности извлечения. Многочисленные эксперименты показывают, что CE-RAG4EM позволяет достичь сопоставимого или улучшенного качества сопоставления при значительном сокращении сквозного времени выполнения по сравнению с сильными базовыми методами. Наш анализ дополнительно раскрывает, что ключевые параметры конфигурации создают врождённый компромисс между производительностью и накладными расходами, предлагая практические рекомендации по проектированию эффективных и масштабируемых RAG-систем для сопоставления сущностей и интеграции данных.
Мы представляем Aster — ИИ-агент для автономных научных открытий, способный работать более чем в 20 раз быстрее существующих фреймворков. Получив задачу, начальную программу и скрипт для оценки её производительности, Aster итеративно улучшает программу, часто достигая новых наилучших результатов. Значительное сокращение числа итераций, необходимых для новых открытий, расширяет круг решаемых задач, включая задачи с длительной оценкой, такие как многодневные тренировки моделей машинного обучения. Мы применили Aster к задачам из математики, разработки GPU-ядре, биологии, нейробиологии и тренировки языковых моделей. А именно: к проблеме минимального перекрытия Эрдёша, оптимизации ядра TriMul, задаче шумоподавления в анализе одноклеточных данных, тренировке модели предсказания нейронной активности для достижения высоких результатов на ZAPBench и соревнованию NanoGPT Speedrun. Aster достиг наилучших результатов во всех задачах, за исключением ZAPBench, где он повторил производительность лучшего человеческого решения, используя менее 1/190 вычислительных ресурсов. Aster доступен через веб-интерфейс и API на asterlab.ai.
Крупные языковые модели (LLM) обещают ускорить научные открытия за счёт логического вывода на основе расширяющегося массива научных знаний. Однако ключевая проблема сегодня заключается уже не в доступе к информации, а в установлении содержательных междисциплинарных связей. В материаловедении, где инновации требуют интеграции концепций от молекулярной химии до механических свойств, эта проблема особенно актуальна. Ни люди, ни одиночные LLM не могут в полной мере справиться с этим потоком данных, причём последние часто склонны к галлюцинациям. Для преодоления этого ограничения мы представляем мульти-агентный фреймворк, управляемый крупномасштабными графами знаний, для поиска устойчивых заменителей пер- и полифторалкильных веществ (ПФАВ) — химических соединений, находящихся под пристальным вниманием регуляторов. Агенты в рамках системы специализируются на декомпозиции задач, поиске доказательств, извлечении параметров проектирования и обходе графов, выявляя скрытые связи между различными областями знаний для поддержки генерации гипотез. Абляционные исследования показывают, что полная мульти-агентная система превосходит одношаговые промпты, подчёркивая ценность распределённой специализации и реляционных рассуждений. Мы демонстрируем, что путём адаптации стратегий обхода графа система чередует эксплуатационный поиск, сфокусированный на критически важных доменных результатах, и исследовательский поиск, выявляющий возникающие междисциплинарные связи. На примере биомедицинских трубок фреймворк генерирует устойчивые альтернативы, не содержащие ПФАВ, которые обеспечивают баланс трибологических характеристик, термической стабильности, химической стойкости и биосовместимости. Данная работа создаёт основу для объединения графов знаний с мульти-агентными рассуждениями для расширения пространства проектирования материалов, демонстрируя несколько перспективных кандидатов в качестве примера подхода.
Текстовые эмбеддинги обеспечивают множество приложений NLP, но сталкиваются с серьезными рисками конфиденциальности из-за атак инверсии эмбеддингов, которые могут раскрыть чувствительные атрибуты или восстановить исходный текст. Существующие методы защиты с дифференциальной приватностью предполагают равномерную чувствительность по измерениям эмбеддингов, что приводит к избыточному шуму и снижению полезности. Мы предлагаем SPARSE — пользовательско-ориентированную фреймворк для концептуально-специфической защиты приватности в текстовых эмбеддингах. SPARSE объединяет (1) дифференцируемое обучение маски для идентификации приватно-чувствительных измерений для задаваемых пользователем концепций и (2) механизм Махаланобиса, применяющий эллиптический шум, калиброванный по чувствительности измерений. В отличие от традиционного введения сферического шума, SPARSE выборочно искажает приватно-чувствительные измерения, сохраняя при этом нечувствительную семантику. Оценка на шести наборах данных с тремя моделями эмбеддингов и сценариями атак показывает, что SPARSE последовательно снижает утечку приватности, одновременно достигая превосходной производительности на последующих задачах по сравнению с современными методами дифференциальной приватности.
Современные исследования показывают, что задачи согласования предпочтений (Preference Alignment, PA) выступают в роли оценок расхождения между распределениями выровненных (выбранных) и невыровненных (отвергнутых) ответов. В данной работе мы расширяем этот дивергентный подход на общие сценарии согласования, такие как обучение с подкреплением с верифицируемыми вознаграждениями (RLVR), где доступны только вознаграждения от среды. В рамках этой унифицированной концепции мы предлагаем f-Групповую относительную оптимизацию политик (f-GRPO) — класс методов обучения с подкреплением на политике, и f-Гибридную функцию потерь согласования (f-HAL) — гибридные цели на политике и вне политики, для общего согласования больших языковых моделей на основе вариационного представления f-дивергенций. Мы предоставляем теоретические гарантии того, что эти классы задач повышают среднее вознаграждение после согласования. Экспериментально мы проверяем нашу framework на задачах RLVR (математические рассуждения) и PA (согласование безопасности), демонстрируя превосходную производительность и гибкость по сравнению с современными методами.
Мы представляем первую комплексную формализацию теории статистического обучения (ТСО) в Lean 4, основанную на теории эмпирических процессов. Наша сквозная формальная инфраструктура реализует недостающий контент для последней версии библиотеки Lean 4 Mathlib, включая полную разработку гауссовской липшицевой концентрации, первую формализацию теоремы об энтропийном интеграле Дадли для субгауссовских процессов и применение к (разреженной) регрессии методом наименьших квадратов с точной скоростью сходимости. Проект был выполнен с использованием совместного человеко-ИИ рабочего процесса, в котором люди разрабатывали стратегии доказательств, а агенты ИИ выполняли тактическое построение доказательств, что привело к созданию проверенного человеком инструментария для ТСО в Lean 4. Помимо реализации, процесс формализации выявляет и разрешает неявные предположения и недостающие детали в стандартных учебниках по ТСО, обеспечивая детальное, построчное понимание теории. Данная работа закладывает переиспользуемый формальный фундамент и открывает путь для будущего развития теории машинного обучения. Код доступен по адресу https://github.com/YuanheZ/lean-stat-learning-theory.
Универсальное мультимодальное поисковое извлечение (UMR) стремится к поиску по принципу «любой-к-любому» в тексте и визуальных данных, однако современные модели эмбеддингов остаются ненадежными, когда запросы требуют латентных рассуждений (например, разрешения неспецифицированных ссылок или соответствия композиционным ограничениям). Мы утверждаем, что эта ненадежность часто обусловлена данными: когда изображения несут «скрытые» свидетельства, а запросы оставляют ключевую семантику неявной, единый проход создания эмбеддинга должен одновременно выполнять рассуждение и сжатие, что поощряет ложное соответствие признаков. Мы предлагаем ориентированный на данные фреймворк, который разделяет эти роли, вынося рассуждение за пределы этапа извлечения. Используя мощную визуально-языковую модель, мы делаем неявную семантику явной путем плотного описания визуальных свидетельств в элементах корпуса, разрешения неоднозначных мультимодальных ссылок в запросах и переформулирования многословных инструкций в краткие ограничения для поиска. Одного лишь улучшения на этапе вывода недостаточно; система извлечения должна обучаться на этих семантически насыщенных представлениях, чтобы избежать сдвига распределения и полностью использовать добавленный сигнал. На наборе данных M-BEIR наш метод обучения, дополненный рассуждениями, демонстрирует стабильное улучшение по сравнению с сильными базовыми уровнями, а ablation-исследования показывают, что обогащение корпуса в основном приносит пользу запросам, требующим знаний, тогда как обогащение запросов критически важно для запросов с композиционными модификациями. Мы публикуем наш код по адресу https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
Коллективное движение в косяках рыб служит примером эмерджентной самоорганизации в системах активной материи, однако вычислительные инструменты для моделирования и анализа этой динамики остаются разрозненными среди исследовательских групп. Мы представляем dewi-kadita — библиотеку Python с открытым исходным кодом, реализующую трехмерную зонную модель Кузина с комплексными энтропийными диагностиками, адаптированными для исследований коллективного поведения морских организмов. Библиотека вводит семь информационно-теоретических метрик — энтропию сплоченности косяка, энтропию поляризации, энтропию стратификации по глубине, энтропию углового момента, энтропию ближайшего соседа, энтропию корреляции скоростей и энтропию формы косяка — которые характеризуют различные организационные особенности, недоступные для классических параметров порядка. Эти метрики объединяются в Океанический индекс стайности (OSI), обеспечивающий единую скалярную меру коллективного беспорядка. Валидация на четырех канонических конфигурациях (рой, тор, динамический параллельный, строго параллельный) подтверждает корректное воспроизведение известных фазовых поведений: рой сохраняет беспорядок с поляризацией P < 0.1 и OSI ≈ 0.71, тогда как строго параллельное состояние достигает P = 0.998 с OSI = 0.24 и энтропией корреляции скоростей, стремящейся к нулю. Энтропийный подход успешно различает тороидальную и динамическую параллельную конфигурации, которые демонстрируют сопоставимые величины параметров порядка через различные организационные механизмы. JIT-компиляция Numba ускоряет вычисления парных взаимодействий в 10–100 раз, позволяя проводить моделирование 150–250 агентов на протяжении 1000–2000 временных шагов в течение пяти минут на стандартном рабочем оборудовании. Вывод данных в формате NetCDF4 обеспечивает совместимость с океанографическими аналитическими инструментами. Библиотека удовлетворяет потребность в стандартизированной, воспроизводимой инфраструктуре для моделирования коллективного поведения, аналогичной устоявшимся кодам молекулярной динамики.
Установление причинно-следственных связей (causal discovery) является ключевым для развития основанных на данных областей, таких как научный ИИ и анализ данных, однако существующие подходы сталкиваются со значительными проблемами временной и пространственной эффективности при масштабировании на большие графы. Для решения этой задачи мы представляем CauScale — нейросетевую архитектуру, разработанную для эффективного установления причинно-следственных связей, которая масштабирует вывод на графы размером до 1000 узлов. CauScale повышает временную эффективность за счёт блока редукции, сжимающего эмбеддинги данных, и улучшает пространственную эффективность за счёт использования связанных весов внимания, что позволяет избежать хранения отдельных карт внимания для осей. Для сохранения высокой точности установления причинно-следственных связей CauScale использует двухпоточную архитектуру: поток данных извлекает реляционные признаки из многомерных наблюдений, а поток графов интегрирует статистические априорные знания о графах и сохраняет ключевые структурные сигналы. CauScale успешно масштабируется на графы с 500 узлами в процессе обучения, где предыдущие методы терпят неудачу из-за ограничений памяти. На тестовых данных с различными масштабами графов и причинными механизмами CauScale достигает 99,6% mAP на данных из того же распределения и 84,4% на данных из другого распределения, обеспечивая при этом ускорение вывода в 4–13 000 раз по сравнению с предыдущими методами. Страница проекта находится по адресу https://github.com/OpenCausaLab/CauScale.