Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Step 3.5 Flash — разреженную модель смеси экспертов (MoE), которая объединяет передовой агентский интеллект с вычислительной эффективностью. Основное внимание уделено ключевым аспектам создания агентов: остроте логического мышления и быстрому, надежному исполнению. Step 3.5 Flash сочетает базовую архитектуру с 196 млрд параметров и 11 млрд активных параметров для эффективного вывода. Модель оптимизирована с помощью чередующегося скользящего/полного внимания (3:1) и многотокенного предсказания (MTP-3) для снижения задержек и стоимости многократных агентских взаимодействий. Для достижения уровня передового интеллекта мы разработали масштабируемую систему обучения с подкреплением, объединяющую верифицируемые сигналы с обратной связью по предпочтениям, сохраняя стабильность при крупномасштабном обучении с off-policy данными, что обеспечивает последовательное самоулучшение в математике, программировании и использовании инструментов. Step 3.5 Flash демонстрирует высокие результаты в агентских, программистских и математических задачах: 85,4% на IMO-AnswerBench, 86,4% на LiveCodeBench-v6 (2024.08-2025.05), 88,2% на tau2-Bench, 69,0% на BrowseComp (с управлением контекстом) и 51,0% на Terminal-Bench 2.0, что сравнимо с передовыми моделями, такими как GPT-5.2 xHigh и Gemini 3.0 Pro. Переопределяя границы эффективности, Step 3.5 Flash создает высокоплотную основу для развертывания сложных агентов в реальных промышленных средах.
В последних исследованиях генеративные мультимодальные большие языковые модели (MLLM) адаптировались для извлечения эмбеддингов в задачах компьютерного зрения, обычно путем тонкой настройки для получения универсальных представлений. Однако их производительность на видео остается ниже, чем у фоновых видео-моделей (VFM). В данной статье мы сосредотачиваемся на использовании MLLM для получения видео-текстовых эмбеддингов и решения задач поиска. Сначала мы проводим систематический послойный анализ, показывающий, что промежуточные (предобученные) слои MLLM уже кодируют значительный объем релевантной для задачи информации. Используя это наблюдение, мы демонстрируем, что комбинирование эмбеддингов промежуточных слоев с калиброванной головой MLLM позволяет достичь высокой производительности поиска в режиме zero-shot без какого-либо обучения. Основываясь на этих результатах, мы представляем легковесную стратегию текстовой адаптации, которая сопоставляет плотные описания видео с краткими суммаризациями и позволяет изучать релевантные для задачи видео-текстовые эмбеддинги без визуального супервизора. Примечательно, что без какой-либо тонкой настройки, кроме работы с текстом, наш метод превосходит современные подходы, часто с существенным отрывом, достигая наилучших результатов на стандартных бенчмарках для видео-поиска.
Унифицированные мультимодальные модели (UMM) демонстрируют значительный прогресс в области визуальной генерации. Однако существующие бенчмарки в основном оценивают кристаллизованный интеллект, который опирается на воспроизведение накопленных знаний и усвоенных схем. Такой подход упускает из виду генеративный флюидный интеллект (GFI) — способность выявлять закономерности, рассуждать в рамках ограничений и адаптироваться к новым сценариям на лету. Для строгой оценки этой способности мы представляем GENIUS (GEN Fluid Intelligence EvalUation Suite). Мы формализуем GFI как синтез трёх примитивов: выявление имплицитных паттернов (например, вывод персональных визуальных предпочтений), выполнение ад-хок ограничений (например, визуализация абстрактных метафор) и адаптация к контекстуальным знаниям (например, симуляция контр-интуитивной физики). В совокупности эти примитивы требуют от моделей решения задач, полностью основанных на непосредственном контексте. Наше систематическое тестирование 12 репрезентативных моделей выявило существенные пробелы в производительности при решении этих задач. Ключевой результат диагностического анализа состоит в том, что эти неудачи обусловлены ограниченным пониманием контекста, а не недостаточной внутренней генеративной способностью. Для преодоления этого разрыва мы предлагаем стратегию вмешательства в механизм внимания, не требующую дообучения. В конечном счёте, GENIUS устанавливает строгий стандарт для оценки GFI, направляя область исследований от использования знаний к динамическому общему рассуждению. Наш набор данных и код будут доступны по адресу: https://github.com/arctanxarc/GENIUS.
С быстрым развитием крупных мультимодальных моделей надежные модели-критики и оценщики стали необходимы для открытой оценки и согласования предпочтений, предоставляя парные сравнения, численные оценки и объясняющие обоснования для анализа сгенерированных моделями ответов. Однако существующие критики в основном обучаются в общих визуальных областях, таких как создание описаний или визуальные вопросы-ответы, оставляя задачи физического ИИ, связанные с восприятием, каузальными рассуждениями и планированием, практически неисследованными. Мы представляем PhyCritic, мультимодальную модель-критика, оптимизированную для физического ИИ через двухэтапный RLVR-конвейер: этап разогрева физических навыков, улучшающий физически ориентированное восприятие и рассуждения, с последующей самоссылочной донастройкой критика, когда модель генерирует собственный прогноз как внутренний ориентир перед оценкой кандидатных ответов, повышая стабильность суждений и физическую корректность. На бенчмарках как для физических, так и для общецелевых мультимодальных оценщиков PhyCritic демонстрирует значительное превосходство над открытыми базовыми моделями и, при применении в качестве политической модели, дополнительно улучшает восприятие и рассуждения в задачах с физической основой.
Адаптация агентов больших языковых моделей (LLM) к предметно-ориентированному вызову инструментов остается заметно хрупкой при изменяющихся интерфейсах. Инженерия промптов и схем проста в развертывании, но часто ненадежна при сдвиге распределения данных и использовании строгих парсеров, тогда как непрерывная дообучение с параметрической эффективностью повышает надежность ценой обучения, поддержки и потенциального забывания. Мы выявляем критический режим отказа «Ленивого Агента», при котором необходимость использования инструмента почти идеально декодируется из активаций средних слоев, однако модель остается консервативной в переходе в инструментальный режим, что раскрывает разрыв между репрезентацией и поведением. Мы предлагаем Адаптер управления через активации (Activation Steering Adapter, ASA) — беспараметрический контроллер времени инференции, который выполняет одношаговое вмешательство на среднем слое и нацеливается на инструментальные домены через условную смесь векторов управления, управляемую маршрутизатором, с использованием знакового вентиля, направляемого пробником, для усиления истинного намерения при подавлении ложных триггеров. На MTU-Bench с моделью Qwen2.5-1.5B ASA улучшает F1-меру строгого использования инструментов с 0.18 до 0.50, одновременно снижая уровень ложных срабатываний с 0.15 до 0.05, используя лишь около 20 КБ портируемых ресурсов и не обновляя веса модели.
Последние достижения в области базовых моделей привели к созданию систем логического вывода, способных достигать золотого медального уровня на Международной математической олимпиаде. Однако переход от решения задач олимпиадного уровня к профессиональным исследованиям требует навигации по обширной литературе и построения доказательств с длительным горизонтом. В данной работе мы представляем Алетейю — агента для математических исследований, который итеративно генерирует, проверяет и корректирует решения от начала до конца на естественном языке. В частности, Алетея использует усовершенствованную версию Gemini Deep Think для решения сложных логических задач, новую закономерность масштабирования на этапе вывода, выходящую за рамки олимпиадных задач, и интенсивное применение инструментов для навигации по сложностям математических исследований. Мы демонстрируем возможности Алетеи — от олимпиадных задач до упражнений уровня PhD и, что наиболее примечательно, через несколько различных вех в исследованиях по математике с использованием ИИ: (а) научную статью (Feng26), полностью сгенерированную ИИ без какого-либо человеческого вмешательства, по вычислению определенных структурных констант в арифметической геометрии, называемых собственными весами; (б) научную статью (LeeSeo26), демонстрирующую сотрудничество человека и ИИ в доказательстве границ для систем взаимодействующих частиц, называемых независимыми множествами; и (в) масштабную полуавтономную оценку (Feng et al., 2026a) 700 открытых проблем из базы данных гипотез Блума-Эрдёша, включая автономные решения четырех открытых вопросов. Чтобы помочь общественности лучше понять развитие, связанное с ИИ и математикой, мы предлагаем кодифицировать стандартные уровни, количественно оценивающие автономность и новизну результатов, полученных с помощью ИИ. В заключение мы размышляем о сотрудничестве человека и ИИ в математике.
Хотя рассуждения на основе длинного контекста крайне важны для различных практических приложений, они остаются сложной задачей для больших языковых моделей (LLM), поскольку их производительность снижается по мере увеличения длины контекста. Недавно предложенный метод MemAgent попытался решить эту проблему, обрабатывая контекст по фрагментам в RNN-подобном цикле и обновляя текстовую память для формирования окончательного ответа. Однако эта наивная рекуррентная схема обновления памяти имеет два существенных недостатка: (i) память может быстро разрастаться, поскольку обновление происходит бесконтрольно, даже на фрагментах, не содержащих полезной информации; (ii) цикл не имеет механизма выхода, что приводит к избыточным вычислениям даже после сбора достаточных свидетельств. Для решения этих проблем мы предлагаем модель GRU-Mem, в которую встроены два управляемых текстом затвора для более стабильных и эффективных рассуждений в длинном контексте. А именно, в GRU-Mem память обновляется только когда открыт затвор обновления, а рекуррентный цикл немедленно завершается при открытии затвора выхода. Для наделения модели такими возможностями мы вводим две сигнала поощрения, r^{update} и r^{exit}, в рамках сквозного обучения с подкреплением, награждая за корректное поведение при обновлении и выходе соответственно. Эксперименты на различных задачах рассуждений в длинном контексте демонстрируют эффективность и производительность GRU-Mem, которая в целом превосходит базовый MemAgent с ускорением вывода до 400%.
В данной статье представлена задача Omni Dense Captioning — новый подход к генерации непрерывных, детализированных и структурированных аудиовизуальных описаний с явными временными метками. Для обеспечения плотного семантического охвата мы вводим шестимерную структурную схему для создания «сценарных» описаний, позволяющих читателю живо представить содержание видео сцена за сценой, подобно кинематографическому сценарию. Для стимулирования исследований мы создали OmniDCBench — качественный, размеченный человеком бенчмарк, и предложили SodaM — унифицированную метрику, которая оценивает детализированные описания с учётом времени, одновременно смягчая неоднозначность границ сцен. Кроме того, мы собрали обучающий набор данных TimeChatCap-42K и представили TimeChat-Captioner-7B — сильную базовую модель, обученную с помощью SFT и GRPO со специализированными вознаграждениями для задачи. Многочисленные эксперименты демонстрируют, что TimeChat-Captioner-7B достигает наилучших результатов, превосходя Gemini-2.5-Pro, а её детализированные описания значительно улучшают возможности решения смежных задач: аудиовизуального reasoning (DailyOmni и WorldSense) и временной локализации (Charades-STA). Все наборы данных, модели и код будут общедоступны по адресу https://github.com/yaolinli/TimeChat-Captioner.
Односторонние декодерные большие языковые модели все чаще используются в качестве поведенческих энкодеров для обучения представлений пользователей, однако влияние маскирования внимания на качество пользовательских эмбеддингов остается малоизученным. В данной работе мы проводим систематическое исследование каузальных, гибридных и двунаправленных масок внимания в рамках единой контрастной архитектуры, обученной на крупномасштабных реальных данных Alipay, интегрирующих долгосрочные гетерогенные поведенческие паттерны пользователей. Для улучшения динамики обучения при переходе от каузального к двунаправленному вниманию мы предлагаем метод градиентно-управляемого мягкого маскирования — градиентную предразминку, применяемую перед линейным планировщиком, который постепенно открывает будущее внимание в процессе оптимизации. Оценка на 9 промышленных бенчмарках пользовательского восприятия, охватывающих задачи прогнозирования, предпочтений и маркетинговой чувствительности, демонстрирует, что наш подход обеспечивает более стабильное обучение и двунаправленные представления более высокого качества по сравнению с каузальными, гибридными базовыми методами и методами только с планировщиком, сохраняя совместимость с предобучением декодера. В целом, наши результаты подчеркивают важность проектирования маскирования и плавного перехода обучения при адаптации односторонних декодерных LLM для эффективного обучения пользовательских представлений. Наш код доступен по адресу https://github.com/JhCircle/Deepfind-GGSM.
В то время как большие языковые модели (LLM) недавно продемонстрировали потенциал в области автоматизированного проектирования эвристик (AHD), существующие подходы обычно формулируют AHD вокруг конструктивных правил приоритетов или параметризованного руководства локальным поиском, тем самым ограничивая пространство поиска фиксированными формами эвристик. Подобные конструкции обладают ограниченной способностью к структурному исследованию, что затрудняет выход из глубоких локальных оптимумов в сложных задачах комбинаторной оптимизации (КОП). В данной работе мы предлагаем G-LNS, генеративно-эволюционный фреймворк, который расширяет AHD на основе LLM до автоматизированного проектирования операторов поиска в большом окружении (LNS). В отличие от предыдущих методов, которые эволюционируют эвристики изолированно, G-LNS использует LLM для совместной эволюции тесно связанных пар операторов разрушения и восстановления. Механизм кооперативной оценки явно фиксирует их взаимодействие, позволяя обнаруживать взаимодополняющую логику операторов, которая совместно выполняет эффективное структурное нарушение и реконструкцию. Многочисленные эксперименты на сложных benchmarks КОП, таких как задача коммивояжера (TSP) и задача маршрутизации транспортных средств с ограниченной грузоподъемностью (CVRP), демонстрируют, что G-LNS значительно превосходит методы AHD на основе LLM, а также сильные классические решатели. Обнаруженные эвристики не только достигают почти оптимальных решений при сокращенных вычислительных бюджетах, но и демонстрируют robustную генерализацию для разнообразных и ранее не встречавшихся распределений экземпляров задач.
Агенты на основе больших языковых моделей (LLM) все шире применяются в программной индустрии, участвуя в написании кода в качестве коллабораторов или даже автономных разработчиков. По мере роста их распространения становится важным оценить текущие границы их способностей к программированию. Однако существующие бенчмарки для оценки агентского кодирования охватывают ограниченный спектр задач, например, исправление ошибок в рамках одного пул-реквеста (PR), и часто полагаются на неисполняемые методы оценки или не имеют автоматизированного подхода для постоянного обновления охвата тестирования. Для решения этих проблем мы предлагаем FeatureBench — бенчмарк, предназначенный для оценки производительности агентского кодирования в сквозной, ориентированной на функции разработке программного обеспечения. FeatureBench включает протокол оценки на основе исполнения и масштабируемый тест-ориентированный метод, который автоматически извлекает задачи из репозиториев кода с минимальными усилиями со стороны человека. Путем трассировки от модульных тестов вдоль графа зависимостей наш подход позволяет выявлять задачи кодирования на уровне функций, охватывающие несколько коммитов и PR, разбросанных по временной шкале разработки, при этом гарантируя корректную работу других функций после их выделения. Используя этот фреймворк, мы отобрали 200 сложных оценочных задач и 3825 исполняемых окружений из 24 репозиториев с открытым исходным кодом для первой версии нашего бенчмарка. Эмпирическая оценка показывает, что современные агентские модели, такие как Claude 4.5 Opus, которые демонстрируют уровень разрешения задач 74.4% на SWE-bench, справляются лишь с 11.0% задач в нашем бенчмарке, открывая новые возможности для совершенствования агентского кодирования. Более того, благодаря нашему автоматизированному инструментарию для сбора задач, FeatureBench можно легко масштабировать и обновлять со временем для снижения риска утечки данных. Присущая построенным окружениям верифицируемость также делает наш метод потенциально ценным для обучения агентов.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало эффективным подходом для расширения логических возможностей больших языковых моделей (LLM). Несмотря на свою эффективность, RLVR сталкивается с проблемой мета-обучения: в нём отсутствуют механизмы атрибуции ошибок и интернализации опыта, присущие человеческому циклу обучения помимо практики и проверки, что ограничивает точное распределение заслуг и формирование переиспользуемых знаний. Мы обозначаем такие переиспользуемые репрезентации знаний, извлечённые из прошлых ошибок, как мета-опыт. Основываясь на этом наблюдении, мы предлагаем обучение на мета-опыте (MEL) — новую структуру, которая инкорпорирует само-дистиллированный мета-опыт в параметрическую память модели. Развивая стандартный RLVR, мы вводим дополнительный механизм, который использует способность LLM к самопроверке для проведения контрастного анализа парных корректных и ошибочных траекторий, выявления точек бифуркации, в которых возникают логические ошибки, и их обобщения в виде универсального мета-опыта. Мета-опыт далее интернализируется в параметрическую память LLM путём минимизации отрицательного логарифмического правдоподобия, что создаёт сигнал вознаграждения, смоделированный языковой моделью, который связывает корректные и ошибочные логические траектории и способствует эффективному повторному использованию знаний. Результаты экспериментов демонстрируют, что MEL обеспечивает стабильное улучшение на бенчмарках, давая прирост Pass@1 в 3,92%–4,73% для моделей разного размера.
В современных условиях развития больших языковых моделей (LLM) ключевым фактором повышения их производительности является формирование масштабных высококачественных обучающих данных. Важнейшую роль играет рецепт данных — конвейер обработки, преобразующий исходные сырые данные в обучающие корпуса. Несмотря на растущее использование LLM для автоматизации отдельных этапов обработки данных, таких как синтез и фильтрация, общее проектирование рецептов данных остается в значительной степени ручным и трудоемким процессом, требующим существенных человеческих экспертных знаний и итераций. Для преодоления этого разрыва мы формулируем задачу сквозной генерации рецептов данных для адаптации LLM. При заданном целевом бенчмарке и пуле доступных источников данных модель должна формировать полный рецепт данных, адаптирующий базовую LLM к целевой задаче. Мы представляем DataChef-32B, который выполняет онлайн-обучение с подкреплением, используя суррогатную функцию вознаграждения, предсказывающую итоговую производительность кандидатных рецептов. На шести тестовых задачах DataChef-32B генерирует практичные рецепты, достигающие сопоставимой с экспертно подобранными рецептами итоговой производительности. Примечательно, что рецепт от DataChef-32B адаптирует Qwen3-1.7B-Base к математической области, достигая 66.7 баллов на AIME'25 и превосходя Qwen3-1.7B. Данная работа открывает новые перспективы для автоматизации обучения LLM и разработки саморазвивающихся систем искусственного интеллекта.
Мы представляем ROCKET — метод сжатия моделей, не требующий дообучения, который демонстрирует наилучшую производительность по сравнению с базовыми методами факторизации, структурированного разрежения и динамического сжатия. Работая в рамках глобального бюджета сжатия, ROCKET включает две ключевые инновации. Во-первых, он формулирует распределение степени сжатия по слоям как задачу о рюкзаке с множественным выбором, выбирая оптимальный уровень сжатия для каждого слоя, чтобы минимизировать общую ошибку реконструкции при соблюдении целевого размера модели. Во-вторых, он вводит одношаговую факторизацию разреженной матрицы, вдохновлённую обучением словаря: используя лишь небольшой калибровочный набор, метод разрежает весовые коэффициенты на основе чувствительности активаций и весов, а затем обновляет словарь в замкнутой форме через метод наименьших квадратов, полностью обходя итеративную оптимизацию, разрежённое кодирование или обратное распространение ошибки. ROCKET стабильно превосходит существующие подходы к сжатию для различных архитектур моделей при уровнях сжатия 20–50%. Примечательно, что он сохраняет свыше 90% производительности исходной модели при 30%-ном сжатии без какого-либо дообучения. Более того, при применении лёгкой фазы дообучения восстановление существенно улучшается: например, сжатие Qwen3-14B до модели с 8 миллиардами параметров и её "исцеление" всего на 30 миллионах токенов даёт результат, почти эквивалентный исходной Qwen3-8B. Код ROCKET доступен по адресу github.com/mts-ai/ROCKET/tree/main.
Подкрепляемое обучение для больших языковых моделей страдает от высокодисперсных коэффициентов важности на уровне токенов, что дестабилизирует оптимизацию политики в крупных масштабах. Для повышения стабильности современные методы обычно используют фиксированный коэффициент важности на уровне последовательности для всех токенов или индивидуально корректируют коэффициент для каждого токена, игнорируя временное внеполитическое отклонение между токенами в последовательности. В данной работе мы сначала эмпирически показываем, что локальное внеполитическое отклонение структурно не согласовано на уровне токенов, что может искажать обновления политики через градиенты для смежных токенов и приводить к коллапсу обучения. Для решения этой проблемы мы предлагаем метод онлайн-каузальной фильтрации Калмана для стабильной и эффективной оптимизации политики. Конкретно, мы моделируем желаемый коэффициент важности как скрытое состояние, эволюционирующее между токенами, и применяем фильтр Калмана для онлайн-обновления этого состояния авторегрессивно на основе состояний предыдущих токенов, независимо от будущих токенов. Полученные отфильтрованные коэффициенты важности сохраняют вариативность с учетом локальной структуры на уровне токенов, одновременно эффективно сглаживая шумовые выбросы, что обеспечивает более стабильные и эффективные обновления политики. Экспериментально метод KPO демонстрирует превосходные результаты на сложных наборах данных по математическим рассуждениям по сравнению с передовыми аналогами.
Петлевые транссформеры стали эффективным и мощным классом моделей для решения задач рассуждений в языковой области. Недавние исследования показывают, что эти модели демонстрируют высокую производительность на алгоритмических задачах и задачах логического вывода, что свидетельствует о наличии у петлевых архитектур индуктивного смещения в сторону латентных рассуждений. Однако в предыдущих подходах количество итераций цикла фиксировалось как на этапе обучения, так и на этапе вывода, оставляя открытым вопрос о том, способны ли такие модели гибко адаптировать свою вычислительную глубину при различных бюджетных ограничениях. Мы представляем LoopFormer — петлевой трансформер, обученный на траекториях переменной длины для обеспечения рассуждений с учетом бюджета. Нашим ключевым вкладом является схема обучения с согласованностью коротких путей, которая выравнивает траектории разной длины, гарантируя, что короткие циклы дают информативные представления, а более длинные продолжают их уточнять. LoopFormer обусловливает каждый цикл текущим временем и размером шага, позволяя представлениям эволюционировать согласованно на траекториях различной длины, а не дрейфовать или стагнировать. Экспериментально LoopFormer демонстрирует устойчивую производительность на тестах языкового моделирования и логического вывода даже при агрессивных вычислительных ограничениях, при этом плавно масштабируясь с увеличением бюджета. Эти результаты показывают, что петлевые трансформеры изначально подходят для адаптивного языкового моделирования, открывая путь к созданию управляемых и бюджетно-ориентированных больших языковых моделей.
Несмотря на быстрый прогресс в создании кодирующих агентов, развитие их мультимодальных аналогов заметно отстает. Ключевой проблемой является нехватка оценочных тестовых сред, которые сочетают сложность разработки программного обеспечения с необходимостью глубокого мультимодального понимания. Разработка игр предоставляет такую среду, поскольку агенты должны ориентироваться в больших, сложных кодобазах, одновременно управляя внутренне мультимодальными ресурсами, такими как шейдеры, спрайты и анимация, в рамках визуальной игровой сцены. Мы представляем GameDevBench — первый бенчмарк для оценки агентов на задачах игровой разработки. GameDevBench состоит из 132 задач, взятых из веб- и видео-туториалов. Задачи требуют значительного мультимодального понимания и являются сложными — среднее решение требует более чем в три раза больше строк кода и изменений файлов по сравнению с предыдущими бенчмарками по разработке ПО. Агенты по-прежнему испытывают трудности с игровой разработкой: лучший агент решает только 54,5% задач. Мы обнаружили сильную корреляцию между воспринимаемой сложностью задачи и мультимодальной сложностью: уровень успеха падает с 46,9% для задач, ориентированных на геймплей, до 31,6% для задач по 2D-графике. Для улучшения мультимодальных возможностей мы представляем два простых механизма обратной связи для агентов на основе изображений и видео. Несмотря на свою простоту, эти методы стабильно улучшают производительность, причем наибольшее изменение — рост производительности Claude Sonnet 4.5 с 33,3% до 47,7%. Мы публикуем GameDevBench в открытом доступе для поддержки дальнейших исследований в области агентной разработки игр.
Контролируемое тонкое настройка (SFT) на данных, содержащих цепочку рассуждений, является важным этапом пост-обучения для языковых моделей, ориентированных на логический вывод. Стандартная интуиция машинного обучения предполагает, что обучение с большим количеством уникальных примеров дает лучшее обобщение. Однако, вопреки ожиданиям, мы показываем, что SFT выигрывает от повторения: при фиксированном бюджете обновлений обучение в течение большего количества эпох на меньших наборах данных превосходит обучение в одну эпоху на больших наборах данных. На бенчмарках AIME'24/25 и GPQA модель Olmo3-7B, обученная в течение 128 эпох на 400 примерах, превосходит эквивалентную модель, обученную в 1 эпоху на 51200 примерах, на 12–26 процентных пунктов, без дополнительного катастрофического забывания. Мы обнаружили, что точность предсказания токенов во время обучения надежно сигнализирует о насыщении от повторения: улучшения от дополнительных эпох выходят на плато при полном запоминании, и эта закономерность сохраняется во всех условиях. Эти результаты предлагают практический подход к SFT для рассуждений, когда масштабирование количества эпох с использованием точности токенов в качестве критерия остановки может заменить дорогостоящее ненаправленное масштабирование данных. Мы формулируем преимущество повторения, при котором полное запоминание совпадает с улучшением обобщения, как новую открытую проблему для сообщества в понимании динамики обучения больших языковых моделей.
Метод Group Relative Policy Optimization (GRPO) присваивает всем токенам в завершённом тексте единую скалярную advantage-функцию. Для структурированных генераций с явными сегментами и задачами это приводит к смешению несвязанных сигналов вознаграждения между сегментами, что вызывает интерференцию целей и ошибочное распределение заслуг. Мы предлагаем блочную оценку преимуществ — семейство методов, совместимых с GRPO, которое назначает каждой задаче собственную advantage-функцию и применяет её только к токенам соответствующего текстового блока, снижая зависимость от ручного проектирования скалярных вознаграждений и естественным образом масштабируясь на дополнительные цели. Ключевая сложность заключается в оценке преимуществ для последующих блоков, чьи вознаграждения зависят от сгенерированных префиксов: стандартные несмещённые подходы требуют дорогостоящих вложенных прогонов из промежуточных состояний. Конкретно мы вводим базовый уровень, обусловленный исходом, который аппроксимирует значения промежуточных состояний, используя только внутригрупповую статистику путём стратификации выборок согласно промежуточному исходу, выведенному из префикса. На математических задачах с оценкой неопределённости наш метод смягчает интерференцию вознаграждений, конкурирует с современным подходом, основанным на проектировании вознаграждений, и сохраняет преимущества ансамблевого взвешивания по уверенности на тестовых данных. В более широком смысле метод предлагает модульный рецепт для оптимизации последовательных целей в структурированных генерациях без дополнительных прогонов.
В мире Гарри Поттера, когда разум Дамблдора перегружен, он извлекает воспоминания в Омут Памяти, чтобы вернуться к ним позже. В мире ИИ, хотя у нас и есть аналог Омута Памяти — зрелые базы данных и системы поиска, — наши модели, по необъяснимой причине, лишены «волшебной палочки» для управления им. Они остаются подобно Дамблдору, лишенному возможности действовать, пассивно принимая вручную сконструированный контекст в качестве всей своей памяти. Данная работа наконец вручает эту палочку модели. Мы представляем StateLM — новый класс базовых моделей, наделенных внутренним циклом рассуждений для управления собственным состоянием. Мы оснащаем нашу модель набором инструментов памяти, таких как обрезка контекста, индексация документов и ведение записей, и обучаем ее активно управлять этими инструментами. Научившись динамически формировать собственный контекст, наша модель вырывается из архитектурной тюрьмы фиксированного окна. Эксперименты с моделями разного размера демонстрируют эффективность StateLM в различных сценариях. В задачах вопросно-ответных систем для длинных документов StateLM стабильно превосходят стандартные большие языковые модели на всех масштабах; в задаче чата с памятью они достигают абсолютного улучшения точности на 10–20% по сравнению со стандартными LLM. В задаче углубленного исследования BrowseComp-Plus разрыв в производительности становится еще более выраженным: StateLM достигает точности до 52%, в то время как стандартные LLM показывают результат около 5%. В конечном счете, наш подход превращает LLM из пассивных предсказателей в агентов, осознающих состояние, где рассуждение становится управляемым процессом, зависящим от этого состояния.
Развертывание больших языковых моделей (LLM) в клинической практике с высокими рисками требует строгой и надежной оценки. Однако существующие медицинские бенчмарки остаются статичными и страдают от двух ключевых ограничений: (1) *загрязнения данных*, когда тестовые наборы непреднамеренно попадают в обучающие корпуса, что приводит к завышенным оценкам производительности; и (2) *временного несоответствия*, не позволяющего отразить быстрое развитие медицинских знаний. Кроме того, текущие метрики оценки для открытого клинического мышления часто опираются либо на поверхностное лексическое совпадение (например, ROUGE), либо на субъективное оценивание с помощью LLM-as-a-Judge, что неприемлемо для проверки клинической корректности. Для преодоления этих пробелов мы представляем LiveMedBench — постоянно обновляемый, свободный от загрязнения и основанный на рубриках бенчмарк, который еженедельно собирает реальные клинические случаи из онлайн-медицинских сообществ, обеспечивая строгое временное разделение с данными для обучения моделей. Мы предлагаем *Мульти-агентную систему клинической курации*, которая фильтрует шум в исходных данных и проверяет клиническую достоверность на основе принципов доказательной медицины. Для оценки мы разработали *Автоматизированную систему оценки на основе рубрик*, которая декомпозирует ответы врачей на детальные, специфичные для случая критерии, демонстрируя значительно более сильное соответствие с экспертными оценками врачей по сравнению с методом LLM-as-a-Judge. На сегодняшний день LiveMedBench включает 2 756 реальных случаев, охватывающих 38 медицинских специальностей и несколько языков, в паре с 16 702 уникальными оценочными критериями. Массовая оценка 38 LLM показала, что даже лучшая модель достигает показателя лишь в 39,2%, а 84% моделей демонстрируют снижение производительности на случаях после установленной точки отсечения, что подтверждает повсеместные риски загрязнения данных. Анализ ошибок дополнительно выявляет, что *контекстуальное применение* знаний, а не их фактологическая составляющая, является основным узким местом: от 35% до 48% ошибок происходят из-за неспособности адаптировать медицинские знания к специфическим ограничениям пациента.
Обучение с подкреплением (ОП) является критически важным этапом посттренировочной доработки больших языковых моделей (LLM), включающим повторяющееся взаимодействие между генерацией rollout-ов, оценкой вознаграждения и централизованным обучением. Распределенное выполнение rollout-ов предоставляет возможности для использования более экономичных ресурсов вывода, но создает проблемы в области координации в глобальной сети и распространения политик. Мы представляем ECHO-2, распределенную структуру ОП для посттренировочной доработки с удаленными работниками вывода и ненулевой задержкой распространения. ECHO-2 сочетает централизованное обучение с распределенными rollout-ами и рассматривает ограниченную устареваемость политики как управляемый пользователем параметр, позволяя совмещать во времени генерацию rollout-ов, их распространение и обучение. Мы вводим модель пропускной способности на основе совмещения, которая связывает время обучения, задержку распространения и пропускную способность rollout-ов, предлагая практическое правило планирования ресурсов для поддержания загрузки обучающего модуля. Для смягчения узких мест распространения и снижения затрат ECHO-2 использует одноранговую конвейерную широковещательную рассылку и рентабельную активацию гетерогенных работников. Эксперименты по посттренировочной доработке моделей на 4 и 8 миллиардов параметров с помощью GRPO в условиях реальных режимов пропускной способности глобальной сети показывают, что ECHO-2 значительно повышает рентабельность, сохраняя при этом показатель вознаграждения ОП, сопоставимый с сильными базовыми уровнями.
Крупные языковые модели (LLMs), способные к непрерывному совершенствованию за пределами своих обучающих бюджетов, могут решать все более сложные задачи благодаря адаптации во время тестирования — свойству, которое мы называем экстраполяцией. Однако стандартное обучение с подкреплением (RL) оперирует фиксированными распределениями задач и обучающими бюджетами, что ограничивает экстраполяцию при наличии сдвига распределения во время тестирования. Чтобы решить эту проблему, мы представляем RC — итеративный алгоритм декодирования, который заменяет стандартное авторегрессивное декодирование как на этапе обучения, так и на этапе вывода. RC использует асимметрию между способностями LLM к генерации ответов и суммаризации для построения цепочек рассуждений, которые последовательно улучшаются от итерации к итерации. Модели, обученные использованию RC, способны к экстраполяции и непрерывному улучшению на горизонтах рассуждений, более чем на порядок превышающих те, что наблюдались во время обучения. Эмпирически, обучение модели объемом 4B параметров с использованием RC при обучающем бюджете в 16 тыс. токенов повышает результат на задачах HMMT 2025 с 40% до почти 70% при использовании 0,5 млн токенов во время тестирования, превосходя как модели сопоставимого размера, так и многие более крупные LLM, ориентированные на рассуждения. Наконец, мы также показываем, что модели, обученные с RC, могут эффективнее использовать существующие каркасы (scaffolds) для дальнейшего масштабирования производительности во время тестирования благодаря улучшенным способностям к генерации, обусловленной суммаризацией, которые приобретаются в процессе обучения.
Омнимодальные большие языковые модели (ОБЯМ) стремятся унифицировать многомодальное понимание и генерацию, однако интеграция речи с 3D-лицевой анимацией остаётся в значительной степени неисследованной, несмотря на её важность для естественного взаимодействия. Ключевая проблема возникает из-за несоответствия представлений между дискретным, токенизированным семантическим анализом в БЯМ и плотной, детализированной временной динамикой, необходимой для 3D-лицевой анимации, что затрудняет прямую оптимизацию модели при ограниченных данных. Мы предлагаем Expressive Omni (Ex-Omni), фреймворк с открытым исходным кодом, который расширяет ОБЯМ возможностью генерации 3D-лицевой анимации, синхронизированной с речью. Ex-Omni снижает сложность обучения за счёт разделения семантического анализа и временной генерации, используя речевые единицы в качестве временного каркаса и унифицированный механизм управляемого слияния с токеном-запросом (TQGF) для контролируемой семантической инжекции. Мы также представляем InstructEx, набор данных, предназначенный для облегчения расширения ОБЯМ возможностями синхронизированной с речью 3D-лицевой анимации. Многочисленные эксперименты демонстрируют, что Ex-Omni показывает конкурентоспособные результаты по сравнению с существующими открытыми ОБЯМ, обеспечивая при этом стабильную генерацию согласованных речевых и лицевых анимаций.
Долгосрочное планирование широко признано ключевой способностью автономных агентов на основе больших языковых моделей (LLM); однако существующие системы оценки страдают от эпизодичности, узкой предметной ориентации или недостаточной укоренённости в устойчивых экономических динамиках. Мы представляем EcoGym — универсальный бенчмарк для непрерывного принятия решений по принципу «планируй-и-выполняй» в интерактивных экономиках. EcoGym включает три разнородные среды: Vending (Торговые автоматы), Freelance (Фриланс) и Operation (Производство), реализованные в рамках единого процесса принятия решений со стандартизированными интерфейсами и бюджетными действиями в практически неограниченном горизонте (1000+ шагов при оценке в 365-дневных циклах). Оценка в EcoGym основана на бизнес-релевантных результатах (например, чистая стоимость, доход и DAU), нацеленных на долгосрочную стратегическую согласованность и устойчивость в условиях частичной наблюдаемости и стохастичности. Эксперименты с одиннадцатью ведущими LLM выявили системное противоречие: ни одна модель не доминирует во всех трёх сценариях. Критически важно, что модели демонстрируют значительную субоптимальность либо в высокоуровневых стратегиях, либо в эффективном выполнении действий. EcoGym выпускается как открытая, расширяемая платформа для прозрачной оценки долгосрочных агентов и изучения компромиссов между управляемостью и полезностью в реалистичных экономических условиях.
Агентное программирование требует от агентов эффективного взаимодействия со средами выполнения, такими как интерфейсы командной строки (CLI), для решения задач, включая устранение проблем с зависимостями, исправление системных сбоев и т.д. Однако вопрос масштабируемого получения таких средозависимых задач для повышения возможностей агентов остается малоизученным. Для решения этой проблемы, проводя аналогию между Dockerfile и агентной задачей, мы предлагаем использовать агентов для моделирования и исследования истории сред на основе обратной связи от выполнения. Путем отслеживания истории стабильной среды ее состояние можно инвертировать до более раннего с ошибками выполнения, на основе которого формируется задача путем упаковки проблемного состояния и соответствующих сообщений об ошибках. С помощью нашего метода CLI-Gym получено 1655 средозависимых задач, что представляет собой крупнейшую коллекцию такого рода. Кроме того, с использованием курируемых успешных траекторий наша дообученная модель LiberCoder демонстрирует значительное абсолютное улучшение на +21,1% (до 46,1%) на Terminal-Bench, превосходя различные сильные базовые модели. Насколько нам известно, это первый публичный конвейер для масштабируемого получения средозависимых задач.
Анимированные 3D-ассеты являются основой для 3D-деформации и анимации. Однако существующие методы генерации 3D сталкиваются с трудностями в создании анимируемой геометрии, в то время как техники риггинга не обеспечивают детального структурного контроля над созданием скелета. Чтобы устранить эти ограничения, мы представляем Stroke3D — новый фреймворк, который напрямую генерирует ригнутые меши из пользовательских входных данных: 2D-набросков и текстового описания. Наш подход реализует двухэтапный конвейер, разделяющий генерацию на: 1) *Управляемую генерацию скелета*: мы используем Skeletal Graph VAE (Sk-VAE) для кодирования графовой структуры скелета в латентное пространство, где Skeletal Graph DiT (Sk-DiT) генерирует латентное представление скелета. Процесс генерации обусловлен как текстом (для семантики), так и 2D-штрихами (для явного структурного контроля), а декодер VAE восстанавливает итоговый высококачественный 3D-скелет; и 2) *Улучшенный синтез меша с помощью TextuRig и SKA-DPO*: затем мы синтезируем текстурированный меш, обусловленный сгенерированным скелетом. На этом этапе мы сначала улучшаем существующую модель "скелет-в-меш", расширяя её обучающие данные с помощью TextuRig — набора данных текстурированных и ригнутых мешей с описаниями, созданного на основе Objaverse-XL. Дополнительно мы применяем стратегию оптимизации предпочтений SKA-DPO, направляемую оценкой соответствия скелета и меша, для дальнейшего повышения геометрической точности. В совокупности наш фреймворк обеспечивает более интуитивный рабочий процесс для создания готовой к анимации 3D-графики. Насколько нам известно, наша работа является первой, которая генерирует ригнутые 3D-меши на основе пользовательских 2D-набросков. Многочисленные эксперименты демонстрируют, что Stroke3D производит правдоподобные скелеты и высококачественные меши.
По мере расширения внедрения больших языковых моделей (LLM) в приложениях на польском языке потребность в эффективных и точных классификаторах безопасности контента стала первостепенной. Мы представляем Bielik Guard — семейство компактных классификаторов безопасности для польского языка, состоящее из двух вариантов моделей: модели с 0.1 млрд параметров на основе MMLW-RoBERTa-base и модели с 0.5 млрд параметров на основе PKOBP/polish-roberta-8k. Обученные с дообучением на размеченном сообществом наборе данных из 6885 польских текстов, эти модели классифицируют контент по пяти категориям безопасности: Ненависть/Агрессия, Вульгарности, Сексуальный контент, Преступность и Самоповреждение. Наша оценка показывает, что обе модели демонстрируют высокую производительность в нескольких тестах. Вариант на 0.5 млрд параметров предлагает наилучшую общую дискриминационную способность с F1-мерами 0.791 (микро) и 0.785 (макро) на тестовом наборе, в то время как вариант на 0.1 млрд параметров демонстрирует исключительную эффективность. Примечательно, что Bielik Guard 0.1B v1.1 достигает превосходной точности (77.65%) и очень низкого уровня ложных срабатываний (0.63%) на реальных пользовательских запросах, превосходя HerBERT-PL-Guard (точность 31.55%, FPR 4.70%) несмотря на идентичный размер модели. Модели находятся в открытом доступе и предназначены для предоставления соответствующих ответов, а не простой блокировки контента, особенно для чувствительных категорий, таких как самоповреждение.
Обработка запросов (OZ) связывает пользовательский интент с контентным предложением в крупномасштабных поисковых системах социальных сетей (SNS). Традиционные системы OZ используют конвейеры изолированных дискриминативных моделей (например, BERT), страдая от ограниченного семантического понимания и высоких эксплуатационных затрат. Хотя большие языковые модели (LLM) предлагают потенциальное решение, существующие подходы часто оптимизируют подзадачи изолированно, игнорируя внутреннюю семантическую синергию и требуя независимых итераций. Более того, стандартные генеративные методы часто лишены заземления в сценариях SNS, не способствуя преодолению разрыва между открыто-доменными корпусами и неформальными языковыми паттернами SNS, а также испытывая трудности с соблюдением строгих бизнес-определений. Мы представляем QP-OneModel — унифицированную генеративную LLM для многозадачного понимания запросов в домене SNS. Мы переформулируем гетерогенные подзадачи в унифицированную парадигму генерации последовательностей, применяя прогрессивную трехэтапную стратегию выравнивания, завершающуюся обучением с подкреплением с множественными вознаграждениями. Кроме того, QP-OneModel генерирует описания интентов как новую высокоточную семантическую сигнатуру, эффективно обогащая последующие задачи, такие как переформулирование запросов и ранжирование. Оффлайн-оценки показывают, что QP-OneModel достигает общего прироста в 7,35% по сравнению с дискриминативными базовыми моделями, со значительным увеличением F1 для NER (+9,01%) и взвешивания терминов (+9,31%). Модель также демонстрирует превосходную способность к обобщению, превосходя модель объемом 32B на 7,60% по точности на непредвиденных задачах. После полного внедрения в Xiaohongshu онлайн A/B-тесты подтвердили ее промышленную ценность, оптимизировав релевантность поиска (DCG) на 0,21% и повысив удержание пользователей на 0,044%.
Последние достижения в области больших моделей редактирования изображений сместили парадигму от текстовых инструкций к редактированию с помощью визуальных подсказок, когда намерение пользователя определяется непосредственно из визуальных входных данных, таких как пометки, стрелки и визуально-текстовые промпты. Хотя эта парадигма значительно расширяет удобство использования, она также вводит критический и недостаточно изученный риск безопасности: сама поверхность атаки становится визуальной. В данной работе мы предлагаем Vision-Centric Jailbreak Attack (VJA) — первую визуально-визуальную атаку взлома, которая передает вредоносные инструкции исключительно через визуальные входные данные. Для систематического изучения этой новой угрозы мы представляем IESBench, ориентированный на безопасность бенчмарк для моделей редактирования изображений. Многочисленные эксперименты на IESBench демонстрируют, что VJA эффективно компрометирует передовые коммерческие модели, достигая успеха атаки до 80,9% на Nano Banana Pro и 70,1% на GPT-Image-1.5. Для снижения этой уязвимости мы предлагаем беспоисковую защиту на основе интроспективных мультимодальных рассуждений, которая существенно повышает безопасность плохо выровненных моделей до уровня, сопоставимого с коммерческими системами, без вспомогательных моделей-защитников и с пренебрежимо малыми вычислительными затратами. Наши результаты выявляют новые уязвимости, предоставляя как бенчмарк, так и практическую защиту для развития безопасных и надежных современных систем редактирования изображений. Внимание: данная статья содержит оскорбительные изображения, созданные большими моделями редактирования изображений.
Графы знаний (ГЗ) хранят структурированные фактические знания, связывая сущности через отношения, что критически важно для многих приложений. Эти приложения зависят от фактической точности ГЗ, поэтому верификация фактов является важной, но сложной задачей. Экспертная ручная проверка идеальна, но непрактична в крупных масштабах. Автоматизированные методы показывают потенциал, но не готовы для работы с реальными ГЗ. Большие языковые модели (БЯМ) предлагают возможности благодаря своему семантическому пониманию и доступу к знаниям, однако их пригодность и эффективность для проверки фактов в ГЗ остаются в значительной степени неисследованными. В данной статье мы представляем FactCheck — эталонный набор данных, разработанный для оценки БЯМ в задаче проверки фактов ГЗ по трем ключевым направлениям: (1) внутренние знания БЯМ; (2) использование внешних доказательств посредством Retrieval-Augmented Generation (RAG); и (3) агрегирование знаний с применением стратегии консенсуса нескольких моделей. Мы оценили открытые и коммерческие БЯМ на трех разнородных реальных ГЗ. FactCheck также включает набор данных для RAG, содержащий более 2 миллионов документов, адаптированных для проверки фактов ГЗ. Дополнительно мы предлагаем интерактивную платформу для анализа решений верификации. Экспериментальный анализ демонстрирует, что хотя БЯМ показывают обнадеживающие результаты, они все еще недостаточно стабильны и надежны для использования в реальных сценариях валидации ГЗ. Интеграция внешних доказательств с помощью методов RAG дает нестабильные результаты, обеспечивая непоследовательное улучшение по сравнению с более простыми подходами — при более высоких вычислительных затратах. Аналогично, стратегии, основанные на консенсусе нескольких моделей, не всегда превосходят одиночные модели, что подчеркивает отсутствие универсального решения. Эти выводы дополнительно подчеркивают необходимость эталона, такого как FactCheck, для систематической оценки и стимулирования прогресса в этой сложной, но crucialной задаче.
В то время как явный метод цепочки рассуждений (Chain-of-Thought, CoT) наделяет большие языковые модели (LLM) мощными способностями к логическому выводу, он требует от моделей вербализации каждого промежуточного шага в виде текстовых токенов, что ограничивает ход мыслей модели дискретным пространством словаря. В последнее время рассуждения в непрерывном латентном пространстве стали перспективной альтернативой, обеспечивая более устойчивый вывод и гибкие вычисления без ограничений дискретных токенов. Однако современные латентные парадигмы часто страдают от коллапса признаков и нестабильности, вызванных несоответствием распределений при рекуррентном использовании скрытых состояний в качестве входных эмбеддингов, или проблемами выравнивания при зависимости от моделей-ассистентов. Для решения этой проблемы мы предлагаем Latent Thoughts Tuning (LT-Tuning) — фреймворк, который переопределяет способ построения и использования латентных мыслей. Вместо того чтобы полагаться исключительно на сырые скрытые состояния, наш метод вводит механизм Context-Prediction-Fusion, который совместно использует контекстуальные скрытые состояния и прогнозную семантическую ориентацию из пространства эмбеддингов словаря. В сочетании с прогрессивным трехэтапным конвейером обучения по учебному плану (curriculum learning) LT-Tuning также позволяет динамически переключаться между латентным и явным режимами мышления. Эксперименты показывают, что наш метод превосходит существующие базовые подходы к латентным рассуждениям, эффективно mitigating коллапс признаков и достигая устойчивой точности логического вывода.
Недавно представленное обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) укрепило способность больших языковых моделей к рассуждению, однако его фокус на корректности конечного ответа оставляет критический пробел: оно не гарантирует устойчивости самого процесса reasoning. Мы принимаем простую философскую точку зрения: устойчивое рассуждение должно сохранять полезность за пределами создавшего его интеллекта, и рассматриваем reasoning как форму передачи смысла, которая должна выдерживать усечение, переинтерпретацию и продолжение. Основываясь на этом принципе, мы представляем обучение с подкреплением с передаваемым вознаграждением (RLTR), которое реализует концепцию устойчивости через передаваемое вознаграждение, проверяющее, может ли частичный префикс reasoning от одной модели направить другую модель к правильному ответу. Это побуждает языковые модели генерировать рассуждения, которые являются стабильными, интерпретируемыми и подлинно обобщаемыми. Наш подход улучшает согласованность сэмплирования, одновременно повышая точность конечного ответа, и достигает сопоставимой производительности за существенно меньшее количество шагов обучения. Например, на наборе MATH500 метод RLTR демонстрирует прирост в +3.6%p по метрике Maj@64 по сравнению с RLVR и достигает средней точности RLVR примерно в 2.5 раза быстрее, обеспечивая как более надежный reasoning, так и значительно более высокую эффективность по выборке.
Модели рассуждений улучшают решение задач за счет масштабирования вычислений во время тестирования, однако сталкиваются с ключевым парадоксом: чрезмерное количество "токенов мышления" часто ухудшает производительность вместо ее улучшения. Мы объясняем это фундаментальным архитектурным недостатком: стандартные большие языковые модели работают как "malloc-only" движки, непрерывно накапливая как полезные, так и избыточные шаги, без механизма для удаления устаревшей информации. Чтобы разорвать этот круг, мы предлагаем Free()LM — модель, которая вводит внутреннюю способность к само-забыванию через Free-Module, подключаемый LoRA-адаптер. Последовательно переключаясь между режимами рассуждения и очистки, Free()LM динамически идентифицирует и удаляет бесполезные фрагменты контекста, поддерживая компактное и свободное от шума состояние. Обширные эксперименты показывают, что Free()LM обеспечивает стабильное улучшение на всех масштабах моделей (от 8B до 685B). Она демонстрирует среднее улучшение на 3.3% по сравнению с лучшими базовыми моделями рассуждений, устанавливая новый рекорд (SOTA) на IMOanswerBench с использованием DeepSeek V3.2-Speciale. Особенно показательно, что в долгосрочных задачах, где стандартная модель Qwen3-235B-A22B терпит полный провал (0% точности), Free()LM восстанавливает производительность до 50%. Наши результаты свидетельствуют, что устойчивый интеллект требует свободы забывать в той же мере, что и способности мыслить.
Агенты на основе больших языковых моделей (LLM) все чаще должны автономно вести переговоры, координировать действия и совершать сделки, однако существующие бенчмарки не имеют продуманных условий для оценки языкового экономического взаимодействия между несколькими агентами. Мы представляем AgenticPay — бенчмарк и фреймворк для моделирования переговоров между множеством агентов (покупателями и продавцами), управляемых естественным языком. AgenticPay моделирует рынки, на которых покупатели и продавцы обладают приватными ограничениями и оценками, зависящими от продукта, и должны достигать соглашений посредством многораундовых языковых переговоров, а не только численных ставок. Фреймворк поддерживает разнообразный набор из более чем 110 задач — от двусторонних торгов до рынков типа «многие-ко-многим» — с структурированным извлечением действий и метриками осуществимости, эффективности и благосостояния. Тестирование передовых проприетарных и открытых LLM выявляет значительные пробелы в эффективности переговоров и подчеркивает сложности долгосрочного стратегического планирования, что утверждает AgenticPay в качестве основы для изучения агентской коммерции и языкового рыночного взаимодействия. Код и набор данных доступны по ссылке: https://github.com/SafeRL-Lab/AgenticPay.
Крупные языковые модели (LLM) в качестве код-агентов все чаще решают проблемы на уровне репозитория, итеративно редактируя код, вызывая инструменты и проверяя кандидаты в патчи. В этих рабочих процессах агенты часто пишут тесты на лету — парадигма, принятая многими высокорейтинговыми агентами в таблице лидеров SWE-bench. Однако мы наблюдаем, что GPT-5.2, который почти не пишет новых тестов, может достигать производительности, сравнимой с агентами высшего ранга. Это поднимает ключевой вопрос: действительно ли такие тесты значимо улучшают разрешение проблем или же они лишь имитируют практики человеческого тестирования, потребляя при этом существенный бюджет взаимодействий. Чтобы выявить влияние тестов, написанных агентами, мы представляем эмпирическое исследование, анализирующее траектории агентов на базе шести передовых LLM в рамках SWE-bench Verified. Наши результаты показывают, что, хотя написание тестов является распространенной практикой, решенные и нерешенные задачи в рамках одной и той же модели демонстрируют схожую частоту написания тестов. Более того, эти тесты обычно служат каналами наблюдательной обратной связи, где агенты явно предпочитают выводящие значения print-утверждения формальным проверкам на основе утверждений (assertions). Основываясь на этих наблюдениях, мы проводим контролируемый эксперимент, модифицируя прометы четырех агентов для увеличения или сокращения написания тестов. Результаты свидетельствуют о том, что изменения в объеме написанных агентами тестов не оказывают значительного влияния на конечный результат. В совокупности наше исследование показывает, что текущие практики написания тестов могут приносить лишь маргинальную пользу в задачах автономной разработки программного обеспечения.
Крупные языковые модели (LLMs) все чаще используются для генерации кода в быстрых неформальных рабочих процессах разработки, часто называемых "вейв-кодингом", где приоритет отдается скорости и удобству, а требования безопасности редко формулируются явно. В таких условиях модели часто производят функционально корректный, но небезопасный код, создавая растущий риск для безопасности. Существующие подходы к повышению безопасности кода основаны на полнопараметрической тонкой настройке или параметрически-эффективных адаптациях, которые либо дороги и склонны к катастрофическому забыванию, либо работают на грубом уровне гранулярности с ограниченной интерпретируемостью и контролем. Мы представляем GoodVibe, нейроуровневую структуру для повышения безопасности языковых моделей кода по умолчанию. GoodVibe основан на ключевом наблюдении, что рассуждения, связанные с безопасностью, локализованы в небольшом подмножестве нейронов. Мы идентифицируем эти нейроны с помощью градиентной атрибуции из контролируемой задачи безопасности и выполняем нейроно-селективную тонкую настройку, которая обновляет только это критическое для безопасности подпространство. Для дальнейшего снижения стоимости обучения мы вводим кластеризацию нейронов на основе активации, что позволяет осуществлять структурированные обновления с минимальными накладными расходами. Мы оцениваем GoodVibe на шести LLM для критичных с точки зрения безопасности языков программирования, включая C++, Java, Swift и Go. GoodVibe существенно повышает безопасность генерируемого кода, сохраняя общую полезность модели, демонстрируя до 2.5-кратного улучшения по сравнению с базовыми моделями, соответствуя или превосходя полную тонкую настройку при использовании более чем в 4700 раз меньше обучаемых параметров и сокращая вычислительные затраты на обучение более чем в 3.6 раза по сравнению с параметрически-эффективным базовым методом (LoRA). Наши результаты показывают, что нейроуровневая оптимизация предлагает эффективный и масштабируемый подход к обеспечению безопасности генерации кода без ущерба для эффективности или универсальности.
Саморазвивающаяся память служит обучаемыми параметрами для агентов на основе больших языковых моделей (LLM), где извлечение (извлечение инсайтов из опыта) и управление (обновление банка памяти) должны быть тесно скоординированы. Существующие методы в основном оптимизируют управление памятью, рассматривая извлечение памяти как статический процесс, что приводит к слабой обобщающей способности, когда агенты накапливают специфичный для конкретных примеров шум, а не устойчивые воспоминания. Чтобы решить эту проблему, мы предлагаем UMEM — фреймворк для саморазвивающихся агентов, который совместно оптимизирует большую языковую модель для одновременного извлечения и управления памятью. Для предотвращения переобучения на конкретных примерах мы вводим моделирование семантических окрестностей и оптимизируем модель с помощью вознаграждения на уровне окрестностей через GRPO. Этот подход обеспечивает обобщаемость памяти за счет оценки полезности воспоминаний в кластерах семантически связанных запросов. Многочисленные эксперименты на пяти бенчмарках показывают, что UMEM значительно превосходит высококонкурентные базовые методы, демонстрируя улучшение до 10,67% в многозадачных интерактивных сценариях. Кроме того, UMEM сохраняет монотонную кривую роста в процессе непрерывной эволюции. Код и модели будут публично доступны.
Роботы в динамичных средах, ориентированных на человека, должны выполнять языковые инструкции, сохраняя при этом реактивное управление в реальном времени. Модели "зрение-язык-действие" (VLA) предлагают перспективную основу, но они предполагают временнýю синхронизацию рассуждений и управления, несмотря на то, что семантический вывод по своей природе запаздывает относительно действий в реальном времени. Мы представляем Think-in-Control (TIC)-VLA — фреймворк, учитывающий задержки, который явно моделирует запаздывающее семантическое рассуждение в процессе генерации действий. TIC-VLA определяет интерфейс "запаздывающее семантическое управление", который обусловливает генерацию действий не только текущими наблюдениями, но и запаздывающими семантическими состояниями "зрение-язык", а также метаданными о явной задержке, что позволяет политикам компенсировать асинхронность рассуждений. Мы также предлагаем конвейер обучения, согласованный с задержками, который внедряет задержки логического вывода в процессе имитационного обучения и обучения с подкреплением онлайн, согласуя тренировку с асинхронным развертыванием. Для реалистичной оценки мы представляем DynaNav — фотореалистичный симуляционный комплекс с физически точным моделированием для навигации по языковым инструкциям в динамичных средах. Многочисленные эксперименты в симуляции и на реальном роботе показывают, что TIC-VLA стабильно превосходит предыдущие модели VLA, сохраняя при этом надежное управление в реальном времени при задержках рассуждений в несколько секунд. Сайт проекта: https://ucla-mobility.github.io/TIC-VLA/
Диффузионные модели достигли выдающегося качества генерации, однако их использование сопряжено со значительными вычислительными затратами на этапе вывода из-за зависимости от множества последовательных шагов шумоподавления, что стимулирует недавние попытки дистилляции этого процесса вывода в режим с малым числом шагов. Однако существующие методы дистилляции обычно аппроксимируют траекторию учителя с помощью линейных кратчайших путей, что затрудняет соответствие её постоянно меняющимся направлениям касательных по мере эволюции скоростей на различных временных шагах, что, в свою очередь, приводит к снижению качества. Для преодоления этого ограничения мы предлагаем ArcFlow — фреймворк дистилляции с малым числом шагов, который явно использует нелинейные траектории потока для аппроксимации предобученных траекторий учителя. Конкретно, ArcFlow параметризует поле скоростей, лежащее в основе траектории вывода, как смесь непрерывных процессов импульса. Это позволяет ArcFlow захватывать эволюцию скорости и экстраполировать согласованные скорости для формирования непрерывной нелинейной траектории в пределах каждого шага шумоподавления. Важно, что данная параметризация допускает аналитическое интегрирование этой нелинейной траектории, что позволяет обойти ошибки численной дискретизации и приводит к высокоточному приближению траектории учителя. Для обучения данной параметризации в генератор с малым числом шагов мы реализуем ArcFlow через дистилляцию траектории на предобученных моделях-учителях с использованием легковесных адаптеров. Эта стратегия обеспечивает быструю и стабильную сходимость при сохранении разнообразия и качества генерации. Построенный на крупномасштабных моделях (Qwen-Image-20B и FLUX.1-dev), ArcFlow дообучает менее 5% исходных параметров и достигает 40-кратного ускорения с 2 NFE по сравнению с исходными многошаговыми учителями без значительной потери качества. Эксперименты на бенчмарках демонстрируют эффективность ArcFlow как качественно, так и количественно.
Быстрое внедрение архитектур Mixture-of-Experts (MoE) знаменует собой значительный сдвиг в развертывании больших языковых моделей (LLM). MoE LLM повышают эффективность масштабирования за счет активации лишь небольшого подмножества параметров на токен, но их маршрутизирующая структура создает новые поверхности для атак на безопасность. Мы обнаружили, что критически важные для безопасности поведения в MoE LLM (например, отказ) сосредоточены в небольшом наборе экспертов, а не распределены равномерно. Основываясь на этом, мы предлагаем Large Language Lobotomy (L^3) — атаку, не требующую дообучения и агностичную к архитектуре, которая компрометирует безопасностную адаптацию, используя динамику маршрутизации экспертов. L^3 изучает шаблоны маршрутизации, коррелирующие с отказом, приписывает поведение безопасности конкретным экспертам и адаптивно отключает наиболее релевантных для безопасности экспертов до тех пор, пока не будут получены вредоносные выводы. Мы оцениваем L^3 на восьми современных открытых MoE LLM и показываем, что наше адаптивное отключение экспертов увеличивает средний успех атаки с 7.3% до 70.4%, достигая до 86.3%, превосходя предыдущие методы взлома MoE, не требующие дообучения. Более того, для обхода защитных механизмов обычно требуется отключить менее 20% экспертов на уровне слоя, при этом в значительной степени сохраняя общую языковую полезность. Эти результаты раскрывают фундаментальное противоречие между ориентированным на эффективность дизайном MoE и robustной безопасностной адаптацией и мотивируют более надежное распределение механизмов безопасности в будущих MoE LLM с помощью методов, учитывающих архитектуру и маршрутизацию.
Преобладающая парадигма в разработке больших языковых моделей (LLM) предполагает предварительное обучение базовой модели с последующей дообучением для улучшения производительности и поведения модели. Однако оптимизация гиперпараметров и законы масштабирования изучались преимущественно с точки зрения валидационной потери базовой модели, игнорируя адаптивность к последующим задачам. В данной работе мы исследуем предварительное обучение с точки зрения пластичности модели, то есть способности базовой модели успешно адаптироваться к последующим задачам посредством тонкой настройки. Мы сосредотачиваемся на роли decay-регуляризации (снижения весов) — ключевого параметра регуляризации во время предварительного обучения. В ходе систематических экспериментов мы показываем, что модели, обученные с большими значениями decay-регуляризации, обладают большей пластичностью, то есть демонстрируют большее улучшение производительности при тонкой настройке на последующих задачах. Это явление может приводить к контринтуитивным компромиссам, когда базовые модели с худшей производительностью после предварительного обучения могут показывать лучшие результаты после тонкой настройки. Дальнейшее исследование механистических эффектов decay-регуляризации на поведение модели показывает, что она способствует формированию линейно разделимых представлений, регулирует матрицы внимания и снижает переобучение на обучающих данных. В заключение, данная работа демонстрирует важность использования метрик оценки, выходящих за рамки перекрёстной энтропии, для оптимизации гиперпараметров, и проливает свет на многогранную роль, которую играет отдельный гиперпараметр оптимизации в формировании поведения модели.
За последний год агенты компьютерного взаимодействия (АКВ) достигли значительного прогресса, однако они по-прежнему часто генерируют несогласованные действия, отклоняющиеся от исходного намерения пользователя. Такие несогласованные действия могут возникать из-за внешних атак (например, косвенной инъекции промптов) или внутренних ограничений (например, ошибочных рассуждений). Они не только подвергают АКВ рискам безопасности, но и снижают эффективность и надежность выполнения задач. В данной работе впервые предпринята попытка определить и исследовать проблему обнаружения несогласованных действий в АКВ с комплексным охватом как внешне вызванных, так и внутренне возникающих несогласованных действий. Мы дополнительно выделяем три распространенные категории в реальном развертывании АКВ и создаем MisActBench — бенчмарк реалистичных траекторий с аннотированными человеком метками согласованности на уровне действий. Более того, мы предлагаем DeAction — практичный и универсальный защитный механизм, который обнаруживает несогласованные действия до их выполнения и итеративно исправляет их с помощью структурированной обратной связи. DeAction превосходит все существующие базовые методы в офлайн- и онлайн-оценках с умеренными задержками: (1) На MisActBench он превосходит базовые методы более чем на 15% по абсолютному показателю F1-меры; (2) При онлайн-оценке он снижает успешность атак более чем на 90% в условиях противодействия, сохраняя или даже улучшая успешность выполнения задач в доброжелательных средах.
За последнее десятилетие исследования в области объяснимого ИИ в основном были сосредоточены на интерпретации индивидуальных прогнозов моделей, создавая постфактум объяснения, которые связывают входные данные с выходными в рамках фиксированной структуры принятия решений. Недавние достижения в области больших языковых моделей (LLM) позволили создать агентные системы ИИ, поведение которых разворачивается в виде многошаговых траекторий. В таких условиях успех и неудача определяются последовательностями решений, а не единичным выходом. Хотя существующие подходы к объяснению полезны, остается неясным, насколько методы, разработанные для статических прогнозов, применимы к агентным сценариям, где поведение формируется во времени. В данной работе мы преодолеваем разрыв между статической и агентной объяснимостью, сравнивая атрибутивные объяснения с диагностикой на основе трассировки в обоих контекстах. Чтобы сделать это различие явным, мы эмпирически сравниваем атрибутивные объяснения, используемые в задачах статической классификации, с диагностикой на основе трассировки, применяемой в агентных бенчмарках (TAU-bench Airline и AssistantBench). Наши результаты показывают, что хотя атрибутивные методы достигают стабильных ранжирований признаков в статических условиях (ρ Спирмена = 0,86), они не могут быть надежно применены для диагностики сбоев на уровне исполнения в агентных траекториях. В отличие от них, оценка по рубрикам, основанная на трассировке для агентных сценариев, последовательно локализует точки сбоя поведения и показывает, что несогласованность отслеживания состояния встречается в 2,7 раза чаще в неудачных прогонах и снижает вероятность успеха на 49%. Эти результаты обосновывают необходимость перехода к объяснимости на уровне траекторий для агентных систем при оценке и диагностике автономного поведения ИИ. Ресурсы: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
Федеративное обучение (FL) позволяет нескольким сторонам совместно обучать модели машинного обучения без обмена исходными данными. Однако перед обучением данные должны быть предобработаны для устранения пропущенных значений, несовместимых форматов и неоднородных масштабов признаков. Этот этап предобработки критически важен для производительности модели, но в исследованиях FL он остается в значительной степени без внимания. В практических системах FL ограничения конфиденциальности запрещают централизацию исходных данных, в то время как требования к эффективности связи создают дополнительные проблемы для распределенной предобработки. Мы представляем FedPS — унифицированную структуру для федеративной предобработки данных на основе агрегированной статистики. FedPS использует методы сжатия данных для эффективного суммирования локальных наборов данных с сохранением essential статистической информации. На основе этих сводок мы разрабатываем федеративные алгоритмы для масштабирования признаков, кодирования, дискретизации и импутации пропущенных значений, а также расширяем связанные с предобработкой модели, такие как k-средние, k-ближайших соседей и байесовская линейная регрессия, для горизонтальных и вертикальных настроек FL. FedPS обеспечивает гибкие, эффективные по связи и согласованные конвейеры предобработки для практического развертывания FL.
Генеративная рекомендация с помощью авторегрессионных моделей объединила извлечение и ранжирование в единую условную генеративную структуру. Однако тонкая настройка этих моделей с помощью обучения с подкреплением (ОП) часто страдает от фундаментального несоответствия между вероятностью и вознаграждением. Традиционное декодирование, доминируемое правдоподобием (например, поиск по лучу), демонстрирует миопическое смещение в сторону локально вероятных префиксов, что вызывает два критических сбоя: (1) недостаточное исследование, когда элементы с высоким вознаграждением в ветвях с низкой вероятностью преждевременно отсекаются и редко сэмплируются, и (2) сжатие преимущества, когда траектории, имеющие общие высоковероятностные префиксы, получают высокоскоррелированные вознаграждения с низкой внутригрупповой дисперсией, что дает слабый сравнительный сигнал для ОП. Для решения этих проблем мы предлагаем V-STAR — структуру Value-guided Sampling and Tree-structured Advantage Reinforcement. V-STAR формирует саморазвивающийся цикл через две синергетические компоненты. Во-первых, разрабатывается Эффективное Декодирование с Ценностным Руководством (VED) для идентификации решающих узлов и избирательного углубления перспективных префиксов. Это повышает эффективность исследования без исчерпывающего поиска по дереву. Во-вторых, мы предлагаем Sibling-GRPO, который использует индуцированную древовидную топологию для вычисления относительных преимуществ узлов-братьев и концентрирует обучающие сигналы на решающих ветвящихся решениях. Многочисленные эксперименты на оффлайн- и онлайн-наборах данных показывают, что V-STAR превосходит современные базовые методы, обеспечивая превосходную точность и разнообразие наборов кандидатов при строгих ограничениях на задержку.
Проблема составления расписаний для несвязанных параллельных машин (UPMSP) с учетом времени поступления заказов, переналадок и ограничений на пригодность представляет собой значительную многокритериальную задачу. Традиционные методы испытывают трудности с балансировкой минимизации общего взвешенного запаздывания (TWT) и общего времени переналадок (TST). В данной статье предлагается фреймворк глубокого обучения с подкреплением на основе Проксимальной политики оптимизации (PPO) и графовой нейронной сети (GNN). GNN эффективно представляет сложное состояние заказов, машин и переналадок, что позволяет агенту PPO обучаться прямой политике составления расписаний. Руководствуясь многокритериальной функцией вознаграждения, агент одновременно минимизирует TWT и TST. Результаты экспериментов на тестовых примерах демонстрируют, что наш агент PPO-GNN существенно превосходит стандартное диспетчерское правило и метаэвристический метод, достигая превосходного компромисса между обоими целевыми показателями. Это обеспечивает надежное и масштабируемое решение для сложных задач производственного планирования.
Детекторы ИИ-текста сталкиваются с фундаментальной проблемой устойчивости: атаки с помощью адверсарного перефразирования, которые сохраняют семантику, но уклоняются от обнаружения. Мы представляем StealthRL, фреймворк на основе обучения с подкреплением для стресс-тестирования устойчивости детекторов в реалистичных адверсарных условиях. StealthRL обучает политику перефразирования против ансамбля детекторов с использованием Group Relative Policy Optimization (GRPO) и адаптеров LoRA на модели Qwen3-4B, оптимизируя составную функцию вознаграждения, которая балансирует уклонение от детектирования и сохранение семантики. Мы оцениваем шесть сценариев атаки (M0-M5) против трёх семейств детекторов (RoBERTa, FastDetectGPT и Binoculars) в критической точке работы с 1% ложноположительных срабатываний. StealthRL достигает почти нулевого уровня детектирования (средний TPR@1%FPR = 0.001), снижает средний AUROC с 0.74 до 0.27 и демонстрирует 99.9% успешных атак. Ключевой результат: атаки обобщаются на неизвестное во время обучения семейство детекторов, что указывает на общие уязвимости архитектур, а не на специфическую хрупкость отдельных детекторов. Дополнительно мы проводим оценку качества с помощью LLM через Likert-шкалирование, анализируем распределения оценок детекторов для объяснения успеха уклонения и предоставляем AUROC для каждого детектора с доверительными интервалами на основе бутстрэпа. Наши результаты выявляют значительные пробелы в устойчивости современных детекторов ИИ-текста и устанавливают StealthRL в качестве принципиального протокола адверсарной оценки. Код и конвейер оценки доступны по адресу https://github.com/suraj-ranganath/StealthRL.