Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на быстрый прогресс в области автономных ИИ-ученых на основе языковых моделей, создание иллюстраций, готовых к публикации, остается трудоемким узким местом в исследовательском процессе. Чтобы снять эту нагрузку, мы представляем PaperBanana — агентный фреймворк для автоматизированного создания готовых к публикации академических иллюстраций. Используя передовые VLM и модели генерации изображений, PaperBanana координирует работу специализированных агентов для поиска референсов, планирования содержания и стиля, визуализации и итеративного улучшения через самокритику. Для строгой оценки нашего фреймворка мы представляем PaperBananaBench, включающий 292 тестовых сценария для диаграмм методологии, отобранных из публикаций NeurIPS 2025 и охватывающих различные исследовательские области и стили иллюстраций. Всесторонние эксперименты демонстрируют, что PaperBanana стабильно превосходит ведущие базовые методы по точности, лаконичности, читаемости и эстетике. Мы также показываем, что наш метод эффективно расширяется для генерации высококачественных статистических графиков. В совокупности PaperBanana открывает путь к автоматизированному созданию иллюстраций, готовых к публикации.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало краеугольным камнем для раскрытия сложных рассуждений в больших языковых моделях (LLM). Однако масштабирование RL ограничено небольшим объемом существующих верифицируемых данных, где улучшения все больше насыщаются при длительном обучении. Чтобы преодолеть это, мы предлагаем Golden Goose — простой метод синтеза неограниченного количества задач RLVR из непроверяемых интернет-текстов путем создания версии задачи заполнения пропуска в формате вопросов с множественным выбором. Исходный текст используется для того, чтобы LLM идентифицировала и замаскировала ключевые шаги рассуждений, а затем сгенерировала набор разнообразных правдоподобных дистракторов. Это позволяет задействовать богатые логикой непроверяемые корпуса, которые обычно исключались из предыдущих подходов к созданию данных RLVR (например, научные учебники), для синтеза GooseReason-0.7M — масштабного набора данных RLVR, содержащего более 0.7 миллионов задач из областей математики, программирования и общенаучных дисциплин. Экспериментально показано, что GooseReason эффективно оживляет модели, насытившиеся на существующих данных RLVR, обеспечивая устойчивый прогресс при непрерывном RL и устанавливая новые рекордные результаты для инструктивных моделей объемом 1.5B и 4B параметров на 15 разнообразных бенчмарках. Наконец, мы развернули Golden Goose в реальных условиях, синтезировав задачи RLVR из сырых данных FineWeb для области кибербезопасности, где ранее не существовало данных RLVR. Обучение модели Qwen3-4B-Instruct на полученных данных GooseReason-Cyber устанавливает новый рекорд в кибербезопасности, превосходя специализированную 7B-модель с обширным доменно-специфичным предобучением и постобработкой. Это подчеркивает потенциал автоматического масштабирования данных RLVR за счет использования обильных, богатых логикой, но непроверяемых интернет-текстов.
Крупные языковые модели (LLMs) все чаще используются как агенты, усиленные инструментами, для многошагового принятия решений, однако обучение надежных агентов, использующих инструменты, остается сложной задачей. Существующие методы по-прежнему требуют ручного вмешательства, зависят от непроверяемых имитационных сред, полагаются исключительно либо на контролируемую тонкую настройку (SFT), либо на обучение с подкреплением (RL), и испытывают трудности со стабильным обучением на длинных временных горизонтах с множеством шагов. Для решения этих проблем мы представляем ASTRA — полностью автоматизированную сквозную платформу для обучения языковых моделей-агентов, усиленных инструментами, с помощью масштабируемого синтеза данных и проверяемого обучения с подкреплением. ASTRA объединяет два взаимодополняющих компонента. Во-первых, конвейер, использующий статическую топологию графов вызовов инструментов, синтезирует разнообразные, структурно обоснованные траектории, прививая широкую и переносимую компетенцию использования инструментов. Во-вторых, фреймворк синтеза сред, который захватывает богатую, композиционную топологию человеческого семантического мышления, преобразует декомпозированные вопросно-ответные трассы в независимые, исполняемые в виде кода и проверяемые по правилам среды, позволяя детерминированное многошаговое RL. На основе этого метода мы разрабатываем унифицированную методологию обучения, которая интегрирует SFT с онлайн RL, используя вознаграждения на уровне траекторий для балансировки завершения задачи и эффективности взаимодействия. Эксперименты на нескольких бенчмарках агентского использования инструментов демонстрируют, что модели, обученные с помощью ASTRA, достигают передовой производительности на сопоставимых масштабах, приближаясь к проприетарным системам при сохранении ключевых способностей к рассуждению. Мы публикуем полные конвейеры, среды и обученные модели по адресу https://github.com/LianjiaTech/astra.
Формат пониженной точности NVFP4, аппаратно поддерживаемый графическими процессорами NVIDIA Blackwell, впервые позволяет проводить сквозное полностью квантизованное предварительное обучение масштабных моделей, таких как большие языковые модели (LLM). Однако существующие методы квантизованного обучения по-прежнему жертвуют частью репрезентативной способности этого формата в пользу более точной несмещенной оценки квантизованного градиента с помощью стохастического округления (SR), что приводит к заметной потере точности по сравнению со стандартным обучением в форматах FP16 и FP8. В данной статье мы улучшаем состояние дел в области квантизованного обучения в NVFP4 за счет новой процедуры несмещенного квантования для микромасштабируемых форматов, названной MS-EDEN, которая имеет более чем в 2 раза меньшую ошибку квантования, чем SR. Мы интегрируем её в новую схему полного квантирования линейных слоев в NVFP4, названную Quartet II. Аналитически мы показываем, что Quartet II обеспечивает consistently более точную оценку градиента во всех основных матричных умножениях, как при прямом, так и при обратном проходах. Кроме того, наше предложение хорошо сочетается с последними улучшениями в обучении, разработанными специально для NVFP4. Мы дополнительно проверяем Quartet II на сквозном обучении LLM с числом параметров до 1,9 млрд на 38 млрд токенов. Мы предоставляем ядра для выполнения на GPU NVIDIA Blackwell с ускорением до 4,2 раза по сравнению с BF16. Наш код доступен по адресу https://github.com/IST-DASLab/Quartet-II.
Крупные модели рассуждений (LRM) демонстрируют выдающиеся результаты, используя обучение с подкреплением (RL) на задачах логического вывода для генерации длинных цепочек рассуждений (CoT). Однако такая чрезмерная оптимизация часто приводит к приоритету соответствия запросам, что делает модели уязвимыми к вредоносным промптам. Для смягчения этого снижения безопасности современные подходы полагаются на дистилляцию знаний от внешних моделей-учителей, что, в свою очередь, создает распределительное расхождение, ухудшающее собственные способности модели к рассуждениям. Мы предлагаем ThinkSafe — фреймворк самогенерируемого выравнивания, который восстанавливает безопасностную адаптацию без внешних учителей. Наше ключевое наблюдение заключается в том, что хотя стремление к соответствию подавляет механизмы безопасности, модели часто сохраняют скрытые знания для распознавания вреда. ThinkSafe раскрывает этот потенциал с помощью легковесного управления отказами, направляя модель на генерацию безопасных трасс рассуждений, соответствующих ее исходному распределению. Дообучение на этих самогенерированных ответах эффективно перевыравнивает модель, минимизируя сдвиг распределения. Эксперименты на DeepSeek-R1-Distill и Qwen3 показывают, что ThinkSafe значительно повышает безопасность, сохраняя при этом качество рассуждений. Примечательно, что метод достигает превосходной безопасности и сопоставимого с GRPO уровня рассуждений при значительно меньших вычислительных затратах. Код, модели и наборы данных доступны по адресу https://github.com/seanie12/ThinkSafe.git.
Хотя метод цепочки рассуждений (CoT) значительно повышает производительность больших языковых моделей (LLM), явные цепочки рассуждений вносят существенную вычислительную избыточность. Новейшие методы латентного рассуждения пытаются устранить это путем сжатия процессов рассуждения в латентное пространство, но часто страдают от значительного снижения производительности из-за отсутствия адекватных ориентиров сжатия. В данном исследовании мы предлагаем Rendered CoT-Guided variational Latent Reasoning (ReGuLaR) — простую, но новую парадигму латентного обучения, решающую эту проблему. В основе нашего подхода лежит формулировка латентного рассуждения в рамках вариационного автоэнкодера (VAE), где текущее латентное состояние рассуждения семплируется из апостериорного распределения, обусловленного предыдущими состояниями. В частности, при обучении этой вариационной модели латентного рассуждения мы визуализируем явные цепочки рассуждений в виде изображений, из которых извлекаются плотные визуально-семантические представления для регуляризации апостериорного распределения, что позволяет достичь эффективного сжатия с минимальными потерями информации. Многочисленные эксперименты демонстрируют, что ReGuLaR значительно превосходит существующие методы латентного рассуждения как по вычислительной эффективности, так и по результативности рассуждений, а даже превосходит CoT благодаря мультимодальному рассуждению, предлагая новое и перспективное решение для латентного рассуждения. Код: https://github.com/FanmengWang/ReGuLaR.
Обучение во время тестирования (Test-Time Training) предлагает перспективный способ улучшения способности к рассуждению больших языковых моделей (LLM) путем адаптации модели с использованием только тестовых вопросов. Однако существующие методы сталкиваются с трудностями при решении сложных задач по двум причинам: исходные тестовые вопросы часто слишком сложны для получения высококачественных псевдо-меток, а ограниченный размер тестовых наборов делает непрерывные онлайн-обновления склонными к нестабильности. Для преодоления этих ограничений мы предлагаем TTCS — совместно эволюционирующую структуру обучения во время тестирования. В частности, TTCS инициализирует две стратегии из одной предварительно обученной модели: синтезатор вопросов и решатель задач. Эти стратегии развиваются посредством итеративной оптимизации: синтезатор генерирует постепенно усложняющиеся варианты вопросов на основе тестовых, создавая структурированную учебную программу, адаптированную к текущим возможностям решателя, в то время как решатель обновляет себя, используя вознаграждения за самосогласованность, вычисленные на основе множества sampled-ответов как на оригинальные тестовые, так и на синтетические вопросы. Ключевым моментом является то, что обратная связь от решателя направляет синтезатор на генерацию вопросов, соответствующих текущим возможностям модели, а сгенерированные варианты вопросов, в свою очередь, стабилизируют обучение решателя во время тестирования. Эксперименты показывают, что TTCS последовательно усиливает способность к рассуждению на сложных математических бенчмарках и демонстрирует перенос на задачи из общей области для различных архитектур LLM, что указывает на масштабируемый путь к динамическому построению учебных программ для саморазвития во время тестирования. Наш код и детали реализации доступны по адресу https://github.com/XMUDeepLIT/TTCS.
Данная работа демонстрирует, что моделирование мира на основе видео в сочетании с предварительным обучением на визуально-языковых данных формирует новую и самостоятельную основу для обучения роботов. Интуитивно, видеомодели мира предоставляют возможность предсказывать ближайшее будущее за счет понимания причинно-следственных связей между действиями и визуальной динамикой. Вдохновленные этим, мы представляем LingBot-VA — авторегрессионную диффузионную архитектуру, которая одновременно обучается прогнозированию кадров и исполнению политик. Наша модель включает три тщательно разработанных компонента: (1) общее латентное пространство, объединяющее визуальные и акторные токены на основе архитектуры Mixture-of-Transformers (MoT), (2) механизм замкнутого прогнозирования (closed-loop rollout), позволяющий непрерывно получать обратную связь от среды с использованием реальных наблюдений, (3) асинхронный конвейер вывода, параллелизирующий прогнозирование действий и моторное исполнение для обеспечения эффективного управления. Мы оцениваем нашу модель на симуляционных тестах и в реальных сценариях, где она демонстрирует значительный потенциал в задачах длительного манипулирования, высокой данныхой эффективности после обучения и robustной обобщаемости к новым конфигурациям. Код и модель публично доступны для содействия научному сообществу.
Долгосрочное агентное рассуждение требует эффективного сжатия растущей истории взаимодействий в ограниченное окно контекста. Большинство существующих систем памяти сериализуют историю в виде текста, где стоимость на уровне токенов является единообразной и масштабируется линейно с длиной, зачастую расходуя ограниченный бюджет на маловажные детали. В связи с этим мы представляем MemOCR, многомодального агента памяти, который улучшает долгосрочное рассуждение в условиях жёстких бюджетов контекста за счёт распределения пространства памяти с адаптивной плотностью информации посредством визуального макета. Конкретно, MemOCR поддерживает структурированную память в формате богатого текста (например, с заголовками, выделениями) и визуализирует её в виде изображения, которое агент использует для доступа к памяти, визуально расставляя приоритеты для ключевых доказательств при агрессивном сжатии вспомогательных деталей. Для обеспечения устойчивости к различным бюджетам памяти мы обучаем MemOCR с помощью обучения с подкреплением на основе целевых функций, учитывающих бюджет, что подвергает агента воздействию различных уровней сжатия. На наборах данных для многозвенного и однозвенного вопросно-ответного моделирования с длинным контекстом MemOCR превосходит сильные текстовые базовые модели и демонстрирует более эффективное использование контекста в условиях экстремально малых бюджетов.
Современные модели эмбиддингов всё чаще создаются на основе декодерных больших языковых моделей (LLM), адаптированных с помощью контрастивного обучения. С появлением моделей рассуждений, обученных посредством обучения с подкреплением и верифицируемыми вознаграждениями (RLVR), возникает естественный вопрос: приводит ли улучшение способности к рассуждениям к превосходным семантическим репрезентациям, когда эти модели используются в качестве инициализации для эмбиддингов? Вопреки ожиданиям, наша оценка на наборах данных MTEB и BRIGHT выявляет **нулевой эффект**: модели эмбиддингов, инициализированные на основе RLVR-дообученных моделей, не демонстрируют устойчивого преимущества в производительности по сравнению со своими базовыми аналогами при идентичных рецептах обучения. Для анализа этого парадокса мы представляем **И**ерархический **А**нализ **С**ходства **Р**епрезентаций (HRSA) — фреймворк, который декомпозирует сходство на уровне репрезентаций, геометрии и функций. HRSA показывает, что хотя RLVR вызывает необратимую реорганизацию локальной геометрии латентного многообразия и обратимый дрейф координатного базиса, он сохраняет глобальную геометрию многообразия и линейное считывание. Как следствие, последующее контрастивное обучение приводит к сильному выравниванию между моделями, инициализированными от базовой и RLVR-модели, — феномен, который мы называем **Реалигнингом Многообразия**. Эмпирически наши результаты позволяют предположить, что в отличие от контролируемого дообучения (SFT), RLVR оптимизирует траектории внутри существующего семантического ландшафта, а не фундаментально перестраивает сам ландшафт.
Крупные языковые модели (LLM) обычно оцениваются на безопасность в условиях однократного или низкобюджетного адверсарного промптинга, что недооценивает риски в реальных условиях. На практике злоумышленники могут использовать крупномасштабное параллельное сэмплирование для многократного зондирования модели до получения вредоносного ответа. Хотя последние исследования показывают, что успешность атаки возрастает с увеличением числа повторов, принципиальные методы прогнозирования крупномасштабного адверсарного риска остаются ограниченными. Мы предлагаем масштабируемую оценку риска Best-of-N (SABER) для моделирования уязвимости к взлому (jailbreak) при сэмплировании по схеме Best-of-N. Мы моделируем вероятности успеха на уровне сэмплов с помощью бета-распределения, являющегося сопряжённым априорным для распределения Бернулли, и выводим аналитический закон масштабирования, который позволяет надёжно экстраполировать показатели успешности атаки для большого N на основе измерений с малым бюджетом. Используя всего n=100 сэмплов, наш анкерный оценщик предсказывает ASR@1000 со средней абсолютной ошибкой 1,66 по сравнению с 12,04 у базового метода, что означает снижение ошибки оценки на 86,2%. Наши результаты выявляют неоднородные профили масштабирования риска и показывают, что модели, кажущиеся устойчивыми при стандартной оценке, могут испытывать быстрое нелинейное усиление риска под параллельным адверсарным воздействием. Данная работа предлагает экономичную и масштабируемую методологию для реалистичной оценки безопасности LLM. Мы опубликуем наш код и скрипты для оценки после публикации в интересах будущих исследований.
Несмотря на неавторегрессионный потенциал диффузионных языковых моделей (dLLM), существующие стратегии декодирования демонстрируют позиционное смещение, не позволяя полностью раскрыть потенциал произвольного порождения текста. В данной работе мы исследуем присущие dLLM спектральные характеристики и представляем первый частотно-доменный анализ, показывающий, что низкочастотные компоненты в скрытых состояниях в основном кодируют глобальную структурную информацию и дальние зависимости, тогда как высокочастотные компоненты отвечают за характеристику локальных деталей. На основе этого наблюдения мы предлагаем FourierSampler — метод, использующий механизм скользящего окна в частотной области для динамического управления моделью с целью достижения генерации «от структуры к деталям». FourierSampler превосходит другие стратегии улучшения вывода на наборах данных LLADA и SDAR, достигая относительного улучшения на 20.4% для LLaDA1.5-8B и на 16.0% для LLaDA-8B-Instruct. Он также значительно опережает авторегрессионные модели сопоставимого размера, такие как Llama3.1-8B-Instruct.
Мы представляем PaddleOCR-VL-1.5 — усовершенствованную модель, которая устанавливает новый рекорд точности (state-of-the-art, SOTA) в 94.5% на тестовом наборе OmniDocBench v1.5. Для строгой оценки устойчивости к реальным физическим искажениям, включая сканирование, перекос, деформацию, фотографирование с экрана и изменение освещения, мы предлагаем новый бенчмарк Real5-OmniDocBench. Результаты экспериментов демонстрируют, что улучшенная модель достигает наилучших показателей на новом бенчмарке. Кроме того, мы расширяем возможности модели, добавив задачи распознавания печатей и обнаружения текста, сохраняя при этом высокую эффективность в рамках ультракомпактной VLM-архитектуры объемом 0.9 млрд параметров. Код: https://github.com/PaddlePaddle/PaddleOCR
Недавние подходы на основе GRPO, построенные на моделях согласования потоков, продемонстрировали значительный прогресс в согласовании с человеческими предпочтениями для задач генерации изображений по тексту. Тем не менее, они по-прежнему страдают от проблемы разреженного вознаграждения: итоговое вознаграждение за всю траекторию денойзинга применяется ко всем промежуточным шагам, что приводит к несоответствию между глобальными сигналами обратной связи и точным вкладом отдельных шагов на промежуточных стадиях денойзинга. Для решения этой проблемы мы представляем DenseGRPO — новую структуру, которая согласует человеческие предпочтения с помощью плотных вознаграждений, оценивающих детальный вклад каждого шага денойзинга. Конкретно наш подход включает два ключевых компонента: (1) мы предлагаем прогнозировать прирост вознаграждения на каждом шаге в качестве плотного вознаграждения за шаг денойзинга, применяя модель вознаграждения к промежуточным очищенным изображениям с помощью подхода на основе ОДУ. Такой подход обеспечивает соответствие между сигналами обратной связи и вкладом отдельных шагов, способствуя эффективному обучению; и (2) на основе оцененных плотных вознаграждений выявляется недостаток несоответствия между равномерной настройкой исследования и изменяющейся во времени интенсивностью шума в существующих методах на основе GRPO, что приводит к неоптимальному пространству исследований. Таким образом, мы предлагаем схему, учитывающую вознаграждение, для калибровки пространства исследований путем адаптивной регулировки стохастической инъекции, специфичной для временного шага, в сэмплере на основе СДУ, что гарантирует подходящее пространство исследований на всех временных шагах. Многочисленные эксперименты на нескольких стандартных бенчмарках демонстрируют эффективность предложенного DenseGRPO и подчеркивают ключевую роль валидных плотных вознаграждений в согласовании моделей потокового согласования.
В последних исследованиях изучалось использование предобученных визуальных базовых моделей (VFM), таких как DINO, для генеративных автокодировщиков, демонстрируя высокую генеративную производительность. К сожалению, существующие подходы часто страдают от ограниченной точности реконструкции из-за потери высокочастотных деталей. В данной работе мы представляем Сферический Автокодировщик DINO (DINO-SAE) — фреймворк, который объединяет семантическое представление и реконструкцию на уровне пикселей. Наше ключевое наблюдение заключается в том, что семантическая информация в контрастных представлениях в основном кодируется в направлении векторов признаков, тогда как принудительное строгое соответствие амплитуд может препятствовать способности энкодера сохранять мелкозернистые детали. Для решения этой проблемы мы вводим модуль Иерархического Сверточного Встраивания Патчей, который улучшает сохранение локальной структуры и текстуры, и цель Выравнивания по Косинусному Сходству, которая обеспечивает семантическую согласованность, позволяя при этом гибко варьировать амплитуды признаков для сохранения деталей. Кроме того, используя наблюдение, что представления базовых моделей, основанных на self-supervised learning, по своей природе лежат на гиперсфере, мы применяем Риманово Согласование Потоков для обучения Трансформера Диффузии (DiT) непосредственно на этом сферическом латентном многообразии. Эксперименты на ImageNet-1K показывают, что наш подход достигает наилучшего качества реконструкции — 0.37 rFID и 26.2 дБ PSNR, — сохраняя при этом сильную семантическую согласованность с предобученной VFM. Примечательно, что наш DiT на основе Риманова Согласования Потоков демонстрирует эффективную сходимость, достигая gFID 3.47 на 80 эпохах.
Анимация изображений персонажей ставит целью синтез высококачественных видео путем переноса движения из управляющей последовательности на статическое референсное изображение. Несмотря на недавние достижения, существующие методы страдают от двух фундаментальных проблем: (1) субоптимальные стратегии внедрения движения, приводящие к компромиссу между сохранением идентичности и соответствием движению, что проявляется в виде "качелей", и (2) чрезмерная зависимость от явных позных priors (например, скелетов), которые недостаточно точно capture сложную динамику и препятствуют обобщению на произвольных не-гуманоидных персонажей. Для решения этих проблем мы представляем DreamActor-M2 — универсальную framework анимации, которая переосмысливает conditioning движения как задачу in-context обучения. Наш подход следует двухэтапной парадигме. Сначала мы устраняем разрыв входных модальностей путем fusion референсной внешности и motion cues в единое латентное пространство, что позволяет модели совместно анализировать пространственную идентичность и временную динамику, используя генеративный prior фундаментальных models. Во-вторых, мы представляем self-bootstrapped pipeline синтеза данных, который курирует псевдопары для обучения с кросс-идентичностью, обеспечивая плавный переход от позозависимого управления к прямой, end-to-end RGB-управляемой анимации. Эта стратегия значительно улучшает обобщение для разнообразных персонажей и сценариев движения. Для комплексной оценки мы также представляем AW Bench — универсальный benchmark, охватывающий широкий спектр типов персонажей и сценариев движения. Многочисленные эксперименты демонстрируют, что DreamActor-M2 достигает state-of-the-art производительности, обеспечивая превосходное визуальное качество и robust кросс-доменное обобщение. Страница проекта: https://grisoon.github.io/DreamActor-M2/
Обучение с подкреплением на основе человеческих откликов (RLHF) является ключевой методикой для согласования больших языковых моделей (LLM) с человеческими предпочтениями, однако оно подвержено проблеме сверхоптимизации награды. В этом случае политика модели переобучается на модель награды, эксплуатируя случайные паттерны вознаграждения вместо точного отражения человеческих намерений. Предыдущие методы смягчения в основном опирались на поверхностную семантическую информацию и не позволяли эффективно устранять рассогласование между моделью награды (RM) и моделью политики, вызванное непрерывными сдвигами распределения политики. Это неизбежно приводит к нарастанию расхождения в награде, усугубляя проблему сверхоптимизации. Для преодоления этих ограничений мы представляем R2M — новую облегченную архитектуру RLHF. R2M выходит за рамки стандартных моделей награды, которые полагаются исключительно на семантические представления предварительно обученной LLM. Вместо этого она использует эволюционирующие скрытые состояния политики (так называемую обратную связь политики) для согласования с текущим сдвигом распределения политики в процессе обучения с подкреплением. Данная работа указывает на перспективное новое направление для повышения производительности моделей награды за счет оперативного использования обратной связи от моделей политики.
Обучение с подкреплением с верифицируемыми вознаграждениями стало мощной парадигмой для тренировки интеллектуальных агентов. Однако существующие методы обычно используют бинарные вознаграждения, которые не способны уловить различия в качестве траекторий, достигающих идентичных результатов, тем самым упуская из виду потенциальное разнообразие в пространстве решений. Вдохновлённые концепцией «сладкого пятна» в теннисе — центральной области ракетки, обеспечивающей оптимальный ударный эффект, — мы представляем Sweet Spot Learning (SSL), новую структуру, которая предоставляет дифференцированное руководство для оптимизации агента. SSL следует простому, но эффективному принципу: прогрессивно усиливающиеся, многоуровневые вознаграждения направляют политики к области «сладкого пятна» в пространстве решений. Этот принцип естественным образом адаптируется к разнообразным задачам: задачи визуального восприятия используют дистанционно-уровневое моделирование для вознаграждения близости, в то время как сложные логические задачи вознаграждают инкрементальный прогресс в направлении перспективных решений. Теоретически мы демонстрируем, что SSL сохраняет оптимальный порядок решений и усиливает отношение сигнал/шум градиента, тем самым способствуя более направленной оптимизации. Многочисленные эксперименты на задачах GUI-восприятия, краткосрочного/долгосрочного планирования и сложных логических рассуждений показывают стабильное улучшение по сравнению с сильными базовыми уровнями на 12 бенчмарках, достигая до 2.5-кратного повышения эффективности использования выборок и эффективной межзадачной переносимости. Наша работа утверждает SSL в качестве общего принципа для обучения способных и устойчивых агентов.
Авторегрессионные (AR) большие аудио-языковые модели (LALM), такие как Qwen-2.5-Omni, демонстрируют высокую производительность в задачах понимания и взаимодействия с аудио, однако их масштабирование остается дорогостоящим с точки зрения данных и вычислений, а строго последовательное декодирование ограничивает эффективность вывода. Диффузионные большие языковые модели (dLLM) недавно показали свою способность эффективно использовать ограниченные обучающие данные, а предыдущие исследования DIFFA показали, что замена AR-архитектуры на диффузионную аналог может существенно улучшить понимание аудио в сопоставимых условиях, хотя и на уровне доказательства концепции — без масштабной инструктивной тонкой настройки, выравнивания предпочтений или практических схем декодирования. Мы представляем DIFFA-2, практическую диффузионную LALM для общего понимания аудио. DIFFA-2 улучшает речевой кодировщик, использует двойные семантические и акустические адаптеры и обучается по четырехэтапной учебной программе, сочетающей семантическое и акустическое выравнивание, масштабную контролируемую тонкую настройку и оптимизацию предпочтений с уменьшенной дисперсией, используя только полностью открытые корпуса. Эксперименты на MMSU, MMAU и MMAR показывают, что DIFFA-2 стабильно превосходит DIFFA и конкурирует с сильными AR LALM при практических бюджетах обучения, подтверждая, что диффузионное моделирование является жизнеспособной основой для масштабного понимания аудио. Наш код доступен по адресу https://github.com/NKU-HLT/DIFFA.git.
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, однако их стохастическое предсказание следующей лексемы порождает логические противоречия и взлом системы вознаграждений, которых избегают формальные символьные системы. Для преодоления этого разрыва мы представляем фреймворк, управляемый верификацией формальной логики, который динамически чередует формальную символьную верификацию с процессом генерации естественного языка, обеспечивая обратную связь в реальном времени для обнаружения и исправления ошибок по мере их возникновения. В отличие от предыдущих нейро-символьных методов, ограниченных пассивной апостериорной валидацией, наш подход активно штрафует промежуточные заблуждения в цепи рассуждений. Мы реализуем этот фреймворк с помощью нового двухэтапного конвейера обучения, который объединяет контролируемую тонкую настройку под руководством верификации формальной логики и оптимизацию политики. Обширная оценка на шести тестовых наборах, охватывающих математические, логические и общерассудительные задачи, показывает, что наши модели с 7 и 14 миллиардами параметров превосходят современные базовые уровни в среднем на 10,4% и 14,2% соответственно. Эти результаты подтверждают, что формальная верификация может служить масштабируемым механизмом для значительного расширения границ производительности передовых систем логического вывода LLM.
Генерация изображений на основе векторного квантования (VQ) обычно реализуется по двухэтапной схеме: токенизатор кодирует изображения в дискретные токены, а генеративная модель изучает их взаимозависимости для реконструкции. Однако улучшение токенизации на первом этапе не обязательно повышает качество генерации на втором этапе, поскольку существующие методы не накладывают ограничений на зависимости между токенами. Это несоответствие заставляет генеративную модель обучаться на неупорядоченных распределениях, что приводит к смещениям и слабой связности. Для решения этой проблемы мы предлагаем метод нативной визуальной токенизации, который обеспечивает причинно-следственные зависимости в процессе токенизации. На основе этой идеи мы представляем NativeTok — фреймворк, достигающий эффективной реконструкции при внедрении реляционных ограничений в последовательности токенов. NativeTok состоит из: (1) Meta Image Transformer (MIT) для моделирования латентных представлений изображений и (2) Mixture of Causal Expert Transformer (MoCET), в котором каждый облегченный экспертный блок генерирует отдельный токен с учетом предыдущих токенов и латентных признаков. Мы также разработали иерархическую стратегию нативного обучения, которая обновляет только новые экспертные блоки, обеспечивая эффективность обучения. Многочисленные эксперименты подтверждают эффективность NativeTok.
Крупные языковые модели (LLM) эффективно используют инструменты, однако остаются уязвимыми при многошаговом выполнении: после ошибки вызова инструмента небольшие модели часто деградируют до повторяющихся некорректных попыток, неспособных интерпретировать сообщения об ошибках и самокорректироваться. Эта хрупкость препятствует надежному практическому применению, поскольку ошибки выполнения неизбежны в процессах взаимодействия с инструментами. Мы выявляем ключевое ограничение современных подходов: стандартное обучение с подкреплением (RL) трактует ошибки как редкие негативные вознаграждения, не давая указаний по восстановлению, а предварительно собранные синтетические наборы данных для коррекции ошибок страдают от расхождения распределений с реальными ошибками модели в процессе эксплуатации. Для преодоления этого разрыва мы предлагаем Fission-GRPO — фреймворк, преобразующий ошибки выполнения в корректирующие инструкции внутри цикла RL-обучения. Наш ключевой механизм расщепляет каждый неудачный траекторий на новый обучающий пример, дополняя его диагностической обратной связью от дообученного симулятора ошибок, и повторно сэмплирует траектории восстановления в соответствии с текущей политикой. Это позволяет модели обучаться на конкретных ошибках, возникающих в процессе исследования, а не на статических, заранее собранных случаях. На тесте BFCL v4 Multi-Turn метод Fission-GRPO повышает показатель восстановления после ошибок для модели Qwen3-8B на 5.7% в абсолютных значениях, что критически важно — обеспечивает общий прирост точности на 4% (с 42.75% до 46.75%) по сравнению с GRPO и превосходит специализированные агенты для работы с инструментами.
Хотя большие языковые модели (LLM) продемонстрировали потенциал в области программной инженерии, их применение для модульного тестирования в значительной степени ограничивается изолированной генерацией тестов или предсказанием оракулов, игнорируя более широкую проблему сопровождения тестовых наборов. Мы представляем TAM-Eval (Test Automated Maintenance Evaluation) — фреймворк и бенчмарк, предназначенные для оценки производительности моделей в трех основных сценариях сопровождения тестов: создание, исправление и обновление тестовых наборов. В отличие от предыдущих работ, ограниченных задачами на уровне функций, TAM-Eval работает на уровне тестовых файлов, сохраняя при этом доступ к полному контексту репозитория в ходе изолированной оценки, что лучше отражает реальные процессы сопровождения. Наш бенчмарк включает 1539 автоматически извлеченных и проверенных сценариев из проектов на Python, Java и Go. TAM-Eval поддерживает системно-независимую оценку как сырых LLM, так и агентских workflow, используя беспризнаковый протокол, основанный на проходимости тестового набора, покрытии кода и мутационном тестировании. Эмпирические результаты показывают, что современные LLM обладают ограниченными возможностями в реалистичных процессах сопровождения тестов и приводят лишь к незначительному улучшению эффективности тестирования. Мы публикуем TAM-Eval в качестве open-source фреймворка для поддержки будущих исследований в области автоматизированного тестирования программного обеспечения. Наши данные и код доступны по адресу https://github.com/trndcenter/TAM-Eval.
Мы представляем RM-RF — облегченную модель оценки для выполнения проверки автоматически сгенерированных модульных тестов без их запуска. Вместо многократной компиляции и выполнения тестов-кандидатов RM-RF предсказывает исключительно на основе исходного и тестового кода три сигнала, обычно получаемые при выполнении: (1) успешность компиляции и запуска дополненного набора тестов, (2) увеличение покрытия кода сгенерированными тестовыми случаями и (3) улучшение показателя убийства мутантов сгенерированными тестовыми случаями. Для обучения и оценки RM-RF мы собрали многозадачный набор данных (Java, Python, Go), содержащий целевые файлы, тестовые файлы и тестовые дополнения-кандидаты, размеченные с помощью пайплайна на основе выполнения, и публикуем соответствующий набор данных и методологию для сравнительной оценки. Мы протестировали несколько семейств моделей и режимов настройки (zero-shot, полная тонкая настройка и PEFT через LoRA), достигнув среднего значения F1, равного 0.69, по всем трем целевым показателям. По сравнению с традиционными инструментами компиляции и запуска RM-RF обеспечивает существенно более низкую задержку и стоимость инфраструктуры, сохраняя при этом конкурентоспособную прогностическую точность, что позволяет обеспечить быструю и масштабируемую обратную связь для крупномасштабной генерации тестов и оптимизации кода на основе обучения с подкреплением.
Хотя многоагентные системы демонстрируют потенциал для решения сложных задач за счет специализации, тонкая настройка нескольких агентов одновременно сталкивается с двумя ключевыми проблемами: (1) распределением заслуг между агентами и (2) эффективностью использования дорогостоящих сэмплов в многоагентных прогонах. В данной работе мы предлагаем метод тонкой настройки многоагентных систем с пошаговыми вознаграждениями на основе ИИ-обратной связи (MAPPA) для решения обеих проблем. Присваивая заслуги отдельным действиям агентов, а не только по завершении задачи, MAPPA обеспечивает детализированный контроль без эталонных меток, одновременно извлекая максимальную обучающую информацию из каждого прогона. Мы демонстрируем наш подход на задачах из математических соревнований и инструментально расширенных задачах анализа данных. На новых математических задачах MAPPA показывает прирост на +5,0–17,5 п.п. на AIME и +7,8–17,2 п.п. на AMC. Для задач анализа данных наш метод повышает процент успешного выполнения на +12,5 п.п., а метрики качества улучшаются до 30%, что подтверждает, что пошаговый контроль может приводить к улучшениям в различных многоагентных системах и предметных областях. Решая эти проблемы, наша работа представляет собой первый шаг к масштабированию многоагентных систем для сложных долгосрочных задач с минимальным участием человека.
Глубокие поисковые агенты, основанные на больших языковых моделях, продемонстрировали высокие способности в многошаговом поиске, рассуждении и выполнении долгосрочных задач. Однако их практические неудачи часто обусловлены отсутствием механизмов для мониторинга и регулирования состояний рассуждения и поиска по мере эволюции задач в условиях неопределенности. Исследования в области когнитивной нейронауки показывают, что человеческая метакогниция имеет иерархическую организацию, интегрируя быструю детекцию аномалий с избирательно запускаемой рефлексией на основе опыта. В данной работе мы предлагаем Deep Search with Meta-Cognitive Monitoring (DS-MCM) — фреймворк глубокого поиска, дополненный явным иерархическим механизмом метакогнитивного мониторинга. DS-MCM интегрирует Быстрый монитор согласованности, который выполняет легковесные проверки соответствия между внешними доказательствами и внутренней уверенностью в рассуждениях, и Медленный монитор на основе опыта, который избирательно активируется для направляющего корректирующего вмешательства на основе памяти о предыдущем опыте из исторических траекторий агента. Встраивая мониторинг непосредственно в цикл рассуждение-поиск, DS-MCM определяет как момент, когда вмешательство необходимо, так и то, как корректирующие действия должны быть информированы предыдущим опытом. Эксперименты на множестве бенчмарков глубокого поиска и базовых моделей демонстрируют, что DS-MCM стабильно повышает производительность и надежность.
Метод зондирования исследует, какая информация закодирована в замороженных представлениях слоев большой языковой модели (LLM), путем обучения легковесного предсказателя поверх них. Помимо анализа, зонды часто используются операционно в конвейерах "зондирование-управление": извлеченный вектор концепции добавляется к представлению слоя во время прямого прохода с помощью аддитивного управления активациями. Эффективность этого подхода зависит от оценки векторов концепций, которые являются точными, стабильными по направлению при абляции и недорогими в получении. Руководствуясь этими требованиями, мы предлагаем RAPTOR (Ridge-Adaptive Logistic Probe) — простой L2-регуляризованный логистический зонд, у которого подобранная по валидации сила регуляризации риджа дает векторы концепций из нормализованных весов. В обширных экспериментах на инструктивно-обученных LLM и наборах данных с концепциями, написанными человеком, RAPTOR соответствует или превосходит сильные базовые методы по точности, одновременно демонстрируя конкурентную стабильность направления и существенно более низкую стоимость обучения; эти количественные результаты подтверждаются качественными демонстрациями последующего управления. Наконец, используя теорему о выпуклой гауссовской минимаксной проблеме (Convex Gaussian Min-max Theorem, CGMT), мы даем механистическую характеристику ридж-логистической регрессии в идеализированной гауссовской модели "учитель-ученик" в высокоразмерном режиме с малым числом примеров, объясняя, как сила штрафа опосредует точность зонда и стабильность вектора концепции, и получая структурные предсказания, которые качественно согласуются с тенденциями, наблюдаемыми на реальных эмбеддингах LLM.
Метод цепочки мыслей (CoT) расширяет возможности больших языковых моделей (LLM) для решения сложных задач, но остается ограниченным вычислительными затратами и коллапсом путей рассуждения при их привязке к дискретным пространствам токенов. Новейшие подходы к латентному рассуждению пытаются оптимизировать эффективность, выполняя рассуждения в рамках непрерывных скрытых состояний. Однако эти методы обычно функционируют как непрозрачные end-to-end преобразования из явных шагов рассуждения в латентные состояния и часто требуют заранее заданного количества латентных шагов на этапе вывода. В данной работе мы представляем PLaT (Planning with Latent Thoughts) — фреймворк, который переосмысливает латентное рассуждение как планирование, фундаментально разделяя рассуждение и вербализацию. Мы моделируем рассуждение как детерминированную траекторию латентных состояний планирования, в то время как отдельный Декодер при необходимости проецирует эти мысли в текст. Такое разделение позволяет модели динамически определять момент завершения рассуждения вместо reliance на фиксированные гиперпараметры. Эмпирические результаты на математических бенчмарках выявляют отчетливый компромисс: хотя PLaT демонстрирует более низкую «жадную» точность по сравнению с базовыми методами, он показывает превосходную масштабируемость с точки зрения разнообразия рассуждений. Это указывает на то, что PLaT осваивает robustное, более широкое пространство решений, предлагая прозрачную и масштабируемую основу для поиска на этапе вывода.
Поскольку цифровые среды (распределение данных) находятся в постоянном изменении, а новые данные графического интерфейса поступают со временем — вводя новые домены или разрешения — агенты, обученные на статических средах, демонстрируют ухудшение производительности. В данной работе мы представляем задачу Continual GUI Agents, которая требует от агентов графического интерфейса способности к непрерывному обучению в условиях смещающихся доменов и разрешений. Мы обнаружили, что существующие методы не способны сохранять стабильную привязку к элементам интерфейса по мере изменения распределений GUI из-за разнообразия точек и областей взаимодействия в динамичных сценариях. Для решения этой проблемы мы предлагаем GUI-Anchoring in Flux (GUI-AiF) — новую архитектуру тонкой настройки с подкреплением, которая стабилизирует непрерывное обучение за счёт двух новых видов вознаграждений: Anchoring Point Reward in Flux (APR-iF) и Anchoring Region Reward in Flux (ARR-iF). Эти вознаграждения направляют агентов на согласование со смещающимися точками и областями взаимодействия, снижая склонность существующих стратегий вознаграждения к избыточной адаптации к статичным ориентирам (например, фиксированным координатам или масштабам элементов). Многочисленные эксперименты показывают, что GUI-AiF превосходит современные базовые методы. Наша работа создаёт первую архитектуру непрерывного обучения для агентов графического интерфейса, раскрывая нереализованный потенциал тонкой настройки с подкреплением для continual GUI Agents.
Последние достижения в области диффузионных моделей и моделей согласования потоков выявили сдвиг в предпочтительной цели предсказания — переход от предсказания шума (ε) и скорости (v) к прямому предсказанию данных (x), — особенно в высокоразмерных settings. Однако формальное объяснение того, почему оптимальная цель зависит от конкретных свойств данных, остается неуловимым. В данной работе мы предлагаем теоретическую основу, основанную на обобщенной формулировке предсказания, которая допускает произвольные целевые выходы, частными случаями которых являются предсказание ε, v и x. Мы выводим аналитическую зависимость между геометрией данных и оптимальной целью предсказания, предлагая строгое обоснование того, почему предсказание x становится предпочтительнее, когда размерность окружающего пространства существенно превышает внутреннюю размерность данных. Кроме того, хотя наша теория определяет размерность как управляющий фактор для оптимальной цели предсказания, внутренняя размерность данных, лежащих на многообразии, обычно оказывается трудно оценимой на практике. Чтобы преодолеть этот разрыв, мы предлагаем k-Diff — framework, который использует подход, основанный на данных, для непосредственного обучения оптимального параметра предсказания k на основе данных, минуя необходимость явной оценки размерности. Многочисленные эксперименты в области генерации изображений как в латентном пространстве, так и в пространстве пикселей демонстрируют, что k-Diff последовательно превосходит базовые методы с фиксированной целью при различных архитектурах и масштабах данных, предоставляя принципиальный и автоматизированный подход к повышению производительности генеративных моделей.
Обучение представлений играет ключевую роль во многих последующих задачах, таких как поиск, кластеризация, классификация и переранжирование. Современные кодировщики последовательностей обычно преобразуют последовательность токенов переменной длины в единый вектор с помощью оператора пулинга, чаще всего специального токена [CLS] или усреднения эмбеддингов токенов. В данной статье мы выявляем систематические недостатки этих стратегий пулинга: [CLS] склонен концентрировать информацию в начальных позициях последовательности и может недостаточно отражать распределенные признаки, в то время как усредняющий пулинг может размывать важные локальные сигналы, иногда ухудшая работу в коротких контекстах. Для решения этих проблем мы предлагаем Landmark (LMK) пулинг, который разбивает последовательность на фрагменты, вставляет между ними маркерные токены и формирует итоговое представление путем усреднения эмбеддингов маркерных токенов. Этот простой механизм улучшает экстраполяцию на длинных контекстах без потери локальных значимых признаков, ценой введения небольшого количества специальных токенов. Мы эмпирически демонстрируем, что LMK пулинг соответствует существующим методам в задачах поиска с коротким контекстом и обеспечивает существенное улучшение в задачах с длинным контекстом, что делает его практичной и масштабируемой альтернативой существующим методам пулинга.
Дистилляция знаний (Knowledge Distillation, KD) все чаще применяется для передачи возможностей больших языковых моделей (LLM) малым, что обеспечивает значительное повышение эффективности и практической полезности, зачастую превосходя стандартное тонкое настраивание (fine-tuning). Помимо производительности, KD также исследуется как механизм сохранения конфиденциальности для снижения риска утечки обучающих данных. В то время как запоминание обучающих данных тщательно изучалось в контексте стандартного предварительного обучения и тонкой настройки, его динамика в условиях дистилляции знаний остается слабо изученной. В данной работе мы исследуем запоминание на всех этапах конвейера KD, используя три семейства больших языковых моделей (Pythia, OLMo-2, Qwen-3) и три набора данных (FineWeb, Wikitext, Nemotron-CC-v2). Мы обнаруживаем: (1) дистиллированные модели запоминают значительно меньше обучающих данных по сравнению со стандартным тонким настраиванием (сокращение запоминания более чем на 50%); (2) некоторые примеры по своей природе легче запомнить, и они составляют большую долю запоминания при дистилляции (свыше ~95%); (3) запоминание студентом (student model) можно предсказать до проведения дистилляции с использованием признаков на основе zlib-энтропии, дивергенции Кульбака-Лейблера и перплексии; и (4) хотя мягкая (soft) и жесткая (hard) дистилляции имеют схожие общие уровни запоминания, жесткая дистилляция представляет больший риск: она наследует в 2.7 раза больше специфичных для учителя (teacher model) примеров, чем мягкая. В целом, мы демонстрируем, что дистилляция может обеспечить как улучшенную обобщающую способность, так и сниженные риски запоминания по сравнению со стандартным тонким настраиванием.
Открытое словарное заземление требует точного согласования визуальной и языковой информации при слабом контроле, однако существующие методы либо полагаются на глобальные эмбеддинги предложений, которым не хватает детальной выразительности, либо вводят пословное выравнивание с явным контролем или использованием сложных кросс-аттенционных механизмов. Мы предлагаем ExpAlign, теоретически обоснованную структуру для согласования визуальной и языковой информации, построенную на принципиальной формулировке обучения с множественными экземплярами. ExpAlign вводит Голову Выравнивания по Математическому Ожиданию, которая выполняет основанный на внимании мягкий MIL-пулинг над сходствами «токен-регион», обеспечивая неявный выбор токенов и экземпляров без дополнительных разметок. Для дальнейшей стабилизации обучения выравниванию мы разработали схему регуляризации на основе энергии для обеспечения согласованности на нескольких масштабах, включающую контрастную цель с несколькими позитивными примерами Top-K и Цель Геометрически-Осознанной Согласованности, выведенную из минимизации свободной энергии с лагранжевыми ограничениями. Многочисленные эксперименты показывают, что ExpAlign стабильно улучшает открытое словарное обнаружение и сегментацию экземпляров с нулевым обучением, особенно для категорий с длинным хвостом. Наиболее показательно, что метод достигает 36.2 AP_r на срезе LVIS minival, превосходя другие современные методы сопоставимого масштама, оставаясь при этом легковесным и эффективным на этапе вывода.
В системах сквозного автономного вождения все чаще используется самоконтролируемое предварительное обучение на видеоданных для получения переносимых представлений планирования траектории. Однако предварительное обучение видео-моделей мира для понимания сцены до сих пор приносило лишь ограниченные улучшения. Это ограничение усугубляется присущей вождению неоднозначностью: каждая сцена обычно содержит лишь одну человеческую траекторию, что затрудняет изучение многомодального поведения. В данной работе мы предлагаем Drive-JEPA — фреймворк, объединяющий Видео-Архитектуру Прогнозирования в Совместном Пространстве Признаков (V-JEPA) с дистилляцией многомодальных траекторий для сквозного автономного вождения. Во-первых, мы адаптируем V-JEPA для сквозного вождения, предварительно обучая ViT-энкодер на масштабных видеозаписях вождения для генерации прогнозных представлений, согласованных с планированием траектории. Во-вторых, мы представляем планировщик, ориентированный на предложения, который дистиллирует разнообразные траектории, сгенерированные в симуляторе, вместе с человеческими траекториями, используя механизм выбора с учетом импульса для повышения стабильности и безопасности поведения. При оценке на NAVSIM представления V-JEPA в сочетании с простым трансформер-декодером превосходят предыдущие методы на 3 PDMS в условиях отсутствия восприятия. Полный фреймворк Drive-JEPA достигает 93.3 PDMS на v1 и 87.8 EPDMS на v2, устанавливая новый state-of-the-art результат.
В области прунинга Гипотеза Лотерейного Билета постулирует, что крупные сети содержат разреженные подсети, или «выигрышные билеты», которые можно обучать изолированно для достижения производительности их плотных аналогов. Однако большинство существующих подходов предполагают наличие единого универсального «выигрышного билета», общего для всех входных данных, игнорируя присущую реальным данным неоднородность. В данной работе мы предлагаем Routing the Lottery (RTL) — адаптивную систему прунинга, которая обнаруживает несколько специализированных подсетей, называемых адаптивными билетами, каждая из которых настроена на определенный класс, семантический кластер или условие окружающей среды. На различных наборах данных и задачах RTL стабильно превосходит базовые методы с одной и несколькими моделями по сбалансированной точности и полноте, используя до 10 раз меньше параметров, чем независимые модели, и демонстрируя семантическую согласованность. Кроме того, мы выявляем «коллапс подсети» — снижение производительности при агрессивном прунинге — и вводим показатель сходства подсетей, который позволяет проводить диагностику чрезмерного разрежения без использования меток. В целом, наши результаты представляют прунинг как механизм согласования структуры модели с неоднородностью данных, прокладывая путь к более модульному и контекстно-ориентированному глубокому обучению.
Мультимодальные большие языковые модели (MБЯМ) являются основным направлением современных исследований в области искусственного интеллекта. Однако большая часть предыдущих работ сосредоточена на анализе статических изображений, в то время как способность моделей обрабатывать последовательные аудиовизуальные данные остаётся малоизученной. Этот пробел подчёркивает необходимость создания качественного эталона для систематической оценки производительности МБЯМ в условиях, приближенных к реальным. Мы представляем SONIC-O1 — всеобъемлющий, полностью верифицированный человеком эталон, охватывающий 13 реальных диалоговых доменов с 4958 аннотациями и метаданными о демографических характеристиках. SONIC-O1 оценивает МБЯМ по ключевым задачам, включая сводную генерацию текста, ответы на вопросы с множественным выбором и временную локализацию с обоснованием (рассуждением). Эксперименты с закрытыми и открытыми моделями выявили ограничения. Хотя разрыв в точности ответов на вопросы с множественным выбором между двумя семействами моделей относительно невелик, мы наблюдаем существенную разницу в 22,6% по показателю временной локализации между лучшей закрытой и лучшей открытой моделью. Производительность дополнительно снижается для различных демографических групп, что указывает на сохраняющиеся диспропорции в поведении моделей. В целом, SONIC-O1 предоставляет открытый набор средств для оценки темпорально обоснованного и социально устойчивого мультимодального понимания. Мы публикуем SONIC-O1 для обеспечения воспроизводимости и дальнейших исследований: Страница проекта: https://vectorinstitute.github.io/sonic-o1/ Набор данных: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Лидерборд: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Мы представляем KAPSO — модульный фреймворк для автономного синтеза и оптимизации программ. Получив цель на естественном языке и метод оценки, KAPSO итеративно выполняет генерацию идей, синтез и редактирование кода, выполнение, оценку и обучение для улучшения исполняемого артефакта в направлении измеримых целевых показателей. Вместо того чтобы рассматривать синтез как конечную точку, KAPSO использует синтез как оператор в рамках долгосрочного оптимизационного цикла, где прогресс определяется результатами оценки. KAPSO решает характерные для программных агентов долгосрочные проблемы, включая потерю экспериментального состояния, хрупкость отладки и слабое повторное использование предметных знаний, за счёт интеграции трёх тесно связанных компонентов. Во-первых, экспериментный механизм, нативный для git, изолирует каждую попытку в отдельной ветке, создавая воспроизводимые артефакты и сохраняя трассировку происхождения между итерациями. Во-вторых, система знаний поглощает разнородные источники, включая репозитории, внутренние плейбуки и курируемые внешние ресурсы, такие как документация, научные статьи и результаты веб-поиска, и организует их в структурированное представление, поддерживающее поиск по рабочим процессам, реализациям и ограничениям окружения. В-третьих, когнитивный уровень памяти координирует поиск и поддерживает эпизодическое хранилище переиспользуемых уроков, извлечённых из трасс экспериментов (журналы выполнения, диффы и обратная связь от оценщика), сокращая повторяющиеся ошибки и ускоряя сходимость. Мы оценили KAPSO на наборах MLE-Bench (соревнования в стиле Kaggle по машинному обучению) и ALE-Bench (эвристическая оптимизация в стиле AtCoder) и представляем результаты сквозного тестирования. Код доступен по адресу: https://github.com/Leeroo-AI/kapso
Паттерны внимания играют ключевую роль как при обучении, так и при выводе больших языковых моделей (LLM). Предыдущие работы выявили отдельные паттерны, такие как головы извлечения, головы-стоки и диагональные следы, однако эти наблюдения остаются разрозненными и не имеют единого объяснения. Чтобы заполнить этот пробел, мы представляем Анализ Предсказуемости Временных Паттернов Внимания (TAPPA) — унифицирующую framework, которая объясняет разнообразные паттерны внимания, анализируя их базовые математические формулировки с точки зрения временной непрерывности. TAPPA как углубляет понимание поведения механизма внимания, так и направляет подходы к ускорению вывода. В частности, TAPPA характеризует паттерны внимания как предсказуемые паттерны с четкими закономерностями и непредсказуемые паттерны, которые выглядят практически случайными. Наш анализ дополнительно показывает, что это различие можно объяснить степенью самоподобия запросов (query) вдоль временной размерности. Сосредоточившись на предсказуемых паттернах, мы далее предоставляем детальный математический анализ трех репрезентативных случаев через совместный эффект запросов (queries), ключей (keys) и ротационных позиционных эмбеддингов (RoPE). Мы проверяем TAPPA, применяя полученные инсайты к задачам сжатия KV-кэша и прунинга LLM. В этих задачах простая метрика, основанная на TAPPA, последовательно улучшает производительность по сравнению с базовыми методами. Код доступен по адресу https://github.com/MIRALab-USTC/LLM-TAPPA.
Мы представляем Визуальный Персонализированный Тест Тьюринга (VPTT) — новую парадигму для оценки контекстной визуальной персонализации, основанную на перцептивной неразличимости, а не на воспроизведении идентичности. Модель проходит VPTT, если её результат (изображение, видео, 3D-объект и т.д.) является неотличимым для человека или калиброванного VLM-оценщика от контента, который данное лицо могло бы правдоподобно создать или опубликовать. Для практической реализации VPTT мы представляем VPTT Framework, включающий бенчмарк на 10 000 персонажей (VPTT-Bench), визуальный генератор с ретривельным усилением (VPRAG) и VPTT Score — текстовую метрику, калиброванную по отношению к суждениям человека и VLM. Мы демонстрируем высокую корреляцию между оценками человека, VLM и VPTT, что подтверждает VPTT Score в качестве надежного перцептивного прокси. Эксперименты показывают, что VPRAG достигает наилучшего баланса между соответствием и оригинальностью, предлагая масштабируемую и безопасную с точки зрения конфиденциальности основу для персонализированного генеративного ИИ.
В пост-деннардовскую эпоху оптимизация встроенных систем требует поиска компромиссов между энергоэффективностью и задержками в условиях сложного пространства параметров. Традиционная эвристическая настройка часто оказывается неэффективной в таких высокоразмерных и негладких ландшафтах. В данной работе мы предлагаем фреймворк на основе байесовской оптимизации с использованием гауссовских процессов для автоматизации поиска оптимальных конфигураций планирования на гетерогенных многоядерных архитектурах. Мы явно учитываем многоцелевой характер задачи путем аппроксимации границы Парето между энергопотреблением и временем выполнения. Кроме того, за счет включения анализа чувствительности (fANOVA) и сравнения различных ковариационных ядер (например, Матерна против RBF) мы обеспечиваем физическую интерпретируемость черного ящика модели, выявляя доминирующие аппаратные параметры, определяющие производительность системы.
Может ли небольшой объем проверенной целевой информации направлять дорогостоящее самообучение базовых моделей на этапе предварительного обучения? Стандартное предварительное обучение оптимизирует фиксированный вспомогательный целевой показатель (например, предсказание следующего токена), что может приводить к нерациональному распределению вычислительных ресурсов в ущерб формированию целевых downstream-способностей. Мы представляем V-Pretraining: ценностно-ориентированный, модально-независимый метод контролируемого продолженного предварительного обучения, в котором облегченный планировщик задач перестраивает задачу предварительного обучения для максимизации ценности каждого шага градиентного спуска. Рассмотрим, например, самообучение с аугментацией выборок. Планировщик задач V-Pretraining выбирает задачи предварительного обучения (например, виды аугментации), для которых градиент потерь предварительного обучения согласован с градиентом, вычисленным по downstream-задаче (например, семантической сегментации изображений). Это помогает направлять предварительное обучение в сторону релевантных downstream-способностей. Примечательно, что предобученная модель никогда не обновляется на метках downstream-задач; они используются исключительно для формирования задачи предварительного обучения. При сопоставимых вычислительных бюджетах V-Pretraining языковых моделей объемом 0,5–7 млрд параметров улучшает показатели логического мышления (GSM8K test Pass@1) до 18% относительно стандартного предсказания следующего токена, используя лишь 12% обучающих примеров GSM8K в качестве обратной связи. В компьютерном зрении мы улучшаем state-of-the-art результаты на ADE20K до 1,07 mIoU, снижаем RMSE на NYUv2 при одновременном улучшении линейной точности на ImageNet, а также представляем предварительные свидетельства повышения токенной эффективности при продолженном предварительном обучении.