HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

41 papers found

PaperBanana: Автоматизация создания научных иллюстраций для специалистов по ИИ
PaperBanana: Automating Academic Illustration for AI Scientists

Jan 30

ByDawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon

201

Несмотря на быстрый прогресс в области автономных ИИ-ученых на основе языковых моделей, создание иллюстраций, готовых к публикации, остается трудоемким узким местом в исследовательском процессе. Чтобы снять эту нагрузку, мы представляем PaperBanana — агентный фреймворк для автоматизированного создания готовых к публикации академических иллюстраций. Используя передовые VLM и модели генерации изображений, PaperBanana координирует работу специализированных агентов для поиска референсов, планирования содержания и стиля, визуализации и итеративного улучшения через самокритику. Для строгой оценки нашего фреймворка мы представляем PaperBananaBench, включающий 292 тестовых сценария для диаграмм методологии, отобранных из публикаций NeurIPS 2025 и охватывающих различные исследовательские области и стили иллюстраций. Всесторонние эксперименты демонстрируют, что PaperBanana стабильно превосходит ведущие базовые методы по точности, лаконичности, читаемости и эстетике. Мы также показываем, что наш метод эффективно расширяется для генерации высококачественных статистических графиков. В совокупности PaperBanana открывает путь к автоматизированному созданию иллюстраций, готовых к публикации.

Золотой гусь: простой способ синтезировать неограниченное количество RLVR-задач из непроверяемых интернет-текстов
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Jan 30

ByXiming Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi

105

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало краеугольным камнем для раскрытия сложных рассуждений в больших языковых моделях (LLM). Однако масштабирование RL ограничено небольшим объемом существующих верифицируемых данных, где улучшения все больше насыщаются при длительном обучении. Чтобы преодолеть это, мы предлагаем Golden Goose — простой метод синтеза неограниченного количества задач RLVR из непроверяемых интернет-текстов путем создания версии задачи заполнения пропуска в формате вопросов с множественным выбором. Исходный текст используется для того, чтобы LLM идентифицировала и замаскировала ключевые шаги рассуждений, а затем сгенерировала набор разнообразных правдоподобных дистракторов. Это позволяет задействовать богатые логикой непроверяемые корпуса, которые обычно исключались из предыдущих подходов к созданию данных RLVR (например, научные учебники), для синтеза GooseReason-0.7M — масштабного набора данных RLVR, содержащего более 0.7 миллионов задач из областей математики, программирования и общенаучных дисциплин. Экспериментально показано, что GooseReason эффективно оживляет модели, насытившиеся на существующих данных RLVR, обеспечивая устойчивый прогресс при непрерывном RL и устанавливая новые рекордные результаты для инструктивных моделей объемом 1.5B и 4B параметров на 15 разнообразных бенчмарках. Наконец, мы развернули Golden Goose в реальных условиях, синтезировав задачи RLVR из сырых данных FineWeb для области кибербезопасности, где ранее не существовало данных RLVR. Обучение модели Qwen3-4B-Instruct на полученных данных GooseReason-Cyber устанавливает новый рекорд в кибербезопасности, превосходя специализированную 7B-модель с обширным доменно-специфичным предобучением и постобработкой. Это подчеркивает потенциал автоматического масштабирования данных RLVR за счет использования обильных, богатых логикой, но непроверяемых интернет-текстов.

ASTRA: Автоматизированный синтез агентных траекторий и арен для обучения с подкреплением
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Jan 29

ByXiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu

Крупные языковые модели (LLMs) все чаще используются как агенты, усиленные инструментами, для многошагового принятия решений, однако обучение надежных агентов, использующих инструменты, остается сложной задачей. Существующие методы по-прежнему требуют ручного вмешательства, зависят от непроверяемых имитационных сред, полагаются исключительно либо на контролируемую тонкую настройку (SFT), либо на обучение с подкреплением (RL), и испытывают трудности со стабильным обучением на длинных временных горизонтах с множеством шагов. Для решения этих проблем мы представляем ASTRA — полностью автоматизированную сквозную платформу для обучения языковых моделей-агентов, усиленных инструментами, с помощью масштабируемого синтеза данных и проверяемого обучения с подкреплением. ASTRA объединяет два взаимодополняющих компонента. Во-первых, конвейер, использующий статическую топологию графов вызовов инструментов, синтезирует разнообразные, структурно обоснованные траектории, прививая широкую и переносимую компетенцию использования инструментов. Во-вторых, фреймворк синтеза сред, который захватывает богатую, композиционную топологию человеческого семантического мышления, преобразует декомпозированные вопросно-ответные трассы в независимые, исполняемые в виде кода и проверяемые по правилам среды, позволяя детерминированное многошаговое RL. На основе этого метода мы разрабатываем унифицированную методологию обучения, которая интегрирует SFT с онлайн RL, используя вознаграждения на уровне траекторий для балансировки завершения задачи и эффективности взаимодействия. Эксперименты на нескольких бенчмарках агентского использования инструментов демонстрируют, что модели, обученные с помощью ASTRA, достигают передовой производительности на сопоставимых масштабах, приближаясь к проприетарным системам при сохранении ключевых способностей к рассуждению. Мы публикуем полные конвейеры, среды и обученные модели по адресу https://github.com/LianjiaTech/astra.

Квартет II: Точное предварительное обучение больших языковых моделей в NVFP4 с помощью улучшенной несмещенной оценки градиента
Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation

Jan 30

ByAndrei Panferov, Erik Schultheis, Soroush Tabesh, Dan Alistarh

Формат пониженной точности NVFP4, аппаратно поддерживаемый графическими процессорами NVIDIA Blackwell, впервые позволяет проводить сквозное полностью квантизованное предварительное обучение масштабных моделей, таких как большие языковые модели (LLM). Однако существующие методы квантизованного обучения по-прежнему жертвуют частью репрезентативной способности этого формата в пользу более точной несмещенной оценки квантизованного градиента с помощью стохастического округления (SR), что приводит к заметной потере точности по сравнению со стандартным обучением в форматах FP16 и FP8. В данной статье мы улучшаем состояние дел в области квантизованного обучения в NVFP4 за счет новой процедуры несмещенного квантования для микромасштабируемых форматов, названной MS-EDEN, которая имеет более чем в 2 раза меньшую ошибку квантования, чем SR. Мы интегрируем её в новую схему полного квантирования линейных слоев в NVFP4, названную Quartet II. Аналитически мы показываем, что Quartet II обеспечивает consistently более точную оценку градиента во всех основных матричных умножениях, как при прямом, так и при обратном проходах. Кроме того, наше предложение хорошо сочетается с последними улучшениями в обучении, разработанными специально для NVFP4. Мы дополнительно проверяем Quartet II на сквозном обучении LLM с числом параметров до 1,9 млрд на 38 млрд токенов. Мы предоставляем ядра для выполнения на GPU NVIDIA Blackwell с ускорением до 4,2 раза по сравнению с BF16. Наш код доступен по адресу https://github.com/IST-DASLab/Quartet-II.

THINKSAFE: Самогенерируемое обеспечение безопасности для моделей рассуждений
THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Jan 30

BySeanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang

Крупные модели рассуждений (LRM) демонстрируют выдающиеся результаты, используя обучение с подкреплением (RL) на задачах логического вывода для генерации длинных цепочек рассуждений (CoT). Однако такая чрезмерная оптимизация часто приводит к приоритету соответствия запросам, что делает модели уязвимыми к вредоносным промптам. Для смягчения этого снижения безопасности современные подходы полагаются на дистилляцию знаний от внешних моделей-учителей, что, в свою очередь, создает распределительное расхождение, ухудшающее собственные способности модели к рассуждениям. Мы предлагаем ThinkSafe — фреймворк самогенерируемого выравнивания, который восстанавливает безопасностную адаптацию без внешних учителей. Наше ключевое наблюдение заключается в том, что хотя стремление к соответствию подавляет механизмы безопасности, модели часто сохраняют скрытые знания для распознавания вреда. ThinkSafe раскрывает этот потенциал с помощью легковесного управления отказами, направляя модель на генерацию безопасных трасс рассуждений, соответствующих ее исходному распределению. Дообучение на этих самогенерированных ответах эффективно перевыравнивает модель, минимизируя сдвиг распределения. Эксперименты на DeepSeek-R1-Distill и Qwen3 показывают, что ThinkSafe значительно повышает безопасность, сохраняя при этом качество рассуждений. Примечательно, что метод достигает превосходной безопасности и сопоставимого с GRPO уровня рассуждений при значительно меньших вычислительных затратах. Код, модели и наборы данных доступны по адресу https://github.com/seanie12/ThinkSafe.git.

ReGuLaR: Вариационный латентный вывод, управляемый визуализированной цепочкой рассуждений
ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Jan 30

ByFanmeng Wang, Haotian Liu, Guojiang Zhao, Hongteng Xu, Zhifeng Gao

Хотя метод цепочки рассуждений (CoT) значительно повышает производительность больших языковых моделей (LLM), явные цепочки рассуждений вносят существенную вычислительную избыточность. Новейшие методы латентного рассуждения пытаются устранить это путем сжатия процессов рассуждения в латентное пространство, но часто страдают от значительного снижения производительности из-за отсутствия адекватных ориентиров сжатия. В данном исследовании мы предлагаем Rendered CoT-Guided variational Latent Reasoning (ReGuLaR) — простую, но новую парадигму латентного обучения, решающую эту проблему. В основе нашего подхода лежит формулировка латентного рассуждения в рамках вариационного автоэнкодера (VAE), где текущее латентное состояние рассуждения семплируется из апостериорного распределения, обусловленного предыдущими состояниями. В частности, при обучении этой вариационной модели латентного рассуждения мы визуализируем явные цепочки рассуждений в виде изображений, из которых извлекаются плотные визуально-семантические представления для регуляризации апостериорного распределения, что позволяет достичь эффективного сжатия с минимальными потерями информации. Многочисленные эксперименты демонстрируют, что ReGuLaR значительно превосходит существующие методы латентного рассуждения как по вычислительной эффективности, так и по результативности рассуждений, а даже превосходит CoT благодаря мультимодальному рассуждению, предлагая новое и перспективное решение для латентного рассуждения. Код: https://github.com/FanmengWang/ReGuLaR.

TTCS: Синтез учебного плана в момент тестирования для саморазвития
TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Jan 30

ByChengyi Yang, Zhishang Xiang, Yunbo Tang, Zongpei Teng, Chengsong Huang, Fei Long, Yuhan Liu, Jinsong Su

Обучение во время тестирования (Test-Time Training) предлагает перспективный способ улучшения способности к рассуждению больших языковых моделей (LLM) путем адаптации модели с использованием только тестовых вопросов. Однако существующие методы сталкиваются с трудностями при решении сложных задач по двум причинам: исходные тестовые вопросы часто слишком сложны для получения высококачественных псевдо-меток, а ограниченный размер тестовых наборов делает непрерывные онлайн-обновления склонными к нестабильности. Для преодоления этих ограничений мы предлагаем TTCS — совместно эволюционирующую структуру обучения во время тестирования. В частности, TTCS инициализирует две стратегии из одной предварительно обученной модели: синтезатор вопросов и решатель задач. Эти стратегии развиваются посредством итеративной оптимизации: синтезатор генерирует постепенно усложняющиеся варианты вопросов на основе тестовых, создавая структурированную учебную программу, адаптированную к текущим возможностям решателя, в то время как решатель обновляет себя, используя вознаграждения за самосогласованность, вычисленные на основе множества sampled-ответов как на оригинальные тестовые, так и на синтетические вопросы. Ключевым моментом является то, что обратная связь от решателя направляет синтезатор на генерацию вопросов, соответствующих текущим возможностям модели, а сгенерированные варианты вопросов, в свою очередь, стабилизируют обучение решателя во время тестирования. Эксперименты показывают, что TTCS последовательно усиливает способность к рассуждению на сложных математических бенчмарках и демонстрирует перенос на задачи из общей области для различных архитектур LLM, что указывает на масштабируемый путь к динамическому построению учебных программ для саморазвития во время тестирования. Наш код и детали реализации доступны по адресу https://github.com/XMUDeepLIT/TTCS.

Колмогоровская причинно-следственная модель мира для управления роботами
Causal World Modeling for Robot Control

Jan 29

ByLin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu

Данная работа демонстрирует, что моделирование мира на основе видео в сочетании с предварительным обучением на визуально-языковых данных формирует новую и самостоятельную основу для обучения роботов. Интуитивно, видеомодели мира предоставляют возможность предсказывать ближайшее будущее за счет понимания причинно-следственных связей между действиями и визуальной динамикой. Вдохновленные этим, мы представляем LingBot-VA — авторегрессионную диффузионную архитектуру, которая одновременно обучается прогнозированию кадров и исполнению политик. Наша модель включает три тщательно разработанных компонента: (1) общее латентное пространство, объединяющее визуальные и акторные токены на основе архитектуры Mixture-of-Transformers (MoT), (2) механизм замкнутого прогнозирования (closed-loop rollout), позволяющий непрерывно получать обратную связь от среды с использованием реальных наблюдений, (3) асинхронный конвейер вывода, параллелизирующий прогнозирование действий и моторное исполнение для обеспечения эффективного управления. Мы оцениваем нашу модель на симуляционных тестах и в реальных сценариях, где она демонстрирует значительный потенциал в задачах длительного манипулирования, высокой данныхой эффективности после обучения и robustной обобщаемости к новым конфигурациям. Код и модель публично доступны для содействия научному сообществу.

MemOCR: Визуальная память с учетом компоновки для эффективного рассуждения на длинных горизонтах
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Jan 29

ByYaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang

Долгосрочное агентное рассуждение требует эффективного сжатия растущей истории взаимодействий в ограниченное окно контекста. Большинство существующих систем памяти сериализуют историю в виде текста, где стоимость на уровне токенов является единообразной и масштабируется линейно с длиной, зачастую расходуя ограниченный бюджет на маловажные детали. В связи с этим мы представляем MemOCR, многомодального агента памяти, который улучшает долгосрочное рассуждение в условиях жёстких бюджетов контекста за счёт распределения пространства памяти с адаптивной плотностью информации посредством визуального макета. Конкретно, MemOCR поддерживает структурированную память в формате богатого текста (например, с заголовками, выделениями) и визуализирует её в виде изображения, которое агент использует для доступа к памяти, визуально расставляя приоритеты для ключевых доказательств при агрессивном сжатии вспомогательных деталей. Для обеспечения устойчивости к различным бюджетам памяти мы обучаем MemOCR с помощью обучения с подкреплением на основе целевых функций, учитывающих бюджет, что подвергает агента воздействию различных уровней сжатия. На наборах данных для многозвенного и однозвенного вопросно-ответного моделирования с длинным контекстом MemOCR превосходит сильные текстовые базовые модели и демонстрирует более эффективное использование контекста в условиях экстремально малых бюджетов.

Улучшают ли модели логического вывода модели эмбеддингов?
Do Reasoning Models Enhance Embedding Models?

Jan 29

ByWun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song

Современные модели эмбиддингов всё чаще создаются на основе декодерных больших языковых моделей (LLM), адаптированных с помощью контрастивного обучения. С появлением моделей рассуждений, обученных посредством обучения с подкреплением и верифицируемыми вознаграждениями (RLVR), возникает естественный вопрос: приводит ли улучшение способности к рассуждениям к превосходным семантическим репрезентациям, когда эти модели используются в качестве инициализации для эмбиддингов? Вопреки ожиданиям, наша оценка на наборах данных MTEB и BRIGHT выявляет **нулевой эффект**: модели эмбиддингов, инициализированные на основе RLVR-дообученных моделей, не демонстрируют устойчивого преимущества в производительности по сравнению со своими базовыми аналогами при идентичных рецептах обучения. Для анализа этого парадокса мы представляем **И**ерархический **А**нализ **С**ходства **Р**епрезентаций (HRSA) — фреймворк, который декомпозирует сходство на уровне репрезентаций, геометрии и функций. HRSA показывает, что хотя RLVR вызывает необратимую реорганизацию локальной геометрии латентного многообразия и обратимый дрейф координатного базиса, он сохраняет глобальную геометрию многообразия и линейное считывание. Как следствие, последующее контрастивное обучение приводит к сильному выравниванию между моделями, инициализированными от базовой и RLVR-модели, — феномен, который мы называем **Реалигнингом Многообразия**. Эмпирически наши результаты позволяют предположить, что в отличие от контролируемого дообучения (SFT), RLVR оптимизирует траектории внутри существующего семантического ландшафта, а не фундаментально перестраивает сам ландшафт.

Статистическая оценка риска атаки в больших языковых моделях при выборке Best-of-N
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Jan 30

ByMingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao

Крупные языковые модели (LLM) обычно оцениваются на безопасность в условиях однократного или низкобюджетного адверсарного промптинга, что недооценивает риски в реальных условиях. На практике злоумышленники могут использовать крупномасштабное параллельное сэмплирование для многократного зондирования модели до получения вредоносного ответа. Хотя последние исследования показывают, что успешность атаки возрастает с увеличением числа повторов, принципиальные методы прогнозирования крупномасштабного адверсарного риска остаются ограниченными. Мы предлагаем масштабируемую оценку риска Best-of-N (SABER) для моделирования уязвимости к взлому (jailbreak) при сэмплировании по схеме Best-of-N. Мы моделируем вероятности успеха на уровне сэмплов с помощью бета-распределения, являющегося сопряжённым априорным для распределения Бернулли, и выводим аналитический закон масштабирования, который позволяет надёжно экстраполировать показатели успешности атаки для большого N на основе измерений с малым бюджетом. Используя всего n=100 сэмплов, наш анкерный оценщик предсказывает ASR@1000 со средней абсолютной ошибкой 1,66 по сравнению с 12,04 у базового метода, что означает снижение ошибки оценки на 86,2%. Наши результаты выявляют неоднородные профили масштабирования риска и показывают, что модели, кажущиеся устойчивыми при стандартной оценке, могут испытывать быстрое нелинейное усиление риска под параллельным адверсарным воздействием. Данная работа предлагает экономичную и масштабируемую методологию для реалистичной оценки безопасности LLM. Мы опубликуем наш код и скрипты для оценки после публикации в интересах будущих исследований.

FourierSampler: Раскрытие потенциала неавторегрессивных методов в диффузионных языковых моделях через частотно-управляемую генерацию
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Jan 30

BySiyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu

Несмотря на неавторегрессионный потенциал диффузионных языковых моделей (dLLM), существующие стратегии декодирования демонстрируют позиционное смещение, не позволяя полностью раскрыть потенциал произвольного порождения текста. В данной работе мы исследуем присущие dLLM спектральные характеристики и представляем первый частотно-доменный анализ, показывающий, что низкочастотные компоненты в скрытых состояниях в основном кодируют глобальную структурную информацию и дальние зависимости, тогда как высокочастотные компоненты отвечают за характеристику локальных деталей. На основе этого наблюдения мы предлагаем FourierSampler — метод, использующий механизм скользящего окна в частотной области для динамического управления моделью с целью достижения генерации «от структуры к деталям». FourierSampler превосходит другие стратегии улучшения вывода на наборах данных LLADA и SDAR, достигая относительного улучшения на 20.4% для LLaDA1.5-8B и на 16.0% для LLaDA-8B-Instruct. Он также значительно опережает авторегрессионные модели сопоставимого размера, такие как Llama3.1-8B-Instruct.

PaddleOCR-VL-1.5: Создание многозадачной VLM-архитектуры на 0.9B параметров для надежного анализа документов в реальных условиях
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Jan 29

ByCheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma

Мы представляем PaddleOCR-VL-1.5 — усовершенствованную модель, которая устанавливает новый рекорд точности (state-of-the-art, SOTA) в 94.5% на тестовом наборе OmniDocBench v1.5. Для строгой оценки устойчивости к реальным физическим искажениям, включая сканирование, перекос, деформацию, фотографирование с экрана и изменение освещения, мы предлагаем новый бенчмарк Real5-OmniDocBench. Результаты экспериментов демонстрируют, что улучшенная модель достигает наилучших показателей на новом бенчмарке. Кроме того, мы расширяем возможности модели, добавив задачи распознавания печатей и обнаружения текста, сохраняя при этом высокую эффективность в рамках ультракомпактной VLM-архитектуры объемом 0.9 млрд параметров. Код: https://github.com/PaddlePaddle/PaddleOCR

DenseGRPO: От разреженной к плотной функции вознаграждения для согласования моделей с помощью потокового согласования
DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Jan 28

ByHaoyou Deng, Keyu Yan, Chaojie Mao, Xiang Wang, Yu Liu, Changxin Gao, Nong Sang

Недавние подходы на основе GRPO, построенные на моделях согласования потоков, продемонстрировали значительный прогресс в согласовании с человеческими предпочтениями для задач генерации изображений по тексту. Тем не менее, они по-прежнему страдают от проблемы разреженного вознаграждения: итоговое вознаграждение за всю траекторию денойзинга применяется ко всем промежуточным шагам, что приводит к несоответствию между глобальными сигналами обратной связи и точным вкладом отдельных шагов на промежуточных стадиях денойзинга. Для решения этой проблемы мы представляем DenseGRPO — новую структуру, которая согласует человеческие предпочтения с помощью плотных вознаграждений, оценивающих детальный вклад каждого шага денойзинга. Конкретно наш подход включает два ключевых компонента: (1) мы предлагаем прогнозировать прирост вознаграждения на каждом шаге в качестве плотного вознаграждения за шаг денойзинга, применяя модель вознаграждения к промежуточным очищенным изображениям с помощью подхода на основе ОДУ. Такой подход обеспечивает соответствие между сигналами обратной связи и вкладом отдельных шагов, способствуя эффективному обучению; и (2) на основе оцененных плотных вознаграждений выявляется недостаток несоответствия между равномерной настройкой исследования и изменяющейся во времени интенсивностью шума в существующих методах на основе GRPO, что приводит к неоптимальному пространству исследований. Таким образом, мы предлагаем схему, учитывающую вознаграждение, для калибровки пространства исследований путем адаптивной регулировки стохастической инъекции, специфичной для временного шага, в сэмплере на основе СДУ, что гарантирует подходящее пространство исследований на всех временных шагах. Многочисленные эксперименты на нескольких стандартных бенчмарках демонстрируют эффективность предложенного DenseGRPO и подчеркивают ключевую роль валидных плотных вознаграждений в согласовании моделей потокового согласования.

DINO-SAE: Сферический автоэнкодер DINO для высокоточной реконструкции и генерации изображений
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Jan 30

ByHun Chang, Byunghee Cha, Jong Chul Ye

В последних исследованиях изучалось использование предобученных визуальных базовых моделей (VFM), таких как DINO, для генеративных автокодировщиков, демонстрируя высокую генеративную производительность. К сожалению, существующие подходы часто страдают от ограниченной точности реконструкции из-за потери высокочастотных деталей. В данной работе мы представляем Сферический Автокодировщик DINO (DINO-SAE) — фреймворк, который объединяет семантическое представление и реконструкцию на уровне пикселей. Наше ключевое наблюдение заключается в том, что семантическая информация в контрастных представлениях в основном кодируется в направлении векторов признаков, тогда как принудительное строгое соответствие амплитуд может препятствовать способности энкодера сохранять мелкозернистые детали. Для решения этой проблемы мы вводим модуль Иерархического Сверточного Встраивания Патчей, который улучшает сохранение локальной структуры и текстуры, и цель Выравнивания по Косинусному Сходству, которая обеспечивает семантическую согласованность, позволяя при этом гибко варьировать амплитуды признаков для сохранения деталей. Кроме того, используя наблюдение, что представления базовых моделей, основанных на self-supervised learning, по своей природе лежат на гиперсфере, мы применяем Риманово Согласование Потоков для обучения Трансформера Диффузии (DiT) непосредственно на этом сферическом латентном многообразии. Эксперименты на ImageNet-1K показывают, что наш подход достигает наилучшего качества реконструкции — 0.37 rFID и 26.2 дБ PSNR, — сохраняя при этом сильную семантическую согласованность с предобученной VFM. Примечательно, что наш DiT на основе Риманова Согласования Потоков демонстрирует эффективную сходимость, достигая gFID 3.47 на 80 эпохах.

DreamActor-M2: Универсальная анимация персонажных изображений посредством пространственно-временного ин-контекстного обучения
DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Jan 29

ByMingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao

Анимация изображений персонажей ставит целью синтез высококачественных видео путем переноса движения из управляющей последовательности на статическое референсное изображение. Несмотря на недавние достижения, существующие методы страдают от двух фундаментальных проблем: (1) субоптимальные стратегии внедрения движения, приводящие к компромиссу между сохранением идентичности и соответствием движению, что проявляется в виде "качелей", и (2) чрезмерная зависимость от явных позных priors (например, скелетов), которые недостаточно точно capture сложную динамику и препятствуют обобщению на произвольных не-гуманоидных персонажей. Для решения этих проблем мы представляем DreamActor-M2 — универсальную framework анимации, которая переосмысливает conditioning движения как задачу in-context обучения. Наш подход следует двухэтапной парадигме. Сначала мы устраняем разрыв входных модальностей путем fusion референсной внешности и motion cues в единое латентное пространство, что позволяет модели совместно анализировать пространственную идентичность и временную динамику, используя генеративный prior фундаментальных models. Во-вторых, мы представляем self-bootstrapped pipeline синтеза данных, который курирует псевдопары для обучения с кросс-идентичностью, обеспечивая плавный переход от позозависимого управления к прямой, end-to-end RGB-управляемой анимации. Эта стратегия значительно улучшает обобщение для разнообразных персонажей и сценариев движения. Для комплексной оценки мы также представляем AW Bench — универсальный benchmark, охватывающий широкий спектр типов персонажей и сценариев движения. Многочисленные эксперименты демонстрируют, что DreamActor-M2 достигает state-of-the-art производительности, обеспечивая превосходное визуальное качество и robust кросс-доменное обобщение. Страница проекта: https://grisoon.github.io/DreamActor-M2/

Выровненная модель вознаграждения в реальном времени, выходящая за рамки семантики
Real-Time Aligned Reward Model beyond Semantics

Jan 30

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

Обучение с подкреплением на основе человеческих откликов (RLHF) является ключевой методикой для согласования больших языковых моделей (LLM) с человеческими предпочтениями, однако оно подвержено проблеме сверхоптимизации награды. В этом случае политика модели переобучается на модель награды, эксплуатируя случайные паттерны вознаграждения вместо точного отражения человеческих намерений. Предыдущие методы смягчения в основном опирались на поверхностную семантическую информацию и не позволяли эффективно устранять рассогласование между моделью награды (RM) и моделью политики, вызванное непрерывными сдвигами распределения политики. Это неизбежно приводит к нарастанию расхождения в награде, усугубляя проблему сверхоптимизации. Для преодоления этих ограничений мы представляем R2M — новую облегченную архитектуру RLHF. R2M выходит за рамки стандартных моделей награды, которые полагаются исключительно на семантические представления предварительно обученной LLM. Вместо этого она использует эволюционирующие скрытые состояния политики (так называемую обратную связь политики) для согласования с текущим сдвигом распределения политики в процессе обучения с подкреплением. Данная работа указывает на перспективное новое направление для повышения производительности моделей награды за счет оперативного использования обратной связи от моделей политики.

SSL: Обучение в точке оптимальной эффективности для дифференцированного управления в агентной оптимизации
SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Jan 30

ByJinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu

Обучение с подкреплением с верифицируемыми вознаграждениями стало мощной парадигмой для тренировки интеллектуальных агентов. Однако существующие методы обычно используют бинарные вознаграждения, которые не способны уловить различия в качестве траекторий, достигающих идентичных результатов, тем самым упуская из виду потенциальное разнообразие в пространстве решений. Вдохновлённые концепцией «сладкого пятна» в теннисе — центральной области ракетки, обеспечивающей оптимальный ударный эффект, — мы представляем Sweet Spot Learning (SSL), новую структуру, которая предоставляет дифференцированное руководство для оптимизации агента. SSL следует простому, но эффективному принципу: прогрессивно усиливающиеся, многоуровневые вознаграждения направляют политики к области «сладкого пятна» в пространстве решений. Этот принцип естественным образом адаптируется к разнообразным задачам: задачи визуального восприятия используют дистанционно-уровневое моделирование для вознаграждения близости, в то время как сложные логические задачи вознаграждают инкрементальный прогресс в направлении перспективных решений. Теоретически мы демонстрируем, что SSL сохраняет оптимальный порядок решений и усиливает отношение сигнал/шум градиента, тем самым способствуя более направленной оптимизации. Многочисленные эксперименты на задачах GUI-восприятия, краткосрочного/долгосрочного планирования и сложных логических рассуждений показывают стабильное улучшение по сравнению с сильными базовыми уровнями на 12 бенчмарках, достигая до 2.5-кратного повышения эффективности использования выборок и эффективной межзадачной переносимости. Наша работа утверждает SSL в качестве общего принципа для обучения способных и устойчивых агентов.

DIFFA-2: Практическая диффузионная большая языковая модель для общего понимания аудио
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Jan 30

ByJiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin

Авторегрессионные (AR) большие аудио-языковые модели (LALM), такие как Qwen-2.5-Omni, демонстрируют высокую производительность в задачах понимания и взаимодействия с аудио, однако их масштабирование остается дорогостоящим с точки зрения данных и вычислений, а строго последовательное декодирование ограничивает эффективность вывода. Диффузионные большие языковые модели (dLLM) недавно показали свою способность эффективно использовать ограниченные обучающие данные, а предыдущие исследования DIFFA показали, что замена AR-архитектуры на диффузионную аналог может существенно улучшить понимание аудио в сопоставимых условиях, хотя и на уровне доказательства концепции — без масштабной инструктивной тонкой настройки, выравнивания предпочтений или практических схем декодирования. Мы представляем DIFFA-2, практическую диффузионную LALM для общего понимания аудио. DIFFA-2 улучшает речевой кодировщик, использует двойные семантические и акустические адаптеры и обучается по четырехэтапной учебной программе, сочетающей семантическое и акустическое выравнивание, масштабную контролируемую тонкую настройку и оптимизацию предпочтений с уменьшенной дисперсией, используя только полностью открытые корпуса. Эксперименты на MMSU, MMAU и MMAR показывают, что DIFFA-2 стабильно превосходит DIFFA и конкурирует с сильными AR LALM при практических бюджетах обучения, подтверждая, что диффузионное моделирование является жизнеспособной основой для масштабного понимания аудио. Наш код доступен по адресу https://github.com/NKU-HLT/DIFFA.git.

Расширяя границы естественных рассуждений: преимущества чередующейся верификации средствами формальной логики
Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

Jan 30

ByChuxue Cao, Jinluan Yang, Haoran Li, Kunhao Pan, Zijian Zhao, Zhengyu Chen, Yuchen Tian, Lijun Wu, Conghui He, Sirui Han, Yike Guo

Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, однако их стохастическое предсказание следующей лексемы порождает логические противоречия и взлом системы вознаграждений, которых избегают формальные символьные системы. Для преодоления этого разрыва мы представляем фреймворк, управляемый верификацией формальной логики, который динамически чередует формальную символьную верификацию с процессом генерации естественного языка, обеспечивая обратную связь в реальном времени для обнаружения и исправления ошибок по мере их возникновения. В отличие от предыдущих нейро-символьных методов, ограниченных пассивной апостериорной валидацией, наш подход активно штрафует промежуточные заблуждения в цепи рассуждений. Мы реализуем этот фреймворк с помощью нового двухэтапного конвейера обучения, который объединяет контролируемую тонкую настройку под руководством верификации формальной логики и оптимизацию политики. Обширная оценка на шести тестовых наборах, охватывающих математические, логические и общерассудительные задачи, показывает, что наши модели с 7 и 14 миллиардами параметров превосходят современные базовые уровни в среднем на 10,4% и 14,2% соответственно. Эти результаты подтверждают, что формальная верификация может служить масштабируемым механизмом для значительного расширения границ производительности передовых систем логического вывода LLM.

NativeTok: Нативная визуальная токенизация для улучшения генерации изображений
NativeTok: Native Visual Tokenization for Improved Image Generation

Jan 30

ByBin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao

Генерация изображений на основе векторного квантования (VQ) обычно реализуется по двухэтапной схеме: токенизатор кодирует изображения в дискретные токены, а генеративная модель изучает их взаимозависимости для реконструкции. Однако улучшение токенизации на первом этапе не обязательно повышает качество генерации на втором этапе, поскольку существующие методы не накладывают ограничений на зависимости между токенами. Это несоответствие заставляет генеративную модель обучаться на неупорядоченных распределениях, что приводит к смещениям и слабой связности. Для решения этой проблемы мы предлагаем метод нативной визуальной токенизации, который обеспечивает причинно-следственные зависимости в процессе токенизации. На основе этой идеи мы представляем NativeTok — фреймворк, достигающий эффективной реконструкции при внедрении реляционных ограничений в последовательности токенов. NativeTok состоит из: (1) Meta Image Transformer (MIT) для моделирования латентных представлений изображений и (2) Mixture of Causal Expert Transformer (MoCET), в котором каждый облегченный экспертный блок генерирует отдельный токен с учетом предыдущих токенов и латентных признаков. Мы также разработали иерархическую стратегию нативного обучения, которая обновляет только новые экспертные блоки, обеспечивая эффективность обучения. Многочисленные эксперименты подтверждают эффективность NativeTok.

Устойчивое использование инструментов с помощью Fission-GRPO: Обучение восстановлению после ошибок выполнения
Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Jan 22

ByZhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong

Крупные языковые модели (LLM) эффективно используют инструменты, однако остаются уязвимыми при многошаговом выполнении: после ошибки вызова инструмента небольшие модели часто деградируют до повторяющихся некорректных попыток, неспособных интерпретировать сообщения об ошибках и самокорректироваться. Эта хрупкость препятствует надежному практическому применению, поскольку ошибки выполнения неизбежны в процессах взаимодействия с инструментами. Мы выявляем ключевое ограничение современных подходов: стандартное обучение с подкреплением (RL) трактует ошибки как редкие негативные вознаграждения, не давая указаний по восстановлению, а предварительно собранные синтетические наборы данных для коррекции ошибок страдают от расхождения распределений с реальными ошибками модели в процессе эксплуатации. Для преодоления этого разрыва мы предлагаем Fission-GRPO — фреймворк, преобразующий ошибки выполнения в корректирующие инструкции внутри цикла RL-обучения. Наш ключевой механизм расщепляет каждый неудачный траекторий на новый обучающий пример, дополняя его диагностической обратной связью от дообученного симулятора ошибок, и повторно сэмплирует траектории восстановления в соответствии с текущей политикой. Это позволяет модели обучаться на конкретных ошибках, возникающих в процессе исследования, а не на статических, заранее собранных случаях. На тесте BFCL v4 Multi-Turn метод Fission-GRPO повышает показатель восстановления после ошибок для модели Qwen3-8B на 5.7% в абсолютных значениях, что критически важно — обеспечивает общий прирост точности на 4% (с 42.75% до 46.75%) по сравнению с GRPO и превосходит специализированные агенты для работы с инструментами.

TAM-Eval: Оценка больших языковых моделей для автоматизированного сопровождения модульных тестов
TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Jan 26

ByElena Bruches, Vadim Alperovich, Dari Baturova, Roman Derunets, Daniil Grebenkin, Georgy Mkrtchyan, Oleg Sedukhin, Mikhail Klementev, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

Хотя большие языковые модели (LLM) продемонстрировали потенциал в области программной инженерии, их применение для модульного тестирования в значительной степени ограничивается изолированной генерацией тестов или предсказанием оракулов, игнорируя более широкую проблему сопровождения тестовых наборов. Мы представляем TAM-Eval (Test Automated Maintenance Evaluation) — фреймворк и бенчмарк, предназначенные для оценки производительности моделей в трех основных сценариях сопровождения тестов: создание, исправление и обновление тестовых наборов. В отличие от предыдущих работ, ограниченных задачами на уровне функций, TAM-Eval работает на уровне тестовых файлов, сохраняя при этом доступ к полному контексту репозитория в ходе изолированной оценки, что лучше отражает реальные процессы сопровождения. Наш бенчмарк включает 1539 автоматически извлеченных и проверенных сценариев из проектов на Python, Java и Go. TAM-Eval поддерживает системно-независимую оценку как сырых LLM, так и агентских workflow, используя беспризнаковый протокол, основанный на проходимости тестового набора, покрытии кода и мутационном тестировании. Эмпирические результаты показывают, что современные LLM обладают ограниченными возможностями в реалистичных процессах сопровождения тестов и приводят лишь к незначительному улучшению эффективности тестирования. Мы публикуем TAM-Eval в качестве open-source фреймворка для поддержки будущих исследований в области автоматизированного тестирования программного обеспечения. Наши данные и код доступны по адресу https://github.com/trndcenter/TAM-Eval.

RM-RF: Модель Вознаграждения для Оценки Модульных Тестов без Выполнения
RM -RF: Reward Model for Run-Free Unit Test Evaluation

Jan 19

ByElena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

Мы представляем RM-RF — облегченную модель оценки для выполнения проверки автоматически сгенерированных модульных тестов без их запуска. Вместо многократной компиляции и выполнения тестов-кандидатов RM-RF предсказывает исключительно на основе исходного и тестового кода три сигнала, обычно получаемые при выполнении: (1) успешность компиляции и запуска дополненного набора тестов, (2) увеличение покрытия кода сгенерированными тестовыми случаями и (3) улучшение показателя убийства мутантов сгенерированными тестовыми случаями. Для обучения и оценки RM-RF мы собрали многозадачный набор данных (Java, Python, Go), содержащий целевые файлы, тестовые файлы и тестовые дополнения-кандидаты, размеченные с помощью пайплайна на основе выполнения, и публикуем соответствующий набор данных и методологию для сравнительной оценки. Мы протестировали несколько семейств моделей и режимов настройки (zero-shot, полная тонкая настройка и PEFT через LoRA), достигнув среднего значения F1, равного 0.69, по всем трем целевым показателям. По сравнению с традиционными инструментами компиляции и запуска RM-RF обеспечивает существенно более низкую задержку и стоимость инфраструктуры, сохраняя при этом конкурентоспособную прогностическую точность, что позволяет обеспечить быструю и масштабируемую обратную связь для крупномасштабной генерации тестов и оптимизации кода на основе обучения с подкреплением.

Масштабирование многоагентных систем с поощрениями на уровне процессов
Scaling Multiagent Systems with Process Rewards

Jan 30

ByEd Li, Junyu Ren, Cat Yan

Хотя многоагентные системы демонстрируют потенциал для решения сложных задач за счет специализации, тонкая настройка нескольких агентов одновременно сталкивается с двумя ключевыми проблемами: (1) распределением заслуг между агентами и (2) эффективностью использования дорогостоящих сэмплов в многоагентных прогонах. В данной работе мы предлагаем метод тонкой настройки многоагентных систем с пошаговыми вознаграждениями на основе ИИ-обратной связи (MAPPA) для решения обеих проблем. Присваивая заслуги отдельным действиям агентов, а не только по завершении задачи, MAPPA обеспечивает детализированный контроль без эталонных меток, одновременно извлекая максимальную обучающую информацию из каждого прогона. Мы демонстрируем наш подход на задачах из математических соревнований и инструментально расширенных задачах анализа данных. На новых математических задачах MAPPA показывает прирост на +5,0–17,5 п.п. на AIME и +7,8–17,2 п.п. на AMC. Для задач анализа данных наш метод повышает процент успешного выполнения на +12,5 п.п., а метрики качества улучшаются до 30%, что подтверждает, что пошаговый контроль может приводить к улучшениям в различных многоагентных системах и предметных областях. Решая эти проблемы, наша работа представляет собой первый шаг к масштабированию многоагентных систем для сложных долгосрочных задач с минимальным участием человека.

Глубокий поиск с иерархическим метакогнитивным мониторингом, вдохновленный когнитивной нейронаукой
Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Jan 30

ByZhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu, Jun Xu

Глубокие поисковые агенты, основанные на больших языковых моделях, продемонстрировали высокие способности в многошаговом поиске, рассуждении и выполнении долгосрочных задач. Однако их практические неудачи часто обусловлены отсутствием механизмов для мониторинга и регулирования состояний рассуждения и поиска по мере эволюции задач в условиях неопределенности. Исследования в области когнитивной нейронауки показывают, что человеческая метакогниция имеет иерархическую организацию, интегрируя быструю детекцию аномалий с избирательно запускаемой рефлексией на основе опыта. В данной работе мы предлагаем Deep Search with Meta-Cognitive Monitoring (DS-MCM) — фреймворк глубокого поиска, дополненный явным иерархическим механизмом метакогнитивного мониторинга. DS-MCM интегрирует Быстрый монитор согласованности, который выполняет легковесные проверки соответствия между внешними доказательствами и внутренней уверенностью в рассуждениях, и Медленный монитор на основе опыта, который избирательно активируется для направляющего корректирующего вмешательства на основе памяти о предыдущем опыте из исторических траекторий агента. Встраивая мониторинг непосредственно в цикл рассуждение-поиск, DS-MCM определяет как момент, когда вмешательство необходимо, так и то, как корректирующие действия должны быть информированы предыдущим опытом. Эксперименты на множестве бенчмарков глубокого поиска и базовых моделей демонстрируют, что DS-MCM стабильно повышает производительность и надежность.

RAPTOR: Гребневые адаптивные логистические пробы
RAPTOR: Ridge-Adaptive Logistic Probes

Jan 29

ByZiqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding

Метод зондирования исследует, какая информация закодирована в замороженных представлениях слоев большой языковой модели (LLM), путем обучения легковесного предсказателя поверх них. Помимо анализа, зонды часто используются операционно в конвейерах "зондирование-управление": извлеченный вектор концепции добавляется к представлению слоя во время прямого прохода с помощью аддитивного управления активациями. Эффективность этого подхода зависит от оценки векторов концепций, которые являются точными, стабильными по направлению при абляции и недорогими в получении. Руководствуясь этими требованиями, мы предлагаем RAPTOR (Ridge-Adaptive Logistic Probe) — простой L2-регуляризованный логистический зонд, у которого подобранная по валидации сила регуляризации риджа дает векторы концепций из нормализованных весов. В обширных экспериментах на инструктивно-обученных LLM и наборах данных с концепциями, написанными человеком, RAPTOR соответствует или превосходит сильные базовые методы по точности, одновременно демонстрируя конкурентную стабильность направления и существенно более низкую стоимость обучения; эти количественные результаты подтверждаются качественными демонстрациями последующего управления. Наконец, используя теорему о выпуклой гауссовской минимаксной проблеме (Convex Gaussian Min-max Theorem, CGMT), мы даем механистическую характеристику ридж-логистической регрессии в идеализированной гауссовской модели "учитель-ученик" в высокоразмерном режиме с малым числом примеров, объясняя, как сила штрафа опосредует точность зонда и стабильность вектора концепции, и получая структурные предсказания, которые качественно согласуются с тенденциями, наблюдаемыми на реальных эмбеддингах LLM.

Скрытая цепочка рассуждений как планирование: разделение логического вывода и вербализации
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Jan 29

ByJiecong Wang, Hao Peng, Chunyang Liu

Метод цепочки мыслей (CoT) расширяет возможности больших языковых моделей (LLM) для решения сложных задач, но остается ограниченным вычислительными затратами и коллапсом путей рассуждения при их привязке к дискретным пространствам токенов. Новейшие подходы к латентному рассуждению пытаются оптимизировать эффективность, выполняя рассуждения в рамках непрерывных скрытых состояний. Однако эти методы обычно функционируют как непрозрачные end-to-end преобразования из явных шагов рассуждения в латентные состояния и часто требуют заранее заданного количества латентных шагов на этапе вывода. В данной работе мы представляем PLaT (Planning with Latent Thoughts) — фреймворк, который переосмысливает латентное рассуждение как планирование, фундаментально разделяя рассуждение и вербализацию. Мы моделируем рассуждение как детерминированную траекторию латентных состояний планирования, в то время как отдельный Декодер при необходимости проецирует эти мысли в текст. Такое разделение позволяет модели динамически определять момент завершения рассуждения вместо reliance на фиксированные гиперпараметры. Эмпирические результаты на математических бенчмарках выявляют отчетливый компромисс: хотя PLaT демонстрирует более низкую «жадную» точность по сравнению с базовыми методами, он показывает превосходную масштабируемость с точки зрения разнообразия рассуждений. Это указывает на то, что PLaT осваивает robustное, более широкое пространство решений, предлагая прозрачную и масштабируемую основу для поиска на этапе вывода.

Непрерывные агенты с графическим интерфейсом пользователя
Continual GUI Agents

Jan 28

ByZiwei Liu, Borui Kang, Hangjie Yuan, Zixiang Zhao, Wei Li, Yifan Zhu, Tao Feng

Поскольку цифровые среды (распределение данных) находятся в постоянном изменении, а новые данные графического интерфейса поступают со временем — вводя новые домены или разрешения — агенты, обученные на статических средах, демонстрируют ухудшение производительности. В данной работе мы представляем задачу Continual GUI Agents, которая требует от агентов графического интерфейса способности к непрерывному обучению в условиях смещающихся доменов и разрешений. Мы обнаружили, что существующие методы не способны сохранять стабильную привязку к элементам интерфейса по мере изменения распределений GUI из-за разнообразия точек и областей взаимодействия в динамичных сценариях. Для решения этой проблемы мы предлагаем GUI-Anchoring in Flux (GUI-AiF) — новую архитектуру тонкой настройки с подкреплением, которая стабилизирует непрерывное обучение за счёт двух новых видов вознаграждений: Anchoring Point Reward in Flux (APR-iF) и Anchoring Region Reward in Flux (ARR-iF). Эти вознаграждения направляют агентов на согласование со смещающимися точками и областями взаимодействия, снижая склонность существующих стратегий вознаграждения к избыточной адаптации к статичным ориентирам (например, фиксированным координатам или масштабам элементов). Многочисленные эксперименты показывают, что GUI-AiF превосходит современные базовые методы. Наша работа создаёт первую архитектуру непрерывного обучения для агентов графического интерфейса, раскрывая нереализованный потенциал тонкой настройки с подкреплением для continual GUI Agents.

Пересмотр предсказаний диффузионных моделей через призму размерности
Revisiting Diffusion Model Predictions Through Dimensionality

Jan 29

ByQing Jin, Chaoyang Wang

Последние достижения в области диффузионных моделей и моделей согласования потоков выявили сдвиг в предпочтительной цели предсказания — переход от предсказания шума (ε) и скорости (v) к прямому предсказанию данных (x), — особенно в высокоразмерных settings. Однако формальное объяснение того, почему оптимальная цель зависит от конкретных свойств данных, остается неуловимым. В данной работе мы предлагаем теоретическую основу, основанную на обобщенной формулировке предсказания, которая допускает произвольные целевые выходы, частными случаями которых являются предсказание ε, v и x. Мы выводим аналитическую зависимость между геометрией данных и оптимальной целью предсказания, предлагая строгое обоснование того, почему предсказание x становится предпочтительнее, когда размерность окружающего пространства существенно превышает внутреннюю размерность данных. Кроме того, хотя наша теория определяет размерность как управляющий фактор для оптимальной цели предсказания, внутренняя размерность данных, лежащих на многообразии, обычно оказывается трудно оценимой на практике. Чтобы преодолеть этот разрыв, мы предлагаем k-Diff — framework, который использует подход, основанный на данных, для непосредственного обучения оптимального параметра предсказания k на основе данных, минуя необходимость явной оценки размерности. Многочисленные эксперименты в области генерации изображений как в латентном пространстве, так и в пространстве пикселей демонстрируют, что k-Diff последовательно превосходит базовые методы с фиксированной целью при различных архитектурах и масштабах данных, предоставляя принципиальный и автоматизированный подход к повышению производительности генеративных моделей.

LMK > CLS: Пулинг ориентиров для плотных векторных представлений
LMK > CLS: Landmark Pooling for Dense Embeddings

Jan 29

ByMeet Doshi, Aashka Trivedi, Vishwajeet Kumar, Parul Awasthy, Yulong Li, Jaydeep Sen, Radu Florian, Sachindra Joshi

Обучение представлений играет ключевую роль во многих последующих задачах, таких как поиск, кластеризация, классификация и переранжирование. Современные кодировщики последовательностей обычно преобразуют последовательность токенов переменной длины в единый вектор с помощью оператора пулинга, чаще всего специального токена [CLS] или усреднения эмбеддингов токенов. В данной статье мы выявляем систематические недостатки этих стратегий пулинга: [CLS] склонен концентрировать информацию в начальных позициях последовательности и может недостаточно отражать распределенные признаки, в то время как усредняющий пулинг может размывать важные локальные сигналы, иногда ухудшая работу в коротких контекстах. Для решения этих проблем мы предлагаем Landmark (LMK) пулинг, который разбивает последовательность на фрагменты, вставляет между ними маркерные токены и формирует итоговое представление путем усреднения эмбеддингов маркерных токенов. Этот простой механизм улучшает экстраполяцию на длинных контекстах без потери локальных значимых признаков, ценой введения небольшого количества специальных токенов. Мы эмпирически демонстрируем, что LMK пулинг соответствует существующим методам в задачах поиска с коротким контекстом и обеспечивает существенное улучшение в задачах с длинным контекстом, что делает его практичной и масштабируемой альтернативой существующим методам пулинга.

Динамика запоминания при дистилляции знаний в языковых моделях
Memorization Dynamics in Knowledge Distillation for Language Models

Jan 21

ByJaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano

Дистилляция знаний (Knowledge Distillation, KD) все чаще применяется для передачи возможностей больших языковых моделей (LLM) малым, что обеспечивает значительное повышение эффективности и практической полезности, зачастую превосходя стандартное тонкое настраивание (fine-tuning). Помимо производительности, KD также исследуется как механизм сохранения конфиденциальности для снижения риска утечки обучающих данных. В то время как запоминание обучающих данных тщательно изучалось в контексте стандартного предварительного обучения и тонкой настройки, его динамика в условиях дистилляции знаний остается слабо изученной. В данной работе мы исследуем запоминание на всех этапах конвейера KD, используя три семейства больших языковых моделей (Pythia, OLMo-2, Qwen-3) и три набора данных (FineWeb, Wikitext, Nemotron-CC-v2). Мы обнаруживаем: (1) дистиллированные модели запоминают значительно меньше обучающих данных по сравнению со стандартным тонким настраиванием (сокращение запоминания более чем на 50%); (2) некоторые примеры по своей природе легче запомнить, и они составляют большую долю запоминания при дистилляции (свыше ~95%); (3) запоминание студентом (student model) можно предсказать до проведения дистилляции с использованием признаков на основе zlib-энтропии, дивергенции Кульбака-Лейблера и перплексии; и (4) хотя мягкая (soft) и жесткая (hard) дистилляции имеют схожие общие уровни запоминания, жесткая дистилляция представляет больший риск: она наследует в 2.7 раза больше специфичных для учителя (teacher model) примеров, чем мягкая. В целом, мы демонстрируем, что дистилляция может обеспечить как улучшенную обобщающую способность, так и сниженные риски запоминания по сравнению со стандартным тонким настраиванием.

ExpAlign: Выравнивание зрения и языка с управлением ожиданиями для открытого словарного заземления
ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

Jan 30

ByJunyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang

Открытое словарное заземление требует точного согласования визуальной и языковой информации при слабом контроле, однако существующие методы либо полагаются на глобальные эмбеддинги предложений, которым не хватает детальной выразительности, либо вводят пословное выравнивание с явным контролем или использованием сложных кросс-аттенционных механизмов. Мы предлагаем ExpAlign, теоретически обоснованную структуру для согласования визуальной и языковой информации, построенную на принципиальной формулировке обучения с множественными экземплярами. ExpAlign вводит Голову Выравнивания по Математическому Ожиданию, которая выполняет основанный на внимании мягкий MIL-пулинг над сходствами «токен-регион», обеспечивая неявный выбор токенов и экземпляров без дополнительных разметок. Для дальнейшей стабилизации обучения выравниванию мы разработали схему регуляризации на основе энергии для обеспечения согласованности на нескольких масштабах, включающую контрастную цель с несколькими позитивными примерами Top-K и Цель Геометрически-Осознанной Согласованности, выведенную из минимизации свободной энергии с лагранжевыми ограничениями. Многочисленные эксперименты показывают, что ExpAlign стабильно улучшает открытое словарное обнаружение и сегментацию экземпляров с нулевым обучением, особенно для категорий с длинным хвостом. Наиболее показательно, что метод достигает 36.2 AP_r на срезе LVIS minival, превосходя другие современные методы сопоставимого масштама, оставаясь при этом легковесным и эффективным на этапе вывода.

Drive-JEPA: Видео-JEPA в сочетании с многомодальным дистилляцией траекторий для сквозного управления автомобилем
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving

Jan 29

ByLinhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu

В системах сквозного автономного вождения все чаще используется самоконтролируемое предварительное обучение на видеоданных для получения переносимых представлений планирования траектории. Однако предварительное обучение видео-моделей мира для понимания сцены до сих пор приносило лишь ограниченные улучшения. Это ограничение усугубляется присущей вождению неоднозначностью: каждая сцена обычно содержит лишь одну человеческую траекторию, что затрудняет изучение многомодального поведения. В данной работе мы предлагаем Drive-JEPA — фреймворк, объединяющий Видео-Архитектуру Прогнозирования в Совместном Пространстве Признаков (V-JEPA) с дистилляцией многомодальных траекторий для сквозного автономного вождения. Во-первых, мы адаптируем V-JEPA для сквозного вождения, предварительно обучая ViT-энкодер на масштабных видеозаписях вождения для генерации прогнозных представлений, согласованных с планированием траектории. Во-вторых, мы представляем планировщик, ориентированный на предложения, который дистиллирует разнообразные траектории, сгенерированные в симуляторе, вместе с человеческими траекториями, используя механизм выбора с учетом импульса для повышения стабильности и безопасности поведения. При оценке на NAVSIM представления V-JEPA в сочетании с простым трансформер-декодером превосходят предыдущие методы на 3 PDMS в условиях отсутствия восприятия. Полный фреймворк Drive-JEPA достигает 93.3 PDMS на v1 и 87.8 EPDMS на v2, устанавливая новый state-of-the-art результат.

Маршрутизация лотереи: адаптивные подсети для гетерогенных данных
Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

Jan 29

ByGrzegorz Stefanski, Alberto Presta, Michal Byra

В области прунинга Гипотеза Лотерейного Билета постулирует, что крупные сети содержат разреженные подсети, или «выигрышные билеты», которые можно обучать изолированно для достижения производительности их плотных аналогов. Однако большинство существующих подходов предполагают наличие единого универсального «выигрышного билета», общего для всех входных данных, игнорируя присущую реальным данным неоднородность. В данной работе мы предлагаем Routing the Lottery (RTL) — адаптивную систему прунинга, которая обнаруживает несколько специализированных подсетей, называемых адаптивными билетами, каждая из которых настроена на определенный класс, семантический кластер или условие окружающей среды. На различных наборах данных и задачах RTL стабильно превосходит базовые методы с одной и несколькими моделями по сбалансированной точности и полноте, используя до 10 раз меньше параметров, чем независимые модели, и демонстрируя семантическую согласованность. Кроме того, мы выявляем «коллапс подсети» — снижение производительности при агрессивном прунинге — и вводим показатель сходства подсетей, который позволяет проводить диагностику чрезмерного разрежения без использования меток. В целом, наши результаты представляют прунинг как механизм согласования структуры модели с неоднородностью данных, прокладывая путь к более модульному и контекстно-ориентированному глубокому обучению.

SONIC-O1: Реальный бенчмарк для оценки мультимодальных больших языковых моделей в области аудиовизуального понимания
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Jan 29

ByAhmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza

Мультимодальные большие языковые модели (MБЯМ) являются основным направлением современных исследований в области искусственного интеллекта. Однако большая часть предыдущих работ сосредоточена на анализе статических изображений, в то время как способность моделей обрабатывать последовательные аудиовизуальные данные остаётся малоизученной. Этот пробел подчёркивает необходимость создания качественного эталона для систематической оценки производительности МБЯМ в условиях, приближенных к реальным. Мы представляем SONIC-O1 — всеобъемлющий, полностью верифицированный человеком эталон, охватывающий 13 реальных диалоговых доменов с 4958 аннотациями и метаданными о демографических характеристиках. SONIC-O1 оценивает МБЯМ по ключевым задачам, включая сводную генерацию текста, ответы на вопросы с множественным выбором и временную локализацию с обоснованием (рассуждением). Эксперименты с закрытыми и открытыми моделями выявили ограничения. Хотя разрыв в точности ответов на вопросы с множественным выбором между двумя семействами моделей относительно невелик, мы наблюдаем существенную разницу в 22,6% по показателю временной локализации между лучшей закрытой и лучшей открытой моделью. Производительность дополнительно снижается для различных демографических групп, что указывает на сохраняющиеся диспропорции в поведении моделей. В целом, SONIC-O1 предоставляет открытый набор средств для оценки темпорально обоснованного и социально устойчивого мультимодального понимания. Мы публикуем SONIC-O1 для обеспечения воспроизводимости и дальнейших исследований: Страница проекта: https://vectorinstitute.github.io/sonic-o1/ Набор данных: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Лидерборд: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

KAPSO: Основанная на знаниях система для автономного синтеза и оптимизации программ
KAPSO: A Knowledge-grounded framework for Autonomous Program Synthesis and Optimization

Jan 29

ByAlireza Nadaf, Alireza Mohammadshahi, Majid Yazdani

Мы представляем KAPSO — модульный фреймворк для автономного синтеза и оптимизации программ. Получив цель на естественном языке и метод оценки, KAPSO итеративно выполняет генерацию идей, синтез и редактирование кода, выполнение, оценку и обучение для улучшения исполняемого артефакта в направлении измеримых целевых показателей. Вместо того чтобы рассматривать синтез как конечную точку, KAPSO использует синтез как оператор в рамках долгосрочного оптимизационного цикла, где прогресс определяется результатами оценки. KAPSO решает характерные для программных агентов долгосрочные проблемы, включая потерю экспериментального состояния, хрупкость отладки и слабое повторное использование предметных знаний, за счёт интеграции трёх тесно связанных компонентов. Во-первых, экспериментный механизм, нативный для git, изолирует каждую попытку в отдельной ветке, создавая воспроизводимые артефакты и сохраняя трассировку происхождения между итерациями. Во-вторых, система знаний поглощает разнородные источники, включая репозитории, внутренние плейбуки и курируемые внешние ресурсы, такие как документация, научные статьи и результаты веб-поиска, и организует их в структурированное представление, поддерживающее поиск по рабочим процессам, реализациям и ограничениям окружения. В-третьих, когнитивный уровень памяти координирует поиск и поддерживает эпизодическое хранилище переиспользуемых уроков, извлечённых из трасс экспериментов (журналы выполнения, диффы и обратная связь от оценщика), сокращая повторяющиеся ошибки и ускоряя сходимость. Мы оценили KAPSO на наборах MLE-Bench (соревнования в стиле Kaggle по машинному обучению) и ALE-Bench (эвристическая оптимизация в стиле AtCoder) и представляем результаты сквозного тестирования. Код доступен по адресу: https://github.com/Leeroo-AI/kapso

Почему существуют паттерны внимания: объединяющий анализ с временной перспективы
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Jan 29

ByQingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li

Паттерны внимания играют ключевую роль как при обучении, так и при выводе больших языковых моделей (LLM). Предыдущие работы выявили отдельные паттерны, такие как головы извлечения, головы-стоки и диагональные следы, однако эти наблюдения остаются разрозненными и не имеют единого объяснения. Чтобы заполнить этот пробел, мы представляем Анализ Предсказуемости Временных Паттернов Внимания (TAPPA) — унифицирующую framework, которая объясняет разнообразные паттерны внимания, анализируя их базовые математические формулировки с точки зрения временной непрерывности. TAPPA как углубляет понимание поведения механизма внимания, так и направляет подходы к ускорению вывода. В частности, TAPPA характеризует паттерны внимания как предсказуемые паттерны с четкими закономерностями и непредсказуемые паттерны, которые выглядят практически случайными. Наш анализ дополнительно показывает, что это различие можно объяснить степенью самоподобия запросов (query) вдоль временной размерности. Сосредоточившись на предсказуемых паттернах, мы далее предоставляем детальный математический анализ трех репрезентативных случаев через совместный эффект запросов (queries), ключей (keys) и ротационных позиционных эмбеддингов (RoPE). Мы проверяем TAPPA, применяя полученные инсайты к задачам сжатия KV-кэша и прунинга LLM. В этих задачах простая метрика, основанная на TAPPA, последовательно улучшает производительность по сравнению с базовыми методами. Код доступен по адресу https://github.com/MIRALab-USTC/LLM-TAPPA.

Визуальный персонализированный тест Тьюринга
Visual Personalization Turing Test

Jan 30

ByRameen Abdal, James Burgess, Sergey Tulyakov, Kuan-Chieh Jackson Wang

Мы представляем Визуальный Персонализированный Тест Тьюринга (VPTT) — новую парадигму для оценки контекстной визуальной персонализации, основанную на перцептивной неразличимости, а не на воспроизведении идентичности. Модель проходит VPTT, если её результат (изображение, видео, 3D-объект и т.д.) является неотличимым для человека или калиброванного VLM-оценщика от контента, который данное лицо могло бы правдоподобно создать или опубликовать. Для практической реализации VPTT мы представляем VPTT Framework, включающий бенчмарк на 10 000 персонажей (VPTT-Bench), визуальный генератор с ретривельным усилением (VPRAG) и VPTT Score — текстовую метрику, калиброванную по отношению к суждениям человека и VLM. Мы демонстрируем высокую корреляцию между оценками человека, VLM и VPTT, что подтверждает VPTT Score в качестве надежного перцептивного прокси. Эксперименты показывают, что VPRAG достигает наилучшего баланса между соответствием и оригинальностью, предлагая масштабируемую и безопасную с точки зрения конфиденциальности основу для персонализированного генеративного ИИ.

Машинное обучение для энергоэффективного планирования с учетом производительности
Machine Learning for Energy-Performance-aware Scheduling

Jan 30

ByZheyuan Hu, Yifei Shi

В пост-деннардовскую эпоху оптимизация встроенных систем требует поиска компромиссов между энергоэффективностью и задержками в условиях сложного пространства параметров. Традиционная эвристическая настройка часто оказывается неэффективной в таких высокоразмерных и негладких ландшафтах. В данной работе мы предлагаем фреймворк на основе байесовской оптимизации с использованием гауссовских процессов для автоматизации поиска оптимальных конфигураций планирования на гетерогенных многоядерных архитектурах. Мы явно учитываем многоцелевой характер задачи путем аппроксимации границы Парето между энергопотреблением и временем выполнения. Кроме того, за счет включения анализа чувствительности (fANOVA) и сравнения различных ковариационных ядер (например, Матерна против RBF) мы обеспечиваем физическую интерпретируемость черного ящика модели, выявляя доминирующие аппаратные параметры, определяющие производительность системы.

Предварительное обучение на основе ценностей с обратной связью от последующих задач
Value-Based Pre-Training with Downstream Feedback

Jan 29

ByShuqi Ke, Giulia Fanti

Может ли небольшой объем проверенной целевой информации направлять дорогостоящее самообучение базовых моделей на этапе предварительного обучения? Стандартное предварительное обучение оптимизирует фиксированный вспомогательный целевой показатель (например, предсказание следующего токена), что может приводить к нерациональному распределению вычислительных ресурсов в ущерб формированию целевых downstream-способностей. Мы представляем V-Pretraining: ценностно-ориентированный, модально-независимый метод контролируемого продолженного предварительного обучения, в котором облегченный планировщик задач перестраивает задачу предварительного обучения для максимизации ценности каждого шага градиентного спуска. Рассмотрим, например, самообучение с аугментацией выборок. Планировщик задач V-Pretraining выбирает задачи предварительного обучения (например, виды аугментации), для которых градиент потерь предварительного обучения согласован с градиентом, вычисленным по downstream-задаче (например, семантической сегментации изображений). Это помогает направлять предварительное обучение в сторону релевантных downstream-способностей. Примечательно, что предобученная модель никогда не обновляется на метках downstream-задач; они используются исключительно для формирования задачи предварительного обучения. При сопоставимых вычислительных бюджетах V-Pretraining языковых моделей объемом 0,5–7 млрд параметров улучшает показатели логического мышления (GSM8K test Pass@1) до 18% относительно стандартного предсказания следующего токена, используя лишь 12% обучающих примеров GSM8K в качестве обратной связи. В компьютерном зрении мы улучшаем state-of-the-art результаты на ADE20K до 1,07 mIoU, снижаем RMSE на NYUv2 при одновременном улучшении линейной точности на ImageNet, а также представляем предварительные свидетельства повышения токенной эффективности при продолженном предварительном обучении.