ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Навык1: Унифицированная эволюция агентов с дополненными навыками посредством обучения с подкреплением
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

Библиотека устойчивых навыков позволяет агентам на основе языковых моделей повторно использовать успешные стратегии для решения различных задач. Поддержание такой библиотеки требует трех взаимосвязанных возможностей. Агент выбирает соответствующий навык, применяет его в процессе выполнения задачи и извлекает новые навыки из опыта. Существующие методы оптимизируют эти возможности изолированно или с использованием отдельных источников вознаграждения, что приводит к частичной и конфликтующей эволюции. Мы предлагаем Skill1 — фреймворк, который обучает единую политику совместной эволюции выбора, использования и извлечения навыков для достижения общей целевой задачи. Политика формирует запрос для поиска в библиотеке навыков, переранжирует кандидатов для выбора одного из них, решает задачу с его учетом и извлекает новый навык из траектории решения. Все обучение происходит на основе единого сигнала результативности задачи: его низкочастотный тренд определяет заслугу выбора, а высокочастотные вариации — заслугу извлечения. Эксперименты на ALFWorld и WebShop показывают, что Skill1 превосходит предыдущие подходы на основе навыков и методы обучения с подкреплением. Динамика обучения подтверждает совместную эволюцию трех возможностей, а ablation-исследования демонстрируют, что удаление любого сигнала заслуг ухудшает эволюцию.

2

За пределами семантического сходства: переосмысление поиска для агентного поиска через прямое взаимодействие с корпусом
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

Современные системы поиска, будь то лексические или семантические, предоставляют доступ к корпусу через фиксированный интерфейс схожести, который сводит доступ к единственному шагу top-k-поиска перед рассуждением. Эта абстракция эффективна, но для агентского поиска она становится узким местом: точные лексические ограничения, разреженные конъюнкции ключей, проверки локального контекста и многоэтапное уточнение гипотез сложно реализовать с помощью вызовов стандартного готового поискового модуля, а доказательства, отфильтрованные на раннем этапе, не могут быть восстановлены более мощным последующим рассуждением. Агентские задачи дополнительно усугубляют это ограничение, поскольку требуют от агентов координации множества шагов, включая обнаружение промежуточных сущностей, комбинирование слабых ключей и пересмотр плана после наблюдения частичных доказательств. Для преодоления этого ограничения мы исследуем прямое взаимодействие с корпусом (DCI), при котором агент осуществляет поиск по исходному корпусу напрямую с помощью инструментов общего назначения (например, grep, чтение файлов, shell-команды, легковесные скрипты), без использования каких-либо моделей эмбеддингов, векторных индексов или поисковых API. Этот подход не требует оффлайн-индексирования и естественно адаптируется к эволюционирующим локальным корпусам. На IR-бенчмарках и сквозных агентских поисковых задачах данная простая установка существенно превосходит сильные базовые методы разреженного, плотного поиска и переранжирования на нескольких наборах данных BRIGHT и BEIR, а также демонстрирует высокую точность на BrowseComp-Plus и многошаговом QA без опоры на какие-либо традиционные семантические поисковые системы. Наши результаты показывают, что по мере усиления языковых агентов качество поиска зависит не только от способности к рассуждению, но и от разрешения интерфейса, через который модель взаимодействует с корпусом. DCI открывает более широкое пространство проектирования интерфейсов для агентского поиска.

3

Непрерывная латентная диффузионная языковая модель
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

Крупные языковые модели достигли значительных успехов в рамках авторегрессионной парадигмы, однако генерация высококачественных текстов не обязательно должна быть привязана к строгому порядку слева направо. Существующие альтернативные подходы по-прежнему испытывают трудности с одновременным достижением эффективности генерации, масштабируемого обучения представлений и действенного моделирования глобальной семантики. Мы предлагаем Cola DLM — иерархическую латентную диффузионную языковую модель, которая структурирует генерацию текста через иерархическое разложение информации. Cola DLM сначала изучает стабильное отображение «текст-латент» с помощью Text VAE, затем моделирует глобальную семантическую априорную модель в непрерывном латентном пространстве с помощью блочно-каузального DiT и, наконец, генерирует текст посредством условного декодирования. С единой марковской перспективы её диффузионный процесс осуществляет перенос латентной априорной модели, а не восстановление токенных наблюдений, тем самым разделяя глобальную семантическую организацию и локальную текстовую реализацию. Такая конструкция порождает более гибкое неавторегрессионное индуктивное смещение, поддерживает семантическое сжатие и подгонку априорной модели в непрерывном пространстве и естественным образом расширяется на другие непрерывные модальности. В экспериментах, охватывающих 4 исследовательских вопроса, 8 бенчмарков, строго сопоставимые авторегрессионные базовые линии и базовые линии LLaDA с ~2 млрд параметров, а также кривые масштабирования до ~2000 EFLOPs, мы определили эффективную общую конфигурацию Cola DLM и подтвердили её выраженное масштабируемое поведение для генерации текста. В совокупности результаты утверждают иерархическое моделирование непрерывной латентной априорной модели как принципиальную альтернативу строго токен-уровневому языковому моделированию, где качество генерации и характер масштабирования могут лучше отражать способности модели, чем правдоподобие, а также указывают на конкретный путь к унифицированному моделированию дискретного текста и непрерывных модальностей.

4

MiA-Signature: Аппроксимация глобальной активации для понимания длинных контекстов
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

Растущее число исследований в когнитивной науке указывает на то, что доступное для отчёта сознательное восприятие связано с глобальным "воспламенением" в распределённых системах памяти, при этом такая активация лишь частично доступна, поскольку индивиды не могут напрямую получить доступ или перечислить все активированные содержания. Это противоречие указывает на правдоподобный механизм, согласно которому познание может опираться на компактное представление, аппроксимирующее глобальное влияние активации на последующую обработку. Вдохновлённые этой идеей, мы вводим концепцию Сигнатуры Активации Ментального Ландшафта (MiA-Signature) — сжатого представления глобальной паттерна активации, вызванного запросом. В системах больших языковых моделей это реализуется посредством субмодулярного отбора высокоуровневых концептов, покрывающих активированное контекстное пространство, с возможностью последующей лёгкой итеративной доработки с использованием рабочей памяти. Получаемая MiA-Signature служит conditioning-сигналом, который аппроксимирует эффект полного состояния активации, оставаясь при этом вычислительно осуществимым. Интеграция MiA-Signature в RAG-системы и системы агентов приводит к стабильному повышению производительности в различных задачах понимания длинного контекста.

5

Команда Ragu на SemEval-2026, Задание 8: Meno и друзья в ансамбле LLM под управлением судьи для достоверной генерации многоходовых ответов
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

Мы представляем нашу победную систему для Задачи B (генерация с опорой на референсные пассажи) в рамках SemEval-2026 Task 8: MTRAGEval. Наш метод представляет собой гетерогенный ансамбль из семи больших языковых моделей (LLM) с двумя вариантами промптинга, где судья на основе GPT-4o-mini выбирает лучший кандидата для каждого примера. Мы заняли 1-е место среди 26 команд, достигнув условного гармонического среднего в 0.7827 и превзойдя сильнейший базовый уровень (gpt-oss-120b, 0.6390). Абляционные исследования показывают, что разнообразие семейств моделей, их масштабов и стратегий промптинга является ключевым фактором, причем ансамбль стабильно превосходит любую отдельную модель. Мы также представляем Meno-Lite-0.1, доменно-адаптированную модель объемом 7B параметров с выгодным соотношением стоимости и производительности, и анализируем MTRAGEval, выделяя ограничения аннотации и направления для улучшения. Наш код общедоступен: https://github.com/RaguTeam/ragu_mtrag_semeval.

6

MARBLE: Баланс многокомпонентного вознаграждения для RL с диффузией
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

Тонкая настройка с подкреплением стала доминирующим методом согласования диффузионных моделей с человеческими предпочтениями. Однако оценка изображений по своей природе является многомерной задачей, требующей одновременной оптимизации нескольких критериев. Существующие подходы к работе с множественными вознаграждениями включают обучение отдельной специализированной модели для каждого вознаграждения, оптимизацию взвешенной суммы R(x)=∑_k w_k R_k(x) или последовательную тонкую настройку по заранее заданному расписанию этапов. Эти методы либо не позволяют создать унифицированную модель, совместно обучаемую по всем вознаграждениям, либо требуют трудоемкой ручной настройки последовательного обучения. Мы обнаружили, что проблема кроется в использовании наивной агрегации вознаграждений методом взвешенной суммы. Этот подход страдает от несоответствия на уровне выборок: большинство траекторий являются специализированными — высокоинформативными для одних измерений вознаграждения, но нерелевантными для других; как следствие, взвешенное суммирование размывает их обучающий сигнал. Для решения этой проблемы мы предлагаем MARBLE (Multi-Aspect Reward BaLancE) — фреймворк оптимизации в пространстве градиентов, который поддерживает независимые оценки преимущества для каждого вознаграждения, вычисляет градиенты политики для каждого вознаграждения и гармонично объединяет их в единое направление обновления без ручной настройки весов вознаграждений путем решения задачи квадратичного программирования. Мы также предлагаем амортизированную формулировку, которая использует аффинную структуру функции потерь в DiffusionNFT для снижения стоимости на шаг с K+1 обратных проходов до стоимости, близкой к базовой с одним вознаграждением, в сочетании со сглаживанием по скользящему среднему коэффициентов балансировки для стабилизации обновлений против transient флуктуаций в отдельных батчах. На SD3.5 Medium с пятью вознаграждениями MARBLE улучшает все пять измерений одновременно, изменяет косинус градиента наихудше согласованного вознаграждения с отрицательного при взвешенном суммировании в 80% мини-батчей на стабильно положительный и работает со скоростью 0.97X от базового обучения.

7

Когда доверять воображению: адаптивное выполнение действий для моделей действий в мире
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

Модели мирового действия (World Action Models, WAM) недавно появились как перспективная парадигма для роботизированного манипулирования, совместно предсказывая будущие визуальные наблюдения и будущие действия. Однако современные WAM-модели обычно выполняют фиксированное количество предсказанных действий после каждого вывода модели, оставляя робота в неведении относительно того, остается ли воображаемое будущее согласованным с реальным физическим исполнением. В данной работе мы формулируем адаптивное выполнение WAM как проблему верификации будущего и реальности: робот должен выполнять действия дольше, когда предсказанное WAM будущее остается надежным, и перепланировать раньше, когда реальность отклоняется от воображения. С этой целью мы предлагаем Future Forward Dynamics Causal Attention (FFDC) — легковесный верификатор, который совместно анализирует предсказанные будущие действия, предсказанную визуальную динамику, реальные наблюдения и языковые инструкции, чтобы оценить, можно ли все еще доверять оставшемуся плану действий. FFDC позволяет адаптивно изменять размер порций действий как следствие согласованности предсказаний и наблюдений, сохраняя эффективность долгосрочного выполнения и восстанавливая реактивность на этапах, богатых контактами или сложных для исполнения. Мы также представляем обучение с смешением горизонтов (Mixture-of-Horizon Training) для улучшения покрытия долгосрочных траекторий при адаптивном выполнении. Эксперименты на бенчмарке RoboTwin и в реальном мире демонстрируют, что наш метод достигает оптимального баланса между надежностью и эффективностью: на RoboTwin он сокращает количество прямых проходов WAM на 69,10% и время выполнения на 34,02%, одновременно повышая процент успешных выполнений на 2,54% по сравнению с базовым методом с короткими порциями; в реальных экспериментах метод повышает процент успеха на 35%.

8

Согласование распределений в непрерывном времени для дистилляции диффузии за небольшое число шагов
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

Поэтапная дистилляция стала ведущей методикой ускорения диффузионных моделей, среди которых Distribution Matching Distillation (DMD) и дистилляция консистентности представляют две основные парадигмы. В то время как методы консистентности обеспечивают самосогласованность вдоль всей траектории PF-ODE для направления её к многообразию чистых данных, классический DMD опирается на разреженное обучение в нескольких предопределённых дискретных временных шагах. Эта ограниченная дискретно-временная формулировка и модо-ориентированная природа обратной дивергенции Кульбака-Лейблера склонны проявлять визуальные артефакты и излишне сглаженные результаты, часто требуя сложных вспомогательных модулей — таких как GAN или модели вознаграждения — для восстановления визуальной точности. В данной работе мы представляем Continuous-Time Distribution Matching (CDM), впервые перенося框架 DMD с дискретной привязки на непрерывную оптимизацию. CDM достигает этого за счёт двух непрерывно-временных решений. Во-первых, мы заменяем фиксированное дискретное расписание динамическим непрерывным расписанием случайной длины, чтобы согласование распределений обеспечивалось в произвольных точках вдоль траекторий выборки, а не только в нескольких фиксированных якорях. Во-вторых, мы предлагаем цель непрерывно-временного выравнивания, которая выполняет активное согласование вне траектории на латентных переменных, экстраполированных через поле скорости студенческой модели, улучшая обобщающую способность и сохраняя тонкие визуальные детали. Обширные эксперименты на различных архитектурах, включая SD3-Medium и Longcat-Image, демонстрируют, что CDM обеспечивает высококонкурентную визуальную точность для многошаговой генерации изображений без reliance на сложные вспомогательные цели. Код доступен по адресу https://github.com/byliutao/cdm.

9

SkillOS: Обучение курированию навыков для саморазвивающихся агентов
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

Агенты на основе больших языковых моделей все чаще применяются для решения потоковых задач, однако зачастую они остаются разовыми решателями проблем, не способными учиться на прошлых взаимодействиях. Повторно используемые навыки, извлеченные из опыта, представляют собой естественную основу для саморазвития, где ключевым узким местом выступает качественный кураторский отбор навыков. Существующие подходы либо полагаются на ручной отбор навыков, либо предписывают эвристические операции с ними, либо обучают операциям с навыками на коротком горизонте. Однако они по-прежнему не способны эффективно обучаться сложным долгосрочным стратегиям кураторства на основе косвенной и отсроченной обратной связи. Для решения этой проблемы мы предлагаем SkillOS — опытный рецепт обучения с подкреплением для освоения кураторства навыков в саморазвивающихся агентах. SkillOS сочетает замороженный исполнитель агента, который извлекает и применяет навыки, с обучаемым куратором навыков, который обновляет внешнее хранилище SkillRepo на основе накопленного опыта. Для формирования обучающих сигналов кураторства мы разрабатываем составные вознаграждения и проводим обучение на сгруппированных потоках задач с учетом зависимостей между задачами, связанными с навыками, где ранние траектории обновляют SkillRepo, а последующие связанные задачи оценивают эти обновления. В многошаговых агентных задачах и одношаговых задачах логического вывода SkillOS стабильно превосходит по эффективности и производительности базовые методы без памяти и сильные методы с памятью, причем обученный куратор навыков демонстрирует обобщаемость на различные архитектуры исполнителей и предметные области. Дальнейший анализ показывает, что обученный куратор обеспечивает более целенаправленное использование навыков, а навыки в SkillRepo со временем эволюционируют в более структурированные Markdown-файлы, кодирующие метанавыки более высокого уровня.

10

Бред помогает: возмущение пространства промтов расширяет исследование рассуждений
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

Подкрепляемое обучение с верифицируемыми вознаграждениями, в частности, Оптимизация относительной групповой политики (GRPO), значительно продвинула способности крупных языковых моделей (LLM) к рассуждению. Однако в сложных задачах GRPO часто сталкивается с «проблемой нулевого преимущества»: когда все сэмплированные траектории для запроса терпят неудачу, относительное преимущество сводится к нулю. Как следствие, модель теряет эффективные обучающие сигналы для этих вопросов, растрачивая обучающие данные и вычислительные ресурсы. Хотя простым решением является увеличение бюджета сэмплирования для таких вопросов, статическая политика сэмплирования по своей природе ограничивает исследование пространства рассуждений, снижая вероятность успеха. В данной статье мы предлагаем LoPE (Lorem Perturbation for Exploration) — простую, но эффективную обучающую структуру для преодоления этого барьера исследования. Мы предполагаем, что нерелевантные задаче возмущения в пространстве промтов могут смещать выходное распределение модели достаточно, чтобы открыть ортогональные пути рассуждений для сложных вопросов. В частности, LoPE добавляет к промтам перед повторным сэмплированием последовательности, стохастически собранные из словаря Lorem Ipsum (псевдолатинского текста-заполнителя). Эксперименты на моделях объемом 1.7B, 4B и 7B параметров демонстрируют, что LoPE значительно превосходит повторное сэмплирование с исходными промтами. Дальнейший анализ показывает, что другие случайные последовательности на основе латыни с низкой перплексией также являются эффективными возмущениями. Наши результаты устанавливают LoPE в качестве надежного базового метода для расширения исследования в подкрепляемом обучении LLM.

11

Аудиовизуальный интеллект в больших фундаментальных моделях
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

Аудиовизуальный интеллект (АВИ) стал ключевым направлением в области искусственного интеллекта, объединяя слуховую и зрительную модальности для создания машин, способных воспринимать, генерировать и взаимодействовать в многомодальном реальном мире. В эпоху больших фундаментальных моделей совместное моделирование аудио и видео становится все более важным, причем не только для понимания, но и для управляемой генерации и логического вывода на основе динамических, временны́х сигналов. Недавние достижения, такие как Meta MovieGen и Google Veo-3, подчеркивают растущий интерес как в промышленности, так и в академической среде к унифицированным аудиовизуальным архитектурам, обучающимся на огромных массивах многомодальных данных. Однако, несмотря на быстрый прогресс, литература остается разрозненной, охватывая разнородные задачи, несогласованные таксономии и неоднородные практики оценки, что затрудняет систематическое сравнение и интеграцию знаний. Данный обзор представляет собой первое всестороннее исследование АВИ через призму больших фундаментальных моделей. Мы предлагаем унифицированную таксономию, охватывающую широкий спектр задач АВИ — от понимания (например, распознавание речи, локализация звука) до генерации (например, синтез видео на основе аудио, генерация аудио по видео) и взаимодействия (например, диалоговые, воплощенные или агентные интерфейсы). Мы систематизируем методологические основы, включая токенизацию модальностей, кросс-модальную фузию, авторегрессионную и диффузионную генерацию, крупномасштабное предобучение, инструктивное выравнивание и оптимизацию предпочтений. Кроме того, мы отбираем репрезентативные наборы данных, бенчмарки и метрики оценки, предлагая структурированное сравнение между семействами задач и выявляя открытые проблемы в области синхронизации, пространственного reasoning, управляемости и безопасности. Консолидируя эту быстро развивающуюся область в единую структуру, данный обзор призван служить фундаментальным ориентиром для будущих исследований в области крупномасштабного аудиовизуального интеллекта.

12

StraTA: Стимулирование агентного обучения с подкреплением с помощью стратегической абстракции траекторий
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

Крупные языковые модели (LLM) всё чаще используются в качестве интерактивных агентов, однако их оптимизация для принятия решений в долгосрочной перспективе остаётся сложной задачей. Это связано с тем, что современные методы в основном являются чисто реактивными, что ослабляет как исследование среды, так и распределение заслуг на протяжённых траекториях. В данной работе мы представляем Strategic Trajectory Abstraction (StraTA) — простую структуру, которая вводит явную траекторную стратегию в агентное обучение с подкреплением (RL). StraTA выбирает компактную стратегию из начального состояния задачи, обусловливает последующие действия этой стратегией и совместно обучает генерацию стратегии и выполнение действий с помощью иерархического подхода к развёртыванию в стиле GRPO, дополнительно усиленного разнообразным развёртыванием стратегий и критической самооценкой. Эксперименты на ALFWorld, WebShop и SciWorld показывают, что StraTA последовательно улучшает как эффективность использования данных, так и итоговую производительность по сравнению с сильными базовыми методами. StraTA достигает показателей успешности 93,1% на ALFWorld и 84,2% на WebShop. На платформе SciWorld модель демонстрирует общий балл 63,5%, превосходя передовые проприетарные модели.

13

Автоматизированное исследование со специализированными агентами разрабатывает эффективные и нетривиальные рецепты обучения.
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

Мы рассматриваем автоматизированные исследования как замкнутый эмпирический цикл, управляемый внешними измерениями. Каждое отправленное испытание содержит гипотезу, исполняемое изменение кода, результат, принадлежащий системе оценки, и обратную связь, которая формирует следующее предложение. Выходом процесса является не сгенерированная статья или единый контрольный пункт модели, а аудитируемая траектория предложений, различий в коде (diff), экспериментов, оценок и меток неудач. Мы реализуем этот цикл с помощью специализированных агентов, которые разделяют пространство рецептов (recipe surfaces) и обмениваются измеренной линией наследования (lineage) между испытаниями. Ключевым эмпирическим выводом является то, что обратная связь по линии наследования позволяет агентам преобразовывать результаты оценщика — включая аварийные завершения, превышения бюджета, провалы по размеру и невыполнение порогов точности — в последующие правки рецептов на уровне программ, а не в разовые предложения. В ходе 1197 основных испытаний и 600 контрольных испытаний Parameter Golf после единовременной настройки и запуска люди не выбирали предложения, не редактировали рецепты, не переопределяли оценки и не исправляли неудачные испытания в процессе поиска. В трёх основных прогонах один и тот же цикл отправки испытаний снижает валидационный bpb Parameter Golf на 0.81%, повышает показатель NanoChat-D12 CORE на 38.7% и сокращает время выполнения CIFAR-10 Airbench96 на 4.59%, причём каждая задача измеряется собственным внешним оценщиком и проверками на соответствие требованиям. Трассировка включает строгий аудит 157 отправленных материалов основных прогонов в области архитектуры и программные переработки, такие как изменение пути attention-ядра в NanoChat. В рамках данной области цикл автономно пишет код, отправляет эксперименты, усваивает обратную связь, применяет и комбинирует известные методики внутри каждой среды и улучшает публичные стартовые рецепты.

14

A^2TGPO: Агентная оптимизация политики на уровне ходов с адаптивным ограничением на каждом ходе
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

Обучение с подкреплением для агентных больших языковых моделей (БЯМ) обычно опирается на разреженное вознаграждение на уровне траектории, что затрудняет оценку вклада отдельных вызовов инструментов в рамках многоходовых взаимодействий. Существующие подходы к такому распределению заслуг на уровне процесса либо зависят от отдельных внешних моделей вознаграждения за процесс, что влечет дополнительные затраты, либо используют структурное развертывание на основе деревьев, которое лишь перераспределяет сигнал результата, ограничивая при этом разнообразие траекторий. Перспективная альтернатива использует изменение предсказанной политикой вероятности эталонного ответа на каждом шаге, называемое Информационным Приростом (ИП), в качестве внутреннего сигнала процесса без привлечения внешнего оценщика. Однако предыдущие работы, использующие сигналы ИП в цикле обучения с подкреплением, сталкиваются с тремя системными проблемами: нормализация между шагами, имеющими различный позиционный контекст, может искажать относительную значимость отдельных шагов; накопление переменного числа слагаемых приводит к дрейфу величины преимущества в зависимости от глубины траектории; а фиксированный диапазон отсечения одинаково управляет обновлением политики для шагов с сильно различающимися сигналами ИП. В данной статье мы предлагаем A²TGPO (Агентная оптимизация политики по группам шагов с адаптивным поэтапным отсечением), которая сохраняет ИП в качестве внутреннего сигнала, но пересматривает принципы его нормализации, накопления и использования: (i) нормализация по группам шагов: нормализует ИП внутри каждой группы (промпт, индекс шага), так что каждый шаг сравнивается только с аналогичными шагами на той же глубине взаимодействия; (ii) дисконтированное накопление с масштабированием по дисперсии: делит кумулятивный нормализованный ИП на квадратный корень из количества накопленных слагаемых, чтобы сохранить сопоставимость величин преимущества на разных позициях шагов; и (iii) адаптивное поэтапное отсечение: регулирует диапазон отсечения для каждого шага на основе его нормализованного ИП, расширяя область обновления для информативных шагов и сужая ее для неинформативных.

15

Может ли обучение с подкреплением научить большие языковые модели стратегическому мышлению? Ключевой фактор — выразительная сила
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

Обучение с подкреплением (ОП) применяется для улучшения логических рассуждений больших языковых моделей (БЯМ), однако систематическое изучение того, как масштабируется обучение в зависимости от сложности задачи, затруднено из-за отсутствия контролируемых и масштабируемых сред. Мы представляем ScaleLogic — синтетическую логическую среду, которая обеспечивает независимый контроль по двум осям сложности: глубине необходимого планирования доказательства (т.е. горизонту) и выразительности базовой логики. Предлагаемая среда поддерживает широкий спектр логик: от простой импликационной логики («если-то») до более выразительных рассуждений первого порядка с конъюнкцией («и»), дизъюнкцией («или»), отрицанием («не») и универсальной квантификацией («для всех»). Используя эту среду, мы показываем, что вычислительные затраты на обучение методом ОП T подчиняются степенному закону относительно глубины рассуждений D (T ∝ D^γ, R² > 0.99), и что показатель масштабирования γ монотонно возрастает с увеличением логической выразительности — от 1.04 до 2.60. На бенчмарках по математике и общим рассуждениям более выразительные настройки обучения приводят как к большему приросту производительности (до +10.66 пунктов), так и к более вычислительно-эффективному переносу по сравнению с менее выразительными настройками, что демонстрирует: то, на чем обучается модель, а не только объем обучения, формирует последующий перенос. Мы также показываем, что степенная зависимость сохраняется для различных методов ОП, а обучение на основе учебного плана существенно повышает эффективность масштабирования.

16

ReflectDrive-2: Саморедактирование, согласованное с обучением с подкреплением, для дискретного диффузионного вождения
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

Мы представляем ReflectDrive-2 — планировщик на основе маскированного дискретного диффузионного преобразователя с отдельным экспертом по действиям для автономного вождения, который представляет планы в виде дискретных токенов траектории и генерирует их посредством параллельного маскированного декодирования. Это дискретное токенное пространство позволяет осуществлять локальный пересмотр траектории: метод AutoEdit перезаписывает выбранные токены с использованием той же модели, без необходимости во вспомогательной сети уточнения. Для обучения этой возможности мы используем двухэтапную процедуру. Сначала мы создаем структурно-осознанные возмущения экспертных траекторий вдоль продольного направления движения и латерального направления по курсу и обучаем модель восстанавливать исходную эксперную траекторию. Затем мы дообучаем полный цикл «принятие решения — черновое планирование — рефлексия» с помощью обучения с подкреплением (RL), назначая итоговое вознаграждение за вождение окончательной, отредактированной траектории и распространяя градиенты политики через переходы полного цикла. Обучение с подкреплением на полном цикле оказывается ключевым для связи этапов чернового планирования и редактирования: при использовании только обучения с учителем AutoEdit во время вывода улучшает метрику PDMS максимум на 0.3, тогда как RL увеличивает этот выигрыш до 1.9. Мы также совместно разработали эффективный стек рефлексивного декодирования для конвейера «решение — черновик — рефлексия», сочетающий повторное использование ключей и значений (KV) для общего префикса, попеременное пошаговое декодирование (Alternating Step Decode) и объединенное аппаратное снятие маскирования. В симуляторе NAVSIM ReflectDrive-2 достигает показателя PDMS 91.0 при использовании только камер и 94.8 PDMS в оракульной настройке best-of-6, работая со средней задержкой 31.8 мс на NVIDIA Thor.

17

TabEmbed: Бенчмаркинг и обучение универсальных эмбеддингов для анализа табличных данных
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

Фундаментальные модели создали унифицированные представления для обработки естественного языка, однако эта парадигма остается в значительной степени неисследованной для табличных данных. Существующие методы сталкиваются с фундаментальными ограничениями: подходы на основе больших языковых моделей не обеспечивают векторные выходы, совместимые с поиском, в то время как модели текстовых эмбеддингов часто не способны уловить табличную структуру и числовую семантику. Чтобы устранить этот разрыв, мы сначала представляем Tabular Embedding Benchmark (TabBench) — комплексный набор тестов, предназначенный для оценки способности моделей эмбеддингов понимать табличные данные. Затем мы предлагаем TabEmbed — первую модель эмбеддингов общего назначения, которая объединяет классификацию и поиск в табличных данных в едином пространстве представлений. Преобразуя разнообразные табличные задачи в проблемы семантического сопоставления, TabEmbed использует масштабируемое контрастное обучение с методом сложных негативных примеров, учитывающих позитивные, для распознавания тонких структурных и числовых нюансов. Результаты экспериментов на TabBench демонстрируют, что TabEmbed значительно превосходит современные модели текстовых эмбеддингов, устанавливая новый базовый уровень для универсального обучения представлений табличных данных. Код и наборы данных общедоступны по адресам https://github.com/qiangminjie27/TabEmbed и https://huggingface.co/datasets/qiangminjie27/TabBench.

18

UniPool: Глобально разделяемый пул экспертов для смеси экспертов
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

Современные архитектуры смеси экспертов (MoE) распределяют емкость экспертов по жесткому правилу для каждого слоя: каждый трансформаторный слой обладает собственным набором экспертов. Эта практика связывает масштабирование по глубине с линейным ростом числа параметров экспертов и предполагает, что каждому слою требуется изолированная емкость экспертов. Однако последние анализы и наши эксперименты с маршрутизацией ставят под сомнение это правило: замена обученного top-k маршрутизатора в более глубоком слое на равномерную случайную маршрутизацию снижает итоговую точность всего на 1.0–1.6 пункта в нескольких промышленных MoE-моделях. </think>Мотивированные этой избыточностью, мы предлагаем UniPool — архитектуру MoE, которая рассматривает емкость экспертов как глобальный архитектурный ресурс, заменяя владение экспертами на уровне слоя единым общим пулом, доступным для независимых маршрутизаторов каждого слоя. Для обеспечения стабильного и сбалансированного обучения в условиях разделения пула мы вводим вспомогательную функцию потерь на уровне пула, которая балансирует использование экспертов во всем пуле, и применяем NormRouter для обеспечения разреженной и масштабно-стабильной маршрутизации в общий пул экспертов. </think>На пяти масштабах моделей архитектуры LLaMA (182M, 469M, 650M, 830M и 978M параметров), обученных на 30B токенах из The Pile, UniPool последовательно улучшает потери на валидации и перплексию по сравнению с соответствующими базовыми MoE-моделями. На этих масштабах UniPool снижает потери на валидации до 0.0386 относительно ванильного MoE. Помимо улучшения самих потерь, наши результаты идентифицируют размер пула как явный гиперпараметр масштабирования по глубине: варианты UniPool с уменьшенным пулом, использующие лишь 41.6%–66.7% бюджета параметров экспертов ванильного MoE, соответствуют или превосходят послойный MoE на протестированных масштабах. Это показывает, что в рамках архитектуры с общим пулом параметры экспертов не обязаны расти линейно с глубиной; они могут расти сублинейно, оставаясь при этом более эффективными и результативными, чем ванильный MoE. Дальнейший анализ показывает, что преимущества UniPool сочетаются с более детализированной декомпозицией экспертов.

19

SwiftI2V: Эффективное создание видео из изображений высокого разрешения с помощью условного поэтапного генеративного подхода
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

Генерация видео из изображений высокого разрешения (I2V) ставит целью синтез реалистичной временной динамики при сохранении тонких деталей внешнего вида исходного изображения. При разрешении 2K эта задача становится чрезвычайно сложной, и существующие решения страдают от ряда недостатков: 1) сквозные модели часто оказываются непомерно дорогими с точки зрения памяти и задержек; 2) каскадная генерация низкого разрешения с последующим универсальным увеличением разрешения видео склонна к галлюцинациям деталей и отклонению от локальных структур, специфичных для входного изображения, поскольку этап увеличения разрешения явно не обусловлен входным изображением. Для решения этой проблемы мы предлагаем SwiftI2V — эффективную платформу, разработанную специально для высококачественного I2V. Следуя популярной двухэтапной схеме, она решает дилемму «эффективность–точность» за счёт первоначального генерации низкоразрешенного референса движения для снижения вычислительных затрат и упрощения моделирования, а затем выполнения строго обусловленного изображением синтеза в 2K, управляемого движением, для восстановления деталей, соответствующих входным данным, при контролируемых издержках. В частности, для повышения масштабируемости генерации SwiftI2V вводит условное посементное генерирование (CSG), которое синтезирует видео по сегментам с ограниченным бюджетом вычислений на шаг, и использует двунаправленное контекстное взаимодействие внутри каждого сегмента для улучшения межсегментной согласованности и соответствия входным данным. На тестовом наборе VBench-I2V при разрешении 2K SwiftI2V демонстрирует результаты, сопоставимые со сквозными базовыми методами, при сокращении общего времени вычислений на GPU в 202 раза. Особенно важно, что он позволяет осуществлять практическую 2K I2V-генерацию на одном датацентровом GPU (например, H800) или потребительском GPU (например, RTX 4090).

20

AI-помощник математика: Ускорение работы математиков с помощью агентного искусственного интеллекта
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

Мы представляем ИИ-со-математика — рабочую среду, позволяющую математикам интерактивно использовать ИИ-агентов для проведения открытых исследований. Система оптимизирована для комплексной поддержки исследовательской и итеративной реальности математических рабочих процессов, включая генерацию идей, поиск литературы, вычислительные эксперименты, доказательство теорем и построение теорий. Предоставляя асинхронное, сохраняющее состояние рабочее пространство, которое управляет неопределенностью, уточняет намерения пользователя, отслеживает опровергнутые гипотезы и выдает готовые математические артефакты, система воспроизводит принципы человеческой коллаборации. В первых тестах ИИ-со-математик помог исследователям решить открытые проблемы, определить новые направления исследований и обнаружить упущенные ссылки на литературу. Помимо демонстрации высокоинтерактивной парадигмы ИИ-помощника в математических открытиях, система также устанавливает новый рекорд на сложных benchmarks решения задач, включая результат 48% на FrontierMath Tier 4 — наивысший показатель среди всех оцененных ИИ-систем.

21

RemoteZero: Геопространственные рассуждения без аннотаций человека
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

Пространственное рассуждение требует от моделей разрешения сложной пространственной семантики и пользовательских интенций в точные целевые местоположения для наблюдения Земли. Недавний прогресс освободил путь рассуждения от ручной курации, позволив моделям генерировать собственные цепочки выводов. Однако сохраняется последняя зависимость: они по-прежнему обучаются с учителем на основе размеченных человеком эталонных координат. Это делает процесс рассуждения автономным, но не его пространственный результат, и препятствует подлинной самоэволюции на основе обильных немаркированных данных дистанционного зондирования. Чтобы устранить это узкое место, мы представляем RemoteZero — свободную от боксинг-супервизии структуру для геопространственного рассуждения. RemoteZero мотивирована простой асимметрией: мультимодальные большие языковые модели, как правило, лучше проверяют, удовлетворяет ли регион запросу, чем непосредственно генерируют точные координаты. Используя эту усиленную дискриминативную способность, RemoteZero заменяет геометрический надзор внутренней семантической верификацией и позволяет обучать модели геопространственного рассуждения без аннотаций ограничивающих рамок. Получившаяся структура дополнительно поддерживает итеративную самоэволюцию, позволяя модели улучшаться на основе немаркированных изображений дистанционного зондирования через собственный верификационный сигнал. Эксперименты показывают, что RemoteZero достигает конкурентоспособной производительности по сравнению с сильными методами обучения с учителем, демонстрируя потенциал самопроверяющего обучения для локализации в геопространственном рассуждении.

22

Ось гранулярности: микро-макро латентное направление для социальных ролей в языковых моделях
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

Крупные языковые модели (LLM) регулярно получают инструкции принимать социальные роли — от отдельных лиц до институтов, однако до сих пор неясно, кодируют ли их внутренние представления гранулярность таких ролей, от микроуровневого индивидуального опыта до макроуровневого организационного, институционального или национального мышления. Мы показываем, что это так. Мы определяем контрастную Ось Гранулярности как разность между средними скрытыми состояниями макро- и микро-ролей. В модели Qwen3-8B эта ось совпадает с главной осью (PC1) пространства представлений ролей с косинусным сходством 0.972 и объясняет 52.6% его дисперсии, что указывает на то, что гранулярность является доминирующей геометрической осью, организующей задаваемые социальные роли. Мы конструируем 75 социальных ролей на пяти уровнях гранулярности и собираем 91 200 ответов, обусловленных ролями, на общие вопросы и варианты промптов, затем извлекаем скрытые состояния на уровне ролей и проецируем их на ось. Проекции ролей монотонно возрастают на всех пяти уровнях, остаются стабильными across слоям, вариантам промптов, определениям конечных точек, hold-out выборкам и score-фильтрованным подмножествам, а также переносятся на модель Llama-3.1-8B-Instruct. Ось также причинно релевантна: стимулирование активации вдоль нее смещает гранулярность ответа в предсказанном направлении — у Llama показатель на пятибалльной макро-шкале увеличивается с 2.00 до 3.17 при позитивном стимулировании на промптах, допускающих локальные ответы. Две модели различаются по управляемости, что позволяет предположить, что эффект стимулирования зависит от режима работы модели по умолчанию. В целом, наши результаты свидетельствуют о том, что гранулярность социальной роли — это не просто стилистическая поверхностная особенность, а структурированное, упорядоченное и причинно управляемое латентное направление в поведении языковой модели, обусловленном ролью.

23

EMO: Предобучение смеси экспертов для достижения возникающей модульности
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

Крупные языковые модели обычно развертываются как монолитные системы, требующие задействования всей модели даже тогда, когда приложениям нужна лишь узкая подмножество возможностей, например, работа с кодом, математикой или предметно-ориентированными знаниями. Смеси экспертов (MoE), казалось бы, предлагают потенциальную альтернативу, активируя лишь подмножество экспертов на каждый вход, но на практике ограничение вывода подмножеством экспертов для заданной области приводит к серьезной деградации производительности. Это ограничивает их практическую применимость в условиях ограниченной памяти, особенно по мере увеличения размеров моделей и роста их разреженности. Мы представляем EMO — MoE, спроектированную для модульности — независимого использования и компоновки подмножеств экспертов — без необходимости в задаваемых человеком априорных предположениях. Наша ключевая идея заключается в том, чтобы побуждать токены из схожих доменов полагаться на схожих экспертов. Поскольку токены внутри документа часто принадлежат одному домену, EMO ограничивает их выбор экспертов общим пулом, позволяя при этом разным документам использовать разные пулы. Это простое ограничение позволяет в процессе предварительного обучения формировать согласованные группы экспертов, используя лишь границы документов. Мы провели предварительное обучение EMO с 1B активных и 14B общих параметров на 1 трлн токенов. В качестве полной модель она соответствует производительности стандартных MoE. Ключевым является то, что она позволяет осуществлять выборочное использование экспертов: сохранение лишь 25% (12.5%) экспертов влечет за собой падение абсолютной производительности всего на 1% (3%), тогда как стандартные MoE перестают работать в тех же условиях. Мы также обнаружили, что подмножества экспертов в EMO специализируются на семантическом уровне (например, в таких областях, как математика или программирование), в отличие от низкоуровневой синтаксической специализации, наблюдаемой в стандартных MoE. В целом наши результаты демонстрируют путь к модульному, эффективному по памяти развертыванию крупных разреженных моделей и открывают новые возможности для компоновочных архитектур.

24

Предписывающие законы масштабирования при обучении с ограниченными данными
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

Объем вычислительных ресурсов для обучения все чаще превосходит доступность высококачественных данных. Это смещает ключевую проблему с оптимального распределения вычислений на извлечение максимальной пользы из ограниченных данных. Широко применяемый закон масштабирования Чинчиллы предполагает, что каждый токен обучения уникален. Это ограничивает его способность направлять решения по предварительному обучению в условиях нехватки данных. Мы моделируем избыточную потерю при повторении с помощью простого аддитивного штрафа за переобучение и обнаруживаем, что это точно описывает поведение модели. Наш закон масштабирования дает качественно новые рекомендации по оптимальному распределению вычислений. За определенным пределом дальнейшее повторение становится контрпродуктивным, и вычислительные ресурсы лучше направить на увеличение емкости модели. Мы показываем, что следование рекомендованной нашей законом конфигурации улучшает производительность в условиях ограниченности данных. Наконец, поскольку наша однопараметрическая форма изолирует переобучение в единственном коэффициенте, она позволяет напрямую сравнивать различные конфигурации обучения. В качестве примера мы демонстрируем, что сильная регуляризация по весам (λ=1.0) уменьшает этот коэффициент примерно на 70%, что дает объяснение с позиции законов масштабирования недавним находкам о том, что оптимальный вес регуляризации в условиях дефицита данных на порядок превышает стандартную практику.

25

KernelBench-X: Комплексный бенчмарк для оценки GPU-ядёр, сгенерированных большими языковыми моделями
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

Генерация ядер Triton на основе больших языковых моделей привлекает значительный интерес, однако фундаментальный эмпирический вопрос остается без ответа: где проявляются пределы этой возможности и почему? Мы представляем KernelBench-X — бенчмарк, разработанный для ответа на этот вопрос посредством категориально-ориентированной оценки корректности и аппаратной эффективности на 176 задачах из 15 категорий. Наше систематическое сравнение пяти репрезентативных методов выявило три ключевых результата. Во-первых, структура задачи определяет корректность в большей степени, чем дизайн метода. Категория объясняет почти в три раза больше дисперсии в семантической корректности, чем метод (9,4% против 3,3% объясненной дисперсии), при этом 72% задач на Fusion терпят неудачу во всех пяти методах, тогда как задачи категории Math решаются стабильно. Во-вторых, итеративное уточнение улучшает корректность, но не производительность. В ходе итераций GEAK частота успешной компиляции возрастает с 52,3% до 68,8%, в то время как среднее ускорение снижается с 1,58x до 1,44x; вновь исправленные ядра стабильно показывают худшую производительность по сравнению с изначально корректными (ускорение 1,16x против 1,58x при переходе от раунда 0 к 1). В-третьих, корректность не подразумевает эффективность. 46,6% корректных ядер работают медленнее базового режима PyTorch eager, а дисперсия ускорения на разном оборудовании достигает 21,4x. Кроме того, квантование остается полностью нерешенной проблемой (0/30 успехов) несмотря на нетривиальную частоту компиляции, что указывает на систематическое непонимание контрактов численных вычислений, а не на поверхностные синтаксические ошибки. Эти результаты свидетельствуют о том, что будущий прогресс зависит от решения проблем глобальной координации, явного моделирования численной точности и учета аппаратной эффективности в процессе генерации. Код доступен по адресу https://github.com/BonnieW05/KernelBenchX.

26

Сбалансированная агрегация: понимание и устранение смещения агрегации в GRPO
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало центральной парадигмой для улучшения способностей к рассуждению и генерации кода в больших языковых моделях, а обучение в стиле GRPO широко применяется благодаря своей простоте и эффективности. Однако важный аспект проектирования остается недостаточно изученным: то, как термины градиента политики на уровне токенов агрегируются внутри каждой выборки. Стандартный GRPO использует последовательностную агрегацию, тогда как в recentних работах предлагается токенная агрегация как более предпочтительная альтернатива. Мы показываем, что эти два правила порождают различную оптимизационную смещенность: токенная агрегация вводит связь знака с длиной, тогда как последовательностная агрегация неявно понижает вес более длинных ответов за счет сквозного уравнивания на уровне последовательности. Для разрешения этого противоречия мы предлагаем Сбалансированную Агрегацию (BA) — простую замену, которая вычисляет средние значения на уровне токенов раздельно внутри позитивных и негативных подвыборок, а затем комбинирует их с весами, основанными на количестве последовательностей. Эксперименты с моделями Qwen2.5-Math-7B и Qwen3-1.7B на наборах данных DAPO-17k и Polaris, оцененные по шести тестам на рассуждение и кодирование, показывают, что BA стабильно улучшает устойчивость обучения и итоговую производительность по сравнению со стандартной токенной и последовательностной агрегацией. Наш анализ также демонстрирует, что относительная эффективность токенной и последовательностной агрегации в значительной степени определяется вариацией длины ответов и разницей в длине между позитивными и негативными примерами, что подчеркивает агрегацию как критически важное измерение проектирования в RLVR в стиле GRPO.

27

Масштабные свойства имплицитного дедуктивного мышления в трансформерах
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

Мы исследуем свойства масштабирования неявного дедуктивного вывода над хорновскими дизъюнктами в трансформерах с ограниченной глубиной. Систематически устраняя корреляцию между доказуемостью и спуриальными признаками и обеспечивая алгоритмическое выравнивание, мы обнаруживаем, что в достаточно глубоких моделях с двунаправленной префиксной маской неявный вывод приближается к производительности явной цепочки рассуждений (CoT) для различных топологий графов и ширин задач, хотя CoT остается необходимой для экстраполяции по глубине.

28

GeoStack: Фреймворк для квазиабелевой композиции знаний в моделях визуально-лингвистического обучения
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

Мы решаем проблему композиции знаний в визуально-языковых моделях (VLM), где накопление экспертизы в нескольких областях или задачах обычно приводит к катастрофическому забыванию. Мы представляем GeoStack (Geometric Stacking) — модульную структуру, которая позволяет объединять независимо обученных экспертов предметных областей в единую модель. Путем наложения геометрических и структурных ограничений на многообразие адаптеров GeoStack гарантирует сохранение базовых знаний исходной модели. Кроме того, мы математически демонстрируем свойство свёртки весов, которое обеспечивает постоянную вычислительную сложность вывода (O(1)) независимо от количества интегрированных экспертов. Результаты экспериментов в области многодоменной адаптации и обучения с поэтапным добавлением классов показывают, что GeoStack предоставляет эффективный механизм для долгосрочной композиции знаний при значительном снижении катастрофического забывания. Код доступен по адресу https://github.com/QuantitativeImagingLaboratory/GeoStack.

29

Когда эталон отсутствует: валидация сравнительной оценки безопасности больших языковых моделей без размеченных данных
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

Многие развертывания должны сравнивать кандидатные языковые модели на безопасность до появления размеченного бенчмарка для соответствующего языка, сектора или регуляторного режима. Мы формализуем эту задачу как сравнительную оценку безопасности без бенчмарка и определяем условия, при которых сценарный аудит может интерпретироваться как доказательство для развертывания. Оценки действительны только при фиксированном наборе сценариев, рубрике, аудиторе, оценщике, конфигурации сэмплирования и бюджете перезапусков. Поскольку размеченные данные отсутствуют, мы заменяем согласие с истинными метками инструментальной цепочкой валидности: чувствительностью к контролируемому контрасту "безопасный против искаженного", доминированием целевой дисперсии над артефактами аудитора и оценщика, а также стабильностью при перезапусках. Мы реализуем эту цепочку в SimpleAudit, локальном инструменте оценки, и валидируем его на норвежском наборе сценариев безопасности. Безопасные и искаженные целевые модели разделяются со значениями AUROC от 0,89 до 1,00, идентичность цели является доминирующим компонентом дисперсии (η² ≈ 0,52), а профили серьезности стабилизируются после десяти перезапусков. Применение той же цепочки к Petri показывает, что она допускает оба инструмента. Существенные различия возникают выше по цепочке — в обеспечении соответствия утверждений контракту и пригодности для развертывания. Пример закупок в норвежском государственном секторе, сравнивающий Borealis и Gemma 3, демонстрирует полученные доказательства на практике: выбор более безопасной модели зависит от категории сценария и меры риска. Следовательно, оценки, сопоставленные дельты, критические частоты, неопределенность и используемые аудитор с оценщиком должны сообщаться вместе, а не сворачиваться в единый рейтинг.

30

Генеративный квантово-вдохновленный соболевский решатель КА
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

Высокопроизводительные вычисления (HPC) приобретают все большее значение для масштабируемых рабочих процессов квантовой химии, которые объединяют классические генеративные модели, симуляцию квантовых схем и последующую обработку методом выбранной конфигурационной интерракции. Мы представляем генеративный квантово-вдохновленный алгоритм собственных значений Колмогорова-Арнольда (GQKAE) — параметрически эффективное расширение генеративного квантового алгоритма собственных значений (GQE) для квантовой химии. GQKAE заменяет параметрически насыщенные компоненты прямого распространения в GPT-подобных генеративных алгоритмах собственных значений гибридными квантово-вдохновленными модулями сети Колмогорова-Арнольда, формируя компактный HQKANsformer backbone. Метод сохраняет авторегрессионный выбор операторов и конвейер оценки квантового метода выбранной конфигурационной интерракции, используя модули активации с повторной загрузкой данных для одного кубита (DatA Re-Uploading ActivatioN) для обеспечения выразительных нелинейных отображений. Численные тесты для систем H4, N2, LiH, C2H6, H2O и димера H2O показывают, что GQKAE достигает химической точности, сравнимой с GPT-основанной архитектурой GQE, при этом сокращая обучаемые параметры и память примерно на 66% и улучшая производительность в реальном времени. Для систем с сильной корреляцией, таких как N2 и LiH, GQKAE также улучшает поведение сходимости и финальные ошибки энергии. Эти результаты указывают на то, что квантово-вдохновленные сети Колмогорова-Арнольда могут снизить классические накладные расходы, сохраняя качество генерации схем, что открывает масштабируемый путь для совместного проектирования HPC и квантовых систем на платформах ближайшего будущего.

31

Думай, затем оценивай: Раздельные рассуждение и оценка для моделирования видеовознаграждений
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

Последние достижения в области генеративных видео моделей все больше определяются масштабированием после обучения и на этапе тестирования, что критически зависит от качества моделей вознаграждения (reward models, RM). Идеальная модель вознаграждения должна предсказывать точные оценки, соответствующие человеческим предпочтениям в различных сценариях. Однако существующие парадигмы сталкиваются с фундаментальной дилеммой: Дискриминативные RM регрессируют вознаграждения непосредственно на признаках, извлеченных мультимодальными большими языковыми моделями (МБЯМ), без явного рассуждения, что делает их склонными к обучению с использованием ярлыков и сильно зависимыми от масштабирования огромных объемов данных для обобщения. В отличие от них, Генеративные RM с логическими цепочками (Chain-of-Thought, CoT) демонстрируют превосходную интерпретируемость и потенциал к обобщению, поскольку используют мелкозернистый семантический контроль для усвоения обоснований, стоящих за человеческими предпочтениями. Однако они страдают от присущих им узких мест в оптимизации из-за сопряжения рассуждений и оценки в рамках единой авторегрессионной цепи вывода. Чтобы использовать преимущества обобщения CoT-рассуждений, одновременно mitigating нестабильность обучения, вызванную сопряженным рассуждением и оценкой, мы представляем DeScore — эффективную при обучении и хорошо обобщаемую видео модель вознаграждения. DeScore использует разъединенную парадигму «сначала подумай, затем оцени»: сначала МБЯМ генерирует явную CoT, за которой следует специализированный дискриминативный модуль оценки, состоящий из обучаемого токена запроса и регрессионной головы, предсказывающей итоговое вознаграждение. DeScore оптимизируется с помощью двухэтапной структуры: (1) дискриминативная «холодная» инициализация с включением механизма случайного маскирования для обеспечения надежных способностей к оценке и (2) этап обучения с подкреплением с двойной целью, который независимо улучшает качество CoT-рассуждений и калибрует итоговое вознаграждение, гарантируя, что более качественные рассуждения напрямую преобразуются в превосходную производительность модели.

32

Восстановление скрытой награды в политиках на основе диффузии
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

В данной работе представлен EnergyFlow — фреймворк, объединяющий генеративное моделирование действий с обратным обучением с подкреплением за счёт параметризации скалярной энергетической функции, градиентом которой является поле денойзинга. Мы показываем, что в условиях максимальной энтропийной оптимальности функция оценки, обученная методом денойзинг score matching, восстанавливает градиент мягкой Q-функции эксперта, что позволяет извлекать функцию вознаграждения без применения состязательного обучения. Формально доказывается, что ограничение обученного поля консервативностью снижает сложность гипотез и улучшает границы обобщения для данных вне распределения. Мы также характеризуем идентифицируемость восстановленных вознаграждений и оцениваем распространение ошибок оценки score на предпочтения действий. Экспериментально EnergyFlow демонстрирует наилучшие результаты имитации на различных задачах манипулирования, одновременно предоставляя эффективный сигнал вознаграждения для последующего обучения с подкреплением, превосходящий как состязательные методы обратного ОР, так и альтернативы на основе правдоподобия. Эти результаты свидетельствуют, что структурные ограничения, необходимые для валидного извлечения вознаграждения, одновременно служат полезными индуктивными смещениями для обобщения политик. Код доступен по адресу https://github.com/sotaagi/EnergyFlow.

33

Искра: Реализация динамичной замены фона на видео с управлением через инструкции с помощью разделенного руководства
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

В последние годы усилия в области открытого исходного кода, такие как проект Senorita-2M, способствовали развитию редактирования видео с помощью инструкций на естественном языке. Однако современные общедоступные наборы данных в основном сосредоточены на локальном редактировании или переносе стиля, которые в значительной степени сохраняют исходную структуру сцены и легче масштабируются. В отличие от этого, замена фона — задача, ключевая для творческих приложений, таких как кинопроизводство и реклама, — требует синтеза полностью новых, временно согласованных сцен при сохранении точного взаимодействия переднего плана и фона, что делает крупномасштабную генерацию данных значительно более сложной. Как следствие, эта сложная задача остается в значительной степени неисследованной из-за нехватки высококачественных данных для обучения. Этот пробел очевиден в низкой производительности современных моделей, например, Kiwi-Edit, поскольку основной открытый набор данных, содержащий эту задачу, — OpenVE-3M — часто генерирует статические, неестественные фоны. В данной статье мы связываем это снижение качества с отсутствием точных указаний по фону в процессе синтеза данных. Соответственно, мы разрабатываем масштабируемый конвейер, который генерирует указания для переднего плана и фона раздельным способом со строгой фильтрацией качества. На основе этого конвейера мы представляем Sparkle — набор данных, содержащий ~140 тыс. пар видео, охватывающих пять распространенных тем замены фона, а также Sparkle-Bench — крупнейший на сегодняшний день оценочный эталон, специально созданный для замены фона. Эксперименты показывают, что наш набор данных и модель, обученная на нем, демонстрируют существенно лучшие результаты по сравнению со всеми существующими базовыми методами как на OpenVE-Bench, так и на Sparkle-Bench. Предлагаемые нами набор данных, эталон и модель полностью открыты и доступны по адресу https://showlab.github.io/Sparkle/.

34

Достигаем ли мы прогресса в мультимодальной доменной генерализации? Комплексное сравнительное исследование
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

Несмотря на растущую популярность мультимодальной генерализации доменов (MMDG) для повышения устойчивости моделей, остается неясным, отражают ли заявленные улучшения производительности подлинный алгоритмический прогресс или являются артефактами несогласованных протоколов оценки. Современные исследования фрагментированы: работы значительно различаются по наборам данных, конфигурациям модальностей и экспериментальным условиям. Более того, существующие бенчмарки сосредоточены преимущественно на распознавании действий, часто игнорируя важные практические проблемы, такие как искажения входных данных, отсутствующие модальности и надежность моделей. Отсутствие стандартизации затрудняет достоверную оценку прогресса в данной области. Для решения этой проблемы мы представляем MMDG-Bench — первый унифицированный и комплексный бенчмарк для MMDG, который стандартизирует оценку на шести наборах данных, охватывающих три различные задачи: распознавание действий, диагностика механических неисправностей и анализ тональности. MMDG-Bench включает шесть комбинаций модальностей, девять репрезентативных методов и несколько режимов оценки. Помимо стандартной точности, он систематически оценивает устойчивость к искажениям, обобщающую способность при отсутствующих модальностях, обнаружение ошибок классификации и детектирование данных вне распределения. В общей сложности было обучено 7 402 нейронных сети в рамках 95 уникальных междоменных задач, что позволило получить пять ключевых выводов: (1) при честном сравнении современные специализированные методы MMDG дают лишь незначительное улучшение по сравнению с базовым методом ERM; (2) ни один метод не демонстрирует стабильного превосходства над другими на всех наборах данных или комбинациях модальностей; (3) сохраняется значительный разрыв с верхней границей производительности, что указывает на то, что проблема MDDG далека от решения; (4) тримодальное fusion не превосходит стабильно сильнейшие бимодальные конфигурации; (5) все оцениваемые методы демонстрируют значительную деградацию в условиях искажений и отсутствующих модальностей, причем некоторые методы дополнительно снижают надежность моделей.

35

EDU-CIRCUIT-HW: Оценка мультимодальных больших языковых моделей на реальных рукописных решениях студентов университетов по дисциплинам STEM
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

Многомодальные большие языковые модели (МБЯМ) обладают значительным потенциалом для революционных преобразований в традиционном образовании и снижения нагрузки на преподавателей. Однако точная интерпретация неограниченных рукописных решений студентов по STEM-дисциплинам, содержащих переплетающиеся математические формулы, диаграммы и текстовые рассуждения, представляет собой серьёзную проблему из-за отсутствия аутентичных и предметно-ориентированных бенчмарков. Кроме того, современные парадигмы оценки в основном опираются на результаты последующих задач (например, автоматическое оценивание), которые часто проверяют лишь часть распознанного контента, тем самым не отражая понимание МБЯМ сложной рукописной логики в целом. Чтобы устранить этот пробел, мы представляем EDU-CIRCUIT-HW — набор данных, состоящий из 1300+ аутентичных рукописных решений студентов университетского курса по STEM-дисциплинам. Используя верифицированные экспертами дословные транскрипции и отчеты по оцениванию студенческих работ, мы одновременно оцениваем как точность распознавания различных МБЯМ на начальном этапе, так и их эффективность в задачах автоматического оценивания. Наша оценка выявляет удивительно масштабные скрытые ошибки в распознанном МБЯМ рукописном контенте студентов, подчеркивая недостаточную надежность моделей для автоматического оценивания и других задач, ориентированных на понимание, в ответственных образовательных сценариях. В качестве потенциального решения мы представляем кейс-стади, демонстрирующее, что использование выявленных шаблонов ошибок для упреждающего обнаружения и исправления ошибок распознавания, при минимальном вмешательстве человека (например, направляя 3.3% работ на проверку человеку, а остальные — системе GPT-5.1), может эффективно повысить устойчивость развернутой системы оценивания с искусственным интеллектом. Код и набор данных доступны в репозитории GitHub: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

36

PianoCoRe: Комбинированный и усовершенствованный фортепианный MIDI-датасет
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

Символические музыкальные датасеты с сопоставленными партитурами и исполнениями необходимы для многих задач музыкального информационного поиска (MIR). Однако существующие ресурсы часто охватывают узкий круг композиторов, не обладают разнообразием исполнений, не содержат выравнивания на уровне нот или используют нестандартные форматы именования. В данной работе представлен PianoCoRe — крупномасштабный фортепианный MIDI-датасет, объединяющий и улучшающий основные открытые фортепианные корпуса. Датасет содержит 250 046 исполнений 5 625 произведений, написанных 483 композиторами, что в сумме составляет 21 763 часа исполненной музыки. PianoCoRe выпускается в виде иерархических подмножеств для поддержки различных приложений: от крупномасштабного анализа и предварительного обучения (PianoCoRe-C и дедуплицированный PianoCoRe-B) до моделирования выразительного исполнения с выравниванием на уровне нот (PianoCoRe-A/A*). Подмножество с выравниванием нот, PianoCoRe-A, предоставляет крупнейшую на сегодняшний день открытую коллекцию из 157 207 исполнений, выровненных относительно 1 591 партитуры. Помимо датасета, вклад работы включает: (1) классификатор качества MIDI для обнаружения поврежденных и партитуроподобных транскрипций и (2) RAScoP — конвейер уточнения выравнивания, который очищает временные ошибки выравнивания и интерполирует пропущенные ноты. Анализ показывает, что улучшение снижает временной шум и устраняет выбросы темпа. Более того, модель генерации выразительного исполнения, обученная на PianoCoRe, демонстрирует повышенную устойчивость к незнакомым произведениям по сравнению с моделями, обученными на сырых или меньших датасетах. PianoCoRe предоставляет готовую основу для исследований выразительного фортепианного исполнения следующего поколения.

37

BioTool: Комплексный набор данных для вызова инструментов с целью расширения биомедицинских возможностей больших языковых моделей
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

Несмотря на успехи больших языковых моделей (LLM) в решении общецелевых задач, их производительность в высокоспециализированных областях, таких как биомедицина, остается неудовлетворительной. Ключевым ограничением является неспособность LLM эффективно использовать биомедицинские инструменты, которые клинические эксперты и исследователи широко применяют в повседневной работе. Хотя недавние наборы данных по вызову инструментов в общей области существенно улучшили возможности LLM-агентов, существующие разработки в биомедицинской сфере в основном полагаются на обучение в контексте и ограничивают модели небольшим набором инструментов. Для устранения этого пробела мы представляем BioTool — комплексный набор данных по вызову биомедицинских инструментов, предназначенный для тонкой настройки LLM. BioTool включает 34 часто используемых инструмента, собранных из баз данных NCBI, Ensembl и UniProt, а также 7 040 высококачественных, проверенных человеком пар «запрос-API вызов», охватывающих вариацию, геномику, протеомику, эволюцию и общую биологию. Тонкая настройка LLM с 4 миллиардами параметров на BioTool приводит к значительному улучшению производительности при вызове биомедицинских инструментов, превосходя передовые коммерческие LLM, такие как GPT-5.1. Кроме того, оценка экспертами-людьми демонстрирует, что интеграция настроенного на BioTool модуля вызова инструментов значительно повышает качество ответов в последующих задачах по сравнению с той же LLM без использования инструментов, что подчеркивает эффективность BioTool в расширении биомедицинских возможностей LLM. Полный набор данных и код для оценки доступны по адресу https://github.com/gxx27/BioTool.

38

TIDE: Каждый слой знает токен под контекстом
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

Мы пересматриваем повсеместно принятый, но недостаточно изученный конструктивный выбор в каждой современной крупной языковой модели (LLM): индекс токена извлекается единожды на уровне входного эмбеддинга и затем окончательно отбрасывается. Это предположение о единичной инъекции порождает два структурных недостатка: (i) Проблему редких токенов, когда Zipf-подобное распределение словаря приводит к хроническому недообучению эмбеддингов редких токенов из-за получения лишь доли совокупного градиентного сигнала по сравнению с частотными токенами; и (ii) Проблему контекстуального коллапса, когда модели с ограниченным числом параметров отображают распределительно схожие токены в неразличимые скрытые состояния. В попытке решить обе проблемы мы предлагаем TIDE, который расширяет стандартный трансформер с помощью EmbeddingMemory: ансамбля из K независимых блоков памяти (MemoryBlocks), которые отображают индексы токенов в контекстно-независимые семантические векторы, вычисляемые один раз и инжектируемые в каждый слой через условный на глубине софтмакс-маршрутизатор с обучаемым нулевым банком. Мы теоретически и эмпирически доказываем преимущества TIDE в решении проблем, связанных с единичной инъекцией идентичности токена, а также в повышении производительности в различных задачах языкового моделирования и последующих прикладных задачах.

May 7
May 8