HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

42 papers found

Наблюдение, рассуждение и поиск: эталонный тест для глубокого анализа видео из открытой сети для агентного видеомышления
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Jan 11

ByChengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang

210

В реальных сценариях видео-вопросно-ответных систем видеоролики часто предоставляют лишь локальные визуальные подсказки, тогда как проверяемые ответы распределены по открытой сети; следовательно, модели должны совместно выполнять извлечение межкадровых ключей, итеративный поиск и верификацию на основе многошаговых рассуждений. Для преодоления этого разрыва мы создали первый бенчмарк для глубокого анализа видео — VideoDR. VideoDR фокусируется на видео-обусловленных открытых видео-вопросно-ответных задачах, требующих извлечения визуальных якорей между кадрами, интерактивного веб-поиска и многошаговых рассуждений над совместными видео-веб доказательствами; благодаря тщательной человеческой разметке и контролю качества мы получили высококачественные образцы для глубокого анализа видео, охватывающие шесть семантических доменов. Мы оценили несколько проприетарных и открытых мультимодальных больших языковых моделей в рамках Workflow и Agentic парадигм, и результаты показывают, что Agentic не является последовательно превосходящей Workflow: её преимущества зависят от способности модели сохранять первоначальные видео-якоря в длинных цепочках поиска. Дальнейший анализ указывает, что дрейф целей и долгосрочная согласованность являются ключевыми узкими местами. В целом, VideoDR предоставляет систематический бенчмарк для изучения видео-агентов в условиях открытой сети и выявляет основные проблемы для агентов следующего поколения, выполняющих глубокий анализ видео.

BabyVision: Визуальное мышление за пределами языка
BabyVision: Visual Reasoning Beyond Language

Jan 10

ByLiang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li

195

В то время как люди развивают базовые визуальные навыки задолго до овладения языком, современные мультимодальные большие языковые модели (MLLM) по-прежнему сильно зависят от лингвистических априорных знаний, чтобы компенсировать их хрупкое визуальное понимание. Мы обнаружили ключевой факт: передовые MLLM последовательно терпят неудачу в решении базовых визуальных задач, которые люди, даже 3-летние дети, решают без усилий. Для систематического исследования этого разрыва мы представляем BabyVision — эталонный тест, предназначенный для оценки базовых визуальных способностей MLLM, независимых от лингвистических знаний. BabyVision охватывает широкий спектр задач, включая 388 пунктов, разделенных на 22 подкласса по четырем ключевым категориям. Эмпирические результаты и оценка человеком показывают, что ведущие MLLM демонстрируют результаты значительно ниже человеческих базовых уровней. Gemini3-Pro-Preview набирает 49,7 балла, отставая от 6-летних детей и значительно уступая среднему показателю взрослого человека в 94,1 балла. Эти результаты показывают, что, несмотря на превосходство в оценках, требующих обширных знаний, современные MLLM все еще не обладают фундаментальными визуальными примитивами. Прогресс в BabyVision представляет собой шаг к достижению человеческого уровня визуального восприятия и способностей к рассуждению. Мы также исследуем решение задач визуального рассуждения с помощью генеративных моделей, предлагая BabyVision-Gen и инструментарий для автоматической оценки. Наш код и данные эталонного теста опубликованы по адресу https://github.com/UniPat-AI/BabyVision для воспроизведения.

PaCoRe: Обучение масштабированию вычислительных ресурсов на этапе тестирования с помощью параллельного скоординированного рассуждения
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Jan 9

ByJingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum

Мы представляем Parallel Coordinated Reasoning (PaCoRe) — фреймворк для обучения и вывода, предназначенный для преодоления ключевого ограничения современных языковых моделей: их неспособности значительно масштабировать вычислительные ресурсы на этапе тестирования (TTC) за пределы последовательных рассуждений в рамках фиксированного контекстного окна. PaCoRe отходит от традиционной последовательной парадигмы, обеспечивая масштабирование TTC за счёт массового параллельного исследования, координируемого через архитектуру передачи сообщений в несколько раундов. Каждый раунд запускает множество параллельных траекторий рассуждений, компактизирует их результаты в сообщения, ограниченные размером контекста, и синтезирует эти сообщения для руководства следующим раундом и, в конечном счёте, для формирования окончательного ответа. Модель, обученная сквозным образом с помощью масштабируемого обучения с подкреплением на основе результатов, осваивает навыки синтеза, необходимые для PaCoRe, и масштабируется до эффективного TTC в миллионы токенов, не превышая ограничений контекста. Данный подход демонстрирует значительное улучшение результатов в различных областях и, что особенно примечательно, выводит рассуждения за пределы возможностей передовых систем в математике: модель с 8 миллиардами параметров достигает 94.5% на HMMT 2025, превосходя результат GPT-5 (93.2%) за счёт масштабирования эффективного TTC примерно до двух миллионов токенов. Мы открываем исходный код чекпоинтов модели, данных для обучения и полного конвейера вывода для ускорения последующих исследований.

MHLA: Восстановление выразительности линейного внимания с помощью токенного многоголового механизма
MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Jan 12

ByKewei Zhang, Ye Huang, Yufan Deng, Jincheng Yu, Junsong Chen, Huan Ling, Enze Xie, Daquan Zhou

Хотя архитектура Transformer доминирует во многих областях, ее квадратичная сложность самовнимания препятствует использованию в крупномасштабных приложениях. Линейное внимание предлагает эффективную альтернативу, но его прямое применение часто приводит к снижению производительности, а существующие исправления обычно вновь вводят вычислительные затраты через дополнительные модули (например, depthwise separable convolution), что противоречит первоначальной цели. В данной работе мы выявляем ключевую проблему этих методов: коллапс глобального контекста, при котором модель теряет репрезентативное разнообразие. Для решения этой проблемы мы предлагаем Multi-Head Linear Attention (MHLA), который сохраняет это разнообразие, вычисляя внимание внутри разделенных головок по токенному измерению. Мы доказываем, что MHLA сохраняет линейную сложность, восстанавливая значительную часть выразительной способности softmax-внимания, и подтверждаем его эффективность в различных областях, демонстрируя улучшение на 3.6% в классификации ImageNet, прирост на 6.3% в NLP, улучшение на 12.6% в генерации изображений и усиление на 41% в генерации видео при той же временной сложности.

X-Coder: Развитие соревновательного программирования с помощью полностью синтетических задач, решений и тестов
X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Jan 11

ByJie Wu, Haoling Li, Xin Zhang, Jiani Guo, Jane Luo, Steven Liu, Yangyu Huang, Ruihang Chu, Scarlett Li, Yujiu Yang

Соревновательное программирование представляет серьезные вызовы для языковых моделей программирования (Code LLMs) из-за высоких требований к логическому мышлению и сложности задач. Однако современные Code LLMs по-прежнему сильно зависят от реальных данных, что ограничивает их масштабируемость. В данной работе мы исследуем полностью синтетический подход: обучение Code LLMs на полностью сгенерированных задачах, решениях и тестовых случаях, чтобы расширить возможности моделей логического анализа кода без использования реальных данных. Для реализации этого подхода мы применяем синтез на основе признаков и предлагаем новую pipeline-систему синтеза данных под названием SynthSmith. SynthSmith демонстрирует значительный потенциал в создании разнообразных и сложных задач вместе с верифицированными решениями и тестами, поддерживая как обучение с учителем, так и обучение с подкреплением. На основе предложенных синтетических наборов данных для SFT и RL мы представляем серию моделей X-Coder, которая достигает показателя 62.9 avg@8 на LiveCodeBench v5 и 55.8 на v6, превосходя DeepCoder-14B-Preview и AReal-boba2-14B при наличии всего 7 миллиардов параметров. Глубокий анализ показывает, что законы масштабирования выполняются на наших синтетических данных, и мы исследуем, какие аспекты масштабирования наиболее эффективны. Мы также предоставляем инсайты по обучению с подкреплением, ориентированному на код, и выделяем ключевые факторы, влияющие на производительность, через детальные ablation-исследования и анализ. Наши результаты демонстрируют, что масштабирование высококачественных синтетических данных и применение поэтапного обучения могут значительно продвинуть логический анализ кода, одновременно снижая зависимость от реальных данных программирования.

Заблудившись в шуме: как модели логического вывода терпят неудачу при наличии контекстуальных отвлекающих факторов
Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

Jan 12

BySeongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo

Последние достижения в области рассуждающих моделей и агентских систем ИИ привели к увеличению зависимости от разнообразной внешней информации. Однако этот сдвиг влечет за собой использование входных контекстов, которые по своей природе содержат шум, — реальность, которую современные "очищенные" бенчмарки не учитывают. Мы представляем NoisyBench — комплексный бенчмарк, который систематически оценивает устойчивость моделей на 11 наборах данных в задачах RAG, логического вывода, согласования и использования инструментов против различных типов шума, включая случайные документы, нерелевантные истории чатов и сложные негативные дистракторы. Наша оценка выявляет катастрофическое падение производительности — до 80% — у современных моделей при столкновении с контекстными дистракторами. Что особенно важно, мы обнаруживаем, что агентские рабочие процессы часто усиливают эти ошибки из-за избыточного доверия к зашумленным выходным данным инструментов, а дистракторы могут провоцировать emergent-несогласованность даже без злонамеренного вмешательства. Мы выяснили, что промптинг, инженерия контекста, SFT и RL с вознаграждением только по результату не обеспечивают устойчивости; напротив, наша предлагаемая методика Rationale-Aware Reward (RARE) значительно повышает устойчивость, поощряя идентификацию полезной информации в условиях шума. Наконец, мы выявили обратную зависимость масштабирования, при которой увеличение вычислительных ресурсов на этапе тестирования приводит к ухудшению производительности в зашумленных условиях, и с помощью визуализации внимания показали, что модели непропорционально фокусируются на токенах-дистракторах, что дает важные инсайты для создания следующего поколения устойчивых агентов, способных к рассуждениям.

GlimpRouter: Эффективный совместный вывод с помощью просмотра одного токена мыслей
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Jan 8

ByWenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu

Крупные модели рассуждений (LRMs) демонстрируют выдающиеся результаты за счёт явного генерации многошаговых цепочек мыслей, однако эта способность сопряжена со значительной задержкой вывода и высокими вычислительными затратами. Коллаборативный вывод предлагает перспективное решение, избирательно распределяя задачи между облегчёнными и крупными моделями, но фундаментальная проблема остаётся: определить, когда шаг рассуждения требует мощности крупной модели, а когда достаточно эффективности малой модели. Существующие стратегии маршрутизации либо полагаются на локальные вероятности токенов, либо на последующую верификацию, что вносит существенные накладные расходы на вывод. В данной работе мы предлагаем новый взгляд на пошаговую коллаборацию: сложность шага рассуждения можно определить по самому первому его токену. Вдохновлённые феноменом "Момента озарения" в LRMs, мы показываем, что энтропия начального токена служит надёжным индикатором сложности шага. Основываясь на этом наблюдении, мы представляем GlimpRouter — бесплатный при обучении фреймворк для пошаговой коллаборации. GlimpRouter использует облегчённую модель для генерации только первого токена каждого шага рассуждения и направляет шаг к крупной модели только в случае, если энтропия начального токена превышает пороговое значение. Эксперименты на нескольких бенчмарках демонстрируют, что наш подход значительно сокращает задержку вывода при сохранении точности. Например, GlimpRouter достигает существенного улучшения точности на 10.7%, одновременно сокращая задержку вывода на 25.9% по сравнению с автономной крупной моделью на AIME25. Эти результаты указывают на простой, но эффективный механизм рассуждений: распределение вычислений на основе беглого взгляда на мысль, а не оценки полного шага.

OS-Symphony: Холистическая фреймворк для создания робастных и универсальных агентов, взаимодействующих с компьютером
OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

Jan 12

ByBowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding

Хотя модели «визуальный язык» (Vision-Language Models, VLM) значительно продвинули развитие компьютерных агентов (Computer-Using Agents, CUA), современные фреймворки сталкиваются с проблемами устойчивости в долгосрочных рабочих процессах и обобщения в новых областях. Эти ограничения проистекают из отсутствия детального контроля над курированием исторического визуального контекста и недостатка механизмов поиска обучающих материалов с учетом визуальной информации. Для преодоления этих пробелов мы представляем OS-Symphony — целостный фреймворк, который включает Оркестратор, координирующий две ключевые инновации для обеспечения надежной автоматизации: (1) Агент Рефлексии-Памяти, использующий долговременную память на основе вех для самоисправления на уровне траектории, что эффективно mitigates потерю визуального контекста в долгосрочных задачах; (2) Универсальные Инструментальные Агенты, включающие Мультимодальный Поисковик, который применяет парадигму SeeAct для навигации в браузерной песочнице с целью синтеза актуальных, визуально согласованных tutorials, тем самым решая проблемы достоверности в неизвестных сценариях. Результаты экспериментов демонстрируют, что OS-Symphony обеспечивает существенный прирост производительности для моделей различного масштаба, устанавливая новые state-of-the-art результаты на трех онлайн-бенчмарках, в частности, достигая 65.84% на OSWorld.

За пределами жестких масок: прогрессивная эволюция токенов для диффузионных языковых моделей
Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

Jan 12

ByLinhao Zhong, Linyu Wu, Bozhen Fang, Tianjian Feng, Chenchen Jing, Wen Wang, Jiaheng Zhang, Hao Chen, Chunhua Shen

Диффузионные языковые модели (DLM) представляют перспективную альтернативу для языкового моделирования, обеспечивая параллельное декодирование за счёт итеративного уточнения. Однако большинство DLM полагаются на жёсткое бинарное маскирование и дискретные назначения токенов, что затрудняет пересмотр ранних решений и неэффективно использует промежуточные вероятностные представления. В данной статье мы предлагаем EvoToken-DLM — новый диффузионный подход к языковому моделированию, который заменяет жёсткие бинарные маски эволюционирующими мягкими распределениями токенов. EvoToken-DLM обеспечивает плавный переход от замаскированных состояний к дискретным выходным данным, поддерживая пересматриваемое декодирование. Для эффективной поддержки этой эволюции мы вводим непрерывный контроль по траектории, который согласует учебные цели с итеративными вероятностными обновлениями. Многочисленные эксперименты на различных тестовых наборах показывают, что EvoToken-DLM стабильно демонстрирует превосходящую производительность, опережая сильные диффузионные и маскированные DLM-базlines. Страница проекта: https://aim-uofa.github.io/EvoTokenDLM.

Управляемое использование памяти: баланс между опорой на прошлое и инновациями в долгосрочном взаимодействии человека и агента
Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

Jan 8

ByMuzhao Tian, Zisu Huang, Xiaohua Wang, Jingwen Xu, Zhengkang Guo, Qi Qian, Yuanzhe Shen, Kaitao Song, Jiakang Yuan, Changze Lv, Xiaoqing Zheng

По мере того как агенты на основе больших языковых моделей (LLM) все чаще применяются в долгосрочных взаимодействиях, кумулятивная память становится критически важной для обеспечения персонализации и поддержания стилистической согласованности. Однако большинство существующих систем используют подход «всё или ничего» к использованию памяти: включение всей релевантной прошлой информации может привести к «якорению памяти» (Memory Anchoring), когда агент оказывается в ловушке прошлых взаимодействий, тогда как полное исключение памяти ведет к ее неполному использованию и потере важной истории взаимодействий. Мы показываем, что зависимость агента от памяти можно моделировать как явное и управляемое пользователем измерение. Сначала мы вводим поведенческую метрику зависимости от памяти для количественной оценки влияния прошлых взаимодействий на текущие результаты. Затем мы предлагаем Steerable Memory Agent (SteeM) — фреймворк, который позволяет пользователям динамически регулировать зависимость от памяти, от режима «чистого листа», способствующего инновациям, до режима высокой точности, строго следующего истории взаимодействий. Эксперименты в различных сценариях демонстрируют, что наш подход стабильно превосходит традиционные методы промптинга и жесткие стратегии маскировки памяти, обеспечивая более тонкий и эффективный контроль для персонализированного сотрудничества человека и агента.

МегаФлоу: Масштабируемая распределенная система оркестрации для эпохи агентов
MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

Jan 12

ByLei Zhang, Mouxiang Chen, Ruisheng Cao, Jiawei Chen, Fan Zhou, Yiheng Xu, Jiaxi Yang, Liang Chen, Changwei Luo, Kai Zhang, Fan Yan, KaShun Shum, Jiajun Zhang, Zeyu Cui, Hu Feng, Junyang Lin, Binyuan Hui, Min Yang

Быстрое развитие интерактивных и автономных систем искусственного интеллекта знаменует наш вход в эпоху агентных систем. Обучение и оценка агентов на сложных агентных задачах, таких как разработка программного обеспечения и работа с компьютером, требуют не только эффективных вычислительных моделей, но и сложной инфраструктуры, способной координировать масштабные взаимодействия агента со средой. Однако существующие открытые инфраструктурные решения не могут эффективно поддерживать крупномасштабное обучение и оценку для таких сложных агентных задач. Для решения этой проблемы мы представляем MegaFlow — масштабируемую распределенную систему оркестрации, которая обеспечивает эффективное планирование, распределение ресурсов и детальное управление задачами для рабочих нагрузок «агент-среда». MegaFlow абстрагирует инфраструктуру обучения агентов в три независимых сервиса (Сервис моделей, Сервис агентов и Сервис сред), взаимодействующих через унифицированные интерфейсы, что позволяет независимое масштабирование и гибкое распределение ресурсов для различных конфигураций «агент-среда». В наших развертываниях по обучению агентов MegaFlow успешно управляет десятками тысяч параллельных агентных задач, сохраняя высокую стабильность системы и достигая эффективного использования ресурсов. Обеспечивая возможность столь масштабного обучения агентов, MegaFlow заполняет критический инфраструктурный пробел в emerging-ландшафте агентного ИИ.

Доктор Зеро: Самосовершенствующиеся поисковые агенты без обучающих данных
Dr. Zero: Self-Evolving Search Agents without Training Data

Jan 11

ByZhenrui Yue, Kartikeya Upasani, Xianjun Yang, Suyu Ge, Shaoliang Nie, Yuning Mao, Zhe Liu, Dong Wang

Поскольку получение качественных данных становится все более сложной задачей, саморазвитие без данных (data-free self-evolution) стало перспективной парадигмой. Этот подход позволяет большим языковым моделям (LLM) автономно генерировать и решать сложные задачи, тем самым улучшая их способности к рассуждению. Однако многошаговые поисковые агенты сталкиваются с трудностями в саморазвитии без данных из-за ограниченного разнообразия генерируемых вопросов и значительных вычислительных ресурсов, требуемых для многошаговых рассуждений и использования инструментов. В данной работе мы представляем Dr. Zero — фреймворк, который позволяет поисковым агентам эффективно саморазвиваться без каких-либо обучающих данных. В частности, мы разработали петлю обратной связи саморазвития, в которой *генератор* (proposer) создает разнообразные вопросы для обучения *решателя* (solver), инициализированного на основе той же базовой модели. По мере эволюции решателя он стимулирует генератор производить все более сложные, но при этом решаемые задачи, создавая таким образом автоматизированный учебный план для совершенствования обоих агентов. Для повышения эффективности обучения мы также представляем метод оптимизации относительной политики с группировкой по шагам (hop-grouped relative policy optimization, HRPO). Этот метод группирует структурно схожие вопросы для построения групповых базовых уровней, что позволяет эффективно минимизировать вычислительные затраты на оценку индивидуальной сложности и разрешимости каждого запроса. Как следствие, HRPO значительно сокращает вычислительные требования для обучения решателя без ущерба для производительности или стабильности. Результаты многочисленных экспериментов демонстрируют, что Dr. Zero, работающий без данных, соответствует или превосходит полностью обученных с учителем поисковых агентов, доказывая, что сложные способности к рассуждениям и поиску могут возникать исключительно за счет саморазвития.

DrivingGen: Комплексный эталонный тест для генеративных видео-моделей мира в области автономного вождения
DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Jan 4

ByYang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander

Модели генерации видео, как одна из форм моделей мира, стали одним из самых захватывающих направлений в области ИИ, обещая агентам способность предвосхищать будущее путем моделирования временной эволюции сложных сцен. В автономном вождении это видение порождает модели мира для вождения: генеративные симуляторы, которые предсказывают будущее эго-агента и других участников, обеспечивая масштабируемое моделирование, безопасное тестирование крайних случаев и генерацию богатых синтетических данных. Однако, несмотря на быстро растущую исследовательскую активность, в данной области отсутствует строгий эталон для измерения прогресса и определения приоритетов. Существующие методы оценки остаются ограниченными: общие метрики видео игнорируют критически важные для безопасности факторы визуализации; правдоподобие траекторий редко количественно оценивается; временная и агентская согласованность не учитывается; а управляемость относительно условий для эго-агента игнорируется. Более того, текущие наборы данных не охватывают всего разнообразия условий, необходимых для реального развертывания. Для устранения этих пробелов мы представляем DrivingGen — первый комплексный эталон для генеративных моделей мира вождения. DrivingGen сочетает в себе разнообразный оценочный набор данных, составленный как из датасетов по вождению, так и из интернет-видео, охватывающий различные погодные условия, время суток, географические регионы и сложные маневры, с набором новых метрик, которые совместно оценивают визуальный реализм, правдоподобие траекторий, временную согласованность и управляемость. Тестирование 14 современных моделей выявляет явные компромиссы: универсальные модели выглядят лучше, но нарушают законы физики, в то время как специализированные модели для вождения реалистично передают движение, но отстают по визуальному качеству. DrivingGen предлагает унифицированную систему оценки для развития надежных, управляемых и пригодных к развертыванию моделей мира вождения, обеспечивая масштабируемое моделирование, планирование и принятие решений на основе данных.

Повышение эффективности латентных диффузионных моделей через согласование разъединенных представлений
Boosting Latent Diffusion Models via Disentangled Representation Alignment

Jan 9

ByJohn Page, Xuesong Niu, Kai Wu, Kun Gai

Латентные диффузионные модели (LDM) генерируют высококачественные изображения, работая в сжатом латентном пространстве, которое обычно получают с помощью токенизаторов изображений, таких как вариационные автоэнкодеры (VAE). В поисках VAE, удобного для генерации, последние исследования изучали использование моделей компьютерного зрения общего назначения (VFM) в качестве целей для выравнивания представлений VAE, повторяя подход, обычно применяемый для LDM. Хотя это дает определенный прирост производительности, использование одной и той же цели выравнивания как для VAE, так и для LDM игнорирует их фундаментально различные репрезентационные требования. Мы утверждаем, что в то время как LDM выигрывают от латентных переменных, сохраняющих высокоуровневые семантические концепты, VAE должны превосходно справляться с семантическим разделением признаков, позволяя кодировать информацию на уровне атрибутов структурированным образом. Для решения этой проблемы мы предлагаем VAE с семантическим разделением признаков (Send-VAE), явно оптимизированный для обучения разделенным представлениям путем выравнивания его латентного пространства с семантической иерархией предобученных VFM. Наш подход использует нелинейную mapper-сеть для преобразования латентных переменных VAE, выравнивая их с VFM, чтобы преодолеть разрыв между разделением признаков на уровне атрибутов и высокоуровневой семантикой, обеспечивая эффективное руководство для обучения VAE. Мы оцениваем семантическое разделение признаков с помощью линейного probing на задачах предсказания атрибутов, показывая сильную корреляцию с улучшенной производительностью генерации. Наконец, используя Send-VAE, мы обучаем трансформеры на основе потоков (SiT); эксперименты показывают, что Send-VAE значительно ускоряет обучение и достигает наилучшего показателя FID в 1.21 и 1.75 с использованием классификатор-фри guidance и без него на ImageNet 256x256.

Что пользователи оставляют за кадром: неполные запросы ограничивают возможности визуально-языковых моделей
What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

Jan 7

ByDasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song

Современные бенчмарки для систем "визуальный язык-текст" преимущественно содержат хорошо структурированные вопросы с четкими и явными формулировками. Однако реальные пользовательские запросы часто носят неформальный и недостаточно определенный характер. Пользователи интуитивно опускают множество деталей, полагаясь на изображения для передачи контекста. Мы представляем HAERAE-Vision — бенчмарк, состоящий из 653 реальных визуальных вопросов из корейских онлайн-сообществ (отобрано 0,76% из 86 тысяч кандидатов), каждый из которых снабжен явно переформулированной версией, что в сумме дает 1306 вариантов запросов. Оценив 39 моделей визуального языка (VLM), мы обнаружили, что даже передовые модели (GPT-5, Gemini 2.5 Pro) показывают результат ниже 50% на исходных запросах. Ключевой вывод: одно лишь уточнение формулировки запроса дает улучшение на 8–22 процентных пункта, причем наибольшую выгоду извлекают меньшие модели. Мы также демонстрируем, что даже с использованием веб-поиска неспецифицированные запросы работают хуже, чем явные запросы без поиска, что свидетельствует о неспособности современных систем поиска компенсировать информацию, которую пользователи опускают. Наши результаты показывают, что значительная часть трудностей VLM связана с естественной недостаточной специфицированностью запросов, а не с ограничениями моделей, подчеркивая серьезный разрыв между оценкой на бенчмарках и реальным применением.

ET-Agent: Стимулирование эффективного инструментально-ориентированного рассуждающего агента через калибровку поведения
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

Jan 11

ByYifei Chen, Guanting Dong, Zhicheng Dou

Крупные языковые модели (LLM) могут расширять пределы своих параметрических знаний, применяя парадигму инструментально-интегрированного рассуждения (TIR). Однако существующие фреймворки обучения агентов на основе LLM часто сосредоточены на точности ответов, упуская из виду специфическое выравнивание поведенческих паттернов. Как следствие, агент часто демонстрирует неэффективные действия в ходе задач TIR, такие как избыточные и недостаточные вызовы инструментов. Вопрос о том, как калибровать ошибочные поведенческие паттерны при выполнении задач TIR, исследуя при этом эффективные траектории, остается открытой проблемой. В данной статье мы предлагаем ET-Agent — фреймворк обучения для калибровки поведения агента по использованию инструментов через две синергетические перспективы: Самосовершенствующийся Маховик Данных и Тренировка Калибровки Поведения. В частности, мы вводим самосовершенствующийся маховик данных для генерации улучшенных данных, используемых для тонкой настройки LLM с целью повышения её способности к исследованию. На основе этого мы реализуем двухфазный фреймворк тренировки калибровки поведения. Он предназначен для прогрессивной калибровки ошибочных поведенческих паттернов до оптимальных поведений. Дальнейшие углубленные эксперименты подтверждают превосходство ET-Agent по множеству измерений, включая корректность, эффективность, лаконичность рассуждений и точность выполнения инструментов. Наш фреймворк ET-Agent предоставляет практические идеи для исследований в области TIR. Код доступен по адресу: https://github.com/asilverlight/ET-Agent.

TourPlanner: Конкурентная консенсусная архитектура с ограничительно-затворным обучением с подкреплением для планирования путешествий
TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

Jan 8

ByYinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong

Планирование путешествий представляет собой сложный процесс принятия решений, требующий синтеза многогранной информации для построения маршрутов. Однако существующие подходы к планированию путешествий сталкиваются с рядом проблем: (1) необходимость отбора кандидатов точек интереса (POI) при сохранении высокой полноты охвата; (2) единственный путь рассуждений ограничивает возможности исследования пространства допустимых решений; (3) одновременная оптимизация жёстких и мягких ограничений остаётся серьёзной трудностью. Для решения этих задач мы предлагаем TourPlanner — комплексную框架, использующую многовариантные рассуждения и обучение с подкреплением с ограничивающим механизмом. В частности, мы сначала представляем персонализированный workflow оптимизации полноты и пространственной организации (PReSO) для построения пространственно-осознанного набора кандидатов POI. Затем мы предлагаем конкурентный консенсусный метод цепочки мыслей (CCoT) — парадигму многовариантных рассуждений, повышающую способность исследования пространства допустимых решений. Для дальнейшего улучшения плана мы интегрируем сигмоидный ограничивающий механизм в этап обучения с подкреплением, который динамически расставляет приоритеты удовлетворения мягких ограничений только после выполнения жёстких. Результаты экспериментов на бенчмарках планирования путешествий демонстрируют, что TourPlanner достигает наилучших показателей, значительно превосходя существующие методы как по выполнимости, так и по соответствию пользовательским предпочтениям.

Лес до деревьев: латентная суперпозиция для эффективного визуального рассуждения
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

Jan 11

ByYubo Wang, Juntian Zhang, Yichen Wu, Yankai Lin, Nils Lukas, Yuhan Liu

В то время как метод Chain-of-Thought наделяет большие визуально-языковые модели способностью к многошаговым рассуждениям, явные текстовые обоснования страдают от узкого места информационной пропускной способности, когда непрерывные визуальные детали теряются в процессе дискретной токенизации. Новейшие методы латентных рассуждений пытаются решить эту проблему, но часто становятся жертвой преждевременного семантического коллапса из-за жестких авторегрессионных целей. В данной статье мы предлагаем Laser — новую парадигму, которая переформулирует визуальную дедукцию через обучение динамическому оконному выравниванию (Dynamic Windowed Alignment Learning, DWAL). Вместо принудительного поточечного предсказания Laser выравнивает латентное состояние с динамическим окном валидности будущей семантики. Этот механизм обеспечивает когерархию «сначала лес, потом деревья», позволяя модели сохранять вероятностную суперпозицию глобальных признаков до сужения к локальным деталям. Ключевым моментом является то, что Laser сохраняет интерпретируемость через декодируемые траектории, стабилизируя неограниченное обучение с помощью самосовершенствующейся суперпозиции (Self-Refined Superposition). Многочисленные эксперименты на 6 бенчмарках демонстрируют, что Laser достигает наилучших результатов среди методов латентных рассуждений, превосходя сильный базовый метод Monet в среднем на 5.03%. Примечательно, что эти результаты достигаются с высокой эффективностью — количество токенов при выводе сокращается более чем на 97%, при этом демонстрируется устойчивая обобщающая способность к данным вне распределения.

RealMem: Оценка больших языковых моделей в условиях реального взаимодействия, управляемого памятью
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

Jan 11

ByHaonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen

По мере того как большие языковые модели (LLM) эволюционируют от статических диалоговых интерфейсов к автономным агентам общего назначения, эффективная организация памяти становится крайне важной для обеспечения долгосрочной согласованности. Однако существующие бенчмарки в основном сосредоточены на повседневных беседах или целевых диалогах, не охватывая **«долгосрочные проектно-ориентированные»** взаимодействия, в которых агенты должны отслеживать эволюционирующие цели. Чтобы заполнить этот пробел, мы представляем **RealMem** — первый бенчмарк, основанный на реалистичных проектных сценариях. RealMem включает более 2000 кросс-сессионных диалогов в одиннадцати сценариях, использующих естественные пользовательские запросы для оценки. Мы предлагаем pipeline синтеза данных, который интегрирует Построение основы проекта, Генерацию диалогов с участием множества агентов, а также Управление памятью и расписанием для моделирования динамической эволюции памяти. Эксперименты показывают, что современные системы памяти сталкиваются со значительными трудностями при управлении долгосрочными состояниями проекта и динамическими контекстными зависимостями, присущими реальным проектам. Наш код и наборы данных доступны по адресу: [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).

OpenTinker: Разделение ответственностей в агентном обучении с подкреплением
OpenTinker: Separating Concerns in Agentic Reinforcement Learning

Jan 12

BySiqi Zhu, Jiaxuan You

Мы представляем OpenTinker — инфраструктуру для обучения с подкреплением (RL) агентов на основе больших языковых моделей (LLM), построенную вокруг разделения ответственности между проектированием алгоритмов, выполнением и взаимодействием агента со средой. Вместо использования монолитных сквозных RL-конвейеров OpenTinker декомпозирует системы агентного обучения на легковесные, компонируемые компоненты с четко определенными границами абстракций. Пользователи задают агентов, среды и протоколы взаимодействия, в то время как выполнение выводов и обучение делегируются управляемой среде исполнения. OpenTinker вводит централизованный планировщик для управления нагрузками обучения и вывода, включая RL на основе LoRA и с полными параметрами, контролируемое тонкое настройку и вывод, в условиях общих ресурсов. Мы также обсуждаем принципы проектирования для расширения OpenTinker до многoагентного обучения. Наконец, мы представляем набор сценариев использования RL, демонстрирующих эффективность фреймворка в практических задачах агентного обучения.

Структурированная эпизодическая память о событиях
Structured Episodic Event Memory

Jan 10

ByZhengxuan Lu, Dongfang Li, Yukun Shi, Beilun Wang, Longyue Wang, Baotian Hu

Современные подходы к организации памяти в больших языковых моделях (БЯМ) в основном опираются на статический поисково-дополняемый генеративный подход (Retrieval-Augmented Generation, RAG), который часто приводит к фрагментированному поиску и не позволяет уловить структурные зависимости, необходимые для сложных рассуждений. Для автономных агентов такие пассивные и «плоские» архитектуры лишены когнитивной организации, требуемой для моделирования динамической и ассоциативной природы долгосрочного взаимодействия. Для решения этой проблемы мы предлагаем Иерархическую Эпизодическую Память Событий (Structured Episodic Event Memory, SEEM) — фреймворк, который объединяет графовый слой памяти для реляционных фактов и динамический эпизодический слой памяти для нарративного прогресса. Основываясь на когнитивной теории фреймов, SEEM преобразует потоки взаимодействия в структурированные Эпизодические Фреймы Событий (Episodic Event Frames, EEFs), закрепленные точными указателями происхождения. Кроме того, мы вводим механизм ассоциативного слияния на уровне агента и Обратного Расширения Происхождения (Reverse Provenance Expansion, RPE) для реконструкции связных нарративных контекстов из фрагментированных свидетельств. Результаты экспериментов на бенчмарках LoCoMo и LongMemEval показывают, что SEEM значительно превосходит базовые методы, позволяя агентам поддерживать высокую нарративную связность и логическую последовательность.

Sci-Reasoning: Набор данных для расшифровки паттернов инноваций в искусственном интеллекте
Sci-Reasoning: A Dataset Decoding AI Innovation Patterns

Jan 8

ByJiachen Liu, Maestro Harmon, Zechen Zhang

Несмотря на стремительное ускорение инноваций в области ИИ, интеллектуальный процесс, лежащий в основе прорывов — то, как исследователи выявляют пробелы, синтезируют предыдущие работы и генерируют инсайты, — остаётся малоизученным. Отсутствие структурированных данных о научном мышлении затрудняет систематический анализ и разработку исследовательских агентов ИИ. Мы представляем Sci-Reasoning — первую базу данных, фиксирующую интеллектуальный синтез, стоящий за высококачественными исследованиями в области ИИ. Используя общественно-валидированные сигналы качества и ускоренный LLM, но проверенный человеком пайплайн, мы отслеживаем для устных и spotlight-докладов на конференциях NeurIPS, ICML и ICLR (2023-2025) их ключевых предшественников, формулируя конкретные причинно-следственные связи в структурированном формате. Наш анализ выявляет 15 различных моделей мышления, причём три доминирующие стратегии составляют 52,7%: Рефрейминг на основе пробелов (24,2%), Кросс-доменный синтез (18,0%) и Сдвиг репрезентации (10,5%). Наиболее эффективные рецепты инноваций комбинируют несколько паттернов: Рефрейминг на основе пробелов + Сдвиг репрезентации, Кросс-доменный синтез + Сдвиг репрезентации, а также Рефрейминг на основе пробелов + Кросс-доменный синтез. Этот набор данных позволяет проводить количественные исследования научного прогресса и предоставляет структурированные траектории рассуждений для обучения исследовательских агентов ИИ следующего поколения.

Как крупные языковые модели усваивают концепции в процессе непрерывного дообучения?
How Do Large Language Models Learn Concepts During Continual Pre-Training?

Jan 7

ByBarry Menglong Yao, Sha Li, Yunzhi Yao, Minqian Liu, Zaishuo Xia, Qifan Wang, Lifu Huang

Люди познают мир в первую очередь через концепты (например, «собака») — абстрактные ментальные репрезентации, которые структурируют восприятие, мышление и обучение. Однако то, как большие языковые модели (LLM) приобретают, сохраняют и забывают такие концепты в процессе непрерывного дообучения, остается слабо изученным. В данной работе мы исследуем, как отдельные концепты усваиваются и забываются, а также как множественные концепты взаимодействуют через интерференцию и синергию. Мы связываем эти поведенческие динамики с внутренними концептуальными схемами LLM — вычислительными подграфами, ассоциированными с конкретными концептами, и используем метрики графов для характеристики структуры схем. Наш анализ показывает: (1) концептуальные схемы LLM дают нетривиальный, статистически значимый сигнал об изучении и забывании концептов; (2) концептуальные схемы демонстрируют стадийный временной паттерн в ходе непрерывного дообучения: первоначальное усиление с последующим постепенным ослаблением и стабилизацией; (3) концепты с большим приростом знаний при обучении склонны к более сильному забыванию при последующем обучении; (4) семантически близкие концепты вызывают более сильную интерференцию, чем слабо связанные; (5) концептуальные знания различаются по способности к переносу, причем некоторые из них значимо облегчают изучение других. В совокупности наши результаты предлагают взгляд на динамику изучения концептов на уровне вычислительных схем и открывают пути к созданию более интерпретируемых и устойчивых стратегий обучения LLM, учитывающих концепты.

Соответствуют ли решения LLM вербальной уверенности?
Are LLM Decisions Faithful to Verbal Confidence?

Jan 12

ByJiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu

Крупные языковые модели (LLMs) способны формировать удивительно сложные оценки собственной неопределенности. Однако остается неясным, в какой степени эта декларируемая уверенность связана с процессом рассуждений, знаниями или принятием решений моделью. Чтобы проверить это, мы представляем RiskEval — фреймворк, предназначенный для оценки того, корректируют ли модели свою политику воздержания от ответа в ответ на различные штрафы за ошибку. Наша оценка нескольких передовых моделей выявляет критический разрыв: модели не являются ни осведомленными о стоимости при формулировании своей вербальной уверенности, ни стратегически отзывчивыми при принятии решения о том, стоит ли давать ответ или воздержаться в условиях высоких штрафов. Даже когда экстремальные штрафы делают частое воздержание математически оптимальной стратегией, модели почти никогда не воздерживаются, что приводит к коллапсу полезности. Это указывает на то, что калиброванные вербальные оценки уверенности могут быть недостаточны для создания надежных и интерпретируемых систем ИИ, поскольку современные модели лишены стратегической агентности, необходимой для преобразования сигналов неопределенности в оптимальные и чувствительные к риску решения.

e5-omni: Явное кросс-модальное выравнивание для омни-модальных эмбеддингов
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

Jan 7

ByHaonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou

Современные информационные системы часто работают с различными типами объектов, такими как текстовые запросы, изображения, видеофрагменты или аудиосегменты. Это стимулирует разработку омни-модальных моделей эмбеддингов, которые проецируют гетерогенные модальности в общее пространство для прямого сравнения. Однако большинство современных омни-модальных эмбеддингов по-прежнему сильно полагаются на неявное выравнивание, унаследованное от предобученных визуально-языковых моделей (VLM). На практике это вызывает три распространённые проблемы: (i) логиты сходства имеют модально-зависимую остроту, поэтому оценки находятся в несогласованных масштабах; (ii) негативные примеры внутри батча со временем становятся менее эффективными, поскольку смешанно-модальные батчи создают несбалансированное распределение сложности; в результате многие негативы быстро становятся тривиальными и вносят малый вклад в градиент; и (iii) эмбеддинги между модальностями демонстрируют несогласованные статистики первого и второго порядка, что делает ранжирование менее устойчивым. Для решения этих проблем мы предлагаем e5-omni — облегчённый рецепт явного выравнивания, адаптирующий готовые VLM в robustные омни-модальные модели эмбеддингов. e5-omni сочетает три простых компонента: (1) модально-чувствительную калибровку температуры для согласования шкал сходства, (2) управляемую негативную учебную программу с устранением смещений для фокусировки на сложных негативах при снижении влияния ложных негативов, и (3) batch-отбеливание с регуляризацией ковариации для лучшего согласования кросс-модальной геометрии в общем пространстве эмбеддингов. Эксперименты на MMEB-V2 и AudioCaps показывают устойчивое улучшение по сравнению с сильными би-модальными и омни-модальными базовыми методами, причём тот же рецепт хорошо переносится на другие VLM-архитектуры. Мы публикуем нашу модель по адресу https://huggingface.co/Haon-Chen/e5-omni-7B.

«TODO: исправить беспорядок, который создал Gemini»: к пониманию технического долга, вызванного генеративным ИИ
"TODO: Fix the Mess Gemini Created": Towards Understanding GenAI-Induced Self-Admitted Technical Debt

Jan 12

ByAbdullah Al Mujahid, Mia Mohammad Imran

По мере интеграции больших языковых моделей (LLM), таких как ChatGPT, Copilot, Claude и Gemini, в рабочие процессы разработки программного обеспечения, разработчики все чаще оставляют следы использования ИИ в комментариях к коду. Среди них некоторые комментарии явно подтверждают как использование генеративного ИИ, так и наличие технических недостатков. Проанализировав 6540 комментариев к коду, ссылающихся на LLM, из публичных репозиториев GitHub на Python и JavaScript (ноябрь 2022 г. – июль 2025 г.), мы выявили 81 комментарий, который также признает наличие технического долга (SATD). Разработчики чаще всего описывают отложенное тестирование, неполную адаптацию и ограниченное понимание кода, сгенерированного ИИ, что позволяет предположить, что помощь ИИ влияет на то, когда и почему возникает технический долг. Мы предлагаем термин «Само-признанный технический долг, вызванный генеративным ИИ» (GIST) в качестве концептуальной основы для описания повторяющихся случаев, когда разработчики включают код, созданный ИИ, при этом явно выражая неуверенность в его поведении или корректности.

Искусственное запутывание при тонкой настройке больших языковых моделей
Artificial Entanglement in the Fine-Tuning of Large Language Models

Jan 11

ByMin Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu

Крупные языковые модели (LLM) могут быть адаптированы к новым задачам с помощью методов параметрически-эффективного тонкого настройки (PEFT), которые модифицируют лишь небольшое число обучаемых параметров, часто с помощью низкоранговых обновлений. В данной работе мы применяем подход, вдохновленный квантовой информатикой, чтобы понять их эффективность. С этой точки зрения, низкоранговые параметризации естественным образом соответствуют низкоразмерным представлениям матричных продуктовых состояний (MPS), которые позволяют проводить характеризацию структуры параметров на основе запутанности. Таким образом, мы вводим и измеряем понятие «искусственной запутанности», определяемой как энтропия запутанности параметров в искусственных нейронных сетях (в частности, в LLM). Мы сначала исследуем репрезентативный метод PEFT — низкоранговую адаптацию (LoRA), вместе с полной тонкой настройкой (FFT), используя модели LLaMA масштабов 1B и 8B, обученные на наборах данных Tulu3 и OpenThoughts3, и обнаруживаем: (i) Внутренняя искусственная запутанность в обновлениях матриц проекций запроса и значения в LoRA подчиняется объемному закону с центральным подавлением (названным «Долиной Запутанности»), который чувствителен к гиперпараметрам и отличается от такового в FFT; (ii) Внешняя искусственная запутанность в матрицах внимания, соответствующая корреляциям «токен-токен» в пространстве представлений, подчиняется площадному закону с логарифмическими поправками и остается устойчивой к гиперпараметрам LoRA и шагам обучения. Проводя параллель с теоремой об отсутствии волос у черной дыры в физике, мы предполагаем, что хотя LoRA и FFT порождают различные сигнатуры внутренней запутанности, такие различия не проявляются в выходных данных внимания, что указывает на свойство «отсутствия волос», которое приводит к эффективности низкоранговых обновлений. Мы также предоставляем теоретическое обоснование, основанное на теории случайных матриц, и расширяем наш анализ на метод PEFT — Адаптацию MPS, который демонстрирует качественно схожее поведение.

Генерация текста с кодированным предзнаменованием и развязкой
Codified Foreshadowing-Payoff Text Generation

Jan 11

ByLongfei Yun, Kun Zhou, Yupeng Hou, Letian Peng, Jingbo Shang

Предвестие и развязка являются повсеместными нарративными приемами, с помощью которых авторы вводят обязательства в начале истории и разрешают их через конкретные, наблюдаемые результаты. Однако, несмотря на прогресс в генерации историй, большие языковые модели (БЯМ) часто не справляются с установлением таких долгосрочных нарративных зависимостей, нередко оставляя «ружья Чехова» невыстрелившими даже при наличии необходимого контекста. Существующие методы оценки в значительной степени игнорируют эти структурные сбои, фокусируясь на поверхностной связности, а не на логическом выполнении нарративных завязок. В данной статье мы представляем Кодифицированную Генерацию Предвестий и Развязок (КГПР) — новую структуру, которая переосмысливает качество повествования через призму реализации развязки. Признавая, что БЯМ испытывают трудности с интуитивным пониманием «механизма запуска» предвосхищаемого события, КГПР преобразует нарративную непрерывность в набор исполняемых причинно-следственных предикатов. Путем извлечения и кодирования триад «Предвестие-Триггер-Развязка» из корпуса BookSum мы обеспечиваем структурированный контроль, гарантирующий, что предвосхищенные обязательства не только упоминаются, но и выполняются во временном и логическом отношении. Эксперименты показывают, что КГПР значительно превосходит стандартные методы промптинга по точности развязок и нарративной согласованности. Наши результаты свидетельствуют о том, что явное кодирование нарративных механизмов необходимо для перехода БЯМ от поверхностной беглости к подлинному нарративному мастерству.

ShowUI-Aloha: Графический агент, обучаемый человеком
ShowUI-Aloha: Human-Taught GUI Agent

Jan 12

ByYichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou

Графические пользовательские интерфейсы (GUI) играют центральную роль во взаимодействии человека с компьютером, однако автоматизация сложных задач в GUI остается серьезной проблемой для автономных агентов, главным образом из-за отсутствия масштабируемых высококачественных обучающих данных. Хотя записи демонстраций пользователей представляют собой богатый источник данных, они обычно длинные, неструктурированные и не имеют аннотаций, что затрудняет их использование для обучения агентов. Для решения этой проблемы мы представляем ShowUI-Aloha — комплексный конвейер, преобразующий неструктурированные записи экранов пользователей в настольных средах в структурированные выполняемые задачи. Наша система включает четыре ключевых компонента: рекордер, который фиксирует видео экрана вместе с точными действиями пользователя, такими как клики мышью, нажатия клавиш и прокрутка; модуль интерпретации, который семантически анализирует эти сырые взаимодействия и визуальный контекст, преобразуя их в описательные текстовые аннотации; планировщик, который читает обработанные демонстрации, отслеживает состояние задачи и динамически формирует следующий план действий высокого уровня на основе контекстных рассуждений; и исполнитель, который точно выполняет эти планы действий на уровне операционной системы, производя точные клики, перетаскивания, ввод текста и операции с окнами с проверкой безопасности и обратной связью в реальном времени. Вместе эти компоненты обеспечивают масштабируемое решение для сбора и анализа реальных человеческих данных, демонстрируя жизнеспособный путь к созданию универсальных GUI-агентов, способных эффективно обучаться, просто наблюдая за действиями людей.

FlyPose: К надежному определению позы человека с аэрофотоснимков
FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Jan 9

ByHassaan Farooq, Marvin Brenner, Peter St\ütz

Беспилотные летательные аппараты (БПЛА) все чаще применяются в непосредственной близости от людей для таких задач, как доставка посылок, мониторинг дорожного движения, ликвидация последствий стихийных бедствий и инспекция инфраструктуры. Обеспечение безопасной и надежной работы в этих населенных людьми средах требует точного восприятия поз и действий человека с воздушной точки обзора. Данная перспектива создает трудности для существующих методов из-за низкого разрешения, крутых углов обзора и (само)окклюзии, особенно если приложение требует моделей с реальной производительностью. Мы обучаем и развертываем FlyPose — облегченный конвейер оценки позы человека по аэроизображениям по принципу «сверху вниз». Благодаря обучению на множестве наборов данных мы достигаем среднего улучшения на 6.8 mAP в обнаружении людей на тестовых наборах Manipal-UAV, VisDrone, HIT-UAV, а также на нашем собственном наборе данных. Для оценки 2D-позы человека мы сообщаем об улучшении на 16.3 mAP на сложном наборе данных UAV-Human. FlyPose работает с задержкой вывода около 20 миллисекунд, включая предварительную обработку, на платформе Jetson Orin AGX Developer Kit и развертывается на борту квадрокоптера во время летных экспериментов. Мы также публикуем FlyPose-104 — небольшой, но сложный набор данных для оценки позы человека с воздуха, который включает ручные разметки со сложных аэроуглов обзора: https://github.com/farooqhassaan/FlyPose.

Стохастический ХАОС: Почему детерминированный вывод убивает, а распределительная вариабельность — это сердцебиение искусственного познания
Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition

Jan 12

ByTanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das

Детерминистический вывод — это утешительный идеал в классическом программном обеспечении: одна и та же программа на одних и тех же входных данных всегда должна давать одинаковый результат. По мере того как большие языковые модели внедряются в реальные системы, этот идеал был безоговорочно перенесен в инфраструктуру вывода. Недавнее исследование лаборатории Thinking Machines представило детальный анализ недетерминизма в выводе LLM, показав, как пакетно-инвариантные ядра и детерминистическая функция внимания могут обеспечить побитово идентичные результаты, позиционируя детерминистический вывод как предпосылку воспроизводимости и надежности в корпоративной среде. В данной статье мы занимаем противоположную позицию. Мы утверждаем, что для LLM детерминистический вывод губителен. Он убивает способность моделировать неопределенность, подавляет эмерджентные способности, сводит рассуждения к единственному хрупкому пути и ослабляет безопасность, скрывая риски на "хвостах" распределений. LLM реализуют условные распределения над выходными данными, а не фиксированные функции. Сведение этих распределений к единственной канонической реализации может казаться обнадеживающим, но оно систематически скрывает свойства, центральные для искусственного познания. Вместо этого мы предлагаем подход Stochastic CHAOS, рассматривая вариабельность распределения как сигнал, который следует измерять и контролировать. Эмпирически мы показываем, что детерминистический вывод систематически вводит в заблуждение. Односэмпловая детерминистическая оценка недооценивает как возможности модели, так и ее хрупкость, маскируя вероятность сбоев при парафразах и зашумленных входных данных. Фазоподобные переходы, связанные с эмерджентными способностями, исчезают при жадном декодировании. Многовариантные рассуждения деградируют при насильственном применении детерминистических методов, снижая точность и диагностическую ценность. Наконец, детерминистическая оценка недооценивает риски безопасности, скрывая редкие, но опасные модели поведения, которые проявляются только при многосэмпловой оценке.

Сравнительный анализ малых языковых моделей и малых языковых моделей с логическим выводом для классификации серьезности системных логов
Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification

Jan 12

ByYahya Masri, Emily Ma, Zifu Wang, Joseph Rogers, Chaowei Yang

Системные журналы критически важны для мониторинга и диагностики современной вычислительной инфраструктуры, однако их масштаб и сложность требуют надежной и эффективной автоматизированной интерпретации. Поскольку уровни серьезности являются предопределенными метаданными в сообщениях системных журналов, модель, которая лишь классифицирует их, имеет ограниченную самостоятельную практическую ценность, мало раскрывая о ее фундаментальной способности интерпретировать системные журналы. Мы полагаем, что классификация серьезности более информативна, когда рассматривается как эталонный тест для исследования понимания журналов времени выполнения, а не как конечная задача. Используя реальные данные journalctl с рабочих серверов Linux, мы оцениваем девять малых языковых моделей (SLM) и малых языковых моделей с логическим выводом (SRLM) в условиях zero-shot, few-shot и генерации с дополнением retrieval-augmented generation (RAG). Результаты выявляют сильную стратификацию. Qwen3-4B достигает наивысшей точности в 95,64% с RAG, в то время как точность Gemma3-1B улучшается с 20,25% при few-shot до 85,28% с RAG. Примечательно, что крошечная Qwen3-0.6B достигает точности 88,12%, несмотря на слабую производительность без поиска. В отличие от них, несколько SRLM, включая Qwen3-1.7B и DeepSeek-R1-Distill-Qwen-1.5B, демонстрируют существенное ухудшение при использовании с RAG. Измерения эффективности дополнительно разделяют модели: большинство вариантов Gemma и Llama выполняют вывод менее чем за 1,2 секунды на журнал, тогда как Phi-4-Mini-Reasoning превышает 228 секунд на журнал при точности <10%. Эти находки позволяют предположить, что (1) архитектурный дизайн, (2) цели обучения и (3) способность интегрировать извлеченный контекст в условиях строгих ограничений на выходные данные совместно определяют производительность. Сосредоточившись на небольших, развертываемых моделях, данный эталонный тест соответствует требованиям реального времени систем цифровых двойников (DT) и показывает, что классификация серьезности служит линзой для оценки компетентности модели и возможности развертывания в реальном времени, с последствиями для анализа первопричин (RCA) и более широкой интеграции DT.

Геккон: Эффективная нейросетевая архитектура для обработки последовательностей произвольной длины
Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

Jan 10

ByXuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu

Создание единой нейронной сети, способной эффективно и естественно обрабатывать последовательные данные произвольной длины, является ключевой и сложной проблемой в моделировании последовательностей. Конструктивные решения в Transformer, включая квадратичную сложность и слабую экстраполяцию по длине, ограничили их способность масштабироваться на длинные последовательности. В данной работе мы предлагаем Gecko — нейронную архитектуру, которая наследует дизайн Mega и Megalodon (экспоненциальное скользящее среднее с механизмом взвешенного внимания) и дополнительно вводит несколько технических компонентов для улучшения её способности улавливать дальние зависимости, включая нормализацию с затуханием по времени, механизм внимания со скользящими чанками и адактивную рабочую память. В контролируемом сравнении предварительного обучения с Llama2 и Megalodon в масштабе 7 миллиардов параметров и 2 триллионов токенов обучения Gecko демонстрирует лучшую эффективность и масштабируемость для длинного контекста. Gecko достигает значения функции потерь при обучении 1.68, что значительно превосходит показатели Llama2-7B (1.75) и Megalodon-7B (1.70) и приближается к результату Llama2-13B (1.67). Примечательно, что без использования каких-либо техник расширения контекста Gecko проявляет врождённые способности к обработке длинного контекста и извлечению информации, стабильно работая с последовательностями длиной до 4 миллионов токенов и извлекая информацию из контекстов длиной до 4 раз превышающих её окно внимания. Код: https://github.com/XuezheMax/gecko-llm

Улучшает ли масштабирование вывода достоверность рассуждений? Многомодельный анализ компромиссов самосогласованности
Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

Jan 10

ByDeep Mehta

Метод самосогласованности стал популярным подходом для повышения точности больших языковых моделей в задачах логического вывода. Его суть проста: сгенерировать несколько цепочек рассуждений и выбрать наиболее частый ответ путем мажоритарного голосования. Хотя этот метод надежно повышает точность, остается неясным, отражают ли эти улучшения подлинный рост качества рассуждений. Мы исследуем фундаментальный вопрос, который ранее не изучался: улучшает ли масштабирование вывода достоверность рассуждений? Мы провели всестороннее эмпирическое исследование на четырех передовых моделях (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview и DeepSeek-v3.2) с использованием 100 математических задач из набора GSM8K. Наш анализ включает bootstrap-доверительные интервалы, тесты Макнемара для парных сравнений и размеры эффекта Коэна для строгой количественной оценки результатов. Полученные данные выявляют поразительные различия между моделями, которые ставят под сомнение общепринятые представления о самосогласованности. GPT-5.2 демонстрирует ожидаемую закономерность: точность повышается с 78% до 90% при N=5, в то время как достоверность остается относительно стабильной (0.540 до 0.510). Claude Opus 4.5 показывает совершенно иную картину: его точность фактически снижается с 78% до 74.3%, тогда как достоверность резко возрастает с 0.270 до 0.891 при N=5. DeepSeek-v3.2, уже имеющая точность 98%, демонстрирует эффект потолка с умеренным ростом достоверности (0.440 до 0.541). Gemini-3-flash улучшает точность с 81% до 86% при незначительном снижении достоверности (0.260 до 0.212). Анализ сложности задач показывает, что GPT-5.2 решает 82% сложных задач, допуская ошибки лишь в 13% простых. В отличие от этого, Claude ошибается в 23% простых задач, что объясняет снижение его точности. Эти результаты важны для практиков: самосогласованность не является универсально полезной, и командам следует тестировать свои конкретные модели перед внедрением. Мы публикуем наш код и даем практические рекомендации по работе с выявленными компромиссами.

О неразделимости контролируемой тонкой настройки и обучения с подкреплением в посттренинге
On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

Jan 12

ByXueyan Niu, Bo Bai, Wei Han, Weixi Zhang

Послетренировочная доработка больших языковых моделей обычно чередует контролируемую тонкую настройку (SFT) с обучением с подкреплением (RL). Эти два метода имеют разные цели: SFT минимизирует перекрестную энтропию между выходами модели и ответами экспертов, в то время как RL максимизирует сигналы вознаграждения, полученные из человеческих предпочтений или правил, основанных на верификаторах. Современные модели рассуждений широко adopted практику чередования обучения SFT и RL. Однако теоретического обоснования того, можно ли их разделить, не существует. Мы доказываем, что разделение невозможно в любом порядке: (1) Связка SFT-then-RL: RL увеличивает потери SFT при оптимальности SFT и (2) Связка RL-then-SFT: SFT снижает вознаграждение, достигнутое RL. Эксперименты на Qwen3-0.6B подтверждают прогнозируемую деградацию, доказывая, что SFT и RL нельзя разделить без потери предыдущей производительности на этапе посттренировки.

О заблуждении, связанном с использованием глобальной перплексии токенов при оценке разговорных языковых моделей
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

Jan 9

ByJeff Chan-Jan Sju, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso

Генеративные модели устной речи, предварительно обученные на больших объемах необработанного аудио, способны продолжать речевой промпт с релевантным содержанием, сохраняя такие атрибуты, как говорящий и эмоциональная окраска, выступая в качестве базовых моделей для устного диалога. В предыдущих работах эти модели часто оценивались с помощью «глобальной перплексии токенов», которая напрямую применяет формулу перплексии текста к речевым токенам. Однако такой подход игнорирует фундаментальные различия между речевой и текстовой модальностями, что может приводить к недооценке речевых характеристик. В данной работе мы предлагаем ряд методов оценки на основе правдоподобия и генеративных подходов, которые заменяют наивную глобальную перплексию токенов. Мы демонстрируем, что предложенные методы оценки более точно отражают воспринимаемое качество генерации, что подтверждается более сильной корреляцией с субъективными оценками качества (MOS). При оценке по новым метрикам относительная картина производительности моделей устной речи меняется, выявляя значительное сокращение разрыва между лучшей моделью и человеческим уровнем. В совокупности эти результаты свидетельствуют о том, что корректная оценка критически важна для точного измерения прогресса в моделировании устной речи.

Может ли текстовое рассуждение повысить производительность MLLM в задачах тонкой визуальной классификации?
Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?

Jan 11

ByJie Zhu, Yiyang Su, Xiaoming Liu

Мультимодальные большие языковые модели (MLLM) демонстрируют мощные универсальные способности, однако по-прежнему испытывают трудности с задачей тонкой визуальной классификации (FGVC) — ключевой задачей восприятия, требующей тонкого визуального различения и имеющей критически важное значение для многих практических приложений. Широко распространенной стратегией для повышения производительности на сложных задачах, таких как математика и программирование, является рассуждение по цепочке мыслей (CoT). Однако в ряде предыдущих работ сообщалось, что CoT может фактически ухудшать результаты на задачах визуального восприятия. Эти исследования, однако, рассматривают проблему под относительно узкими углами и оставляют открытым вопрос о том, почему CoT ухудшает производительность на задачах, требующих интенсивного восприятия. Мы систематически пересматриваем роль CoT в FGVC через призму zero-shot оценки и множественных парадигм обучения. В этих условиях мы обнаруживаем центральный парадокс: деградация, вызываемая CoT, в значительной степени обусловлена длиной рассуждения, причем более длинные текстовые рассуждения последовательно снижают точность классификации. Мы называем этот феномен «Ценой размышления». Опираясь на это открытие, мы делаем два ключевых вклада: (1) \alg — простой и универсальный модульный метод нормализации для многокритериальной оптимизации, который балансирует разнородные сигналы вознаграждения, и (2) ReFine-RFT — фреймворк, сочетающий ансамблевые вознаграждения с \alg для ограничения длины рассуждения при одновременном предоставлении плотной обратной связи, ориентированной на точность. Многочисленные эксперименты демонстрируют эффективность наших выводов и предложенного метода ReFine-RFT, который достигает наилучших результатов на эталонных тестах FGVC. Код и модели доступны по адресу https://github.com/jiezhu23/ReFine-RFT{Project Link}.

SketchJudge: Диагностический эталонный тест для оценки рукописных диаграмм с помощью мультимодальных больших языковых моделей
SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

Jan 11

ByYuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang

Хотя мультимодальные большие языковые модели (МБЯМ) достигли значительного прогресса в области визуального понимания, они часто испытывают трудности при столкновении с неструктурированной и неоднозначной природой созданных человеком эскизов. Это ограничение особенно заметно в малоизученной задаче визуального оценивания, где модели должны не только решить задачу, но и диагностировать ошибки в рукописных диаграммах. Такие диагностические возможности зависят от сложного структурного, семантического и метакогнитивного мышления. Чтобы устранить этот пробел, мы представляем SketchJudge — новый эталонный набор, предназначенный для оценки МБЯМ в качестве оценщиков рукописных STEM-диаграмм. SketchJudge включает 1015 рукописных ответов студентов по четырем областям: геометрия, физика, схемы и блок-схемы, с разнообразными стилистическими вариациями и distinct типами ошибок. Оценки на SketchJudge показывают, что даже передовые МБЯМ значительно отстают от человека, что подтверждает эффективность эталона в выявлении уязвимости современного согласования визуальных и языковых моделей в символических и зашумленных контекстах. Все данные, код и скрипты для оценки находятся в открытом доступе по адресу https://github.com/yuhangsu82/SketchJudge.

FinForge: Генерация полусинтетических финансовых эталонных тестов
FinForge: Semi-Synthetic Financial Benchmark Generation

Jan 11

ByGlenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava

Оценка языковых моделей (ЯМ) в специализированных, критически важных областях, таких как финансы, остается серьезной проблемой из-за нехватки открытых, качественных и предметно-ориентированных наборов данных. Существующие общецелевые бенчмарки обеспечивают широкий охват, но им не хватает глубины и предметной достоверности, необходимых для оценки способностей ЯМ к решению реальных финансовых задач, которые требуют как концептуального понимания, так и количественной строгости. Чтобы восполнить этот пробел, мы представляем FinForge — масштабируемый, полусинтетический конвейер для создания предметно-ориентированных оценочных бенчмарков в области финансов путем сочетания экспертного курирования данных и контролируемого синтеза на основе ЯМ. FinForge объединяет ручное и программное построение корпуса из авторитетных финансовых источников со структурированной генерацией вопросов и их валидацией с использованием модели Gemini 2.5 Flash. Чтобы продемонстрировать эффективность конвейера, мы создали FinForge-5k — снимок бенчмарка, содержащий более 5000 верифицированных человеком вопросно-ответных пар по 11 финансовым поддоменам, полученных на основе курированного корпуса из 100 000 проверенных документов общим объемом 143 млн токенов. Оценка современных моделей с открытым и закрытым исходным кодом на FinForge-5k выявила значительные различия в финансовых рассуждениях, при этом лучшие модели достигают уровня точности около 80%. Эти результаты подчеркивают полезность фреймворка для диагностики текущих ограничений моделей и направления будущих улучшений в области финансовой компетентности. Весь код и данные доступны по адресу https://github.com/gtfintechlab/FinForge.

3D CoCa v2: Контрастные обучающиеся системы с поиском в момент тестирования для обобщаемого пространственного интеллекта
3D CoCa v2: Contrastive Learners with Test-Time Search for Generalizable Spatial Intelligence

Jan 10

ByHao Tang, Ting Huang, Zeyu Zhang

Пространственный интеллект — это способность воспринимать, анализировать и описывать объекты и их взаимосвязи в трёхмерных средах, что формирует основу для воплощённого восприятия и понимания сцен. Задача трёхмерного описания (3D-каптионинга) заключается в генерации описаний 3D-сцен на естественном языке; однако она остаётся сложной из-за разреженности и нерегулярности облаков точек и, что более важно, из-за слабой заземлённости и ограниченной обобщающей способности (OOD) существующих моделей для описания в кардинально разных средах, включая внутренние и внешние 3D-сцены. Для решения этой проблемы мы предлагаем 3D CoCa v2 — обобщающую архитектуру для 3D-описания, которая объединяет контрастивное обучение «визуальный язык» с генерацией описаний 3D-сцен и дополнительно повышает устойчивость с помощью поиска в момент тестирования (TTS) без обновления параметров модели описания. 3D CoCa v2 построена на замороженной семантической априорной модели на основе CLIP, пространственно-осознающем 3D-энкодере сцены для геометрии и мультимодальном декодере, совместно оптимизированном с контрастивными и описательными целями, без использования внешних детекторов или ручных предложений. На этапе вывода TTS генерирует разнообразные варианты описаний и выполняет отбор с направляющей наградой, используя компактное резюме сцены. Эксперименты показывают улучшение по сравнению с 3D CoCa на +1,50 CIDEr@0,5IoU на ScanRefer и +1,61 CIDEr@0,5IoU на Nr3D, а также на +3,8 CIDEr@0,25 при zero-shot OOD-оценке на TOD3Cap. Код будет доступен по адресу https://github.com/AIGeeksGroup/3DCoCav2.

SPINAL — интеграция законов масштабирования и предпочтений в слоях нейронного согласования
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers

Jan 8

ByArion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das

Прямая оптимизация предпочтений (Direct Preference Optimization, DPO) представляет собой принципиальную и масштабируемую альтернативу RLHF для согласования больших языковых моделей на основе парных предпочтений, однако её внутренний геометрический след остаётся недостаточно изученным, что ограничивает возможности аудита, сравнения контрольных точек и прогнозирования сбоев. Мы представляем SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) — диагностический метод, который измеряет, как согласование преобразует репрезентации по глубине сети, отслеживая локализованные структурные изменения слой за слоем. В различных семействах моделей DPO производит послойный калибровочный эффект, сконцентрированный в последних декодерных блоках (часто слои 21–30), где градиенты предпочтений наиболее непосредственно влияют на распределение следующего токена. SPINAL кодирует каждую контрольную точку как траекторию по глубине, заданную тройкой (индекс слоя, показатель сжатия, показатель переноса). Показатель сжатия суммирует скорость затухания хвоста спектра слоя (как быстро исчезают малые моды); более высокие значения указывают на сильное сжатие в меньшее количество эффективных направлений. Показатель переноса суммирует величину смещения распределения токенов между соседними слоями с использованием меры ограниченного перекрытия; более низкие значения указывают на более короткие и плавные шаги в пространстве репрезентаций. Согласованные контрольные точки демонстрируют рост сжатия в поздних слоях и плавное снижение переноса, что согласуется с уплотнённой и стабилизированной массой политики, тогда как несогласованные модели следуют по траекториям большей кривизны, более энтропийным и геометрически несогласованным. В целом, согласование геометрически локализовано: финальные слои кодируют доминирующие поправки, индуцированные предпочтениями. SPINAL превращает эту локализацию в практический сигнал для аудита, количественно определяя, где концентрируется согласование, насколько сильно оно проявляется и когда начинает дестабилизироваться в процессе обучения.

Растущая приливная волна поднимает все лодки: вознаграждение MTQE за идиомы повышает общее качество перевода
A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality

Jan 9

ByIshika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür

Некомпозиционные выражения (например, идиомы, пословицы и метафоры) создают значительные трудности для систем нейронного машинного перевода, поскольку их значение не может быть выведено из отдельных слов. Эти выражения кодируют богатое культурное значение и обладают как переносным, так и буквальным смыслом, что затрудняет точный перевод. Поскольку модели достаточно хорошо справляются с переводом композиционного текста, мы исследуем тонкую настройку в стиле GRPO с использованием моделей оценки качества машинного перевода (MTQE) в качестве функций вознаграждения для обучения моделей лучшему переводу идиом. Используя наборы данных китайских и хинди идиом, мы обнаружили, что способности к переводу идиом улучшаются примерно на 14 пунктов, общие неидиоматические переводы неявно улучшаются на ~8 пунктов, а кросс-лингвистические способности перевода (обучение на одном языке, оценка на другом) улучшаются на ~6 пунктов. В целом, наша работа количественно оценивает разрыв в переводе некопмозиционных выражений и предлагает insights для разработки больших языковых моделей с более глубоким межкультурным и образным пониманием языка.