HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

22 papers found

Развитие открытых мировых моделей
Advancing Open-source World Models

Jan 28

ByRobbyant Team, Zelin Gao, Qiuyu Wang, Yanhong Zeng, Jiapeng Zhu, Ka Leong Cheng, Yixuan Li, Hanlin Wang, Yinghao Xu, Shuailei Ma, Yihang Chen, Jie Liu, Yansong Cheng, Yao Yao, Jiayi Zhu, Yihao Meng, Kecheng Zheng, Qingyan Bai, Jingye Chen, Zehong Shen, Yue Yu, Xing Zhu, Yujun Shen, Hao Ouyang

119

Мы представляем LingBot-World — симулятор мира с открытым исходным кодом, созданный на основе генерации видео. Позиционируемый как модель мира высшего класса, LingBot-World обладает следующими характеристиками. (1) Он обеспечивает высокую детализацию и устойчивую динамику в широком спектре сред, включая реалистичные, научные контексты, мультипликационные стили и другие. (2) Он позволяет достигать минутного горизонта прогнозирования при сохранении контекстной согласованности во времени, что также известно как «долговременная память». (3) Он поддерживает интерактивность в реальном времени, достигая задержки менее 1 секунды при генерации 16 кадров в секунду. Мы предоставляем открытый доступ к коду и модели, чтобы сократить разрыв между технологиями с открытым и закрытым исходным кодом. Мы уверены, что наш релиз расширит возможности сообщества для практического применения в таких областях, как создание контента, игровая индустрия и обучение роботов.

Сложнее — значит лучше: повышение математических рассуждений с помощью учитывающего сложность GRPO и многогранной переформулировки вопросов
Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Jan 28

ByYanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu

116

Подход RLVR (обучение с подкреплением с верифицируемыми вознаграждениями) предлагает надежный механизм для улучшения математических рассуждений в больших моделях. Однако мы выявляем систематическую недостаточность внимания к более сложным задачам в существующих методах как с алгоритмической, так и с точки зрения данных, несмотря на их важность для совершенствования недостаточно развитых способностей. Алгоритмически, широко используемая оптимизация групповой относительной политики (GRPO) страдает от имплицитного дисбаланса, при котором величина обновлений политики ниже для более сложных задач. С точки зрения данных, подходы к аугментации в основном перефразируют вопросы для повышения разнообразия, не систематически увеличивая внутреннюю сложность. Для решения этих проблем мы предлагаем двухуровневую структуру MathForge для улучшения математических рассуждений, нацеленную на сложные задачи с обеих перспектив, которая включает алгоритм Difficulty-Aware Group Policy Optimization (DGPO) и стратегию Multi-Aspect Question Reformulation (MQR). В частности, DGPO сначала исправляет имплицитный дисбаланс в GRPO с помощью сбалансированной по сложности оценки группового преимущества и дополнительно приоритизирует сложные задачи с помощью взвешивания на уровне вопросов, учитывающего сложность. Тем временем MQR переформулирует вопросы по нескольким аспектам для увеличения сложности при сохранении исходного правильного ответа. В целом, MathForge формирует синергетический цикл: MQR расширяет границы данных, а DGPO эффективно обучается на аугментированных данных. Многочисленные эксперименты показывают, что MathForge значительно превосходит существующие методы в различных задачах математических рассуждений. Код и аугментированные данные доступны по адресу https://github.com/AMAP-ML/MathForge.

Innovator-VL: Мультимодальная большая языковая модель для научных открытий
Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Jan 27

ByZichen Wen, Boxue Yang, Shuang Chen, Yaojie Zhang, Yuhang Han, Junlong Ke, Cong Wang, Yicheng Fu, Jiawang Zhao, Jiangchao Yao, Xi Fang, Zhen Wang, Henxing Cai, Lin Yao, Zhifeng Gao, Yanhui Hong, Nang Yuan, Yixuan Li, Guojiang Zhao, Haoyi Tao, Nan Wang, Han Lyu, Guolin Ke, Ning Liao, Xiaoxing Wang, Kai Chen, Zhiyu Li, Feiyu Xiong, Sihan Hu, Kun Chen, Yanfeng Wang, Weinan E, Linfeng Zhang, Linfeng Zhang

Мы представляем Innovator-VL — научную мультимодальную большую языковую модель, разработанную для углубления понимания и способности к рассуждению в различных научных областях при сохранении высокой производительности на общих визуальных задачах. В противовес тенденции полагаться на масштабное предметно-ориентированное предварительное обучение и непрозрачные конвейеры, наша работа демонстрирует, что принципиально продуманный дизайн обучения и прозрачная методология позволяют достичь высокой научной интеллектуальности при существенно сокращенных требованиях к данным. (i) Во-первых, мы предлагаем полностью прозрачный, воспроизводимый от начала до конца конвейер обучения, охватывающий сбор данных, их очистку, предварительную обработку, контролируемое тонкое настраивание, обучение с подкреплением и оценку, вместе с детальными рецептами оптимизации. Это способствует систематическому расширению сообществом. (ii) Во-вторых, Innovator-VL демонстрирует замечательную эффективность использования данных, достигая конкурентоспособных результатов на различных научных задачах с использованием менее пяти миллионов отобранных образцов без масштабного предварительного обучения. Эти результаты подчеркивают, что эффективные рассуждения могут быть достигнуты за счет принципиального отбора данных, а не безразборного масштабирования. (iii) В-третьих, Innovator-VL показывает сильную способность к обобщению, демонстрируя конкурентоспособную производительность на общих визуальных, мультимодальных логических и научных тестах. Это указывает на то, что научная специализация может быть интегрирована в единую модель без ущерба для общецелевых возможностей. Наш опыт свидетельствует, что эффективные, воспроизводимые и высокопроизводительные научные мультимодальные модели могут быть созданы даже без крупномасштабных данных, что закладывает практическую основу для будущих исследований.

DeepSeek-OCR 2: Визуальный причинно-следственный поток
DeepSeek-OCR 2: Visual Causal Flow

Jan 28

ByHaoran Wei, Yaofeng Sun, Yukun Li

Мы представляем DeepSeek-OCR 2 для исследования возможности применения нового энкодера DeepEncoder V2, способного динамически переупорядочивать визуальные токены на основе семантики изображения. Традиционные модели «визуальный язык» (VLMs) неизменно обрабатывают визуальные токены в жестком порядке растеризации (слева направо, сверху вниз) с фиксированным позиционным кодированием при подаче в большие языковые модели (LLMs). Однако это противоречит человеческому визуальному восприятию, которое следует гибким, но семантически связным паттернам сканирования, управляемым внутренними логическими структурами. В частности, для изображений со сложной компоновкой человеческое зрение демонстрирует последовательную обработку, основанную на причинно-следственных связях. Вдохновленные этим когнитивным механизмом, мы разработали DeepEncoder V2, чтобы наделить энкодер способностями к каузальным рассуждениям, позволяя ему интеллектуально переупорядочивать визуальные токены до интерпретации содержимого на основе LLM. Данная работа исследует новую парадигму: может ли понимание 2D-изображений быть эффективно достигнуто с помощью двух каскадированных структур 1D каузальных рассуждений, предлагая таким образом новый архитектурный подход с потенциалом для достижения подлинного 2D-мышления. Код и веса модели общедоступны по адресу http://github.com/deepseek-ai/DeepSeek-OCR-2.

Обучение с подкреплением через самодистилляцию
Reinforcement Learning via Self-Distillation

Jan 28

ByJonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause

Крупные языковые модели все чаще проходят последующее обучение с подкреплением в верифицируемых областях, таких как программирование и математика. Однако современные методы обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) обучаются только на основе скалярной награды за каждую попытку, что создает серьезную проблему распределения заслуг. Многие верифицируемые среды фактически предоставляют богатую текстовую обратную связь, такую как ошибки времени выполнения или оценки проверяющей системы, которая объясняет, почему попытка не удалась. Мы формализуем эту задачу как обучение с подкреплением с богатой обратной связью и представляем метод оптимизации политики с самодистилляцией (SDPO), который преобразует токенизированную обратную связь в плотный обучающий сигнал без привлечения внешнего учителя или явной модели вознаграждения. SDPO рассматривает текущую модель, conditioned на обратной связи, в качестве самоучителя и дистиллирует ее информированные обратной связью предсказания следующих токенов обратно в политику. Таким образом, SDPO использует способность модели ретроспективно идентифицировать собственные ошибки в контексте. В задачах научного мышления, использования инструментов и соревновательного программирования на LiveCodeBench v6 метод SDPO демонстрирует повышение эффективности использования данных и итоговой точности по сравнению с сильными базовыми методами RLVR. Примечательно, что SDPO также превосходит базовые методы в стандартных средах RLVR, которые возвращают только скалярную обратную связь, за счет использования успешных прогонов в качестве неявной обратной связи для неудачных попыток. Наконец, применение SDPO к отдельным задачам во время тестирования ускоряет нахождение решения в сложных задачах с бинарным вознаграждением, достигая той же вероятности обнаружения, что и best-of-k сэмплирование или многошаговые диалоги, но с трехкратным сокращением числа попыток.

Spark: Стратегическое исследование с учетом политики через динамическое ветвление для агентного обучения в длинных горизонтах
Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

Jan 28

ByJinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

Методы обучения с подкреплением позволяют крупным языковым моделям функционировать в качестве интеллектуальных агентов, однако их обучение для решения задач с длинным горизонтом планирования остается сложной проблемой из-за недостатка высококачественных траекторий, особенно в условиях ограниченных ресурсов. Существующие подходы обычно наращивают объем сэмплирования и неразборчиво распределяют вычислительные ресурсы между промежуточными шагами. Такие попытки по своей сути приводят к значительным затратам вычислительного бюджета на тривиальные шаги, не гарантируя при этом качества образцов. Для решения этой проблемы мы предлагаем Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching) — новую архитектуру, которая выборочно ветвится на критических состояниях принятия решений для ресурсоэффективного исследования. Ключевая идея заключается в активации адаптивного ветвящегося исследования в критических точках принятия решений для поиска перспективных траекторий, что позволяет достичь точного распределения ресурсов, отдающего приоритет качеству сэмплирования перед слепым охватом. Данный подход использует внутренние сигналы принятия решений агентом для снижения зависимости от априорных знаний, позволяя агенту автономно расширять исследование и достигать более высокой обобщающей способности. Эксперименты на разнообразных задачах (например, воплощенное планирование) демонстрируют, что Spark достигает превосходных показателей успешности при значительно меньшем объеме обучающих данных, проявляя robustную обобщающую способность даже в непредвиденных сценариях.

Линейные представления в языковых моделях могут кардинально меняться в ходе диалога.
Linear representations in language models can change dramatically over a conversation

Jan 28

ByAndrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan

Векторные представления языковых моделей часто содержат линейные направления, соответствующие концепциям высокого уровня. В данной работе мы исследуем динамику этих представлений: как они эволюционируют вдоль данных направлений в контексте (смоделированных) диалогов. Мы обнаруживаем, что линейные представления могут кардинально меняться в ходе диалога; например, информация, представленная как фактическая в начале разговора, может интерпретироваться как не-фактическая в его конце, и наоборот. Эти изменения зависят от содержания: хотя представления релевантной для диалога информации могут меняться, общая информация обычно сохраняется. Данные изменения устойчивы даже для направлений, отделяющих фактичность от более поверхностных паттернов ответов, и наблюдаются в различных семействах моделей и на разных слоях модели. Для изменения представлений не требуются диалоги, сгенерированные самой моделью; даже воспроизведение сценария диалога, написанного совершенно другой моделью, может вызывать схожие изменения. Однако адаптация значительно слабее при простом наличии в контексте научно-фантастического рассказа, явно обозначенного как таковой. Мы также показываем, что управление вдоль репрезентационного направления может иметь радикально разные эффекты в различные моменты диалога. Эти результаты согласуются с идеей, что представления могут эволюционировать в ответ на исполнение моделью определенной роли, заданной диалогом. Наши выводы могут создавать проблемы для интерпретируемости и управления — в частности, они подразумевают, что использование статических интерпретаций признаков или направлений, либо проб, предполагающих постоянное соответствие определенного диапазона признаков конкретному истинному значению, может вводить в заблуждение. Однако такая репрезентационная динамика также указывает на новые перспективные направления исследований для понимания того, как модели адаптируются к контексту.

AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context

Jan 27

ByLei Zhang, Yongda Yu, Minghui Yu, Xinxin Guo, Zhengqi Zhuang, Guoping Rong, Dong Shao, Haifeng Shen, Hongyu Kuang, Zhengfeng Li, Boge Wang, Guoan Zhang, Bangyu Xiang, Xiaobin Xu

High-quality evaluation benchmarks are pivotal for deploying Large Language Models (LLMs) in Automated Code Review (ACR). However, existing benchmarks suffer from two critical limitations: first, the lack of multi-language support in repository-level contexts, which restricts the generalizability of evaluation results; second, the reliance on noisy, incomplete ground truth derived from raw Pull Request (PR) comments, which constrains the scope of issue detection. To address these challenges, we introduce AACR-Bench a comprehensive benchmark that provides full cross-file context across multiple programming languages. Unlike traditional datasets, AACR-Bench employs an "AI-assisted, Expert-verified" annotation pipeline to uncover latent defects often overlooked in original PRs, resulting in a 285% increase in defect coverage. Extensive evaluations of mainstream LLMs on AACR-Bench reveal that previous assessments may have either misjudged or only partially captured model capabilities due to data limitations. Our work establishes a more rigorous standard for ACR evaluation and offers new insights on LLM based ACR, i.e., the granularity/level of context and the choice of retrieval methods significantly impact ACR performance, and this influence varies depending on the LLM, programming language, and the LLM usage paradigm e.g., whether an Agent architecture is employed. The code, data, and other artifacts of our evaluation set are available at https://github.com/alibaba/aacr-bench .

SERA: Мягко-верифицированные эффективные репозиторные агенты
SERA: Soft-Verified Efficient Repository Agents

Jan 28

ByEthan Shen, Danny Tormoen, Saurabh Shah, Ali Farhadi, Tim Dettmers

Агенты с открытыми весами для программирования должны обладать фундаментальным преимуществом перед закрытыми системами: их можно специализировать под приватные кодобазы, кодируя информацию, специфичную для репозитория, непосредственно в их весах. Однако стоимость и сложность обучения до сих пор делали это преимущество теоретическим. Мы показываем, что теперь это практично. Мы представляем Soft-Verified Efficient Repository Agents (SERA) — эффективный метод обучения программирующих агентов, который позволяет быстро и дешево создавать агентов, специализированных под приватные кодобазы. Используя только контролируемое дообучение (SFT), SERA достигает наилучших результатов среди полностью открытых моделей (открытые данные, метод, код), соответствуя производительности передовых моделей с открытыми весами, таких как Devstral-Small-2. Создание моделей SERA в 26 раз дешевле, чем обучение с подкреплением, и в 57 раз дешевле, чем предыдущие методы с синтетическими данными, для достижения эквивалентной производительности. Наш метод, Soft Verified Generation (SVG), генерирует тысячи траекторий из одного репозитория кода. В сочетании с экономической эффективностью это позволяет специализироваться на приватных кодобазах. Помимо специализации на репозиториях, мы применяем SVG к более крупному корпусу кодобаз, генерируя более 200 000 синтетических траекторий. Мы используем этот набор данных для детального анализа законов масштабирования, проведения абляционных исследований и анализа смешивающих факторов при обучении программирующих агентов. В целом, мы считаем, что наша работа значительно ускорит исследования в области открытых программирующих агентов и продемонстрирует преимущество моделей с открытым исходным кодом, которые могут адаптироваться под приватные кодобазы. Мы выпускаем SERA как первую модель в серии Open Coding Agents от Ai2, вместе со всем нашим кодом, данными и интеграцией с Claude Code для поддержки научного сообщества.

Групповая дистрибутивно-робастная оптимизация в обучении с подкреплением для логического вывода больших языковых моделей
Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning

Jan 27

ByKishan Panaganti, Zhenwen Liang, Wenhao Yu, Haitao Mi, Dong Yu

Последние достижения в области логического вывода больших языковых моделей (LLM) все в большей степени определяются совершенствованием функций потерь после обучения и стратегий согласования. Однако стандартные парадигмы обучения с подкреплением (RL), такие как Group Relative Policy Optimization (GRPO), остаются ограниченными статической унификацией: единообразным сэмплированием промптов и фиксированным количеством прогонов (rollouts) на промпт. Для гетерогенных данных логического вывода с тяжелыми хвостами это создает структурные неэффективности, приводящие к растрате вычислительных ресурсов на уже решенные шаблоны при недостаточном обучении на длинном хвосте сложных задач. Для решения этой проблемы мы предлагаем Multi-Adversary Group Distributionally Robust Optimization (GDRO) — оптимизационную среду, которая выходит за рамки моделей с равномерным выводом за счет динамической адаптации распределения обучения. Мы представляем Онлайн-классификатор сложности, который разделяет промпты на динамические группы сложности pass@k. Затем мы предлагаем две независимые GDRO-игры для пост-обучения: (1) Prompt-GDRO, которая использует EMA-дебиазированный мультипликативно-взвешенный бандитский сэмплер для таргетирования интенсивной границы сложности и повышения веса устойчиво сложных групп без частотного смещения; и (2) Rollout-GDRO, которая использует контроллер теневых цен для перераспределения прогонов между группами, максимизируя снижение дисперсии градиента на сложных задачах при фиксированном среднем бюджете (вычислительно-нейтральном). Мы предоставляем гарантии отсутствия сожаления для обоих контроллеров, а также анализ прокси-дисперсии, обосновывающий квадратично-оптимальное распределение прогонов для Rollout-GDRO. Мы проверяем нашу среду на наборе данных DAPO 14.1k с использованием моделей Qwen3-Base. Prompt-GDRO и Rollout-GDRO демонстрируют средний относительный прирост +10,6% и +10,1% соответственно в точности pass@8 для масштабов 1,7B, 4B и 8B по сравнению с базовым GRPO. Качественный анализ показывает emergence учебного плана: адверсарии переносят ресурсы на развивающийся фронтир логического вывода, повышая производительность модели.

OmegaUse: Создание универсального GUI-агента для автономного выполнения задач
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Jan 28

ByLe Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang

Агенты с графическим интерфейсом пользователя (GUI) демонстрируют значительный потенциал для выполнения реальных задач моделями-основами, революционизируя человеко-компьютерное взаимодействие и повышая производительность труда. В данном отчете мы представляем OmegaUse — универсальную модель GUI-агента для автономного выполнения задач на мобильных и настольных платформах, поддерживающую сценарии работы с компьютером и телефоном. Создание эффективной модели GUI-агента зависит от двух факторов: (1) высококачественных данных и (2) эффективных методов обучения. Для их решения мы предлагаем тщательно разработанный конвейер построения данных и развязанную парадигму обучения. Для построения данных мы используем тщательно отобранные открытые наборы данных и представляем новую автоматизированную систему синтеза, интегрирующую нисходящее автономное исследование с нисходящей генерацией на основе таксономии для создания синтетических данных высокой точности. В обучении, чтобы лучше использовать эти данные, мы применяем двухэтапную стратегию: контролируемую тонкую настройку (SFT) для установления базового синтаксиса взаимодействия с последующей групповой относительной оптимизацией политики (GRPO) для улучшения пространственного позиционирования и последовательного планирования. Для баланса между вычислительной эффективностью и агентскими рассуждениями OmegaUse построена на основе архитектуры смеси экспертов (MoE). Для оценки кроссплатформенных возможностей в автономном режиме мы представляем OS-Nav — набор тестов, охватывающих несколько операционных систем: ChiM-Nav для китайской мобильной среды Android и Ubu-Nav, ориентированный на рутинные взаимодействия с настольной системой Ubuntu. Масштабные эксперименты показывают, что OmegaUse демонстрирует высокую конкурентоспособность на существующих GUI-бенчмарках, достигая наилучшего результата в 96,3% на ScreenSpot-V2 и ведущего показателя успешности шагов в 79,1% на AndroidControl. OmegaUse также показывает высокие результаты на OS-Nav, достигая 74,24% успешности шагов на ChiM-Nav и 55,9% средней успешности на Ubu-Nav.

How AI Impacts Skill Formation

Jan 28

ByJudy Hanwen Shen, Alex Tamkin

AI assistance produces significant productivity gains across professional domains, particularly for novice workers. Yet how this assistance affects the development of skills required to effectively supervise AI remains unclear. Novice workers who rely heavily on AI to complete unfamiliar tasks may compromise their own skill acquisition in the process. We conduct randomized experiments to study how developers gained mastery of a new asynchronous programming library with and without the assistance of AI. We find that AI use impairs conceptual understanding, code reading, and debugging abilities, without delivering significant efficiency gains on average. Participants who fully delegated coding tasks showed some productivity improvements, but at the cost of learning the library. We identify six distinct AI interaction patterns, three of which involve cognitive engagement and preserve learning outcomes even when participants receive AI assistance. Our findings suggest that AI-enhanced productivity is not a shortcut to competence and AI assistance should be carefully adopted into workflows to preserve skill formation -- particularly in safety-critical domains.

FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning

Jan 26

ByZhaopeng Qiu, Shuang Yu, Jingqi Zhang, Shuai Zhang, Xue Huang, Jingyi Yang, Junjie Lai

Reinforcement learning (RL) for large language models (LLMs) is increasingly bottlenecked by rollout (generation), where long output sequence lengths make attention and KV-cache memory dominate end-to-end step time. FP8 offers an attractive lever for accelerating RL by reducing compute cost and memory traffic during rollout, but applying FP8 in RL introduces unique engineering and algorithmic challenges: policy weights change every step (requiring repeated quantization and weight synchronization into the inference engine) and low-precision rollouts can deviate from the higher-precision policy assumed by the trainer, causing train-inference mismatch and potential instability. This report presents a practical FP8 rollout stack for LLM RL, implemented in the veRL ecosystem with support for common training backends (e.g., FSDP/Megatron-LM) and inference engines (e.g., vLLM/SGLang). We (i) enable FP8 W8A8 linear-layer rollout using blockwise FP8 quantization, (ii) extend FP8 to KV-cache to remove long-context memory bottlenecks via per-step QKV scale recalibration, and (iii) mitigate mismatch using importance-sampling-based rollout correction (token-level TIS/MIS variants). Across dense and MoE models, these techniques deliver up to 44% rollout throughput gains while preserving learning behavior comparable to BF16 baselines.

VERGE: Движок формального уточнения и наведения для верифицируемых рассуждений больших языковых моделей
VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning

Jan 27

ByVikash Singh, Darion Cassel, Nathaniel Weir, Nick Feng, Sam Bayless

Несмотря на синтаксическую беглость больших языковых моделей (LLM), обеспечение их логической корректности в областях с высокими ставками остается фундаментальной проблемой. Мы представляем нейросимволический фреймворк, который объединяет LLM с SMT-солверами для генерации верифицируемых ответов посредством итеративного уточнения. Наш подход декомпозирует выводы LLM на атомарные утверждения, автоматически формализует их в логику первого порядка и проверяет их логическую согласованность с помощью автоматического доказательства теорем. Мы вводим три ключевых нововведения: (1) консенсус нескольких моделей через проверку формальной семантической эквивалентности для обеспечения согласованности на уровне логики, устраняющий синтаксическую предвзятость метрик поверхностной формы, (2) семантическую маршрутизацию, которая направляет различные типы утверждений к соответствующим стратегиям верификации: символическим солверам для логических утверждений и ансамблям LLM для здравого смысла, и (3) точную локализацию логических ошибок через минимальные корректирующие подмножества (MCS), которые определяют точное подмножество утверждений для исправления, преобразуя бинарные сигналы сбоя в практическую обратную связь. Наш фреймворк классифицирует утверждения по их логическому статусу и агрегирует множественные сигналы верификации в единую оценку с дисперсионным штрафом. Система итеративно уточняет ответы, используя структурированную обратную связь, до достижения критериев приемки или сходимости. Этот гибридный подход обеспечивает формальные гарантии там, где это возможно, и консенсусную верификацию в остальных случаях, способствуя развитию доверенного ИИ. На модели GPT-OSS-120B фреймворк VERGE демонстрирует среднее улучшение производительности на 18.7% при сходимости на наборе бенчмарков мышления по сравнению с одношаговыми подходами.

Обучение моделей рассуждений на насыщенных задачах с помощью кондиционирования на префиксах неудач
Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

Jan 28

ByMinwu Kim, Safal Shrestha, Keith Ross

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) существенно улучшило способности крупных языковых моделей (LLM) к рассуждению, однако обучение часто останавливается по мере насыщения задач. Мы определяем ключевую проблему как плохую доступность информативных неудач: сигналы для обучения существуют, но редко встречаются при стандартных прогонах. Для решения этой проблемы мы предлагаем *обусловливание префиксами неудач* — простой и эффективный метод обучения на насыщенных задачах. Вместо того чтобы начинать с исходного вопроса, наш подход перераспределяет исследование, обусловливая обучение префиксами, полученными из редких некорректных траекторий рассуждений, тем самым exposing модель к состояниям, склонным к неудачам. Мы наблюдаем, что обусловливание префиксами неудач дает прирост производительности, сопоставимый с обучением на задачах средней сложности, при сохранении токенной эффективности. Кроме того, мы анализируем устойчивость модели и обнаруживаем, что наш метод снижает деградацию производительности при вводящих в заблуждение префиксах неудач, хотя и с умеренным компромиссом в части следования корректным ранним рассуждениям. Наконец, мы демонстрируем, что итеративный подход, обновляющий префиксы неудач в процессе обучения, позволяет получить дополнительный прирост после выхода производительности на плато. В целом, наши результаты позволяют предположить, что обусловливание префиксами неудач предлагает эффективный путь для продления RLVR-обучения на насыщенных задачах.

UPLiFT: Эффективное плотное повышение разрешения признаков с помощью локальных аттендеров
UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

Jan 25

ByMatthew Walmer, Saksham Suri, Anirud Aggarwal, Abhinav Shrivastava

Пространство задач, связанных с агностическим апсемплингом признаков, стало перспективной областью исследований, направленной на эффективное создание более плотных признаков из предварительно обученных визуальных моделей. Эти методы служат сокращённым путём для получения плотных признаков с гораздо меньшими затратами, обучаясь отображать низкоразрешенные признаки в их высокоразрешенные версии. В то время как ранние работы в этой области использовали итеративные подходы к апсемплингу, более поздние исследования перешли к методам на основе кросс-внимания, которые рискуют столкнуться с теми же проблемами масштабируемости эффективности, что и исходные модели, признаки которых они повышают. В данной работе мы показываем, что итеративные методы апсемплинга всё ещё могут конкурировать с методами на основе кросс-внимания; более того, они способны достигать передовых результатов при более низких вычислительных затратах на вывод. Мы предлагаем UPLiFT — архитектуру для Универсальных Пиксельно-плотных Облегчённых Преобразований Признаков. Также мы предлагаем эффективный оператор Локального Аттендера для преодоления ограничений предыдущих итеративных методов апсемплинга признаков. Этот оператор использует альтернативную формулировку аттеншн-пулинга, полностью определённую на локальной области. Мы демонстрируем, что наш Локальный Аттендер позволяет UPLiFT сохранять стабильность признаков на протяжении всего процесса апсемплинга, обеспечивая передовую производительность при более низких затратах на вывод по сравнению с существующими пиксельно-плотными апсемплерами признаков. Кроме того, мы применяем UPLiFT к генеративным задачам и показываем, что он достигает конкурентоспособных результатов с современными моделями Сопряжённого Согласования Потоков для апсемплинга признаков VAE. В целом, UPLiFT предлагает универсальный и эффективный подход к созданию более плотных признаков.

SE-DiCoW: Самоинициализируемая диаризация-кондиционированная Whisper
SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Jan 27

ByAlexander Polok, Dominik Klement, Samuele Cornell, Matthew Wiesner, Jan Černocký, Sanjeev Khudanpur, Lukáš Burget

Автоматическое распознавание речи с атрибуцией говорящего (ASR) в условиях многопользовательской среды остается серьезной проблемой. Хотя некоторые подходы демонстрируют высокую производительность при дообучении на конкретных доменах, лишь немногие системы хорошо обобщаются на данные из других доменов. Наша предыдущая работа, Diarization-Conditioned Whisper (DiCoW), использует выходные данные диаризации речи в качестве кондиционирующей информации и, при минимальном дообучении, показала высокую производительность в многоязычных и многодоменных сценариях. В данной статье мы устраняем ключевое ограничение DiCoW: неоднозначность в масках "Тишина-Цель-Нецель-Перекрытие" (STNO), когда два или более полностью перекрывающихся говорящих могут иметь почти идентичные условия кондиционирования, несмотря на различающиеся транскрипции. Мы представляем SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), который использует выход диаризации для локализации сегмента регистрации в любом месте разговора, где целевой говорящий наиболее активен. Этот сегмент регистрации используется в качестве фиксированного условия посредством кросс-внимания на каждом слое энкодера. Мы дополнительно улучшаем DiCoW за счет усовершенствованной сегментации данных, инициализации модели и аугментации. В совокупности эти усовершенствования приводят к значительному прогрессу: SE-DiCoW снижает макроусредненный tcpWER на 52.4% по сравнению с исходным DiCoW на бенчмарке EMMA MT-ASR.

Персонифицированные подсказки как инструмент анализа социальных рассуждений в больших языковых моделях
Persona Prompting as a Lens on LLM Social Reasoning

Jan 28

ByJing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus

Для социально чувствительных задач, таких как обнаружение языка вражды, качество объяснений больших языковых моделей (LLM) крайне важно для таких факторов, как доверие пользователей и соответствие модели. Хотя prompting с использованием персон (Persona Prompting, PP) всё чаще применяется для направления модели в сторону пользовательской генерации, его влияние на обоснования моделей остаётся малоизученным. Мы исследуем, как варьируются обоснования, генерируемые LLM, при условии их настройки на различные симулированные демографические персоны. Используя наборы данных с аннотированными пословными обоснованиями, мы измеряем согласие с человеческими разметками от различных демографических групп и оцениваем влияние PP на смещение модели и соответствие человеческим оценкам. Наша оценка, проведенная на трёх LLM, выявила три ключевых результата: (1) PP улучшает классификацию в наиболее субъективной задаче (обнаружение языка вражды), но ухудшает качество обоснований. (2) Симитированные персоны не соответствуют своим реальным демографическим аналогам, а высокое межперсональное согласие показывает, что модели устойчивы к значительному управлению. (3) Модели демонстрируют устойчивые демографические смещения и сильную тенденцию к чрезмерному помечанию контента как вредоносного, независимо от PP. Наши результаты выявляют критический компромисс: хотя PP может улучшить классификацию в социально-чувствительных задачах, это часто достигается ценой качества обоснований и не позволяет смягчить базовые смещения, что требует осторожности в его применении.

RIR-Mega-Speech: Реверберирующий речевой корпус с исчерпывающими акустическими метаданными и воспроизводимой оценкой
RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation

Jan 25

ByMandip Goswami

Несмотря на десятилетия исследований реверберирующей речи, сравнение методов остается затруднительным, поскольку большинство корпусов не имеют акустических аннотаций для каждого файла или предоставляют ограниченную документацию для воспроизведения. Мы представляем RIR-Mega-Speech — корпус объемом приблизительно 117,5 часов, созданный путем свертки высказываний из LibriSpeech с примерно 5000 смоделированных импульсных характеристик помещений из коллекции RIR-Mega. Каждый файл включает значения RT60, соотношения прямого и реверберирующего сигнала (DRR) и индекса разборчивости (C₅₀), вычисленные из исходной импульсной характеристики с использованием четко определенных, воспроизводимых процедур. Мы также предоставляем скрипты для повторного создания набора данных и воспроизведения всех оценочных результатов. Используя модель Whisper small на 1500 парных высказываниях, мы измерили WER в 5,20% (95% ДИ: 4,69–5,78) для чистой речи и 7,70% (7,04–8,35) для реверберирующих версий, что соответствует парному увеличению на 2,50 процентных пункта (2,06–2,98). Это представляет собой относительное ухудшение на 48%. WER монотонно возрастает с увеличением RT60 и уменьшается с ростом DRR, что согласуется с предыдущими перцептивными исследованиями. Хотя основной вывод о том, что реверберация ухудшает распознавание, хорошо установлен, мы стремимся предоставить сообществу стандартизированный ресурс, в котором акустические условия прозрачны, а результаты могут быть проверены независимо. Репозиторий включает инструкции по повторному сборке одной командой для сред Windows и Linux.

GDCNet: Генеративная сеть сравнения расхождений для мультимодального обнаружения сарказма
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

Jan 28

ByShuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao

Мультимодальное обнаружение сарказма (MSD) направлено на выявление сарказма в парах "изображение-текст" путем моделирования семантических несоответствий между модальностями. Существующие методы часто используют рассогласование кросс-модальных эмбеддингов для обнаружения неконсистентности, но испытывают трудности, когда визуальный и текстовый контент слабо связаны или семантически опосредованы. В то время как современные подходы задействуют большие языковые модели (LLM) для генерации признаков сарказма, присущее разнообразие и субъективность этих генераций часто вносят шум. Для преодоления этих ограничений мы предлагаем Сеть Генеративного Сравнения Рассогласований (GDCNet). Данная архитектура фиксирует кросс-модальные конфликты, используя сгенерированные мультимодальными LLM (MLLM) описательные, фактически обоснованные подписи к изображениям в качестве стабильных семантических якорей. В частности, GDCNet вычисляет семантические и сентиментные расхождения между сгенерированным объективным описанием и исходным текстом, параллельно измеряя визуально-текстовую соответственность. Эти признаки рассогласования затем объединяются с визуальными и текстовыми представлениями через управляемый модуль для адаптивного балансирования вклада модальностей. Многочисленные эксперименты на бенчмарках MSD демонстрируют превосходную точность и устойчивость GDCNet, устанавливая новый state-of-the-art на бенчмарке MMSD2.0.

Shallow-π: Дистилляция знаний для потоковых визуально-языковых моделей
Shallow-π: Knowledge Distillation for Flow-based VLAs

Jan 28

ByBoseong Jeon, Yunho Choi, Taehan Kim

Растущая потребность в развертывании робототехнических систем реального времени требует быстрого и выполняемого на устройстве вывода для моделей «зрение-язык-действие» (VLA). В литературе по VLA эффективность широко изучалась на уровне токенов, например, путем прореживания визуальных токенов. В отличие от этого, систематическое сокращение количества трансформаторных слоев получило ограниченное внимание и, насколько нам известно, не исследовалось для потоковых VLA-моделей в контексте дистилляции знаний. В данной работе мы предлагаем Shallow-pi — принципиальную структуру дистилляции знаний, которая агрессивно сокращает глубину трансформатора как в базовой VLM-архитектуре, так и в потоковом модуле действий, сжимая модель с 18 до 6 слоев. Shallow-pi обеспечивает более чем двукратное ускорение вывода с падением абсолютной точности менее чем на один процент в стандартных тестах на манипуляцию, устанавливая наилучшие показатели среди сокращенных VLA-моделей. Ключевым моментом является то, что мы проверяем наш подход в ходе экспериментов в промышленных масштабах в реальных условиях на Jetson Orin и Jetson Thor для различных роботизированных платформ, включая гуманоидные системы, в сложных и динамичных сценариях манипулирования.

SketchDynamics: Исследование свободных скетчей для выражения динамических интенций в генерации анимации
SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

Jan 28

ByBoyu Li, Lin-Ping Yuan, Zeyu Wang, Hongbo Fu

Скетчинг предоставляет интуитивный способ передачи динамического замысла при создании анимации (т.е. того, как элементы изменяются во времени и пространстве), что делает его естественным средством для автоматического создания контента. Однако существующие подходы часто ограничивают эскизы фиксированными командными токенами или предопределенными визуальными формами, упуская из виду их свободную природу и центральную роль человека в формировании замысла. Чтобы решить эту проблему, мы представляем парадигму взаимодействия, в которой пользователи передают динамический замысел модели «визуальный вход-текст» посредством свободного скетчинга, реализованную здесь в виде рабочего процесса от раскадровки к моушн-графике. Мы разрабатываем интерфейс и улучшаем его в ходе трехэтапного исследования с участием 24 человек. Исследование показывает, как эскизы передают движение с минимальными затратами, как их присущая неоднозначность требует вовлечения пользователей для уточнения и как эскизы могут визуально направлять процесс доработки видео. Наши результаты раскрывают потенциал взаимодействия скетчей и ИИ для преодоления разрыва между замыслом и результатом и демонстрируют его применимость для 3D-анимации и генерации видео.