HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

24 papers found

RuCCoD: На пути к автоматизированному кодированию МКБ на русском языке
RuCCoD: Towards Automated ICD Coding in Russian

Feb 28

ByAleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina

132

Данное исследование изучает возможность автоматизации клинического кодирования на русском языке, который характеризуется ограниченными ресурсами в области биомедицины. Мы представляем новый набор данных для кодирования по МКБ, включающий поля диагнозов из электронных медицинских записей (ЭМЗ), аннотированных более чем 10 000 сущностей и свыше 1 500 уникальных кодов МКБ. Этот набор данных служит эталоном для нескольких современных моделей, включая BERT, LLaMA с LoRA и RAG, с дополнительными экспериментами, исследующими трансферное обучение между доменами (от аннотаций PubMed к медицинским диагнозам) и терминологиями (от концепций UMLS к кодам МКБ). Затем мы применяем наиболее эффективную модель для маркировки внутреннего набора данных ЭМЗ, содержащего истории пациентов с 2017 по 2021 год. Наши эксперименты, проведенные на тщательно отобранном тестовом наборе, демонстрируют, что обучение с использованием автоматически предсказанных кодов приводит к значительному улучшению точности по сравнению с данными, аннотированными вручную врачами. Мы считаем, что наши результаты предоставляют ценные инсайты относительно потенциала автоматизации клинического кодирования в языках с ограниченными ресурсами, таких как русский, что может повысить клиническую эффективность и точность данных в таких контекстах.

Унифицированная модель вознаграждения для мультимодального понимания и генерации
Unified Reward Model for Multimodal Understanding and Generation

Mar 7

ByYibin Wang, Yuhang Zang, Hao Li, Cheng Jin, Jiaqi Wang

123

Последние достижения в области согласования человеческих предпочтений значительно улучшили возможности мультимодальной генерации и понимания. Ключевым подходом является обучение моделей вознаграждения для оптимизации предпочтений. Однако существующие модели часто ограничены конкретными задачами, что снижает их адаптивность для различных визуальных приложений. Мы также утверждаем, что совместное обучение оценке множества задач может создать синергетический эффект, где улучшенное понимание изображений способствует более точной оценке их генерации, а усовершенствованная оценка изображений улучшает анализ видео через более качественный анализ кадров. В связи с этим, в данной статье предлагается UnifiedReward — первая унифицированная модель вознаграждения для оценки мультимодального понимания и генерации, поддерживающая как попарное ранжирование, так и поточечное оценивание, что может быть использовано для согласования предпочтений в моделях компьютерного зрения. В частности, (1) мы сначала разрабатываем UnifiedReward на основе созданного нами крупномасштабного набора данных о человеческих предпочтениях, включающего задачи генерации и понимания изображений и видео. (2) Затем она используется для автоматического построения высококачественных пар данных предпочтений на основе моделей компьютерного зрения, постепенно фильтруя их выходы через попарное ранжирование и поточечный отбор. (3) Наконец, эти данные применяются для согласования предпочтений с помощью метода Direct Preference Optimization (DPO). Экспериментальные результаты показывают, что совместное обучение оценке разнообразных визуальных задач может привести к существенной взаимной пользе, и мы применяем наш подход к задачам понимания и генерации изображений и видео, значительно улучшая производительность в каждой из областей.

EuroBERT: Масштабирование многоязычных энкодеров для европейских языков
EuroBERT: Scaling Multilingual Encoders for European Languages

Mar 7

ByNicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André Martins, Ayoub Hammal, Caio Corro, Céline Hudelot, Emmanuel Malherbe, Etienne Malaboeuf, Fanny Jourdan, Gabriel Hautreux, João Alves, Kevin El-Haddad, Manuel Faysse, Maxime Peyrard, Nuno M. Guerreiro, Patrick Fernandes, Ricardo Rei, Pierre Colombo

Универсальные многоязычные векторные представления, используемые в задачах поиска, регрессии и классификации, традиционно получаются с помощью двунаправленных моделей-кодировщиков. Несмотря на их широкую применимость, кодировщики в последнее время оказались в тени достижений генеративных моделей, использующих только декодеры. Однако многие инновации, лежащие в основе этого прогресса, не являются исключительно привязанными к декодерам. В данной статье мы пересматриваем развитие многоязычных кодировщиков через призму этих достижений и представляем EuroBERT — семейство многоязычных кодировщиков, охватывающих европейские и широко распространённые мировые языки. Наши модели превосходят существующие аналоги в широком спектре задач, включая многоязычные возможности, математику и программирование, а также поддерживают последовательности длиной до 8 192 токенов. Мы также анализируем ключевые проектные решения, лежащие в основе EuroBERT, и делимся инсайтами о составе данных и процессе обучения. Мы публикуем модели EuroBERT, включая промежуточные контрольные точки обучения, вместе с нашей обучающей инфраструктурой.

Момент озарения R1-Zero в визуальном рассуждении на 2B модели без обучения с учителем
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Mar 7

ByHengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh

Недавно DeepSeek R1 продемонстрировал, как обучение с подкреплением с использованием простых правил на основе стимулов может способствовать автономному развитию сложных рассуждений в больших языковых моделях, что характеризуется "моментом озарения", когда модель проявляет саморефлексию и увеличивает длину ответов в процессе обучения. Однако попытки распространить этот успех на мультимодальные рассуждения часто не воспроизводили эти ключевые характеристики. В данном отчете мы представляем первую успешную репликацию этих возникающих характеристик для мультимодальных рассуждений на модели размером всего 2B, не подвергавшейся тонкой настройке (non-SFT). Начиная с Qwen2-VL-2B и применяя обучение с подкреплением непосредственно на наборе данных SAT, наша модель достигает точности 59,47% на CVBench, превосходя базовую модель примерно на ~30% и превышая результаты тонкой настройки на ~2%. Кроме того, мы делимся нашими неудачными попытками и выводами в попытках достичь рассуждений, подобных R1, с использованием обучения с подкреплением на моделях с инструкциями, стремясь пролить свет на связанные с этим вызовы. Наши ключевые наблюдения включают: (1) применение обучения с подкреплением на моделях с инструкциями часто приводит к тривиальным траекториям рассуждений, и (2) наивные награды за длину неэффективны для стимулирования способностей к рассуждению. Код проекта доступен по адресу https://github.com/turningpoint-ai/VisualThinker-R1-Zero.

S2S-Arena: Оценка протоколов Speech2Speech на выполнение инструкций с использованием паралингвистической информации
S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information

Mar 7

ByFeng Jiang, Zhiyu Lin, Fan Bu, Yuhao Du, Benyou Wang, Haizhou Li

Быстрое развитие крупных языковых моделей (LLM) привлекло значительное внимание к речевым моделям, особенно к недавним достижениям в протоколах speech2speech, поддерживающих речевой ввод и вывод. Однако существующие бенчмарки используют автоматические текстовые оценки для проверки способности этих моделей следовать инструкциям, не учитывая паралингвистическую информацию как в понимании, так и в генерации речи. Для решения этих проблем мы представляем S2S-Arena — новый аренный бенчмарк S2S, который оценивает способность следовать инструкциям с учетом паралингвистической информации как на входе, так и на выходе речи в реальных задачах. Мы разработали 154 образца, объединяющих синтез речи (TTS) и живые записи в четырех доменах с 21 задачей, и вручную оценили популярные речевые модели в аренном стиле. Результаты экспериментов показывают: (1) помимо превосходной производительности GPT-4o, речевая модель, состоящая из каскадного ASR, LLM и TTS, превосходит совместно обученную модель после выравнивания текста и речи в протоколах speech2speech; (2) с учетом паралингвистической информации, осведомленность речевой модели в основном зависит от базовой LLM, а поддержка многоязычности ограничена речевым модулем; (3) передовые речевые модели уже способны понимать паралингвистическую информацию в речевом вводе, но генерация подходящего аудио с учетом этой информации остается сложной задачей.

Sketch-of-Thought: Эффективное рассуждение в больших языковых моделях с адаптивным когнитивно-вдохновленным скетчингом
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

Mar 7

BySimon A. Aytes, Jinheon Baek, Sung Ju Hwang

Последние достижения в области крупных языковых моделей продемонстрировали впечатляющие способности к рассуждению благодаря использованию метода Chain of Thought (CoT), однако зачастую это сопровождается избыточной многословностью промежуточных выводов, что увеличивает вычислительные затраты. Мы представляем Sketch-of-Thought (SoT) — новый подход к формированию запросов, который сочетает когнитивно-вдохновленные парадигмы рассуждений с лингвистическими ограничениями для минимизации использования токенов при сохранении точности рассуждений. SoT разработан как гибкая структура, способная интегрировать любые пользовательские парадигмы рассуждений, основанные на когнитивной науке, и мы реализуем его с тремя такими парадигмами — Концептуальное связывание, Сгруппированный символизм и Экспертные лексиконы — каждая из которых адаптирована для различных задач рассуждения и выбирается динамически с помощью легковесной модели маршрутизации. В ходе всестороннего тестирования на 15 наборах данных для рассуждений, включающих многоязычные и мультимодальные сценарии, мы показываем, что SoT позволяет сократить количество токенов на 76% с незначительным влиянием на точность. В некоторых областях, таких как математические и многошаговые рассуждения, он даже повышает точность, используя значительно меньше токенов. Наш код доступен публично: https://www.github.com/SimonAytes/SoT.

R1-Omni: Объяснимая Omni-мультимодальная система распознавания эмоций с использованием обучения с подкреплением
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

Mar 7

ByJiaxing Zhao, Xihan Wei, Liefeng Bo

В данной работе мы представляем первое применение обучения с подкреплением с верифицируемой наградой (RLVR) к омни-мультимодальной большой языковой модели в контексте распознавания эмоций — задачи, в которой как визуальные, так и аудио модальности играют ключевую роль. Мы используем RLVR для оптимизации омни-модели, значительно улучшая её производительность в трёх ключевых аспектах: способность к рассуждению, точность распознавания эмоций и способность к обобщению. Введение RLVR не только повышает общую производительность модели на данных из распределения, но и демонстрирует превосходную устойчивость при оценке на данных вне распределения. Что ещё более важно, улучшенная способность к рассуждению позволяет чётко анализировать вклад различных модальностей, в частности визуальной и аудио информации, в процесс распознавания эмоций. Это предоставляет ценные инсайты для оптимизации мультимодальных больших языковых моделей.

Трансформер с механизмом забывания: Softmax-внимание с гейтом забывания
Forgetting Transformer: Softmax Attention with a Forget Gate

Mar 3

ByZhixuan Lin, Evgenii Nikishin, Xu Owen He, Aaron Courville

Важным компонентом современных рекуррентных моделей последовательностей является забывающий вентиль. Хотя Transformers не имеют явной рекуррентной формы, мы показываем, что забывающий вентиль может быть естественным образом интегрирован в Transformers путем понижения весов ненормализованных оценок внимания в зависимости от данных. Мы называем этот механизм внимания "Забывающее внимание" (Forgetting Attention), а результирующую модель — "Забывающий Transformer" (Forgetting Transformer, FoX). Мы демонстрируем, что FoX превосходит Transformer в задачах моделирования языка с длинным контекстом, экстраполяции длины и задачах с коротким контекстом, при этом показывая сопоставимые результаты с Transformer в задачах с длинным контекстом. Более того, он совместим с алгоритмом FlashAttention и не требует использования позиционных эмбеддингов. Несколько анализов, включая тест "иголка в стоге сена", показывают, что FoX также сохраняет превосходные способности Transformer в работе с длинным контекстом по сравнению с рекуррентными моделями последовательностей, такими как Mamba-2, HGRN2 и DeltaNet. Мы также представляем дизайн "Pro" блока, который включает некоторые общие архитектурные компоненты рекуррентных моделей последовательностей, и обнаруживаем, что он значительно улучшает производительность как FoX, так и Transformer. Наш код доступен по адресу https://github.com/zhixuan-lin/forgetting-transformer.

R1-Searcher: Стимулирование поисковых возможностей в крупных языковых моделях с помощью обучения с подкреплением
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

Mar 7

ByHuatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

Существующие крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали потенциал обучения с подкреплением (Reinforcement Learning, RL) для улучшения сложных способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). Хотя они достигают впечатляющих результатов в сложных задачах, таких как математика и программирование, они часто полагаются на свои внутренние знания для решения проблем, что может быть недостаточным для задач, требующих оперативного реагирования или интенсивного использования знаний, что приводит к неточностям и "галлюцинациям". Для решения этой проблемы мы предлагаем R1-Searcher — новый двухэтапный подход на основе обучения с подкреплением, ориентированный на результат, который призван улучшить поисковые возможности LLMs. Этот метод позволяет LLMs автономно обращаться к внешним поисковым системам для получения дополнительных знаний в процессе рассуждений. Наша архитектура полностью основана на RL и не требует вознаграждений за процесс или дистилляции для "холодного старта". Наши эксперименты показывают, что наш метод значительно превосходит предыдущие сильные методы RAG (Retrieval-Augmented Generation), даже в сравнении с закрытой моделью GPT-4o-mini.

VideoPainter: Интерактивное восстановление и редактирование видео любой длины с контекстным управлением по принципу "подключи и работай"
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

Mar 7

ByYuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu

Видеоинпейнтинг, направленный на восстановление поврежденного видеоконтента, достиг значительного прогресса. Несмотря на эти успехи, существующие методы, будь то распространение пикселей из незамаскированных областей через оптический поток и априорные данные о рецептивных полях, или временное расширение моделей для инпейнтинга изображений, сталкиваются с трудностями в генерации полностью замаскированных объектов или балансировке конкурирующих задач сохранения контекста фона и генерации переднего плана в одной модели. Чтобы устранить эти ограничения, мы предлагаем новую двухпоточную парадигму VideoPainter, которая включает эффективный контекстный кодировщик (составляющий всего 6% параметров базовой модели) для обработки замаскированных видео и внедрения контекстных подсказок фона, учитывающих базовую модель, в любую предварительно обученную видео DiT, создавая семантически согласованный контент в режиме "plug-and-play". Такое архитектурное разделение значительно снижает сложность обучения модели, одновременно обеспечивая тонкую интеграцию важного контекста фона. Мы также представляем новую технику повторной выборки идентификаторов целевой области, которая позволяет выполнять инпейнтинг видео любой длины, значительно повышая практическую применимость. Кроме того, мы создаем масштабируемый конвейер данных, использующий современные модели понимания визуальной информации, представляя VPData и VPBench для облегчения обучения и оценки инпейнтинга на основе сегментации, — это самый большой набор данных и бенчмарк для видеоинпейнтинга на сегодняшний день, содержащий более 390 тысяч разнообразных клипов. Используя инпейнтинг как основу конвейера, мы также исследуем приложения, включая редактирование видео и генерацию пар данных для редактирования видео, демонстрируя конкурентоспособную производительность и значительный практический потенциал. Многочисленные эксперименты подтверждают превосходство VideoPainter в инпейнтинге и редактировании видео любой длины по восьми ключевым метрикам, включая качество видео, сохранение замаскированных областей и текстуальную согласованность.

SafeArena: Оценка безопасности автономных веб-агентов
SafeArena: Evaluating the Safety of Autonomous Web Agents

Mar 6

ByAda Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy

Агенты на основе больших языковых моделей (LLM) становятся всё более эффективными в решении задач, связанных с вебом. Однако с этим ростом возможностей возрастает и риск их злонамеренного использования, например, для распространения дезинформации на онлайн-форумах или продажи запрещённых веществ на веб-сайтах. Для оценки этих рисков мы предлагаем SafeArena — первый бенчмарк, ориентированный на преднамеренное злоупотребление веб-агентами. SafeArena включает 250 безопасных и 250 вредоносных задач, распределённых по четырём веб-сайтам. Вредоносные задачи классифицируются на пять категорий: дезинформация, незаконная деятельность, домогательства, киберпреступность и социальная предвзятость, что позволяет оценить реалистичные сценарии злоупотребления веб-агентами. Мы тестируем ведущие веб-агенты на основе LLM, включая GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B и Llama-3.2 90B, на нашем бенчмарке. Для систематической оценки их уязвимости к вредоносным задачам мы вводим фреймворк Agent Risk Assessment, который классифицирует поведение агентов по четырём уровням риска. Мы обнаруживаем, что агенты удивительно склонны выполнять злонамеренные запросы: GPT-4o и Qwen-2 завершают 34,7% и 27,3% вредоносных задач соответственно. Наши результаты подчеркивают острую необходимость в процедурах обеспечения безопасности для веб-агентов. Наш бенчмарк доступен по ссылке: https://safearena.github.io.

TrajectoryCrafter: Перенаправление траектории камеры для монохромных видео с использованием диффузионных моделей
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

Mar 7

ByMark YU, Wenbo Hu, Jinbo Xing, Ying Shan

Мы представляем TrajectoryCrafter — новый подход к перенаправлению траекторий камеры для моноскопических видео. Разделяя детерминированные преобразования вида и стохастическую генерацию контента, наш метод обеспечивает точный контроль над заданными пользователем траекториями камеры. Мы предлагаем новую двухпоточную условную модель диффузии видео, которая одновременно интегрирует рендеры облака точек и исходные видео в качестве условий, гарантируя точные преобразования вида и согласованную генерацию 4D-контента. Вместо использования редких многовидовых видео мы создаем гибридный обучающий набор данных, объединяющий масштабные моноскопические видео со статическими многовидовыми наборами данных, благодаря нашей инновационной стратегии двойной репроекции, что значительно улучшает обобщение для разнообразных сцен. Обширные оценки на многовидовых и крупномасштабных моноскопических видео демонстрируют превосходную производительность нашего метода.

Обучение на ошибках в многопопыточном обучении с подкреплением
Learning from Failures in Multi-Attempt Reinforcement Learning

Mar 4

ByStephen Chung, Wenyu Du, Jie Fu

Недавние достижения в области обучения с подкреплением (RL) для больших языковых моделей (LLM), примером которых является DeepSeek R1, показали, что даже простая задача ответов на вопросы может существенно улучшить способности LLM к рассуждению. В данной работе мы расширяем этот подход, модифицируя задачу в многопопыточный формат. Вместо генерации одного ответа на вопрос модель получает несколько попыток, с предоставлением обратной связи после неправильных ответов. Многопопыточная задача побуждает модель уточнять свои предыдущие попытки и повышать эффективность поиска. Экспериментальные результаты показывают, что даже небольшая LLM, обученная на многопопыточной задаче, достигает значительно более высокой точности при оценке с большим количеством попыток, улучшаясь с 45,6% при одной попытке до 52,5% при двух попытках на математическом бенчмарке. В то же время, та же LLM, обученная на стандартной однопопыточной задаче, демонстрирует лишь незначительное улучшение, увеличиваясь с 42,3% до 43,2% при предоставлении большего количества попыток во время оценки. Результаты указывают на то, что по сравнению со стандартной однопопыточной задачей, LLM, обученная на многопопыточной задаче, достигает немного лучших результатов на математических бенчмарках, одновременно обучаясь более эффективно уточнять свои ответы на основе обратной связи пользователя. Полный код доступен по адресу https://github.com/DualityRL/multi-attempt.

TinyR1-32B-Preview: Повышение точности с помощью дистилляции методом ветвления и слияния
TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation

Mar 6

ByLin Sun, Guangxiang Zhao, Xiaoqi Jian, Yuhan Wu, Weihong Lin, Yongfu Zhu, Change Jia, Linglin Zhang, Jinzhu Wu, Junfeng Ran, Sai-er Hu, Zihan Jiang, Junting Zhou, Wenrui Liu, Bin Cui, Tong Yang, Xiangzheng Zhang

Задача уменьшения размера крупных языковых моделей (LLM) при сохранении их производительности привлекает значительное внимание. Однако существующие методы, такие как дистилляция моделей и трансферное обучение, часто не позволяют достичь высокой точности. Для решения этой проблемы мы представляем подход Branch-Merge дистилляции, который улучшает сжатие модели за счет двух этапов: (1) этап Branch, где знания из крупной модели-учителя избирательно передаются в специализированные модели-ученики через предметно-ориентированное контролируемое тонкое обучение (SFT); и (2) этап Merge, где эти модели-ученики объединяются для обеспечения межпредметного переноса знаний и улучшения обобщающей способности. Мы проверяем наш подход дистилляции, используя DeepSeek-R1 в качестве учителя и DeepSeek-R1-Distill-Qwen-32B в качестве ученика. Полученная объединенная модель, TinyR1-32B-Preview, превосходит свою аналог DeepSeek-R1-Distill-Qwen-32B по нескольким тестам, включая Математику (+5,5 баллов), Программирование (+4,4 балла) и Науку (+2,9 балла), при этом демонстрируя почти равную производительность с DeepSeek-R1 на AIME 2024. Подход Branch-Merge дистилляции предлагает масштабируемое решение для создания более компактных и высокопроизводительных LLM с уменьшенными вычислительными затратами и временем.

LoRACode: LoRA-адаптеры для векторных представлений кода
LoRACode: LoRA Adapters for Code Embeddings

Mar 7

BySaumya Chaturvedi, Aman Chadha, Laurent Bindschaedler

Векторные представления кода (code embeddings) играют ключевую роль в семантическом поиске кода; однако современные подходы часто испытывают трудности с точным захватом синтаксических и контекстуальных нюансов, присущих коду. Открытые модели, такие как CodeBERT и UniXcoder, демонстрируют ограничения в масштабируемости и эффективности, в то время как высокопроизводительные проприетарные системы требуют значительных вычислительных затрат. Мы представляем метод параметрически эффективной тонкой настройки, основанный на адаптации с низким рангом (Low-Rank Adaptation, LoRA), для создания специализированных адаптеров для поиска кода. Наш подход сокращает количество обучаемых параметров до менее чем двух процентов от базовой модели, что позволяет быстро выполнять тонкую настройку на обширных корпусах кода (2 миллиона образцов за 25 минут на двух GPU H100). Эксперименты показывают увеличение средней обратной позиции (Mean Reciprocal Rank, MRR) до 9,1% для задач поиска Code2Code и до 86,69% для задач поиска Text2Code в различных языках программирования. Различие в адаптации для конкретных задач и языков помогает исследовать чувствительность поиска кода к синтаксическим и лингвистическим вариациям.

BEHAVIOR Robot Suite: Оптимизация манипуляций всем телом в реальном мире для повседневных бытовых задач
BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

Mar 7

ByYunfan Jiang, Ruohan Zhang, Josiah Wong, Chen Wang, Yanjie Ze, Hang Yin, Cem Gokmen, Shuran Song, Jiajun Wu, Li Fei-Fei

Реальные бытовые задачи представляют значительные трудности для мобильных манипуляционных роботов. Анализ существующих робототехнических тестов показывает, что успешное выполнение задач зависит от трех ключевых возможностей управления всем телом: двуручной координации, стабильной и точной навигации, а также обширной досягаемости манипуляторов. Достижение этих возможностей требует тщательной разработки аппаратного обеспечения, но возникающая сложность системы дополнительно усложняет обучение визуомоторным стратегиям. Для решения этих задач мы представляем BEHAVIOR Robot Suite (BRS) — комплексную платформу для управления всем телом при выполнении разнообразных бытовых задач. Основанная на двуручном колесном роботе с 4-степенным туловищем, BRS интегрирует экономичный интерфейс телеуправления всем телом для сбора данных и новый алгоритм обучения визуомоторным стратегиям. Мы оцениваем BRS на пяти сложных бытовых задачах, которые не только подчеркивают три основные возможности, но и вводят дополнительные сложности, такие как навигация на большие расстояния, взаимодействие с шарнирными и деформируемыми объектами, а также манипуляции в ограниченных пространствах. Мы считаем, что интегрированная роботизированная реализация BRS, интерфейс сбора данных и обучающая платформа представляют собой значительный шаг к реализации управления всем телом для повседневных бытовых задач. BRS доступен в открытом исходном коде по адресу https://behavior-robot-suite.github.io/.

ProReflow: Прогрессивный рефлоу с декомпозицией скорости
ProReflow: Progressive Reflow with Decomposed Velocity

Mar 5

ByLei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang

Диффузионные модели достигли значительного прогресса в генерации как изображений, так и видео, однако по-прежнему сталкиваются с высокими вычислительными затратами. В качестве эффективного решения, метод согласования потоков (flow matching) направлен на преобразование процесса диффузии в прямую линию, что позволяет осуществлять генерацию за несколько шагов или даже за один шаг. Однако в данной работе мы утверждаем, что исходный процесс обучения метода согласования потоков не является оптимальным, и предлагаем две техники для его улучшения. Во-первых, мы вводим прогрессивное согласование потоков (progressive reflow), которое постепенно преобразует диффузионные модели на локальных временных шагах до завершения всего процесса диффузии, снижая сложность согласования потоков. Во-вторых, мы предлагаем выравнивание v-предсказания (aligned v-prediction), которое подчеркивает важность согласования направления в методе согласования потоков по сравнению с согласованием величины. Экспериментальные результаты на моделях SDv1.5 и SDXL демонстрируют эффективность нашего метода. Например, применение на SDv1.5 позволяет достичь FID 10.70 на валидационном наборе MSCOCO2014 всего за 4 шага выборки, что близко к результату нашей учительской модели (32 шага DDIM, FID = 10.05).

Эмпирическое исследование по выявлению и улучшению моделей рассуждений, подобных R1
An Empirical Study on Eliciting and Improving R1-like Reasoning Models

Mar 6

ByZhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen

В данном отчете представлен третий технический доклад о разработке моделей медленного мышления в рамках проекта STILL. По мере прояснения технического пути масштабирование обучения с подкреплением (RL) стало ключевой методикой для реализации подобных моделей рассуждений. Мы систематически экспериментируем и документируем влияние различных факторов на обучение RL, проводя эксперименты как на базовых моделях, так и на дообученных моделях. В частности, мы демонстрируем, что наш подход к обучению RL последовательно улучшает базовые модели Qwen2.5-32B, повышая как длину ответов, так и точность на тестах. Кроме того, мы показываем, что даже модель, такая как DeepSeek-R1-Distill-Qwen-1.5B, уже достигшая высокого уровня производительности, может быть дополнительно улучшена с помощью обучения RL, достигая точности 39,33% на AIME 2024. Помимо обучения RL, мы также исследуем использование манипуляции инструментами, обнаруживая, что это значительно повышает производительность крупных моделей рассуждений. Этот подход достигает впечатляющей точности 86,67% при жадном поиске на AIME 2024, подчеркивая его эффективность в расширении возможностей моделей. Мы публикуем наши ресурсы на сайте проекта STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Linear-MoE: Линейное моделирование последовательностей встречается с ансамблем экспертов
Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts

Mar 7

ByWeigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng

Линейное моделирование последовательностей (Linear Sequence Modeling, LSM), включая линейное внимание, модели пространства состояний и линейные рекуррентные нейронные сети (RNN), а также смесь экспертов (Mixture-of-Experts, MoE), недавно стали значительными архитектурными улучшениями. В данной статье мы представляем Linear-MoE — производственную систему для моделирования и обучения крупномасштабных моделей, которые интегрируют LSM с MoE. Linear-MoE использует преимущества как модулей LSM для линейного по сложности моделирования последовательностей, так и слоев MoE для разреженной активации, стремясь обеспечить высокую производительность при эффективном обучении. Система Linear-MoE включает: 1) Подсистему моделирования, которая предоставляет унифицированную структуру, поддерживающую все варианты LSM, и 2) Подсистему обучения, которая обеспечивает эффективное обучение за счет внедрения различных передовых технологий параллелизма, в частности, параллелизма последовательностей (Sequence Parallelism), разработанного для моделей Linear-MoE. Кроме того, мы исследуем гибридные модели, сочетающие слои Linear-MoE со стандартными слоями Transformer-MoE и их параллелизмом последовательностей, чтобы дополнительно повысить гибкость и производительность модели. Оценки на двух сериях моделей, A0.3B-2B и A1B-7B, демонстрируют, что Linear-MoE достигает повышения эффективности, сохраняя при этом конкурентоспособную производительность на различных тестах, что подчеркивает его потенциал в качестве архитектуры моделей следующего поколения. Код: https://github.com/OpenSparseLLMs/Linear-MoE.

SAGE: Фреймворк для точного извлечения информации в RAG
SAGE: A Framework of Precise Retrieval for RAG

Mar 3

ByJintao Zhang, Guoliang Li, Jinyang Su

Генерация, усиленная поиском (RAG), продемонстрировала значительную эффективность в выполнении задач вопросно-ответных систем (QA) в рамках заданного корпуса. Тем не менее, существует множество случаев, когда RAG в QA терпит неудачи. Эти неудачи не связаны исключительно с ограничениями крупных языковых моделей (LLM); вместо этого они в основном возникают из-за извлечения неточной информации для LLM, что обусловлено двумя ограничениями: (1) Современные методы RAG сегментируют корпус без учета семантики, что затрудняет поиск релевантного контекста из-за нарушенной корреляции между вопросами и сегментами. (2) Существует компромисс между пропуском важного контекста при извлечении меньшего количества данных и получением нерелевантного контекста при извлечении большего объема данных. В данной статье мы представляем фреймворк RAG (SAGE), предназначенный для преодоления этих ограничений. Во-первых, для решения проблемы сегментации без учета семантики мы предлагаем обучить модель семантической сегментации. Эта модель обучается для разделения корпуса на семантически завершенные фрагменты. Во-вторых, чтобы гарантировать извлечение только наиболее релевантных фрагментов и игнорирование нерелевантных, мы разрабатываем алгоритм выбора фрагментов, который динамически выбирает их на основе скорости снижения релевантности, что приводит к более точному отбору. В-третьих, для дальнейшего обеспечения точности извлеченных фрагментов мы предлагаем позволить LLM оценивать, являются ли извлеченные фрагменты избыточными или недостаточными, и затем корректировать объем контекста соответствующим образом. Эксперименты показывают, что SAGE превосходит базовые методы на 61,25% по качеству QA в среднем. Более того, избегая извлечения зашумленного контекста, SAGE снижает затраты на токены, используемые в процессе вывода LLM, и достигает улучшения экономической эффективности на 49,41% в среднем. Кроме того, наша работа предлагает ценные идеи для улучшения RAG.

LONGCODEU: Оценка языковых моделей с длинным контекстом на понимании длинного кода
LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding

Mar 6

ByJia Li, Xuyuan Guo, Lei Li, Kechi Zhang, Ge Li, Jia Li, Zhengwei Tao, Fang Liu, Chongyang Tao, Yuqi Zhu, Zhi Jin

Современные продвинутые языковые модели с длинным контекстом (LCLM) предлагают значительный потенциал для применения в реальных задачах программной инженерии. Однако прогресс в этой важной области по-прежнему сдерживается фундаментальным ограничением: отсутствием строгой системы оценки для понимания длинного кода. Чтобы преодолеть это препятствие, мы предлагаем эталонный тест LONGCODEU для оценки способности LCLM понимать длинный код, необходимый для практических применений. Этот тест охватывает четыре аспекта (8 задач), включая восприятие единиц кода, понимание внутри единиц кода, понимание взаимосвязей между единицами кода и понимание документации длинного кода. Мы оценили 9 популярных LCLM (6 общих моделей и 3 специализированных для кода) на тесте LONGCODEU. Результаты экспериментов выявили ключевые ограничения в способностях современных LCLM к пониманию длинного кода. В частности, производительность LCLM резко снижается, когда длина кода превышает 32K, что значительно ниже заявленных окон контекста в 128K-1M. Среди четырех аспектов понимание взаимосвязей между единицами кода оказалось наиболее сложным для LCLM. Наше исследование предоставляет ценные инсайты для оптимизации LCLM и стимулирования прогресса в программной инженерии.

EAGLE-3: Масштабирование ускорения вывода больших языковых моделей с помощью тестирования на этапе обучения
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

Mar 3

ByYuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

Последовательный характер современных больших языковых моделей (LLM) делает их дорогостоящими и медленными, а спекулятивное сэмплирование доказало свою эффективность в решении этой проблемы. Методы, такие как EAGLE, выполняют авторегрессию на уровне признаков, повторно используя признаки верхнего слоя целевой модели для достижения лучших результатов по сравнению с базовым спекулятивным сэмплированием. В сообществе LLM наблюдается растущая тенденция масштабирования обучающих данных для повышения интеллекта модели без увеличения затрат на вывод. Однако мы отмечаем, что масштабирование данных дает ограниченные улучшения для EAGLE. Мы выяснили, что это ограничение связано с ограничениями предсказания признаков в EAGLE. В данной статье мы представляем EAGLE-3, который отказывается от предсказания признаков в пользу прямого предсказания токенов и заменяет зависимость от признаков верхнего слоя на слияние признаков из нескольких слоев с помощью техники, названной тестированием во время обучения. Эти улучшения значительно повышают производительность и позволяют черновой модели полностью использовать преимущества масштабирования обучающих данных. Наши эксперименты включают как чат-модели, так и модели для рассуждений, оцененные на пяти задачах. Результаты показывают, что EAGLE-3 достигает ускорения до 6.5 раз, с улучшением примерно в 1.4 раза по сравнению с EAGLE-2. Код доступен по адресу https://github.com/SafeAILab/EAGLE.

AnyAnomaly: Обнаружение аномалий в видео с нулевым обучением и настройкой с использованием LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM

Mar 6

BySunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park

Обнаружение аномалий в видео (Video Anomaly Detection, VAD) играет ключевую роль в анализе и видеонаблюдении в области компьютерного зрения. Однако существующие модели VAD полагаются на изученные нормальные паттерны, что затрудняет их применение в разнообразных средах. В результате пользователям приходится переобучать модели или разрабатывать отдельные модели ИИ для новых сред, что требует экспертных знаний в машинном обучении, высокопроизводительного оборудования и масштабного сбора данных, ограничивая практическую применимость VAD. Для решения этих проблем в данном исследовании предлагается настраиваемая техника обнаружения аномалий в видео (Customizable Video Anomaly Detection, C-VAD) и модель AnyAnomaly. C-VAD учитывает пользовательский текст как описание аномального события и обнаруживает кадры, содержащие указанное событие в видео. Мы эффективно реализовали AnyAnomaly с использованием контекстно-зависимого визуального ответа на вопросы без тонкой настройки крупной модели обработки визуальных и текстовых данных. Для проверки эффективности предложенной модели мы создали наборы данных C-VAD и продемонстрировали превосходство AnyAnomaly. Кроме того, наш подход показал конкурентоспособные результаты на эталонных наборах данных VAD, достигнув передовых показателей на наборе данных UBnormal и превзойдя другие методы в обобщении на всех наборах данных. Наш код доступен онлайн по адресу github.com/SkiddieAhn/Paper-AnyAnomaly.

Познай себя первым и стань лучше: моделирование человекообразных симуляторов пользователей через неявные профили
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles

Feb 26

ByKuang Wang, Xianfei Li, Shenghao Yang, Li Zhou, Feng Jiang, Haizhou Li

Симуляторы пользователей играют ключевую роль в воспроизведении взаимодействий человека с диалоговыми системами, поддерживая как совместное обучение, так и автоматическую оценку, особенно для крупных языковых моделей (LLM). Однако существующие симуляторы часто полагаются исключительно на текстовые высказывания, упуская из виду неявные характеристики пользователей, такие как личность, стиль общения и цели. В то же время методы, основанные на персонах, страдают от недостатка обобщаемости, так как зависят от заранее заданных профилей известных личностей или архетипов. Для решения этих проблем мы предлагаем симулятор пользователя с неявными профилями (USP) — фреймворк, который выводит неявные профили пользователей из диалогов между человеком и машиной и использует их для генерации более персонализированных и реалистичных диалогов. Сначала мы разрабатываем экстрактор на основе LLM с комплексной схемой профиля. Затем мы улучшаем симуляцию с помощью условного контролируемого тонкого обучения и обучения с подкреплением с цикличной согласованностью, оптимизируя её как на уровне отдельных высказываний, так и на уровне диалогов. Наконец, мы применяем разнообразный сэмплер профилей для учета распределения профилей пользователей в реальном мире. Экспериментальные результаты показывают, что USP превосходит сильные базовые модели по аутентичности и разнообразию, сохраняя при этом сопоставимую производительность в плане согласованности. Кроме того, динамические многотуровые оценки на основе USP тесно коррелируют с основными эталонными тестами, что подтверждает их эффективность в реальных приложениях.