HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

21 papers found

START: Самообучающийся рассуждающий агент с инструментами
START: Self-taught Reasoner with Tools

Mar 6

ByChengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu

113

Крупные модели рассуждений (LRMs), такие как OpenAI-o1 и DeepSeek-R1, продемонстрировали впечатляющие способности в решении сложных задач рассуждений благодаря использованию длинных цепочек мыслей (Chain-of-thought, CoT). Однако эти модели часто страдают от галлюцинаций и неэффективности из-за их исключительной зависимости от внутренних процессов рассуждений. В данной статье мы представляем START (Self-Taught Reasoner with Tools) — новую модель рассуждений с длинной цепочкой мыслей, интегрированную с инструментами, которая значительно улучшает способности к рассуждениям за счет использования внешних инструментов. Благодаря выполнению кода, START способна выполнять сложные вычисления, самопроверку, исследование различных методов и самодиагностику, тем самым устраняя ограничения LRMs. Основное новшество START заключается в её самообучающейся структуре, которая включает две ключевые техники: 1) Hint-infer: Мы показываем, что вставка искусственно разработанных подсказок (например, «Подожди, возможно, использование Python здесь — хорошая идея») в процессе вывода LRM эффективно стимулирует её способность использовать внешние инструменты без необходимости в демонстрационных данных. Hint-infer также может служить простым и эффективным методом последовательного масштабирования на этапе тестирования; 2) Тонкая настройка с использованием выборки с отклонением подсказок (Hint-RFT): Hint-RFT объединяет Hint-infer и RFT, оценивая, фильтруя и модифицируя траектории рассуждений с вызовом инструментов, сгенерированные LRM через Hint-infer, с последующей тонкой настройкой LRM. С помощью этой структуры мы провели тонкую настройку модели QwQ-32B, чтобы получить START. На тестах уровня PhD по научным вопросам (GPQA), соревновательных математических тестах (AMC23, AIME24, AIME25) и соревновательном тесте по программированию (LiveCodeBench) START достигает точности 63,6%, 95,0%, 66,7%, 47,1% и 47,3% соответственно. Она значительно превосходит базовую модель QwQ-32B и демонстрирует результаты, сопоставимые с передовой открытой моделью R1-Distill-Qwen-32B и проприетарной моделью o1-Preview.

Эффективное использование токенов для понимания длинных видео в мультимодальных больших языковых моделях
Token-Efficient Long Video Understanding for Multimodal LLMs

Mar 6

ByJindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon

Последние достижения в области видео-ориентированных мультимодальных больших языковых моделей (Video-LLMs) значительно улучшили понимание видео за счет обработки видеороликов как последовательностей кадров. Однако многие существующие методы рассматривают кадры независимо в визуальном модуле, не учитывая явного временного моделирования, что ограничивает их способность улавливать динамические паттерны и эффективно обрабатывать длинные видео. Для устранения этих ограничений мы представляем STORM (Spatiotemporal TOken Reduction for Multimodal LLMs) — новую архитектуру, включающую специализированный временной кодировщик между кодировщиком изображений и языковой моделью. Наш временной кодировщик использует модель пространства состояний Mamba для интеграции временной информации в токены изображений, создавая обогащенные представления, которые сохраняют межкадровую динамику на протяжении всей видеопоследовательности. Это обогащенное кодирование не только улучшает способности к видео-рассуждению, но и позволяет применять эффективные стратегии сокращения токенов, включая выборку во время тестирования и временное и пространственное объединение на этапе обучения, что значительно снижает вычислительные затраты на языковую модель без потери ключевой временной информации. Благодаря интеграции этих методов наш подход одновременно сокращает задержки при обучении и выводе, улучшая производительность и обеспечивая эффективное и надежное понимание видео в расширенных временных контекстах. Многочисленные оценки показывают, что STORM достигает наилучших результатов на различных бенчмарках для понимания длинных видео (улучшение более чем на 5% на MLVU и LongVideoBench), при этом сокращая вычислительные затраты до 8 раз и задержку декодирования в 2,4–2,9 раза для фиксированного числа входных кадров. Страница проекта доступна по адресу https://research.nvidia.com/labs/lpr/storm.

LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

Mar 6

BySambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal

Последние достижения в системах речевого диалога, использующих LLM (языковые модели большого масштаба) для мультимодальных взаимодействий, по-прежнему ограничены необходимостью тонкой настройки, высокими вычислительными затратами и рассогласованием между текстом и речью. Существующие речевые LLM часто ухудшают качество диалога за счет модификации модели, что снижает её лингвистические возможности. В отличие от этого, мы предлагаем LLMVoX — легковесную 30-миллионнопараметровую авторегрессивную потоковую систему синтеза речи (TTS), независимую от LLM, которая генерирует высококачественную речь с низкой задержкой, полностью сохраняя возможности базовой LLM. Наш подход демонстрирует значительно более низкий уровень ошибок на слово (WER) по сравнению с речевыми LLM, при сопоставимой задержке и оценке UTMOS. Благодаря разделению синтеза речи и обработки LLM с помощью системы потоковой передачи токенов с использованием нескольких очередей, LLMVoX поддерживает плавные диалоги неограниченной длины. Её модульная конструкция также упрощает адаптацию к различным задачам с использованием разных базовых моделей. Кроме того, LLMVoX обобщается на новые языки только за счет адаптации набора данных, достигая низкого уровня ошибок на символ (CER) в задаче синтеза арабской речи. Мы также интегрировали LLMVoX с моделью, объединяющей зрение и язык (Vision-Language Model), создав универсальную модель с возможностями обработки речи, текста и изображений без необходимости дополнительного мультимодального обучения. Наш код и страница проекта доступны по адресу: https://mbzuai-oryx.github.io/LLMVoX.

EgoLife: В направлении эгоцентричного помощника для повседневной жизни
EgoLife: Towards Egocentric Life Assistant

Mar 5

ByJingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu

Мы представляем EgoLife — проект по разработке эгоцентричного помощника для повседневной жизни, который сопровождает пользователя и повышает личную эффективность с помощью ИИ-управляемых носимых очков. Чтобы заложить основу для этого помощника, мы провели всестороннее исследование по сбору данных, в ходе которого шесть участников жили вместе в течение одной недели, непрерывно записывая свои повседневные действия — включая обсуждения, покупки, приготовление пищи, общение и развлечения — с использованием ИИ-очков для многомодальной эгоцентричной видеозаписи, а также синхронизированных видеозаписей от третьего лица. В результате был создан набор данных EgoLife Dataset — всеобъемлющий 300-часовой эгоцентричный, межличностный, многовидовой и многомодальный набор данных о повседневной жизни с интенсивной аннотацией. Используя этот набор данных, мы представляем EgoLifeQA — набор задач по ответам на вопросы с длинным контекстом, ориентированных на повседневную жизнь, которые призваны оказывать значимую помощь в повседневной жизни, решая практические вопросы, такие как напоминание о прошлых событиях, мониторинг привычек здоровья и предоставление персонализированных рекомендаций. Для решения ключевых технических задач, включающих (1) разработку устойчивых визуально-аудио моделей для эгоцентричных данных, (2) распознавание личности и (3) обеспечение ответов на вопросы с длинным контекстом на основе обширной временной информации, мы представляем EgoButler — интегрированную систему, состоящую из EgoGPT и EgoRAG. EgoGPT — это омни-модальная модель, обученная на эгоцентричных наборах данных, демонстрирующая передовые результаты в понимании эгоцентричного видео. EgoRAG — это компонент на основе поиска, поддерживающий ответы на вопросы с ультрадлинным контекстом. Наши экспериментальные исследования подтверждают их рабочие механизмы и выявляют ключевые факторы и узкие места, направляя будущие улучшения. Публикуя наши наборы данных, модели и эталонные тесты, мы стремимся стимулировать дальнейшие исследования в области эгоцентричных ИИ-помощников.

LLM как испорченный телефон: итеративная генерация искажает информацию
LLM as a Broken Telephone: Iterative Generation Distorts Information

Feb 27

ByAmr Mohamed, Mingmeng Geng, Michalis Vazirgiannis, Guokan Shang

Поскольку крупные языковые модели всё чаще отвечают за создание онлайн-контента, возникают опасения относительно последствий многократной обработки их собственных выходных данных. Вдохновлённые эффектом "испорченного телефона" в цепочках человеческой коммуникации, в данном исследовании мы изучаем, искажают ли языковые модели информацию при итеративной генерации. С помощью экспериментов, основанных на переводе, мы обнаруживаем, что искажение накапливается со временем, завися от выбора языка и сложности цепочки. Хотя деградация неизбежна, её можно смягчить с помощью стратегических методов формулирования запросов. Эти результаты вносят вклад в обсуждение долгосрочных эффектов распространения информации, опосредованного ИИ, и поднимают важные вопросы о надёжности контента, генерируемого языковыми моделями в итеративных процессах.

Audio Flamingo 2: Аудио-языковая модель с возможностью понимания длинных аудиозаписей и экспертного анализа
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Mar 6

BySreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro

Понимание и рассуждение о неречевых звуках и музыке имеют решающее значение как для людей, так и для ИИ-агентов для эффективного взаимодействия с окружающей средой. В данной статье мы представляем Audio Flamingo 2 (AF2), аудио-языковую модель (ALM) с расширенными возможностями понимания и анализа звука. AF2 использует (i) специализированную модель CLAP, (ii) синтетические данные Audio QA для детального анализа звука и (iii) многоэтапную стратегию обучения по учебному плану. AF2 демонстрирует передовые результаты, используя всего лишь небольшую языковую модель с 3 миллиардами параметров, превосходя крупные открытые и проприетарные модели более чем на 20 бенчмарках. Далее, впервые мы расширяем понимание звука на длинные аудиофрагменты (от 30 секунд до 5 минут) и предлагаем LongAudio, новый и масштабный набор данных для обучения ALM на задачах описания и ответов на вопросы по длинным аудиозаписям. Тонкая настройка AF2 на LongAudio приводит к выдающимся результатам на нашем предложенном LongAudioBench, экспертно аннотированном бенчмарке для оценки способностей ALM к пониманию длинных аудиозаписей. Мы проводим обширные исследования с исключением компонентов, чтобы подтвердить эффективность нашего подхода. Сайт проекта: https://research.nvidia.com/labs/adlr/AF2/.

LINGOLY-TOO: Разделение запоминания и рассуждений с помощью лингвистической шаблонизации и орфографической обфускации
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Mar 4

ByJude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi

Эффективная оценка способностей крупных языковых моделей (LLM) к рассуждению может быть завышена из-за знакомства моделей с данными из оценочных тестов. Мы представляем фреймворк для создания лингвистических задач на рассуждение, который снижает влияние запоминания на оценки производительности моделей, и применяем этот фреймворк для разработки LINGOLY-TOO — сложного теста для оценки лингвистического рассуждения. Используя орфографические шаблоны, мы динамически маскируем системы письма реальных языков для генерации множества вариаций вопросов. Эти вариации сохраняют шаги рассуждения, необходимые для решения, но уменьшают вероятность появления конкретных примеров задач в обучающих данных моделей. Наши эксперименты показывают, что передовые модели, включая OpenAI o1-preview и DeepSeem R1, испытывают трудности с продвинутыми рассуждениями. Анализ также демонстрирует, что LLM проявляют заметные различия в точности при решении перестановок одной и той же задачи и в среднем лучше справляются с вопросами, представленными в их исходной орфографии. Наши результаты подчеркивают непрозрачный характер генерации ответов в LLM и предоставляют доказательства того, что предварительное знакомство с данными способствует завышению оценок способностей передовых моделей к рассуждению.

L^2M: Закон масштабирования взаимной информации для моделирования языка с длинным контекстом
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

Mar 6

ByZhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić

Мы строго устанавливаем закон масштабирования взаимной информации в естественном языке, который регулирует долгосрочные зависимости. Этот закон масштабирования, который, как мы показываем, отличается от и масштабируется независимо от традиционной двухточечной взаимной информации, является ключом к пониманию моделирования языка с длинным контекстом. Используя этот закон масштабирования, мы формулируем условие моделирования языка с длинным контекстом (L^2M), которое связывает способность модели эффективно обрабатывать длинный контекст с масштабированием размера её скрытого состояния для хранения прошлой информации. Наши результаты подтверждаются экспериментами как на трансформерах, так и на моделях пространства состояний. Эта работа закладывает теоретическую основу, которая направляет разработку крупных языковых моделей в сторону увеличения длины контекста.

HybridNorm: К стабильному и эффективному обучению трансформеров через гибридную нормализацию
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

Mar 6

ByZhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma

Трансформеры стали де-факто архитектурой для широкого спектра задач машинного обучения, особенно в крупных языковых моделях (LLM). Несмотря на их выдающуюся производительность, остаются проблемы в обучении глубоких трансформерных сетей, особенно в отношении расположения нормализации слоев. Хотя структуры Pre-Norm облегчают обучение благодаря более выраженному пути идентичности, они часто демонстрируют менее оптимальную производительность по сравнению с Post-Norm. В данной статье мы предлагаем HybridNorm — простую, но эффективную гибридную стратегию нормализации, которая объединяет преимущества подходов Pre-Norm и Post-Norm. В частности, HybridNorm использует нормализацию QKV в механизме внимания и Post-Norm в полносвязной сети (FFN) каждого блока трансформера. Этот дизайн не только стабилизирует обучение, но и повышает производительность, особенно в контексте LLM. Комплексные эксперименты как в плотных, так и в разреженных архитектурах показывают, что HybridNorm последовательно превосходит подходы Pre-Norm и Post-Norm, достигая передовых результатов на различных бенчмарках. Эти результаты подчеркивают потенциал HybridNorm как более стабильной и эффективной техники для улучшения обучения и производительности глубоких трансформерных моделей. Код доступен по адресу https://github.com/BryceZhuo/HybridNorm.

IFIR: Комплексный эталон для оценки выполнения инструкций в области экспертного информационного поиска
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Mar 6

ByTingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao

Мы представляем IFIR — первый комплексный бенчмарк, разработанный для оценки способности следовать инструкциям в задачах информационного поиска (IR) в экспертных областях. IFIR включает 2426 высококачественных примеров и охватывает восемь подмножеств в четырех специализированных областях: финансы, право, здравоохранение и научная литература. Каждое подмножество решает одну или несколько задач поиска, специфичных для конкретной области, воспроизводя реальные сценарии, где использование адаптированных инструкций имеет критическое значение. IFIR позволяет проводить детальный анализ способностей моделей следовать инструкциям, включая инструкции различного уровня сложности. Мы также предлагаем новый метод оценки на основе языковых моделей (LLM), который обеспечивает более точную и надежную оценку производительности моделей в следовании инструкциям. В результате масштабных экспериментов с 15 передовыми моделями поиска, включая модели на основе LLM, наши результаты показывают, что современные модели сталкиваются с серьезными трудностями в эффективном выполнении сложных, специфичных для домена инструкций. Мы также проводим углубленный анализ, чтобы выделить эти ограничения, предлагая ценные инсайты для направления будущих разработок в области поисковых систем.

FuseChat-3.0: Оптимизация предпочтений и слияние гетерогенных моделей
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

Mar 6

ByZiyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan

Мы представляем FuseChat-3.0 — набор крупных языковых моделей (LLM), разработанных путем интеграции сильных сторон разнородных исходных LLM в более компактные целевые LLM. В качестве исходных моделей используются мощные Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct и Llama-3.1-70B-Instruct. Для целевых моделей мы сосредоточились на трех широко используемых компактных вариантах — Llama-3.1-8B-Instruct, Gemma-2-9B-it и Qwen-2.5-7B-Instruct — а также на двух ультракомпактных моделях: Llama-3.2-3B-Instruct и Llama-3.2-1B-Instruct. Чтобы максимально использовать разнообразные возможности этих исходных моделей, мы разработали специализированный протокол построения данных, адаптированный для различных задач и областей. Процесс обучения FuseChat-3.0 состоит из двух ключевых этапов: (1) контролируемой тонкой настройки (SFT) для согласования распределений целевой и исходной моделей и (2) оптимизации прямых предпочтений (DPO) для применения предпочтений от нескольких исходных LLM к тонкой настройке целевой модели. Полученные модели FuseChat-3.0 демонстрируют значительное улучшение производительности в таких задачах, как выполнение инструкций, общие знания, математика и программирование. Как показано на Рисунке 1, при использовании Llama-3.1-8B-Instruct в качестве целевой модели наш подход к слиянию обеспечивает среднее улучшение на 6,8 балла по 14 тестам. Более того, он демонстрирует впечатляющие улучшения на 37,1 и 30,1 балла в тестах на выполнение инструкций AlpacaEval-2 и Arena-Hard соответственно. Наш код, модели и наборы данных доступны по адресу https://github.com/SLIT-AI/FuseChat-3.0.

PokéChamp: Экспертный языковой агент, основанный на алгоритме минимакс
PokéChamp: an Expert-level Minimax Language Agent

Mar 6

BySeth Karten, Andy Luu Nguyen, Chi Jin

Мы представляем Pok\'eChamp — минимакс-агента, основанного на больших языковых моделях (LLM) для сражений в Pok\'emon. Построенный на общей структуре для двухсторонних соревновательных игр, Pok\'eChamp использует универсальные возможности LLM для улучшения минимаксного поиска в дереве. В частности, LLM заменяют три ключевых модуля: (1) выбор действий игрока, (2) моделирование противника и (3) оценку функции ценности, что позволяет агенту эффективно использовать историю игрового процесса и человеческие знания для сокращения пространства поиска и решения проблемы частичной наблюдаемости. Примечательно, что наша структура не требует дополнительного обучения LLM. Мы оцениваем Pok\'eChamp в популярном формате Gen 9 OU. При использовании GPT-4o он достигает уровня побед в 76% против лучшего существующего бота на основе LLM и 84% против самого сильного бота на основе правил, демонстрируя превосходную производительность. Даже с открытой моделью Llama 3.1 на 8 миллиардов параметров Pok\'eChamp стабильно превосходит предыдущего лучшего бота на основе LLM, Pok\'ellmon, работающего на GPT-4o, с уровнем побед в 64%. Pok\'eChamp достигает прогнозируемого рейтинга Elo 1300-1500 на онлайн-лестнице Pok\'emon Showdown, что помещает его в топ 30%-10% среди человеческих игроков. Кроме того, эта работа включает крупнейший набор данных реальных сражений в Pok\'emon, содержащий более 3 миллионов игр, включая более 500 тысяч матчей с высоким рейтингом Elo. На основе этого набора данных мы устанавливаем серию бенчмарков и головоломок для оценки конкретных навыков сражений. Мы также предоставляем ключевые обновления локального игрового движка. Мы надеемся, что эта работа стимулирует дальнейшие исследования, использующие сражения в Pok\'emon как бенчмарк для интеграции технологий LLM с алгоритмами теории игр, решающими общие проблемы многоагентных систем. Видео, код и набор данных доступны по адресу https://sites.google.com/view/pokechamp-llm.

Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?
How to Steer LLM Latents for Hallucination Detection?

Mar 1

BySeongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li

Галлюцинации в больших языковых моделях (LLM) представляют серьезную проблему для их безопасного использования в реальных приложениях. Современные подходы используют латентное пространство LLM для обнаружения галлюцинаций, однако их эмбеддинги, оптимизированные для лингвистической связности, а не для фактической точности, часто не позволяют четко разделить правдивый и галлюцинированный контент. В связи с этим мы предлагаем Вектор Разделения Правдивости (Truthfulness Separator Vector, TSV) — легковесный и гибкий управляющий вектор, который преобразует пространство представлений LLM во время вывода, чтобы усилить разделение между правдивыми и галлюцинированными выходами, не изменяя параметры модели. Наш двухэтапный подход сначала обучает TSV на небольшом наборе размеченных примеров для формирования компактных и хорошо разделенных кластеров. Затем он расширяет набор примеров сгенерированными LLM данными без меток, используя алгоритм на основе оптимального транспорта для псевдоразметки в сочетании с процессом фильтрации на основе уверенности. Многочисленные эксперименты показывают, что TSV достигает наилучших результатов с минимальным объемом размеченных данных, демонстрируя высокую обобщающую способность на различных наборах данных и предоставляя практическое решение для реальных приложений LLM.

Лучшее из двух миров: интеграция языковых моделей и диффузионных моделей для генерации видео
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Mar 6

ByAoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

Последние достижения в области генерации текста в видео (T2V) обусловлены двумя конкурирующими парадигмами: авторегрессивными языковыми моделями и диффузионными моделями. Однако каждая из этих парадигм имеет свои внутренние ограничения: языковые модели испытывают трудности с визуальным качеством и накоплением ошибок, в то время как диффузионные модели недостаточно эффективны в семантическом понимании и моделировании причинно-следственных связей. В данной работе мы предлагаем LanDiff, гибридную архитектуру, которая объединяет сильные стороны обеих парадигм через генерацию от грубого к детальному. Наша архитектура включает три ключевых инновации: (1) семантический токенизатор, который сжимает 3D визуальные признаки в компактные 1D дискретные представления с помощью эффективной семантической компрессии, достигая коэффициента сжатия в 14,000 раз; (2) языковую модель, которая генерирует семантические токены с учетом высокоуровневых семантических связей; (3) потоковую диффузионную модель, которая преобразует грубую семантику в видео высокой четкости. Эксперименты показывают, что LanDiff, модель объемом 5 млрд параметров, достигает оценки 85.43 на бенчмарке VBench T2V, превосходя современные открытые модели, такие как Hunyuan Video (13 млрд), а также коммерческие модели, включая Sora, Keling и Hailuo. Кроме того, наша модель демонстрирует наилучшие результаты в генерации длинных видео, превосходя другие открытые модели в этой области. Нашу демонстрацию можно посмотреть по адресу https://landiff.github.io/.

Идентификация чувствительных весов через интеграл постквантования
Identifying Sensitive Weights via Post-quantization Integral

Feb 28

ByYuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen

Обслуживание больших языковых моделей (LLM) является дорогостоящим. Однако посттренировочная квантование весов может решить эту проблему, сжимая их размеры для ограниченной памяти и экономя пропускную способность для ускорения. Поскольку не все размерности весов одинаково важны, такие методы обычно полагаются на метрику чувствительности, которая указывает на поэлементное влияние весов на функцию потерь и используется для предварительной обработки исходных весов для лучшего квантования. В данной работе мы проводим эмпирическое исследование точности метрики чувствительности и обнаруживаем, что существующие метрики, основанные на градиенте и гессиане, очень неточны: они недооценивают влияние квантования на функцию потерь на порядки величины, в основном из-за малого радиуса сходимости локальной аппроксимации второго порядка, то есть градиента и гессиана в формуле Тейлора. Для решения этой проблемы мы предлагаем Post-quantization Integral (PQI), точную метрику для оценки апостериорной чувствительности в детализированной манере. Чтобы использовать эту точную метрику, мы также предлагаем ReQuant, простую, но мощную структуру, которая в основном состоит из двух компонентов Dense-and-Sparse detach: самоадаптивного выбора выбросов и пошагового отделения значимых весов. Результаты показывают, что ReQuant улучшает современные методы посттренировочного квантования, с заметным улучшением на 2.66 перплексии для Llama 3.2 1B с QTIP.

Объединение экспертов: адаптация иерархической маршрутизации к эквивалентно декомпозированному трансформеру
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Mar 4

ByYujiao Yang, Jing Lian, Linhui Li

Модель Mixture-of-Experts (MoE) повышает производительность модели, сохраняя при этом вычислительную эффективность, что делает её хорошо подходящей для крупномасштабных приложений. Однако в существующей парадигме MoE эксперты работают как отдельные единицы, что ограничивает качество взаимодействия между ними. Более того, они не были эффективно расширены на блоки внимания, что сдерживает дальнейшее повышение эффективности. Для решения этих проблем мы предлагаем модель Union-of-Experts (UoE), которая разбивает трансформер на эквивалентную группу экспертов и реализует динамическую маршрутизацию входных данных и экспертов. Наш подход улучшает дизайн MoE за счёт трёх ключевых инноваций: (1) Мы провели эквивалентное разложение экспертов как на MLP-блоки, так и на блоки внимания на основе разделения матриц в тензорном параллелизме. (2) Мы разработали две парадигмы маршрутизации: выбор данных на уровне патчей и выбор экспертов, чтобы применять маршрутизацию на разных уровнях. (3) Мы спроектировали архитектуру модели UoE, включая Selective Multi-Head Attention (SMHA) и Union-of-MLP-Experts (UoME). (4) Мы реализовали параллельное выполнение операций маршрутизации и вычислений в UoE и оптимизировали эффективность на основе анализа аппаратной обработки. Эксперименты показывают, что модель с использованием UoE превосходит Full Attention, современные MoE и эффективные трансформеры в нескольких задачах в областях изображений и естественного языка. Исходные коды доступны по адресу https://github.com/YujiaoYang-work/UoE.

Специализированные модели обратной связи и редактирования обеспечивают масштабирование на этапе вывода для открытых задач общего назначения.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Mar 6

ByZhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev

Масштабирование на этапе вывода сыграло ключевую роль в успехе последних моделей, таких как OpenAI o1 и DeepSeek R1. Однако многие методы, используемые для обучения моделей для масштабирования на этапе вывода, требуют, чтобы задачи имели проверяемые ответы, что ограничивает их применение в таких областях, как математика, программирование и логическое мышление. Мы вдохновляемся тем, как люди делают первые попытки, запрашивают детальную обратную связь от других и вносят улучшения на основе такой обратной связи в широком спектре открытых задач. С этой целью мы собираем данные и обучаем специализированные модели для обратной связи и редактирования, которые способны выполнять масштабирование на этапе вывода для открытых задач общего характера. В нашей системе одна модель генерирует начальный ответ, который получает обратную связь от второй модели, а затем третья модель использует эту обратную связь для редактирования ответа. Мы показываем, что производительность на бенчмарке Arena Hard, который сильно коррелирует с рейтингом Elo в Chatbot Arena, может быть улучшена за счет масштабирования количества начальных черновиков ответов, эффективной обратной связи и отредактированных ответов. При оптимальном масштабировании наша система, основанная на моделях семейства Llama 3 с 70 миллиардами параметров, достигает уровня SoTA на Arena Hard с показателем 92.7 по состоянию на 5 марта 2025 года, превосходя OpenAI o1-preview-2024-09-12 с 90.4 и DeepSeek R1 с 92.3.

Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделях
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Mar 6

ByYafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang

Крупные языковые модели (LLM) достигли значительных успехов в машинном переводе, демонстрируя впечатляющие результаты для различных языков. Однако проблема "переводческого стиля" (translationese), характеризующегося излишне буквальными и неестественными переводами, остается актуальной для систем перевода на основе LLM. Несмотря на предварительное обучение на обширных корпусах естественных высказываний, LLM допускают ошибки, связанные с переводческим стилем, и генерируют неожиданно неестественные переводы, что обусловлено смещениями, возникающими в процессе контролируемого тонкого обучения (SFT). В данной работе мы систематически оцениваем распространенность переводческого стиля в переводах, созданных LLM, и исследуем его корни в ходе контролируемого обучения. Мы предлагаем методы для смягчения этих смещений, включая улучшение эталонных переводов и фильтрацию неестественных обучающих примеров. Эмпирические оценки показывают, что эти подходы значительно снижают проявления переводческого стиля, одновременно повышая естественность перевода, что подтверждается как экспертной оценкой, так и автоматическими метриками. Наши результаты подчеркивают необходимость адаптации процесса обучения для оптимизации выходных данных LLM, что открывает путь к более плавным и согласованным с целевым языком переводам. Мы публикуем данные и код по адресу https://github.com/yafuly/LLM_Translationese.

Объединение метода согласования потоков и трансформеров для эффективного решения байесовских обратных задач
Combining Flow Matching and Transformers for Efficient Solution of Bayesian Inverse Problems

Mar 3

ByDaniil Sherki, Ivan Oseledets, Ekaterina Muravleva

Эффективное решение байесовских обратных задач остается серьезной проблемой из-за сложности апостериорных распределений и вычислительной затратности традиционных методов выборки. Имея серию наблюдений и прямую модель, мы стремимся восстановить распределение параметров, условное по наблюдаемым экспериментальным данным. Мы демонстрируем, что комбинирование метода Conditional Flow Matching (CFM) с архитектурой на основе трансформеров позволяет эффективно выполнять выборку из такого рода распределений, условных по переменному количеству наблюдений.

О приобретении общих грамматических представлений в двуязычных языковых моделях
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

Mar 5

ByCatherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen

Хотя кросслингвальный перенос играет ключевую роль в многоязычных возможностях современных языковых моделей, механизм его возникновения изучен недостаточно. В данной работе мы исследуем, что происходит с одноязычной языковой моделью, когда её начинают обучать на втором языке. В частности, мы обучаем небольшие двуязычные модели, контролируя объём данных для каждого языка и порядок их представления. Чтобы найти доказательства общих многоязычных представлений, мы обращаемся к структурному праймингу — методу, используемому для изучения грамматических представлений у людей. Сначала мы воспроизводим результаты предыдущих исследований кросслингвального структурного прайминга и обнаруживаем, что после учёта объёма обучающих данных и порядка представления языков наблюдаются асимметричные эффекты для разных пар языков и направлений. Мы утверждаем, что эта асимметрия может формировать гипотезы о структурном прайминге у людей. Также мы выясняем, что эффекты структурного прайминга менее устойчивы для менее схожих языковых пар, что подчеркивает потенциальные ограничения кросслингвального переноса и общих представлений для типологически разнородных языков.

Понимание и прогнозирование срывов в токсичных обсуждениях на GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub

Mar 4

ByMia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski

Успех программных проектов зависит от вовлеченности и вклада людей с разными профессиональными и личными предпосылками. Однако токсичный язык и негативные взаимодействия могут препятствовать участию и удержанию участников, а также отпугивать новичков. Проактивные стратегии модерации направлены на предотвращение токсичности, своевременно устраняя отклонения в обсуждениях от их первоначальной цели. Данное исследование ставит своей целью понять и предсказать отклонения в беседах, ведущие к токсичности на платформе GitHub. Для проведения исследования мы создали новый набор данных, включающий 202 токсичных обсуждения с GitHub с аннотированными точками отклонения, а также 696 нетоксичных обсуждений в качестве контрольной группы. На основе этого набора данных мы выявили уникальные характеристики токсичных бесед и точек отклонения, включая лингвистические маркеры, такие как местоимения второго лица, отрицательные термины, а также тон горечи, разочарования и нетерпения, а также закономерности в динамике обсуждений между участниками проекта и внешними участниками. Опираясь на эти эмпирические наблюдения, мы предлагаем проактивный подход к модерации, который автоматически обнаруживает и устраняет потенциально вредные обсуждения до их эскалации. Используя современные языковые модели (LLM), мы разработали метод обобщения траектории беседы, который фиксирует эволюцию обсуждений и выявляет ранние признаки отклонения. Наши эксперименты показывают, что промпты LLM, адаптированные для создания сводок обсуждений на GitHub, достигают F1-меры в 69% при прогнозировании отклонений в беседах, значительно превосходя набор базовых подходов.