Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем серию моделей Qwen2.5-1M, которые расширяют длину контекста до 1 миллиона токенов. По сравнению с предыдущей версией на 128 тыс. токенов, серия Qwen2.5-1M значительно улучшила возможности длинного контекста благодаря предварительному и последующему обучению на длинном контексте. Ключевые техники, такие как синтез длинных данных, поэтапное предварительное обучение и многоступенчатая надзорная донастройка, используются для эффективного улучшения производительности на длинном контексте при снижении затрат на обучение. Для поощрения использования моделей с длинным контекстом среди более широкой пользовательской базы мы представляем и открываем исходный код нашей системы вывода. Эта система включает метод экстраполяции длины, который может расширить длину контекста модели как минимум в четыре раза, а то и более, без дополнительного обучения. Для снижения затрат на вывод мы реализуем метод разреженного внимания вместе с оптимизацией предварительной загрузки по частям для сценариев развертывания, а также метод улучшения разреженности для повышения точности. Кроме того, мы подробно описываем наши оптимизации в движке вывода, включая оптимизацию ядра, параллелизм конвейера и оптимизацию планирования, которые значительно улучшают общую производительность вывода. Используя нашу систему вывода, модели Qwen2.5-1M достигают заметного ускорения предварительной загрузки в 3-7 раз в сценариях с 1 миллионом токенов контекста. Эта система предоставляет эффективное и мощное решение для разработки приложений, требующих обработки длинного контекста с использованием моделей с открытым исходным кодом. Серия Qwen2.5-1M включает в себя открытые модели Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M, а также модель Qwen2.5-Turbo с доступом через API. Оценки показывают, что модели Qwen2.5-1M значительно улучшились в задачах с длинным контекстом, не уступая производительности в сценариях с коротким контекстом. В частности, модель Qwen2.5-14B-Instruct-1M значительно превосходит GPT-4o-mini в задачах с длинным контекстом и поддерживает восемь раз более длинные контексты.
Мы представляем Baichuan-Omni-1.5, омни-модель, которая не только обладает возможностями понимания омни-модальности, но также обеспечивает возможности генерации аудио на конечном этапе. Для достижения гладкого и высококачественного взаимодействия между модальностями без ущерба возможностям любой модальности, мы отдали предпочтение оптимизации трех ключевых аспектов. Во-первых, мы создали комплексный конвейер очистки и синтеза данных для мультимодальных данных, получив около 500 млрд высококачественных данных (текст, аудио и видео). Во-вторых, был разработан аудио-токенизатор (Baichuan-Audio-Tokenizer), который захватывает как семантическую, так и акустическую информацию из аудио, обеспечивая бесшовную интеграцию и улучшенную совместимость с MLLM. Наконец, мы разработали стратегию многоэтапного обучения, которая постепенно интегрирует мультимодальное выравнивание и многозадачное донастройка, обеспечивая эффективное синергетическое взаимодействие между всеми модальностями. Baichuan-Omni-1.5 опережает современные модели (включая GPT4o-mini и MiniCPM-o 2.6) по комплексным омни-модальным возможностям. Заметим, что он достигает результатов, сравнимых с ведущими моделями, такими как Qwen2-VL-72B, на различных мультимодальных медицинских бенчмарках.
Обучение с подкреплением (RL) обещает рамки для практически универсального решения проблем. Однако на практике алгоритмы RL часто настраиваются под конкретные стандарты, опираясь на тщательно настроенные гиперпараметры и алгоритмические выборы. Недавно мощные методы модельного обучения RL продемонстрировали впечатляющие общие результаты на стандартах, но это сопряжено с увеличением сложности и медленными временами выполнения, что ограничивает их более широкое применение. В данной статье мы пытаемся найти объединяющий модельно-независимый глубокий алгоритм RL, который может решать разнообразные классы областей и настроек задач. Для достижения этой цели мы используем модельные представления, которые приблизительно линеаризуют функцию ценности, используя более плотные целевые задачи, применяемые в модельном обучении RL, и избегая затрат, связанных с планированием или симулированными траекториями. Мы оцениваем наш алгоритм, MR.Q, на различных стандартных стендах RL с единственным набором гиперпараметров и показываем конкурентоспособные результаты по сравнению с базовыми моделями, специфичными для области, и общими, что представляет собой конкретный шаг к созданию универсальных модельно-независимых глубоких алгоритмов RL.
Как известно, гибридные квадратичные и субквадратичные модели внимания в многоголовых архитектурах превзошли как модели Трансформера, так и линейные RNN-модели, прежде всего сосредотачиваясь на снижении сложности KV и повышении эффективности. Для дальнейших исследований экспрессивности мы представляем нашу серию моделей, выведенных из Qwen 2.5, основанных на чистом родном внимании RWKV-7, которое направлено на увеличение экспрессивности RNN и демонстрирует способность к отслеживанию состояния выше возможностей трансформеров. Мы работаем с QRWK 32B на основе архитектуры RWKV-6, еще одним подходом, который сокращает время обработки всего объема знаний до 8 часов с использованием 16 графических процессоров AMD MI300X, сохраняя при этом производительность Qwen 2.5. Фактически, процесс дистилляции может использовать любой LLM, а не только Qwen, и обеспечивает передачу знаний от более крупных LLM к более маленьким с меньшим количеством токенов. Мы объясним подробный процесс и поделимся нашими идеями по созданию более мощных фундаментальных моделей. Обратите внимание, что это непрерывно развивающаяся работа. Чекпоинты модели и исходный код доступны по ссылкам https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
Недавние достижения в области генерации речи были обусловлены обширными наборами данных для обучения. Однако текущие модели не могут полностью передать спонтанность и изменчивость, присущие реальной человеческой речи, из-за своей зависимости от аудиокнижных наборов данных, ограниченных формальными стилями чтения вслух. Для устранения этого разрыва мы представляем Emilia-Pipe, открытый предварительный конвейер для извлечения высококачественных данных для обучения из ценных, но малоисследованных данных из реального мира, которые захватывают спонтанную человеческую речь в реальных контекстах. Используя Emilia-Pipe, мы создаем Emilia, первый многоязычный набор данных для генерации речи, полученный из данных о речи в реальном мире. Этот набор данных включает более 101 тыс. часов речи на шести языках: английском, китайском, немецком, французском, японском и корейском. Кроме того, мы расширяем Emilia до Emilia-Large, набора данных, превышающего 216 тыс. часов, что делает его самым крупным открытым набором данных для генерации речи. Обширные эксперименты показывают, что Emilia значительно превосходит традиционные аудиокнижные наборы данных в генерации спонтанной и похожей на человека речи, демонстрируя превосходную производительность в передаче разнообразного тембра и стилей речи дикторов реальной человеческой речи. Кроме того, данная работа подчеркивает важность увеличения размера набора данных для продвижения исследований по генерации речи и подтверждает эффективность Emilia как для многоязычной, так и для кросс-языковой генерации речи.
Мы представляем новое семейство мобильных гибридных сетей компьютерного зрения, названное iFormer, с акцентом на оптимизацию задержки и точности в мобильных приложениях. iFormer эффективно интегрирует быструю локальную способность представления свертки с эффективной глобальной моделирующей способностью самовнимания. Локальные взаимодействия происходят от преобразования стандартной сверточной сети, т.е. ConvNeXt, для разработки более легкой мобильной сети. Наш вновь введенный мобильный модуляционный механизм внимания устраняет операции, требующие большого объема памяти, в MHA и использует эффективный механизм модуляции для увеличения динамической глобальной представительной способности. Мы проводим комплексные эксперименты, демонстрирующие, что iFormer превосходит существующие легкие сети на различных задачах. Важно отметить, что iFormer достигает впечатляющей точности Top-1 в 80,4\% на ImageNet-1k с задержкой всего лишь 1,10 мс на iPhone 13, превосходя недавно предложенную MobileNetV4 при сходных ограничениях задержки. Кроме того, наш метод показывает значительные улучшения в последующих задачах, включая обнаружение объектов COCO, сегментацию экземпляров и семантическую сегментацию ADE20k, сохраняя при этом низкую задержку на мобильных устройствах для изображений высокого разрешения в этих сценариях.
Масштабирование мощности языковых моделей последовательно доказало свою надежность как метод улучшения производительности и разблокирования новых возможностей. Мощность можно определить преимущественно двумя измерениями: количеством параметров модели и вычислениями на пример. Хотя масштабирование обычно включает увеличение обоих параметров, точное взаимодействие между этими факторами и их совместный вклад в общую мощность остается не до конца понятым. Мы исследуем эту связь в контексте разреженной модели смеси экспертов (MoE), которая позволяет масштабировать количество параметров без пропорционального увеличения FLOPs на пример. Мы исследуем, как изменение уровня разреженности, то есть доли неактивных параметров, влияет на производительность модели во время предварительного обучения и последующей оценки с небольшим количеством данных. Мы обнаруживаем, что при различных ограничениях (например, размер параметра и общее вычислительное время обучения) существует оптимальный уровень разреженности, который улучшает как эффективность обучения, так и производительность модели. Эти результаты обеспечивают лучшее понимание влияния разреженности на законы масштабирования для MoE и дополняют существующие работы в этой области, предлагая идеи для разработки более эффективных архитектур.
Масштабирование вычислений во время тестирования - это многообещающая стратегия для улучшения возможностей LLM. Однако масштабирование вычислений во время тестирования можно осуществлять различными способами, и эффективное сочетание различных подходов остается активной областью исследований. В данной работе мы исследуем эту проблему в контексте решения реальных проблем GitHub из набора данных SWE-bench. Наша система, названная CodeMonkeys, позволяет моделям итеративно редактировать кодовую базу, совместно генерируя и запуская тестовый скрипт наряду с их черновым редактированием. Мы выбираем множество таких многоходовых траекторий для каждой проблемы, чтобы создать коллекцию кандидатов на редактирование. Этот подход позволяет нам масштабировать "последовательные" вычисления во время тестирования путем увеличения числа итераций на каждой траектории и "параллельные" вычисления во время тестирования путем увеличения числа траекторий на каждую проблему. С параллельным масштабированием мы можем амортизировать начальные затраты на несколько последующих выборок, что позволяет нам определить соответствующий контекст кодовой базы, используя простой метод, позволяющий LLM прочитать каждый файл. Для выбора между кандидатами на редактирование мы комбинируем голосование с использованием тестов, сгенерированных моделью, с окончательной многоходовой траекторией, посвященной выбору. В целом, CodeMonkeys решает 57,4% проблем из SWE-bench Verified с бюджетом примерно 2300 долларов США. Наш метод выбора также может быть использован для объединения кандидатов из разных источников. Выбор среди ансамбля редактирований из существующих лучших представленных в SWE-bench Verified подтверждений дает результат 66,2% и превосходит лучшего участника ансамбля по отдельности. Мы полностью публикуем наш код и данные на https://scalingintelligence.stanford.edu/pubs/codemonkeys.
Языковые модели видения (VLM) радикально изменили ландшафт моделей компьютерного зрения всего за несколько лет, открывая захватывающий спектр новых приложений от классификации изображений с нулевой разметкой до описания изображений и ответов на визуальные вопросы. В отличие от чисто видовых моделей, они предлагают интуитивный способ доступа к визуальному контенту через языковые подсказки. Широкая применимость таких моделей побуждает нас задаться вопросом, соответствуют ли они также человеческому зрению - конкретно, насколько они принимают визуальные предвзятости, вызванные человеком, через мультимодальное слияние, или просто наследуют предвзятости от чисто видовых моделей. Одной из важных визуальных предвзятостей является предвзятость текстуры по сравнению с формой, или доминирование локальной информации над глобальной. В данной статье мы изучаем эту предвзятость в широком диапазоне популярных VLM. Интересно, что мы обнаруживаем, что VLM часто имеют большую предвзятость к форме, чем их видовые кодировщики, что указывает на то, что визуальные предвзятости в некоторой степени модулируются через текст в мультимодальных моделях. Если текст действительно влияет на визуальные предвзятости, это подтверждает, что мы можем направлять визуальные предвзятости не только через визуальный ввод, но и через язык: гипотезу, которую мы подтверждаем через обширные эксперименты. Например, мы можем направлять предвзятость к форме от 49% до 72% только через подсказки. На данный момент сильная человеческая предвзятость к форме (96%) остается недостижимой для всех протестированных VLM.
Модели пространства состояний (State Space Models, SSM) стали эффективной альтернативой трансформерам для последовательного моделирования, однако их неспособность использовать модально-специфические особенности ограничивает их производительность в мульти-модальном предварительном обучении. Здесь мы предлагаем Mixture-of-Mamba, новую архитектуру SSM, которая вводит модально-осознанную разреженность через модально-специфическую параметризацию блока Mamba. На основе Mixture-of-Transformers (W. Liang и др., arXiv:2411.04996; 2024) мы расширяем преимущества модально-осознанной разреженности на SSM, сохраняя их вычислительную эффективность. Мы оцениваем Mixture-of-Mamba в трех настройках мульти-модального предварительного обучения: Transfusion (чередующиеся текстовые и непрерывные изображения с потерей диффузии), Chameleon (чередующиеся текстовые и дискретные изображения) и расширенная трехмодальная структура, включающая речь. Mixture-of-Mamba последовательно достигает тех же значений потерь на более ранних этапах обучения с значительным снижением вычислительных затрат. В настройке Transfusion Mixture-of-Mamba достигает эквивалентной потери изображения, используя лишь 34.76% от вычислительных операций обучения на масштабе 1.4 млрд. В настройке Chameleon Mixture-of-Mamba достигает схожей потери изображения всего с 42.50% от вычислительных операций на масштабе 1.4 млрд и схожей потери текста всего с 65.40% от вычислительных операций. В трехмодальной настройке MoM соответствует потере речи на 24.80% от вычислительных операций на масштабе 1.4 млрд. Наше исследование абляции подчеркивает синергетические эффекты разделения компонентов проекции, где совместное разделение приносит большую пользу, чем индивидуальные модификации. Эти результаты устанавливают модально-осознанную разреженность как универсальный и эффективный принцип проектирования, расширяя ее влияние от трансформеров к SSM и устанавливая новые стандарты в мульти-модальном предварительном обучении. Наш код доступен по ссылке https://github.com/Weixin-Liang/Mixture-of-Mamba
Метод руководства без классификатора (CFG) стал стандартной техникой в различных визуальных генеративных моделях, однако требует вывода из условных и безусловных моделей во время выборки. Мы предлагаем создавать визуальные модели, свободные от управляемой выборки. Разработанный алгоритм, Обучение без руководства (GFT), достигает производительности CFG, сокращая выборку до одной модели и уменьшая вычислительные затраты вдвое. В отличие от предыдущих подходов на основе дистилляции, которые зависели от предварительно обученных сетей CFG, GFT позволяет обучаться напрямую с нуля. Реализация GFT проста в осуществлении. Он сохраняет ту же цель максимального правдоподобия, что и CFG, и отличается в основном параметризацией условных моделей. Для реализации GFT требуются лишь минимальные изменения в существующем коде, так как большинство дизайнерских решений и гиперпараметры прямо наследуются от CFG. Наши обширные эксперименты с пятью различными визуальными моделями демонстрируют эффективность и универсальность GFT. В различных областях диффузии, авторегрессии и моделирования маскировки GFT последовательно достигает сравнимых или даже более низких оценок FID, сохраняя аналогичный баланс между разнообразием и правдоподобием по сравнению с базовыми значениями CFG, при этом не требуя руководства. Код будет доступен по ссылке https://github.com/thu-ml/GFT.
Настраиваемая ролевая игра в больших языковых моделях (LLM), также известная как обобщение персонажа, привлекает все больше внимания благодаря своей универсальности и экономичности в разработке и развертывании диалоговых агентов для ролевых игр. В данном исследовании исследуется подход синтеза данных большого масштаба для оснащения LLM возможностями обобщения персонажа. Мы начинаем с синтеза профилей персонажей большого масштаба, используя персоны из Persona Hub, а затем исследуем две стратегии: переписывание ответов и генерацию ответов, для создания инструкционных ответов, соответствующих персонажу. Для проверки эффективности наших синтетических данных настройки инструкций для обобщения персонажа мы выполняем надзорное дообучение (SFT) с использованием модели LLaMA-3 8B. Наша лучшая модель укрепляет исходную модель LLaMA-3 8B Instruct и достигает производительности, сравнимой с моделями GPT-4o в диалогах для ролевых игр. Мы предоставляем наши синтетические персонажи и диалоги настройки инструкций для поддержки общественного исследования.
Доминирование крупных моделей языков только с декодером затмевает архитектуры кодировщик-декодер, несмотря на их фундаментальные преимущества эффективности в обработке последовательностей. Для небольших моделей языков (SLM) - тех, у которых 1 миллиард параметров или меньше - наша систематическая аналитика на платформах GPU, CPU и NPU показывает, что архитектуры кодировщик-декодер достигают на 47% более низкую задержку первого токена и в 4,7 раза большую пропускную способность по сравнению с моделями только с декодером на краевых устройствах. Эти преимущества могут быть объяснены одноразовой обработкой ввода кодировщиком-декодером и эффективным разделением фаз понимания и генерации. Мы представляем новую рамку дистилляции знаний, которая позволяет моделям кодировщик-декодер использовать возможности от крупных масштабируемых моделей только с декодером, сохраняя при этом свои архитектурные преимущества, достигая до 6 средних пунктов улучшения производительности по различным задачам, с значительными приростами в асимметричных последовательностных задачах, где входные и выходные распределения могут получить выгоду от различных подходов обработки. При объединении с современными достижениями, такими как вращающиеся позиционные вложения (RoPE) и кодировщики видео, наше систематическое исследование демонстрирует, что архитектуры кодировщик-декодер предоставляют более практичный путь к развертыванию способных моделей языков в ресурсоемких средах. Наши результаты вызывают сомнения в преобладающем тренде масштабирования только с декодером, показывая, что архитектурные выборы становятся все более важными по мере уменьшения бюджетов параметров, особенно для развертывания на устройствах и краевых устройствах, где вычислительная эффективность имеет первостепенное значение.
Мы представляем концепцию Обучения с возможностью (Feasible Learning, FL), парадигму обучения, ориентированную на образцы, где модели обучаются путем решения задачи выполнимости, ограничивающей потери для каждого обучающего образца. В отличие от широко распространенной структуры Минимизации Эмпирического Риска (Empirical Risk Minimization, ERM), которая оптимизирует среднюю производительность, FL требует удовлетворительной производительности на каждой отдельной точке данных. Поскольку любая модель, удовлетворяющая установленному порогу производительности, является допустимым решением FL, выбор алгоритма оптимизации и его динамика играют решающую роль в формировании свойств полученных решений. В частности, мы изучаем применение примарно-дуального подхода, который динамически переопределяет веса важности каждого образца во время обучения. Для решения проблемы установления значимого порога на практике мы представляем релаксацию FL, которая включает слабые переменные минимальной нормы. Наше эмпирическое исследование, охватывающее классификацию изображений, регрессию возраста и оптимизацию предпочтений в больших языковых моделях, демонстрирует, что модели, обученные с использованием FL, могут учиться на данных, проявляя улучшенное поведение хвоста по сравнению с ERM, с едва заметным влиянием на среднюю производительность.