Ежедневно отобранные исследовательские статьи по ИИ с переводами
Математическое рассуждение представляет собой значительную проблему для языковых моделей из-за своей сложной и структурированной природы. В данной статье мы представляем DeepSeekMath 7B, которая продолжает предварительное обучение модели DeepSeek-Coder-Base-v1.5 7B на 120 миллиардах математических токенов, полученных из Common Crawl, вместе с данными на естественном языке и кодом. DeepSeekMath 7B достигла впечатляющего результата в 51,7% на конкурсном бенчмарке MATH без использования внешних инструментов и методов голосования, приближаясь к уровню производительности Gemini-Ultra и GPT-4. Самосогласованность на 64 выборках из DeepSeekMath 7B достигает 60,9% на MATH. Способность DeepSeekMath к математическому рассуждению обусловлена двумя ключевыми факторами: во-первых, мы используем значительный потенциал общедоступных веб-данных через тщательно разработанный конвейер отбора данных. Во-вторых, мы представляем Group Relative Policy Optimization (GRPO), вариант Proximal Policy Optimization (PPO), который улучшает способности к математическому рассуждению, одновременно оптимизируя использование памяти PPO.
Модели генерации изображений по тексту предлагают новый уровень творческой гибкости, позволяя пользователям направлять процесс создания изображений с помощью естественного языка. Однако использование этих моделей для последовательного изображения одного и того же объекта в различных запросах остается сложной задачей. Существующие подходы дообучают модель, чтобы научить ее новым словам, описывающим конкретные объекты, предоставленные пользователем, или добавляют к модели условия на основе изображений. Эти методы требуют длительной оптимизации для каждого объекта или масштабного предварительного обучения. Более того, они сталкиваются с трудностями в согласовании генерируемых изображений с текстовыми запросами и в изображении нескольких объектов. В данной работе мы представляем ConsiStory, подход, не требующий обучения, который обеспечивает согласованную генерацию объектов за счет совместного использования внутренних активаций предварительно обученной модели. Мы вводим блок совместного внимания, ориентированного на объект, и инъекцию признаков на основе соответствий для повышения согласованности объектов между изображениями. Кроме того, мы разрабатываем стратегии для стимулирования разнообразия композиции при сохранении согласованности объектов. Мы сравниваем ConsiStory с рядом базовых методов и демонстрируем передовые результаты в области согласованности объектов и соответствия тексту, не требуя ни одного шага оптимизации. Наконец, ConsiStory естественным образом расширяется на сценарии с несколькими объектами и даже позволяет осуществлять персонализацию без обучения для распространенных объектов.
Чтобы помочь сообществу open-source лучше понять крупные языковые модели (LLM), основанные на архитектуре Mixture-of-Experts (MoE), мы обучаем и выпускаем OpenMoE — серию полностью открытых и воспроизводимых декодер-ориентированных MoE LLM, масштабируемых от 650 миллионов до 34 миллиардов параметров и обученных на более чем 1 триллионе токенов. Наше исследование подтверждает, что MoE-модели могут предложить более выгодное соотношение стоимости и эффективности по сравнению с плотными LLM, подчеркивая их потенциал для будущего развития языковых моделей. Еще одним важным вкладом этого исследования является глубокий анализ механизмов маршрутизации в наших моделях OpenMoE, который привел к трем значимым выводам: контекстно-независимая специализация, раннее обучение маршрутизации и "выпадение к концу". Мы обнаружили, что решения маршрутизации в MoE-моделях в основном основываются на идентификаторах токенов, с минимальной зависимостью от контекста. Назначение токенов экспертам определяется на ранних этапах предварительного обучения и остается практически неизменным. Эта несовершенная маршрутизация может привести к снижению производительности, особенно в последовательных задачах, таких как многоходовые диалоги, где токены, появляющиеся позже в последовательности, с большей вероятностью "выпадают". Наконец, мы переосмысливаем наш дизайн на основе вышеупомянутых наблюдений и анализа. Чтобы способствовать дальнейшему развитию MoE LLM, мы предлагаем потенциальные стратегии для устранения обнаруженных проблем и дальнейшего улучшения готовых решений MoE LLM.
Модели пространства состояний (SSM) недавно продемонстрировали конкурентоспособные результаты по сравнению с трансформерами на крупномасштабных бенчмарках языкового моделирования, достигая при этом линейной временной и пространственной сложности в зависимости от длины последовательности. Mamba, недавно выпущенная SSM-модель, показывает впечатляющие результаты как в языковом моделировании, так и в задачах обработки длинных последовательностей. Одновременно модели смеси экспертов (MoE) продемонстрировали выдающуюся производительность, значительно снижая вычислительные затраты и задержку при выводе, хотя и за счет увеличения объема используемой памяти. В данной статье мы представляем BlackMamba — новую архитектуру, которая объединяет SSM Mamba с MoE, чтобы получить преимущества обеих подходов. Мы показываем, что BlackMamba конкурирует с базовыми моделями Mamba и трансформерами, а также превосходит их по количеству операций (FLOPs) при выводе и обучении. Мы полностью обучаем и открываем исходный код для моделей BlackMamba с 340M/1.5B и 630M/2.8B параметров на 300B токенов из собственного набора данных. Мы демонстрируем, что BlackMamba наследует и объединяет преимущества как SSM, так и MoE архитектур, сочетая генерацию с линейной сложностью от SSM с быстрым и экономичным выводом от MoE. Мы публикуем все веса, контрольные точки и код для вывода в открытом доступе. Код для вывода доступен по адресу: https://github.com/Zyphra/BlackMamba.
Интерпретируемое машинное обучение стало активно развивающейся областью интересов за последнее десятилетие, что было вызвано ростом объемов данных и распространением глубоких нейронных сетей. Одновременно с этим крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в решении широкого круга задач, открывая новые перспективы для переосмысления интерпретируемости в машинном обучении. В частности, способность объяснять на естественном языке позволяет LLM расширять масштаб и сложность паттернов, которые могут быть представлены человеку. Однако эти новые возможности также порождают новые вызовы, такие как галлюцинированные объяснения и огромные вычислительные затраты. В этой позиционной статье мы начинаем с обзора существующих методов оценки развивающейся области интерпретации LLM (как интерпретации самих LLM, так и использования LLM для объяснений). Мы утверждаем, что, несмотря на их ограничения, LLM предоставляют возможность переопределить интерпретируемость с более амбициозным охватом в различных приложениях, включая аудит самих LLM. Мы выделяем два приоритетных направления исследований в области интерпретации LLM: использование LLM для непосредственного анализа новых наборов данных и генерации интерактивных объяснений.
Согласование языковых моделей (LM) с курируемой обратной связью от людей имеет критическое значение для управления их поведением в реальных приложениях. Несколько недавних методов оптимизации политик, таких как DPO и SLiC, представляют собой перспективные альтернативы традиционному подходу обучения с подкреплением на основе человеческой обратной связи (RLHF). На практике человеческая обратная связь часто предоставляется в формате ранжированного списка нескольких ответов, чтобы снизить затраты на чтение промпта. Множественные ответы также могут быть ранжированы с помощью моделей вознаграждения или обратной связи от ИИ. Однако отсутствуют исследования, посвященные непосредственной адаптации на основе списка ответов. В данной работе мы формулируем согласование LM как задачу ранжирования списка и описываем фреймворк Listwise Preference Optimization (LiPO), в котором политика может потенциально обучаться более эффективно на основе ранжированного списка правдоподобных ответов для заданного промпта. Этот подход устанавливает явную связь с задачей Learning-to-Rank (LTR), где большинство существующих работ по оптимизации предпочтений могут быть сопоставлены с существующими ранжирующими целями, особенно парными. Следуя этой связи, мы проводим анализ ранжирующих целей, которые недостаточно изучены для согласования LM, рассматривая DPO и SLiC как частные случаи, когда размер списка равен двум. В частности, мы выделяем конкретный метод, LiPO-{\lambda}, который использует современную цель ранжирования списка и взвешивает каждую пару предпочтений более продвинутым образом. Мы показываем, что LiPO-{\lambda} может значительно превзойти DPO и SLiC на двух задачах согласования предпочтений.
Недавние модели диффузии для создания видео из текста достигли впечатляющих успехов. На практике пользователи часто хотят иметь возможность независимо управлять движением объектов и перемещением камеры для создания персонализированных видео. Однако текущие методы не уделяют достаточного внимания раздельному управлению движением объектов и перемещением камеры в развязанном режиме, что ограничивает управляемость и гибкость моделей текста в видео. В данной статье мы представляем Direct-a-Video — систему, которая позволяет пользователям независимо задавать движения для одного или нескольких объектов и/или перемещений камеры, как при режиссуре видео. Мы предлагаем простую, но эффективную стратегию для развязанного управления движением объектов и перемещением камеры. Движение объектов контролируется через модуляцию пространственного кросс-внимания с использованием внутренних априорных данных модели, что не требует дополнительной оптимизации. Для перемещения камеры мы вводим новые временные слои кросс-внимания для интерпретации количественных параметров перемещения камеры. Мы также используем подход, основанный на аугментации, для обучения этих слоев в самообучающемся режиме на небольшом наборе данных, что устраняет необходимость в явной аннотации движения. Оба компонента работают независимо, позволяя осуществлять индивидуальное или комбинированное управление, и могут обобщаться на открытые сценарии. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего метода. Страница проекта: https://direct-a-video.github.io/.
Мы представляем InteractiveVideo, ориентированную на пользователя платформу для генерации видео. В отличие от традиционных генеративных подходов, которые работают на основе предоставленных пользователем изображений или текста, наша платформа разработана для динамического взаимодействия, позволяя пользователям управлять генеративной моделью через различные интуитивные механизмы на протяжении всего процесса создания, такие как текстовые и графические подсказки, рисование, перетаскивание и т.д. Мы предлагаем механизм Синергетической Мультимодальной Инструкции, предназначенный для бесшовной интеграции мультимодальных инструкций пользователя в генеративные модели, что способствует кооперативному и отзывчивому взаимодействию между вводом пользователя и процессом генерации. Этот подход позволяет итеративно и детально уточнять результат генерации с помощью точных и эффективных инструкций пользователя. С InteractiveVideo пользователи получают гибкость для тщательной настройки ключевых аспектов видео. Они могут рисовать эталонное изображение, редактировать семантику и корректировать движение видео до полного удовлетворения своих требований. Код, модели и демонстрация доступны по адресу https://github.com/invictus717/InteractiveVideo.
Структурированное прореживание современных крупных языковых моделей (LLM) стало способом снижения их высоких вычислительных потребностей. Прореживание по ширине уменьшает размер матриц проекционных весов (например, за счет удаления голов внимания), сохраняя при этом количество слоев. В отличие от этого, прореживание по глубине удаляет целые слои или блоки, оставляя размер оставшихся весов неизменным. Большинство современных исследований сосредоточено либо исключительно на прореживании по ширине, либо на сочетании прореживания по ширине и глубине, при этом практически отсутствует сравнительный анализ между этими двумя подходами (ширина против глубины) с точки зрения их влияния на эффективность вывода LLM. В данной работе мы показываем, что простой подход к прореживанию по глубине может конкурировать с современными методами прореживания по ширине с точки зрения производительности на задачах с нулевым обучением. Наш метод прореживания повышает скорость вывода, особенно в условиях ограниченной памяти, где требуется использование небольших размеров пакетов для запуска LLM, при которых прореживание по ширине неэффективно. Мы надеемся, что эта работа поможет в развертывании LLM на локальных и периферийных устройствах.
Существует сенсорная пропасть между Землей, которую населяют люди, и цифровыми мирами, в которых создаются современные ИИ-агенты. Чтобы разработать ИИ-агентов, способных воспринимать, мыслить и действовать так же гибко, как люди, в реальных условиях, необходимо преодолеть разрыв в реализме между цифровым и физическим мирами. Как можно воплотить агентов в среде, столь же богатой и разнообразной, как та, в которой мы живем, без ограничений, накладываемых реальным оборудованием и управлением? В этом направлении мы представляем V-IRL: платформу, которая позволяет агентам масштабируемо взаимодействовать с реальным миром в виртуальной, но реалистичной среде. Наша платформа служит как площадкой для разработки агентов, способных выполнять различные практические задачи, так и обширным полигоном для оценки прогресса в таких областях, как восприятие, принятие решений и взаимодействие с реальными данными по всему земному шару.
В свете последних достижений в области мультимодальных больших языковых моделей (LLM), все больше внимания уделяется их масштабированию с данных, содержащих изображения и текст, на более информативные реальные видеоматериалы. По сравнению со статичными изображениями, видео представляет уникальные задачи для эффективного предварительного обучения в крупных масштабах из-за необходимости моделирования его пространственно-временной динамики. В данной работе мы устраняем такие ограничения в предварительном обучении на видео и тексте с помощью эффективной декомпозиции видео, представляющей каждый видеоролик в виде ключевых кадров и временных движений. Эти элементы затем адаптируются для LLM с использованием тщательно разработанных токенизаторов, которые дискретизируют визуальную и временную информацию в виде нескольких токенов, что позволяет проводить унифицированное генеративное предварительное обучение для видео, изображений и текста. На этапе вывода сгенерированные LLM токены аккуратно восстанавливаются в исходное непрерывное пространство пикселей для создания разнообразного видеоконтента. Предложенная нами структура способна как понимать, так и генерировать контент в виде изображений и видео, что подтверждается ее конкурентоспособными результатами на 13 мультимодальных тестах в области понимания и генерации изображений и видео. Наш код и модели будут доступны по адресу https://video-lavit.github.io.
Расширение возможностей крупных языковых моделей (LLM) для понимания аудио — включая неречевые звуки и невербальную речь — имеет критически важное значение для разнообразных практических применений LLM. В данной статье мы представляем Audio Flamingo, новую аудио-языковую модель, обладающую: 1) мощными способностями к пониманию аудио, 2) возможностью быстрой адаптации к новым задачам с помощью обучения в контексте и извлечения данных, а также 3) развитыми способностями к многоходовому диалогу. Мы предлагаем ряд методов обучения, архитектурных решений и стратегий работы с данными, которые усиливают нашу модель в этих аспектах. Обширные оценки на различных задачах понимания аудио подтверждают эффективность нашего подхода, устанавливая новые эталонные показатели в данной области.
Мощь крупных языковых моделей (LLM) была продемонстрирована благодаря использованию значительных вычислительных ресурсов и объемов данных. Однако применение языковых моделей на мобильных устройствах сталкивается с серьезными вызовами, связанными с затратами на вычисления и память, что делает крайне необходимыми компактные языковые модели с высокой производительностью. Из-за сложности процесса обучения многие аспекты оптимизации языковых моделей остаются недостаточно изученными. В данном исследовании, основываясь на компактной языковой модели с 1 миллиардом параметров, мы тщательно разработали серию экспериментов для анализа влияния каждого компонента. Основное внимание уделено трем аспектам: архитектуре нейронной сети, инициализации параметров и стратегии оптимизации. Эмпирически доказана эффективность нескольких подходов, включая сжатие токенизатора, модификацию архитектуры, наследование параметров и многоэтапное обучение. Затем мы обучили модели PanGu-pi-1B Pro и PanGu-pi-1.5B Pro на 1.6 триллионах токенов многоязычных корпусов, следуя установленным принципам. Результаты экспериментов показывают, что улучшенная оптимизация и архитектура обеспечивают заметное повышение среднего показателя на 8.87 баллов на тестовых наборах для модели PanGu-pi-1B Pro. Кроме того, PanGu-pi-1.5B Pro превосходит ряд современных моделей с большим количеством параметров, подтверждая ее превосходную производительность. Код будет опубликован в ближайшее время (https://github.com/YuchuanTian/RethinkTinyLM).
Недавние исследования показали, что языковые модели для кода, обученные в большом масштабе, демонстрируют значительное улучшение производительности на последующих задачах, таких как генерация кода. Однако большинство существующих работ по обучению представлений кода обучают модели с сотнями миллионов параметров, используя очень ограниченные корпуса для предварительного обучения. В данной работе мы обогащаем обучение представлений кода большим объемом данных с помощью двухэтапной схемы предварительного обучения. Сначала мы обучаем кодировщики с использованием смешанного подхода, который сочетает случайность в маскирующем языковом моделировании и структурные аспекты языков программирования. Затем мы улучшаем представления с помощью контрастивного обучения, используя сложные отрицательные и положительные примеры, созданные в неконтролируемом режиме. Мы создаем готовую модель кодировщика, которая стабильно превосходит существующие модели на широком спектре последующих задач с большим отрывом. Чтобы понять факторы, способствующие успешному обучению представлений кода, мы проводим детальные исследования и делимся своими выводами по следующим аспектам: (i) кастомизированная и эффективная схема шумоподавления на уровне токенов для исходного кода; (ii) важность сложных отрицательных и положительных примеров; (iii) как предложенное бимодальное контрастивное обучение улучшает производительность кросс-языкового семантического поиска; и (iv) как схемы предварительного обучения определяют масштабирование производительности на последующих задачах в зависимости от размера модели.
Крупномасштабные модели генерации изображений на основе текста (Text-to-Image, T2I) с использованием диффузии произвели революцию в области создания изображений за последние несколько лет. Несмотря на их разнообразные и высококачественные возможности генерации, применение этих способностей для точного редактирования изображений остается сложной задачей. В данной статье мы предлагаем метод DiffEditor, который устраняет два недостатка существующих подходов к редактированию изображений на основе диффузии: (1) в сложных сценариях результаты редактирования часто страдают от недостаточной точности и содержат нежелательные артефакты; (2) отсутствие гибкости в согласовании операций редактирования, например, при добавлении нового контента. В нашем решении мы вводим использование изображений в качестве подсказок для точного редактирования, что в сочетании с текстовыми подсказками позволяет лучше описывать редактируемый контент. Для повышения гибкости при сохранении согласованности контента мы локально интегрируем стохастические дифференциальные уравнения (SDE) в процесс выборки на основе обыкновенных дифференциальных уравнений (ODE). Кроме того, мы включаем региональное градиентное управление на основе оценок и стратегию "путешествия во времени" в процесс диффузионной выборки, что дополнительно улучшает качество редактирования. Многочисленные эксперименты демонстрируют, что наш метод эффективно достигает наилучших результатов в различных задачах точного редактирования изображений, включая редактирование внутри одного изображения (например, перемещение объектов, изменение размеров и перетаскивание контента) и между изображениями (например, замена внешнего вида и вставка объектов). Наш исходный код доступен по адресу https://github.com/MC-E/DragonDiffusion.