HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

13 papers found

Метеор: Обход на основе Mamba обоснования для крупных моделей языка и зрения
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

May 24

ByByung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro

Быстрое развитие крупных языковых и визуальных моделей (LLVM) было обусловлено прогрессом в настройке визуальных инструкций. Недавно открытые LLVM собрали качественные наборы данных для настройки визуальных инструкций и использовали дополнительные визуальные кодировщики или несколько моделей компьютерного зрения для сокращения разрыва в производительности с мощными закрытыми LLVM. Эти усовершенствования связаны с многоаспектной информацией, необходимой для различных возможностей, включая фундаментальное понимание изображений, знание о реальном мире, общее чувство и необъектные концепции (например, диаграммы, схемы, символы, знаки и математические задачи), а также пошаговые процедуры для решения сложных вопросов. Извлекая из многоаспектной информации, мы представляем новую эффективную LLVM, основанную на методе обхода обоснований Mamba (Meteor), которая использует многоаспектные обоснования для улучшения возможностей понимания и ответа. Для встраивания длинных обоснований, содержащих обильную информацию, мы используем архитектуру Mamba, способную обрабатывать последовательные данные с линейной временной сложностью. Мы вводим новую концепцию обхода обоснований, которая облегчает эффективное встраивание обоснований. Впоследствии основная мультимодальная языковая модель (MLM) обучается генерировать ответы с помощью обоснования. Благодаря этим шагам Meteor достигает значительных улучшений в производительности визуально-языковых моделей на различных оценочных бенчмарках, требующих разнообразных возможностей, без увеличения размера модели или использования дополнительных визуальных кодировщиков и моделей компьютерного зрения.

ConvLLaVA: Иерархические основы в качестве визуального кодера для крупных мультимодальных моделей
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

May 24

ByChunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng

Модели с многомодальными данными большого разрешения (LMM) сталкиваются с проблемами избыточных визуальных токенов и квадратичной визуальной сложности. Существующие модели LMM большого разрешения решают проблему квадратичной сложности, но по-прежнему генерируют избыточные визуальные токены. Однако избыточность визуальных токенов является ключевой проблемой, поскольку она приводит к более значительным вычислениям. Для устранения этой проблемы мы предлагаем ConvLLaVA, который использует ConvNeXt, иерархическую основу, в качестве визуального кодера LMM для замены Vision Transformer (ViT). ConvLLaVA сжимает изображения большого разрешения в информационно насыщенные визуальные признаки, эффективно предотвращая генерацию избыточных визуальных токенов. Для улучшения возможностей ConvLLaVA мы предлагаем две ключевые оптимизации. Поскольку предварительно обученный ConvNeXt низкого разрешения показывает недостаточные результаты при прямом применении к изображениям высокого разрешения, мы обновляем его для устранения этой проблемы. Более того, поскольку исходное соотношение сжатия ConvNeXt недостаточно для входов гораздо более высокого разрешения, мы обучаем последующий этап для дальнейшего сжатия визуальных токенов, тем самым уменьшая избыточность. Эти оптимизации позволяют ConvLLaVA поддерживать входы разрешением 1536x1536, генерируя всего 576 визуальных токенов, способных обрабатывать изображения произвольных пропорций. Экспериментальные результаты показывают, что наш метод достигает конкурентоспособной производительности по сравнению с современными моделями на основных бенчмарках. Серия моделей ConvLLaVA доступна по адресу https://github.com/alibaba/conv-llava.

Грокнутые трансформеры являются неявными рассудителями: механистическое путешествие к грани обобщения
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

May 23

ByBoshi Wang, Xiang Yue, Yu Su, Huan Sun

Мы исследуем, могут ли трансформеры научиться неявному рассуждению над параметрическими знаниями, навык, с которым даже самые способные языковые модели борются. Сосредотачиваясь на двух представительных типах рассуждений, композиции и сравнения, мы последовательно обнаруживаем, что трансформеры могут научиться неявному рассуждению, но только через гроккинг, т.е. продолжительное обучение, далеко превышающее переобучение. Уровни обобщения также различаются в зависимости от типов рассуждений: столкнувшись с примерами вне распределения, трансформеры не могут систематически обобщать для композиции, но успешно делают это для сравнения. Мы погружаемся во внутренности модели на протяжении обучения, проводя аналитические эксперименты, которые раскрывают: 1) механизм гроккинга, такой как формирование обобщающей цепи и ее отношение к относительной эффективности обобщающих и запоминающих цепей, и 2) связь между систематичностью и конфигурацией обобщающей цепи. Наши результаты указывают на данные и настройку обучения для лучшего индукции неявного рассуждения и предлагают потенциальные улучшения архитектуры трансформера, такие как поощрение обмена знаниями между слоями. Более того, мы демонстрируем, что для сложной задачи рассуждения с большим пространством поиска GPT-4-Turbo и Gemini-1.5-Pro на основе непараметрической памяти плохо справляются независимо от стилей подсказок или дополнения поиска, в то время как полностью грокнутый трансформер может достичь почти идеальной точности, демонстрируя мощь параметрической памяти для сложного рассуждения.

Статья 23: Открытые весовые наборы для продвижения многоязычного прогресса
Aya 23: Open Weight Releases to Further Multilingual Progress

May 23

ByViraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker

Данный технический отчет представляет Aya 23, семейство мультиязычных языковых моделей. Aya 23 основана на недавнем выпуске модели Aya (Устюн и др., 2024), сосредотачиваясь на сочетании высокопроизводительной предварительно обученной модели с недавно выпущенной коллекцией Aya (Сингх и др., 2024). Результатом стало создание мощной мультиязычной крупной языковой модели, обслуживающей 23 языка, расширяя возможности языкового моделирования до приблизительно половины населения мира. Модель Aya охватывала 101 язык, в то время как Aya 23 является экспериментом в глубину против ширины, исследуя влияние выделения большего объема ресурсов для меньшего числа языков, включенных во время предварительного обучения. Aya 23 превосходит как предыдущие массово-мультиязычные модели, такие как Aya 101 для охваченных языков, так и широко используемые модели, такие как Gemma, Mistral и Mixtral, на широком спектре дискриминационных и генеративных задач. Мы публикуем открытые веса как для моделей 8B, так и для 35B в рамках нашего постоянного стремления расширить доступ к мультиязычному прогрессу.

Сложение ваших трансформеров: ближайший взгляд на рост модели для эффективного предварительного обучения LLM
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

May 24

ByWenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu

LLM-модели являются вычислительно затратными для предварительного обучения из-за их большого масштаба. Подход модельного роста возникает как многообещающий способ, используя более маленькие модели для ускорения обучения более крупных. Однако жизнеспособность этих методов модельного роста в эффективном предварительном обучении LLM остается недостаточно исследованной. В данной работе выделяются три критические препятствия: (O1) недостаток комплексной оценки, (O2) непроверенная жизнеспособность для масштабирования и (O3) отсутствие эмпирических рекомендаций. Для решения O1 мы обобщаем существующие подходы на четыре атомарных оператора роста и систематически оцениваем их в стандартизированной среде предварительного обучения LLM. Наши результаты показывают, что оператор стека по глубине, называемый G_{stack}, обеспечивает заметное ускорение обучения, что приводит к снижению потерь и улучшению общей производительности на восьми стандартных бенчмарках NLP по сравнению с сильными базовыми моделями. Вдохновленные этими обнадеживающими результатами, мы проводим обширные эксперименты для более глубокого изучения G_{stack} с целью решения O2 и O3. Для O2 (непроверенная масштабируемость) наше исследование показывает, что G_{stack} масштабируем и стабильно демонстрирует хорошие результаты, с экспериментами до 7B LLM после роста и предварительного обучения LLM с 750B токенов. Например, по сравнению с традиционно обученной моделью на 7B с использованием 300B токенов, наша модель G_{stack} сходится к тем же потерям с 194B токенами, что приводит к ускорению в 54.6\%. Мы также решаем O3 (отсутствие эмпирических рекомендаций), формализуя рекомендации для определения времени роста и коэффициента роста для G_{stack}, что делает его практичным в общем предварительном обучении LLM. Мы также предоставляем подробные обсуждения и обширные исследования абляции G_{stack}. Наш код и предварительно обученная модель доступны по ссылке https://llm-stacking.github.io/.

Менее запланированная дорога
The Road Less Scheduled

May 24

ByAaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky

Существующие графики скорости обучения, не требующие указания шага остановки оптимизации T, значительно уступают графикам скорости обучения, зависящим от T. Мы предлагаем подход, который избегает необходимости указания этого времени остановки, отказываясь от использования графиков вообще, при этом демонстрируя современную производительность по сравнению с графиками на широком спектре задач, начиная от выпуклых проблем до проблем глубокого обучения большого масштаба. Наш подход без графиков не вводит дополнительных гиперпараметров по сравнению с стандартными оптимизаторами с импульсом. Наш метод является прямым следствием новой теории, которую мы разрабатываем, объединяющей планирование и усреднение итераций. Open source реализация нашего метода доступна по ссылке (https://github.com/facebookresearch/schedule_free).

AutoCoder: Улучшение модели большого языка кода с помощью AIEV-Instruct
AutoCoder: Enhancing Code Large Language Model with AIEV-Instruct

May 23

ByBin Lei, Yuchen Li, Qiuwu Chen

Мы представляем AutoCoder, первую большую языковую модель, превзошедшую GPT-4 Turbo (апрель 2024 года) и GPT-4o в pass@1 по тесту бенчмарка Human Eval (90,9% против 90,2%). Кроме того, AutoCoder предлагает более гибкий интерпретатор кода по сравнению с GPT-4 Turbo и GPT-4o. Его интерпретатор кода может устанавливать внешние пакеты вместо ограничения встроенными пакетами. Обучающие данные AutoCoder представляют собой набор данных многовариантного диалога, созданный системой, объединяющей взаимодействие агента и верификацию выполнения внешнего кода, метод, который мы называем AIEV-Instruct (Настройка инструкций с взаимодействием агента и проверкой выполнения). По сравнению с предыдущими методами генерации крупномасштабных наборов данных кода, AIEV-Instruct уменьшает зависимость от собственных крупномасштабных моделей и предоставляет проверенный на выполнение набор данных кода. Код и демонстрационное видео доступны по ссылке https://github.com/bin123apple/AutoCoder.

CraftsMan: Генерация сетки высокой точности с 3D нативной генерацией и интерактивным улучшителем геометрии.
CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner

May 23

ByWeiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, Xiaoxiao Long

Мы представляем новую систему генеративного 3D-моделирования под названием CraftsMan, способную создавать трехмерные геометрические объекты высокого качества с разнообразными формами, регулярной сеткой и детализированными поверхностями, а также позволяющую интерактивно уточнять геометрию. Несмотря на значительные достижения в области 3D-генерации, существующие методы все еще сталкиваются с длительными процессами оптимизации, нерегулярными сетками, шумными поверхностями и сложностями в учете пользовательских правок, что затрудняет их широкое применение и внедрение в программное обеспечение для 3D-моделирования. Наша работа вдохновлена ремесленником, который обычно сначала грубо набрасывает общую форму работы, а затем разрабатывает детали поверхности. В частности, мы используем трехмерную диффузионную модель, которая работает в латентном пространстве, изученном на основе латентных наборов трехмерных представлений, для создания грубых геометрических объектов с регулярной сеткой за считанные секунды. Этот процесс принимает на вход текстовую подсказку или изображение-ссылку и использует мощную многозрительную (MV) диффузионную модель для генерации нескольких видов грубой геометрии, которые подаются на вход нашей MV-условной 3D-диффузионной модели для создания трехмерной геометрии, значительно повышая устойчивость и обобщаемость. Затем используется улучшитель геометрии на основе нормалей для значительного улучшения деталей поверхности. Это уточнение может быть выполнено автоматически или интерактивно с учетом правок, внесенных пользователем. Обширные эксперименты показывают, что наш метод обладает высокой эффективностью в создании трехмерных объектов высокого качества по сравнению с существующими методами. Домашняя страница: https://craftsman3d.github.io/, Код: https://github.com/wyysf-98/CraftsMan

Автоматическая куратория данных для обучения без учителя: подход на основе кластеризации
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

May 24

ByHuy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

Самообучаемые признаки являются основой современных систем машинного обучения. Обычно они предварительно обучаются на наборах данных, для создания и курирования которых требуется значительное человеческое усилие. Этот ручной процесс имеет некоторые ограничения, аналогичные тем, с которыми сталкиваются в обучении с учителем, например, выбор данных с привлечением широких масс требует затрат и времени, что затрудняет масштабирование размера набора данных. В данной работе мы рассматриваем проблему автоматического курирования высококачественных наборов данных для предварительного самообучения. Мы предполагаем, что такие наборы данных должны быть большими, разнообразными и сбалансированными, и предлагаем подход на основе кластеризации для построения тех, которые удовлетворяют всем этим критериям. Наш метод включает последовательное и иерархическое применение метода k-средних к большому и разнообразному репозиторию данных для получения кластеров, которые равномерно распределяются по концепциям данных, а затем иерархический этап сбалансированной выборки из этих кластеров. Обширные эксперименты на трех различных областях данных, включая изображения из веба, спутниковые изображения и текст, показывают, что признаки, обученные на наших автоматически курированных наборах данных, превосходят те, которые обучены на некурированных данных, сохраняя при этом уровень или превосходя те, которые обучены на ручно курированных данных.

iVideoGPT: Интерактивные VideoGPT - масштабируемые модели миров
iVideoGPT: Interactive VideoGPTs are Scalable World Models

May 24

ByJialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long

Мировые модели позволяют агентам, основанным на моделях, взаимодействовать, рассуждать и планировать в воображаемых окружениях для принятия решений в реальном мире. Однако высокий спрос на интерактивность создает вызовы в использовании недавних достижений в области видео-генеративных моделей для разработки мировых моделей в масштабе. В данной работе представлен Interactive VideoGPT (iVideoGPT), масштабируемая авторегрессионная трансформерная структура, интегрирующая мультимодальные сигналы - визуальные наблюдения, действия и вознаграждения - в последовательность токенов, обеспечивая интерактивный опыт агентов через предсказание следующего токена. iVideoGPT включает в себя новую технику компрессивной токенизации, которая эффективно дискретизирует высокоразмерные визуальные наблюдения. Используя его масштабируемую архитектуру, мы можем предварительно обучить iVideoGPT на миллионах траекторий человеческого и роботизированного манипулирования, создавая универсальное основание, которое адаптируется для использования в качестве интерактивных мировых моделей для широкого спектра последующих задач. Среди них - предсказание видео с учетом действий, визуальное планирование и обучение с подкреплением на основе моделей, где iVideoGPT достигает конкурентоспособной производительности по сравнению с современными методами. Наша работа способствует развитию интерактивных общих мировых моделей, сокращая разрыв между генеративными видео-моделями и практическими приложениями обучения с подкреплением на основе моделей.

Улучшение ЯМ: Расширение Границ Моделей Коррекции Ошибок для Распознавания Речи
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

May 24

ByZijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly

Языковые модели (LMs) давно используются для улучшения результатов систем автоматического распознавания речи (ASR), но они не знают ошибках, которые допускают системы ASR. Модели исправления ошибок предназначены для исправления ошибок ASR, однако они показали незначительное улучшение по сравнению с традиционными LMs в основном из-за отсутствия надзорных данных для обучения. В данной статье мы представляем Денойзинг LM (DLM), который является масштабной моделью исправления ошибок, обученной на огромных объемах синтетических данных, значительно превосходящих предыдущие попытки и в то же время достигающей нового state-of-the-art производительности ASR. Мы используем системы текст в речь (TTS) для синтеза аудио, которое подается на систему ASR для создания шумных гипотез, которые затем сопоставляются с оригинальными текстами для обучения DLM. DLM имеет несколько ключевых компонентов: (i) масштабная модель и данные; (ii) использование многоголосых систем TTS; (iii) комбинация нескольких стратегий увеличения шума; и (iv) новые техники декодирования. С помощью Transformer-CTC ASR, DLM достигает 1.5% словесной оценки ошибок (WER) на test-clean и 3.3% WER на test-other на Librispeech, которые, насколько нам известно, являются лучшими отчетными показателями в условиях, когда не используются внешние аудиоданные, и даже соответствуют методам самообучения, использующим внешние аудиоданные. Более того, один DLM применим к различным ASR и значительно превосходит производительность конвенционального LM на основе переоценки поиска лучшего пути. Эти результаты указывают на то, что правильно исследованные модели исправления ошибок имеют потенциал заменить традиционные LMs, имея ключ к новому уровню точности в системах ASR.

Эффективное смешивание данных: Бивариативный закон масштабирования для предварительного обучения языковой модели
Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

May 23

ByCe Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding

Большие языковые модели обладают исключительными способностями к обобщению, в основном благодаря использованию разнообразных источников данных. Однако традиционные практики интеграции этого разнообразного материала тесно связаны с эвристическими схемами, лишенными теоретического руководства. Настоящее исследование решает эти ограничения, исследуя стратегии на основе недорогих замен для смесей данных с целью оптимизации курирования данных для улучшения эффективности обучения. Конкретно, мы предлагаем единую закономерность масштабирования, названную BiMix, которая точно моделирует бивариантное поведение масштабирования как количества данных, так и пропорций смешивания. Мы проводим систематические эксперименты и предоставляем эмпирические доказательства предсказательной силы и фундаментальных принципов BiMix. Особенно наши результаты показывают, что смеси данных, основанные на энтропийном подходе и не требующие обучения, могут достичь сравнимой или даже лучшей производительности, чем более ресурсоемкие методы. Мы надеемся, что наши количественные исследования могут пролить свет на дальнейшие разумные исследования и разработки в области экономичного языкового моделирования.

HDR-GS: Эффективный синтез нового вида с высоким динамическим диапазоном со скоростью 1000 раз выше с использованием гауссовского сплетения
HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting

May 24

ByYuanhao Cai, Zihao Xiao, Yixun Liang, Yulun Zhang, Xiaokang Yang, Yaoyao Liu, Alan Yuille

Синтез нового вида с высоким динамическим диапазоном (HDR) направлен на создание фотореалистичных изображений с новых точек зрения с использованием техник HDR-изображений. Полученные изображения HDR захватывают более широкий диапазон уровней яркости, содержащий больше деталей сцены, чем обычные изображения с низким динамическим диапазоном (LDR). Существующие методы HDR синтеза нового вида в основном основаны на NeRF. Они страдают от длительного времени обучения и медленной скорости вывода. В данной статье мы предлагаем новую структуру, высокодинамическое гауссовское распыление (HDR-GS), которая может эффективно воссоздавать новые HDR виды и восстанавливать изображения LDR с учетом времени экспозиции пользователя. Конкретно, мы разрабатываем модель двойного динамического диапазона (DDR) гауссовских облаков точек, использующую сферические гармоники для соответствия цвета HDR и применяющую тоновый сопоставитель на основе MLP для воссоздания цвета LDR. Затем цвета HDR и LDR подаются на два параллельных дифференцируемых процесса растеризации (PDR) для восстановления HDR и LDR видов. Для установления базы данных для исследований методов синтеза нового вида на основе гауссовского распыления в HDR, мы перекалибруем параметры камеры и вычисляем начальные позиции для гауссовских облаков точек. Эксперименты показывают, что наш HDR-GS превосходит современный метод на основе NeRF на 3,84 и 1,91 дБ в LDR и HDR синтезе нового вида, обладая скоростью вывода в 1000 раз выше и требуя всего 6,3% времени обучения.

Сложение ваших трансформеров: ближайший взгляд на рост модели для эффективного предварительного обучения LLM
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

May 24

ByWenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu