HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

Не оставляйте контекст без внимания: эффективные трансформеры с бесконечным контекстом с бесконечным вниманием.
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Apr 10

ByTsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal

111

Данная работа представляет эффективный метод масштабирования моделей на основе трансформеров (LLM) для обработки входных данных бесконечной длины с ограниченным объемом памяти и вычислений. Ключевым компонентом в нашем предложенном подходе является новая техника внимания под названием Infini-attention. Infini-attention включает сжимающую память в обычный механизм внимания и включает как маскированное локальное внимание, так и механизмы долгосрочного линейного внимания в одном блоке трансформера. Мы демонстрируем эффективность нашего подхода на бенчмарках моделирования языка с длинным контекстом, задачах извлечения блока контекста длиной 1M символов и задачах суммирования книги длиной 500K символов с использованием моделей LLM объемом 1B и 8B. Наш подход вводит минимальные ограниченные параметры памяти и обеспечивает быструю потоковую инференцию для LLM.

JetMoE: Достижение производительности Llama2 за 0.1 миллиона долларов
JetMoE: Reaching Llama2 Performance with 0.1M Dollars

Apr 11

ByYikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin

Большие языковые модели (LLM) достигли выдающихся результатов, но их растущий запрос ресурсов стал серьезным препятствием для развития мощного и доступного сверхчеловеческого интеллекта. В данном отчете представлена JetMoE-8B, новая LLM, обученная менее чем за 0.1 миллиона долларов, используя 1.25T токенов из тщательно смешанных корпусов с открытым исходным кодом и 30,000 часов H100 GPU. Несмотря на свою низкую стоимость, JetMoE-8B демонстрирует впечатляющую производительность, превосходя модель Llama2-7B, а JetMoE-8B-Chat превосходит модель Llama2-13B-Chat. Эти результаты показывают, что обучение LLM может быть гораздо более экономичным, чем обычно считается. JetMoE-8B основана на эффективной архитектуре Разреженной смеси экспертов (SMoE), состоящей из экспертов внимания и прямого распространения. Обе слои активируются разреженно, что позволяет JetMoE-8B иметь 8B параметров, активируя только 2B для каждого входного токена, сокращая вычисления вывода примерно на 70% по сравнению с Llama2-7B. Более того, JetMoE-8B является открытой и дружественной к академическому сообществу, используя только общедоступные наборы данных и код обучения. Все параметры обучения и комбинации данных подробно описаны в данном отчете для облегчения будущих усилий в развитии открытых базовых моделей. Эта прозрачность направлена на поощрение сотрудничества и дальнейшего развития в области доступных и эффективных LLM. Веса модели доступны публично по ссылке https://github.com/myshell-ai/JetMoE.

RULER: Каков Реальный Размер Контекста Ваших Языковых Моделей с Длинным Контекстом?
RULER: What's the Real Context Size of Your Long-Context Language Models?

Apr 9

ByCheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg

Тест "иголка в стоге сена" (NIAH), который проверяет способность извлечь кусок информации («иголку») из длинных текстов-отвлекателей («стог сена»), был широко принят для оценки языковых моделей с длинным контекстом (LMs). Однако этот простой тест на основе извлечения информации указывает только на поверхностную форму понимания длинного контекста. Для более всесторонней оценки LM с длинным контекстом мы создали новый синтетический бенчмарк RULER с гибкими конфигурациями для настраиваемой длины последовательности и сложности задачи. RULER расширяет базовый тест NIAH, включая вариации с различными типами и количеством иголок. Более того, RULER вводит новые категории задач многократного отслеживания и агрегации для проверки поведения за пределами поиска из контекста. Мы оценили десять LM с длинным контекстом на 13 представительных задачах в RULER. Несмотря на почти идеальную точность в базовом тесте NIAH, все модели показывают значительное снижение производительности при увеличении длины контекста. Хотя все эти модели заявляют размер контекста в 32K токенов или более, только четыре модели (GPT-4, Command-R, Yi-34B и Mixtral) могут сохранить удовлетворительную производительность при длине 32K. Наш анализ Yi-34B, поддерживающей длину контекста 200K, показывает большой потенциал для улучшения при увеличении длины ввода и сложности задачи. Мы открыто предоставляем RULER для стимулирования всесторонней оценки LM с длинным контекстом.

RealmDreamer: Генерация трехмерных сцен на основе текста с восстановлением и диффузией глубины
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

Apr 10

ByJaidev Shriram, Alex Trevithick, Lingjie Liu, Ravi Ramamoorthi

Мы представляем RealmDreamer, технику генерации общих трехмерных сцен впереди с помощью текстовых описаний. Наша техника оптимизирует трехмерное представление гауссовского сплетения для соответствия сложным текстовым подсказкам. Мы инициализируем эти сплетения, используя передовые генераторы текста в изображение, преобразуя их образцы в трехмерное пространство и вычисляя объем заслонения. Затем мы оптимизируем это представление по нескольким видам как задачу трехмерного заполнения с помощью моделей диффузии, условием которых является изображение. Для изучения правильной геометрической структуры мы включаем модель диффузии глубины, условием которой являются образцы из модели заполнения, обеспечивая богатую геометрическую структуру. Наконец, мы донастраиваем модель, используя улучшенные образцы от генераторов изображений. Особенно стоит отметить, что наша техника не требует видео- или многовидовых данных и способна синтезировать разнообразные трехмерные сцены высокого качества в различных стилях, состоящие из нескольких объектов. Ее универсальность также позволяет синтезировать трехмерные изображения из одного изображения.

От слов к числам: ваш крупный языковая модель тайно является способным регрессором, когда предоставляются примеры в контексте.
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples

Apr 11

ByRobert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu

Мы анализируем, насколько хорошо предварительно обученные большие языковые модели (например, Llama2, GPT-4, Claude 3 и т. д.) могут выполнять линейную и нелинейную регрессию, когда им предоставляются примеры в контексте, без дополнительного обучения или обновлений градиента. Наши результаты показывают, что несколько крупных языковых моделей (например, GPT-4, Claude 3) способны выполнять задачи регрессии с производительностью, сопоставимой (или даже превосходящей) традиционные методы обучения с учителем, такие как Случайный лес, Бэггинг или Градиентный бустинг. Например, на сложном наборе данных для регрессии Friedman #2, Claude 3 превосходит многие методы обучения с учителем, такие как AdaBoost, SVM, Случайный лес, KNN или Градиентный бустинг. Затем мы исследуем, насколько хорошо производительность крупных языковых моделей масштабируется с увеличением числа примеров в контексте. Мы позаимствуем понятие потерь из онлайн-обучения и эмпирически показываем, что крупные языковые модели способны достигать сублинейных потерь.

BRAVE: Расширение визуального кодирования моделей, объединяющих зрение и язык
BRAVE: Broadening the visual encoding of vision-language models

Apr 10

ByOğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari

Модели видео-языка (VLM) обычно состоят из визуального кодера, например, CLIP, и языковой модели (LM), которая интерпретирует закодированные признаки для решения последующих задач. Несмотря на значительный прогресс, VLM подвержены нескольким недостаткам из-за ограниченных возможностей визуальных кодеров, например, "слепоты" к определенным визуальным признакам, визуальной галлюцинации и т. д. Для решения этих проблем мы изучаем расширение визуальных возможностей кодирования VLM. Сначала мы всесторонне оцениваем несколько визуальных кодеров с различными индуктивными предвзятостями для решения задач VLM. Мы замечаем, что нет одной конфигурации кодирования, которая последовательно достигает лучших результатов по различным задачам, и кодеры с разными предвзятостями могут проявлять удивительно схожие результаты. Вдохновленные этим, мы представляем метод, названный BRAVE, который consолидирует признаки из нескольких замороженных кодеров в более универсальное представление, которое может быть непосредственно подано на вход замороженной LM. BRAVE достигает передовых результатов на широком спектре бенчмарков по подписям и VQA и значительно снижает вышеупомянутые проблемы VLM, требуя при этом меньшего количества обучаемых параметров, чем существующие методы, и имея более компактное представление. Наши результаты подчеркивают потенциал интеграции различных визуальных предвзятостей для более широкого и контекстуализированного визуального понимания VLM.

DreamScene360: Неограниченная генерация трехмерных сцен из текста с помощью панорамного гауссовского сплетения.
DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting

Apr 10

ByShijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi

Растущий спрос на приложения виртуальной реальности подчеркнул важность создания захватывающих трехмерных ресурсов. Мы представляем конвейер генерации сцен 360^{circ} из текста, который облегчает создание всесторонних сцен 360^{circ} для среды "в дикой природе" всего за несколько минут. Наш подход использует генеративную мощь двумерной модели диффузии и оперативное самосовершенствование для создания высококачественного и глобально согласованного панорамного изображения. Это изображение действует как предварительное "плоское" (2D) представление сцены. Затем оно преобразуется в трехмерные гауссианы, используя техники сплэттинга для обеспечения возможности исследования в реальном времени. Для создания согласованной трехмерной геометрии наш конвейер строит пространственно согласованную структуру путем выравнивания двумерной монокулярной глубины в глобально оптимизированное облако точек. Это облако точек служит начальным состоянием для центроидов трехмерных гауссианов. Для решения проблем невидимых областей, присущих однозначным входам, мы накладываем семантические и геометрические ограничения как на синтезированные, так и на входные камерные виды в качестве регуляризаций. Эти ограничения направляют оптимизацию гауссианов, помогая в восстановлении невидимых областей. В заключение, наш метод предлагает глобально согласованную трехмерную сцену в перспективе 360^{circ}, обеспечивая улучшенный захватывающий опыт по сравнению с существующими техниками. Веб-сайт проекта: http://dreamscene360.github.io/

Адаптация декодера LLaMA для Vision Transformer.
Adapting LLaMA Decoder to Vision Transformer

Apr 10

ByJiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo

Эта работа исследует, можно ли адаптировать декодерные трансформеры, такие как LLaMA, которые изначально были разработаны для больших языковых моделей (LLM), к области компьютерного зрения. Сначала мы "LLaMAизируем" стандартный ViT пошагово, чтобы выровнять его с архитектурой LLaMA, и обнаруживаем, что прямое применение случайной маски к самовниманию вызывает проблему коллапса внимания, что приводит к сбою в обучении сети. Мы предлагаем переместить токен класса за токены изображения с помощью техники токена класса после последовательности, чтобы преодолеть этот вызов, обеспечивая эффективное захватывание всей информации об изображении с помощью причинного самовнимания. Кроме того, мы разрабатываем стратегию мягкой маски, которая постепенно вводит случайную маску в самовнимание в начале обучения, чтобы облегчить оптимизационное поведение. Адаптированная модель, названная моделью изображения LLaMA (iLLaMA), аналогична LLaMA по архитектуре и позволяет прямое обучение с учителем. Ее причинное самовнимание повышает вычислительную эффективность и изучает сложное представление, повышая ранги карт внимания. iLLaMA соперничает с производительностью своих моделей только с энкодером, достигая точности ImageNet top-1 в 75,1% с всего 5,7 миллионами параметров. Масштабирование модели до ~310 миллионов и предварительное обучение на ImageNet-21K дополнительно повышает точность до 86,0%. Обширные эксперименты демонстрируют надежные свойства iLLaMA: калибровку, предвзятость к форме и текстуре, совместимость с квантованием, сегментацию ADE20K и обучение на переносе CIFAR. Мы надеемся, что наше исследование может пробудить новые взгляды на проектирование визуальных моделей в эпоху LLM. Предварительно обученные модели и коды доступны здесь.

Аудио диалоги: набор данных диалогов для понимания аудио и музыки
Audio Dialogues: Dialogues dataset for audio and music understanding

Apr 11

ByArushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro

Существующие наборы данных для понимания звука в основном сосредоточены на однооборотных взаимодействиях (т.е. озвучивание подписей, ответы на вопросы по звуку) для описания звука естественным языком, что ограничивает понимание звука через интерактивный диалог. Для заполнения этого пробела мы представляем Audio Dialogues: набор данных многооборотного диалога, содержащий 163,8 тыс. примеров для общих звуков и музыки. Помимо диалогов, Audio Dialogues также содержит пары вопрос-ответ для понимания и сравнения нескольких входных аудио вместе. Audio Dialogues использует подход на основе подсказок и аннотации подписей из существующих наборов данных для создания многооборотных диалогов с использованием большой языковой модели (LLM). Мы оцениваем существующие аудио-дополненные большие языковые модели на нашем предложенном наборе данных, чтобы продемонстрировать сложность и применимость Audio Dialogues. Наш код для создания набора данных будет общедоступен. Подробные подсказки и созданные диалоги можно найти на демонстрационном веб-сайте https://audiodialogues.github.io/.

Переносимая и принципиальная эффективность для сегментации с открытым словарем.
Transferable and Principled Efficiency for Open-Vocabulary Segmentation

Apr 11

ByJingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei

Недавний успех предварительно обученных моделей основы видео-языковых моделей делает возможным открыто-словарное сегментирование (OVS). Несмотря на многообещающую производительность, этот подход вводит значительные вычислительные нагрузки из-за двух проблем: 1) большие размеры модели основы; 2) дорогостоящие затраты во время донастройки. Эти проблемы мешают широкому применению и доступности этой стратегии OVS в реальных сценариях. Хотя традиционные методы, такие как сжатие модели и эффективная донастройка, могут решить эти проблемы, они часто полагаются на эвристику. Это означает, что их решения не могут быть легко перенесены и требуют повторного обучения на различных моделях, что связано с затратами. В контексте эффективного OVS мы стремимся достичь производительности, сравнимой или даже лучше, чем у предыдущих работ по OVS на основе крупных видео-языковых моделей основы, используя более компактные модели, которые обходятся дешевле в обучении. Основная стратегия заключается в том, чтобы сделать нашу эффективность обоснованной и, таким образом, легко переносимой из одной структуры OVS в другие без дополнительной настройки. Обширные эксперименты на разнообразных бенчмарках OVS демонстрируют наш превосходный баланс между точностью сегментации и вычислительными затратами по сравнению с предыдущими работами. Наш код доступен на https://github.com/Xujxyang/OpenTrans

Адаптация декодера LLaMA для Vision Transformer.
Adapting LLaMA Decoder to Vision Transformer

Apr 10

ByJiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo