Ежедневно отобранные исследовательские статьи по ИИ с переводами
Данная работа представляет эффективный метод масштабирования моделей на основе трансформеров (LLM) для обработки входных данных бесконечной длины с ограниченным объемом памяти и вычислений. Ключевым компонентом в нашем предложенном подходе является новая техника внимания под названием Infini-attention. Infini-attention включает сжимающую память в обычный механизм внимания и включает как маскированное локальное внимание, так и механизмы долгосрочного линейного внимания в одном блоке трансформера. Мы демонстрируем эффективность нашего подхода на бенчмарках моделирования языка с длинным контекстом, задачах извлечения блока контекста длиной 1M символов и задачах суммирования книги длиной 500K символов с использованием моделей LLM объемом 1B и 8B. Наш подход вводит минимальные ограниченные параметры памяти и обеспечивает быструю потоковую инференцию для LLM.
Большие языковые модели (LLM) достигли выдающихся результатов, но их растущий запрос ресурсов стал серьезным препятствием для развития мощного и доступного сверхчеловеческого интеллекта. В данном отчете представлена JetMoE-8B, новая LLM, обученная менее чем за 0.1 миллиона долларов, используя 1.25T токенов из тщательно смешанных корпусов с открытым исходным кодом и 30,000 часов H100 GPU. Несмотря на свою низкую стоимость, JetMoE-8B демонстрирует впечатляющую производительность, превосходя модель Llama2-7B, а JetMoE-8B-Chat превосходит модель Llama2-13B-Chat. Эти результаты показывают, что обучение LLM может быть гораздо более экономичным, чем обычно считается. JetMoE-8B основана на эффективной архитектуре Разреженной смеси экспертов (SMoE), состоящей из экспертов внимания и прямого распространения. Обе слои активируются разреженно, что позволяет JetMoE-8B иметь 8B параметров, активируя только 2B для каждого входного токена, сокращая вычисления вывода примерно на 70% по сравнению с Llama2-7B. Более того, JetMoE-8B является открытой и дружественной к академическому сообществу, используя только общедоступные наборы данных и код обучения. Все параметры обучения и комбинации данных подробно описаны в данном отчете для облегчения будущих усилий в развитии открытых базовых моделей. Эта прозрачность направлена на поощрение сотрудничества и дальнейшего развития в области доступных и эффективных LLM. Веса модели доступны публично по ссылке https://github.com/myshell-ai/JetMoE.
Тест "иголка в стоге сена" (NIAH), который проверяет способность извлечь кусок информации («иголку») из длинных текстов-отвлекателей («стог сена»), был широко принят для оценки языковых моделей с длинным контекстом (LMs). Однако этот простой тест на основе извлечения информации указывает только на поверхностную форму понимания длинного контекста. Для более всесторонней оценки LM с длинным контекстом мы создали новый синтетический бенчмарк RULER с гибкими конфигурациями для настраиваемой длины последовательности и сложности задачи. RULER расширяет базовый тест NIAH, включая вариации с различными типами и количеством иголок. Более того, RULER вводит новые категории задач многократного отслеживания и агрегации для проверки поведения за пределами поиска из контекста. Мы оценили десять LM с длинным контекстом на 13 представительных задачах в RULER. Несмотря на почти идеальную точность в базовом тесте NIAH, все модели показывают значительное снижение производительности при увеличении длины контекста. Хотя все эти модели заявляют размер контекста в 32K токенов или более, только четыре модели (GPT-4, Command-R, Yi-34B и Mixtral) могут сохранить удовлетворительную производительность при длине 32K. Наш анализ Yi-34B, поддерживающей длину контекста 200K, показывает большой потенциал для улучшения при увеличении длины ввода и сложности задачи. Мы открыто предоставляем RULER для стимулирования всесторонней оценки LM с длинным контекстом.
Мы представляем RealmDreamer, технику генерации общих трехмерных сцен впереди с помощью текстовых описаний. Наша техника оптимизирует трехмерное представление гауссовского сплетения для соответствия сложным текстовым подсказкам. Мы инициализируем эти сплетения, используя передовые генераторы текста в изображение, преобразуя их образцы в трехмерное пространство и вычисляя объем заслонения. Затем мы оптимизируем это представление по нескольким видам как задачу трехмерного заполнения с помощью моделей диффузии, условием которых является изображение. Для изучения правильной геометрической структуры мы включаем модель диффузии глубины, условием которой являются образцы из модели заполнения, обеспечивая богатую геометрическую структуру. Наконец, мы донастраиваем модель, используя улучшенные образцы от генераторов изображений. Особенно стоит отметить, что наша техника не требует видео- или многовидовых данных и способна синтезировать разнообразные трехмерные сцены высокого качества в различных стилях, состоящие из нескольких объектов. Ее универсальность также позволяет синтезировать трехмерные изображения из одного изображения.
Мы анализируем, насколько хорошо предварительно обученные большие языковые модели (например, Llama2, GPT-4, Claude 3 и т. д.) могут выполнять линейную и нелинейную регрессию, когда им предоставляются примеры в контексте, без дополнительного обучения или обновлений градиента. Наши результаты показывают, что несколько крупных языковых моделей (например, GPT-4, Claude 3) способны выполнять задачи регрессии с производительностью, сопоставимой (или даже превосходящей) традиционные методы обучения с учителем, такие как Случайный лес, Бэггинг или Градиентный бустинг. Например, на сложном наборе данных для регрессии Friedman #2, Claude 3 превосходит многие методы обучения с учителем, такие как AdaBoost, SVM, Случайный лес, KNN или Градиентный бустинг. Затем мы исследуем, насколько хорошо производительность крупных языковых моделей масштабируется с увеличением числа примеров в контексте. Мы позаимствуем понятие потерь из онлайн-обучения и эмпирически показываем, что крупные языковые модели способны достигать сублинейных потерь.
Модели видео-языка (VLM) обычно состоят из визуального кодера, например, CLIP, и языковой модели (LM), которая интерпретирует закодированные признаки для решения последующих задач. Несмотря на значительный прогресс, VLM подвержены нескольким недостаткам из-за ограниченных возможностей визуальных кодеров, например, "слепоты" к определенным визуальным признакам, визуальной галлюцинации и т. д. Для решения этих проблем мы изучаем расширение визуальных возможностей кодирования VLM. Сначала мы всесторонне оцениваем несколько визуальных кодеров с различными индуктивными предвзятостями для решения задач VLM. Мы замечаем, что нет одной конфигурации кодирования, которая последовательно достигает лучших результатов по различным задачам, и кодеры с разными предвзятостями могут проявлять удивительно схожие результаты. Вдохновленные этим, мы представляем метод, названный BRAVE, который consолидирует признаки из нескольких замороженных кодеров в более универсальное представление, которое может быть непосредственно подано на вход замороженной LM. BRAVE достигает передовых результатов на широком спектре бенчмарков по подписям и VQA и значительно снижает вышеупомянутые проблемы VLM, требуя при этом меньшего количества обучаемых параметров, чем существующие методы, и имея более компактное представление. Наши результаты подчеркивают потенциал интеграции различных визуальных предвзятостей для более широкого и контекстуализированного визуального понимания VLM.
Растущий спрос на приложения виртуальной реальности подчеркнул важность создания захватывающих трехмерных ресурсов. Мы представляем конвейер генерации сцен 360^{circ} из текста, который облегчает создание всесторонних сцен 360^{circ} для среды "в дикой природе" всего за несколько минут. Наш подход использует генеративную мощь двумерной модели диффузии и оперативное самосовершенствование для создания высококачественного и глобально согласованного панорамного изображения. Это изображение действует как предварительное "плоское" (2D) представление сцены. Затем оно преобразуется в трехмерные гауссианы, используя техники сплэттинга для обеспечения возможности исследования в реальном времени. Для создания согласованной трехмерной геометрии наш конвейер строит пространственно согласованную структуру путем выравнивания двумерной монокулярной глубины в глобально оптимизированное облако точек. Это облако точек служит начальным состоянием для центроидов трехмерных гауссианов. Для решения проблем невидимых областей, присущих однозначным входам, мы накладываем семантические и геометрические ограничения как на синтезированные, так и на входные камерные виды в качестве регуляризаций. Эти ограничения направляют оптимизацию гауссианов, помогая в восстановлении невидимых областей. В заключение, наш метод предлагает глобально согласованную трехмерную сцену в перспективе 360^{circ}, обеспечивая улучшенный захватывающий опыт по сравнению с существующими техниками. Веб-сайт проекта: http://dreamscene360.github.io/
Эта работа исследует, можно ли адаптировать декодерные трансформеры, такие как LLaMA, которые изначально были разработаны для больших языковых моделей (LLM), к области компьютерного зрения. Сначала мы "LLaMAизируем" стандартный ViT пошагово, чтобы выровнять его с архитектурой LLaMA, и обнаруживаем, что прямое применение случайной маски к самовниманию вызывает проблему коллапса внимания, что приводит к сбою в обучении сети. Мы предлагаем переместить токен класса за токены изображения с помощью техники токена класса после последовательности, чтобы преодолеть этот вызов, обеспечивая эффективное захватывание всей информации об изображении с помощью причинного самовнимания. Кроме того, мы разрабатываем стратегию мягкой маски, которая постепенно вводит случайную маску в самовнимание в начале обучения, чтобы облегчить оптимизационное поведение. Адаптированная модель, названная моделью изображения LLaMA (iLLaMA), аналогична LLaMA по архитектуре и позволяет прямое обучение с учителем. Ее причинное самовнимание повышает вычислительную эффективность и изучает сложное представление, повышая ранги карт внимания. iLLaMA соперничает с производительностью своих моделей только с энкодером, достигая точности ImageNet top-1 в 75,1% с всего 5,7 миллионами параметров. Масштабирование модели до ~310 миллионов и предварительное обучение на ImageNet-21K дополнительно повышает точность до 86,0%. Обширные эксперименты демонстрируют надежные свойства iLLaMA: калибровку, предвзятость к форме и текстуре, совместимость с квантованием, сегментацию ADE20K и обучение на переносе CIFAR. Мы надеемся, что наше исследование может пробудить новые взгляды на проектирование визуальных моделей в эпоху LLM. Предварительно обученные модели и коды доступны здесь.
Существующие наборы данных для понимания звука в основном сосредоточены на однооборотных взаимодействиях (т.е. озвучивание подписей, ответы на вопросы по звуку) для описания звука естественным языком, что ограничивает понимание звука через интерактивный диалог. Для заполнения этого пробела мы представляем Audio Dialogues: набор данных многооборотного диалога, содержащий 163,8 тыс. примеров для общих звуков и музыки. Помимо диалогов, Audio Dialogues также содержит пары вопрос-ответ для понимания и сравнения нескольких входных аудио вместе. Audio Dialogues использует подход на основе подсказок и аннотации подписей из существующих наборов данных для создания многооборотных диалогов с использованием большой языковой модели (LLM). Мы оцениваем существующие аудио-дополненные большие языковые модели на нашем предложенном наборе данных, чтобы продемонстрировать сложность и применимость Audio Dialogues. Наш код для создания набора данных будет общедоступен. Подробные подсказки и созданные диалоги можно найти на демонстрационном веб-сайте https://audiodialogues.github.io/.
Недавний успех предварительно обученных моделей основы видео-языковых моделей делает возможным открыто-словарное сегментирование (OVS). Несмотря на многообещающую производительность, этот подход вводит значительные вычислительные нагрузки из-за двух проблем: 1) большие размеры модели основы; 2) дорогостоящие затраты во время донастройки. Эти проблемы мешают широкому применению и доступности этой стратегии OVS в реальных сценариях. Хотя традиционные методы, такие как сжатие модели и эффективная донастройка, могут решить эти проблемы, они часто полагаются на эвристику. Это означает, что их решения не могут быть легко перенесены и требуют повторного обучения на различных моделях, что связано с затратами. В контексте эффективного OVS мы стремимся достичь производительности, сравнимой или даже лучше, чем у предыдущих работ по OVS на основе крупных видео-языковых моделей основы, используя более компактные модели, которые обходятся дешевле в обучении. Основная стратегия заключается в том, чтобы сделать нашу эффективность обоснованной и, таким образом, легко переносимой из одной структуры OVS в другие без дополнительной настройки. Обширные эксперименты на разнообразных бенчмарках OVS демонстрируют наш превосходный баланс между точностью сегментации и вычислительными затратами по сравнению с предыдущими работами. Наш код доступен на https://github.com/Xujxyang/OpenTrans