Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение больших языковых моделей (LLM) представляет существенные проблемы с памятью, в основном из-за растущего размера весов и состояний оптимизатора. Общие подходы к сокращению памяти, такие как адаптация низкого ранга (LoRA), добавляют обучаемую матрицу низкого ранга к замороженным предварительно обученным весам в каждом слое, сокращая обучаемые параметры и состояния оптимизатора. Однако такие подходы обычно производят результаты ниже, чем обучение с весами полного ранга как на этапе предварительного обучения, так и на этапе донастройки, поскольку они ограничивают поиск параметров до низкорангового подпространства и изменяют динамику обучения, и, кроме того, могут потребовать начальной настройки с полным рангом. В данной работе мы предлагаем Градиентную Проекцию Низкого Ранга (GaLore), стратегию обучения, которая позволяет полное обучение параметров, но более эффективна с точки зрения использования памяти, чем общие методы адаптации низкого ранга, такие как LoRA. Наш подход снижает использование памяти на оптимизаторы до 65.5%, сохраняя при этом эффективность и производительность как для предварительного обучения на архитектурах LLaMA 1B и 7B с набором данных C4 объемом до 19.7B токенов, так и для донастройки RoBERTa на задачах GLUE. Наш 8-битный GaLore дополнительно снижает использование памяти оптимизатора до 82.5% и общую память обучения на 63.3%, по сравнению с базовым уровнем BF16. Следует отметить, что мы демонстрируем впервые возможность предварительного обучения модели 7B на потребительских GPU с 24 ГБ памяти (например, NVIDIA RTX 4090) без параллельного моделирования, стратегий контрольных точек или выгрузки.
В данной статье мы представляем SaulLM-7B, большую языковую модель (LLM), разработанную для юридической сферы. Обладая 7 миллиардами параметров, SaulLM-7B является первой LLM, специально созданной для понимания и генерации юридического текста. Используя архитектуру Mistral 7B в качестве основы, SaulLM-7B обучается на англоязычном юридическом корпусе более 30 миллиардов токенов. SaulLM-7B демонстрирует передовую профессиональную компетентность в понимании и обработке юридических документов. Кроме того, мы представляем новый метод инструктивного донастройки, который использует юридические наборы данных для дальнейшего улучшения производительности SaulLM-7B в юридических задачах. SaulLM-7B выпущена под лицензией CC-BY-SA-4.0.
По мере улучшения производительности больших языковых моделей (LLM) их размер значительно увеличился, и текущие LLM содержат миллиарды или даже триллионы параметров. Однако в данном исследовании мы обнаружили, что многие слои LLM проявляют высокую схожесть, и некоторые слои играют незначительную роль в функционировании сети. Исходя из этого наблюдения, мы определяем метрику, называемую Влияние Блока (BI), для оценки значимости каждого слоя в LLM. Затем мы предлагаем простой подход к обрезке: удаление слоя, при котором мы непосредственно удаляем избыточные слои в LLM на основе их оценок BI. Эксперименты показывают, что наш метод, который мы называем ShortGPT, значительно превосходит предыдущие методы состояния искусства (SOTA) в обрезке модели. Более того, ShortGPT ортогонален методам, подобным квантованию, что позволяет дополнительно уменьшить количество параметров и вычислений. Возможность достижения лучших результатов путем простого удаления слоев, в отличие от более сложных техник обрезки, указывает на высокую степень избыточности в архитектуре модели.
В данной статье мы представляем модель PixArt-\Sigma, Диффузионный Трансформер (DiT), способную напрямую генерировать изображения разрешением 4K. PixArt-\Sigma представляет собой значительное усовершенствование по сравнению с предшественником, PixArt-\alpha, предлагая изображения с заметно более высокой точностью и улучшенным соответствием текстовым подсказкам. Одной из ключевых особенностей PixArt-\Sigma является его эффективность обучения. Используя основное предварительное обучение PixArt-\alpha, он развивается от "слабой" базовой модели к "сильной" модели путем интеграции более качественных данных, процесс, который мы называем "обучение от слабого к сильному". Усовершенствования в PixArt-\Sigma двойные: (1) Обучающие данные высокого качества: PixArt-\Sigma включает в себя данные изображений высокого качества, сопровождаемые более точными и детальными подписями к изображениям. (2) Эффективное сжатие токенов: мы предлагаем новый модуль внимания в рамках фреймворка DiT, который сжимает как ключи, так и значения, значительно повышая эффективность и облегчая генерацию изображений с ультравысоким разрешением. Благодаря этим усовершенствованиям, PixArt-\Sigma достигает более высокого качества изображений и способности к соблюдению указаний пользователей с значительно меньшим размером модели (0,6 миллиарда параметров) по сравнению с существующими моделями диффузии текста в изображение, такими как SDXL (2,6 миллиарда параметров) и SD Cascade (5,1 миллиарда параметров). Более того, способность PixArt-\Sigma генерировать изображения 4K поддерживает создание постеров и обоев высокого разрешения, эффективно усиливая производство высококачественного визуального контента в отраслях кино и игр.
Мы предлагаем метод обучения нескольких крупных языковых моделей (LLM) сотрудничать, чередуя их генерации на уровне токенов. Мы моделируем решение о том, какая LLM генерирует следующий токен, как скрытую переменную. Оптимизируя предельное правдоподобие обучающего набора в рамках нашей модели скрытой переменной, базовая LLM автоматически учится, когда самой генерировать, а когда вызывать одну из "помощников" для генерации, все это без прямого надзора. Сотрудничество на уровне токенов во время декодирования позволяет объединить экспертизу каждой модели способом, наиболее подходящим для конкретной задачи. Наше совместное декодирование особенно полезно в междоменных сценариях, где базовая LLM-специалист обучается вызывать модели экспертов по доменам. На задачах следования инструкциям, вопросно-ответных задачах, и задачах рассуждения мы показываем, что производительность совместной системы превосходит производительность индивидуальных моделей. Через качественный анализ изученных скрытых решений мы показываем, что модели, обученные нашим методом, демонстрируют несколько интересных паттернов сотрудничества, например, заполнение шаблонов. Наш код доступен по ссылке https://github.com/clinicalml/co-llm.
Мы предлагаем метод Сильно Надзираемого предварительного обучения с использованием Скриншотов (S4) - новую парадигму предварительного обучения для Моделей Видение-Язык с использованием данных из масштабного рендеринга веб-скриншотов. Использование веб-скриншотов открывает сокровищницу визуальных и текстовых подсказок, которых нет при использовании пар изображение-текст. В S4 мы используем встроенную иерархию древовидной структуры элементов HTML и пространственную локализацию для тщательного разработки 10 предварительных задач с крупномасштабными аннотированными данными. Эти задачи напоминают задачи на следующем уровне в различных областях, и аннотации дешевы в получении. Мы демонстрируем, что по сравнению с текущими целями предварительного обучения на скриншотах, наш метод инновационного предварительного обучения значительно улучшает производительность модели изображение-текст в девяти разнообразных и популярных задачах на следующем уровне - до 76,1% улучшений в обнаружении таблиц и по крайней мере 1% в подписях виджетов.
Функции ценности являются центральным компонентом глубокого обучения с подкреплением (RL). Эти функции, параметризованные нейронными сетями, обучаются с использованием среднеквадратичной ошибки регрессии для соответствия бутстрапированным целевым значениям. Однако масштабирование методов RL на основе значений, использующих регрессию к большим сетям, таким как высокоемкие трансформеры, оказалось сложной задачей. Эта сложность находится в явном противоречии с обучением с учителем: используя потери классификации кросс-энтропии, методы обучения с учителем надежно масштабируются к массивным сетям. Наблюдая это расхождение, в данной статье мы исследуем, может ли масштабируемость глубокого RL также быть улучшена просто путем использования классификации вместо регрессии для обучения функций ценности. Мы демонстрируем, что функции ценности, обученные с использованием категориальной кросс-энтропии, значительно улучшают производительность и масштабируемость в различных областях. Среди них: однозадачное RL на играх Atari 2600 с использованием SoftMoEs, многозадачное RL на Atari с крупномасштабными ResNets, робототехническое манипулирование с Q-трансформерами, игра в шахматы без поиска и задача языкового агента Wordle с высокоемкими трансформерами, достигая передовых результатов в этих областях. Через тщательный анализ мы показываем, что преимущества категориальной кросс-энтропии в основном происходят от ее способности смягчать проблемы, присущие RL на основе значений, такие как шумные цели и нестационарность. В целом, мы утверждаем, что простое переключение на обучение функций ценности с использованием категориальной кросс-энтропии может привести к существенным улучшениям в масштабируемости глубокого RL при минимальных или отсутствующих затратах.
Моделирование последовательностей большого масштаба вызвало быстрый прогресс, который теперь распространяется на биологию и геномику. Однако моделирование геномных последовательностей вводит вызовы, такие как необходимость моделировать взаимодействия токенов на дальние расстояния, эффекты упстримовых и нисходящих регионов генома, а также обратную комплементарность (RC) ДНК. Здесь мы предлагаем архитектуру, мотивированную этими вызовами, которая основана на блоке Mamba для дальних взаимодействий и расширяет его до компонента BiMamba, поддерживающего двунаправленность, а также до блока MambaDNA, который дополнительно поддерживает RC эквивариантность. Мы используем MambaDNA в качестве основы Caduceus, первой семьи RC-эквивариантных двунаправленных моделей длинных ДНК-последовательностей, и представляем стратегии предварительного обучения и дообучения, которые приводят к созданию базовых моделей Caduceus DNA. Caduceus превосходит предыдущие модели длинных диапазонов на последующих бенчмарках; на сложной задаче предсказания эффектов вариантов на длинных расстояниях Caduceus превосходит производительность моделей в 10 раз больших, которые не используют двунаправленность или эквивариантность.
Имитационное обучение предоставляет эффективный способ обучать роботов ловким навыкам; однако, обучение сложных навыков надежно и обобщаемо обычно требует большого количества демонстраций человека. Для решения этой сложной проблемы мы представляем 3D Диффузионную Политику (DP3), новый подход к визуальному имитационному обучению, который интегрирует мощь 3D визуальных представлений в диффузионные политики, класс условных генеративных моделей действий. Основное концептуальное решение DP3 заключается в использовании компактного 3D визуального представления, извлеченного из разреженных облаков точек с помощью эффективного кодера точек. В наших экспериментах, включающих 72 симуляционных задачи, DP3 успешно справляется с большинством задач всего лишь с 10 демонстрациями и превосходит базовые показатели на 55,3% относительного улучшения. В 4 реальных задачах с роботом, DP3 демонстрирует точное управление с высоким процентом успешных попыток в 85%, имея всего лишь 40 демонстраций для каждой задачи, и проявляет отличные обобщающие способности в различных аспектах, включая пространство, точку зрения, внешний вид и экземпляр. Интересно, что в реальных экспериментах с роботом DP3 редко нарушает требования безопасности, в отличие от базовых методов, которые это часто делают, требуя вмешательства человека. Наше обширное оценивание подчеркивает критическое значение 3D представлений в обучении роботов в реальном мире. Видео, код и данные доступны на https://3d-diffusion-policy.github.io.
Многие онлайн-порталы контента позволяют пользователям задавать вопросы для дополнения своего понимания (например, лекций). В то время как системы информационного поиска (IR) могут предоставлять ответы на такие запросы пользователей, они не напрямую помогают создателям контента - таким как лекторы, желающие улучшить свой контент - идентифицировать сегменты, которые _привели_ пользователя к заданию этих вопросов. Мы представляем задачу обратного отслеживания, в рамках которой системы извлекают текстовый сегмент, который наиболее вероятно привел к запросу пользователя. Мы формализуем три области реального мира, для которых обратное отслеживание важно для улучшения предоставления контента и коммуникации: понимание причины (a) путаницы студентов в области Лекций, (b) любопытства читателя в области Новостей и (c) эмоций пользователя в области Бесед. Мы оцениваем нулевую производительность популярных методов информационного поиска и методов языкового моделирования, включая би-кодировщик, переоценку и методы на основе вероятности, а также ChatGPT. В то время как традиционные системы IR извлекают семантически связанную информацию (например, детали о "матрицах проекции" для запроса "приводит ли многократная проекция к одной и той же точке?"), они часто упускают контекст, имеющий причинно-следственную связь (например, лектор утверждает "двойная проекция дает мне тот же ответ, что и одна проекция"). Наши результаты показывают, что есть потенциал для улучшения обратного отслеживания, и это требует новых подходов к извлечению. Мы надеемся, что наш бенчмарк поможет улучшить будущие системы поиска для обратного отслеживания, порождая системы, которые совершенствуют генерацию контента и идентифицируют лингвистические триггеры, влияющие на запросы пользователей. Наш код и данные доступны по ссылке: https://github.com/rosewang2008/backtracing.