Ежедневно отобранные исследовательские статьи по ИИ с переводами
Воспроизводимость и прозрачность больших языковых моделей крайне важны для продвижения открытого исследования, обеспечения надежности результатов и возможности изучения данных и модельных предвзятостей, а также потенциальных рисков. В этой связи мы выпускаем OpenELM, современную открытую языковую модель. OpenELM использует стратегию масштабирования слоев для эффективного распределения параметров в каждом слое модели трансформера, что приводит к улучшению точности. Например, при бюджете параметров около одного миллиарда параметров OpenELM показывает улучшение точности на 2,36% по сравнению с OLMo, требуя в 2 раза меньше токенов предварительного обучения. В отличие от предыдущих практик, предоставляющих только веса модели и код вывода, и предварительное обучение на частных наборах данных, наш выпуск включает полную структуру для обучения и оценки языковой модели на общедоступных наборах данных, включая журналы обучения, несколько контрольных точек и конфигурации предварительного обучения. Мы также предоставляем код для преобразования моделей в библиотеку MLX для вывода и настройки на устройствах Apple. Этот всесторонний выпуск направлен на поддержку и укрепление сообщества открытого исследования, прокладывая путь для будущих открытых исследовательских начинаний. Наш исходный код вместе с весами предварительно обученной модели и рецептами обучения доступен по адресу https://github.com/apple/corenet. Кроме того, модели можно найти на HuggingFace по ссылке: https://huggingface.co/apple/OpenELM.
Разреженные смеси экспертов (SMoE) увеличивают объем модели без значительного увеличения затрат на обучение и вывод, однако имеют две проблемы: (1) Низкая активация экспертов, когда для оптимизации активируется лишь небольшой поднабор экспертов. (2) Отсутствие тонкой аналитической способности для множества семантических концепций внутри отдельных токенов. Мы предлагаем Многоголовую Смесь Экспертов (MH-MoE), которая использует механизм с множеством головок для разделения каждого токена на несколько подтокенов. Эти подтокены затем назначаются и обрабатываются разнообразным набором экспертов параллельно, а затем без проблем интегрируются обратно в исходную форму токена. Механизм с множеством головок позволяет модели совместно обращаться к информации из различных пространств представлений в разных экспертах, что существенно улучшает активацию экспертов, углубляет понимание контекста и снижает переобучение. Более того, наш MH-MoE легко реализуется и разделяется от других методов оптимизации SMoE, что облегчает его интеграцию с другими моделями SMoE для улучшения производительности. Обширные экспериментальные результаты по трем задачам: моделирование языка на английском, многоязычное моделирование языка и задачи маскированной мультимодальности, демонстрируют эффективность MH-MoE.
Недавние успехи в масштабном синтезе речи без обучения значительно продвинулись благодаря языковым моделям и моделям диффузии. Однако процесс генерации обоих методов медленный и требует значительных вычислительных ресурсов. Эффективный синтез речи с использованием более низкого вычислительного бюджета для достижения качества на уровне предыдущих работ остается значительным вызовом. В данной статье мы представляем FlashSpeech, систему масштабного синтеза речи без обучения с использованием примерно 5\% времени вывода по сравнению с предыдущими работами. FlashSpeech основан на модели латентной согласованности и применяет новый подход обучения с использованием адверсариальной согласованности, который позволяет обучаться с нуля без необходимости предварительного обучения модели диффузии как учителя. Кроме того, новый модуль генератора просодии повышает разнообразие просодии, делая ритм речи звучащим более естественно. Процессы генерации FlashSpeech могут быть выполнены эффективно с одним или двумя шагами выборки, сохраняя высокое качество звука и высокую схожесть с аудио-подсказкой для генерации речи без обучения. Наши экспериментальные результаты демонстрируют превосходную производительность FlashSpeech. Следует отметить, что FlashSpeech может быть примерно в 20 раз быстрее других систем синтеза речи без обучения, сохраняя сопоставимую производительность в терминах качества голоса и схожести. Кроме того, FlashSpeech проявляет свою универсальность, эффективно выполняя задачи, такие как конвертация голоса, редактирование речи и разнообразная выборка речи. Аудиообразцы можно найти на https://flashspeech.github.io/.
Данный технический отчет представляет Pegasus-1, мультимодельную языковую модель, специализированную на понимании видеоконтента и взаимодействии с помощью естественного языка. Pegasus-1 разработана для решения уникальных задач, возникающих при работе с видеоданными, таких как интерпретация пространственно-временной информации, с целью предложить нюансированное понимание видеоконтента различной длительности. В данном техническом отчете представлен обзор архитектуры Pegasus-1, стратегий обучения и ее производительности на бенчмарках по видео-диалогам, ответам на вопросы по видео без обучения и видео-резюмированию. Мы также исследуем качественные характеристики Pegasus-1, демонстрируя ее возможности, а также ограничения, с целью предоставить читателям сбалансированное представление о ее текущем состоянии и будущем направлении.
Большие языковые модели (LLM) достигли значительного прогресса в обработке обширных контекстов, где ключево-значимый (KV) кэш играет важную роль в улучшении их производительности. Однако увеличение размера KV кэша в ответ на увеличение длины ввода создает вызовы для эффективности памяти и времени. Для решения этой проблемы в данной статье представлен SnapKV - инновационный подход, не требующий настройки, который эффективно минимизирует размер KV кэша, сохраняя при этом сопоставимую производительность в реальных приложениях. Мы обнаружили, что каждая голова внимания в модели последовательно фокусируется на конкретных особенностях внимания к подсказке во время генерации. В то же время этот устойчивый паттерн можно получить из `окна наблюдения', расположенного в конце подсказок. Основываясь на этом понимании, SnapKV автоматически сжимает KV кэши, выбирая кластеризованные важные позиции KV для каждой головы внимания. Наш подход значительно снижает растущие вычислительные накладные расходы и объем памяти при обработке длинных последовательностей ввода. Конкретно, SnapKV достигает стабильной скорости декодирования с увеличением скорости генерации в 3,6 раза и улучшением эффективности памяти в 8,2 раза по сравнению с базовым уровнем при обработке вводов из 16K токенов. В то же время он сохраняет сопоставимую производительность с базовыми моделями на 16 длинных последовательностях данных. Более того, SnapKV может обрабатывать до 380K токенов контекста на одном графическом процессоре A100-80GB с использованием реализации HuggingFace с незначительными изменениями, проявляя лишь незначительное падение точности в тесте "Игла в стоге сена". Дальнейшие всесторонние исследования указывают на потенциал SnapKV для практических приложений.
Модели диффузии (DMs) установили себя как передовой подход к генеративному моделированию визуальной области и за ее пределами. Одним из критических недостатков DMs является их медленная скорость выборки, основанная на множестве последовательных оценок функций через большие нейронные сети. Выборка из DMs может быть рассмотрена как решение дифференциального уравнения через дискретизированный набор уровней шума, известный как расписание выборки. В то время как прошлые работы в основном сосредотачивались на выводе эффективных решателей, мало внимания уделялось поиску оптимальных расписаний выборки, и вся литература опирается на ручные эвристики. В этой работе мы впервые предлагаем общий и принципиальный подход к оптимизации расписаний выборки DMs для получения высококачественных результатов, названный "Align Your Steps". Мы используем методы стохастического исчисления и находим оптимальные расписания, специфичные для различных решателей, обученных DMs и наборов данных. Мы оцениваем наш новаторский подход на нескольких бенчмарках синтеза изображений, видео, а также 2D игрушечных данных, используя различные сэмплеры, и замечаем, что наши оптимизированные расписания превосходят предыдущие ручные расписания практически во всех экспериментах. Наш метод демонстрирует неиспользованный потенциал оптимизации расписания выборки, особенно в режиме синтеза на небольшом числе шагов.
Множество существующих работ анализируют способности архитектуры трансформера, описывая ее репрезентативную способность с помощью формальных моделей вычислений. Однако до сих пор основное внимание уделялось анализу архитектуры с точки зрения приемлемости языка. Мы считаем, что это неподходящая проблема в изучении языковых моделей (ЯМ), которые по определению являются вероятностными распределениями над строками. В данной статье мы сосредотачиваемся на взаимосвязи между трансформерными ЯМ и ЯМ n-грамм, простым и исторически значимым классом языковых моделей. Мы показываем, что трансформерные ЯМ, использующие жесткие или разреженные механизмы внимания, могут точно представлять любую ЯМ n-грамм, давая нам конкретную нижнюю границу их вероятностной репрезентативной способности. Это является первым шагом к пониманию механизмов, которые трансформерные ЯМ могут использовать для представления вероятностных распределений над строками.