Ежедневно отобранные исследовательские статьи по ИИ с переводами
Быстрое развитие открытых крупных языковых моделей (LLM) действительно впечатляет. Однако законы масштабирования, описанные в предыдущих исследованиях, приводят к различным выводам, что создает неопределенность в отношении масштабирования LLM. Мы углубляемся в изучение законов масштабирования и представляем наши уникальные результаты, которые способствуют масштабированию крупных моделей в двух широко используемых открытых конфигурациях — 7B и 67B. Руководствуясь законами масштабирования, мы представляем проект DeepSeek LLM, посвященный развитию открытых языковых моделей с долгосрочной перспективой. Для поддержки этапа предварительного обучения мы разработали набор данных, который в настоящее время состоит из 2 триллионов токенов и продолжает расширяться. Мы также проводим контролируемую тонкую настройку (SFT) и оптимизацию прямых предпочтений (DPO) на базовых моделях DeepSeek LLM, что приводит к созданию моделей DeepSeek Chat. Результаты нашей оценки показывают, что DeepSeek LLM 67B превосходит LLaMA-2 70B на различных тестах, особенно в областях кода, математики и логического мышления. Кроме того, открытые оценки демонстрируют, что DeepSeek LLM 67B Chat показывает более высокую производительность по сравнению с GPT-3.5.
Достижения в области понимания визуально насыщенных документов (Visually Rich Document Understanding, VrDU) позволили осуществлять извлечение информации и ответы на вопросы по документам со сложной структурой. Появились два основных типа архитектур — модели на основе трансформеров, вдохновленные крупными языковыми моделями (LLM), и графовые нейронные сети. В данной статье мы представляем DocGraphLM — новый фреймворк, который объединяет предобученные языковые модели с графовой семантикой. Для этого мы предлагаем 1) совместную архитектуру кодировщика для представления документов и 2) новый подход к предсказанию связей для восстановления графов документов. DocGraphLM предсказывает как направления, так и расстояния между узлами, используя совместную функцию потерь, которая фокусируется на восстановлении соседних узлов и снижает значимость обнаружения удаленных узлов. Наши эксперименты на трех современных наборах данных демонстрируют устойчивое улучшение в задачах извлечения информации и ответов на вопросы при использовании графовых признаков. Более того, мы отмечаем, что применение графовых признаков ускоряет сходимость в процессе обучения, несмотря на то, что они строятся исключительно через предсказание связей.
Мы исследуем тонкую, но значительную проблему, присущую Vision Transformers (ViTs): карты признаков этих моделей демонстрируют сетчатые артефакты, которые негативно сказываются на производительности ViTs в последующих задачах. Наши исследования связывают эту фундаментальную проблему с позиционными эмбеддингами на входном этапе. Для её решения мы предлагаем новую модель шума, которая универсально применима ко всем ViTs. В частности, модель шума разделяет выходы ViT на три компонента: семантический термин, свободный от шумовых артефактов, и два термина, связанных с артефактами, которые зависят от координат пикселей. Такая декомпозиция достигается за счёт обеспечения кросс-видовой согласованности признаков с использованием нейронных полей на основе каждого изображения. Этот процесс оптимизации для каждого изображения извлекает чистые признаки из необработанных выходов ViT, предоставляя очищенные признаки для оффлайн-приложений. Расширяя область применения нашего решения для поддержки онлайн-функциональности, мы вводим обучаемый денойзер, который предсказывает артефакт-свободные признаки непосредственно из необработанных выходов ViT, демонстрируя замечательные способности к обобщению на новых данных без необходимости оптимизации для каждого изображения. Наш двухэтапный подход, названный Denoising Vision Transformers (DVT), не требует переобучения существующих предварительно обученных ViTs и может быть немедленно применён к любой архитектуре на основе Transformers. Мы оцениваем наш метод на различных представительных ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Обширные оценки показывают, что наш DVT последовательно и значительно улучшает существующие передовые модели общего назначения в семантических и геометрических задачах на множестве наборов данных (например, +3.84 mIoU). Мы надеемся, что наше исследование побудит к пересмотру дизайна ViT, особенно в отношении наивного использования позиционных эмбеддингов.
Stable Diffusion XL (SDXL) стал лучшей открытой моделью для преобразования текста в изображение (T2I) благодаря своей универсальности и превосходному качеству изображений. Эффективное решение вычислительных требований моделей SDXL имеет решающее значение для их более широкого распространения и применимости. В данной работе мы представляем два уменьшенных варианта — Segmind Stable Diffusion (SSD-1B) и Segmind-Vega, с U-Net, содержащими 1,3 млрд и 0,74 млрд параметров соответственно, достигнутые за счет прогрессивного удаления слоев с использованием потерь на уровне слоев, направленных на уменьшение размера модели при сохранении качества генерации. Мы публикуем веса этих моделей по адресу https://hf.co/Segmind. Наша методология включает удаление остаточных сетей и трансформерных блоков из структуры U-Net SDXL, что приводит к значительному сокращению параметров и задержек. Наши компактные модели эффективно имитируют оригинальный SDXL, используя перенесенные знания, и достигают конкурентоспособных результатов по сравнению с более крупными многомиллиардными моделями SDXL. Наша работа подчеркивает эффективность дистилляции знаний в сочетании с потерями на уровне слоев для уменьшения размера модели при сохранении высококачественных генеративных возможностей SDXL, что способствует более доступному развертыванию в условиях ограниченных ресурсов.
Модели CLIP и Segment Anything Model (SAM) являются выдающимися базовыми моделями компьютерного зрения (VFMs). SAM превосходно справляется с задачами сегментации в различных областях, в то время как CLIP известна своими возможностями распознавания без предварительного обучения (zero-shot). В данной статье представлено глубокое исследование интеграции этих двух моделей в единую структуру. В частности, мы представляем Open-Vocabulary SAM — модель, вдохновлённую SAM, предназначенную для одновременной интерактивной сегментации и распознавания, использующую два уникальных модуля передачи знаний: SAM2CLIP и CLIP2SAM. Первый адаптирует знания SAM в CLIP с помощью дистилляции и обучаемых трансформерных адаптеров, а второй передаёт знания CLIP в SAM, улучшая её способности к распознаванию. Многочисленные эксперименты на различных наборах данных и детекторах демонстрируют эффективность Open-Vocabulary SAM как в задачах сегментации, так и в задачах распознавания, значительно превосходя наивные базовые подходы, основанные на простом объединении SAM и CLIP. Более того, с использованием обучения на данных классификации изображений наш метод способен сегментировать и распознавать приблизительно 22 000 классов.
В последние годы генерация речи достигла значительного прогресса, теперь обеспечивая возможность однократной генерации, которая зачастую практически неотличима от реального человеческого голоса. Интеграция таких достижений в генерацию речи с крупными языковыми моделями может революционизировать широкий спектр приложений. Однако для некоторых задач, таких как вспомогательные диалоговые системы, требуются естественные и разговорные инструменты генерации речи, которые также эффективно работают в реальном времени. Современные модели, такие как VALL-E и SoundStorm, основанные на иерархических нейронных аудиокодеках, требуют крупных нейронных компонентов и обширных данных для обучения, чтобы работать хорошо. В отличие от них, MQTTS стремится создавать более компактные модели для разговорного синтеза речи, используя данные разговорной речи меньшего масштаба. Однако их авторегрессивная природа приводит к высокой задержке при выводе, что ограничивает их использование в реальном времени. Чтобы смягчить текущие ограничения современных моделей синтеза речи, сохраняя их преимущества, в данной работе мы представляем серию моделей Pheme, которые 1) предлагают компактные, но высокопроизводительные модели, 2) позволяют параллельно генерировать речь, 3) обеспечивают естественную разговорную речь и 4) могут эффективно обучаться на данных разговорной речи меньшего масштаба, сокращая потребность в данных более чем в 10 раз, но при этом соответствуя качеству авторегрессивных моделей синтеза речи. Мы также показываем, что с помощью простого метода дистилляции "учитель-ученик" можно добиться значительного улучшения качества голоса для одноговорящих конфигураций на основе предобученных моделей Pheme, полагаясь исключительно на синтетическую речь, сгенерированную гораздо более крупными моделями-учителями. Аудиообразцы и предобученные модели доступны онлайн.