Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете мы представляем последнюю модель семейства Gemini, Gemini 1.5 Pro, высокоэффективную вычислительную мультимодальную модель смеси экспертов, способную извлекать и рассуждать о детализированной информации из миллионов токенов контекста, включая несколько длинных документов и часы видео и аудио. Gemini 1.5 Pro достигает почти идеального извлечения информации при выполнении задач извлечения долгого контекста в различных модальностях, улучшает существующие достижения в области QA на длинных документах, QA на длинных видео и ASR на длинном контексте, а также соответствует или превосходит современные достижения модели Gemini 1.0 Ultra по широкому набору показателей. Изучая пределы возможностей долгого контекста у Gemini 1.5 Pro, мы обнаруживаем продолжающееся улучшение в предсказании следующего токена и почти идеальное извлечение информации (>99%) до по меньшей мере 10 миллионов токенов, что представляет собой генерационный скачок по сравнению с существующими моделями, такими как Claude 2.1 (200 тыс.) и GPT-4 Turbo (128 тыс.). Наконец, мы выделяем удивительные новые возможности больших языковых моделей на передовом фронте; когда модели предоставляется грамматическое руководство по языку Каламанг, на котором говорят менее 200 человек по всему миру, она учится переводить с английского на Каламанг на уровне, сравнимом с человеком, который изучал материалы того же содержания.
Мы представляем DeepSeek-VL, открытую модель Vision-Language (VL), разработанную для приложений понимания реального мира через зрение и язык. Наш подход структурирован вокруг трех ключевых измерений: Мы стремимся обеспечить разнообразие, масштабируемость и широкое покрытие реальных сценариев, включая веб-скриншоты, PDF-файлы, OCR, диаграммы и контент на основе знаний, нацеленное на комплексное представление практических контекстов. Кроме того, мы создаем таксономию сценариев использования на основе реальных пользовательских ситуаций и соответствующим образом формируем набор данных для настройки инструкций. Тонкая настройка с использованием этого набора данных существенно улучшает пользовательский опыт модели в практических приложениях. Учитывая эффективность и требования большинства реальных сценариев, DeepSeek-VL включает гибридный визионный кодер, который эффективно обрабатывает изображения высокого разрешения (1024 x 1024), сохраняя при этом относительно низкую вычислительную нагрузку. Этот выбор дизайна обеспечивает способность модели улавливать критическую семантику и детальную информацию по различным визуальным задачам. Мы полагаем, что компетентная модель Vision-Language должна, прежде всего, обладать сильными языковыми способностями. Для обеспечения сохранения возможностей LLM во время предварительного обучения, мы исследуем эффективную стратегию предварительного обучения VL, интегрируя обучение LLM с самого начала и тщательно управляя конкурентной динамикой между визионной и языковой модальностями. Семейство DeepSeek-VL (модели 1.3B и 7B) демонстрирует превосходный пользовательский опыт в качестве чат-бота на основе визуального языка в реальных приложениях, достигая передовой или конкурентоспособной производительности по широкому спектру визуально-языковых бенчмарков при том же размере модели, сохраняя при этом надежную производительность на языково-центричных бенчмарках. Мы сделали обе модели 1.3B и 7B общедоступными для поощрения инноваций на основе этой фундаментальной модели.
Модели диффузии продемонстрировали выдающуюся производительность в области генерации текста в изображения. Однако большинство широко используемых моделей все еще используют CLIP в качестве своего текстового кодировщика, что ограничивает их способность понимать плотные подсказки, охватывающие несколько объектов, детальные атрибуты, сложные отношения, выравнивание длинных текстов и т. д. В данной статье мы представляем Эффективный Большой Адаптер Языковой Модели, обозначенный как ELLA, который оснащает модели диффузии текста в изображение мощными Большими Языковыми Моделями (LLM) для улучшения выравнивания текста без обучения как U-Net, так и LLM. Для плавного соединения двух предварительно обученных моделей мы исследуем ряд конструкций семантического соединителя и предлагаем новый модуль, Соединитель Семантики С Осознанием Времени (TSC), который динамически извлекает временно-зависимые условия из LLM. Наш подход адаптирует семантические признаки на различных этапах процесса устранения шума, помогая моделям диффузии интерпретировать длинные и сложные подсказки на протяжении временных отсчетов. Кроме того, ELLA может легко интегрироваться с моделями и инструментами сообщества для улучшения их способностей следовать за подсказками. Для оценки моделей текста в изображение при плотном следовании за подсказками мы представляем Бенчмарк Графа Плотных Подсказок (DPG-Bench), сложный бенчмарк, состоящий из 1K плотных подсказок. Обширные эксперименты демонстрируют превосходство ELLA в плотном следовании за подсказками по сравнению с современными методами, особенно в случае составления нескольких объектов, включающих разнообразные атрибуты и отношения.
В постоянно изменяющемся цифровом аудио-ландшафте Spotify, хорошо известный своим музыкальным и разговорным контентом, недавно представил аудиокниги своей огромной пользовательской базе. Хотя это обещает быть перспективным, такой шаг представляет существенные вызовы для персонализированных рекомендаций. В отличие от музыки и подкастов, аудиокниги, изначально доступные за плату, нельзя легко просмотреть перед покупкой, что создает более высокие ставки для актуальности рекомендаций. Кроме того, внедрение нового типа контента на существующую платформу сталкивается с крайне низкой плотностью данных, поскольку большинство пользователей не знакомы с этим новым типом контента. Наконец, рекомендация контента миллионам пользователей требует от модели быстрой реакции и масштабируемости. Для решения этих проблем мы используем предпочтения пользователей подкастов и музыки и представляем 2T-HGNN, масштабируемую систему рекомендаций, включающую в себя Графовые Нейронные Сети Гетерогенного Типа (HGNN) и модель Двух Башен (2T). Этот новаторский подход раскрывает тонкие отношения между элементами, обеспечивая при этом низкую задержку и сложность. Мы разделяем пользователей от графа HGNN и предлагаем инновационный мульти-сэмплер соседей. Эти выборы, вместе с компонентом 2T, значительно снижают сложность модели HGNN. Эмпирические оценки, включающие миллионы пользователей, показывают значительное улучшение качества персонализированных рекомендаций, что приводит к увеличению стартовой частоты новых аудиокниг на +46% и увеличению частоты потокового воспроизведения на +23%. Интригующим образом, влияние нашей модели распространяется за пределы аудиокниг, принося пользу уже установившимся продуктам, таким как подкасты.
Недавние достижения в системах генерации изображений по тексту в значительной степени обусловлены моделями диффузии. Однако одноэтапные модели диффузии из текста в изображение по-прежнему сталкиваются с проблемами в области вычислительной эффективности и улучшения деталей изображения. Для решения этой проблемы мы предлагаем CogView3, инновационную каскадную структуру, которая повышает производительность диффузии из текста в изображение. CogView3 является первой моделью, реализующей ретрансляцию диффузии в области генерации изображений по тексту, выполняя задачу путем создания сначала изображений низкого разрешения, а затем применения ретрансляционного суперразрешения. Этот метод не только приводит к конкурентоспособным результатам генерации изображений по тексту, но также значительно снижает как затраты на обучение, так и на вывод. Наши экспериментальные результаты показывают, что CogView3 превосходит SDXL, текущую передовую модель открытого исходного кода диффузии из текста в изображение, на 77,0\% по результатам оценки людей, при этом требуя всего примерно половины времени вывода. Упрощенный вариант CogView3 достигает сопоставимой производительности, используя всего 1/10 времени вывода по сравнению с SDXL.
Генеративные модели трехмерных изображений прямого распространения, такие как Большая Модель Восстановления (LRM), продемонстрировали исключительную скорость генерации. Однако методы на основе трансформеров не используют геометрические априорные знания о трехплоскостном компоненте в их архитектуре, что часто приводит к субоптимальному качеству из-за ограниченного размера трехмерных данных и медленного обучения. В данной работе мы представляем Модель Восстановления с использованием Сверток (CRM), высококачественную генеративную модель одного изображения в трех измерениях прямого распространения. Учитывая ограничения, накладываемые разреженными трехмерными данными, мы подчеркиваем необходимость интеграции геометрических априорных знаний в проектирование сети. CRM основана на ключевом наблюдении, что визуализация трехплоскости демонстрирует пространственное соответствие шести ортографических изображений. Сначала она генерирует шесть ортографических изображений из одного входного изображения, затем подает эти изображения на сверточную U-Net, используя ее сильные возможности выравнивания на уровне пикселей и значительную пропускную способность для создания высокоразрешенной трехплоскости. CRM также использует Flexicubes в качестве геометрического представления, облегчая прямую оптимизацию от начала до конца на текстурированных сетках. В целом, наша модель создает текстурированную сетку высокого качества из изображения всего за 10 секунд, без какой-либо оптимизации во время тестирования.
Модели диффузии текста в изображение (T2I) продемонстрировали беспрецедентные возможности в создании реалистичных и эстетических изображений. В отличие от этого, модели диффузии текста в видео (T2V) все еще значительно отстают по качеству кадра и выравниванию текста из-за недостаточного качества и количества обучающих видео. В данной статье мы представляем VideoElevator, метод без обучения и готовый к использованию, который повышает производительность T2V, используя превосходные возможности T2I. В отличие от традиционной выборки T2V (т.е. временного и пространственного моделирования), VideoElevator явно декомпозирует каждый шаг выборки на улучшение временного движения и повышение качества пространства. Конкретно, улучшение временного движения использует инкапсулированный T2V для улучшения временной согласованности, за которым следует инвертирование в распределение шума, необходимое для T2I. Затем повышение качества пространства использует раздутый T2I для прямого прогнозирования менее шумного латентного состояния, добавляя более фотореалистичные детали. Мы провели эксперименты на обширных запросах при сочетании различных T2V и T2I. Результаты показывают, что VideoElevator не только улучшает производительность базовых T2V с основным T2I, но также облегчает стилистическую синтез видео с персонализированным T2I. Наш код доступен по адресу https://github.com/YBYBZhang/VideoElevator.