Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели диффузии для генерации изображений по тексту достигли значительного прогресса за последние несколько лет, обеспечивая создание высококачественных и разнообразных изображений на основе текстовых запросов. Однако даже самые передовые модели часто испытывают трудности с точным выполнением всех указаний в запросах. Подавляющее большинство этих моделей обучается на наборах данных, состоящих из пар (изображение, подпись), где изображения часто берутся из интернета, а подписи представляют собой их альтернативный HTML-текст. Ярким примером является набор данных LAION, используемый в Stable Diffusion и других моделях. В данной работе мы отмечаем, что такие подписи часто имеют низкое качество, и утверждаем, что это существенно влияет на способность модели понимать тонкую семантику текстовых запросов. Мы показываем, что перемаркировка корпуса с помощью специализированной модели автоматического создания подписей и обучение модели генерации изображений по тексту на перемаркированном наборе данных значительно улучшают её показатели. Во-первых, в общем качестве изображений: например, FID 14,84 против базового значения 17,87 и улучшение на 64,3% в точности генерации изображений по оценке людей. Во-вторых, в семантическом соответствии: например, точность распознавания объектов 84,34 против 78,90, ошибки в подсчёте объектов 1,32 против 1,44 и точность позиционного соответствия 62,42 против 57,60. Мы анализируем различные способы перемаркировки корпуса и предоставляем доказательства того, что этот метод, который мы называем RECAP, как уменьшает расхождение между обучением и выводом, так и предоставляет модели больше информации на каждый пример, повышая эффективность использования данных и позволяя модели лучше понимать взаимосвязи между подписями и изображениями.
Мы собираем набор данных изображений, лицензированных по Creative Commons (CC), которые используем для обучения набора открытых диффузионных моделей, качественно сопоставимых с Stable Diffusion 2 (SD2). Эта задача ставит два вызова: (1) изображения высокого разрешения, лицензированные по CC, не имеют подписей, необходимых для обучения моделей генерации изображений по тексту; (2) изображения CC относительно редки. Для решения этих проблем мы применяем интуитивно понятную технику трансферного обучения, чтобы создать набор высококачественных синтетических подписей, сопоставленных с отобранными изображениями CC. Затем мы разрабатываем рецепт обучения, эффективный по данным и вычислительным ресурсам, который требует всего 3% данных LAION-2B, необходимых для обучения существующих моделей SD2, но обеспечивает сопоставимое качество. Эти результаты указывают на то, что у нас достаточно изображений CC (~70 миллионов) для обучения высококачественных моделей. Наш рецепт обучения также включает различные оптимизации, которые позволяют ускорить обучение примерно в 3 раза, что способствует быстрой итерации моделей. Мы используем этот рецепт для обучения нескольких высококачественных моделей генерации изображений по тексту, которые мы называем семейством CommonCanvas. Наша крупнейшая модель демонстрирует сопоставимую с SD2 производительность в ходе человеческой оценки, несмотря на то, что она обучена на нашем наборе данных CC, который значительно меньше LAION, и использует синтетические подписи для обучения. Мы публикуем наши модели, данные и код по адресу: https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
Мы представляем DreamCraft3D, иерархический метод генерации 3D-контента, который создает высококачественные и согласованные 3D-объекты. Мы решаем эту задачу, используя 2D-референсное изображение для управления этапами моделирования геометрии и улучшения текстур. Основное внимание в этой работе уделено решению проблемы согласованности, с которой сталкиваются существующие методы. Для создания геометрии, которая визуализируется согласованно, мы применяем метод сэмплирования с дистилляцией оценок через зависящую от вида диффузионную модель. Этот 3D-приоритет, наряду с несколькими стратегиями обучения, обеспечивает согласованность геометрии, но снижает точность текстур. Мы дополнительно предлагаем метод Bootstrapped Score Distillation, специально направленный на улучшение текстур. Мы обучаем персонализированную диффузионную модель Dreambooth на расширенных рендерах сцены, наделяя ее 3D-знаниями о сцене, которая оптимизируется. Дистилляция оценок из этой 3D-осведомленной диффузионной модели обеспечивает согласованное по видам руководство для сцены. Примечательно, что благодаря чередующейся оптимизации диффузионного приоритета и 3D-представления сцены мы достигаем взаимно усиливающихся улучшений: оптимизированная 3D-сцена способствует обучению специфичной для сцены диффузионной модели, которая, в свою очередь, предоставляет все более согласованное по видам руководство для 3D-оптимизации. Таким образом, оптимизация становится самоподдерживающейся и приводит к значительному улучшению текстур. Благодаря адаптированным 3D-приоритетам на всех этапах иерархической генерации, DreamCraft3D создает согласованные 3D-объекты с фотореалистичными рендерами, продвигая состояние дел в области генерации 3D-контента. Код доступен по адресу https://github.com/deepseek-ai/DreamCraft3D.
Архитектуры Mixture-of-Experts (MoE) предлагают общее решение проблемы высоких затрат на вывод в больших языковых моделях (LLM) за счёт разреженной маршрутизации, обеспечивая более быстрые и точные модели, но ценой огромного количества параметров. Например, модель SwitchTransformer-c2048 содержит 1,6 триллиона параметров, что требует 3,2 ТБ памяти акселератора для эффективной работы, что делает практическое развёртывание сложным и дорогостоящим. В данной статье мы представляем решение этой проблемы с памятью в виде новой структуры сжатия и выполнения под названием QMoE. В частности, QMoE включает масштабируемый алгоритм, который точно сжимает MoE с триллионами параметров до менее чем 1 бита на параметр, используя специальный формат, совместно разработанный с оптимизированными ядрами декодирования для GPU, что обеспечивает эффективный сквозной вывод с минимальными накладными расходами по сравнению с несжатым выполнением. Конкретно, QMoE может сжать модель SwitchTransformer-c2048 с 1,6 триллиона параметров до менее чем 160 ГБ (20-кратное сжатие, 0,8 бита на параметр) с минимальной потерей точности, менее чем за день на одном GPU. Это впервые позволяет выполнять модель с триллионом параметров на доступном оборудовании, таком как один сервер с 4x NVIDIA A6000 или 8x NVIDIA 3090 GPU, с накладными расходами на выполнение менее 5% по сравнению с идеальным несжатым выводом. Исходный код и сжатые модели доступны на github.com/IST-DASLab/qmoe.
В данной статье мы оцениваем различные способности GPT-4V, включая визуальное понимание, понимание языка, решение визуальных головоломок, а также понимание других модальностей, таких как глубина, тепловизор, видео и аудио. Для оценки производительности GPT-4V мы вручную создали 656 тестовых примеров и тщательно проанализировали результаты работы GPT-4V. Основные выводы нашего исследования следующие: (1) GPT-4V демонстрирует впечатляющие результаты на англоязычных визуально-ориентированных тестах, но не распознает простые китайские тексты на изображениях; (2) GPT-4V проявляет непоследовательное поведение при отказе отвечать на вопросы, связанные с чувствительными темами, такими как пол, раса и возраст; (3) GPT-4V показывает худшие результаты по сравнению с GPT-4 (API) в задачах на понимание языка, включая общие тесты на понимание языка и тесты на визуальное здравомыслие; (4) Few-shot prompting может улучшить производительность GPT-4V как в визуальном, так и в языковом понимании; (5) GPT-4V испытывает трудности с обнаружением нюансов между двумя похожими изображениями и решением простых математических головоломок; (6) GPT-4V демонстрирует значимые результаты в задачах, связанных с модальностями, схожими с изображениями, такими как видео и тепловизор. Наши экспериментальные результаты раскрывают возможности и ограничения GPT-4V, и мы надеемся, что наша статья сможет внести вклад в применение и исследование GPT-4V.
В данной работе мы представляем Wonder3D — новый метод для эффективного создания высококачественных текстурных мешей из одноракурсных изображений. Современные методы, основанные на Score Distillation Sampling (SDS), продемонстрировали потенциал восстановления 3D-геометрии с использованием 2D-диффузионных априорных моделей, однако они обычно страдают от длительной оптимизации для каждого объекта и несогласованной геометрии. В то же время, некоторые подходы напрямую генерируют 3D-информацию с помощью быстрых сетевых выводов, но их результаты часто оказываются низкокачественными и лишены деталей. Для комплексного улучшения качества, согласованности и эффективности задач преобразования изображений в 3D мы предлагаем кросс-доменную диффузионную модель, которая генерирует многовидовые карты нормалей и соответствующие цветные изображения. Для обеспечения согласованности мы используем механизм кросс-доменного внимания между видами, который способствует обмену информацией между ракурсами и модальностями. Наконец, мы представляем геометрически осознанный алгоритм слияния нормалей, который извлекает высококачественные поверхности из многовидовых 2D-представлений. Наши обширные оценки показывают, что наш метод достигает высококачественных результатов реконструкции, устойчивой обобщаемости и достаточно хорошей эффективности по сравнению с предыдущими работами.
Многие исследователи считают, что сверточные нейронные сети (ConvNets) хорошо справляются с небольшими или средними наборами данных, но не могут конкурировать с Vision Transformers при работе с веб-масштабными наборами данных. Мы оспариваем это утверждение, оценивая производительную архитектуру ConvNet, предварительно обученную на JFT-4B — крупном размеченном наборе изображений, часто используемом для обучения базовых моделей. Мы рассматриваем вычислительные бюджеты для предварительного обучения в диапазоне от 0,4k до 110k часов работы ядер TPU-v4 и обучаем серию сетей с увеличивающейся глубиной и шириной из семейства моделей NFNet. Мы наблюдаем логарифмический закон масштабирования между ошибкой на тестовых данных и вычислительным бюджетом. После тонкой настройки на ImageNet модели NFNet соответствуют заявленной производительности Vision Transformers при сопоставимых вычислительных бюджетах. Наша наиболее сильная тонко настроенная модель достигает точности Top-1 в 90,4%.
Мы предлагаем метод LLM-FP4 для квантования как весов, так и активаций в крупных языковых моделях (LLM) до 4-битных значений с плавающей запятой, применяемый после обучения. Существующие решения для посттренировочного квантования (PTQ) в основном основаны на целочисленных значениях и сталкиваются с трудностями при работе с битовыми глубинами менее 8 бит. По сравнению с целочисленным квантованием, квантование с плавающей запятой (FP) является более гибким и лучше справляется с длинными хвостами или колоколообразными распределениями, что делает его стандартным выбором на многих аппаратных платформах. Одной из особенностей FP-квантования является то, что его производительность во многом зависит от выбора количества бит экспоненты и диапазона отсечения. В этом отношении мы создаем сильный базовый уровень FP-PTQ, выполняя поиск оптимальных параметров квантования. Кроме того, мы наблюдаем высокую межканальную вариацию и низкую внутриканальную вариацию в распределениях активаций, что усложняет их квантование. Мы отмечаем, что этот паттерн сохраняется в широком спектре трансформерных моделей, разработанных для различных задач, таких как LLM, BERT и Vision Transformer. Для решения этой проблемы мы предлагаем поточное квантование активаций и показываем, что дополнительные масштабирующие коэффициенты могут быть перепараметризованы как экспоненциальные смещения весов, что влечет за собой незначительные затраты. Наш метод впервые позволяет квантовать как веса, так и активации в модели LLaMA-13B до 4 бит и достигает среднего балла 63.1 на задачах здравого смысла с нулевым обучением, что всего на 5.8 ниже, чем у модели с полной точностью, значительно превосходя предыдущий state-of-the-art на 12.7 баллов. Код доступен по адресу: https://github.com/nbasyl/LLM-FP4.
Хотя крупные языковые модели (LLM) широко используются, данные, на которых они обучаются, редко раскрываются. Учитывая невероятный масштаб этих данных, достигающий триллионов токенов, практически наверняка они включают потенциально проблемные тексты, такие как материалы, защищенные авторским правом, персональные данные и тестовые данные для широко известных эталонных тестов. Однако в настоящее время у нас нет возможности узнать, какие именно данные такого типа включены и в каких пропорциях. В данной статье мы исследуем проблему обнаружения данных предварительного обучения: имея текст и черный ящик доступа к LLM без знания данных предварительного обучения, можем ли мы определить, была ли модель обучена на предоставленном тексте? Для облегчения этого исследования мы представляем динамический бенчмарк WIKIMIA, который использует данные, созданные до и после обучения модели, чтобы обеспечить точное обнаружение. Мы также представляем новый метод обнаружения Min-K% Prob, основанный на простой гипотезе: невидимый пример, вероятно, содержит несколько слов-выбросов с низкими вероятностями в LLM, тогда как в видимом примере такие слова с низкими вероятностями встречаются реже. Min-K% Prob может быть применен без знания о корпусе предварительного обучения или дополнительного обучения, что отличает его от предыдущих методов обнаружения, требующих обучения эталонной модели на данных, схожих с данными предварительного обучения. Более того, наши эксперименты показывают, что Min-K% Prob обеспечивает улучшение на 7,4% на WIKIMIA по сравнению с этими предыдущими методами. Мы применяем Min-K% Prob к двум реальным сценариям: обнаружению книг, защищенных авторским правом, и обнаружению загрязненных примеров в последующих задачах, и находим его стабильно эффективным решением.
Трансформерные модели больших языковых моделей (LLM) являются пионерскими достижениями во многих задачах обработки естественного языка, однако их исключительные возможности ограничены предустановленным контекстным окном трансформера. Методы масштабирования позиционных эмбеддингов (PE), хотя и эффективны в расширении контекстного окна до определенной длины, демонстрируют либо заметные ограничения в их способности к экстраполяции, либо жертвуют частью производительности в пределах контекстного окна. Методы экстраполяции длины, хотя теоретически способны расширить контекстное окно за пределы длины обучающей последовательности, часто показывают низкую эффективность в практических задачах с длинным контекстом. Для решения этих проблем мы предлагаем метод Continuous Length EXtrapolation (CLEX) для LLM. Мы обобщаем подходы масштабирования PE, моделируя непрерывную динамику с помощью обыкновенных дифференциальных уравнений по фактору масштабирования длины, тем самым преодолевая ограничения текущих методов масштабирования PE, разработанных для конкретных длин. Более того, расширяя динамику до желаемых длин контекста, превышающих длину обучающей последовательности, CLEX способствует экстраполяции длины с впечатляющей производительностью в практических задачах. Мы демонстрируем, что CLEX может быть легко интегрирован в LLM, оснащенные Rotary Position Embedding, такие как LLaMA и GPT-NeoX, с минимальным влиянием на задержки обучения и вывода. Экспериментальные результаты показывают, что CLEX может эффективно расширять контекстное окно до более чем 4x или почти 8x длины обучения без ухудшения производительности. Кроме того, при оценке на практическом бенчмарке LongBench наша модель, обученная на длине 4k, демонстрирует конкурентоспособную производительность по сравнению с передовыми открытыми моделями, обученными на длинах контекста до 32k.
Поддержание крупных базовых моделей в актуальном состоянии с учетом последних данных изначально является дорогостоящим процессом. Чтобы избежать непомерных затрат на постоянное переобучение, крайне важно осуществлять непрерывное обучение этих моделей. Эта проблема усугубляется отсутствием крупномасштабных бенчмарков или базовых линий для непрерывного обучения. Мы представляем первый набор веб-масштабных бенчмарков для временно-непрерывного (Time-Continual, TiC) обучения моделей, работающих с визуальными и текстовыми данными: TiC-DataCompt, TiC-YFCC и TiC-RedCaps, содержащих более 12,7 миллиардов временно-помеченных пар изображение-текст за период 9 лет (2014–2022). Сначала мы используем наши бенчмарки для создания различных динамических оценок, чтобы измерить временную устойчивость существующих моделей. Мы показываем, что модель CLIP от OpenAI (обученная на данных до 2020 года) теряет примерно 8% точности в задаче нулевого сэмплинга на нашем подобранном задании по поиску за период 2021–2022 годов по сравнению с более недавно обученными моделями из репозитория OpenCLIP. Затем мы исследуем, как эффективно обучать модели на временно-непрерывных данных. Мы демонстрируем, что простой подход на основе повторения, который продолжает обучение с последнего контрольного пункта и воспроизводит старые данные, сокращает вычислительные затраты в 2,5 раза по сравнению с стандартной практикой переобучения с нуля.
TD-MPC — это алгоритм обучения с подкреплением (RL) на основе моделей, который выполняет локальную оптимизацию траекторий в латентном пространстве обученной неявной (без декодера) модели мира. В данной работе мы представляем TD-MPC2 — серию улучшений алгоритма TD-MPC. Мы демонстрируем, что TD-MPC2 значительно превосходит базовые подходы на 104 задачах онлайн RL, охватывающих 4 различные предметные области, достигая стабильно высоких результатов с одним набором гиперпараметров. Мы также показываем, что возможности агента увеличиваются с ростом размера модели и объема данных, и успешно обучаем одного агента с 317 миллионами параметров для выполнения 80 задач в различных предметных областях, воплощениях и пространствах действий. В заключение мы обсуждаем уроки, возможности и риски, связанные с крупными агентами TD-MPC2. Видео, модели, данные, код и многое другое доступны по ссылке: https://nicklashansen.github.io/td-mpc2.
Синтез изображений с новых ракурсов в реальном времени на мобильных устройствах является сложной задачей из-за ограниченной вычислительной мощности и объема памяти. Использование методов объемного рендеринга, таких как NeRF и его производные, на мобильных устройствах не подходит из-за высокой вычислительной стоимости объемного рендеринга. С другой стороны, последние достижения в области нейронных представлений светового поля демонстрируют многообещающие результаты синтеза изображений в реальном времени на мобильных устройствах. Методы нейронного светового поля обучают прямое отображение из представления лучей в цвет пикселя. В настоящее время выбор представления лучей ограничен либо стратифицированной выборкой лучей, либо координатами Плюккера, игнорируя классическое представление светового поля в виде двух плоскостей (light slab), которое является предпочтительным для интерполяции между видами светового поля. В данной работе мы показываем, что использование представления light slab является эффективным для обучения нейронного светового поля. Более того, это представление лучей с меньшей размерностью, что позволяет нам обучать 4D пространство лучей с использованием сеток признаков, которые значительно быстрее обучаются и рендерятся. Хотя это представление в основном разработано для фронтальных видов, мы демонстрируем, что его можно расширить на не фронтальные сцены с использованием стратегии "разделяй и властвуй". Наш метод обеспечивает превосходное качество рендеринга по сравнению с предыдущими методами светового поля и достигает значительно улучшенного баланса между качеством рендеринга и скоростью.