Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы проводим эмпирическое исследование простой стратегии обрезки слоев для популярных семейств предварительно обученных LLM, обнаруживая минимальное снижение производительности на различных наборах данных для вопросно-ответных задач до тех пор, пока не будет удалена значительная часть (до половины) слоев. Для обрезки этих моделей мы определяем оптимальный блок слоев для обрезки, рассматривая их сходство; затем, для "восстановления" ущерба, мы проводим небольшое количество донастройки. В частности, мы используем методы параметрической донастройки (PEFT), в частности, квантизацию и адаптеры низкого ранга (QLoRA), таким образом, что каждый из наших экспериментов может быть выполнен на одном графическом процессоре A100. С практической точки зрения эти результаты указывают на то, что методы обрезки слоев могут дополнять другие стратегии PEFT для дальнейшего снижения вычислительных ресурсов донастройки с одной стороны, и могут улучшить память и задержку вывода с другой стороны. С научной точки зрения устойчивость этих LLM к удалению слоев подразумевает, что либо текущие методы предварительного обучения не должны должным образом использовать параметры в более глубоких слоях сети, либо поверхностные слои играют критическую роль в хранении знаний.
Эволюция больших языковых моделей (LLM), таких как ChatGPT и GPT-4, вызвала дискуссии о приходе искусственного общего интеллекта (AGI). Однако воспроизведение таких достижений в моделях с открытым исходным кодом оказалось сложной задачей. В данной статье представляется InternLM2, открытая LLM, которая превосходит своих предшественников в комплексной оценке по 6 измерениям и 30 бенчмаркам, моделировании длинного контекста и открытых субъективных оценках с помощью инновационных техник предварительного обучения и оптимизации. Процесс предварительного обучения InternLM2 подробно описан, освещая подготовку различных типов данных, включая текст, код и данные с длинным контекстом. InternLM2 эффективно улавливает долгосрочные зависимости, начиная с обучения на 4k токенах перед переходом к 32k токенам на этапах предварительного обучения и настройки, проявляя выдающуюся производительность на тесте "Игла в стоге" из 200k примеров. InternLM2 дополнительно выравнивается с помощью надзорной настройки (SFT) и новой стратегии условного онлайн-обучения с подкреплением на основе обратной связи от человека (COOL RLHF), которая решает проблемы конфликтующих предпочтений человека и взлома вознаграждения. Публикуя модели InternLM2 на разных этапах обучения и размерах моделей, мы предоставляем сообществу понимание эволюции модели.
3D Гауссово сглаживание (3DGS) недавно революционизировало восстановление поля радиации, достигая высокого качества синтеза нового вида и быстрой скорости рендеринга без предварительной обработки. Однако 3DGS не удается точно представить поверхности из-за многоплановой несогласованности 3D Гауссов. Мы представляем 2D Гауссово сглаживание (2DGS), новый подход к моделированию и восстановлению геометрически точных полей радиации из многоплановых изображений. Наш ключевой идеей является схлопывание 3D объема в набор 2D ориентированных плоских гауссовских дисков. В отличие от 3D Гауссов, 2D Гауссовы обеспечивают согласованную с точки зрения геометрию, моделируя поверхности интринсически. Для точного восстановления тонких поверхностей и достижения стабильной оптимизации мы представляем перспективно точный процесс 2D сглаживания, используя пересечение луча и сглаживание по растру. Кроме того, мы включаем искажения глубины и термины нормальной согласованности для дальнейшего улучшения качества реконструкций. Мы демонстрируем, что наш дифференцируемый рендерер позволяет получить шумоустойчивую и детализированную геометрическую реконструкцию, сохраняя конкурентоспособное качество внешнего вида, быструю скорость обучения и рендеринг в реальном времени. Наш код будет общедоступным.
Впечатляющие достижения в области генеративных моделей текст-в-изображение (T2I) привели к появлению множества высокопроизводительных моделей, способных генерировать эстетически привлекательные, фотореалистичные изображения. Несмотря на прогресс, эти модели все еще испытывают трудности в создании изображений, которые согласуются с входным запросом, часто не улавливая правильно количество объектов, их отношения и атрибуты. Существующие решения для улучшения согласованности между запросом и изображением сталкиваются с следующими проблемами: (1) они часто требуют донастройки модели, (2) они сосредотачиваются только на близких образцах запросов, и (3) они подвержены невыгодным компромиссам между качеством изображения, разнообразием представления и согласованностью между запросом и изображением. В данной статье мы решаем эти проблемы и представляем рамочную оптимизацию T2I посредством запросов, OPT2I, которая использует большую языковую модель (LLM) для улучшения согласованности между запросом и изображением в моделях T2I. Наша рамочная работа начинается с запроса пользователя и итеративно генерирует пересмотренные запросы с целью максимизации оценки согласованности. Наше обширное валидационное исследование на двух наборах данных, MSCOCO и PartiPrompts, показывает, что OPT2I может увеличить начальную оценку согласованности на до 24.9% в терминах оценки DSG, сохраняя FID и увеличивая соответствие между сгенерированными и реальными данными. Наша работа прокладывает путь к созданию более надежных и устойчивых систем T2I путем использования мощи LLM.
Недавние техники генерации текста в 4D синтезируют динамические 3D сцены с использованием наблюдения за предварительно обученными моделями текст-видео. Однако существующие представления движения, такие как модели деформации или времязависимые нейронные представления, ограничены в объеме движения, который они могут генерировать - они не могут синтезировать движение, выходящее далеко за границы ограничивающего параллелепипеда, используемого для объемного рендеринга. Отсутствие более гибкой модели движения способствует разрыву в реализме между методами генерации 4D и недавними, почти фотореалистичными моделями генерации видео. Здесь мы предлагаем TC4D: генерацию текста в 4D с учетом траектории, которая разделяет движение на глобальные и локальные компоненты. Мы представляем глобальное движение ограничивающего параллелепипеда сцены с помощью жесткого преобразования вдоль траектории, параметризованной сплайном. Мы изучаем локальные деформации, соответствующие глобальной траектории, используя наблюдение за моделью текст-видео. Наш подход позволяет синтезировать сцены с анимацией вдоль произвольных траекторий, композиционную генерацию сцен и значительные улучшения в реализме и объеме сгенерированного движения, которые мы оцениваем качественно и через пользовательское исследование. Результаты видео можно просмотреть на нашем веб-сайте: https://sherwinbahmani.github.io/tc4d.
Недавний метод трехмерного гауссовского сплэтинга (3D-GS) продемонстрировал выдающуюся точность и эффективность рендеринга по сравнению с нейросетевыми представлениями сцены на основе NeRF. В то время как показывая потенциал для рендеринга в реальном времени, 3D-GS сталкивается с проблемами рендеринга в больших сценах с сложными деталями из-за избыточного количества гауссовских примитивов, находящихся внутри пирамиды обзора. Это ограничение особенно заметно в виде при уменьшении масштаба и может привести к неодинаковой скорости рендеринга в сценах с различными деталями. Более того, часто возникают трудности в захвате соответствующего уровня деталей на разных масштабах с помощью его эвристической операции управления плотностью. Вдохновленные техниками уровня деталей (LOD), мы представляем Octree-GS, представляющий собой метод трехмерного гауссовского сплэтинга с LOD-структурой, поддерживающий декомпозицию уровня деталей для представления сцены, что способствует окончательным результатам рендеринга. Наша модель динамически выбирает соответствующий уровень из набора многоуровневых опорных точек, обеспечивая постоянную производительность рендеринга с адаптивными настройками LOD при сохранении высокоточных результатов рендеринга.
В данном исследовании мы предлагаем AniPortrait, новую концепцию для создания высококачественной анимации, управляемой звуком и портретным изображением в качестве эталона. Наш метод делится на два этапа. Сначала мы извлекаем 3D промежуточные представления из аудио и проецируем их на последовательность 2D точек лица. Затем мы используем надежную модель диффузии, совмещенную с модулем движения, для преобразования последовательности точек в фотореалистичную и временно последовательную анимацию портрета. Экспериментальные результаты демонстрируют превосходство AniPortrait в плане естественности лица, разнообразия поз и визуального качества, что обеспечивает улучшенный восприятие. Более того, наш метод обладает значительным потенциалом в плане гибкости и управляемости, что может быть эффективно применено в областях редактирования лицевого движения или реенактирования лиц. Мы предоставляем код и веса модели по ссылке https://github.com/scutzzj/AniPortrait
Мы представляем DreamPolisher, новый метод на основе Гауссова сглаживания с геометрическим руководством, разработанный для изучения кросс-видовой согласованности и сложных деталей из текстовых описаний. В то время как недавние достижения в методах генерации 3D из текста обещают многое, преобладающие методы часто не обеспечивают видовую согласованность и текстурное богатство. Эта проблема становится особенно заметной для методов, работающих только с текстовым вводом. Для решения этой проблемы мы предлагаем двухэтапный подход на основе Гауссова сглаживания, который обеспечивает геометрическую согласованность между видами. Сначала грубая генерация 3D проходит уточнение через геометрическую оптимизацию. Затем мы используем улучшающийся рефайнер на основе ControlNet в сочетании с термином геометрической согласованности для улучшения как достоверности текстуры, так и общей согласованности созданного 3D-объекта. Эмпирические оценки по различным текстовым подсказкам, охватывающим различные категории объектов, демонстрируют эффективность DreamPolisher в создании последовательных и реалистичных 3D-объектов, тесно соответствующих семантике текстовых инструкций.
Данный документ представляет собой реализацию SYCL многослойных перцептронов (MLP), которая ориентирована и оптимизирована для графического процессора Intel Data Center GPU Max 1550. Для повышения производительности наша реализация минимизирует медленный доступ к глобальной памяти путем максимизации повторного использования данных в общем регистровом файле и общей локальной памяти путем объединения операций в каждом слое MLP. Мы показываем с помощью простой модели roofline, что это приводит к значительному увеличению арифметической интенсивности, что приводит к улучшению производительности, особенно для вывода. Мы сравниваем наш подход с аналогичной реализацией CUDA для MLP и показываем, что наша реализация на графическом процессоре Intel Data Center превосходит реализацию CUDA на графическом процессоре Nvidia H100 в 2,84 раза для вывода и 1,75 раза для обучения. В документе также демонстрируется эффективность нашей реализации SYCL в трех значимых областях: сжатие изображений, нейронные радиационные поля и физически обоснованное машинное обучение. Во всех случаях наша реализация превосходит реализацию Intel Extension for PyTorch (IPEX) на том же графическом процессоре Intel вплоть до 30 раз и версию CUDA PyTorch на графическом процессоре Nvidia H100 вплоть до 19 раз. Код можно найти по ссылке https://github.com/intel/tiny-dpcpp-nn.