Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Необоснованная неэффективность более глубоких слоев
The Unreasonable Ineffectiveness of the Deeper Layers

Mar 26

ByAndrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, Daniel A. Roberts

Мы проводим эмпирическое исследование простой стратегии обрезки слоев для популярных семейств предварительно обученных LLM, обнаруживая минимальное снижение производительности на различных наборах данных для вопросно-ответных задач до тех пор, пока не будет удалена значительная часть (до половины) слоев. Для обрезки этих моделей мы определяем оптимальный блок слоев для обрезки, рассматривая их сходство; затем, для "восстановления" ущерба, мы проводим небольшое количество донастройки. В частности, мы используем методы параметрической донастройки (PEFT), в частности, квантизацию и адаптеры низкого ранга (QLoRA), таким образом, что каждый из наших экспериментов может быть выполнен на одном графическом процессоре A100. С практической точки зрения эти результаты указывают на то, что методы обрезки слоев могут дополнять другие стратегии PEFT для дальнейшего снижения вычислительных ресурсов донастройки с одной стороны, и могут улучшить память и задержку вывода с другой стороны. С научной точки зрения устойчивость этих LLM к удалению слоев подразумевает, что либо текущие методы предварительного обучения не должны должным образом использовать параметры в более глубоких слоях сети, либо поверхностные слои играют критическую роль в хранении знаний.

Технический отчет InternLM2
InternLM2 Technical Report

Mar 26

ByZheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Chao Xu, Ruiliang Xu, Hang Yan, Yirong Yan, Xiaogui Yang, Haochen Ye, Huaiyuan Ying, Jia Yu, Jing Yu, Yuhang Zang, Chuyu Zhang, Li Zhang, Pan Zhang, Peng Zhang, Ruijie Zhang, Shuo Zhang, Songyang Zhang, Wenjian Zhang, Wenwei Zhang, Xingcheng Zhang, Xinyue Zhang, Hui Zhao, Qian Zhao, Xiaomeng Zhao, Fengzhe Zhou, Zaida Zhou, Jingming Zhuo, Yicheng Zou, Xipeng Qiu, Yu Qiao, Dahua Lin

Эволюция больших языковых моделей (LLM), таких как ChatGPT и GPT-4, вызвала дискуссии о приходе искусственного общего интеллекта (AGI). Однако воспроизведение таких достижений в моделях с открытым исходным кодом оказалось сложной задачей. В данной статье представляется InternLM2, открытая LLM, которая превосходит своих предшественников в комплексной оценке по 6 измерениям и 30 бенчмаркам, моделировании длинного контекста и открытых субъективных оценках с помощью инновационных техник предварительного обучения и оптимизации. Процесс предварительного обучения InternLM2 подробно описан, освещая подготовку различных типов данных, включая текст, код и данные с длинным контекстом. InternLM2 эффективно улавливает долгосрочные зависимости, начиная с обучения на 4k токенах перед переходом к 32k токенам на этапах предварительного обучения и настройки, проявляя выдающуюся производительность на тесте "Игла в стоге" из 200k примеров. InternLM2 дополнительно выравнивается с помощью надзорной настройки (SFT) и новой стратегии условного онлайн-обучения с подкреплением на основе обратной связи от человека (COOL RLHF), которая решает проблемы конфликтующих предпочтений человека и взлома вознаграждения. Публикуя модели InternLM2 на разных этапах обучения и размерах моделей, мы предоставляем сообществу понимание эволюции модели.

Двумерное гауссово сглаживание для геометрически точных полей излучения.
2D Gaussian Splatting for Geometrically Accurate Radiance Fields

Mar 26

ByBinbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao

3D Гауссово сглаживание (3DGS) недавно революционизировало восстановление поля радиации, достигая высокого качества синтеза нового вида и быстрой скорости рендеринга без предварительной обработки. Однако 3DGS не удается точно представить поверхности из-за многоплановой несогласованности 3D Гауссов. Мы представляем 2D Гауссово сглаживание (2DGS), новый подход к моделированию и восстановлению геометрически точных полей радиации из многоплановых изображений. Наш ключевой идеей является схлопывание 3D объема в набор 2D ориентированных плоских гауссовских дисков. В отличие от 3D Гауссов, 2D Гауссовы обеспечивают согласованную с точки зрения геометрию, моделируя поверхности интринсически. Для точного восстановления тонких поверхностей и достижения стабильной оптимизации мы представляем перспективно точный процесс 2D сглаживания, используя пересечение луча и сглаживание по растру. Кроме того, мы включаем искажения глубины и термины нормальной согласованности для дальнейшего улучшения качества реконструкций. Мы демонстрируем, что наш дифференцируемый рендерер позволяет получить шумоустойчивую и детализированную геометрическую реконструкцию, сохраняя конкурентоспособное качество внешнего вида, быструю скорость обучения и рендеринг в реальном времени. Наш код будет общедоступным.

Улучшение согласованности текст-изображение с помощью автоматической оптимизации подсказок.
Improving Text-to-Image Consistency via Automatic Prompt Optimization

Mar 26

ByOscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal

Впечатляющие достижения в области генеративных моделей текст-в-изображение (T2I) привели к появлению множества высокопроизводительных моделей, способных генерировать эстетически привлекательные, фотореалистичные изображения. Несмотря на прогресс, эти модели все еще испытывают трудности в создании изображений, которые согласуются с входным запросом, часто не улавливая правильно количество объектов, их отношения и атрибуты. Существующие решения для улучшения согласованности между запросом и изображением сталкиваются с следующими проблемами: (1) они часто требуют донастройки модели, (2) они сосредотачиваются только на близких образцах запросов, и (3) они подвержены невыгодным компромиссам между качеством изображения, разнообразием представления и согласованностью между запросом и изображением. В данной статье мы решаем эти проблемы и представляем рамочную оптимизацию T2I посредством запросов, OPT2I, которая использует большую языковую модель (LLM) для улучшения согласованности между запросом и изображением в моделях T2I. Наша рамочная работа начинается с запроса пользователя и итеративно генерирует пересмотренные запросы с целью максимизации оценки согласованности. Наше обширное валидационное исследование на двух наборах данных, MSCOCO и PartiPrompts, показывает, что OPT2I может увеличить начальную оценку согласованности на до 24.9% в терминах оценки DSG, сохраняя FID и увеличивая соответствие между сгенерированными и реальными данными. Наша работа прокладывает путь к созданию более надежных и устойчивых систем T2I путем использования мощи LLM.

TC4D: Генерация текста в 4D, зависящая от траектории
TC4D: Trajectory-Conditioned Text-to-4D Generation

Mar 26

BySherwin Bahmani, Xian Liu, Yifan Wang, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell

Недавние техники генерации текста в 4D синтезируют динамические 3D сцены с использованием наблюдения за предварительно обученными моделями текст-видео. Однако существующие представления движения, такие как модели деформации или времязависимые нейронные представления, ограничены в объеме движения, который они могут генерировать - они не могут синтезировать движение, выходящее далеко за границы ограничивающего параллелепипеда, используемого для объемного рендеринга. Отсутствие более гибкой модели движения способствует разрыву в реализме между методами генерации 4D и недавними, почти фотореалистичными моделями генерации видео. Здесь мы предлагаем TC4D: генерацию текста в 4D с учетом траектории, которая разделяет движение на глобальные и локальные компоненты. Мы представляем глобальное движение ограничивающего параллелепипеда сцены с помощью жесткого преобразования вдоль траектории, параметризованной сплайном. Мы изучаем локальные деформации, соответствующие глобальной траектории, используя наблюдение за моделью текст-видео. Наш подход позволяет синтезировать сцены с анимацией вдоль произвольных траекторий, композиционную генерацию сцен и значительные улучшения в реализме и объеме сгенерированного движения, которые мы оцениваем качественно и через пользовательское исследование. Результаты видео можно просмотреть на нашем веб-сайте: https://sherwinbahmani.github.io/tc4d.

Octree-GS: Достижение последовательного реального времени визуализации с 3D гауссианами на основе уровней детализации.
Octree-GS: Towards Consistent Real-time Rendering with LOD-Structured 3D Gaussians

Mar 26

ByKerui Ren, Lihan Jiang, Tao Lu, Mulin Yu, Linning Xu, Zhangkai Ni, Bo Dai

Недавний метод трехмерного гауссовского сплэтинга (3D-GS) продемонстрировал выдающуюся точность и эффективность рендеринга по сравнению с нейросетевыми представлениями сцены на основе NeRF. В то время как показывая потенциал для рендеринга в реальном времени, 3D-GS сталкивается с проблемами рендеринга в больших сценах с сложными деталями из-за избыточного количества гауссовских примитивов, находящихся внутри пирамиды обзора. Это ограничение особенно заметно в виде при уменьшении масштаба и может привести к неодинаковой скорости рендеринга в сценах с различными деталями. Более того, часто возникают трудности в захвате соответствующего уровня деталей на разных масштабах с помощью его эвристической операции управления плотностью. Вдохновленные техниками уровня деталей (LOD), мы представляем Octree-GS, представляющий собой метод трехмерного гауссовского сплэтинга с LOD-структурой, поддерживающий декомпозицию уровня деталей для представления сцены, что способствует окончательным результатам рендеринга. Наша модель динамически выбирает соответствующий уровень из набора многоуровневых опорных точек, обеспечивая постоянную производительность рендеринга с адаптивными настройками LOD при сохранении высокоточных результатов рендеринга.

AniPortrait: Синтез фотореалистичной анимации портрета под управлением аудио.
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

Mar 26

ByHuawei Wei, Zejun Yang, Zhisheng Wang

В данном исследовании мы предлагаем AniPortrait, новую концепцию для создания высококачественной анимации, управляемой звуком и портретным изображением в качестве эталона. Наш метод делится на два этапа. Сначала мы извлекаем 3D промежуточные представления из аудио и проецируем их на последовательность 2D точек лица. Затем мы используем надежную модель диффузии, совмещенную с модулем движения, для преобразования последовательности точек в фотореалистичную и временно последовательную анимацию портрета. Экспериментальные результаты демонстрируют превосходство AniPortrait в плане естественности лица, разнообразия поз и визуального качества, что обеспечивает улучшенный восприятие. Более того, наш метод обладает значительным потенциалом в плане гибкости и управляемости, что может быть эффективно применено в областях редактирования лицевого движения или реенактирования лиц. Мы предоставляем код и веса модели по ссылке https://github.com/scutzzj/AniPortrait

DreamPolisher: Путь к генерации текста в 3D высокого качества с использованием геометрической диффузии
DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion

Mar 25

ByYuanze Lin, Ronald Clark, Philip Torr

Мы представляем DreamPolisher, новый метод на основе Гауссова сглаживания с геометрическим руководством, разработанный для изучения кросс-видовой согласованности и сложных деталей из текстовых описаний. В то время как недавние достижения в методах генерации 3D из текста обещают многое, преобладающие методы часто не обеспечивают видовую согласованность и текстурное богатство. Эта проблема становится особенно заметной для методов, работающих только с текстовым вводом. Для решения этой проблемы мы предлагаем двухэтапный подход на основе Гауссова сглаживания, который обеспечивает геометрическую согласованность между видами. Сначала грубая генерация 3D проходит уточнение через геометрическую оптимизацию. Затем мы используем улучшающийся рефайнер на основе ControlNet в сочетании с термином геометрической согласованности для улучшения как достоверности текстуры, так и общей согласованности созданного 3D-объекта. Эмпирические оценки по различным текстовым подсказкам, охватывающим различные категории объектов, демонстрируют эффективность DreamPolisher в создании последовательных и реалистичных 3D-объектов, тесно соответствующих семантике текстовых инструкций.

Полностью объединенные многослойные перцептроны на графических процессорах центров обработки данных Intel.
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs

Mar 26

ByKai Yuan, Christoph Bauinger, Xiangyi Zhang, Pascal Baehr, Matthias Kirchhart, Darius Dabert, Adrien Tousnakhoff, Pierre Boudier, Michael Paulitsch

Данный документ представляет собой реализацию SYCL многослойных перцептронов (MLP), которая ориентирована и оптимизирована для графического процессора Intel Data Center GPU Max 1550. Для повышения производительности наша реализация минимизирует медленный доступ к глобальной памяти путем максимизации повторного использования данных в общем регистровом файле и общей локальной памяти путем объединения операций в каждом слое MLP. Мы показываем с помощью простой модели roofline, что это приводит к значительному увеличению арифметической интенсивности, что приводит к улучшению производительности, особенно для вывода. Мы сравниваем наш подход с аналогичной реализацией CUDA для MLP и показываем, что наша реализация на графическом процессоре Intel Data Center превосходит реализацию CUDA на графическом процессоре Nvidia H100 в 2,84 раза для вывода и 1,75 раза для обучения. В документе также демонстрируется эффективность нашей реализации SYCL в трех значимых областях: сжатие изображений, нейронные радиационные поля и физически обоснованное машинное обучение. Во всех случаях наша реализация превосходит реализацию Intel Extension for PyTorch (IPEX) на том же графическом процессоре Intel вплоть до 30 раз и версию CUDA PyTorch на графическом процессоре Nvidia H100 вплоть до 19 раз. Код можно найти по ссылке https://github.com/intel/tiny-dpcpp-nn.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Необоснованная неэффективность более глубоких слоев
The Unreasonable Ineffectiveness of the Deeper Layers

Mar 26

ByAndrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, Daniel A. Roberts

Технический отчет InternLM2
InternLM2 Technical Report

Mar 26

Двумерное гауссово сглаживание для геометрически точных полей излучения.
2D Gaussian Splatting for Geometrically Accurate Radiance Fields

Mar 26

ByBinbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao

Улучшение согласованности текст-изображение с помощью автоматической оптимизации подсказок.
Improving Text-to-Image Consistency via Automatic Prompt Optimization

Mar 26

ByOscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal

TC4D: Генерация текста в 4D, зависящая от траектории
TC4D: Trajectory-Conditioned Text-to-4D Generation

Mar 26

BySherwin Bahmani, Xian Liu, Yifan Wang, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell

Octree-GS: Достижение последовательного реального времени визуализации с 3D гауссианами на основе уровней детализации.
Octree-GS: Towards Consistent Real-time Rendering with LOD-Structured 3D Gaussians

Mar 26

ByKerui Ren, Lihan Jiang, Tao Lu, Mulin Yu, Linning Xu, Zhangkai Ni, Bo Dai

AniPortrait: Синтез фотореалистичной анимации портрета под управлением аудио.
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

Mar 26

ByHuawei Wei, Zejun Yang, Zhisheng Wang

DreamPolisher: Путь к генерации текста в 3D высокого качества с использованием геометрической диффузии
DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion

Mar 25

ByYuanze Lin, Ronald Clark, Philip Torr

Полностью объединенные многослойные перцептроны на графических процессорах центров обработки данных Intel.
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs

Mar 26

ByKai Yuan, Christoph Bauinger, Xiangyi Zhang, Pascal Baehr, Matthias Kirchhart, Darius Dabert, Adrien Tousnakhoff, Pierre Boudier, Michael Paulitsch