HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

17 papers found

Уровни ИИО: Операционализация прогресса на пути к искусственному общему интеллекту
Levels of AGI: Operationalizing Progress on the Path to AGI

Nov 4

ByMeredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg

Мы предлагаем концепцию для классификации возможностей и поведения моделей Искусственного Общего Интеллекта (ИОИ) и их предшественников. Эта концепция вводит уровни производительности, универсальности и автономности ИОИ. Мы надеемся, что данная концепция будет полезна аналогично уровням автономного вождения, предоставляя общий язык для сравнения моделей, оценки рисков и измерения прогресса на пути к ИОИ. Для разработки нашей концепции мы анализируем существующие определения ИОИ и выделяем шесть принципов, которым должна соответствовать полезная онтология для ИОИ. Эти принципы включают фокусировку на возможностях, а не на механизмах; отдельную оценку универсальности и производительности; и определение этапов на пути к ИОИ, а не концентрацию на конечной цели. С учетом этих принципов мы предлагаем «Уровни ИОИ», основанные на глубине (производительности) и широте (универсальности) возможностей, и рассматриваем, как текущие системы вписываются в эту онтологию. Мы обсуждаем сложные требования к будущим тестам, которые количественно оценивают поведение и возможности моделей ИОИ в соответствии с этими уровнями. Наконец, мы рассматриваем, как эти уровни ИОИ взаимодействуют с аспектами внедрения, такими как автономность и риск, и подчеркиваем важность тщательного выбора парадигм взаимодействия человека и ИИ для ответственного и безопасного внедрения высокоэффективных систем ИИ.

GLaMM: Мультимодальная модель с привязкой к пикселям
GLaMM: Pixel Grounding Large Multimodal Model

Nov 6

ByHanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan

Крупные мультимодальные модели (LMMs) расширяют возможности крупных языковых моделей на область зрения. Первые попытки создания LMMs использовали целостные изображения и текстовые запросы для генерации необоснованных текстовых ответов. Совсем недавно региональные LMMs стали применяться для генерации визуально обоснованных ответов. Однако они ограничены возможностью ссылаться только на одну категорию объектов за раз, требуют от пользователей указания регионов на входе или не могут предложить плотное пиксельное обоснование объектов. В данной работе мы представляем модель Grounding LMM (GLaMM), первую модель, способную генерировать естественные языковые ответы, плавно переплетенные с соответствующими масками сегментации объектов. GLaMM не только обосновывает объекты, появляющиеся в беседах, но и достаточно гибка, чтобы принимать как текстовые, так и опциональные визуальные запросы (область интереса) на входе. Это позволяет пользователям взаимодействовать с моделью на различных уровнях детализации как в текстовой, так и в визуальной областях. Из-за отсутствия стандартных тестов для новой задачи генерации визуально обоснованных детальных бесед, мы вводим комплексный протокол оценки с нашими курированными обоснованными беседами. Наша предложенная задача генерации обоснованных бесед (GCG) требует плотного обоснования концепций в естественных сценах в большом масштабе. Для этого мы предлагаем плотно аннотированный набор данных Grounding-anything Dataset (GranD), используя наш предложенный автоматизированный конвейер аннотации, который охватывает 7.5M уникальных концепций, обоснованных в общей сложности в 810M регионах, доступных с масками сегментации. Помимо GCG, GLaMM также эффективно выполняет несколько последующих задач, например, сегментацию выражений ссылок, генерацию подписей к изображениям и регионам, а также визуально-языковые беседы. Страница проекта: https://mbzuai-oryx.github.io/groundingLMM.

I2VGen-XL: Высококачественный синтез видео из изображений с использованием каскадных диффузионных моделей
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

Nov 7

ByShiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou

Синтез видео в последнее время достиг значительных успехов благодаря быстрому развитию диффузионных моделей. Однако он по-прежнему сталкивается с проблемами в области семантической точности, четкости и пространственно-временной непрерывности. Эти трудности возникают в основном из-за недостатка хорошо согласованных текстово-видео данных и сложной внутренней структуры видео, что затрудняет одновременное обеспечение семантического и качественного превосходства модели. В данном отчете мы предлагаем каскадный подход I2VGen-XL, который повышает производительность модели за счет разделения этих двух факторов и обеспечивает согласованность входных данных, используя статические изображения в качестве ключевого ориентира. I2VGen-XL состоит из двух этапов: i) базовый этап гарантирует согласованную семантику и сохраняет содержание входных изображений с использованием двух иерархических кодировщиков, и ii) этап улучшения детализирует видео за счет добавления краткого текста и повышает разрешение до 1280×720. Для повышения разнообразия мы собрали около 35 миллионов одиночных текстово-видео пар и 6 миллиардов текстово-изображений для оптимизации модели. Таким образом, I2VGen-XL может одновременно улучшать семантическую точность, непрерывность деталей и четкость генерируемых видео. В ходе обширных экспериментов мы изучили основные принципы работы I2VGen-XL и сравнили его с современными передовыми методами, что демонстрирует его эффективность на разнообразных данных. Исходный код и модели будут общедоступны по адресу https://i2vgen-xl.github.io.

S-LoRA: Обслуживание тысяч параллельных адаптеров LoRA
S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Nov 6

ByYing Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica

Парадигма "предварительное обучение с последующей тонкой настройкой" широко используется при развертывании крупных языковых моделей. Low-Rank Adaptation (LoRA), метод эффективной тонкой настройки параметров, часто применяется для адаптации базовой модели к множеству задач, что приводит к созданию значительного набора адаптеров LoRA, производных от одной базовой модели. Мы отмечаем, что эта парадигма открывает значительные возможности для пакетного вывода при обслуживании. Чтобы воспользоваться этими возможностями, мы представляем S-LoRA — систему, предназначенную для масштабируемого обслуживания множества адаптеров LoRA. S-LoRA хранит все адаптеры в основной памяти и загружает адаптеры, используемые текущими запросами, в память GPU. Для эффективного использования памяти GPU и уменьшения фрагментации S-LoRA предлагает Unified Paging. Unified Paging использует единый пул памяти для управления динамическими весами адаптеров с различными рангами и тензорами кэша ключей и значений (KV cache) с разной длиной последовательностей. Кроме того, S-LoRA применяет новую стратегию тензорного параллелизма и высокооптимизированные пользовательские CUDA-ядра для гетерогенного пакетного вычисления LoRA. В совокупности эти функции позволяют S-LoRA обслуживать тысячи адаптеров LoRA на одном GPU или на нескольких GPU с минимальными накладными расходами. По сравнению с передовыми библиотеками, такими как HuggingFace PEFT и vLLM (с базовой поддержкой обслуживания LoRA), S-LoRA может увеличить пропускную способность до 4 раз и на несколько порядков увеличить количество обслуживаемых адаптеров. В результате S-LoRA обеспечивает масштабируемое обслуживание множества моделей, настроенных для конкретных задач, и открывает потенциал для крупномасштабных услуг по персонализированной тонкой настройке.

CogVLM: Визуальный эксперт для предобученных языковых моделей
CogVLM: Visual Expert for Pretrained Language Models

Nov 6

ByWeihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

Мы представляем CogVLM — мощную открытую модель-основу для обработки визуальной и языковой информации. В отличие от популярного метода поверхностного согласования, который отображает визуальные признаки во входное пространство языковой модели, CogVLM устраняет разрыв между замороженной предобученной языковой моделью и кодировщиком изображений с помощью обучаемого модуля визуального эксперта в слоях внимания и FFN. В результате CogVLM обеспечивает глубокое слияние визуальных и языковых признаков без ущерба для производительности в задачах обработки естественного языка. CogVLM-17B демонстрирует наилучшие результаты на 10 классических кросс-модальных тестах, включая NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA и TDIUC, а также занимает второе место на VQAv2, OKVQA, TextVQA, COCO captioning и других, превосходя или сравниваясь с PaLI-X 55B. Код и контрольные точки доступны по адресу https://github.com/THUDM/CogVLM.

Relax: Компонуемые абстракции для сквозного динамического машинного обучения
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Nov 1

ByRuihang Lai, Junru Shao, Siyuan Feng, Steven S. Lyubomirsky, Bohan Hou, Wuwei Lin, Zihao Ye, Hongyi Jin, Yuchen Jin, Jiawei Liu, Lesheng Jin, Yaxing Cai, Ziheng Jiang, Yong Wu, Sunghyun Park, Prakalp Srivastava, Jared G. Roesch, Todd C. Mowry, Tianqi Chen

Динамические вычисления форм стали критически важными в современных задачах машинного обучения, особенно в новых крупных языковых моделях. Успех этих моделей стимулировал спрос на их развертывание в разнообразных средах выполнения. В данной статье мы представляем Relax — абстракцию компилятора для оптимизации сквозных динамических задач машинного обучения. Relax вводит аннотации символических форм первого класса для глобального отслеживания динамических вычислений форм в программе. Также он предлагает кросс-уровневую абстракцию, которая инкапсулирует вычислительные графы, тензорные программы на уровне циклов и вызовы библиотек в единое представление, что позволяет выполнять кросс-уровневую оптимизацию. Мы разработали сквозной фреймворк компиляции с использованием предложенного подхода для оптимизации моделей с динамическими формами. Экспериментальные результаты на крупных языковых моделях показывают, что Relax демонстрирует производительность, сопоставимую с современными системами, оптимизированными вручную, на различных платформах, и позволяет развертывать новые динамические модели в более широком спектре сред, включая мобильные устройства, встроенные системы и веб-браузеры.

Ziya2: Обучение, ориентированное на данные, — это всё, что нужно большим языковым моделям.
Ziya2: Data-centric Learning is All LLMs Need

Nov 6

ByRuyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song

В последние годы было предложено множество крупных языковых моделей (LLM), включая как закрытые, так и открытые, которые постоянно устанавливают новые рекорды на различных тестовых наборах. Однако развитие LLM по-прежнему сталкивается с рядом проблем, таких как высокая стоимость обучения моделей с нуля и катастрофическое забывание при непрерывном предобучении. Хотя многие из этих проблем решаются в ходе исследований LLM, важным и практическим ограничением остается то, что многие работы чрезмерно сосредоточены на увеличении размеров моделей, не уделяя достаточного внимания всестороннему анализу и оптимизации использования данных предобучения в процессе обучения, а также правильной организации и эффективному использованию таких данных при обучении LLM в условиях ограниченных ресурсов. В данной работе мы представляем Ziya2 — модель с 13 миллиардами параметров, основанную на LLaMA2, которая прошла дополнительное предобучение на 700 миллиардах токенов. Мы сосредоточились на методах предобучения и использовали оптимизацию, ориентированную на данные, чтобы улучшить процесс обучения Ziya2 на различных этапах. Эксперименты показывают, что Ziya2 значительно превосходит другие модели на множестве тестовых наборов, демонстрируя особенно впечатляющие результаты по сравнению с представительными открытыми моделями. Ziya2 (Base) доступна по ссылкам: https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base и https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.

VR-NeRF: Высококачественные виртуализированные пространства для прогулок
VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Nov 5

ByLinning Xu, Vasu Agrawal, William Laney, Tony Garcia, Aayush Bansal, Changil Kim, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Aljaž Božič, Dahua Lin, Michael Zollhöfer, Christian Richardt

Мы представляем сквозную систему для высококачественного захвата, реконструкции модели и рендеринга в реальном времени проходимых пространств в виртуальной реальности с использованием нейронных полей излучения. Для этого мы разработали и собрали специализированную многокамерную установку, позволяющую плотно захватывать проходимые пространства с высокой точностью и многовидовыми изображениями с расширенным динамическим диапазоном, обеспечивая беспрецедентное качество и плотность данных. Мы расширяем метод мгновенных нейронных графических примитивов, вводя новое перцептивное цветовое пространство для обучения точному представлению HDR, а также эффективный механизм мипмаппинга для рендеринга с учетом уровня детализации и сглаживания, тщательно оптимизируя баланс между качеством и скоростью. Наш многопроцессорный рендерер позволяет выполнять высококачественный объемный рендеринг нашей модели нейронного поля излучения с полным разрешением VR 2K×2K на каждом глазу с частотой 36 Гц на нашей демонстрационной машине. Мы демонстрируем качество наших результатов на сложных наборах данных с высокой точностью и сравниваем наш метод и данные с существующими базовыми подходами. Мы публикуем наш набор данных на сайте проекта.

Управляйте вниманием вашей модели: постфактумное направление внимания для крупных языковых моделей
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

Nov 3

ByQingru Zhang, Chandan Singh, Liyuan Liu, Xiaodong Liu, Bin Yu, Jianfeng Gao, Tuo Zhao

В статьях, написанных людьми, мы часто используем тонкости стиля текста, такие как жирный шрифт и курсив, чтобы направлять внимание читателей. Эти текстовые акценты крайне важны для понимания передаваемой информации. При взаимодействии с большими языковыми моделями (LLM) возникает аналогичная потребность — направлять внимание модели на информацию, указанную пользователем, например, на инструкцию. Однако существующие методы ограничены обработкой обычного текста и не поддерживают такой механизм. Это побудило нас представить PASTA — Post-hoc Attention STeering Approach, метод, который позволяет LLM читать текст с акцентами, заданными пользователем. Для этого PASTA выделяет небольшое подмножество голов внимания и применяет точное перераспределение внимания на них, направляя внимание модели на указанные пользователем части текста. Как и в случае с промптами, PASTA применяется на этапе вывода и не требует изменения параметров модели. Эксперименты показывают, что PASTA может значительно улучшить способность LLM следовать инструкциям пользователя или интегрировать новые знания из пользовательских данных, что приводит к существенному улучшению производительности в различных задачах, например, к увеличению средней точности на 22% для модели LLAMA-7B. Наш код доступен по адресу https://github.com/QingruZhang/PASTA.

MFTCoder: Улучшение языковых моделей для программирования с помощью многозадачного тонкого настройки
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

Nov 4

ByBingchang Liu, Chaoyu Chen, Cong Liao, Zi Gong, Huan Wang, Zhichao Lei, Ming Liang, Dajun Chen, Min Shen, Hailian Zhou, Hang Yu, Jianguo Li

Код-ориентированные языковые модели (Code LLMs) стали отдельной областью исследований, где значительные усилия направлены на улучшение способностей моделей к написанию кода с помощью тонкой настройки предварительно обученных моделей. Предыдущие подходы к тонкой настройке обычно адаптировались под конкретные задачи или сценарии, что требовало отдельной настройки для каждой задачи, значительных ресурсов для обучения и создавало сложности в развертывании и поддержке. Кроме того, эти подходы не учитывали внутреннюю взаимосвязь между различными задачами, связанными с кодом. Чтобы преодолеть эти ограничения, мы представляем многоцелевую структуру тонкой настройки MFTcoder, которая позволяет одновременно и параллельно выполнять тонкую настройку для нескольких задач. Включая различные функции потерь, мы эффективно решаем общие проблемы многоцелевого обучения, такие как дисбаланс данных, разный уровень сложности и неодинаковая скорость сходимости. Многочисленные эксперименты убедительно показали, что наш подход к многоцелевой тонкой настройке превосходит как индивидуальную настройку для отдельных задач, так и настройку на смешанном наборе задач. Более того, MFTcoder предлагает эффективные возможности обучения, включая режимы эффективной токенизации данных и тонкую настройку PEFT, что значительно повышает скорость по сравнению с традиционными методами тонкой настройки. MFTcoder легко интегрируется с несколькими популярными открытыми языковыми моделями, такими как CodeLLama и Qwen. Используя основу CodeLLama, наша модель, настроенная с помощью MFTcoder, CodeFuse-CodeLLama-34B, достигает впечатляющего результата pass@1 в 74,4\% на бенчмарке HumaneEval, превосходя производительность GPT-4 (67\%, zero-shot). MFTCoder доступен в открытом исходном коде по адресу https://github.com/codefuse-ai/MFTCOder.

LDM3D-VR: Латентная диффузионная модель для 3D VR
LDM3D-VR: Latent Diffusion Model for 3D VR

Nov 6

ByGabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal

Латентные диффузионные модели доказали свою эффективность как передовой метод в создании и манипуляции визуальными данными. Однако, насколько нам известно, совместная генерация карт глубины и RGB-изображений до сих пор остается ограниченной. Мы представляем LDM3D-VR — набор диффузионных моделей, ориентированных на разработку виртуальной реальности, который включает LDM3D-pano и LDM3D-SR. Эти модели позволяют генерировать панорамные RGBD-изображения на основе текстовых запросов и повышать разрешение низкокачественных входных данных до высококачественных RGBD-изображений соответственно. Наши модели дообучены на основе существующих предобученных моделей с использованием наборов данных, содержащих панорамные/высококачественные RGB-изображения, карты глубины и текстовые описания. Обе модели оцениваются в сравнении с существующими родственными методами.

Внимание или свертка: трансформерные энкодеры в аудио-языковых моделях для повышения эффективности вывода
Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Nov 5

BySungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel

В данной работе мы показываем, что простая самоконтролируемая предобученная аудиомодель может достичь сопоставимой эффективности вывода с более сложными предобученными моделями, использующими трансформерные кодировщики для речи. Эти речевые трансформеры полагаются на комбинирование сверточных модулей с модулями самовнимания и достигают наилучшей производительности в задачах автоматического распознавания речи (ASR) с высокой эффективностью. Сначала мы демонстрируем, что использование таких речевых трансформеров в качестве кодировщика также значительно повышает эффективность предобученных аудиомоделей. Однако наше исследование показывает, что сопоставимую эффективность можно достичь исключительно с помощью продвинутого самовнимания. Мы показываем, что такой более простой подход особенно выгоден при использовании техники низкобитового квантования весов нейронной сети для повышения эффективности. Мы предполагаем, что это предотвращает распространение ошибок между различными квантованными модулями по сравнению с современными речевыми трансформерами, которые комбинируют квантованные сверточные модули и модули квантованного самовнимания.

CoVLM: Композиция визуальных объектов и отношений в крупных языковых моделях с помощью коммуникативного декодирования
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Nov 6

ByJunyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan

Замечательная способность человека заключается в композиционном мышлении, то есть в умении делать "бесконечное использование конечных средств". Однако современные крупные модели, объединяющие зрение и язык (VLMs), не обладают такими композиционными способностями из-за их "мешкообразного" поведения и неспособности конструировать слова, которые корректно представляют визуальные объекты и отношения между ними. В связи с этим мы предлагаем CoVLM, которая может направлять языковую модель (LLM) на явное составление визуальных объектов и отношений в тексте, а также динамически взаимодействовать с визуальным кодировщиком и сетью детекции для достижения коммуникативного декодирования между зрением и языком. В частности, мы сначала разрабатываем набор новых коммуникационных токенов для LLM, предназначенных для динамического взаимодействия между системой визуальной детекции и языковой системой. Коммуникационный токен генерируется LLM после визуального объекта или отношения, чтобы сообщить сети детекции предложить области, релевантные сгенерированному на данный момент предложению. Предложенные области интереса (ROIs) затем возвращаются в LLM для улучшения генерации языка с учетом соответствующих областей. Таким образом, LLM может составлять визуальные объекты и отношения через коммуникационные токены. Взаимодействие между зрением и языком и языком и зрением выполняется итеративно до тех пор, пока не будет сгенерировано все предложение. Наша структура эффективно устраняет разрыв между визуальным восприятием и LLM и значительно превосходит предыдущие VLMs по показателям композиционного мышления (например, ~20% в HICO-DET mAP, ~14% в Cola top-1 accuracy и ~3% в ARO top-1 accuracy). Мы также достигаем современных результатов в традиционных задачах, связанных с зрением и языком, таких как понимание референциальных выражений и визуальный вопросно-ответный анализ.

Совместное обучение и совместная дистилляция для повышения качества и сжатия языковых моделей
Co-training and Co-distillation for Quality Improvement and Compression of Language Models

Nov 6

ByHayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min

Дистилляция знаний (Knowledge Distillation, KD) сжимает вычислительно затратные предобученные языковые модели (PLM), передавая их знания более компактным моделям, что позволяет использовать их в условиях ограниченных ресурсов или в режиме реального времени. Однако большинство компактных моделей не превосходят по производительности исходные крупные модели, что приводит к компромиссу между производительностью и скоростью вывода. Для решения этой проблемы мы предлагаем Co-Training and Co-Distillation (CTCD) — новый фреймворк, который одновременно улучшает производительность и скорость вывода за счет совместного обучения двух моделей с взаимной дистилляцией знаний. Фреймворк CTCD успешно достигает этого благодаря двум важным выводам: 1) Дистилляция знаний от компактной модели к крупной модели в процессе совместного обучения улучшает производительность крупной модели. 2) Улучшенная производительность крупной модели дополнительно повышает производительность компактной модели. Фреймворк CTCD демонстрирует потенциал, так как может быть объединен с существующими методами, такими как проектирование архитектуры или аугментация данных, заменяя односторонние методы KD, для достижения дальнейшего улучшения производительности. Обширные абляционные исследования подтверждают эффективность CTCD, а компактная модель, полученная с помощью CTCD, превосходит исходную крупную модель на значительную величину в 1.66 балла на бенчмарке GLUE.

Consistent4D: Согласованная генерация 360° динамических объектов из моноскопического видео
Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

Nov 6

ByYanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao

В данной статье мы представляем Consistent4D — новый подход для генерации 4D-динамических объектов из некалиброванных монохромных видео. Уникальность нашего метода заключается в том, что мы формулируем задачу реконструкции 360-градусных динамических объектов как проблему 4D-генерации, устраняя необходимость трудоемкого сбора многовидовых данных и калибровки камер. Это достигается за счет использования объектно-ориентированной 3D-осознанной модели диффузии изображений в качестве основного сигнала обучения для Dynamic Neural Radiance Fields (DyNeRF). В частности, мы предлагаем каскадную архитектуру DyNeRF, которая способствует стабильной сходимости и временной непрерывности при обучении с дискретным по временной оси сигналом. Для достижения пространственной и временной согласованности мы дополнительно вводим функцию потерь на основе интерполяции (Interpolation-driven Consistency Loss). Она оптимизируется путем минимизации расхождения между кадрами, сгенерированными DyNeRF, и интерполированными кадрами из предварительно обученной модели интерполяции видео. Многочисленные эксперименты показывают, что наш метод Consistent4D демонстрирует конкурентоспособные результаты по сравнению с существующими аналогами, открывая новые возможности для генерации 4D-динамических объектов из монохромных видео, а также показывая преимущества в традиционных задачах текстовой генерации 3D-моделей. Страница проекта доступна по адресу: https://consistent4d.github.io/.

Настройка моделей с самообоснованием через дистилляцию с множественными наградами
Tailoring Self-Rationalizers with Multi-Reward Distillation

Nov 6

BySahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren

Крупные языковые модели (LM) способны генерировать свободные текстовые обоснования для помощи в ответах на вопросы. Однако предыдущие исследования 1) указывают на то, что полезная самообоснованность проявляется только на значительных масштабах (например, GPT-3 с 175 миллиардами параметров); и 2) в основном сосредоточены на итоговой производительности, игнорируя семантику самих обоснований, например, являются ли они достоверными, истинными и полезными для людей? В данной работе мы позволяем небольшим языковым моделям (примерно в 200 раз меньше GPT-3) генерировать обоснования, которые не только улучшают производительность на конечных задачах, но также становятся более правдоподобными, согласованными и разнообразными, что оценивается как автоматически, так и людьми. Наш метод, MaRio (Multi-rewArd RatIOnalization), представляет собой алгоритм самообоснования с множественными наградами, который оптимизирует различные свойства, такие как правдоподобие, разнообразие и согласованность. Результаты на пяти сложных наборах данных для вопросов и ответов — StrategyQA, QuaRel, OpenBookQA, NumerSense и QASC — показывают, что MaRio не только повышает точность выполнения задач, но и улучшает качество самообоснования небольших языковых моделей по указанным критериям лучше, чем базовый подход с контролируемым тонким обучением (SFT). Обширные оценки людьми подтверждают, что обоснования MaRio предпочтительнее по сравнению с обоснованиями SFT, а также демонстрируют качественные улучшения в правдоподобии и согласованности.

Трансформер с распределенной обработкой сверхдлинных последовательностей
Ultra-Long Sequence Distributed Transformer

Nov 4

ByXiao Wang, Isaac Lyngaas, Aristeidis Tsaris, Peng Chen, Sajal Dash, Mayanka Chandra Shekar, Tao Luo, Hong-Jun Yoon, Mohamed Wahib, John Gouley

Трансформерные модели, обученные на длинных последовательностях, часто достигают более высокой точности, чем модели, обученные на коротких последовательностях. К сожалению, традиционные трансформеры сталкиваются с трудностями при обучении на длинных последовательностях из-за чрезмерных требований к вычислениям и памяти. Существующие методы для обучения на длинных последовательностях предлагают ограниченное ускорение и снижение потребления памяти, а также могут снижать точность. В данной статье представлен новый и эффективный метод распределенного обучения — Long Short-Sequence Transformer (LSS Transformer), предназначенный для обучения трансформеров на длинных последовательностях. Он распределяет длинную последовательность на сегменты между GPU, где каждый GPU вычисляет частичное самовнимание для своего сегмента. Затем используется объединенная коммуникация и новая техника двойного усреднения градиентов, чтобы избежать необходимости агрегирования частичного самовнимания и минимизировать накладные расходы на коммуникацию. Мы оценили производительность LSS Transformer в сравнении с современным методом параллелизма последовательностей от Nvidia на наборе данных Wikipedia enwik8. Результаты показывают, что предложенный метод обеспечивает ускорение в 5,6 раз и снижение потребления памяти в 10,2 раза по сравнению с современным методом параллелизма последовательностей на 144 GPU Nvidia V100. Более того, наш алгоритм масштабируется до экстремальной длины последовательности в 50 112 на 3 456 GPU, достигая 161% сверхлинейной параллельной эффективности и пропускной способности в 32 петафлопса.