Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

MaskLLM: Обучаемая полуструктурированная разреженность для больших языковых моделей
MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

Sep 26

ByGongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang

Большие языковые модели (LLM) отличаются своими огромными параметрами, что обычно приводит к значительной избыточности. В данной работе представлена MaskLLM, обучаемый метод обрезки, который устанавливает Полуструктурированную (или "N:M") Разреженность в LLM с целью снижения вычислительной нагрузки во время вывода. Вместо разработки нового критерия важности, MaskLLM явно моделирует образцы N:M как обучаемое распределение с помощью выборки Gumbel Softmax. Этот подход облегчает обучение на масштабных наборах данных и предлагает два примечательных преимущества: 1) Маски высокого качества - наш метод эффективно масштабируется на большие наборы данных и изучает точные маски; 2) Переносимость - вероятностное моделирование распределения масок позволяет переносить обучение разреженности между областями или задачами. Мы оценили MaskLLM, используя разреженность 2:4 на различных LLM, включая LLaMA-2, Nemotron-4 и GPT-3, с размерами параметров от 843 миллионов до 15 миллиардов, и наши эмпирические результаты показывают существенные улучшения по сравнению с современными методами. Например, ведущие подходы достигают перплексии (PPL) 10 или более на Wikitext по сравнению с плотной моделью, у которой PPL 5,12, но MaskLLM достигает значительно более низкой PPL 6,72 только за счет обучения масок с зафиксированными весами. Более того, обучаемая природа MaskLLM позволяет создавать настраиваемые маски для без потерь применения разреженности 2:4 к последующим задачам или областям. Код доступен по адресу https://github.com/NVlabs/MaskLLM.

EMOVA: Дарящие силу языковые модели видеть, слышать и говорить с яркими эмоциями
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Sep 26

ByKai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu

GPT-4o, омни-модель, позволяющая вести голосовые разговоры с разнообразными эмоциями и тонами, ставит важный этап в развитии омни-модельных основных моделей. Однако обеспечение возможности крупным языковым моделям воспринимать и создавать изображения, тексты и речи полностью на основе общедоступных данных остается сложной задачей в сообществе с открытым исходным кодом. Существующие модели видео-языка зависят от внешних инструментов для обработки речи, в то время как модели речи-языка по-прежнему страдают от ограниченных или даже отсутствующих способностей понимания видео. Для устранения этого разрыва мы предлагаем EMOVA (EMotionally Omni-present Voice Assistant), чтобы предоставить крупным языковым моделям возможности работы с речью end-to-end, сохраняя при этом ведущую производительность моделей видео-языка. С помощью семантического-акустического декодера речи мы обнаружили, что омни-модальное выравнивание может дополнительно улучшить способности видео-языка и речи по сравнению с соответствующими двухмодальными моделями. Более того, был предложен легкий стилевой модуль для гибкого управления стилем речи (например, эмоциями и высотой тона). Впервые EMOVA достигает передовой производительности как на бенчмарках видео-языка и речи, так и поддерживает омни-модальный разговор с яркими эмоциями.

LLaVA-3D: Простой, но эффективный способ придания LMMs трехмерного осознания.
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

Sep 26

ByChenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu

Недавние достижения в области крупных мультимодальных моделей (Large Multimodal Models, LMMs) значительно улучшили их профессионализм в задачах 2D визуального понимания, позволяя им эффективно обрабатывать и понимать изображения и видео. Однако развитие LMMs с осознанием 3D для понимания трехмерных сцен затруднено из-за отсутствия масштабных наборов данных 3D видео-языка и мощных 3D кодировщиков. В данной статье мы представляем простую, но эффективную структуру под названием LLaVA-3D. Используя сильные априорные знания 2D понимания из LLaVA, наш LLaVA-3D эффективно адаптирует LLaVA для понимания трехмерных сцен без ущерба для возможностей 2D понимания. Для достижения этой цели мы используем простое, но эффективное представление, 3D Патч, который соединяет признаки 2D CLIP патчей с их соответствующими позициями в трехмерном пространстве. Интегрируя 3D Патчи в 2D LMMs и используя совместную настройку инструкций 2D и 3D видео-языка, мы устанавливаем единую архитектуру как для понимания 2D изображений, так и для понимания трехмерных сцен. Экспериментальные результаты показывают, что LLaVA-3D сходится в 3,5 раза быстрее, чем существующие 3D LMMs при обучении на наборах данных 3D видео-языка. Более того, LLaVA-3D не только достигает передового качества в различных задачах 3D, но также сохраняет сравнимые возможности понимания 2D изображений и видео-языкового общения с LLaVA.

Лотос: Модель визуального фундамента на основе диффузии для высококачественного плотного прогнозирования
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

Sep 26

ByJing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen

Использование визуальных априорных данных предварительно обученных моделей диффузии текста в изображение предлагает многообещающее решение для улучшения обобщения без обучающих примеров в задачах плотного прогнозирования. Однако существующие методы часто бездумно используют исходную формулировку диффузии, что может быть неоптимальным из-за фундаментальных различий между плотным прогнозированием и генерацией изображений. В данной статье мы предоставляем системный анализ формулировки диффузии для плотного прогнозирования, сосредотачиваясь на качестве и эффективности. Мы обнаружили, что исходный тип параметризации для генерации изображений, который обучается предсказывать шум, вреден для плотного прогнозирования; многошаговый процесс диффузии с добавлением/удалением шума также излишен и сложен для оптимизации. Исходя из этих выводов, мы представляем Lotus, модель визуального фундамента на основе диффузии с простым, но эффективным протоколом адаптации для плотного прогнозирования. Конкретно, Lotus обучается непосредственно предсказывать аннотации вместо шума, тем самым избегая вредной дисперсии. Мы также переформулируем процесс диффузии в одношаговую процедуру, упрощая оптимизацию и значительно увеличивая скорость вывода. Кроме того, мы представляем новую стратегию настройки под названием "сохранитель деталей", которая обеспечивает более точные и детализированные прогнозы. Без увеличения объема обучающих данных или мощности модели, Lotus достигает лучших показателей в задачах нулевого прогнозирования глубины и нормали на различных наборах данных. Он также значительно повышает эффективность, будучи в сотни раз быстрее, чем большинство существующих методов на основе диффузии.

Следование инструкциям без настройки инструкций
Instruction Following without Instruction Tuning

Sep 21

ByJohn Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning

Настройка инструкций обычно означает точную настройку языковой модели на пары инструкция-ответ. Мы обнаружили две формы адаптации (настройки), которые уступают настройке по инструкциям, но все же приводят к следованию инструкциям; мы называем это неявной настройкой по инструкциям. Сначала мы обнаружили, что пары инструкция-ответ не являются обязательными: обучение только на ответах, без соответствующих инструкций, приводит к следованию инструкциям. Это указывает на то, что предварительно обученные модели имеют отображение инструкция-ответ, которое проявляется при обучении модели желаемому распределению ответов. Однако мы затем обнаружили, что не обязательно обучать желаемому распределению ответов: обучение по инструкциям-ответам на узкодоменных данных, например, поэзии, все равно приводит к широкому следованию инструкциям, например, генерации рецептов. В частности, когда инструкции сильно отличаются от тех, что в узкой области тонкой настройки, ответы моделей не соответствуют стилю области тонкой настройки. Чтобы начать объяснять неявную настройку по инструкциям, мы предполагаем, что очень простые изменения в распределении языковой модели приводят к следованию инструкциям. Мы поддерживаем это, написав вручную правила для языковой модели на основе правил, которая приводит к следованию инструкциям в произведении экспертов с предварительно обученной моделью. Правила заключаются в медленном увеличении вероятности завершения последовательности, штрафе за повторы и равномерном изменении вероятностей 15 слов. В заключение, адаптации, сделанные без цели привести к следованию инструкциям, могут делать это неявно.

Обнаружение драгоценностей в ранних слоях: ускорение LLM с длинным контекстом с сокращением входных токенов в 1000 раз
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction

Sep 25

ByZhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в обработке длинных контекстных входов, но это происходит за счет увеличения вычислительных ресурсов и задержки. Наше исследование представляет новый подход для устранения узкого места длинного контекста для ускорения вывода LLM и сокращения потребления памяти GPU. Наше исследование показывает, что LLM могут идентифицировать соответствующие токены на ранних слоях перед генерацией ответов на запрос. Используя это понимание, мы предлагаем алгоритм, который использует ранние слои LLM в качестве фильтров для выбора и сжатия входных токенов, что значительно сокращает длину контекста для последующей обработки. Наш метод, GemFilter, демонстрирует существенное улучшение как в скорости, так и в эффективности использования памяти по сравнению с существующими техниками, такими как стандартное внимание и SnapKV/H2O. Важно отметить, что он достигает увеличения скорости в 2,4 раза и снижения использования памяти GPU на 30\% по сравнению с методами SOTA. Оценка на задаче "Иголка в стоге сена" показывает, что GemFilter значительно превосходит стандартное внимание, SnapKV и демонстрирует сопоставимую производительность на вызове LongBench. GemFilter прост в использовании, не требует обучения и широко применим для различных LLM. Критически важно то, что он обеспечивает интерпретируемость, позволяя людям проверить выбранную последовательность ввода. Эти результаты не только приносят практические выгоды для развертывания LLM, но и улучшают наше понимание внутренних механизмов LLM, что открывает путь для дальнейших оптимизаций в проектировании и выводе LLM. Наш код доступен по адресу https://github.com/SalesforceAIResearch/GemFilter.

Посттренировка латентных моделей диффузии в пространстве пикселей
Pixel-Space Post-Training of Latent Diffusion Models

Sep 26

ByChristina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang

Латентные модели диффузии (LDM) в последние годы сделали значительные прорывы в области генерации изображений. Одним из основных преимуществ LDM является их способность работать в сжатом латентном пространстве, что позволяет более эффективно обучать и применять модели. Однако несмотря на эти преимущества, остаются некоторые проблемы с LDM. Например, наблюдается, что LDM часто несовершенно генерируют детали высокой частоты и сложные композиции. Мы предполагаем, что одной из причин этих недостатков является то, что вся предварительная и последующая настройка LDM выполняется в латентном пространстве, которое обычно имеет разрешение в 8 раз меньше, чем выходные изображения. Для решения этой проблемы мы предлагаем добавить наблюдение в пространстве пикселей в процесс последующей настройки для лучшего сохранения деталей высокой частоты. В экспериментах мы показываем, что добавление целевого пиксельного пространства значительно улучшает как качество тонкой настройки под наблюдением, так и последующую настройку на основе предпочтений с большим отрывом на современных моделях трансформера DiT и диффузионных моделях U-Net как по визуальным метрикам качества, так и визуальным метрикам дефектов, сохраняя при этом ту же качество выравнивания текста.

Необходимость анализа разговоров в эпоху LLM: Обзор задач, методов и тенденций.
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends

Sep 21

ByXinghua Zhang, Haiyang Yu, Yongbin Li, Minzheng Wang, Longze Chen, Fei Huang

В эпоху больших языковых моделей (LLM) благодаря стремительному развитию языкового пользовательского интерфейса накапливается огромное количество журналов бесед. Анализ бесед (CA) нацелен на выявление и анализ ключевой информации из данных бесед, оптимизацию ручных процессов и поддержку бизнес-инсайтов и принятия решений. Потребность CA в извлечении действенных идей и обеспечении эмпауэрмента становится все более заметной и привлекает широкое внимание. Однако отсутствие четкой области применения CA приводит к разнообразию техник, что затрудняет формирование систематического технического синергетического подхода для усиления бизнес-приложений. В данной статье мы проводим тщательный обзор и систематизируем задачу CA для обобщения существующих связанных работ. Конкретно, мы формально определяем задачу CA для преодоления фрагментированного и хаотичного ландшафта в этой области и выявляем четыре ключевых шага CA от восстановления сцены беседы до анализа атрибуции в глубину, а затем к выполнению целевой тренировки, наконец, генерируя беседы на основе целевой тренировки для достижения конкретных целей. Кроме того, мы демонстрируем соответствующие бенчмарки, обсуждаем потенциальные вызовы и указываем на будущие направления как в индустрии, так и в академии. С учетом текущих достижений очевидно, что большинство усилий по-прежнему сосредоточены на анализе поверхностных элементов беседы, что создает значительный разрыв между исследованиями и бизнесом, и с помощью LLM недавние работы показывают тенденцию к исследованиям причинности и стратегических задач, которые являются сложными и высокоуровневыми. Проанализированные опыт и идеи будут неизбежно иметь более широкую прикладную ценность в бизнес-операциях, ориентированных на журналы бесед.

Снижение следа многовекторного поиска с минимальным влиянием на производительность с помощью пула токенов
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling

Sep 23

ByBenjamin Clavié, Antoine Chaffin, Griffin Adams

За последние несколько лет методы многовекторного поиска, возглавляемые ColBERT, стали все более популярным подходом к нейронному информационному поиску. Храня представления на уровне токенов, а не на уровне документов, эти методы продемонстрировали очень высокую производительность поиска, особенно вне предметной области. Однако необходимость в хранении большого количества связанных векторов остается важным недостатком, затрудняющим практическое применение. В данной статье мы представляем простой подход к кластеризации токенов для агрессивного сокращения количества векторов, которые необходимо хранить. Этот метод может уменьшить объем памяти, занимаемый индексами ColBERT, на 50% практически без ухудшения производительности поиска. Данный метод также позволяет дополнительно сократить количество векторов на 66%-75%, при этом ухудшение остается ниже 5% на большинстве наборов данных. Важно отметить, что данный подход не требует изменений в архитектуре или обработки запросов во время выполнения и может быть использован как простое внедрение во время индексации с любой моделью, подобной ColBERT.

Disco4D: Раздельная генерация и анимация человека в 4D из одного изображения
Disco4D: Disentangled 4D Human Generation and Animation from a Single Image

Sep 25

ByHui En Pang, Shuai Liu, Zhongang Cai, Lei Yang, Tianwei Zhang, Ziwei Liu

Мы представляем Disco4D, новую рамку гауссова сплэттинга для генерации и анимации человека в 4D из одного изображения. В отличие от существующих методов, Disco4D отчетливо разделяет одежду (с помощью гауссовых моделей) от человеческого тела (с помощью модели SMPL-X), значительно улучшая детали генерации и гибкость. Он имеет следующие технические инновации. 1) Disco4D учится эффективно подгонять гауссовы одежды над гауссовыми SMPL-X. 2) Он принимает модели диффузии для улучшения процесса генерации в 3D, например, моделирование закрытых частей, не видимых на входном изображении. 3) Он учит кодирование личности для каждой гауссовой одежды, чтобы облегчить разделение и извлечение элементов одежды. Кроме того, Disco4D естественным образом поддерживает анимацию человека в 4D с яркой динамикой. Обширные эксперименты демонстрируют превосходство Disco4D в задачах генерации и анимации человека в 4D. Наши визуализации можно найти на https://disco-4d.github.io/.

Робот видит, робот делает: имитация манипулирования артикулированным объектом с монокулярной реконструкцией в 4D
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

Sep 26

ByJustin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa

Люди могут научиться манипулировать новыми объектами, просто наблюдая за другими; предоставление роботам возможности учиться на таких демонстрациях позволило бы создать естественный интерфейс для определения новых поведенческих моделей. В данной работе разрабатывается метод Robot See Robot Do (RSRD) для имитации артикулированной манипуляции объектами по одному монохромному RGB-видео демонстрации человека и одному статическому многоплоскостному сканированию объекта. Сначала мы предлагаем 4D Дифференцируемые Модели Частей (4D-DPM), метод восстановления 3D движения части от монохромного видео с дифференцируемым рендерингом. Этот анализно-синтезный подход использует полевые функции, сосредоточенные на частях, в итеративной оптимизации, что позволяет использовать геометрические регуляризаторы для восстановления 3D движений только из одного видео. Имея такое 4D восстановление, робот реплицирует траектории объекта, планируя двуручные движения рук, которые вызывают движение демонстрируемой части объекта. Представляя демонстрации как траектории, сосредоточенные на частях, RSRD фокусируется на воспроизведении намеренного поведения демонстрации, учитывая собственные морфологические ограничения робота, вместо попыток воспроизвести движение руки. Мы оцениваем точность трекинга 3D 4D-DPM на аннотированных данными о правильных траекториях частей и производительность физического исполнения RSRD на 9 объектах в каждом из 10 испытаний на двуручном роботе YuMi. Каждая фаза RSRD достигает среднего уровня успешности 87%, что дает общий уровень успешности 60% на 90 испытаниях. Заметим, что это достигается с использованием только полевых функций, извлеченных из крупных предварительно обученных моделей зрения - без какого-либо специфического обучения, донастройки, сбора набора данных или аннотации. Страница проекта: https://robot-see-robot-do.github.io

Улучшение извлечения структурированных данных с помощью GraphRAG: случай из данных о футболе
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study

Sep 26

ByZahra Sepasdar, Sushant Gautam, Cise Midoglu, Michael A. Riegler, Pål Halvorsen

Извлечение содержательных выводов из больших и сложных наборов данных представляет существенные вызовы, особенно в обеспечении точности и актуальности извлеченной информации. Традиционные методы поиска данных, такие как последовательный поиск и поиск на основе индексов, часто терпят неудачу при работе с сложными и взаимосвязанными структурами данных, что приводит к неполным или вводящим в заблуждение результатам. Для преодоления этих ограничений мы представляем Structured-GraphRAG, универсальную платформу, разработанную для улучшения поиска информации по структурированным наборам данных в естественных языковых запросах. Structured-GraphRAG использует несколько графов знаний, которые представляют данные в структурированном формате и захватывают сложные взаимосвязи между сущностями, обеспечивая более тонкий и всесторонний поиск информации. Этот графовый подход снижает риск ошибок в выводах языковой модели, базируя ответы на структурированном формате и тем самым повышая надежность результатов. Мы демонстрируем эффективность Structured-GraphRAG, сравнивая ее производительность с недавно опубликованным методом, использующим традиционное увеличение поиска-генерации. Наши результаты показывают, что Structured-GraphRAG значительно улучшает эффективность обработки запросов и сокращает время ответа. Хотя наше исследование сосредоточено на данных о футболе, дизайн платформы широко применим, предлагая мощный инструмент для анализа данных и улучшения приложений языковых моделей в различных структурированных областях.