Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) отличаются своими огромными параметрами, что обычно приводит к значительной избыточности. В данной работе представлена MaskLLM, обучаемый метод обрезки, который устанавливает Полуструктурированную (или "N:M") Разреженность в LLM с целью снижения вычислительной нагрузки во время вывода. Вместо разработки нового критерия важности, MaskLLM явно моделирует образцы N:M как обучаемое распределение с помощью выборки Gumbel Softmax. Этот подход облегчает обучение на масштабных наборах данных и предлагает два примечательных преимущества: 1) Маски высокого качества - наш метод эффективно масштабируется на большие наборы данных и изучает точные маски; 2) Переносимость - вероятностное моделирование распределения масок позволяет переносить обучение разреженности между областями или задачами. Мы оценили MaskLLM, используя разреженность 2:4 на различных LLM, включая LLaMA-2, Nemotron-4 и GPT-3, с размерами параметров от 843 миллионов до 15 миллиардов, и наши эмпирические результаты показывают существенные улучшения по сравнению с современными методами. Например, ведущие подходы достигают перплексии (PPL) 10 или более на Wikitext по сравнению с плотной моделью, у которой PPL 5,12, но MaskLLM достигает значительно более низкой PPL 6,72 только за счет обучения масок с зафиксированными весами. Более того, обучаемая природа MaskLLM позволяет создавать настраиваемые маски для без потерь применения разреженности 2:4 к последующим задачам или областям. Код доступен по адресу https://github.com/NVlabs/MaskLLM.
GPT-4o, омни-модель, позволяющая вести голосовые разговоры с разнообразными эмоциями и тонами, ставит важный этап в развитии омни-модельных основных моделей. Однако обеспечение возможности крупным языковым моделям воспринимать и создавать изображения, тексты и речи полностью на основе общедоступных данных остается сложной задачей в сообществе с открытым исходным кодом. Существующие модели видео-языка зависят от внешних инструментов для обработки речи, в то время как модели речи-языка по-прежнему страдают от ограниченных или даже отсутствующих способностей понимания видео. Для устранения этого разрыва мы предлагаем EMOVA (EMotionally Omni-present Voice Assistant), чтобы предоставить крупным языковым моделям возможности работы с речью end-to-end, сохраняя при этом ведущую производительность моделей видео-языка. С помощью семантического-акустического декодера речи мы обнаружили, что омни-модальное выравнивание может дополнительно улучшить способности видео-языка и речи по сравнению с соответствующими двухмодальными моделями. Более того, был предложен легкий стилевой модуль для гибкого управления стилем речи (например, эмоциями и высотой тона). Впервые EMOVA достигает передовой производительности как на бенчмарках видео-языка и речи, так и поддерживает омни-модальный разговор с яркими эмоциями.
Недавние достижения в области крупных мультимодальных моделей (Large Multimodal Models, LMMs) значительно улучшили их профессионализм в задачах 2D визуального понимания, позволяя им эффективно обрабатывать и понимать изображения и видео. Однако развитие LMMs с осознанием 3D для понимания трехмерных сцен затруднено из-за отсутствия масштабных наборов данных 3D видео-языка и мощных 3D кодировщиков. В данной статье мы представляем простую, но эффективную структуру под названием LLaVA-3D. Используя сильные априорные знания 2D понимания из LLaVA, наш LLaVA-3D эффективно адаптирует LLaVA для понимания трехмерных сцен без ущерба для возможностей 2D понимания. Для достижения этой цели мы используем простое, но эффективное представление, 3D Патч, который соединяет признаки 2D CLIP патчей с их соответствующими позициями в трехмерном пространстве. Интегрируя 3D Патчи в 2D LMMs и используя совместную настройку инструкций 2D и 3D видео-языка, мы устанавливаем единую архитектуру как для понимания 2D изображений, так и для понимания трехмерных сцен. Экспериментальные результаты показывают, что LLaVA-3D сходится в 3,5 раза быстрее, чем существующие 3D LMMs при обучении на наборах данных 3D видео-языка. Более того, LLaVA-3D не только достигает передового качества в различных задачах 3D, но также сохраняет сравнимые возможности понимания 2D изображений и видео-языкового общения с LLaVA.
Использование визуальных априорных данных предварительно обученных моделей диффузии текста в изображение предлагает многообещающее решение для улучшения обобщения без обучающих примеров в задачах плотного прогнозирования. Однако существующие методы часто бездумно используют исходную формулировку диффузии, что может быть неоптимальным из-за фундаментальных различий между плотным прогнозированием и генерацией изображений. В данной статье мы предоставляем системный анализ формулировки диффузии для плотного прогнозирования, сосредотачиваясь на качестве и эффективности. Мы обнаружили, что исходный тип параметризации для генерации изображений, который обучается предсказывать шум, вреден для плотного прогнозирования; многошаговый процесс диффузии с добавлением/удалением шума также излишен и сложен для оптимизации. Исходя из этих выводов, мы представляем Lotus, модель визуального фундамента на основе диффузии с простым, но эффективным протоколом адаптации для плотного прогнозирования. Конкретно, Lotus обучается непосредственно предсказывать аннотации вместо шума, тем самым избегая вредной дисперсии. Мы также переформулируем процесс диффузии в одношаговую процедуру, упрощая оптимизацию и значительно увеличивая скорость вывода. Кроме того, мы представляем новую стратегию настройки под названием "сохранитель деталей", которая обеспечивает более точные и детализированные прогнозы. Без увеличения объема обучающих данных или мощности модели, Lotus достигает лучших показателей в задачах нулевого прогнозирования глубины и нормали на различных наборах данных. Он также значительно повышает эффективность, будучи в сотни раз быстрее, чем большинство существующих методов на основе диффузии.
Настройка инструкций обычно означает точную настройку языковой модели на пары инструкция-ответ. Мы обнаружили две формы адаптации (настройки), которые уступают настройке по инструкциям, но все же приводят к следованию инструкциям; мы называем это неявной настройкой по инструкциям. Сначала мы обнаружили, что пары инструкция-ответ не являются обязательными: обучение только на ответах, без соответствующих инструкций, приводит к следованию инструкциям. Это указывает на то, что предварительно обученные модели имеют отображение инструкция-ответ, которое проявляется при обучении модели желаемому распределению ответов. Однако мы затем обнаружили, что не обязательно обучать желаемому распределению ответов: обучение по инструкциям-ответам на узкодоменных данных, например, поэзии, все равно приводит к широкому следованию инструкциям, например, генерации рецептов. В частности, когда инструкции сильно отличаются от тех, что в узкой области тонкой настройки, ответы моделей не соответствуют стилю области тонкой настройки. Чтобы начать объяснять неявную настройку по инструкциям, мы предполагаем, что очень простые изменения в распределении языковой модели приводят к следованию инструкциям. Мы поддерживаем это, написав вручную правила для языковой модели на основе правил, которая приводит к следованию инструкциям в произведении экспертов с предварительно обученной моделью. Правила заключаются в медленном увеличении вероятности завершения последовательности, штрафе за повторы и равномерном изменении вероятностей 15 слов. В заключение, адаптации, сделанные без цели привести к следованию инструкциям, могут делать это неявно.
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в обработке длинных контекстных входов, но это происходит за счет увеличения вычислительных ресурсов и задержки. Наше исследование представляет новый подход для устранения узкого места длинного контекста для ускорения вывода LLM и сокращения потребления памяти GPU. Наше исследование показывает, что LLM могут идентифицировать соответствующие токены на ранних слоях перед генерацией ответов на запрос. Используя это понимание, мы предлагаем алгоритм, который использует ранние слои LLM в качестве фильтров для выбора и сжатия входных токенов, что значительно сокращает длину контекста для последующей обработки. Наш метод, GemFilter, демонстрирует существенное улучшение как в скорости, так и в эффективности использования памяти по сравнению с существующими техниками, такими как стандартное внимание и SnapKV/H2O. Важно отметить, что он достигает увеличения скорости в 2,4 раза и снижения использования памяти GPU на 30\% по сравнению с методами SOTA. Оценка на задаче "Иголка в стоге сена" показывает, что GemFilter значительно превосходит стандартное внимание, SnapKV и демонстрирует сопоставимую производительность на вызове LongBench. GemFilter прост в использовании, не требует обучения и широко применим для различных LLM. Критически важно то, что он обеспечивает интерпретируемость, позволяя людям проверить выбранную последовательность ввода. Эти результаты не только приносят практические выгоды для развертывания LLM, но и улучшают наше понимание внутренних механизмов LLM, что открывает путь для дальнейших оптимизаций в проектировании и выводе LLM. Наш код доступен по адресу https://github.com/SalesforceAIResearch/GemFilter.
Латентные модели диффузии (LDM) в последние годы сделали значительные прорывы в области генерации изображений. Одним из основных преимуществ LDM является их способность работать в сжатом латентном пространстве, что позволяет более эффективно обучать и применять модели. Однако несмотря на эти преимущества, остаются некоторые проблемы с LDM. Например, наблюдается, что LDM часто несовершенно генерируют детали высокой частоты и сложные композиции. Мы предполагаем, что одной из причин этих недостатков является то, что вся предварительная и последующая настройка LDM выполняется в латентном пространстве, которое обычно имеет разрешение в 8 раз меньше, чем выходные изображения. Для решения этой проблемы мы предлагаем добавить наблюдение в пространстве пикселей в процесс последующей настройки для лучшего сохранения деталей высокой частоты. В экспериментах мы показываем, что добавление целевого пиксельного пространства значительно улучшает как качество тонкой настройки под наблюдением, так и последующую настройку на основе предпочтений с большим отрывом на современных моделях трансформера DiT и диффузионных моделях U-Net как по визуальным метрикам качества, так и визуальным метрикам дефектов, сохраняя при этом ту же качество выравнивания текста.
В эпоху больших языковых моделей (LLM) благодаря стремительному развитию языкового пользовательского интерфейса накапливается огромное количество журналов бесед. Анализ бесед (CA) нацелен на выявление и анализ ключевой информации из данных бесед, оптимизацию ручных процессов и поддержку бизнес-инсайтов и принятия решений. Потребность CA в извлечении действенных идей и обеспечении эмпауэрмента становится все более заметной и привлекает широкое внимание. Однако отсутствие четкой области применения CA приводит к разнообразию техник, что затрудняет формирование систематического технического синергетического подхода для усиления бизнес-приложений. В данной статье мы проводим тщательный обзор и систематизируем задачу CA для обобщения существующих связанных работ. Конкретно, мы формально определяем задачу CA для преодоления фрагментированного и хаотичного ландшафта в этой области и выявляем четыре ключевых шага CA от восстановления сцены беседы до анализа атрибуции в глубину, а затем к выполнению целевой тренировки, наконец, генерируя беседы на основе целевой тренировки для достижения конкретных целей. Кроме того, мы демонстрируем соответствующие бенчмарки, обсуждаем потенциальные вызовы и указываем на будущие направления как в индустрии, так и в академии. С учетом текущих достижений очевидно, что большинство усилий по-прежнему сосредоточены на анализе поверхностных элементов беседы, что создает значительный разрыв между исследованиями и бизнесом, и с помощью LLM недавние работы показывают тенденцию к исследованиям причинности и стратегических задач, которые являются сложными и высокоуровневыми. Проанализированные опыт и идеи будут неизбежно иметь более широкую прикладную ценность в бизнес-операциях, ориентированных на журналы бесед.
Мы представляем Disco4D, новую рамку гауссова сплэттинга для генерации и анимации человека в 4D из одного изображения. В отличие от существующих методов, Disco4D отчетливо разделяет одежду (с помощью гауссовых моделей) от человеческого тела (с помощью модели SMPL-X), значительно улучшая детали генерации и гибкость. Он имеет следующие технические инновации. 1) Disco4D учится эффективно подгонять гауссовы одежды над гауссовыми SMPL-X. 2) Он принимает модели диффузии для улучшения процесса генерации в 3D, например, моделирование закрытых частей, не видимых на входном изображении. 3) Он учит кодирование личности для каждой гауссовой одежды, чтобы облегчить разделение и извлечение элементов одежды. Кроме того, Disco4D естественным образом поддерживает анимацию человека в 4D с яркой динамикой. Обширные эксперименты демонстрируют превосходство Disco4D в задачах генерации и анимации человека в 4D. Наши визуализации можно найти на https://disco-4d.github.io/.
За последние несколько лет методы многовекторного поиска, возглавляемые ColBERT, стали все более популярным подходом к нейронному информационному поиску. Храня представления на уровне токенов, а не на уровне документов, эти методы продемонстрировали очень высокую производительность поиска, особенно вне предметной области. Однако необходимость в хранении большого количества связанных векторов остается важным недостатком, затрудняющим практическое применение. В данной статье мы представляем простой подход к кластеризации токенов для агрессивного сокращения количества векторов, которые необходимо хранить. Этот метод может уменьшить объем памяти, занимаемый индексами ColBERT, на 50% практически без ухудшения производительности поиска. Данный метод также позволяет дополнительно сократить количество векторов на 66%-75%, при этом ухудшение остается ниже 5% на большинстве наборов данных. Важно отметить, что данный подход не требует изменений в архитектуре или обработки запросов во время выполнения и может быть использован как простое внедрение во время индексации с любой моделью, подобной ColBERT.
Люди могут научиться манипулировать новыми объектами, просто наблюдая за другими; предоставление роботам возможности учиться на таких демонстрациях позволило бы создать естественный интерфейс для определения новых поведенческих моделей. В данной работе разрабатывается метод Robot See Robot Do (RSRD) для имитации артикулированной манипуляции объектами по одному монохромному RGB-видео демонстрации человека и одному статическому многоплоскостному сканированию объекта. Сначала мы предлагаем 4D Дифференцируемые Модели Частей (4D-DPM), метод восстановления 3D движения части от монохромного видео с дифференцируемым рендерингом. Этот анализно-синтезный подход использует полевые функции, сосредоточенные на частях, в итеративной оптимизации, что позволяет использовать геометрические регуляризаторы для восстановления 3D движений только из одного видео. Имея такое 4D восстановление, робот реплицирует траектории объекта, планируя двуручные движения рук, которые вызывают движение демонстрируемой части объекта. Представляя демонстрации как траектории, сосредоточенные на частях, RSRD фокусируется на воспроизведении намеренного поведения демонстрации, учитывая собственные морфологические ограничения робота, вместо попыток воспроизвести движение руки. Мы оцениваем точность трекинга 3D 4D-DPM на аннотированных данными о правильных траекториях частей и производительность физического исполнения RSRD на 9 объектах в каждом из 10 испытаний на двуручном роботе YuMi. Каждая фаза RSRD достигает среднего уровня успешности 87%, что дает общий уровень успешности 60% на 90 испытаниях. Заметим, что это достигается с использованием только полевых функций, извлеченных из крупных предварительно обученных моделей зрения - без какого-либо специфического обучения, донастройки, сбора набора данных или аннотации. Страница проекта: https://robot-see-robot-do.github.io
Извлечение содержательных выводов из больших и сложных наборов данных представляет существенные вызовы, особенно в обеспечении точности и актуальности извлеченной информации. Традиционные методы поиска данных, такие как последовательный поиск и поиск на основе индексов, часто терпят неудачу при работе с сложными и взаимосвязанными структурами данных, что приводит к неполным или вводящим в заблуждение результатам. Для преодоления этих ограничений мы представляем Structured-GraphRAG, универсальную платформу, разработанную для улучшения поиска информации по структурированным наборам данных в естественных языковых запросах. Structured-GraphRAG использует несколько графов знаний, которые представляют данные в структурированном формате и захватывают сложные взаимосвязи между сущностями, обеспечивая более тонкий и всесторонний поиск информации. Этот графовый подход снижает риск ошибок в выводах языковой модели, базируя ответы на структурированном формате и тем самым повышая надежность результатов. Мы демонстрируем эффективность Structured-GraphRAG, сравнивая ее производительность с недавно опубликованным методом, использующим традиционное увеличение поиска-генерации. Наши результаты показывают, что Structured-GraphRAG значительно улучшает эффективность обработки запросов и сокращает время ответа. Хотя наше исследование сосредоточено на данных о футболе, дизайн платформы широко применим, предлагая мощный инструмент для анализа данных и улучшения приложений языковых моделей в различных структурированных областях.