Ежедневно отобранные исследовательские статьи по ИИ с переводами
Способность точно интерпретировать сложную визуальную информацию является ключевой темой мультимодальных моделей больших языков (MLLMs). Недавние исследования показывают, что улучшенное визуальное восприятие значительно снижает галлюцинации и улучшает производительность на задачах, требующих высокого разрешения, таких как оптическое распознавание символов и анализ документов. Несколько последних MLLMs достигают этой цели, используя смесь визуальных кодировщиков. Несмотря на их успех, существует недостаток систематических сравнений и детальных исследований по отключению, касающихся критических аспектов, таких как выбор экспертов и интеграция нескольких визуальных экспертов. В данном исследовании проводится обширное исследование пространства проектирования для MLLMs с использованием смеси визуальных кодировщиков и разрешений. Наши результаты раскрывают несколько базовых принципов, общих для различных существующих стратегий, приводя к эффективному подходу к проектированию. Мы обнаружили, что простое объединение визуальных токенов из набора взаимодополняющих визуальных кодировщиков так же эффективно, как более сложные архитектуры или стратегии смешивания. Мы также представляем Pre-Alignment для устранения разрыва между кодировщиками, сосредоточенными на визуальной информации, и языковыми токенами, улучшая согласованность модели. Результирующая семейство MLLMs, Eagle, превосходит другие ведущие модели с открытым исходным кодом на основных бенчмарках MLLM. Модели и код: https://github.com/NVlabs/Eagle
Общие возможности больших языковых моделей (Large Language Models, LLM) в значительной степени зависят от состава и выбора обширных наборов данных для предварительного обучения, рассматриваемых как коммерческая тайна несколькими учреждениями. Для устранения этой проблемы мы предоставляем в открытый доступ детали универсального процесса обработки данных и подтверждаем его эффективность и потенциал, представив конкурентоспособную базовую модель LLM. Конкретно, процесс обработки данных включает в себя широкий сбор для масштабирования и перевзвешивание для улучшения качества. Затем мы предварительно обучаем модель BaichuanSEED на 3 трлн токенов, обработанных нашим процессом, без какой-либо преднамеренной оптимизации, связанной с конечной задачей, а затем проводим простую, но эффективную стадию надзорного дообучения. BaichuanSEED демонстрирует последовательность и предсказуемость на протяжении обучения и достигает сопоставимой производительности на обширных бенчмарках с несколькими коммерческими передовыми большими языковыми моделями, такими как Qwen1.5 и Llama3. Мы также проводим несколько эвристических экспериментов, чтобы обсудить потенциал для дальнейшей оптимизации конечных задач, таких как математика и программирование.
Этот документ представляет Dolphin, новую архитектуру декодер-декодер для энергоэффективной обработки длинных контекстов в языковых моделях. Наш подход решает значительные проблемы потребления энергии и задержки, присущие моделям на устройствах. Dolphin использует компактный декодер с 0.5 миллиардами параметров для конденсации обширной контекстуальной информации в память встраивания, существенно сокращая длину ввода для основной модели декодера с 7 миллиардами параметров. Вдохновленные моделями видео-языка, мы переиспользуем проектор встраивания изображения для кодирования длинных текстовых контекстов, эффективно обрабатывая расширенный контекст как отдельную модальность. Этот инновационный метод позволяет обрабатывать существенно более длинные контексты без типичных вычислительных накладных расходов, связанных с расширенными последовательностями ввода. Эмпирические оценки демонстрируют улучшение энергоэффективности в 10 раз и сокращение задержки в 5 раз по сравнению с традиционными методами обработки контекста полной длины без потери качества ответа. Наша работа способствует разработке более устойчивых и масштабируемых языковых моделей для приложений на устройствах, решая критическую потребность в энергоэффективных и отзывчивых технологиях искусственного интеллекта в ресурсоограниченных средах, сохраняя точность понимания длинных контекстов. Эти исследования имеют значение для более широкого поля обработки естественного языка, особенно в области эффективного проектирования моделей для ресурсоограниченных сред. Позволяя более сложные возможности искусственного интеллекта на периферийных устройствах, Dolphin открывает путь для продвинутой обработки языка в широком спектре приложений, где вычислительные ресурсы являются дефицитными. Модель Dolphin доступна публично по адресу https://huggingface.co/NexaAIDev/Dolphin.
Мы представляем LLaVA-MoD, новую концепцию, разработанную для обеспечения эффективного обучения маломасштабных мультимодальных языковых моделей (s-MLLM) путем извлечения знаний из масштабных MLLM (l-MLLM). Наш подход решает две основные проблемы в дистилляции MLLM. Во-первых, мы оптимизируем структуру сети s-MLLM, интегрируя разреженную архитектуру Mixture of Experts (MoE) в языковую модель, находя баланс между вычислительной эффективностью и выразительностью модели. Во-вторых, мы предлагаем стратегию пошагового переноса знаний для обеспечения всесторонней миграции знаний. Эта стратегия начинается с дистилляции подражания, где мы минимизируем дивергенцию Кульбака-Лейблера (KL) между распределениями вывода, чтобы позволить студенческой модели эмулировать понимание сети учителя. Затем мы вводим дистилляцию предпочтений через прямую оптимизацию предпочтений (DPO), где ключевое значение имеет обращение к l-MLLM как к эталонной модели. Во время этой фазы способность s-MLLM различать между превосходными и низкокачественными примерами значительно улучшается по сравнению с l-MLLM, что приводит к более качественному студенту, превосходящему своего учителя, особенно в бенчмарках галлюцинаций. Обширные эксперименты показывают, что LLaVA-MoD превосходит существующие модели на различных мультимодальных бенчмарках, сохраняя минимальное количество активированных параметров и низкие вычислительные затраты. Замечательно, LLaVA-MoD, с всего 2 миллиардами активированных параметров, превосходит Qwen-VL-Chat-7B в среднем на 8,8% по бенчмаркам, используя лишь 0,3% обучающих данных и 23% обучаемых параметров. Эти результаты подчеркивают способность LLaVA-MoD эффективно дистиллировать всесторонние знания от своей учительской модели, что открывает путь к разработке более эффективных MLLM. Код будет доступен по ссылке: https://github.com/shufangxun/LLaVA-MoD.
При выводе больших языковых моделей (LLM) длина вывода запроса LLM обычно считается неизвестной заранее. Следовательно, большинство систем обслуживания LLM используют простую стратегию планирования "первым пришел - первым обслужен" (FCFS), что приводит к блокировке "голова линии" (HOL) и снижению пропускной способности и качества обслуживания. В данной статье мы переосмысливаем это предположение - мы показываем, что хотя предсказать точную длину генерации каждого запроса невозможно, можно предсказать относительные ранги длин вывода в пакете запросов, используя обучение для ранжирования. Информация о ранжировании предоставляет ценное руководство для планирования запросов. Основываясь на этом понимании, мы разрабатываем новый планировщик для вывода и обслуживания LLM, который может лучше приблизиться к расписанию "сначала самое короткое задание" (SJF) по сравнению с существующими подходами. Мы интегрируем этот планировщик с передовой системой обслуживания LLM и показываем значительное улучшение производительности в нескольких важных приложениях: на 2,8 раза меньшая задержка при обслуживании чат-ботов и на 6,5 раза большая пропускная способность при генерации синтетических данных. Наш код доступен по адресу https://github.com/hao-ai-lab/vllm-ltr.git
Для развития экспертизы крупных языковых моделей (LLM) для решения задач конкретных областей часто требуется настройка специального назначения с калиброванным поведением на ожидаемых стабильных выходах. Для избежания огромных затрат, связанных с ручной подготовкой наборов данных и обучающих ресурсов на сотни часов, использование открытых знаний, включая множество моделей адаптации низкого ранга (LoRA) и наборов данных с инструкциями, служит хорошей отправной точкой. Однако существующие методы выбора моделей и данных сосредотачиваются на производительности общих возможностей, игнорируя разрыв в знаниях, выявленный при доменно-специфическом развертывании. В настоящем исследовании мы предлагаем преодолеть такой разрыв, представив несколько человеко-аннотированных образцов (т. е. K-shot) для развития экспертизы задач LLM с использованием открытых знаний. Конкретно, мы разрабатываем эффективный и масштабируемый конвейер для экономичного производства экспертов по задачам, где данные K-shot вмешиваются в выбор наиболее многообещающих кандидатов-экспертов и задачно-связанных инструкций. Система смешанных экспертов (MoE) создана для наилучшего использования индивидуальных, но взаимодополняющих знаний между несколькими экспертами. Мы раскрываем два ключа к успеху системы MoE: 1) соблюдение K-shot и 2) настойчивость на разнообразие. Для первого мы гарантируем, что модели, действительно обладающие способностями к решению проблем на K-shot, выбираются, а не те, что делают слепые догадки. Кроме того, во время выбора данных приоритет отдается инструкциям, которые имеют общие контексты с K-shot. Для второго мы выделяем разнообразие составляющих экспертов и инструкций по тонкой настройке на протяжении процесса выбора моделей и данных. Обширные экспериментальные результаты подтверждают превосходство нашего подхода над существующими методами использования открытых знаний в различных задачах. Коды и модели будут выпущены позже.
Увеличение скорости выборки моделей диффузии остается значительной проблемой. Недавние методы дистилляции оценок сжимают массивную учительскую модель в одношаговый генератор ученика, который оптимизируется путем вычисления разницы между двумя функциями оценки на образцах, сгенерированных моделью ученика. Однако в начальной стадии процесса дистилляции возникает проблема несоответствия оценок, поскольку существующие методы в основном сосредотачиваются на использовании конечной точки предварительно обученных моделей диффузии в качестве учительских моделей, упуская важность траектории сходимости между генератором ученика и учительской моделью. Для решения этой проблемы мы расширяем процесс дистилляции оценок путем введения полной траектории сходимости учительских моделей и предлагаем метод дистилляции обратного распространения распределения (DisBack) для дистилляции генераторов учеников. DisBack состоит из двух этапов: Запись деградации и Обратное распространение распределения. Запись деградации предназначена для получения траектории сходимости учительских моделей, которая записывает путь деградации от обученной учительской модели к необученному начальному генератору ученика. Путь деградации неявно представляет промежуточные распределения учительских моделей. Затем Обратное распространение распределения обучает генератор ученика для обратного прохождения через промежуточные распределения для приближения к траектории сходимости учительских моделей. Обширные эксперименты показывают, что DisBack достигает более быстрой и лучшей сходимости, чем существующий метод дистилляции, и достигает сопоставимой производительности генерации. Следует отметить, что DisBack легко реализуем и может быть обобщен на существующие методы дистилляции для улучшения производительности. Наш код общедоступен на https://github.com/SYZhang0805/DisBack.
Экспоненциальный рост научной литературы требует развития передовых инструментов для эффективного исследования знаний. Мы представляем Knowledge Navigator, систему, разработанную для улучшения возможностей исследовательского поиска путем организации и структурирования извлеченных документов из широких тематических запросов в управляемую двухуровневую иерархию именованных и описательных научных тем и подтем. Эта структурированная организация обеспечивает общий обзор исследовательских тем в области, а также позволяет итеративный поиск и более глубокое открытие знаний в конкретных подтемах, позволяя пользователям уточнять свое внимание и извлекать дополнительные соответствующие документы. Knowledge Navigator объединяет возможности LLM с методами на основе кластеров для обеспечения эффективного метода просмотра. Мы демонстрируем эффективность нашего подхода через автоматические и ручные оценки на двух новых бенчмарках, CLUSTREC-COVID и SCITOC. Наш код, подсказки и бенчмарки доступны публично.
Для моделей Mixture-of-Experts (MoE) неравномерная нагрузка экспертов приведет к сбою маршрутизации или увеличению вычислительной нагрузки. Существующие методы обычно используют вспомогательные потери для поощрения баланса нагрузки, однако большие вспомогательные потери приводят к значительному вмешательству градиентов в процессе обучения и, следовательно, ухудшают производительность модели. Для контроля баланса нагрузки без появления нежелательных градиентов во время обучения мы предлагаем Loss-Free Balancing, основанный на стратегии балансировки нагрузки без вспомогательных потерь. Конкретно, перед принятием решения о маршрутизации для топ-K, Loss-Free Balancing сначала применяет смещение для оценок маршрутизации каждого эксперта. Динамически обновляя смещение каждого эксперта в соответствии с его недавней нагрузкой, Loss-Free Balancing может постоянно поддерживать сбалансированное распределение нагрузки экспертов. Кроме того, поскольку Loss-Free Balancing не порождает никаких вмешательств градиентов, он также повышает верхнюю границу производительности модели, полученной в результате обучения MoE. Мы проверяем производительность Loss-Free Balancing на моделях MoE с до 3 миллиардов параметров, обученных на до 200 миллиардов токенов. Экспериментальные результаты показывают, что Loss-Free Balancing достигает как лучшей производительности, так и лучшего баланса нагрузки по сравнению с традиционными стратегиями балансировки нагрузки с контролем вспомогательных потерь.
Хотя архитектура Mamba демонстрирует превосходную эффективность вывода и конкурентоспособную производительность на задачах обработки естественного языка (NLP) с коротким контекстом, эмпирические данные свидетельствуют о ее ограниченной способности понимать длинные контексты по сравнению с моделями на основе трансформеров. В данном исследовании мы исследуем проблемы эффективности обработки длинных контекстов моделей Mamba и предлагаем ReMamba, который улучшает способность Mamba понимать длинные контексты. ReMamba включает в себя селективные методы сжатия и адаптации в рамках двухэтапного процесса повторного прямого прохода, при этом несущие минимальные дополнительные накладные расходы на вывод. Экспериментальные результаты на бенчмарках LongBench и L-Eval демонстрируют эффективность ReMamba, улучшая базовые показатели на 3,2 и 1,6 пункта соответственно и достигая производительности практически на уровне моделей-трансформеров того же размера.
Мы исследуем способы улучшения моделей предсказания следующего токена для выполнения обучения с имитацией в контексте на реальном роботе, где робот выполняет новые задачи, интерпретируя контекстную информацию, предоставленную во время фазы ввода, без обновления своих основных параметров политики. Мы предлагаем Ин-Контекстный Робот Трансформер (ICRT), причинный трансформер, выполняющий авторегрессионное предсказание на траекториях сенсорно-моторных действий без использования лингвистических данных или функции вознаграждения. Эта формулировка обеспечивает гибкое и обучение-независимое выполнение новых задач на этапе тестирования, достигаемое путем подачи модели сенсорно-моторных траекторий новой задачи, состоящих из наблюдений изображений, действий и кортежей состояний, собранных с помощью человеческой телеоперации. Эксперименты с роботом Franka Emika показывают, что ICRT способен адаптироваться к новым задачам, указанным с помощью подсказок, даже в конфигурациях среды, отличных как от подсказки, так и от данных обучения. В среде с множественными задачами ICRT значительно превосходит текущие передовые модели предсказания следующего токена в робототехнике по обобщению на невиденные задачи. Код, контрольные точки и данные доступны на https://icrt.dev/
Использование частей существующих моделей для воссоздания новых моделей, обычно называемое моделированием на основе примеров, является классической методологией в области компьютерной графики. Предыдущие работы в основном сосредотачивались на композиции форм, что делает их очень сложными для использования при реалистичной композиции трехмерных объектов, захваченных из реальных сцен. Это приводит к объединению нескольких NeRF в одну трехмерную сцену для достижения плавного слияния внешнего вида. Однако текущий метод SeamlessNeRF сталкивается с трудностями в достижении интерактивного редактирования и гармоничного соединения для сцен из реального мира из-за своей стратегии на основе градиента и представления на основе сетки. В этой связи мы представляем метод моделирования на основе примеров, который объединяет несколько гауссовых полей в точечном представлении с использованием синтеза, направляемого образцами. В частности, для композиции мы создаем графический интерфейс пользователя для сегментации и трансформации нескольких полей в реальном времени, легко получая семантически значимую композицию моделей, представленных трехмерным Гауссовым сплэтингом (3DGS). Для смешивания текстур, из-за дискретной и нерегулярной природы 3DGS, прямое применение распространения градиента, как в SeamlssNeRF, не поддерживается. Таким образом, предлагается новый метод клонирования на основе выборки для гармонизации смешивания, сохраняя при этом оригинальную насыщенную текстуру и содержание. Наш рабочий процесс состоит из трех этапов: 1) сегментация и трансформация гауссовской модели в реальном времени с помощью тщательно разработанного графического интерфейса пользователя, 2) анализ KNN для идентификации граничных точек в пересекающейся области между исходной и целевой моделями, и 3) двухфазная оптимизация целевой модели с использованием клонирования на основе выборки и градиентных ограничений. Обширные экспериментальные результаты подтверждают, что наш подход значительно превосходит предыдущие работы в плане реалистичного синтеза, демонстрируя его практичность. Более подробные демонстрации доступны на https://ingra14m.github.io/gs_stitching_website.
За последние годы был достигнут значительный прогресс в создании фотореалистичных и управляемых трехмерных аватаров исключительно на основе видеозаписей реальных людей. Однако одной из основных оставшихся задач является тонкая и удобная редакция стилей одежды с использованием текстовых описаний. В этой связи мы представляем TEDRA, первый метод, позволяющий редактировать аватар на основе текста, который сохраняет высокую достоверность аватара, пространственно-временную согласованность, а также динамику, и обеспечивает управление скелетной позой и видом. Мы начинаем с обучения модели создавать управляемую и высокодостоверную цифровую реплику реального актера. Затем мы персонализируем предварительно обученную генеративную модель диффузии, донастраивая ее на различных кадрах реального персонажа, снятых под разными углами камеры, чтобы цифровое представление точно передавало динамику и движения реального человека. Этот двухэтапный процесс заложил основу для нашего подхода к редактированию динамического человеческого аватара. Используя эту персонализированную модель диффузии, мы модифицируем динамический аватар на основе предоставленного текстового подсказывания с использованием нашего метода выборки сжатия персонализированных нормализованных оценок (PNA-SDS) в рамках модельно-ориентированной системы руководства. Кроме того, мы предлагаем стратегию отжига временного шага для обеспечения высококачественных редакций. Наши результаты демонстрируют явное улучшение по сравнению с предыдущими работами в функциональности и визуальном качестве.