Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генеративные большие языковые модели (LLM) открыли множество новых возможностей, однако их повсеместное использование остается сложной задачей из-за значительных вычислительных требований. Некоторые из наиболее полезных приложений требуют обработки большого количества образцов одновременно и использования длинных контекстов, что существенно увеличивает нагрузку на передачу данных в памяти моделей. Мы представляем SparQ Attention — метод повышения пропускной способности при выводе LLM за счет снижения требований к пропускной способности памяти в блоках внимания через избирательное извлечение кэшированной истории. Наш предложенный метод может быть применен непосредственно к готовым LLM во время вывода, без необходимости изменения настройки предварительного обучения или дополнительного тонкого настраивания. Мы показываем, что SparQ Attention может снизить требования к пропускной способности памяти в механизме внимания до восьми раз без потери точности, оценивая модели Llama 2 и Pythia на широком спектре задач.
В данной статье мы представляем DreaMoving — основанную на диффузии управляемую систему генерации видео для создания высококачественных персонализированных видеороликов с танцующими людьми. В частности, при наличии целевой идентичности и последовательностей поз, DreaMoving может генерировать видео, на котором целевая идентичность танцует в любом месте, управляемая последовательностями поз. Для этого мы предлагаем Video ControlNet для управления движением и Content Guider для сохранения идентичности. Предложенная модель проста в использовании и может быть адаптирована к большинству стилизованных моделей диффузии для получения разнообразных результатов. Страница проекта доступна по адресу https://dreamoving.github.io/dreamoving.
Большинство исследований в области генерации 3D-моделей сосредоточено на проецировании 2D-моделей в 3D-пространство, либо путем минимизации 2D-потери Score Distillation Sampling (SDS), либо путем дообучения на наборах данных с несколькими видами. Без явных 3D-приоров эти методы часто приводят к геометрическим аномалиям и несогласованности между видами. Недавно исследователи попытались улучшить достоверность 3D-объектов, обучая модели непосредственно на 3D-наборах данных, однако это привело к низкому качеству генерации текстур из-за ограниченного разнообразия текстур в таких наборах. Чтобы объединить преимущества обоих подходов, мы предлагаем Bidirectional Diffusion (BiDiff) — унифицированную структуру, которая включает как 3D-, так и 2D-процессы диффузии, чтобы сохранить соответственно 3D-точность и богатство 2D-текстур. Более того, поскольку простое объединение может привести к несогласованным результатам генерации, мы дополнительно связываем их с помощью новой двунаправленной направляющей. Кроме того, наш метод может использоваться в качестве инициализации для оптимизационных моделей, что позволяет улучшить качество 3D-моделей и эффективность оптимизации, сокращая процесс генерации с 3,4 часов до 20 минут. Экспериментальные результаты показали, что наша модель обеспечивает высококачественную, разнообразную и масштабируемую генерацию 3D-моделей. Проектный сайт: https://bidiff.github.io/.
Мы представляем подход для расширения возможностей моделей генерации видео по текстовому описанию за счет добавления пользовательских движений, выходящих за рамки движений, представленных в исходных обучающих данных. Используя несколько видеосэмплов, демонстрирующих определенные движения в качестве входных данных, наш метод изучает и обобщает паттерны движений для разнообразных сценариев, заданных текстом. Наш вклад заключается в трех аспектах. Во-первых, для достижения результатов мы дообучаем существующую модель генерации видео по тексту, чтобы она научилась новому отображению между движением, представленным во входных примерах, и новым уникальным токеном. Чтобы избежать переобучения на новое пользовательское движение, мы предлагаем метод регуляризации на основе видео. Во-вторых, используя априорные знания о движениях в предобученной модели, наш метод способен создавать новые видео, в которых несколько людей выполняют пользовательское движение, а также комбинировать это движение с другими. Кроме того, наш подход распространяется на мультимодальную настройку движения и внешнего вида индивидуальных объектов, что позволяет генерировать видео с уникальными персонажами и различными движениями. В-третьих, для проверки нашего метода мы предлагаем подход для количественной оценки изученного пользовательского движения и проводим систематическое исследование с помощью абляционного анализа. Мы демонстрируем, что наш метод значительно превосходит предыдущие подходы, основанные на настройке внешнего вида, при расширении на задачу настройки движений.
С учетом последних достижений в области крупных языковых моделей, методы, такие как последовательное рассуждение (chain-of-thought prompting), направленные на выявление цепочек логических рассуждений, продемонстрировали улучшение результатов в задачах, требующих логического мышления. Однако задачи, требующие многошагового рассуждения, по-прежнему представляют значительные трудности для современных моделей. Вдохновленные алгоритмом поиска по лучу (beam search), мы предлагаем PathFinder — подход к генерации путей рассуждений, основанный на поиске по дереву. Этот метод улучшает разнообразие ветвления и многошаговое рассуждение за счет интеграции динамического декодирования, реализуемого с помощью различных методов и параметров выборки. Используя ограниченное рассуждение, PathFinder включает новые ограничения качества, методы обрезки и исследования для повышения эффективности и качества генерации. Кроме того, он включает функции оценки и ранжирования для улучшения выбора кандидатов. Наш подход превосходит конкурирующие базовые методы на трех сложных задачах арифметического и здравого рассуждения в среднем на 6%. Наша модель хорошо обобщается на более длинные, ранее не встречавшиеся цепочки рассуждений, отражая схожую сложность с поиском по лучу при больших коэффициентах ветвления.
Модели денизинга на основе диффузии продемонстрировали выдающиеся результаты в генерации 2D-изображений, однако воспроизведение их успеха в генерации 3D-форм остается сложной задачей. В данной работе мы предлагаем использовать многовидовую глубину, которая представляет сложные 3D-формы в формате 2D-данных, удобном для денизинга. Мы сочетаем это представление с диффузионной моделью MVDD, способной генерировать высококачественные плотные облака точек с более чем 20 000 точек и детализированной структурой. Для обеспечения 3D-согласованности в многовидовой глубине мы вводим механизм внимания к отрезкам эпиполярных линий, который учитывает соседние виды на этапе денизинга. Кроме того, в шаги диффузии интегрирован модуль слияния глубины, что дополнительно гарантирует выравнивание карт глубины. При использовании совместно с реконструкцией поверхности MVDD также способна создавать высококачественные 3D-сетки. Более того, MVDD выделяется в других задачах, таких как достраивание глубины, и может служить 3D-приором, значительно улучшая многие последующие задачи, например инверсию GAN. Результаты обширных экспериментов, соответствующие современным стандартам, демонстрируют превосходные способности MVDD в генерации 3D-форм, достраивании глубины и ее потенциал в качестве 3D-приора для последующих задач.
Мы представляем EE-LLM — фреймворк для масштабного обучения и вывода ранневыходных больших языковых моделей (LLM). Хотя недавние работы показали предварительные доказательства эффективности раннего выхода для ускорения вывода LLM, EE-LLM делает фундаментальный шаг к масштабированию таких моделей, поддерживая их обучение и вывод с использованием массивного 3D-параллелизма. Построенный на основе Megatron-LM, EE-LLM реализует ряд алгоритмических инноваций и оптимизаций производительности, адаптированных для раннего выхода, включая легковесный метод, облегчающий обратное распространение для цели обучения с ранним выходом при использовании конвейерного параллелизма, техники задействования простаивающих ресурсов в исходном расписании конвейера для вычислений, связанных с ранневыходными слоями, и два подхода к выводу с ранним выходом, совместимых с кэшированием ключей и значений (KV) для авторегрессионной генерации. Наши аналитические и эмпирические исследования показывают, что EE-LLM достигает высокой эффективности обучения с незначительными вычислительными накладными расходами по сравнению со стандартным обучением LLM, а также выдающегося ускорения вывода без ущерба для качества выходных данных. Для содействия дальнейшим исследованиям и внедрению мы публикуем EE-LLM по адресу https://github.com/pan-x-c/EE-LLM.
Модели обработки визуально-языковых данных (VL), способные следовать инструкциям, предоставляют гибкий интерфейс, поддерживающий широкий спектр мультимодальных задач в режиме zero-shot. Однако интерфейсы, работающие с полными изображениями, не позволяют пользователю напрямую "указывать" на конкретные области изображения и взаимодействовать с ними. Эта возможность важна не только для поддержки эталонных тестов VL, основанных на ссылках, но и для практических приложений, требующих точного анализа внутри изображения. Мы разрабатываем модели локализованного визуального здравого смысла (Localized Visual Commonsense), которые позволяют пользователю задавать (несколько) областей в качестве входных данных. Мы обучаем нашу модель, извлекая локализованные знания здравого смысла из крупной языковой модели (LLM): в частности, мы используем LLM для сбора знаний здравого смысла на основе глобального буквального описания изображения и локального буквального описания области, автоматически генерируемого набором VL-моделей. С помощью отдельно обученной модели-критика, которая отбирает высококачественные примеры, мы обнаруживаем, что обучение на корпусе локализованного здравого смысла позволяет успешно дистиллировать существующие VL-модели для поддержки интерфейса, использующего ссылки в качестве входных данных. Эмпирические результаты и оценки людей в режиме zero-shot показывают, что наш метод дистилляции приводит к созданию более точных VL-моделей для анализа по сравнению с базовым подходом, при котором сгенерированное выражение ссылки передается в LLM.