Ежедневно отобранные исследовательские статьи по ИИ с переводами
Персонализированная генерация изображений на основе текста стала мощным и востребованным инструментом, позволяющим пользователям создавать кастомизированные изображения в соответствии с их конкретными концепциями и запросами. Однако существующие подходы к персонализации сталкиваются с рядом проблем, включая длительное время настройки, большие требования к хранению данных, необходимость использования нескольких входных изображений для одного идентификатора, а также ограничения в сохранении идентичности и редактируемости. Для решения этих задач мы представляем PhotoVerse — инновационную методику, которая включает в себя механизм двойного ветвления в текстовой и визуальной областях, обеспечивая эффективный контроль над процессом генерации изображений. Кроме того, мы вводим новый компонент — потерю идентичности лица, чтобы улучшить сохранение идентичности в процессе обучения. Примечательно, что наш подход PhotoVerse устраняет необходимость настройки во время тестирования и требует всего одного фотографического изображения целевого идентификатора, что значительно снижает затраты ресурсов на генерацию изображений. После однократной фазы обучения наш метод позволяет создавать высококачественные изображения всего за несколько секунд. Более того, наш подход способен генерировать разнообразные изображения, охватывающие различные сцены и стили. Обширная оценка демонстрирует превосходную производительность нашего метода, который достигает двойных целей: сохранения идентичности и обеспечения редактируемости. Страница проекта: https://photoverse2d.github.io/
Диффузионные модели произвели революцию в генерации изображений из текста благодаря их исключительному качеству и креативности. Однако их многошаговый процесс сэмплирования известен своей медлительностью, часто требуя десятков шагов вывода для получения удовлетворительных результатов. Предыдущие попытки улучшить скорость сэмплирования и снизить вычислительные затраты с помощью дистилляции не увенчались успехом в создании функциональной одношаговой модели. В данной работе мы исследуем недавний метод под названием Rectified Flow, который до сих пор применялся только на небольших наборах данных. Основная идея Rectified Flow заключается в процедуре reflow, которая выпрямляет траектории потоков вероятностей, улучшает связь между шумами и изображениями и облегчает процесс дистилляции с использованием студенческих моделей. Мы предлагаем новый текстово-обусловленный подход для превращения Stable Diffusion (SD) в сверхбыструю одношаговую модель, в котором reflow играет ключевую роль в улучшении соответствия между шумами и изображениями. Используя наш новый подход, мы создаем, насколько нам известно, первый одношаговый генератор изображений из текста на основе диффузии с качеством изображений на уровне SD, достигая FID (Frechet Inception Distance) 23.3 на MS COCO 2017-5k, что значительно превосходит предыдущий передовой метод, прогрессивную дистилляцию (37.2 → 23.3 по FID). Благодаря использованию расширенной сети с 1.7 миллиардами параметров, мы дополнительно улучшаем FID до 22.4. Мы называем наши одношаговые модели InstaFlow. На MS COCO 2014-30k InstaFlow демонстрирует FID 13.1 всего за 0.09 секунды, что является лучшим результатом в режиме ≤ 0.1 секунды, превосходя недавний StyleGAN-T (13.9 за 0.1 секунду). Примечательно, что обучение InstaFlow занимает всего 199 дней на GPU A100. Страница проекта: https://github.com/gnobitab/InstaFlow.
Высокопроизводительное обслуживание больших языковых моделей (LLM) требует пакетной обработки достаточного количества запросов одновременно. Однако существующие системы сталкиваются с трудностями, поскольку память кэша ключ-значение (KV cache) для каждого запроса огромна и динамически изменяется в размере. При неэффективном управлении эта память может значительно теряться из-за фрагментации и избыточного дублирования, что ограничивает размер пакета. Для решения этой проблемы мы предлагаем PagedAttention — алгоритм внимания, вдохновлённый классическими техниками виртуальной памяти и подкачки из операционных систем. На его основе мы создали vLLM — систему обслуживания LLM, которая обеспечивает (1) почти нулевые потери памяти KV cache и (2) гибкое совместное использование KV cache внутри и между запросами для дальнейшего снижения использования памяти. Наши оценки показывают, что vLLM увеличивает пропускную способность популярных LLM в 2–4 раза при том же уровне задержки по сравнению с современными системами, такими как FasterTransformer и Orca. Улучшение становится более заметным при работе с более длинными последовательностями, крупными моделями и более сложными алгоритмами декодирования. Исходный код vLLM доступен публично по адресу https://github.com/vllm-project/vllm.
Крупные языковые модели демонстрируют высокие результаты во многих задачах, связанных с человеческим языком, но часто оказываются неэффективными в узкоспециализированных областях, таких как научная астрономия. Чтобы устранить этот разрыв, мы представляем AstroLLaMA — модель с 7 миллиардами параметров, дообученную на основе LLaMA-2 с использованием более 300 000 аннотаций астрономических статей из arXiv. Оптимизированная для традиционного каузального языкового моделирования, AstroLLaMA достигает на 30% меньшей перплексии по сравнению с LLaMA-2, демонстрируя заметную адаптацию к предметной области. Наша модель генерирует более содержательные и научно релевантные текстовые завершения и извлечения эмбеддингов, чем современные базовые модели, несмотря на значительно меньшее количество параметров. AstroLLaMA служит мощной специализированной моделью с широким потенциалом для дообучения. Ее публичный выпуск направлен на стимулирование исследований, ориентированных на астрономию, включая автоматическое суммирование статей и разработку диалоговых агентов.
Ловкая манипуляция остается давней проблемой в робототехнике. Хотя методы машинного обучения показали определенные успехи, результаты в основном ограничиваются симуляциями. Это во многом связано с отсутствием подходящего аппаратного обеспечения. В данной статье мы представляем LEAP Hand — недорогую ловкую и антропоморфную руку для исследований в области машинного обучения. В отличие от предыдущих разработок, LEAP Hand обладает новой кинематической структурой, которая обеспечивает максимальную ловкость независимо от положения пальцев. LEAP Hand имеет низкую стоимость и может быть собрана за 4 часа из доступных компонентов по цене 2000 долларов США. Она способна стабильно создавать высокие крутящие моменты в течение длительного времени. Мы демонстрируем, что LEAP Hand может использоваться для выполнения различных задач манипуляции в реальном мире — от визуальной телеоперации до обучения на основе пассивных видеоданных и перехода от симуляции к реальности (sim2real). LEAP Hand значительно превосходит своего ближайшего конкурента Allegro Hand во всех наших экспериментах, при этом ее стоимость составляет лишь 1/8 от стоимости Allegro Hand. Мы публикуем подробные инструкции по сборке, конвейер sim2real и платформу для разработки с полезными API на нашем сайте: https://leap-hand.github.io/.
Значительные усилия были направлены на создание анимируемых и фотореалистичных аватаров человека. В этом направлении активно изучаются как явные, так и неявные 3D-представления для комплексного моделирования и захвата всего тела человека (например, тела, одежды, лица и волос), однако ни одно из этих представлений не является оптимальным с точки зрения эффективности, поскольку разные части аватара требуют различных подходов к моделированию. Например, меши, как правило, не подходят для моделирования одежды и волос. Вдохновленные этим, мы представляем Disentangled Avatars (DELTA), которые моделируют человека с использованием гибридных явно-неявных 3D-представлений. DELTA принимает на вход монохромное RGB-видео и создает аватар человека с отдельными слоями для тела и одежды/волос. В частности, мы демонстрируем два важных применения DELTA. В первом случае мы рассматриваем разделение тела и одежды, а во втором — разделение лица и волос. Для этого DELTA представляет тело или лицо с помощью явной параметрической 3D-модели на основе мешей, а одежду или волосы — с помощью неявного нейронного поля излучения. Чтобы сделать это возможным, мы разработали дифференцируемый рендерер, который интегрирует меши в объемный рендеринг, что позволяет DELTA обучаться непосредственно на монохромных видео без какого-либо 3D-надзора. Наконец, мы показываем, как эти два применения могут быть легко объединены для моделирования полноразмерных аватаров, где волосы, лицо, тело и одежда могут быть полностью разделены, но совместно отрендерены. Такое разделение позволяет переносить прически и одежду на произвольные формы тела. Мы эмпирически подтверждаем эффективность разделения в DELTA, демонстрируя его впечатляющие результаты в задачах разделенной реконструкции, виртуальной примерки одежды и переноса причесок. Для содействия будущим исследованиям мы также выпускаем открытый конвейер для изучения гибридного моделирования аватаров человека.