Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

DeepSeek-Prover: Продвижение теоремного доказательства в LLMs через синтетические данные большого масштаба
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

May 23

ByHuajian Xin, Daya Guo, Zhihong Shao, Zhizhou Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang

Доказательные помощники, такие как Lean, революционизировали верификацию математических доказательств, обеспечивая высокую точность и надежность. Хотя большие языковые модели (LLM) показывают потенциал в математическом рассуждении, их развитие в формальном доказательстве теорем затруднено из-за недостатка обучающих данных. Для решения этой проблемы мы предлагаем подход к созданию обширных данных доказательств Lean 4, полученных из задач математических соревнований средней школы и университетского уровня. Этот подход включает перевод задач на естественном языке в формальные утверждения, фильтрацию низкокачественных утверждений и генерацию доказательств для создания синтетических данных. После настройки модели DeepSeekMath 7B на этом синтетическом наборе данных, включающем 8 миллионов формальных утверждений с доказательствами, наша модель достигла точности генерации целого доказательства 46,3% с 64 образцами и 52% кумулятивно на тесте Lean 4 miniF2F, превзойдя базовую модель GPT-4 с 23,0% с 64 образцами и метод обучения с подкреплением поиска по дереву на уровне 41,0%. Кроме того, наша модель успешно доказала 5 из 148 задач в Lean 4 Формализованной Международной Математической Олимпиаде (FIMO), в то время как GPT-4 не смогла доказать ни одной. Эти результаты демонстрируют потенциал использования масштабных синтетических данных для улучшения возможностей доказательства теорем в LLM. Как синтетический набор данных, так и модель будут доступны для облегчения дальнейших исследований в этой перспективной области.

Не все признаки языковой модели являются линейными.
Not All Language Model Features Are Linear

May 23

ByJoshua Engels, Isaac Liao, Eric J. Michaud, Wes Gurnee, Max Tegmark

В недавних исследованиях была предложена гипотеза линейного представления: что языковые модели выполняют вычисления, манипулируя одномерными представлениями концепций ("признаков") в пространстве активации. В отличие от этого, мы исследуем, могут ли некоторые представления языковых моделей быть в принципе многомерными. Мы начинаем с разработки строгого определения неразложимых многомерных признаков на основе того, могут ли они быть разложены на независимые или невзаимосвязанные более низкоразмерные признаки. Вдохновленные этими определениями, мы разрабатываем масштабируемый метод, использующий разреженные автокодировщики для автоматического обнаружения многомерных признаков в GPT-2 и Mistral 7B. Эти автоматически обнаруженные признаки включают удивительно интерпретируемые примеры, например, круговые признаки, представляющие дни недели и месяцы года. Мы выявляем задачи, в которых эти точные круги используются для решения вычислительных проблем, связанных с модульной арифметикой в днях недели и месяцах года. Наконец, мы предоставляем доказательства того, что эти круговые признаки действительно являются фундаментальной единицей вычислений в этих задачах, проводя интервенционные эксперименты на Mistral 7B и Llama 3 8B, и обнаруживая дополнительные круговые представления, разбирая скрытые состояния для этих задач на интерпретируемые компоненты.

ReVideo: Пересоздание видео с управлением движением и контентом
ReVideo: Remake a Video with Motion and Content Control

May 22

ByChong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang

Несмотря на значительные достижения в генерации и редактировании видео с использованием моделей диффузии, достижение точного и локализованного видеоредактирования остается значительным вызовом. Кроме того, большинство существующих методов видеоредактирования в основном сосредоточены на изменении визуального контента, с ограниченным исследованием, посвященным редактированию движения. В данной статье мы представляем новую попытку пересоздания видео (ReVideo), которая выделяется из существующих методов, позволяя точное редактирование видео в конкретных областях путем указания как контента, так и движения. Редактирование контента облегчается путем модификации первого кадра, в то время как управление движением на основе траектории предлагает интуитивный опыт взаимодействия с пользователем. ReVideo решает новую задачу, связанную с сопряжением и дисбалансом обучения между контентом и управлением движением. Для решения этой проблемы мы разрабатываем трехэтапную стратегию обучения, которая постепенно разъединяет эти два аспекта от грубого к тонкому. Кроме того, мы предлагаем модуль адаптивного объединения пространственно-временных данных для интеграции контента и управления движением на различных этапах выборки и пространственных местоположениях. Обширные эксперименты показывают, что наш ReVideo демонстрирует многообещающую производительность в нескольких точных приложениях видеоредактирования, таких как (1) локальное изменение видеоконтента при сохранении постоянного движения, (2) сохранение неизменного контента и настройка новых траекторий движения, (3) модификация как контента, так и траекторий движения. Наш метод также легко расширяет эти приложения до редактирования нескольких областей без специального обучения, демонстрируя его гибкость и надежность.

Плотный коннектор для многоязычных языковых моделей.
Dense Connector for MLLMs

May 22

ByHuanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang

Полностью ли мы используем потенциал визуального кодера в Мультимодальных Больших Языковых Моделях (MLLM)? Недавние выдающиеся результаты MLLM в мультимодальном понимании привлекли широкое внимание как из академического сообщества, так и из индустрии. В текущей гонке за MLLM основное внимание кажется сосредоточенным в основном на лингвистической стороне. Мы наблюдаем появление более крупных и высококачественных наборов инструкций, а также участие более крупных LLM. Тем не менее, мало внимания уделяется визуальным сигналам, используемым MLLM, часто предполагается, что это конечные высокоуровневые признаки, извлеченные замороженным визуальным кодером. В данной статье мы представляем Плотный Коннектор - простой, эффективный и готовый к использованию визуально-языковой коннектор, который значительно улучшает существующие MLLM за счет использования многослойных визуальных признаков с минимальными дополнительными вычислительными затратами. Более того, наша модель, обученная исключительно на изображениях, демонстрирует замечательные возможности нулевого обучения в понимании видео. Экспериментальные результаты на различных визуальных кодерах, разрешениях изображений, масштабах наборов данных для обучения, различных размерах LLM (2,7 млрд -> 70 млрд) и различных архитектурах MLLM (например, LLaVA и Mini-Gemini) подтверждают гибкость и масштабируемость нашего подхода, достигая передовых результатов на 19 изображениях и видео-тестах. Мы надеемся, что это исследование предоставит ценный опыт и послужит базовым модулем для будущего развития MLLM.

LiteVAE: Легковесные и эффективные вариационные автоэнкодеры для моделей латентной диффузии
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

May 23

BySeyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber

Прогресс в моделях латентной диффузии (LDM) революционизировал генерацию изображений высокого разрешения, однако пространство проектирования автоэнкодера, центрального элемента этих систем, остается недостаточно исследованным. В данной статье мы представляем LiteVAE, семейство автоэнкодеров для LDM, которые используют 2D дискретное вейвлет-преобразование для улучшения масштабируемости и вычислительной эффективности по сравнению со стандартными вариационными автоэнкодерами (VAE) без ущерба качеству вывода. Мы также исследуем методики обучения и архитектуру декодера LiteVAE, предлагая несколько улучшений, которые повышают динамику обучения и качество восстановления. Наша базовая модель LiteVAE соответствует качеству установленных VAE в текущих LDM с шестикратным сокращением параметров энкодера, что приводит к более быстрому обучению и меньшим требованиям памяти GPU, в то время как наша более крупная модель превосходит VAE сопоставимой сложности по всем оцениваемым метрикам (rFID, LPIPS, PSNR и SSIM).

Распределенное спекулятивное вывода больших языковых моделей
Distributed Speculative Inference of Large Language Models

May 23

ByNadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel

Ускорение вывода больших языковых моделей (LLM) является важной задачей в искусственном интеллекте. В данной статье представлен распределенный спекулятивный вывод (DSI), новый алгоритм распределенного вывода, который доказанно быстрее, чем спекулятивный вывод (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] и традиционный авторегрессионный вывод (не-SI). Как и другие алгоритмы SI, DSI работает с замороженными LLM, не требуя обучения или архитектурных модификаций, и сохраняет целевое распределение. Предыдущие исследования по SI продемонстрировали эмпирическое ускорение (по сравнению с не-SI), но требуют быстрого и точного чернового LLM. На практике готовые LLM часто не имеют соответствующих чернов, которые были бы достаточно быстрыми и точными. Мы показываем разрыв: SI замедляется по сравнению с не-SI при использовании медленных или менее точных чернов. Мы устраняем этот разрыв, доказывая, что DSI быстрее как SI, так и не-SI при любых черновых. Оркестрируя несколько экземпляров целевого и черновых моделей, DSI не только быстрее SI, но также поддерживает LLM, которые не могут быть ускорены с помощью SI. Наши симуляции показывают ускорение готовых LLM в реалистичных условиях: DSI быстрее SI на 1.29-1.92 раза.

DiM: Диффузионная мамба для эффективного синтеза изображений высокого разрешения
DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis

May 23

ByYao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu

Модели диффузии достигли большого успеха в генерации изображений, пройдя путь от U-Net к Vision Transformers. Однако вычислительная сложность трансформеров квадратично зависит от количества токенов, что создает значительные трудности при работе с изображениями высокого разрешения. В данной работе мы предлагаем модель Diffusion Mamba (DiM), которая объединяет эффективность Mamba, модели последовательности на основе моделей пространства состояний (SSM), с выразительной мощностью моделей диффузии для эффективного синтеза изображений высокого разрешения. Для решения проблемы того, что Mamba не способна обобщаться на 2D сигналы, мы предлагаем несколько архитектурных решений, включая многонаправленные сканирования, обучаемые токены-заполнители в конце каждой строки и столбца, а также легкое улучшение локальных признаков. Наша архитектура DiM обеспечивает эффективность времени вывода для изображений высокого разрешения. Кроме того, для дальнейшего улучшения эффективности обучения генерации изображений высокого разрешения с помощью DiM мы исследуем стратегию обучения "от слабого к сильному", которая предварительно обучает DiM на изображениях низкого разрешения (256 на 256), а затем донастраивает его на изображениях высокого разрешения (512 на 512). Мы также исследуем стратегии повышения разрешения без обучения, чтобы позволить модели генерировать изображения более высокого разрешения (например, 1024 на 1024 и 1536 на 1536) без дополнительной донастройки. Эксперименты демонстрируют эффективность и эффективность нашей модели DiM.

Градиентный спуск на основе термодинамического естественного градиента
Thermodynamic Natural Gradient Descent

May 22

ByKaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles

Методы обучения второго порядка имеют лучшие свойства сходимости по сравнению с градиентным спуском, но редко используются на практике для обучения на больших масштабах из-за вычислительной нагрузки. Это можно рассматривать как ограничение оборудования (наложенное цифровыми компьютерами). Здесь мы показываем, что естественный градиентный спуск (NGD), метод второго порядка, может иметь сходную вычислительную сложность на итерацию с методом первого порядка при использовании соответствующего оборудования. Мы представляем новый гибридный цифро-аналоговый алгоритм для обучения нейронных сетей, эквивалентный NGD в определенном режиме параметров, но избегающий чрезмерно дорогих решений линейных систем. Наш алгоритм использует термодинамические свойства аналоговой системы в равновесии и, следовательно, требует аналогового термодинамического компьютера. Обучение происходит в гибридном цифро-аналоговом цикле, где градиент и матрица информации Фишера (или любая другая положительно полуопределенная кривизна матрица) вычисляются через определенные временные интервалы, в то время как происходят аналоговые динамики. Мы численно демонстрируем превосходство этого подхода над современными цифровыми методами обучения первого и второго порядка на задачах классификации и настройки языковой модели.

Улучшенное сопоставление распределений для быстрой синтеза изображений
Improved Distribution Matching Distillation for Fast Image Synthesis

May 23

ByTianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman

Недавние подходы показали перспективы сжатия моделей диффузии в эффективные генераторы одного шага. Среди них Distribution Matching Distillation (DMD) создает генераторы одного шага, соответствующие своему учителю по распределению, не требуя однозначного соответствия с траекториями выборки своих учителей. Однако для обеспечения стабильного обучения DMD требует дополнительной потери регрессии, вычисленной с использованием большого набора пар шум-изображение, сгенерированных учителем с помощью множества шагов детерминированного сэмплера. Это затратно для синтеза текста в изображение в крупном масштабе и ограничивает качество студента, слишком тесно связывая его с исходными траекториями выборки учителя. Мы представляем DMD2, набор техник, которые преодолевают это ограничение и улучшают обучение DMD. Во-первых, мы устраняем потерю регрессии и необходимость в дорогостоящем построении набора данных. Мы показываем, что возникшая нестабильность обусловлена тем, что фальшивый критик недостоверно оценивает распределение сгенерированных образцов и предлагаем правило обновления на двух временных шкалах в качестве лекарства. Во-вторых, мы интегрируем потерю GAN в процедуру дистилляции, различая сгенерированные образцы и реальные изображения. Это позволяет обучать модель студента на реальных данных, смягчая недостаточную оценку реального балла от модели учителя и улучшая качество. Наконец, мы модифицируем процедуру обучения для возможности многократной выборки. Мы выявляем и решаем проблему несоответствия ввода обучения и вывода в этой ситуации, симулируя образцы генератора во время вывода во время обучения. В целом, наши улучшения устанавливают новые показатели в генерации изображений одного шага, с оценками FID 1,28 на ImageNet-64x64 и 8,35 на zero-shot COCO 2014, превосходя исходного учителя несмотря на 500-кратное снижение стоимости вывода. Кроме того, мы показываем, что наш подход может генерировать мегапиксельные изображения, дистиллируя SDXL, демонстрируя исключительное визуальное качество среди методов с небольшим количеством шагов.

Визуальные Эхо: Простой Объединенный Трансформер для Аудио-визуальной Генерации
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23

ByShiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji

В последние годы, с реалистичными результатами генерации и широким спектром персонализированных приложений, модели генерации на основе диффузии привлекают огромное внимание как в области визуальной, так и звуковой генерации. По сравнению с значительными достижениями в генерации текста в изображение или текста в аудио, исследования в области аудио-визуальной или визуально-аудио генерации продвигались относительно медленно. Современные методы аудио-визуальной генерации обычно прибегают к огромным языковым моделям или составным моделям диффузии. Вместо разработки еще одной гигантской модели для аудио-визуальной генерации, в данной статье мы делаем шаг назад, показывая, что простой и легкий генеративный трансформер, который не полностью исследован в мульти-модальной генерации, может достичь отличных результатов в генерации изображения в аудио. Трансформер работает в дискретном аудио и визуальном пространстве GAN с векторным квантованием и обучается в режиме масочной денойзинг. После обучения, руководство без классификатора может быть использовано без дополнительного обучения или модификации, что приводит к лучшей производительности. Поскольку модель трансформера симметрична по модальности, ее также можно прямо применять для генерации аудио в изображение и совместной генерации. В экспериментах мы показываем, что наш простой метод превосходит недавние методы генерации изображения в аудио. Сгенерированные аудиообразцы можно найти по ссылке: https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ

AlignGPT: Много몿ельные большие языковые модели с адаптивной способностью выравнивания
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

May 23

ByFei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai

Многомодельные модели с большим языковым объемом (MLLM) широко признаются как ключевые в исследовании искусственного общего интеллекта (AGI). Основа MLLM заключается в их способности достигать кросс-модального выравнивания. Для достижения этой цели текущие MLLM обычно следуют двухфазной парадигме обучения: фазе предварительного обучения и фазе настройки инструкций. Несмотря на их успех, существуют недостатки в моделировании возможностей выравнивания в этих моделях. Во-первых, во время предварительного обучения модель обычно предполагает, что все пары изображение-текст равномерно выровнены, но на самом деле степень выравнивания между различными парами изображение-текст неоднородна. Во-вторых, используемые в настоящее время инструкции для донастройки включают различные задачи, инструкции различных задач обычно требуют различных уровней возможностей выравнивания, но предыдущие MLLM не учитывают эти дифференцированные потребности в выравнивании. Для решения этих проблем мы предлагаем новую многомодельную модель с большим языковым объемом AlignGPT. На этапе предварительного обучения, вместо того чтобы рассматривать все пары изображение-текст равнозначно, мы назначаем разные уровни возможностей выравнивания различным парам изображение-текст. Затем на этапе настройки инструкций мы адаптивно комбинируем эти разные уровни возможностей выравнивания, чтобы удовлетворить динамические потребности в выравнивании различных инструкций. Обширные экспериментальные результаты показывают, что наша модель достигает конкурентоспособной производительности на 12 бенчмарках.

Идентификация: Персонализация выправленного потока с руководством якорным классификатором
RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance

May 23

ByZhicheng Sun, Zhenhao Yang, Yang Jin, Haozhe Chi, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Di Zhang, Yang Song, Kun Gai, Yadong Mu

Настройка моделей диффузии для создания изображений, сохраняющих идентичность, на основе пользовательских исходных изображений - это увлекательная новая задача. Преобладающие подходы обычно требуют обучения на обширных изображениях, специфичных для области, для достижения сохранения идентичности, что ограничивает гибкость в различных сценариях использования. Для решения этой проблемы мы используем руководство классификатора, технику обучения без обучения, которая направляет модели диффузии с использованием существующего классификатора, для персонализированного создания изображений. Наше исследование показывает, что на основе недавней структуры исправленного потока основное ограничение обычного руководства классификатором, требующее специального классификатора, может быть устранено с помощью простого решения с фиксированной точкой, позволяющего гибкую персонализацию с использованием готовых дискриминаторов изображений. Более того, процедура его решения оказывается стабильной, когда она привязана к траектории опорного потока, с гарантией сходимости. Полученный метод реализован на исправленном потоке с различными готовыми дискриминаторами изображений, обеспечивая преимущественные результаты персонализации для человеческих лиц, живых объектов и определенных объектов. Код доступен по адресу https://github.com/feifeiobama/RectifID.

CamViG: Генерация изображения в видео с учетом камеры с помощью мультимодальных трансформеров
CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

May 21

ByAndrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa

Мы расширяем мультимодальные трансформеры, чтобы включить 3D движение камеры в качестве условного сигнала для задачи генерации видео. Генеративные модели видео становятся все более мощными, поэтому усилия в исследованиях сосредотачиваются на методах управления выводом таких моделей. Мы предлагаем добавить виртуальное управление 3D камерой к генеративным методам видео, условиями генерации видео на кодировании трехмерного движения камеры на протяжении создаваемого видео. Результаты показывают, что мы (1) способны успешно управлять камерой во время генерации видео, начиная с одного кадра и сигнала камеры, и (2) мы демонстрируем точность сгенерированных 3D траекторий камеры с использованием традиционных методов компьютерного зрения.

Семантика: Модель диффузии, зависящая от изображения
Semantica: An Adaptable Image-Conditioned Diffusion Model

May 23

ByManoj Kumar, Neil Houlsby, Emiel Hoogeboom

Мы исследуем задачу адаптации генеративных моделей изображений к различным наборам данных без донастройки. В этой связи мы представляем Semantica, диффузионную модель, зависящую от изображения, способную генерировать изображения на основе семантики условного изображения. Semantica обучается исключительно на парах изображений веб-масштаба, то есть она получает случайное изображение с веб-страницы в качестве условного ввода и моделирует другое случайное изображение с той же веб-страницы. Наши эксперименты подчеркивают экспрессивность предварительно обученных кодировщиков изображений и необходимость фильтрации данных на основе семантики для достижения высококачественной генерации изображений. После обучения она может адаптивно генерировать новые изображения из набора данных, просто используя изображения из этого набора данных в качестве ввода. Мы изучаем свойства передачи Semantica на ImageNet, LSUN церкви, LSUN спальни и SUN397.

Излучение NeRF: Улучшенный вид, зависящий от обзора, с согласованными отражениями
NeRF-Casting: Improved View-Dependent Appearance with Consistent Reflections

May 23

ByDor Verbin, Pratul P. Srinivasan, Peter Hedman, Ben Mildenhall, Benjamin Attal, Richard Szeliski, Jonathan T. Barron

Нейронные поля радиантности (NeRF) обычно испытывают затруднения с восстановлением и отображением высокоотражающих объектов, чей внешний вид быстро изменяется при изменении точки обзора. Недавние работы улучшили способность NeRF к отображению детального отражательного вида далекого окружающего освещения, но не могут синтезировать последовательные отражения близкого контента. Более того, эти техники полагаются на большие вычислительно затратные нейронные сети для моделирования исходящей радиантности, что серьезно ограничивает оптимизацию и скорость отображения. Мы решаем эти проблемы с помощью подхода, основанного на трассировке лучей: вместо запроса дорогостоящей нейронной сети для исходящей видозависимой радиантности в точках вдоль каждого луча камеры, наша модель испускает лучи отражения из этих точек и прослеживает их через представление NeRF для отображения векторов признаков, которые декодируются в цвет с использованием небольшой недорогой сети. Мы демонстрируем, что наша модель превосходит предыдущие методы для синтеза обзора сцен, содержащих блестящие объекты, и что это единственный существующий метод NeRF, который может синтезировать фотореалистичный отражательный вид и отражения в сценах реального мира, требуя при этом сравнимого времени оптимизации с современными моделями синтеза обзора.

Нейронное направленное кодирование для эффективного и точного моделирования зависимого от вида внешнего вида.
Neural Directional Encoding for Efficient and Accurate View-Dependent Appearance Modeling

May 23

ByLiwen Wu, Sai Bi, Zexiang Xu, Fujun Luan, Kai Zhang, Iliyan Georgiev, Kalyan Sunkavalli, Ravi Ramamoorthi

Синтез нового вида для зеркальных объектов, таких как блестящие металлы или глянцевые краски, остается значительным вызовом. Не только блестящий внешний вид, но и глобальные эффекты освещения, включая отражения других объектов в окружающей среде, являются ключевыми компонентами для точного воспроизведения сцены. В этой статье мы представляем Нейронное Угловое Кодирование (NDE), зависящее от вида кодирование внешнего вида нейронных поля радиации (NeRF) для визуализации зеркальных объектов. NDE переносит концепцию кодирования пространства на основе сетки признаков в угловую область, значительно улучшая способность моделировать высокочастотные угловые сигналы. В отличие от предыдущих методов, использующих функции кодирования только с угловым входом, мы дополнительно конусно трассируем пространственные признаки для получения пространственно изменяющегося углового кодирования, что позволяет решить сложные эффекты взаимных отражений. Обширные эксперименты как на синтетических, так и на реальных наборах данных показывают, что модель NeRF с NDE (1) превосходит существующие методы в синтезе нового вида для зеркальных объектов и (2) работает с небольшими сетями для быстрого (в реальном времени) вывода. Веб-страница проекта и исходный код доступны по адресу: https://lwwu2.github.io/nde/.

Теле-Алоха: недорогая и высокоаутентичная система телеприсутствия с использованием разреженных RGB-камер
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras

May 23

ByHanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu

В данной статье мы представляем недорогую и высокоаутентичную двустороннюю телеприсутствие систему Tele-Aloha, ориентированную на сценарии однорангового общения. По сравнению с предыдущими системами, Tele-Aloha использует только четыре разреженные RGB камеры, один GPU для потребительского рынка и один автостереоскопический экран для достижения высокого разрешения (2048x2048), реального времени (30 fps), низкой задержки (менее 150 мс) и надежного удаленного общения. В качестве основы Tele-Aloha мы предлагаем эффективный новый алгоритм синтеза видов для верхней части тела. Во-первых, мы разрабатываем каскадный оценщик разности для получения надежного геометрического признака. Кроме того, вводится нейронный растропроцессор через гауссовское сплетение для проецирования латентных признаков на целевой вид и их декодирования в уменьшенном разрешении. Далее, учитывая высококачественные захваченные данные, мы используем механизм взвешенного смешивания для улучшения декодированного изображения до окончательного разрешения 2K. Используя ведущий в мире автостереоскопический дисплей и отслеживание радужки с низкой задержкой, пользователи могут испытать сильное трехмерное ощущение даже без ношения устройства гарнитуры. В целом, наша система телеприсутствия демонстрирует ощущение сосуществования в реальных экспериментах, вдохновляя следующее поколение коммуникации.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

DeepSeek-Prover: Продвижение теоремного доказательства в LLMs через синтетические данные большого масштаба
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

May 23

ByHuajian Xin, Daya Guo, Zhihong Shao, Zhizhou Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang

Не все признаки языковой модели являются линейными.
Not All Language Model Features Are Linear

May 23

ByJoshua Engels, Isaac Liao, Eric J. Michaud, Wes Gurnee, Max Tegmark

ReVideo: Пересоздание видео с управлением движением и контентом
ReVideo: Remake a Video with Motion and Content Control

May 22

ByChong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang

Плотный коннектор для многоязычных языковых моделей.
Dense Connector for MLLMs

May 22

ByHuanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang

LiteVAE: Легковесные и эффективные вариационные автоэнкодеры для моделей латентной диффузии
LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

May 23

BySeyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber

Распределенное спекулятивное вывода больших языковых моделей
Distributed Speculative Inference of Large Language Models

May 23

ByNadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel

DiM: Диффузионная мамба для эффективного синтеза изображений высокого разрешения
DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis

May 23

ByYao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu

Градиентный спуск на основе термодинамического естественного градиента
Thermodynamic Natural Gradient Descent

May 22

ByKaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles

Улучшенное сопоставление распределений для быстрой синтеза изображений
Improved Distribution Matching Distillation for Fast Image Synthesis

May 23

ByTianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman

Визуальные Эхо: Простой Объединенный Трансформер для Аудио-визуальной Генерации
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

May 23

ByShiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji

AlignGPT: Много몿ельные большие языковые модели с адаптивной способностью выравнивания
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

May 23

ByFei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai

Идентификация: Персонализация выправленного потока с руководством якорным классификатором
RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance

May 23

ByZhicheng Sun, Zhenhao Yang, Yang Jin, Haozhe Chi, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Di Zhang, Yang Song, Kun Gai, Yadong Mu

CamViG: Генерация изображения в видео с учетом камеры с помощью мультимодальных трансформеров
CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers

May 21

ByAndrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa

Семантика: Модель диффузии, зависящая от изображения
Semantica: An Adaptable Image-Conditioned Diffusion Model

May 23

ByManoj Kumar, Neil Houlsby, Emiel Hoogeboom

Излучение NeRF: Улучшенный вид, зависящий от обзора, с согласованными отражениями
NeRF-Casting: Improved View-Dependent Appearance with Consistent Reflections

May 23

ByDor Verbin, Pratul P. Srinivasan, Peter Hedman, Ben Mildenhall, Benjamin Attal, Richard Szeliski, Jonathan T. Barron

Нейронное направленное кодирование для эффективного и точного моделирования зависимого от вида внешнего вида.
Neural Directional Encoding for Efficient and Accurate View-Dependent Appearance Modeling

May 23

ByLiwen Wu, Sai Bi, Zexiang Xu, Fujun Luan, Kai Zhang, Iliyan Georgiev, Kalyan Sunkavalli, Ravi Ramamoorthi

Теле-Алоха: недорогая и высокоаутентичная система телеприсутствия с использованием разреженных RGB-камер
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras

May 23

ByHanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu