Нейронно-управляемое редактирование изображений
Neural-Driven Image Editing
July 7, 2025
Авторы: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI
Аннотация
Традиционное редактирование изображений обычно требует ручного ввода, что делает его трудоемким и недоступным для людей с ограниченными моторными или языковыми способностями. Используя последние достижения в области интерфейсов "мозг-компьютер" (BCI) и генеративных моделей, мы предлагаем LoongX — подход к редактированию изображений без использования рук, основанный на мультимодальных нейрофизиологических сигналах. LoongX использует современные диффузионные модели, обученные на обширном наборе данных из 23 928 пар изображений, каждая из которых сопровождается синхронизированными сигналами электроэнцефалографии (ЭЭГ), функциональной ближней инфракрасной спектроскопии (fNIRS), фотоплетизмографии (PPG) и движения головы, которые фиксируют намерения пользователя. Для эффективного учета неоднородности этих сигналов LoongX интегрирует два ключевых модуля. Модуль кросс-масштабного пространства состояний (CS3) кодирует информативные признаки, специфичные для каждой модальности. Модуль динамического управляемого слияния (DGF) дополнительно объединяет эти признаки в единое латентное пространство, которое затем согласуется с семантикой редактирования путем тонкой настройки на диффузионном трансформере (DiT). Кроме того, мы предварительно обучаем кодировщики с использованием контрастного обучения для согласования когнитивных состояний с семантическими намерениями, извлеченными из встроенного естественного языка. Многочисленные эксперименты показывают, что LoongX достигает производительности, сопоставимой с методами, управляемыми текстом (CLIP-I: 0.6605 против 0.6558; DINO: 0.4812 против 0.4636), и превосходит их, когда нейронные сигналы комбинируются с речью (CLIP-T: 0.2588 против 0.2549). Эти результаты подчеркивают перспективность нейронно-управляемых генеративных моделей в создании доступного и интуитивного редактирования изображений, а также открывают новые направления для когнитивно-управляемых креативных технологий. Наборы данных и код будут опубликованы для поддержки будущих исследований и стимулирования прогресса в этой развивающейся области.
English
Traditional image editing typically relies on manual prompting, making it
labor-intensive and inaccessible to individuals with limited motor control or
language abilities. Leveraging recent advances in brain-computer interfaces
(BCIs) and generative models, we propose LoongX, a hands-free image editing
approach driven by multimodal neurophysiological signals. LoongX utilizes
state-of-the-art diffusion models trained on a comprehensive dataset of 23,928
image editing pairs, each paired with synchronized electroencephalography
(EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography
(PPG), and head motion signals that capture user intent. To effectively address
the heterogeneity of these signals, LoongX integrates two key modules. The
cross-scale state space (CS3) module encodes informative modality-specific
features. The dynamic gated fusion (DGF) module further aggregates these
features into a unified latent space, which is then aligned with edit semantics
via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train
the encoders using contrastive learning to align cognitive states with semantic
intentions from embedded natural language. Extensive experiments demonstrate
that LoongX achieves performance comparable to text-driven methods (CLIP-I:
0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural
signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results
highlight the promise of neural-driven generative models in enabling
accessible, intuitive image editing and open new directions for
cognitive-driven creative technologies. Datasets and code will be released to
support future work and foster progress in this emerging area.