Edição de Imagens Orientada por Redes Neurais
Neural-Driven Image Editing
July 7, 2025
Autores: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI
Resumo
A edição tradicional de imagens geralmente depende de comandos manuais, tornando-a trabalhosa e inacessível para indivíduos com controle motor limitado ou habilidades linguísticas reduzidas. Aproveitando os avanços recentes em interfaces cérebro-computador (BCIs) e modelos generativos, propomos o LoongX, uma abordagem de edição de imagens sem uso das mãos, impulsionada por sinais neurofisiológicos multimodais. O LoongX utiliza modelos de difusão de última geração treinados em um conjunto abrangente de 23.928 pares de edição de imagens, cada um associado a sinais sincronizados de eletroencefalografia (EEG), espectroscopia funcional de infravermelho próximo (fNIRS), fotopletismografia (PPG) e movimentos da cabeça, que capturam a intenção do usuário. Para lidar efetivamente com a heterogeneidade desses sinais, o LoongX integra dois módulos principais. O módulo de espaço de estado em escala cruzada (CS3) codifica características informativas específicas de cada modalidade. O módulo de fusão dinâmica controlada (DGF) agrega ainda mais essas características em um espaço latente unificado, que é então alinhado com a semântica da edição por meio de ajuste fino em um transformador de difusão (DiT). Além disso, pré-treinamos os codificadores usando aprendizado contrastivo para alinhar estados cognitivos com intenções semânticas extraídas de linguagem natural embutida. Experimentos extensivos demonstram que o LoongX alcança desempenho comparável a métodos baseados em texto (CLIP-I: 0,6605 vs. 0,6558; DINO: 0,4812 vs. 0,4636) e os supera quando os sinais neurais são combinados com fala (CLIP-T: 0,2588 vs. 0,2549). Esses resultados destacam o potencial dos modelos generativos baseados em sinais neurais para permitir edição de imagens acessível e intuitiva, abrindo novas direções para tecnologias criativas impulsionadas pela cognição. Conjuntos de dados e código serão disponibilizados para apoiar trabalhos futuros e promover o progresso nesta área emergente.
English
Traditional image editing typically relies on manual prompting, making it
labor-intensive and inaccessible to individuals with limited motor control or
language abilities. Leveraging recent advances in brain-computer interfaces
(BCIs) and generative models, we propose LoongX, a hands-free image editing
approach driven by multimodal neurophysiological signals. LoongX utilizes
state-of-the-art diffusion models trained on a comprehensive dataset of 23,928
image editing pairs, each paired with synchronized electroencephalography
(EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography
(PPG), and head motion signals that capture user intent. To effectively address
the heterogeneity of these signals, LoongX integrates two key modules. The
cross-scale state space (CS3) module encodes informative modality-specific
features. The dynamic gated fusion (DGF) module further aggregates these
features into a unified latent space, which is then aligned with edit semantics
via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train
the encoders using contrastive learning to align cognitive states with semantic
intentions from embedded natural language. Extensive experiments demonstrate
that LoongX achieves performance comparable to text-driven methods (CLIP-I:
0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural
signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results
highlight the promise of neural-driven generative models in enabling
accessible, intuitive image editing and open new directions for
cognitive-driven creative technologies. Datasets and code will be released to
support future work and foster progress in this emerging area.