Edición de Imágenes Basada en Redes Neuronales
Neural-Driven Image Editing
July 7, 2025
Autores: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI
Resumen
La edición tradicional de imágenes generalmente depende de indicaciones manuales, lo que la hace laboriosa e inaccesible para personas con control motor o habilidades lingüísticas limitadas. Aprovechando los avances recientes en interfaces cerebro-computadora (BCI) y modelos generativos, proponemos LoongX, un enfoque de edición de imágenes sin manos impulsado por señales neurofisiológicas multimodales. LoongX utiliza modelos de difusión de última generación entrenados en un conjunto de datos exhaustivo de 23,928 pares de edición de imágenes, cada uno emparejado con señales sincronizadas de electroencefalografía (EEG), espectroscopia funcional de infrarrojo cercano (fNIRS), fotopletismografía (PPG) y movimiento de la cabeza que capturan la intención del usuario. Para abordar eficazmente la heterogeneidad de estas señales, LoongX integra dos módulos clave. El módulo de espacio de estado de escala cruzada (CS3) codifica características informativas específicas de cada modalidad. El módulo de fusión dinámica con compuerta (DGF) agrega estas características en un espacio latente unificado, que luego se alinea con la semántica de la edición mediante ajuste fino en un transformador de difusión (DiT). Además, preentrenamos los codificadores utilizando aprendizaje contrastivo para alinear los estados cognitivos con las intenciones semánticas del lenguaje natural incrustado. Experimentos extensos demuestran que LoongX logra un rendimiento comparable a los métodos basados en texto (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) y los supera cuando las señales neurales se combinan con el habla (CLIP-T: 0.2588 vs. 0.2549). Estos resultados resaltan el potencial de los modelos generativos impulsados por señales neurales para permitir una edición de imágenes accesible e intuitiva, y abren nuevas direcciones para las tecnologías creativas impulsadas por la cognición. Los conjuntos de datos y el código se liberarán para apoyar trabajos futuros y fomentar el progreso en esta área emergente.
English
Traditional image editing typically relies on manual prompting, making it
labor-intensive and inaccessible to individuals with limited motor control or
language abilities. Leveraging recent advances in brain-computer interfaces
(BCIs) and generative models, we propose LoongX, a hands-free image editing
approach driven by multimodal neurophysiological signals. LoongX utilizes
state-of-the-art diffusion models trained on a comprehensive dataset of 23,928
image editing pairs, each paired with synchronized electroencephalography
(EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography
(PPG), and head motion signals that capture user intent. To effectively address
the heterogeneity of these signals, LoongX integrates two key modules. The
cross-scale state space (CS3) module encodes informative modality-specific
features. The dynamic gated fusion (DGF) module further aggregates these
features into a unified latent space, which is then aligned with edit semantics
via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train
the encoders using contrastive learning to align cognitive states with semantic
intentions from embedded natural language. Extensive experiments demonstrate
that LoongX achieves performance comparable to text-driven methods (CLIP-I:
0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural
signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results
highlight the promise of neural-driven generative models in enabling
accessible, intuitive image editing and open new directions for
cognitive-driven creative technologies. Datasets and code will be released to
support future work and foster progress in this emerging area.