Edición de Imágenes Basada en Redes Neuronales

Resumen

La edición tradicional de imágenes generalmente depende de indicaciones manuales, lo que la hace laboriosa e inaccesible para personas con control motor o habilidades lingüísticas limitadas. Aprovechando los avances recientes en interfaces cerebro-computadora (BCI) y modelos generativos, proponemos LoongX, un enfoque de edición de imágenes sin manos impulsado por señales neurofisiológicas multimodales. LoongX utiliza modelos de difusión de última generación entrenados en un conjunto de datos exhaustivo de 23,928 pares de edición de imágenes, cada uno emparejado con señales sincronizadas de electroencefalografía (EEG), espectroscopia funcional de infrarrojo cercano (fNIRS), fotopletismografía (PPG) y movimiento de la cabeza que capturan la intención del usuario. Para abordar eficazmente la heterogeneidad de estas señales, LoongX integra dos módulos clave. El módulo de espacio de estado de escala cruzada (CS3) codifica características informativas específicas de cada modalidad. El módulo de fusión dinámica con compuerta (DGF) agrega estas características en un espacio latente unificado, que luego se alinea con la semántica de la edición mediante ajuste fino en un transformador de difusión (DiT). Además, preentrenamos los codificadores utilizando aprendizaje contrastivo para alinear los estados cognitivos con las intenciones semánticas del lenguaje natural incrustado. Experimentos extensos demuestran que LoongX logra un rendimiento comparable a los métodos basados en texto (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) y los supera cuando las señales neurales se combinan con el habla (CLIP-T: 0.2588 vs. 0.2549). Estos resultados resaltan el potencial de los modelos generativos impulsados por señales neurales para permitir una edición de imágenes accesible e intuitiva, y abren nuevas direcciones para las tecnologías creativas impulsadas por la cognición. Los conjuntos de datos y el código se liberarán para apoyar trabajos futuros y fomentar el progreso en esta área emergente.

English

Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. Datasets and code will be released to support future work and foster progress in this emerging area.

Edición de Imágenes Basada en Redes Neuronales

Neural-Driven Image Editing

Resumen

Support