Édition d'images pilotée par les réseaux neuronaux

papers.abstract

L'édition d'images traditionnelle repose généralement sur des instructions manuelles, ce qui la rend laborieuse et inaccessible aux personnes ayant des capacités motrices ou langagières limitées. En exploitant les avancées récentes des interfaces cerveau-ordinateur (BCI) et des modèles génératifs, nous proposons LoongX, une approche d'édition d'images sans contact pilotée par des signaux neurophysiologiques multimodaux. LoongX utilise des modèles de diffusion de pointe entraînés sur un ensemble de données complet de 23 928 paires d'édition d'images, chacune associée à des signaux synchronisés d'électroencéphalographie (EEG), de spectroscopie fonctionnelle dans le proche infrarouge (fNIRS), de photopléthysmographie (PPG) et de mouvements de la tête, captant ainsi l'intention de l'utilisateur. Pour traiter efficacement l'hétérogénéité de ces signaux, LoongX intègre deux modules clés. Le module d'espace d'état multi-échelle (CS3) encode des caractéristiques spécifiques à chaque modalité. Le module de fusion dynamique à portes (DGF) agrège ensuite ces caractéristiques dans un espace latent unifié, qui est ensuite aligné avec la sémantique de l'édition via un ajustement fin sur un transformateur de diffusion (DiT). De plus, nous pré-entraînons les encodeurs en utilisant l'apprentissage contrastif pour aligner les états cognitifs avec les intentions sémantiques issues du langage naturel intégré. Des expériences approfondies démontrent que LoongX atteint des performances comparables aux méthodes pilotées par texte (CLIP-I : 0,6605 contre 0,6558 ; DINO : 0,4812 contre 0,4636) et les surpasse lorsque les signaux neuronaux sont combinés à la parole (CLIP-T : 0,2588 contre 0,2549). Ces résultats mettent en lumière le potentiel des modèles génératifs pilotés par les signaux neuronaux pour permettre une édition d'images accessible et intuitive, et ouvrent de nouvelles perspectives pour les technologies créatives pilotées par la cognition. Les ensembles de données et le code seront publiés pour soutenir les travaux futurs et favoriser les progrès dans ce domaine émergent.

English

Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. Datasets and code will be released to support future work and foster progress in this emerging area.

Édition d'images pilotée par les réseaux neuronaux

Neural-Driven Image Editing

papers.abstract

Support