ChatPaper.aiChatPaper

Neuraal-Gestuurde Beeldbewerking

Neural-Driven Image Editing

July 7, 2025
Auteurs: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI

Samenvatting

Traditionele beeldbewerking is doorgaans afhankelijk van handmatige aanwijzingen, wat het arbeidsintensief maakt en ontoegankelijk voor personen met beperkte motorische controle of taalvaardigheden. Door gebruik te maken van recente vooruitgang in brain-computer interfaces (BCI's) en generatieve modellen, stellen we LoongX voor, een handenvrije benadering voor beeldbewerking die wordt aangedreven door multimodale neurofysiologische signalen. LoongX maakt gebruik van state-of-the-art diffusiemodellen die zijn getraind op een uitgebreide dataset van 23.928 beeldbewerkingsparen, elk gekoppeld aan gesynchroniseerde elektro-encefalografie (EEG), functionele nabij-infraroodspectroscopie (fNIRS), fotoplethysmografie (PPG) en hoofd bewegingssignalen die gebruikersintentie vastleggen. Om de heterogeniteit van deze signalen effectief aan te pakken, integreert LoongX twee sleutelmodules. De cross-scale state space (CS3) module codeert informatieve modale specifieke kenmerken. De dynamic gated fusion (DGF) module aggregeert deze kenmerken verder in een uniforme latente ruimte, die vervolgens wordt afgestemd op bewerkingssemantiek via fine-tuning op een diffusie transformer (DiT). Daarnaast pre-trainen we de encoders met behulp van contrastief leren om cognitieve toestanden af te stemmen op semantische intenties vanuit ingebedde natuurlijke taal. Uitgebreide experimenten tonen aan dat LoongX prestaties bereikt die vergelijkbaar zijn met tekstgestuurde methoden (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) en deze overtreft wanneer neurale signalen worden gecombineerd met spraak (CLIP-T: 0.2588 vs. 0.2549). Deze resultaten onderstrepen de belofte van neurale gestuurde generatieve modellen in het mogelijk maken van toegankelijke, intuïtieve beeldbewerking en openen nieuwe richtingen voor cognitief gestuurde creatieve technologieën. Datasets en code zullen worden vrijgegeven om toekomstig werk te ondersteunen en vooruitgang in dit opkomende gebied te bevorderen.
English
Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. Datasets and code will be released to support future work and foster progress in this emerging area.
PDF261July 14, 2025