ChatPaper.aiChatPaper

Neuralgesteuerte Bildbearbeitung

Neural-Driven Image Editing

July 7, 2025
papers.authors: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI

papers.abstract

Traditionelle Bildbearbeitung beruht typischerweise auf manuellen Eingaben, was sie arbeitsintensiv und für Personen mit eingeschränkter motorischer Kontrolle oder Sprachfähigkeiten unzugänglich macht. Unter Nutzung der jüngsten Fortschritte in der Gehirn-Computer-Schnittstellen-Technologie (BCIs) und generativen Modellen schlagen wir LoongX vor, einen berührungsfreien Ansatz zur Bildbearbeitung, der durch multimodale neurophysiologische Signale gesteuert wird. LoongX verwendet modernste Diffusionsmodelle, die auf einem umfassenden Datensatz von 23.928 Bildbearbeitungspaaren trainiert wurden, wobei jedes Paar mit synchronisierten Elektroenzephalographie- (EEG), funktioneller Nahinfrarotspektroskopie- (fNIRS), Photoplethysmographie- (PPG) und Kopfbewegungssignalen verknüpft ist, die die Benutzerabsicht erfassen. Um die Heterogenität dieser Signale effektiv zu bewältigen, integriert LoongX zwei Schlüsselmodule. Das Cross-Scale State Space (CS3)-Modul kodiert informative, modalitätsspezifische Merkmale. Das Dynamic Gated Fusion (DGF)-Modul aggregiert diese Merkmale weiter in einen einheitlichen latenten Raum, der dann durch Feinabstimmung auf einem Diffusions-Transformer (DiT) mit Bearbeitungssemantik abgeglichen wird. Zusätzlich trainieren wir die Encoder mittels kontrastiven Lernens vor, um kognitive Zustände mit semantischen Absichten aus eingebetteter natürlicher Sprache abzugleichen. Umfangreiche Experimente zeigen, dass LoongX eine Leistung erzielt, die mit textgesteuerten Methoden vergleichbar ist (CLIP-I: 0,6605 vs. 0,6558; DINO: 0,4812 vs. 0,4636) und diese übertrifft, wenn neuronale Signale mit Sprache kombiniert werden (CLIP-T: 0,2588 vs. 0,2549). Diese Ergebnisse unterstreichen das Potenzial neuronal gesteuerter generativer Modelle, zugängliche und intuitive Bildbearbeitung zu ermöglichen, und eröffnen neue Richtungen für kognitiv gesteuerte Kreativtechnologien. Datensätze und Code werden veröffentlicht, um zukünftige Arbeiten zu unterstützen und den Fortschritt in diesem aufstrebenden Bereich zu fördern.
English
Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. Datasets and code will be released to support future work and foster progress in this emerging area.
PDF231July 14, 2025