SkinFlow: Effiziente Informationsübertragung für offene dermatologische Diagnosen durch dynamische visuelle Kodierung und gestaffeltes Reinforcement Learning
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
January 14, 2026
papers.authors: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI
papers.abstract
Allgemeine großskalige multimodale Modelle (LVLMs) scheitern in der Dermatologie trotz ihrer enormen Größe häufig an „diffuser Aufmerksamkeit“ – der Unfähigkeit, subtile pathologische Läsionen vom Hintergrundrauschen zu unterscheiden. In diesem Papier stellen wir die Annahme in Frage, dass die Skalierung von Parametern der einzige Weg zu medizinischer Präzision ist. Wir stellen SkinFlow vor, ein Framework, das Diagnose als Optimierung der Effizienz visueller Informationsübertragung behandelt. Unser Ansatz nutzt einen dynamischen Vision-Encoder (DVE) mit virtueller Breite, um komplexe pathologische Mannigfaltigkeiten ohne physikalische Parametererweiterung zu „entfalten“, gekoppelt mit einer zweistufigen Reinforcement-Learning-Strategie. Diese Strategie richtet explizite medizinische Beschreibungen (Stufe I) aus und rekonstruiert implizite diagnostische Texturen (Stufe II) sequenziell innerhalb eines begrenzten semantischen Raums. Darüber hinaus schlagen wir ein klinisch fundiertes Evaluierungsprotokoll vor, das diagnostische Sicherheit und hierarchische Relevanz über starre Label-Übereinstimmung stellt. Die empirischen Ergebnisse sind überzeugend: Unser 7B-Modell setzt einen neuen Maßstab auf dem Fitzpatrick17k-Benchmark und erzielt einen Zuwachs von +12,06 % in der Top-1-Genauigkeit und einen Anstieg von +28,57 % in der Top-6-Genauigkeit gegenüber massiven allgemeinen Modellen (z. B. Qwen3VL-235B und GPT-5.2). Diese Ergebnisse zeigen, dass die Optimierung geometrischer Kapazität und des Informationsflusses einer reinen Parameterskalierung in der diagnostischen Reasoning-Leistung überlegen ist.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.