ChatPaper.aiChatPaper

SkinFlow: Efficiënte Informatieoverdracht voor Open Dermatologische Diagnose via Dynamische Visuele Codering en Gefaseerd RL

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

January 14, 2026
Auteurs: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI

Samenvatting

Algemene grootschalige visueel-taalkundige modellen (LVLM's) falen vaak in de dermatologie, ondanks hun enorme omvang, door "diffuse aandacht" - het onvermogen om subtiele pathologische laesies te onderscheiden van achtergrondruis. In dit artikel dagen we de aanname uit dat parameterschaling de enige weg is naar medische precisie. We introduceren SkinFlow, een raamwerk dat diagnose behandelt als een optimalisatie van de efficiëntie van visuele informatieoverdracht. Onze aanpak gebruikt een Virtuele-Breedte Dynamische Visie Encoder (DVE) om complexe pathologische variëteiten "uit te vouwen" zonder fysieke parameteruitbreiding, gekoppeld aan een tweefasen Reinforcement Learning-strategie. Deze strategie aligneert sequentieel expliciete medische beschrijvingen (Fase I) en reconstrueert impliciete diagnostische texturen (Fase II) binnen een beperkte semantische ruimte. Verder stellen we een klinisch onderbouwd evaluatieprotocol voor dat diagnostische veiligheid en hiërarchische relevantie prioriteert boven rigide labelmatching. Empirische resultaten zijn overtuigend: ons 7B-model vestigt een nieuwe state-of-the-art op de Fitzpatrick17k-benchmark, met een winst van +12,06% in Top-1 nauwkeurigheid en een stijging van +28,57% in Top-6 nauwkeurigheid ten opzichte van de enorme algemene modellen (zoals Qwen3VL-235B en GPT-5.2). Deze bevindingen tonen aan dat het optimaliseren van geometrische capaciteit en informatiestroom superieure diagnostische redenering oplevert vergeleken met ruwe parameterschaling.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.
PDF364January 16, 2026