SkinFlow: Trasmissione Efficiente di Informazioni per la Diagnosi Dermatologica Aperta tramite Codifica Visiva Dinamica e RL Fasiato

Abstract

I modelli linguistici visivi di grandi dimensioni (LVLM) per uso generico, nonostante la loro scala massiccia, spesso falliscono in dermatologia a causa dell'"attenzione diffusa" - l'incapacità di distinguere lesioni patologiche sottili dal rumore di fondo. In questo articolo, mettiamo in discussione l'assunzione che il ridimensionamento dei parametri sia l'unica via per la precisione medica. Introduciamo SkinFlow, un framework che tratta la diagnosi come un'ottimizzazione dell'efficienza di trasmissione delle informazioni visive. Il nostro approccio utilizza un Encoder Visivo Dinamico a Larghezza Virtuale (DVE) per "spiegare" le complesse varietà patologiche senza espansione fisica dei parametri, abbinato a una strategia di Apprendimento per Rinforzo a due stadi. Questa strategia allinea sequenzialmente le descrizioni mediche esplicite (Fase I) e ricostruisce le trame diagnostiche implicite (Fase II) all'interno di uno spazio semantico vincolato. Inoltre, proponiamo un protocollo di valutazione clinicamente fondato che privilegia la sicurezza diagnostica e la rilevanza gerarchica rispetto alla rigida corrispondenza delle etichette. I risultati empirici sono convincenti: il nostro modello da 7B stabilisce un nuovo stato dell'arte sul benchmark Fitzpatrick17k, ottenendo un guadagno del +12,06% in accuratezza Top-1 e un incremento del +28,57% in accuratezza Top-6 rispetto ai massicci modelli per uso generico (ad es. Qwen3VL-235B e GPT-5.2). Questi risultati dimostrano che l'ottimizzazione della capacità geometrica e del flusso informativo produce un ragionamento diagnostico superiore rispetto al semplice ridimensionamento grezzo dei parametri.

English

General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.

SkinFlow: Trasmissione Efficiente di Informazioni per la Diagnosi Dermatologica Aperta tramite Codifica Visiva Dinamica e RL Fasiato

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

Abstract

Support