SkinFlow: Transmisión Eficiente de Información para Diagnóstico Dermatológico Abierto mediante Codificación Visual Dinámica y RL Escalonado
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
January 14, 2026
Autores: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI
Resumen
Los Modelos Grandes de Visión y Lenguaje (LVLM) de propósito general, a pesar de su escala masiva, a menudo fallan en dermatología debido a la "atención difusa": la incapacidad de distinguir lesiones patológicas sutiles del ruido de fondo. En este artículo, cuestionamos la suposición de que el escalado de parámetros es el único camino hacia la precisión médica. Presentamos SkinFlow, un marco que trata el diagnóstico como una optimización de la eficiencia en la transmisión de información visual. Nuestro enfoque utiliza un Codificador Visual Dinámico de Ancho Virtual (DVE) para "desplegar" variedades patológicas complejas sin expansión física de parámetros, junto con una estrategia de Aprendizaje por Refuerzo en dos etapas. Esta estrategia alinea secuencialmente descripciones médicas explícitas (Etapa I) y reconstruye texturas diagnósticas implícitas (Etapa II) dentro de un espacio semántico restringido. Además, proponemos un protocolo de evaluación con base clínica que prioriza la seguridad diagnóstica y la relevancia jerárquica sobre la coincidencia rígida de etiquetas. Los resultados empíricos son convincentes: nuestro modelo de 7B establece un nuevo estado del arte en el benchmark Fitzpatrick17k, logrando una ganancia del +12.06% en precisión Top-1 y un aumento del +28.57% en precisión Top-6 sobre los modelos de propósito general masivos (por ejemplo, Qwen3VL-235B y GPT-5.2). Estos hallazgos demuestran que optimizar la capacidad geométrica y el flujo de información produce un razonamiento diagnóstico superior en comparación con el escalado crudo de parámetros.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.