SkinFlow: Transmissão Eficiente de Informações para Diagnóstico Dermatológico Aberto via Codificação Visual Dinâmica e RL em Etapas
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
January 14, 2026
Autores: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI
Resumo
Os Modelos de Grandes Visão-Linguagem (LVLMs) de propósito geral, apesar de sua escala massiva, frequentemente falham em dermatologia devido à "atenção difusa" - a incapacidade de distinguir lesões patológicas sutis do ruído de fundo. Neste artigo, desafiamos a suposição de que a escala de parâmetros é o único caminho para a precisão médica. Apresentamos o SkinFlow, uma estrutura que trata o diagnóstico como uma otimização da eficiência da transmissão de informações visuais. Nossa abordagem utiliza um Codificador de Visão Dinâmico de Largura Virtual (DVE) para "desdobrar" variedades patológicas complexas sem expansão física de parâmetros, acoplado a uma estratégia de Aprendizado por Reforço em dois estágios. Esta estratégia alinha sequencialmente descrições médicas explícitas (Estágio I) e reconstrói texturas diagnósticas implícitas (Estágio II) dentro de um espaço semântico restrito. Além disso, propomos um protocolo de avaliação clinicamente fundamentado que prioriza a segurança diagnóstica e a relevância hierárquica em detrimento da correspondência rígida de rótulos. Os resultados empíricos são convincentes: nosso modelo de 7B estabelece um novo estado da arte no benchmark Fitzpatrick17k, alcançando um ganho de +12,06% na precisão Top-1 e um aumento de +28,57% na precisão Top-6 sobre os modelos de propósito geral massivos (por exemplo, Qwen3VL-235B e GPT-5.2). Essas descobertas demonstram que a otimização da capacidade geométrica e do fluxo de informações produz um raciocínio diagnóstico superior em comparação com o escalonamento bruto de parâmetros.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.