ChatPaper.aiChatPaper

SkinFlow : Transmission efficace d'informations pour le diagnostic dermatologique ouvert via un encodage visuel dynamique et un apprentissage par renforcement par étapes

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

January 14, 2026
papers.authors: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI

papers.abstract

Les modèles généraux de vision et langage à grande échelle (LVLM), malgré leur taille massive, échouent souvent en dermatologie en raison d'une « attention diffuse » - l'incapacité à distinguer les lésions pathologiques subtiles du bruit de fond. Dans cet article, nous remettons en cause l'hypothèse selon laquelle l'augmentation des paramètres est la seule voie vers la précision médicale. Nous présentons SkinFlow, un cadre qui traite le diagnostic comme une optimisation de l'efficacité de la transmission de l'information visuelle. Notre approche utilise un Encodeur de Vision Dynamique à Largeur Virtuelle (DVE) pour « déplier » les variétés pathologiques complexes sans expansion physique des paramètres, couplé à une stratégie d'Apprentissage par Renforcement en deux étapes. Cette stratégie aligne séquentiellement les descriptions médicales explicites (Étape I) et reconstruit les textures diagnostiques implicites (Étape II) dans un espace sémantique contraint. De plus, nous proposons un protocole d'évaluation cliniquement fondé qui privilégie la sécurité diagnostique et la pertinence hiérarchique par rapport à la correspondance rigide des étiquettes. Les résultats empiriques sont convaincants : notre modèle de 7B établit un nouvel état de l'art sur le benchmark Fitzpatrick17k, obtenant un gain de +12,06 % en précision Top-1 et une augmentation de +28,57 % en précision Top-6 par rapport aux modèles généraux massifs (par exemple, Qwen3VL-235B et GPT-5.2). Ces résultats démontrent qu'optimiser la capacité géométrique et le flux d'information produit un raisonnement diagnostique supérieur comparé à la simple augmentation brute des paramètres.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.
PDF364January 16, 2026