SkinFlow: 動的視覚符号化と段階的強化学習による開放型皮膚科診断の効率的な情報伝送
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
January 14, 2026
著者: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI
要旨
一般用途の大規模視覚言語モデル(LVLM)は、その巨大な規模にもかかわらず、皮膚科学分野では「拡散注意」、すなわち微妙な病変を背景ノイズから分離できないという問題により、しばしば精度が低下する。本論文では、医療精度向上の唯一の道がパラメータ拡大であるという前提に異議を唱える。我々は、診断を視覚情報伝達効率の最適化として扱うSkinFlowフレームワークを提案する。本アプローチでは、物理的なパラメータ拡張なしに複雑な病理学的多様体を「展開」する仮想幅動的視覚エンコーダ(DVE)と、2段階の強化学習戦略を組み合わせる。この戦略は、制約付き意味空間内で、明示的な医学的記述(第I段階)と暗黙的な診断的テクスチャ(第II段階)を順次整合させる。さらに、硬直的なラベル一致ではなく、診断安全性と階層的関連性を優先する臨床基盤型評価プロトコルを提案する。実証結果は説得力がある:我々の7BパラメータモデルはFitzpatrick17kベンチマークにおいて新たなstate-of-the-artを確立し、大規模一般用途モデル(例:Qwen3VL-235B、GPT-5.2)に対してTop-1精度で+12.06%、Top-6精度で+28.57%の向上を達成した。これらの知見は、幾何学的容量と情報フローの最適化が、単純なパラメータ拡大よりも優れた診断推論を実現することを示している。
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.