SkinFlow: 동적 시각 인코딩과 단계적 강화 학습을 통한 개방형 피부과 진단의 효율적 정보 전송
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
January 14, 2026
저자: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI
초록
범용 대규모 시각-언어 모델(LVLM)은 규모가 방대함에도 불구하고, 미세한 병리학적 병변을 배경 잡음으로부터 분리해내지 못하는 '확산 주의력' 문제로 인해 피부학 분야에서 종종 난항을 겪습니다. 본 논문에서는 매개변수 확장이 의료 정밀도를 달성하는 유일한 방법이라는 가정에 의문을 제기합니다. 우리는 진단을 시각 정보 전달 효율성의 최적화 문제로 접근하는 SkinFlow 프레임워크를 소개합니다. 우리의 접근법은 물리적 매개변수 확장 없이 복잡한 병리학적 다양체를 '펼쳐내기' 위해 가상 너비 동적 시각 인코더(DVE)를 활용하고, 두 단계의 강화 학습 전략을 결합합니다. 이 전략은 제한된 의미 공간 내에서 명시적 의료 설명(1단계)을 정렬하고 암묵적 진단 텍스처(2단계)를 순차적으로 재구성합니다. 더 나아가, 경직된 레이블 매칭보다 진단 안전성과 계층적 관련성을 우선시하는 임상 기반 평가 프로토콜을 제안합니다. 실험 결과는 매우 설득력 있습니다: 우리의 70억 매개변수 모델은 Fitzpatrick17k 벤치마크에서 새로운 최첨단 성능을确立하며, 대규모 범용 모델(예: Qwen3VL-2350억, GPT-5.2) 대비 Top-1 정확도에서 +12.06%, Top-6 정확도에서 +28.57%의 향상을 달성했습니다. 이러한 결과는 원시적인 매개변수 확장보다 기하학적 수용능력과 정보 흐름을 최적화하는 것이 더 우수한 진단 추론 능력을 낳는다는 것을 입증합니다.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.