SkinFlow: Эффективная передача информации для открытой дерматологической диагностики с помощью динамического визуального кодирования и поэтапного обучения с подкреплением
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
January 14, 2026
Авторы: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou
cs.AI
Аннотация
Универсальные большие визуально-языковые модели (LVLM), несмотря на свои масштабы, часто демонстрируют низкую эффективность в дерматологии из-за «диффузного внимания» — неспособности выделить тонкие патологические поражения из фонового шума. В данной статье мы оспариваем предположение, что масштабирование параметров является единственным путём к медицинской точности. Мы представляем SkinFlow — методологию, которая трактует диагностику как оптимизацию эффективности передачи визуальной информации. Наш подход использует динамический визуальный кодировщик с виртуальной шириной (DVE) для «развёртывания» сложных патологических многообразий без физического расширения параметров в сочетании с двухэтапной стратегией обучения с подкреплением. Эта стратегия последовательно выравнивает явные медицинские описания (Этап I) и восстанавливает неявные диагностические текстуры (Этап II) в ограниченном семантическом пространстве. Кроме того, мы предлагаем клинически обоснованный протокол оценки, который отдаёт приоритет диагностической безопасности и иерархической релевантности над жёстким соответствием меткам. Эмпирические результаты убедительны: наша модель с 7 млрд параметров устанавливает новый рекорд на бенчмарке Fitzpatrick17k, демонстрируя прирост точности Top-1 на +12,06% и Top-6 на +28,57% по сравнению с массивными универсальными моделями (такими как Qwen3VL-235B и GPT-5.2). Эти результаты показывают, что оптимизация геометрической ёмкости и информационного потока обеспечивает более совершенное диагностическое мышление по сравнению с простым масштабированием параметров.
English
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.