MC-RFM: Adaptação Few-Shot Consciente da Geometria via Matching de Fluxo Riemanniano de Curvatura Mista

Resumo

A adaptação eficiente em parâmetros de modelos de visão pré-treinados é comumente realizada por meio de sondas lineares, prompts, atualizações de baixo posto ou módulos residuais leves. Embora eficazes, esses métodos geralmente tratam a adaptação como uma perturbação euclidiana discreta de representações congeladas, sem modelar explicitamente a geometria do deslocamento de características induzido pela tarefa. Propomos MC-RFM, uma estrutura de correspondência de fluxo riemanniano de curvatura mista para adaptação de poucos exemplos de backbones visuais congelados. A ideia central é representar características adaptadas em uma variedade produto combinando um fator hiperbólico, que captura estrutura semântica sensível à hierarquia, e um fator euclidiano, que preserva variação visual localmente discriminativa. A adaptação é formulada como um transporte contínuo condicionado à tarefa desde características congeladas até protótipos do conjunto de suporte, treinado com um objetivo de correspondência de fluxo e acoplado a um classificador híbrido protótipo-linear. O método é leve, independente do backbone e opera inteiramente em características congeladas armazenadas em cache. Em sete benchmarks de reconhecimento visual, cinco backbones congelados e regimes de 1/4/16 exemplos, o MC-RFM é o método com melhor desempenho na maioria das configurações avaliadas, com os maiores ganhos em backbones Transformer e conjuntos de dados de granulação fina. Estudos de ablação mostram que a cabeça de curvatura mista, o condicionamento da tarefa, o controle adaptativo de ramos, a contração de protótipos e a supervisão discriminativa contribuem para o desempenho. Esses resultados sugerem que a adaptação de poucos exemplos se beneficia não apenas de decidir quais parâmetros atualizar, mas também de modelar como as representações devem se mover através de uma geometria compatível com a estrutura da tarefa downstream.

English

Parameter-efficient adaptation of pretrained vision models is commonly performed through linear probes, prompts, low-rank updates, or lightweight residual modules. While effective, these methods usually treat adaptation as a discrete Euclidean perturbation of frozen representations, without explicitly modeling the geometry of the task-induced feature displacement. We propose MC-RFM, a mixed-curvature Riemannian flow-matching framework for few-shot adaptation of frozen visual backbones. The key idea is to represent adapted features on a product manifold combining a hyperbolic factor, which captures hierarchy-sensitive semantic structure, and a Euclidean factor, which preserves locally discriminative visual variation. Adaptation is formulated as a task-conditioned continuous transport from frozen features to support-set prototypes, trained with a flow-matching objective and coupled to a hybrid prototype-linear classifier. The method is lightweight, backbone-agnostic, and operates entirely on cached frozen features. Across seven visual recognition benchmarks, five frozen backbones, and 1/4/16-shot regimes, MC-RFM is the best-performing method in a majority of evaluated settings, with the strongest gains on Transformer backbones and fine-grained datasets. Ablations show that the mixed-curvature head, task conditioning, adaptive branch gating, prototype shrinkage, and discriminative supervision each contribute to performance. These results suggest that few-shot adaptation benefits not only from deciding which parameters to update, but also from modeling how representations should move through a geometry matched to the structure of the downstream task.