Siga a Média: Flow Matching Guiado por Referência

Resumo

Abordagens existentes para geração controlável normalmente dependem de ajuste fino, redes auxiliares ou busca em tempo de teste. Mostramos que a correspondência de fluxo (flow matching) admite uma interface de controle diferente: adaptação por meio de exemplos. Para interpolantes determinísticos, o campo de velocidade é governado exclusivamente por uma média condicional do ponto final; deslocar essa média desloca o próprio fluxo. Isso resulta em um princípio simples para geração controlável: orientar um modelo pré-treinado alterando o conjunto de referência que ele segue. Materializamos essa ideia em duas formas. A Orientação por Média de Referência (Reference-Mean Guidance) dispensa treinamento: calcula uma correção de média do ponto final em forma fechada a partir de um banco de referência e a aplica a um modelo FLUX.2-klein (4B) congelado, permitindo controlar cor, identidade, estilo e estrutura, mantendo fixos o prompt, a semente e os pesos. A Orientação Semiparamétrica (Semi-Parametric Guidance) amortiza a mesma ideia por meio de uma âncora de média explícita e um refinador residual aprendido, igualando a qualidade do DiT-B/4 incondicional no AFHQv2, ao mesmo tempo que permite que o conjunto de referência seja trocado na inferência. Esses resultados apontam para uma direção mais ampla: modelos generativos que se adaptam por meio de dados, não por atualizações de parâmetros.

English

Existing approaches to controllable generation typically rely on fine-tuning, auxiliary networks, or test-time search. We show that flow matching admits a different control interface: adaptation through examples. For deterministic interpolants, the velocity field is solely governed by a conditional endpoint mean; shifting this mean shifts the flow itself. This yields a simple principle for controllable generation: steer a pretrained model by changing the reference set it follows. We instantiate this idea in two forms. Reference-Mean Guidance is training-free: it computes a closed-form endpoint-mean correction from a reference bank and applies it to a frozen FLUX.2-klein (4B) model, enabling control of color, identity, style, and structure while keeping the prompt, seed, and weights fixed. Semi-Parametric Guidance amortizes the same idea through an explicit mean anchor and learned residual refiner, matching unconditional DiT-B/4 quality on AFHQv2 while allowing the reference set to be swapped at inference time. These results point to a broader direction: generative models that adapt through data, not parameter updates.