Suivre la moyenne : appariement de flux guidé par référence

Résumé

Les approches existantes pour la génération contrôlable reposent généralement sur le fine-tuning, des réseaux auxiliaires ou une recherche en phase de test. Nous montrons que le flow matching offre une interface de contrôle différente : l'adaptation par exemples. Pour des interpolants déterministes, le champ de vitesse est uniquement déterminé par une moyenne conditionnelle du point final ; déplacer cette moyenne déplace le flot lui-même. Cela donne un principe simple pour la génération contrôlable : orienter un modèle pré-entraîné en modifiant l'ensemble de référence qu'il suit. Nous concrétisons cette idée sous deux formes. Le Guidage par Moyenne de Référence (Reference-Mean Guidance) ne nécessite pas d'entraînement : il calcule une correction de la moyenne du point final sous forme fermée à partir d'une banque de référence et l'applique à un modèle FLUX.2-klein (4B) gelé, permettant de contrôler la couleur, l'identité, le style et la structure tout en maintenant le prompt, la graine et les poids fixes. Le Guidage Semi-Paramétrique (Semi-Parametric Guidance) amortit la même idée via un ancrage moyen explicite et un affineur résiduel appris, égalant la qualité du DiT-B/4 inconditionnel sur AFHQv2 tout en permettant de changer l'ensemble de référence au moment de l'inférence. Ces résultats pointent vers une direction plus large : des modèles génératifs qui s'adaptent via les données, et non par des mises à jour de paramètres.

English

Existing approaches to controllable generation typically rely on fine-tuning, auxiliary networks, or test-time search. We show that flow matching admits a different control interface: adaptation through examples. For deterministic interpolants, the velocity field is solely governed by a conditional endpoint mean; shifting this mean shifts the flow itself. This yields a simple principle for controllable generation: steer a pretrained model by changing the reference set it follows. We instantiate this idea in two forms. Reference-Mean Guidance is training-free: it computes a closed-form endpoint-mean correction from a reference bank and applies it to a frozen FLUX.2-klein (4B) model, enabling control of color, identity, style, and structure while keeping the prompt, seed, and weights fixed. Semi-Parametric Guidance amortizes the same idea through an explicit mean anchor and learned residual refiner, matching unconditional DiT-B/4 quality on AFHQv2 while allowing the reference set to be swapped at inference time. These results point to a broader direction: generative models that adapt through data, not parameter updates.