Dem Mittelwert folgen: Referenzgeführtes Flow Matching

Zusammenfassung

Bestehende Ansätze zur kontrollierten Generierung beruhen typischerweise auf Feintuning, Hilfsnetzwerken oder testspezifischer Suche. Wir zeigen, dass Flow Matching eine andere Steuerungsschnittstelle ermöglicht: Anpassung durch Beispiele. Bei deterministischen Interpolanten wird das Geschwindigkeitsfeld ausschließlich durch einen bedingten Endpunkt-Mittelwert bestimmt; eine Verschiebung dieses Mittelwerts verschiebt den Fluss selbst. Dies ergibt ein einfaches Prinzip für kontrollierte Generierung: Lenken Sie ein vortrainiertes Modell, indem Sie die Referenzmenge ändern, der es folgt. Wir setzen diese Idee in zwei Formen um. Die Referenz-Mittelwert-Steuerung (Reference-Mean Guidance) ist trainingsfrei: Sie berechnet eine Endpunkt-Mittelwert-Korrektur in geschlossener Form aus einer Referenzbank und wendet sie auf ein eingefrorenes FLUX.2-klein (4B)-Modell an, was eine Kontrolle von Farbe, Identität, Stil und Struktur ermöglicht, während Prompt, Seed und Gewichte unverändert bleiben. Die semi-parametrische Steuerung (Semi-Parametric Guidance) amortisiert dieselbe Idee durch einen expliziten Mittelwert-Anker und einen gelernten Residuen-Verfeinerer, erreicht unbedingte DiT-B/4-Qualität auf AFHQv2 und erlaubt, die Referenzmenge zur Inferenzzeit auszutauschen. Diese Ergebnisse weisen auf eine breitere Richtung hin: generative Modelle, die sich durch Daten anpassen, nicht durch Parameteraktualisierungen.

English

Existing approaches to controllable generation typically rely on fine-tuning, auxiliary networks, or test-time search. We show that flow matching admits a different control interface: adaptation through examples. For deterministic interpolants, the velocity field is solely governed by a conditional endpoint mean; shifting this mean shifts the flow itself. This yields a simple principle for controllable generation: steer a pretrained model by changing the reference set it follows. We instantiate this idea in two forms. Reference-Mean Guidance is training-free: it computes a closed-form endpoint-mean correction from a reference bank and applies it to a frozen FLUX.2-klein (4B) model, enabling control of color, identity, style, and structure while keeping the prompt, seed, and weights fixed. Semi-Parametric Guidance amortizes the same idea through an explicit mean anchor and learned residual refiner, matching unconditional DiT-B/4 quality on AFHQv2 while allowing the reference set to be swapped at inference time. These results point to a broader direction: generative models that adapt through data, not parameter updates.