Offline optimalisatie van voorkeuren voor rechtgetrokken stroming met ruisgevolgde paren

Samenvatting

Bestaande preferentie-datasets voor tekst-naar-beeldmodellen slaan doorgaans alleen de uiteindelijke winnaar/verliezer-afbeeldingen op. Deze representatie is ontoereikend voor rectified flow (RF)-modellen, waarvan de generatie van nature wordt geïndexeerd door een specifiek voorafgaand ruismonster en een bijna rechte ontruisingstraject volgt. Daarentegen schatten eerdere DPO-achtige afstemmingen voor diffusiemodellen doorgaans trajecten met behulp van een onafhankelijk voorwaarts ruisproces, wat kan afwijken van de werkelijke omgekeerde dynamica en onnodige variantie introduceert. Wij stellen Prior Noise-Aware Preference Optimization (PNAPO) voor, een off-policy afstemmingskader dat gespecialiseerd is voor rectified flow. PNAPO breidt preferentiegegevens uit door de gepaarde voorafgaande ruizen te behouden die zijn gebruikt om elke winnaar/verliezer-afbeelding te genereren, waardoor de standaard (prompt, winnaar, verliezer) triplet wordt omgezet in een sextuple. Door gebruik te maken van de rechte-lijn eigenschap van RF, schatten we tussentoestanden via ruis-beeld interpolatie, wat de trajectschattingsruimte beperkt en een strakkere surrogaatdoelstelling voor preferentie-optimalisatie oplevert. Daarnaast introduceren we een dynamische regularisatiestrategie die de DPO-regularisatie aanpast op basis van (i) de beloningskloof tussen winnaar en verliezer en (ii) trainingsvoortgang, wat de stabiliteit en steekproevefficiëntie verbetert. Experimenten op state-of-the-art RF T2I-backbones tonen aan dat PNAPO consequent de preferentie-metrics verbetert terwijl de training-compute aanzienlijk wordt verminderd.

English

Existing preference datasets for text-to-image models typically store only the final winner/loser images. This representation is insufficient for rectified flow (RF) models, whose generation is naturally indexed by a specific prior noise sample and follows a nearly straight denoising trajectory. In contrast, prior DPO-style alignment for diffusion models commonly estimates trajectories using an independent forward noising process, which can be mismatched to the true reverse dynamics and introduces unnecessary variance. We propose Prior Noise-Aware Preference Optimization (PNAPO), an off-policy alignment framework specialized for rectified flow. PNAPO augments preference data by retaining the paired prior noises used to generate each winner/loser image, turning the standard (prompt, winner, loser) triplet into a sextuple. Leveraging the straight-line property of RF, we estimate intermediate states via noise-image interpolation, which constrains the trajectory estimation space and yields a tighter surrogate objective for preference optimization. In addition, we introduce a dynamic regularization strategy that adapts the DPO regularization based on (i) the reward gap between winner and loser and (ii) training progress, improving stability and sample efficiency. Experiments on state-of-the-art RF T2I backbones show that PNAPO consistently improves preference metrics while substantially reducing training compute.