NoHumansRequired: Estrazione Automatica di Triplette per il Fotoritocco di Alta Qualità
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
July 18, 2025
Autori: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI
Abstract
I recenti progressi nella modellazione generativa consentono la creazione di assistenti per l'editing di immagini che seguono istruzioni in linguaggio naturale senza richiedere ulteriori input da parte dell'utente. Il loro addestramento supervisionato richiede milioni di triplette: immagine originale, istruzione, immagine modificata. Tuttavia, estrarre esempi con precisione a livello di pixel è complesso. Ogni modifica deve influenzare solo le regioni specificate nel prompt, preservare la coerenza stilistica, rispettare la plausibilità fisica e mantenere l'attrattiva visiva. La mancanza di metriche robuste e automatizzate per valutare la qualità delle modifiche ostacola un'automazione affidabile su larga scala. Presentiamo una pipeline automatizzata e modulare che estrae triplette ad alta fedeltà attraverso domini, risoluzioni, complessità delle istruzioni e stili. Basata su modelli generativi pubblici e funzionante senza intervento umano, il nostro sistema utilizza un validatore Gemini ottimizzato per il compito per valutare direttamente l'aderenza alle istruzioni e l'estetica, eliminando la necessità di modelli di segmentazione o grounding. L'inversione e il bootstrapping compositivo ampliano l'insieme estratto di circa 2,2 volte, consentendo la creazione di dati di addestramento su larga scala e ad alta fedeltà. Automatizzando i passaggi di annotazione più ripetitivi, l'approccio permette un nuovo livello di addestramento senza sforzi di etichettatura umana. Per democratizzare la ricerca in questo ambito ad alta intensità di risorse, rilasciamo NHR-Edit: un dataset aperto di 358k triplette di alta qualità. Nella più ampia valutazione incrociata tra dataset, supera tutte le alternative pubbliche. Rilasciamo anche Bagel-NHR-Edit, un modello Bagel open-source fine-tuned, che raggiunge metriche all'avanguardia nei nostri esperimenti.
English
Recent advances in generative modeling enable image editing assistants that
follow natural language instructions without additional user input. Their
supervised training requires millions of triplets: original image, instruction,
edited image. Yet mining pixel-accurate examples is hard. Each edit must affect
only prompt-specified regions, preserve stylistic coherence, respect physical
plausibility, and retain visual appeal. The lack of robust automated
edit-quality metrics hinders reliable automation at scale. We present an
automated, modular pipeline that mines high-fidelity triplets across domains,
resolutions, instruction complexities, and styles. Built on public generative
models and running without human intervention, our system uses a task-tuned
Gemini validator to score instruction adherence and aesthetics directly,
removing any need for segmentation or grounding models. Inversion and
compositional bootstrapping enlarge the mined set by approximately 2.2x,
enabling large-scale high-fidelity training data. By automating the most
repetitive annotation steps, the approach allows a new scale of training
without human labeling effort. To democratize research in this
resource-intensive area, we release NHR-Edit: an open dataset of 358k
high-quality triplets. In the largest cross-dataset evaluation, it surpasses
all public alternatives. We also release Bagel-NHR-Edit, an open-source
fine-tuned Bagel model, which achieves state-of-the-art metrics in our
experiments.