NoHumansRequired: Estrazione Automatica di Triplette per il Fotoritocco di Alta Qualità

Abstract

I recenti progressi nella modellazione generativa consentono la creazione di assistenti per l'editing di immagini che seguono istruzioni in linguaggio naturale senza richiedere ulteriori input da parte dell'utente. Il loro addestramento supervisionato richiede milioni di triplette: immagine originale, istruzione, immagine modificata. Tuttavia, estrarre esempi con precisione a livello di pixel è complesso. Ogni modifica deve influenzare solo le regioni specificate nel prompt, preservare la coerenza stilistica, rispettare la plausibilità fisica e mantenere l'attrattiva visiva. La mancanza di metriche robuste e automatizzate per valutare la qualità delle modifiche ostacola un'automazione affidabile su larga scala. Presentiamo una pipeline automatizzata e modulare che estrae triplette ad alta fedeltà attraverso domini, risoluzioni, complessità delle istruzioni e stili. Basata su modelli generativi pubblici e funzionante senza intervento umano, il nostro sistema utilizza un validatore Gemini ottimizzato per il compito per valutare direttamente l'aderenza alle istruzioni e l'estetica, eliminando la necessità di modelli di segmentazione o grounding. L'inversione e il bootstrapping compositivo ampliano l'insieme estratto di circa 2,2 volte, consentendo la creazione di dati di addestramento su larga scala e ad alta fedeltà. Automatizzando i passaggi di annotazione più ripetitivi, l'approccio permette un nuovo livello di addestramento senza sforzi di etichettatura umana. Per democratizzare la ricerca in questo ambito ad alta intensità di risorse, rilasciamo NHR-Edit: un dataset aperto di 358k triplette di alta qualità. Nella più ampia valutazione incrociata tra dataset, supera tutte le alternative pubbliche. Rilasciamo anche Bagel-NHR-Edit, un modello Bagel open-source fine-tuned, che raggiunge metriche all'avanguardia nei nostri esperimenti.

English

Recent advances in generative modeling enable image editing assistants that follow natural language instructions without additional user input. Their supervised training requires millions of triplets: original image, instruction, edited image. Yet mining pixel-accurate examples is hard. Each edit must affect only prompt-specified regions, preserve stylistic coherence, respect physical plausibility, and retain visual appeal. The lack of robust automated edit-quality metrics hinders reliable automation at scale. We present an automated, modular pipeline that mines high-fidelity triplets across domains, resolutions, instruction complexities, and styles. Built on public generative models and running without human intervention, our system uses a task-tuned Gemini validator to score instruction adherence and aesthetics directly, removing any need for segmentation or grounding models. Inversion and compositional bootstrapping enlarge the mined set by approximately 2.2x, enabling large-scale high-fidelity training data. By automating the most repetitive annotation steps, the approach allows a new scale of training without human labeling effort. To democratize research in this resource-intensive area, we release NHR-Edit: an open dataset of 358k high-quality triplets. In the largest cross-dataset evaluation, it surpasses all public alternatives. We also release Bagel-NHR-Edit, an open-source fine-tuned Bagel model, which achieves state-of-the-art metrics in our experiments.

NoHumansRequired: Estrazione Automatica di Triplette per il Fotoritocco di Alta Qualità

NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining

Abstract

Support