NoHumansRequired: Autonome Tripletmining voor Hoogwaardige Bewerking van Afbeeldingen
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
July 18, 2025
Auteurs: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI
Samenvatting
Recente vooruitgang in generatieve modellering maakt beeldbewerkingsassistenten mogelijk die natuurlijke taal instructies volgen zonder aanvullende gebruikersinvoer. Hun gesuperviseerde training vereist miljoenen triplets: origineel beeld, instructie, bewerkt beeld. Het delven van pixel-accurate voorbeelden is echter moeilijk. Elke bewerking moet alleen de door de prompt gespecificeerde regio's beïnvloeden, stilistische samenhang behouden, fysieke geloofwaardigheid respecteren en visuele aantrekkelijkheid behouden. Het ontbreken van robuuste geautomatiseerde kwaliteitsmetrieken voor bewerkingen belemmert betrouwbare automatisering op grote schaal. We presenteren een geautomatiseerde, modulaire pijplijn die hoogwaardige triplets delft over domeinen, resoluties, instructiecomplexiteiten en stijlen. Gebouwd op openbare generatieve modellen en werkend zonder menselijke tussenkomst, gebruikt ons systeem een taakafgestemde Gemini-validator om instructienaleving en esthetiek direct te beoordelen, waardoor de noodzaak voor segmentatie- of grondingsmodellen wordt weggenomen. Inversie en compositionele bootstrapping vergroten de gedolven set met ongeveer 2,2x, waardoor grootschalige hoogwaardige trainingsdata mogelijk wordt. Door de meest repetitieve annotatiestappen te automatiseren, maakt de aanpak een nieuwe schaal van training mogelijk zonder menselijke labelinspanning. Om onderzoek in dit resource-intensieve gebied te democratiseren, geven we NHR-Edit vrij: een open dataset van 358k hoogwaardige triplets. In de grootste cross-dataset evaluatie overtreft het alle openbare alternatieven. We geven ook Bagel-NHR-Edit vrij, een open-source fijn afgestemd Bagel-model, dat state-of-the-art metrieken behaalt in onze experimenten.
English
Recent advances in generative modeling enable image editing assistants that
follow natural language instructions without additional user input. Their
supervised training requires millions of triplets: original image, instruction,
edited image. Yet mining pixel-accurate examples is hard. Each edit must affect
only prompt-specified regions, preserve stylistic coherence, respect physical
plausibility, and retain visual appeal. The lack of robust automated
edit-quality metrics hinders reliable automation at scale. We present an
automated, modular pipeline that mines high-fidelity triplets across domains,
resolutions, instruction complexities, and styles. Built on public generative
models and running without human intervention, our system uses a task-tuned
Gemini validator to score instruction adherence and aesthetics directly,
removing any need for segmentation or grounding models. Inversion and
compositional bootstrapping enlarge the mined set by approximately 2.2x,
enabling large-scale high-fidelity training data. By automating the most
repetitive annotation steps, the approach allows a new scale of training
without human labeling effort. To democratize research in this
resource-intensive area, we release NHR-Edit: an open dataset of 358k
high-quality triplets. In the largest cross-dataset evaluation, it surpasses
all public alternatives. We also release Bagel-NHR-Edit, an open-source
fine-tuned Bagel model, which achieves state-of-the-art metrics in our
experiments.