NoHumansRequired: Autonomes Hochwertiges Bildbearbeitungs-Triplet-Mining
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
July 18, 2025
papers.authors: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI
papers.abstract
Jüngste Fortschritte in der generativen Modellierung ermöglichen Bildbearbeitungsassistenten, die natürlichen Sprachanweisungen folgen, ohne zusätzliche Benutzereingaben zu benötigen. Ihr überwachtes Training erfordert Millionen von Tripeln: Originalbild, Anweisung, bearbeitetes Bild. Die Gewinnung pixelgenauer Beispiele ist jedoch schwierig. Jede Bearbeitung muss nur die durch die Anweisung spezifizierten Regionen beeinflussen, stilistische Kohärenz bewahren, physikalische Plausibilität respektieren und visuelle Attraktivität erhalten. Das Fehlen robuster automatisierter Metriken zur Bearbeitungsqualität behindert eine zuverlässige Automatisierung in großem Maßstab. Wir präsentieren eine automatisierte, modulare Pipeline, die hochwertige Tripel über Domänen, Auflösungen, Anweisungskomplexitäten und Stile hinweg gewinnt. Basierend auf öffentlichen generativen Modellen und ohne menschliches Eingreifen nutzt unser System einen aufgabenoptimierten Gemini-Validator, um die Einhaltung der Anweisungen und die Ästhetik direkt zu bewerten, wodurch die Notwendigkeit von Segmentierungs- oder Grounding-Modellen entfällt. Inversion und kompositionelles Bootstrapping vergrößern den gewonnenen Datensatz um etwa das 2,2-fache und ermöglichen so groß angelegte, hochwertige Trainingsdaten. Durch die Automatisierung der repetitivsten Annotationsschritte ermöglicht der Ansatz ein neues Maß an Training ohne menschlichen Labelaufwand. Um die Forschung in diesem ressourcenintensiven Bereich zu demokratisieren, veröffentlichen wir NHR-Edit: einen offenen Datensatz mit 358k hochwertigen Tripeln. In der größten datensatzübergreifenden Evaluation übertrifft er alle öffentlichen Alternativen. Wir veröffentlichen auch Bagel-NHR-Edit, ein Open-Source-Bagel-Modell, das in unseren Experimenten state-of-the-art Metriken erreicht.
English
Recent advances in generative modeling enable image editing assistants that
follow natural language instructions without additional user input. Their
supervised training requires millions of triplets: original image, instruction,
edited image. Yet mining pixel-accurate examples is hard. Each edit must affect
only prompt-specified regions, preserve stylistic coherence, respect physical
plausibility, and retain visual appeal. The lack of robust automated
edit-quality metrics hinders reliable automation at scale. We present an
automated, modular pipeline that mines high-fidelity triplets across domains,
resolutions, instruction complexities, and styles. Built on public generative
models and running without human intervention, our system uses a task-tuned
Gemini validator to score instruction adherence and aesthetics directly,
removing any need for segmentation or grounding models. Inversion and
compositional bootstrapping enlarge the mined set by approximately 2.2x,
enabling large-scale high-fidelity training data. By automating the most
repetitive annotation steps, the approach allows a new scale of training
without human labeling effort. To democratize research in this
resource-intensive area, we release NHR-Edit: an open dataset of 358k
high-quality triplets. In the largest cross-dataset evaluation, it surpasses
all public alternatives. We also release Bagel-NHR-Edit, an open-source
fine-tuned Bagel model, which achieves state-of-the-art metrics in our
experiments.