ChatPaper.aiChatPaper

NoHumansRequired : Extraction autonome de triplets pour l'édition d'images de haute qualité

NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining

July 18, 2025
papers.authors: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI

papers.abstract

Les récents progrès en modélisation générative permettent de créer des assistants d'édition d'images qui suivent des instructions en langage naturel sans nécessiter d'entrée utilisateur supplémentaire. Leur entraînement supervisé requiert des millions de triplets : image originale, instruction, image modifiée. Cependant, l'extraction d'exemples précis au niveau des pixels est complexe. Chaque modification doit affecter uniquement les régions spécifiées par l'invite, préserver la cohérence stylistique, respecter la plausibilité physique et conserver l'attrait visuel. L'absence de métriques robustes et automatisées pour évaluer la qualité des modifications entrave une automatisation fiable à grande échelle. Nous présentons un pipeline automatisé et modulaire qui extrait des triplets de haute fidélité à travers différents domaines, résolutions, complexités d'instructions et styles. Basé sur des modèles générateurs publics et fonctionnant sans intervention humaine, notre système utilise un validateur Gemini ajusté à la tâche pour évaluer directement l'adhésion aux instructions et l'esthétique, éliminant ainsi le besoin de modèles de segmentation ou de référencement. L'inversion et le bootstrap compositionnel augmentent l'ensemble extrait d'environ 2,2 fois, permettant ainsi la création de données d'entraînement à grande échelle et de haute fidélité. En automatisant les étapes d'annotation les plus répétitives, cette approche permet un nouvel échelle d'entraînement sans effort d'étiquetage humain. Pour démocratiser la recherche dans ce domaine gourmand en ressources, nous publions NHR-Edit : un ensemble de données ouvert de 358 000 triplets de haute qualité. Dans la plus grande évaluation inter-ensembles de données, il surpasse toutes les alternatives publiques. Nous publions également Bagel-NHR-Edit, un modèle Bagel affiné en open source, qui atteint des métriques de pointe dans nos expériences.
English
Recent advances in generative modeling enable image editing assistants that follow natural language instructions without additional user input. Their supervised training requires millions of triplets: original image, instruction, edited image. Yet mining pixel-accurate examples is hard. Each edit must affect only prompt-specified regions, preserve stylistic coherence, respect physical plausibility, and retain visual appeal. The lack of robust automated edit-quality metrics hinders reliable automation at scale. We present an automated, modular pipeline that mines high-fidelity triplets across domains, resolutions, instruction complexities, and styles. Built on public generative models and running without human intervention, our system uses a task-tuned Gemini validator to score instruction adherence and aesthetics directly, removing any need for segmentation or grounding models. Inversion and compositional bootstrapping enlarge the mined set by approximately 2.2x, enabling large-scale high-fidelity training data. By automating the most repetitive annotation steps, the approach allows a new scale of training without human labeling effort. To democratize research in this resource-intensive area, we release NHR-Edit: an open dataset of 358k high-quality triplets. In the largest cross-dataset evaluation, it surpasses all public alternatives. We also release Bagel-NHR-Edit, an open-source fine-tuned Bagel model, which achieves state-of-the-art metrics in our experiments.
PDF531July 22, 2025