ChatPaper.aiChatPaper

NoHumansRequired: Minería Autónoma de Tríos de Edición de Imágenes de Alta Calidad

NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining

July 18, 2025
Autores: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI

Resumen

Los avances recientes en modelado generativo permiten asistentes de edición de imágenes que siguen instrucciones en lenguaje natural sin necesidad de aportes adicionales del usuario. Su entrenamiento supervisado requiere millones de tripletas: imagen original, instrucción e imagen editada. Sin embargo, la extracción de ejemplos con precisión a nivel de píxeles es compleja. Cada edición debe afectar únicamente las regiones especificadas en la instrucción, preservar la coherencia estilística, respetar la plausibilidad física y mantener el atractivo visual. La falta de métricas automatizadas robustas para evaluar la calidad de las ediciones dificulta la automatización confiable a gran escala. Presentamos una canalización automatizada y modular que extrae tripletas de alta fidelidad en diversos dominios, resoluciones, complejidades de instrucciones y estilos. Basado en modelos generativos públicos y operando sin intervención humana, nuestro sistema utiliza un validador Gemini ajustado a la tarea para calificar directamente la adherencia a las instrucciones y la estética, eliminando la necesidad de modelos de segmentación o anclaje. La inversión y el bootstrapping composicional amplían el conjunto de datos extraídos aproximadamente 2.2 veces, permitiendo datos de entrenamiento a gran escala y de alta fidelidad. Al automatizar los pasos de anotación más repetitivos, este enfoque permite un nuevo nivel de entrenamiento sin esfuerzo de etiquetado humano. Para democratizar la investigación en esta área intensiva en recursos, publicamos NHR-Edit: un conjunto de datos abierto de 358k tripletas de alta calidad. En la evaluación más grande entre conjuntos de datos, supera a todas las alternativas públicas. También publicamos Bagel-NHR-Edit, un modelo Bagel ajustado de código abierto, que alcanza métricas de vanguardia en nuestros experimentos.
English
Recent advances in generative modeling enable image editing assistants that follow natural language instructions without additional user input. Their supervised training requires millions of triplets: original image, instruction, edited image. Yet mining pixel-accurate examples is hard. Each edit must affect only prompt-specified regions, preserve stylistic coherence, respect physical plausibility, and retain visual appeal. The lack of robust automated edit-quality metrics hinders reliable automation at scale. We present an automated, modular pipeline that mines high-fidelity triplets across domains, resolutions, instruction complexities, and styles. Built on public generative models and running without human intervention, our system uses a task-tuned Gemini validator to score instruction adherence and aesthetics directly, removing any need for segmentation or grounding models. Inversion and compositional bootstrapping enlarge the mined set by approximately 2.2x, enabling large-scale high-fidelity training data. By automating the most repetitive annotation steps, the approach allows a new scale of training without human labeling effort. To democratize research in this resource-intensive area, we release NHR-Edit: an open dataset of 358k high-quality triplets. In the largest cross-dataset evaluation, it surpasses all public alternatives. We also release Bagel-NHR-Edit, an open-source fine-tuned Bagel model, which achieves state-of-the-art metrics in our experiments.
PDF531July 22, 2025