ChatPaper.aiChatPaper

NoHumansRequired: Mineração Autônoma de Tripletas para Edição de Imagens de Alta Qualidade

NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining

July 18, 2025
Autores: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI

Resumo

Avanços recentes em modelagem generativa permitem assistentes de edição de imagens que seguem instruções em linguagem natural sem a necessidade de entrada adicional do usuário. O treinamento supervisionado desses modelos requer milhões de triplas: imagem original, instrução e imagem editada. No entanto, a mineração de exemplos com precisão de pixels é desafiadora. Cada edição deve afetar apenas as regiões especificadas no prompt, preservar a coerência estilística, respeitar a plausibilidade física e manter o apelo visual. A falta de métricas robustas e automatizadas para avaliar a qualidade das edições dificulta a automação confiável em larga escala. Apresentamos um pipeline automatizado e modular que extrai triplas de alta fidelidade em diversos domínios, resoluções, complexidades de instruções e estilos. Baseado em modelos generativos públicos e operando sem intervenção humana, nosso sistema utiliza um validador Gemini ajustado para tarefas que pontua diretamente a aderência às instruções e a estética, eliminando a necessidade de modelos de segmentação ou ancoragem. A inversão e o bootstrap composicional ampliam o conjunto minerado em aproximadamente 2,2 vezes, permitindo dados de treinamento em larga escala e de alta fidelidade. Ao automatizar as etapas de anotação mais repetitivas, a abordagem possibilita um novo patamar de treinamento sem esforço de rotulagem humana. Para democratizar a pesquisa nessa área intensiva em recursos, lançamos o NHR-Edit: um conjunto de dados aberto com 358 mil triplas de alta qualidade. Na maior avaliação cruzada entre conjuntos de dados, ele supera todas as alternativas públicas. Também lançamos o Bagel-NHR-Edit, um modelo Bagel ajustado e de código aberto, que alcança métricas de ponta em nossos experimentos.
English
Recent advances in generative modeling enable image editing assistants that follow natural language instructions without additional user input. Their supervised training requires millions of triplets: original image, instruction, edited image. Yet mining pixel-accurate examples is hard. Each edit must affect only prompt-specified regions, preserve stylistic coherence, respect physical plausibility, and retain visual appeal. The lack of robust automated edit-quality metrics hinders reliable automation at scale. We present an automated, modular pipeline that mines high-fidelity triplets across domains, resolutions, instruction complexities, and styles. Built on public generative models and running without human intervention, our system uses a task-tuned Gemini validator to score instruction adherence and aesthetics directly, removing any need for segmentation or grounding models. Inversion and compositional bootstrapping enlarge the mined set by approximately 2.2x, enabling large-scale high-fidelity training data. By automating the most repetitive annotation steps, the approach allows a new scale of training without human labeling effort. To democratize research in this resource-intensive area, we release NHR-Edit: an open dataset of 358k high-quality triplets. In the largest cross-dataset evaluation, it surpasses all public alternatives. We also release Bagel-NHR-Edit, an open-source fine-tuned Bagel model, which achieves state-of-the-art metrics in our experiments.
PDF531July 22, 2025