NoHumansRequired: Автономное извлечение триплетов для высококачественного редактирования изображений
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
July 18, 2025
Авторы: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI
Аннотация
Последние достижения в области генеративного моделирования позволяют создавать помощников для редактирования изображений, которые следуют инструкциям на естественном языке без дополнительного ввода пользователя. Для их обучения с учителем требуются миллионы троек: исходное изображение, инструкция и отредактированное изображение. Однако добыча примеров с точностью до пикселей является сложной задачей. Каждое редактирование должно затрагивать только указанные в запросе области, сохранять стилистическую согласованность, учитывать физическую правдоподобность и сохранять визуальную привлекательность. Отсутствие надежных автоматизированных метрик качества редактирования затрудняет масштабируемую автоматизацию. Мы представляем автоматизированный модульный конвейер, который извлекает высококачественные тройки в различных доменах, разрешениях, сложностях инструкций и стилях. Основанная на публичных генеративных моделях и работающая без вмешательства человека, наша система использует настроенный на задачи валидатор Gemini для прямой оценки соответствия инструкциям и эстетики, устраняя необходимость в моделях сегментации или привязки. Инверсия и композиционная начальная загрузка увеличивают извлеченный набор примерно в 2,2 раза, что позволяет получить крупномасштабные данные для обучения с высокой точностью. Автоматизируя наиболее повторяющиеся этапы аннотации, этот подход позволяет достичь нового масштаба обучения без усилий по ручной разметке. Чтобы демократизировать исследования в этой ресурсоемкой области, мы выпускаем NHR-Edit: открытый набор данных из 358 тысяч высококачественных троек. В крупнейшем кросс-датасетном оценивании он превосходит все публичные альтернативы. Мы также выпускаем Bagel-NHR-Edit, открытую тонко настроенную модель Bagel, которая достигает передовых метрик в наших экспериментах.
English
Recent advances in generative modeling enable image editing assistants that
follow natural language instructions without additional user input. Their
supervised training requires millions of triplets: original image, instruction,
edited image. Yet mining pixel-accurate examples is hard. Each edit must affect
only prompt-specified regions, preserve stylistic coherence, respect physical
plausibility, and retain visual appeal. The lack of robust automated
edit-quality metrics hinders reliable automation at scale. We present an
automated, modular pipeline that mines high-fidelity triplets across domains,
resolutions, instruction complexities, and styles. Built on public generative
models and running without human intervention, our system uses a task-tuned
Gemini validator to score instruction adherence and aesthetics directly,
removing any need for segmentation or grounding models. Inversion and
compositional bootstrapping enlarge the mined set by approximately 2.2x,
enabling large-scale high-fidelity training data. By automating the most
repetitive annotation steps, the approach allows a new scale of training
without human labeling effort. To democratize research in this
resource-intensive area, we release NHR-Edit: an open dataset of 358k
high-quality triplets. In the largest cross-dataset evaluation, it surpasses
all public alternatives. We also release Bagel-NHR-Edit, an open-source
fine-tuned Bagel model, which achieves state-of-the-art metrics in our
experiments.