Kontinuous Kontext: Controle Contínuo de Intensidade para Edição de Imagens Baseada em Instruções

Resumo

A edição de imagens baseada em instruções oferece uma maneira poderosa e intuitiva de manipular imagens por meio de linguagem natural. No entanto, confiar apenas em instruções textuais limita o controle refinado sobre a extensão das edições. Apresentamos o Kontinuous Kontext, um modelo de edição orientado por instruções que fornece uma nova dimensão de controle sobre a intensidade da edição, permitindo que os usuários ajustem as edições gradualmente, desde nenhuma alteração até um resultado totalmente realizado, de maneira suave e contínua. O Kontinuous Kontext estende um modelo de edição de imagens de última geração para aceitar uma entrada adicional, um escalar de intensidade de edição, que é então combinado com a instrução de edição, permitindo controle explícito sobre a extensão da edição. Para injetar essa informação escalar, treinamos uma rede projetora leve que mapeia o escalar de entrada e a instrução de edição para coeficientes no espaço de modulação do modelo. Para treinar nosso modelo, sintetizamos um conjunto de dados diversificado de quadrupletos imagem-instrução-intensidade de edição usando modelos generativos existentes, seguido por uma etapa de filtragem para garantir qualidade e consistência. O Kontinuous Kontext oferece uma abordagem unificada para controle refinado da intensidade de edição em edições orientadas por instruções, desde sutis até fortes, em diversas operações como estilização, alterações de atributos, materiais, fundo e forma, sem exigir treinamento específico para atributos.

English

Instruction-based image editing offers a powerful and intuitive way to manipulate images through natural language. Yet, relying solely on text instructions limits fine-grained control over the extent of edits. We introduce Kontinuous Kontext, an instruction-driven editing model that provides a new dimension of control over edit strength, enabling users to adjust edits gradually from no change to a fully realized result in a smooth and continuous manner. Kontinuous Kontext extends a state-of-the-art image editing model to accept an additional input, a scalar edit strength which is then paired with the edit instruction, enabling explicit control over the extent of the edit. To inject this scalar information, we train a lightweight projector network that maps the input scalar and the edit instruction to coefficients in the model's modulation space. For training our model, we synthesize a diverse dataset of image-edit-instruction-strength quadruplets using existing generative models, followed by a filtering stage to ensure quality and consistency. Kontinuous Kontext provides a unified approach for fine-grained control over edit strength for instruction driven editing from subtle to strong across diverse operations such as stylization, attribute, material, background, and shape changes, without requiring attribute-specific training.

Kontinuous Kontext: Controle Contínuo de Intensidade para Edição de Imagens Baseada em Instruções

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

Resumo

Support