Veja o que quero dizer: Alinhando Representações Visuais e de Linguagem para a Compreensão Detalhada de Objetos em Vídeos

Resumo

Apresentamos SWIM (See What I Mean), uma nova estratégia de treinamento que alinha representações visuais e de linguagem para permitir a compreensão detalhada de objetos exclusivamente a partir de prompts textuais. Diferentemente de abordagens existentes que exigem prompts visuais explícitos, como máscaras ou pontos, o SWIM utiliza supervisão por máscaras apenas durante o treinamento para guiar a atenção cross-modal, permitindo que o modelo atenda automaticamente ao objeto especificado pelo usuário na inferência. Nossa análise de atenção cruzada de modelos de linguagem grandes multimodais (MLLMs) pré-treinados revela uma discrepância sistemática: palavras de atributo produzem ativações nítidas e localizadas na modalidade visual, enquanto substantivos de objeto geram padrões difusos e dispersos devido ao viés de referência semântica e representações distribuídas de alto nível. Para corrigir esse desalinhamento, construímos NL-Refer, um conjunto de dados enriquecido no qual cada máscara de objeto é pareada com uma expressão referencial de linguagem natural precisa. O SWIM extrai mapas de atenção cruzada de múltiplas camadas de substantivos de objeto e impõe consistência espacial com as máscaras de verdade fundamental. Resultados experimentais demonstram que o SWIM melhora substancialmente o alinhamento texto-visual e alcança desempenho superior em relação a métodos baseados em prompts visuais em benchmarks de compreensão detalhada de objetos. O código e os dados estão disponíveis em https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.

English

We present SWIM (See What I Mean), a novel training strategy that aligns vision and language representations to enable fine-grained object understanding solely from textual prompts. Unlike existing approaches that require explicit visual prompts, such as masks or points, SWIM leverages mask supervision only during training to guide cross-modal attention, allowing the model to automatically attend to the user-specified object at inference. Our cross-attention analysis of pretrained multimodal large languagemodels (MLLMs) reveals a systematic discrepancy: Attribute words produce sharp, localized activations in the visual modality, whereas object nouns yield diffuse and scattered patterns due to semantic reference bias and distributed high-level representations. To address this misalignment, we construct NL-Refer, an enriched dataset, in which each object mask is paired with a precise natural language referring expression. SWIM extracts multi-layer cross-attention maps from object nouns and enforces spatial consistency with ground-truth masks. Experimental results demonstrate that SWIM substantially improves text-visual alignment and achieves superior performance over visual-prompt-based methods on fine-grained object understanding benchmarks. The code and data are available at https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.