ChatPaper.aiChatPaper

Representaciones Aumentadas con Razonamiento para la Recuperación Multimodal

Reasoning-Augmented Representations for Multimodal Retrieval

February 6, 2026
Autores: Jianrui Zhang, Anirudh Sundara Rajan, Brandon Han, Soochahn Lee, Sukanta Ganguly, Yong Jae Lee
cs.AI

Resumen

La Recuperación Multimodal Universal (UMR) busca realizar búsquedas de cualquier tipo a cualquier tipo a través de texto y visión, sin embargo, los modelos modernos de *embeddings* siguen siendo frágiles cuando las consultas requieren razonamiento latente (por ejemplo, resolver referencias subespecificadas o hacer coincidir restricciones compositivas). Sostenemos que esta fragilidad a menudo es inducida por los datos: cuando las imágenes contienen evidencia "silenciosa" y las consultas dejan semántica clave implícita, un único paso de incrustación debe tanto razonar como comprimir, fomentando una coincidencia de características espuria. Proponemos un marco centrado en los datos que desacopla estos roles externalizando el razonamiento antes de la recuperación. Utilizando un modelo fuerte de Visión y Lenguaje, hacemos explícita la semántica implícita mediante la generación densa de descripciones de la evidencia visual en las entradas del corpus, resolviendo referencias multimodales ambiguas en las consultas y reescribiendo instrucciones verbosas en restricciones de recuperación concisas. La mejora en el momento de la inferencia por sí sola es insuficiente; el recuperador debe ser entrenado con estas representaciones semánticamente densas para evitar un cambio de distribución y explotar completamente la señal añadida. En M-BEIR, nuestro método de entrenamiento aumentado con razonamiento produce ganancias consistentes sobre líneas base sólidas, con ablaciones que muestran que la mejora del corpus beneficia principalmente a consultas intensivas en conocimiento, mientras que la mejora de la consulta es crítica para solicitudes de modificación compositiva. Publicamos nuestro código en https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
English
Universal Multimodal Retrieval (UMR) seeks any-to-any search across text and vision, yet modern embedding models remain brittle when queries require latent reasoning (e.g., resolving underspecified references or matching compositional constraints). We argue this brittleness is often data-induced: when images carry "silent" evidence and queries leave key semantics implicit, a single embedding pass must both reason and compress, encouraging spurious feature matching. We propose a data-centric framework that decouples these roles by externalizing reasoning before retrieval. Using a strong Vision--Language Model, we make implicit semantics explicit by densely captioning visual evidence in corpus entries, resolving ambiguous multimodal references in queries, and rewriting verbose instructions into concise retrieval constraints. Inference-time enhancement alone is insufficient; the retriever must be trained on these semantically dense representations to avoid distribution shift and fully exploit the added signal. Across M-BEIR, our reasoning-augmented training method yields consistent gains over strong baselines, with ablations showing that corpus enhancement chiefly benefits knowledge-intensive queries while query enhancement is critical for compositional modification requests. We publicly release our code at https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
PDF02February 11, 2026