Entrenamiento de Doble Vista para Recuperación de Información con Seguimiento de Instrucciones

Resumen

La recuperación de información con seguimiento de instrucciones (IF-IR) estudia sistemas de recuperación que no solo deben encontrar documentos relevantes para una consulta, sino también obedecer restricciones explícitas del usuario, como atributos requeridos, exclusiones o preferencias de salida. Sin embargo, la mayoría de los recuperadores se entrenan principalmente para la relevancia semántica y a menudo no logran distinguir entre documentos que coinciden con el tema y aquellos que satisfacen la instrucción. Proponemos una estrategia de síntesis de datos de doble vista basada en la inversión de polaridad: dada una consulta, un documento que es relevante bajo la instrucción y un negativo difícil que coincide con la consulta pero viola la instrucción, incitamos a un modelo de lenguaje grande (LLM) a generar una instrucción complementaria bajo la cual los dos documentos intercambien sus etiquetas de relevancia. Al presentar el mismo par de documentos bajo instrucciones complementarias que invierten sus etiquetas de relevancia, la señal de entrenamiento obliga al recuperador a reconsiderar el mismo conjunto de candidatos a través de la instrucción, en lugar de depender de pistas temáticas fijas. En un codificador de 305 millones de parámetros, nuestro método mejora el rendimiento en el benchmark FollowIR en un 45%, superando a modelos de embeddings de propósito general de escala comparable o mayor. Mediante comparaciones directas con presupuestos de datos equivalentes, demostramos además que la diversidad de datos y la supervisión por instrucciones desempeñan roles complementarios: la primera preserva la calidad general de la recuperación, mientras que la segunda mejora la sensibilidad a las instrucciones. Estos resultados destacan el valor de la síntesis de datos dirigida para construir sistemas de recuperación que sean tanto ampliamente capaces como conscientes de las instrucciones.

English

Instruction-following information retrieval (IF-IR) studies retrieval systems that must not only find documents relevant to a query, but also obey explicit user constraints such as required attributes, exclusions, or output preferences. However, most retrievers are trained primarily for semantic relevance and often fail to distinguish documents that match the topic from those that satisfy the instruction. We propose a dual-view data synthesis strategy based on polarity reversal: given a query, a document that is relevant under the instruction, and a hard negative that matches the query but violates the instruction, we prompt an LLM to generate a complementary instruction under which the two documents swap relevance labels. By presenting the same document pair under complementary instructions that invert their relevance labels, the training signal forces the retriever to reconsider the same candidate set through the instruction, rather than relying on fixed topical cues. On a 305M-parameter encoder, our method improves performance on the FollowIR benchmark by 45%, surpassing general-purpose embedding models of comparable or larger scale. Through head-to-head comparisons at matched data budgets, we further show that data diversity and instruction supervision play complementary roles: the former preserves general retrieval quality, while the latter improves instruction sensitivity. These results highlight the value of targeted data synthesis for building retrieval systems that are both broadly capable and instruction-aware.

Entrenamiento de Doble Vista para Recuperación de Información con Seguimiento de Instrucciones

Dual-View Training for Instruction-Following Information Retrieval

Resumen

Support