HopChain: Síntesis de Datos Multi-Salto para el Razonamiento Generalizable en Visión y Lenguaje

Resumen

Los modelos de lenguaje visual (VLMs) muestran sólidas capacidades multimodales, pero aún presentan dificultades en el razonamiento visión-lenguaje de grano fino. Descubrimos que el razonamiento de cadena de pensamiento (CoT) largo expone diversos modos de fallo, incluyendo errores de percepción, razonamiento, conocimiento y alucinación, que pueden acumularse a lo largo de los pasos intermedios. Sin embargo, la mayoría de los datos visión-lenguaje existentes utilizados para RLVR no involucran cadenas de razonamiento complejas que dependan de evidencia visual en toda su extensión, dejando estas debilidades mayormente sin exponer. Por lo tanto, proponemos HopChain, un marco escalable para sintetizar datos de razonamiento visión-lenguaje multi-etapa específicamente para el entrenamiento RLVR de VLMs. Cada consulta multi-etapa sintetizada forma una cadena lógicamente dependiente de saltos anclados en instancias, donde los saltos iniciales establecen las instancias, conjuntos o condiciones necesarias para los saltos posteriores, mientras que la respuesta final permanece como un número específico y no ambiguo, adecuado para recompensas verificables. Añadimos los datos multi-etapa sintetizados por HopChain a los datos RLVR originales utilizados para entrenar Qwen3.5-35B-A3B y Qwen3.5-397B-A17B, y comparamos contra RLVR utilizando solo los datos RLVR originales en 24 benchmarks que abarcan STEM y Rompecabezas, VQA General, Reconocimiento de Texto y Comprensión de Documentos, y Comprensión de Video. Aunque estos datos multi-etapa no se sintetizan para apuntar a ningún benchmark específico, añadirlos mejora 20 de los 24 benchmarks en ambos modelos, indicando ganancias amplias y generalizables. Para demostrar que las consultas encadenadas completas son importantes, las reemplazamos con variantes de media-etapa o etapa única, reduciendo la precisión promedio en los 24 benchmarks en 5.3 y 7.0 puntos, respectivamente. El entrenamiento multi-etapa también fortalece el razonamiento visión-lenguaje con CoT largo, con ganancias que alcanzan un máximo de más de 50 puntos de precisión en el régimen de CoT ultra-largo. Estos experimentos establecen a HopChain como un marco efectivo y escalable para sintetizar datos multi-etapa que mejoran el razonamiento visión-lenguaje generalizable.

English

VLMs show strong multimodal capabilities, but they still struggle with fine-grained vision-language reasoning. We find that long CoT reasoning exposes diverse failure modes, including perception, reasoning, knowledge, and hallucination errors, which can compound across intermediate steps. However, most existing vision-language data used for RLVR does not involve complex reasoning chains that rely on visual evidence throughout, leaving these weaknesses largely unexposed. We therefore propose HopChain, a scalable framework for synthesizing multi-hop vision-language reasoning data specifically for RLVR training of VLMs. Each synthesized multi-hop query forms a logically dependent chain of instance-grounded hops, where earlier hops establish the instances, sets, or conditions needed for later hops, while the final answer remains a specific, unambiguous number suitable for verifiable rewards. We add the multi-hop data synthesized by HopChain to the original RLVR data used to train Qwen3.5-35B-A3B and Qwen3.5-397B-A17B, and compare against RLVR on the original RLVR data alone across 24 benchmarks spanning STEM and Puzzle, General VQA, Text Recognition and Document Understanding, and Video Understanding. Although this multi-hop data is not synthesized to target any specific benchmark, adding it improves 20 out of 24 benchmarks on both models, indicating broad and generalizable gains. To demonstrate that full chained queries are important, we replace them with half-multi-hop or single-hop variants, reducing the 24-benchmark average accuracy by 5.3 and 7.0 points, respectively. Multi-hop training also strengthens long-CoT vision-language reasoning, with gains peaking at more than 50 accuracy points in the ultra-long-CoT regime. These experiments establish HopChain as an effective, scalable framework for synthesizing multi-hop data that improves generalizable vision-language reasoning.

HopChain: Síntesis de Datos Multi-Salto para el Razonamiento Generalizable en Visión y Lenguaje

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Resumen

Support