HopChain: Multi-Hop-Datensynthese für generalisierbares visuell-sprachliches Reasoning

Zusammenfassung

VLMs zeigen starke multimodale Fähigkeiten, haben aber nach wie vor Schwierigkeiten mit feinkörniger Bild-Sprache-Reasoning. Wir stellen fest, dass langes Chain-of-Thought-Reasoning diverse Fehlermodi offenlegt, einschließlich Wahrnehmungs-, Reasoning-, Wissens- und Halluzinationsfehler, die sich über Zwischenschritte aufschaukeln können. Die meisten vorhandenen Bild-Sprache-Daten, die für RLVR verwendet werden, beinhalten jedoch keine komplexen Reasoning-Ketten, die durchgängig auf visuellen Beweisen basieren, wodurch diese Schwächen weitgehend unentdeckt bleiben. Daher schlagen wir HopChain vor, einen skalierbaren Rahmen zur Synthese von Multi-Hop-Bild-Sprache-Reasoning-Daten speziell für das RLVR-Training von VLMs. Jede synthetisierte Multi-Hop-Abfrage bildet eine logisch abhängige Kette von instanzbasierten Hops, bei der frühere Hops die Instanzen, Mengen oder Bedingungen für spätere Hops etablieren, während die endgültige Antwort eine spezifische, eindeutige Zahl bleibt, die sich für verifizierbare Belohnungen eignet. Wir fügen die von HopChain synthetisierten Multi-Hop-Daten zu den ursprünglichen RLVR-Daten hinzu, die zum Training von Qwen3.5-35B-A3B und Qwen3.5-397B-A17B verwendet wurden, und vergleichen dies mit RLVR, das nur auf den ursprünglichen RLVR-Daten trainiert wurde, über 24 Benchmarks aus den Bereichen STEM und Puzzle, General VQA, Texterkennung und Dokumentenverständnis sowie Video Understanding. Obwohl diese Multi-Hop-Daten nicht gezielt für einen bestimmten Benchmark synthetisiert wurden, verbessert ihre Hinzufügung 20 von 24 Benchmarks bei beiden Modellen, was auf breite und verallgemeinerbare Gewinne hindeutet. Um zu zeigen, dass vollständige verkettete Abfragen wichtig sind, ersetzen wir sie durch Halb-Multi-Hop- oder Single-Hop-Varianten, was die durchschnittliche Genauigkeit über die 24 Benchmarks um 5,3 bzw. 7,0 Punkte verringert. Multi-Hop-Training stärkt auch das lange-CoT-Bild-Sprache-Reasoning, wobei die Gewinne im Ultra-Lang-CoT-Bereich bei über 50 Genauigkeitspunkten gipfeln. Diese Experimente etablieren HopChain als einen effektiven, skalierbaren Rahmen zur Synthese von Multi-Hop-Daten, die das verallgemeinerbare Bild-Sprache-Reasoning verbessern.

English

VLMs show strong multimodal capabilities, but they still struggle with fine-grained vision-language reasoning. We find that long CoT reasoning exposes diverse failure modes, including perception, reasoning, knowledge, and hallucination errors, which can compound across intermediate steps. However, most existing vision-language data used for RLVR does not involve complex reasoning chains that rely on visual evidence throughout, leaving these weaknesses largely unexposed. We therefore propose HopChain, a scalable framework for synthesizing multi-hop vision-language reasoning data specifically for RLVR training of VLMs. Each synthesized multi-hop query forms a logically dependent chain of instance-grounded hops, where earlier hops establish the instances, sets, or conditions needed for later hops, while the final answer remains a specific, unambiguous number suitable for verifiable rewards. We add the multi-hop data synthesized by HopChain to the original RLVR data used to train Qwen3.5-35B-A3B and Qwen3.5-397B-A17B, and compare against RLVR on the original RLVR data alone across 24 benchmarks spanning STEM and Puzzle, General VQA, Text Recognition and Document Understanding, and Video Understanding. Although this multi-hop data is not synthesized to target any specific benchmark, adding it improves 20 out of 24 benchmarks on both models, indicating broad and generalizable gains. To demonstrate that full chained queries are important, we replace them with half-multi-hop or single-hop variants, reducing the 24-benchmark average accuracy by 5.3 and 7.0 points, respectively. Multi-hop training also strengthens long-CoT vision-language reasoning, with gains peaking at more than 50 accuracy points in the ultra-long-CoT regime. These experiments establish HopChain as an effective, scalable framework for synthesizing multi-hop data that improves generalizable vision-language reasoning.

HopChain: Multi-Hop-Datensynthese für generalisierbares visuell-sprachliches Reasoning

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Zusammenfassung

Support