HopChain: Multi-Hop-Datensynthese für generalisierbares visuell-sprachliches ReasoningHopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning
VLMs zeigen starke multimodale Fähigkeiten, haben aber nach wie vor Schwierigkeiten mit feinkörniger Bild-Sprache-Reasoning. Wir stellen fest, dass langes Chain-of-Thought-Reasoning diverse Fehlermodi offenlegt, einschließlich Wahrnehmungs-, Reasoning-, Wissens- und Halluzinationsfehler, die sich über Zwischenschritte aufschaukeln können. Die meisten vorhandenen Bild-Sprache-Daten, die für RLVR verwendet werden, beinhalten jedoch keine komplexen Reasoning-Ketten, die durchgängig auf visuellen Beweisen basieren, wodurch diese Schwächen weitgehend unentdeckt bleiben. Daher schlagen wir HopChain vor, einen skalierbaren Rahmen zur Synthese von Multi-Hop-Bild-Sprache-Reasoning-Daten speziell für das RLVR-Training von VLMs. Jede synthetisierte Multi-Hop-Abfrage bildet eine logisch abhängige Kette von instanzbasierten Hops, bei der frühere Hops die Instanzen, Mengen oder Bedingungen für spätere Hops etablieren, während die endgültige Antwort eine spezifische, eindeutige Zahl bleibt, die sich für verifizierbare Belohnungen eignet. Wir fügen die von HopChain synthetisierten Multi-Hop-Daten zu den ursprünglichen RLVR-Daten hinzu, die zum Training von Qwen3.5-35B-A3B und Qwen3.5-397B-A17B verwendet wurden, und vergleichen dies mit RLVR, das nur auf den ursprünglichen RLVR-Daten trainiert wurde, über 24 Benchmarks aus den Bereichen STEM und Puzzle, General VQA, Texterkennung und Dokumentenverständnis sowie Video Understanding. Obwohl diese Multi-Hop-Daten nicht gezielt für einen bestimmten Benchmark synthetisiert wurden, verbessert ihre Hinzufügung 20 von 24 Benchmarks bei beiden Modellen, was auf breite und verallgemeinerbare Gewinne hindeutet. Um zu zeigen, dass vollständige verkettete Abfragen wichtig sind, ersetzen wir sie durch Halb-Multi-Hop- oder Single-Hop-Varianten, was die durchschnittliche Genauigkeit über die 24 Benchmarks um 5,3 bzw. 7,0 Punkte verringert. Multi-Hop-Training stärkt auch das lange-CoT-Bild-Sprache-Reasoning, wobei die Gewinne im Ultra-Lang-CoT-Bereich bei über 50 Genauigkeitspunkten gipfeln. Diese Experimente etablieren HopChain als einen effektiven, skalierbaren Rahmen zur Synthese von Multi-Hop-Daten, die das verallgemeinerbare Bild-Sprache-Reasoning verbessern.