LLaVA-o1: Laat Vision Language Models Stapsgewijs RedenerenLLaVA-o1: Let Vision Language Models Reason Step-by-Step
Grote taalmodellen hebben aanzienlijke vooruitgang getoond in redeneervermogen, met name door schaalvergroting tijdens inferentie, zoals geïllustreerd door modellen zoals OpenAI's o1. Echter, huidige Visie-Taal Modellen (VLM's) hebben vaak moeite met systematische en gestructureerde redenering, vooral bij het uitvoeren van complexe visuele vraag-antwoordtaken. In dit werk introduceren we LLaVA-o1, een nieuw VLM dat is ontworpen om autonome meertrapsredenering uit te voeren. In tegenstelling tot keten-van-gedachten prompting, betrekt LLaVA-o1 onafhankelijk bij opeenvolgende stadia van samenvatting, visuele interpretatie, logisch redeneren en conclusiegeneratie. Deze gestructureerde aanpak stelt LLaVA-o1 in staat aanzienlijke verbeteringen in precisie te behalen bij redeneringsintensieve taken. Om dit te bereiken, compileren we de LLaVA-o1-100k dataset, waarbij voorbeelden uit verschillende bronnen van visuele vraagbeantwoording worden geïntegreerd en gestructureerde redeneringsannotaties worden verstrekt. Bovendien stellen we een inferentietijd stadiumniveau beam search methode voor, die effectieve schaalvergroting tijdens inferentie mogelijk maakt. Opmerkelijk genoeg presteert LLaVA-o1 met slechts 100k trainingsvoorbeelden en een eenvoudige maar effectieve methode voor schaalvergroting tijdens inferentie niet alleen 8,9% beter dan zijn basismodel op een breed scala van multimodale redeneer-benchmarks, maar overtreft het ook de prestaties van grotere en zelfs gesloten-bronmodellen, zoals Gemini-1.5-pro, GPT-4o-mini, en Llama-3.2-90B-Vision-Instruct.