MATATA: een zwak-supervisie wiskundige tool-ondersteunde redenering voor tabulaire toepassingen.
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications
November 28, 2024
Auteurs: Vishnou Vinayagame, Gregory Senay, Luis Martí
cs.AI
Samenvatting
Wiskundige redeneervaardigheden nemen toe met taalagenten die zijn uitgebreid met tools, maar methoden steunen vaak op gesloten bronnen of grote modellen, externe gegevens of uitgebreide prompt-engineering. Dit werk introduceert MATATA, een nieuw kosteneffectieve methode om LLM-agenten te trainen voor problemen met tabulaire gegevens door redeneren, plannen en gereedschapsgebruik. Met een progressief zelfverbeteringsparadigma en iteratieve zwakke supervisie, versterkt het 3,8B/8B Kleine Taalmodellen (SLM's), bijzonder geschikt voor lokaal hosten en gevoelige zakelijke contexten waar gegevensprivacy cruciaal is. Door flexibele en herbruikbare tools in te zetten voor verschillende datasets, behaalt het robuuste prestaties met effectieve schaalbaarheid over gedeelde taken. Experimenten tonen aan dat MATATA state-of-the-art prestaties behaalt op FinQA en TAT-QA onder redeneerkaders gebaseerd op open-source modellen. Bovendien concurreren MATATA-modellen met GPT-4-gebaseerde kaders op TabMWP, terwijl ze SLM's zijn.
English
Mathematical reasoning capabilities are increasing with tool-augmented
language agents, but methods often rely either on closed-source or large
models, external data, or extensive prompt engineering. This work introduces
MATATA, a novel cost-effective method to train LLM agents for tabular data
problems through reasoning, planning, and tool use. With a progressive
self-improvement paradigm and an iterative weak supervision, it empowers
3.8B/8B Small Language Models (SLMs), particularly suited for local hosting and
sensitive business contexts where data privacy is crucial. By employing a
flexible and reusable tools across different datasets, it achieves robust
performance with effective scalability across shared tasks. Experiments show
that MATATA reaches state-of-the-art performances on FinQA and TAT-QA among
reasoning frameworks based on open-source models. Moreover, MATATA models
compete with GPT-4 based frameworks on TabMWP, while being SLMs.