Fino1 : Sur la transférabilité des LLM améliorés par le raisonnement en financeFino1: On the Transferability of Reasoning Enhanced LLMs to Finance
Les récents progrès dans les grands modèles de langage (LLM) ont montré de fortes capacités de raisonnement général, cependant leur efficacité dans le raisonnement financier reste peu explorée. Dans cette étude, nous évaluons de manière exhaustive 16 LLMs puissants en matière de raisonnement et de généralisation sur trois tâches financières complexes impliquant du texte financier, des données tabulaires et des équations, évaluant le raisonnement numérique, l'interprétation tabulaire, la compréhension des termes financiers, le traitement de longs contextes et la résolution de problèmes basés sur des équations. Nos résultats montrent que même si de meilleurs ensembles de données et un pré-entraînement améliorent le raisonnement financier, des améliorations générales comme le fine-tuning CoT ne conduisent pas toujours à des gains cohérents. De plus, toutes les stratégies de raisonnement rencontrent des défis pour améliorer les performances sur des tâches à long contexte et multi-tableaux. Pour remédier à ces limitations, nous développons un modèle amélioré de raisonnement financier basé sur Llama-3.1-8B-Instruct, par fine-tuning CoT et apprentissage par renforcement avec des chemins de raisonnement spécifiques au domaine. Même avec un simple fine-tuning avec un ensemble de données financières, notre modèle obtient une amélioration de performance constante de 10 % sur l'ensemble des tâches, dépassant tous les modèles 8B et même Llama3-70B-Instruct et Llama3.1-70B-Instruct en moyenne. Nos résultats soulignent le besoin d'adaptations spécifiques au domaine dans les tâches financières, mettant en avant des orientations futures telles que le raisonnement multi-tableaux, le traitement de longs contextes et la compréhension des termes financiers. Tous nos ensembles de données, modèles et codes sont disponibles publiquement. De plus, nous introduisons un tableau de classement pour l'évaluation future des ensembles de données et des modèles.