Artículo 1: Sobre la Transferibilidad de LLMs Mejorados con Razonamiento a Finanzas
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance
February 12, 2025
Autores: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI
Resumen
Los avances recientes en modelos de lenguaje grandes (LLMs) han demostrado sólidas habilidades de razonamiento general, sin embargo, su efectividad en el razonamiento financiero sigue siendo poco explorada. En este estudio, evaluamos exhaustivamente 16 potentes LLMs de razonamiento general en tres tareas financieras complejas que involucran texto financiero, datos tabulares y ecuaciones, evaluando razonamiento numérico, interpretación tabular, comprensión de terminología financiera, procesamiento de contextos largos y resolución de problemas basados en ecuaciones. Nuestros resultados muestran que si bien mejores conjuntos de datos y preentrenamiento mejoran el razonamiento financiero, mejoras generales como el ajuste fino de CoT no siempre generan ganancias consistentes. Además, todas las estrategias de razonamiento enfrentan desafíos para mejorar el rendimiento en tareas de contextos largos y multi-tabla. Para abordar estas limitaciones, desarrollamos un modelo mejorado de razonamiento financiero basado en Llama-3.1-8B-Instruct, mediante ajuste fino de CoT y aprendizaje por refuerzo con caminos de razonamiento específicos del dominio. Incluso con un simple ajuste fino con un conjunto de datos financieros, nuestro modelo logra una mejora de rendimiento consistente del 10% en todas las tareas, superando a todos los modelos de 8B e incluso a Llama3-70B-Instruct y Llama3.1-70B-Instruct en promedio. Nuestros resultados resaltan la necesidad de adaptaciones específicas del dominio en tareas financieras, enfatizando futuras direcciones como el razonamiento multi-tabla, el procesamiento de contextos largos y la comprensión de terminología financiera. Todos nuestros conjuntos de datos, modelos y códigos están disponibles públicamente. Además, presentamos un tablero de líderes para la evaluación comparativa de futuros conjuntos de datos y modelos.
English
Recent advancements in large language models (LLMs) have shown strong general
reasoning abilities, yet their effectiveness in financial reasoning remains
underexplored. In this study, we comprehensively evaluate 16 powerful reasoning
and general LLMs on three complex financial tasks involving financial text,
tabular data, and equations, assessing numerical reasoning, tabular
interpretation, financial terminology comprehension, long-context processing,
and equation-based problem solving. Our results show that while better datasets
and pretraining improve financial reasoning, general enhancements like CoT
fine-tuning do not always yield consistent gains. Moreover, all reasoning
strategies face challenges in improving performance on long-context and
multi-table tasks. To address these limitations, we develop a financial
reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and
reinforcement learning with domain-specific reasoning paths. Even with simple
fine-tuning with one financial dataset, our model achieves a consistent 10%
performance improvement across tasks, surpassing all 8B models and even
Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight
the need for domain-specific adaptations in financial tasks, emphasizing future
directions such as multi-table reasoning, long-context processing, and
financial terminology comprehension. All our datasets, models, and codes are
publicly available. Furthermore, we introduce a leaderboard for benchmarking
future datasets and models.Summary
AI-Generated Summary