ChatPaper.aiChatPaper

Fino1: Sobre a Transferibilidade de Modelos de Linguagem Aprimorados para Raciocínio no Setor Financeiro

Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

February 12, 2025
Autores: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI

Resumo

Os avanços recentes em modelos de linguagem de grande escala (LLMs, do inglês *Large Language Models*) têm demonstrado fortes habilidades de raciocínio geral, mas sua eficácia no raciocínio financeiro ainda é pouco explorada. Neste estudo, avaliamos de forma abrangente 16 modelos de raciocínio e LLMs gerais em três tarefas financeiras complexas envolvendo texto financeiro, dados tabulares e equações, examinando o raciocínio numérico, a interpretação de tabelas, a compreensão de terminologia financeira, o processamento de contextos longos e a resolução de problemas baseados em equações. Nossos resultados mostram que, embora melhores conjuntos de dados e pré-treinamento melhorem o raciocínio financeiro, aprimoramentos gerais, como o ajuste fino com *Chain-of-Thought* (CoT), nem sempre geram ganhos consistentes. Além disso, todas as estratégias de raciocínio enfrentam desafios para melhorar o desempenho em tarefas de contexto longo e com múltiplas tabelas. Para abordar essas limitações, desenvolvemos um modelo aprimorado para raciocínio financeiro baseado no Llama-3.1-8B-Instruct, por meio de ajuste fino com CoT e aprendizado por reforço com caminhos de raciocínio específicos do domínio. Mesmo com um ajuste fino simples utilizando um conjunto de dados financeiro, nosso modelo alcança uma melhoria consistente de 10% no desempenho em todas as tarefas, superando todos os modelos de 8B e até mesmo o Llama3-70B-Instruct e o Llama3.1-70B-Instruct, em média. Nossos resultados destacam a necessidade de adaptações específicas do domínio para tarefas financeiras, enfatizando direções futuras como o raciocínio com múltiplas tabelas, o processamento de contextos longos e a compreensão de terminologia financeira. Todos os nossos conjuntos de dados, modelos e códigos estão disponíveis publicamente. Além disso, introduzimos um *leaderboard* para benchmarking de futuros conjuntos de dados e modelos.
English
Recent advancements in large language models (LLMs) have shown strong general reasoning abilities, yet their effectiveness in financial reasoning remains underexplored. In this study, we comprehensively evaluate 16 powerful reasoning and general LLMs on three complex financial tasks involving financial text, tabular data, and equations, assessing numerical reasoning, tabular interpretation, financial terminology comprehension, long-context processing, and equation-based problem solving. Our results show that while better datasets and pretraining improve financial reasoning, general enhancements like CoT fine-tuning do not always yield consistent gains. Moreover, all reasoning strategies face challenges in improving performance on long-context and multi-table tasks. To address these limitations, we develop a financial reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and reinforcement learning with domain-specific reasoning paths. Even with simple fine-tuning with one financial dataset, our model achieves a consistent 10% performance improvement across tasks, surpassing all 8B models and even Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight the need for domain-specific adaptations in financial tasks, emphasizing future directions such as multi-table reasoning, long-context processing, and financial terminology comprehension. All our datasets, models, and codes are publicly available. Furthermore, we introduce a leaderboard for benchmarking future datasets and models.
PDF575February 13, 2025