Fino1: Sobre a Transferibilidade de Modelos de Linguagem Aprimorados para Raciocínio no Setor FinanceiroFino1: On the Transferability of Reasoning Enhanced LLMs to Finance
Os avanços recentes em modelos de linguagem de grande escala (LLMs, do inglês *Large Language Models*) têm demonstrado fortes habilidades de raciocínio geral, mas sua eficácia no raciocínio financeiro ainda é pouco explorada. Neste estudo, avaliamos de forma abrangente 16 modelos de raciocínio e LLMs gerais em três tarefas financeiras complexas envolvendo texto financeiro, dados tabulares e equações, examinando o raciocínio numérico, a interpretação de tabelas, a compreensão de terminologia financeira, o processamento de contextos longos e a resolução de problemas baseados em equações. Nossos resultados mostram que, embora melhores conjuntos de dados e pré-treinamento melhorem o raciocínio financeiro, aprimoramentos gerais, como o ajuste fino com *Chain-of-Thought* (CoT), nem sempre geram ganhos consistentes. Além disso, todas as estratégias de raciocínio enfrentam desafios para melhorar o desempenho em tarefas de contexto longo e com múltiplas tabelas. Para abordar essas limitações, desenvolvemos um modelo aprimorado para raciocínio financeiro baseado no Llama-3.1-8B-Instruct, por meio de ajuste fino com CoT e aprendizado por reforço com caminhos de raciocínio específicos do domínio. Mesmo com um ajuste fino simples utilizando um conjunto de dados financeiro, nosso modelo alcança uma melhoria consistente de 10% no desempenho em todas as tarefas, superando todos os modelos de 8B e até mesmo o Llama3-70B-Instruct e o Llama3.1-70B-Instruct, em média. Nossos resultados destacam a necessidade de adaptações específicas do domínio para tarefas financeiras, enfatizando direções futuras como o raciocínio com múltiplas tabelas, o processamento de contextos longos e a compreensão de terminologia financeira. Todos os nossos conjuntos de dados, modelos e códigos estão disponíveis publicamente. Além disso, introduzimos um *leaderboard* para benchmarking de futuros conjuntos de dados e modelos.