Modelli Linguistici di Grandi Dimensioni come Avvocati Tributaristi: Uno Studio di Caso sull'Emersione di Capacità Legali

Abstract

Una migliore comprensione delle capacità di analisi legale dei Large Language Models (LLM) può contribuire a migliorare l'efficienza dei servizi legali, a governare l'intelligenza artificiale e a sfruttare gli LLM per identificare incongruenze nel diritto. Questo articolo esplora le capacità degli LLM nell'applicazione del diritto tributario. Abbiamo scelto questo ambito giuridico perché presenta una struttura che ci consente di impostare pipeline di validazione automatizzate su migliaia di esempi, richiede ragionamento logico e competenze matematiche, e ci permette di testare le capacità degli LLM in modo rilevante per la vita economica reale di cittadini e aziende. I nostri esperimenti dimostrano capacità emergenti di comprensione legale, con un miglioramento delle prestazioni in ogni successivo rilascio di modelli OpenAI. Sperimentiamo il recupero e l'utilizzo dell'autorità legale pertinente per valutare l'impatto di fornire ulteriore contesto legale agli LLM. Il prompting few-shot, che presenta esempi di coppie domanda-risposta, si è rivelato anche in grado di migliorare significativamente le prestazioni del modello più avanzato, GPT-4. I risultati indicano che gli LLM, specialmente se combinati con miglioramenti nel prompting e con i testi legali corretti, possono raggiungere alti livelli di accuratezza, ma non ancora ai livelli di un esperto avvocato tributario. Man mano che gli LLM continuano a progredire, la loro capacità di ragionare autonomamente sul diritto potrebbe avere implicazioni significative per la professione legale e per la governance dell'IA.

English

Better understanding of Large Language Models' (LLMs) legal analysis abilities can contribute to improving the efficiency of legal services, governing artificial intelligence, and leveraging LLMs to identify inconsistencies in law. This paper explores LLM capabilities in applying tax law. We choose this area of law because it has a structure that allows us to set up automated validation pipelines across thousands of examples, requires logical reasoning and maths skills, and enables us to test LLM capabilities in a manner relevant to real-world economic lives of citizens and companies. Our experiments demonstrate emerging legal understanding capabilities, with improved performance in each subsequent OpenAI model release. We experiment with retrieving and utilising the relevant legal authority to assess the impact of providing additional legal context to LLMs. Few-shot prompting, presenting examples of question-answer pairs, is also found to significantly enhance the performance of the most advanced model, GPT-4. The findings indicate that LLMs, particularly when combined with prompting enhancements and the correct legal texts, can perform at high levels of accuracy but not yet at expert tax lawyer levels. As LLMs continue to advance, their ability to reason about law autonomously could have significant implications for the legal profession and AI governance.

Modelli Linguistici di Grandi Dimensioni come Avvocati Tributaristi: Uno Studio di Caso sull'Emersione di Capacità Legali

Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence

Abstract

Support