LawThinker: Um Agente Jurídico de Pesquisa Profunda em Ambientes Dinâmicos

Resumo

O raciocínio jurídico exige não apenas resultados corretos, mas também processos de fundamentação conformes ao procedimento. No entanto, os métodos existentes carecem de mecanismos para verificar as etapas intermediárias do raciocínio, permitindo que erros, como citações de artigos legais inaplicáveis, propaguem-se sem detecção pela cadeia de fundamentação. Para resolver isso, propomos o LawThinker, um agente autônomo de pesquisa jurídica que adota uma estratégia Explorar-Verificar-Memorizar para ambientes judiciais dinâmicos. A ideia central é impor a verificação como uma operação atômica após cada etapa de exploração de conhecimento. Um módulo DeepVerifier examina cada resultado de recuperação ao longo de três dimensões: precisão do conhecimento, relevância fato-direito e conformidade processual, contando com um módulo de memória para reutilização de conhecimento entre fases em tarefas de longo horizonte. Experimentos no benchmark dinâmico J1-EVAL mostram que o LawThinker alcança uma melhoria de 24% em relação ao raciocínio direto e um ganho de 11% sobre métodos baseados em fluxo de trabalho, com melhorias particularmente fortes em métricas orientadas ao processo. Avaliações em três benchmarks estáticos confirmam ainda mais sua capacidade de generalização. O código está disponível em https://github.com/yxy-919/LawThinker-agent.

English

Legal reasoning requires not only correct outcomes but also procedurally compliant reasoning processes. However, existing methods lack mechanisms to verify intermediate reasoning steps, allowing errors such as inapplicable statute citations to propagate undetected through the reasoning chain. To address this, we propose LawThinker, an autonomous legal research agent that adopts an Explore-Verify-Memorize strategy for dynamic judicial environments. The core idea is to enforce verification as an atomic operation after every knowledge exploration step. A DeepVerifier module examines each retrieval result along three dimensions of knowledge accuracy, fact-law relevance, and procedural compliance, with a memory module for cross-round knowledge reuse in long-horizon tasks. Experiments on the dynamic benchmark J1-EVAL show that LawThinker achieves a 24% improvement over direct reasoning and an 11% gain over workflow-based methods, with particularly strong improvements on process-oriented metrics. Evaluations on three static benchmarks further confirm its generalization capability. The code is available at https://github.com/yxy-919/LawThinker-agent .