MADD: Orquestra de Descoberta de Fármacos com Múltiplos Agentes

Resumo

A identificação de candidatos (hits) é um desafio central na descoberta precoce de fármacos, exigindo tradicionalmente recursos experimentais substanciais. Avanços recentes em inteligência artificial, particularmente em modelos de linguagem de grande escala (LLMs), têm permitido métodos de triagem virtual que reduzem custos e melhoram a eficiência. No entanto, a crescente complexidade dessas ferramentas tem limitado sua acessibilidade para pesquisadores de laboratório experimental. Os sistemas multiagente oferecem uma solução promissora ao combinar a interpretabilidade dos LLMs com a precisão de modelos e ferramentas especializadas. Neste trabalho, apresentamos o MADD, um sistema multiagente que constrói e executa pipelines personalizados de identificação de candidatos a partir de consultas em linguagem natural. O MADD emprega quatro agentes coordenados para lidar com subtarefas-chave na geração *de novo* de compostos e na triagem. Avaliamos o MADD em sete casos de descoberta de fármacos e demonstramos seu desempenho superior em comparação com soluções existentes baseadas em LLMs. Utilizando o MADD, pioneiramos a aplicação do design de fármacos com foco em IA para cinco alvos biológicos e disponibilizamos as moléculas candidatas identificadas. Por fim, introduzimos um novo *benchmark* de pares consulta-molécula e escores de *docking* para mais de três milhões de compostos, visando contribuir para o futuro agentivo do design de fármacos.

English

Hit identification is a central challenge in early drug discovery, traditionally requiring substantial experimental resources. Recent advances in artificial intelligence, particularly large language models (LLMs), have enabled virtual screening methods that reduce costs and improve efficiency. However, the growing complexity of these tools has limited their accessibility to wet-lab researchers. Multi-agent systems offer a promising solution by combining the interpretability of LLMs with the precision of specialized models and tools. In this work, we present MADD, a multi-agent system that builds and executes customized hit identification pipelines from natural language queries. MADD employs four coordinated agents to handle key subtasks in de novo compound generation and screening. We evaluate MADD across seven drug discovery cases and demonstrate its superior performance compared to existing LLM-based solutions. Using MADD, we pioneer the application of AI-first drug design to five biological targets and release the identified hit molecules. Finally, we introduce a new benchmark of query-molecule pairs and docking scores for over three million compounds to contribute to the agentic future of drug design.