Neural Predictor-Corrector: Resolução de Problemas de Homotopia com Aprendizagem por Reforço

Resumo

O paradigma da Homotopia, um princípio geral para resolver problemas complexos, surge em diversos domínios, como optimização robusta, optimização global, determinação de raízes de polinómios e amostragem. Os solucionadores práticos para estes problemas seguem tipicamente uma estrutura de previsor-corretor (PC), mas dependem de heurísticas artesanais para tamanhos de passo e terminação de iterações, que são frequentemente subótimas e específicas da tarefa. Para resolver isto, unificamos estes problemas sob um único quadro conceptual, o que permite o projeto de um solucionador neural geral. Com base nesta visão unificada, propomos o Neural Predictor-Corrector (NPC), que substitui as heurísticas artesanais por políticas aprendidas automaticamente. O NPC formula a seleção de políticas como um problema de decisão sequencial e aproveita a aprendizagem por reforço para descobrir automaticamente estratégias eficientes. Para melhorar ainda mais a generalização, introduzimos um mecanismo de treino amortizado, permitindo um treino offline único para uma classe de problemas e uma inferência online eficiente em novas instâncias. Experiências em quatro problemas de homotopia representativos demonstram que o nosso método generaliza eficazmente para instâncias não vistas. Supera consistentemente as linhas de base clássicas e especializadas em eficiência, demonstrando simultaneamente uma estabilidade superior entre tarefas, destacando o valor da unificação dos métodos de homotopia num único quadro neural.

English

The Homotopy paradigm, a general principle for solving challenging problems, appears across diverse domains such as robust optimization, global optimization, polynomial root-finding, and sampling. Practical solvers for these problems typically follow a predictor-corrector (PC) structure, but rely on hand-crafted heuristics for step sizes and iteration termination, which are often suboptimal and task-specific. To address this, we unify these problems under a single framework, which enables the design of a general neural solver. Building on this unified view, we propose Neural Predictor-Corrector (NPC), which replaces hand-crafted heuristics with automatically learned policies. NPC formulates policy selection as a sequential decision-making problem and leverages reinforcement learning to automatically discover efficient strategies. To further enhance generalization, we introduce an amortized training mechanism, enabling one-time offline training for a class of problems and efficient online inference on new instances. Experiments on four representative homotopy problems demonstrate that our method generalizes effectively to unseen instances. It consistently outperforms classical and specialized baselines in efficiency while demonstrating superior stability across tasks, highlighting the value of unifying homotopy methods into a single neural framework.