Alocação de Carga de Trabalho em Clusters: Afinidade Semântica Suave Usando Processamento de Linguagem Natural
Cluster Workload Allocation: Semantic Soft Affinity Using Natural Language Processing
January 14, 2026
Autores: Leszek Sliwko, Jolanta Mizeria-Pietraszko
cs.AI
Resumo
A alocação de carga de trabalho em clusters frequentemente requer configurações complexas, criando uma lacuna de usabilidade. Este artigo introduz um paradigma de agendamento semântico e orientado a intenções para sistemas de cluster usando Processamento de Linguagem Natural. O sistema emprega um Modelo de Linguagem de Grande Escala (LLM) integrado via um extensor do agendador do Kubernetes para interpretar anotações de dicas de alocação em linguagem natural para preferências de afinidade flexível. Foi desenvolvido um protótipo contendo um cache de estado do cluster e um analisador de intenções (usando AWS Bedrock). A avaliação empírica demonstrou alta precisão de análise do LLM (>95% de Acurácia por Subconjunto em um conjunto de dados de avaliação com verdade real) para modelos de primeira linha como Amazon Nova Pro/Premier e Mistral Pixtral Large, superando significativamente um mecanismo de linha de base. Testes de qualidade de agendamento em seis cenários mostraram que o protótipo alcançou posicionamento superior ou equivalente em comparação com configurações padrão do Kubernetes, destacando-se especialmente em cenários complexos e quantitativos e no tratamento de preferências flexíveis conflitantes. Os resultados validam o uso de LLMs para um agendamento acessível, mas destacam limitações como a latência síncrona do LLM, sugerindo processamento assíncrono para prontidão em produção. Este trabalho confirma a viabilidade da afinidade flexível semântica para simplificar a orquestração de cargas de trabalho.
English
Cluster workload allocation often requires complex configurations, creating a usability gap. This paper introduces a semantic, intent-driven scheduling paradigm for cluster systems using Natural Language Processing. The system employs a Large Language Model (LLM) integrated via a Kubernetes scheduler extender to interpret natural language allocation hint annotations for soft affinity preferences. A prototype featuring a cluster state cache and an intent analyzer (using AWS Bedrock) was developed. Empirical evaluation demonstrated high LLM parsing accuracy (>95% Subset Accuracy on an evaluation ground-truth dataset) for top-tier models like Amazon Nova Pro/Premier and Mistral Pixtral Large, significantly outperforming a baseline engine. Scheduling quality tests across six scenarios showed the prototype achieved superior or equivalent placement compared to standard Kubernetes configurations, particularly excelling in complex and quantitative scenarios and handling conflicting soft preferences. The results validate using LLMs for accessible scheduling but highlight limitations like synchronous LLM latency, suggesting asynchronous processing for production readiness. This work confirms the viability of semantic soft affinity for simplifying workload orchestration.