Articles de recherche en IA sélectionnés quotidiennement avec traductions
La recherche agentique, telle que les systèmes Deep Research où les grands modèles de langage naviguent de manière autonome sur le web, synthétisent des informations et renvoient des réponses complètes étayées par des citations, représente un changement majeur dans la manière dont les utilisateurs interagissent avec l'information à l'échelle du web. Bien qu'elle promette une plus grande efficacité et un déchargement cognitif, la complexité croissante et l'ouverture de la recherche agentique ont dépassé les benchmarks et méthodologies d'évaluation existants, qui supposent largement des horizons de recherche courts et des réponses statiques. Dans cet article, nous présentons Mind2Web 2, un benchmark de 130 tâches réalistes, de haute qualité et à long horizon, nécessitant une navigation web en temps réel et une synthèse approfondie d'informations, construit avec plus de 1 000 heures de travail humain. Pour relever le défi de l'évaluation des réponses complexes et variant dans le temps, nous proposons un nouveau cadre Agent-as-a-Judge. Notre méthode construit des agents évaluateurs spécifiques à chaque tâche basés sur une conception de grille d'évaluation en arborescence, afin d'évaluer automatiquement à la fois la justesse des réponses et l'attribution des sources. Nous menons une évaluation complète de neuf systèmes de recherche agentique de pointe et des performances humaines, ainsi qu'une analyse détaillée des erreurs pour en tirer des enseignements pour le développement futur. Le système le plus performant, OpenAI Deep Research, peut déjà atteindre 50 à 70 % des performances humaines tout en passant la moitié du temps, montrant un grand potentiel. Au total, Mind2Web 2 fournit une base rigoureuse pour le développement et l'évaluation de la prochaine génération de systèmes de recherche agentique.
Nous développons un agent neurosymbolique rentable pour résoudre des tâches complexes d'édition d'images en plusieurs étapes, telles que « Détectez le banc dans l'image tout en le recolorant en rose. De plus, supprimez le chat pour une vue plus claire et recolorer le mur en jaune. » Cet agent combine la planification rapide et de haut niveau des sous-tâches par les modèles de langage à grande échelle (LLMs) avec une recherche locale A^* lente, précise et basée sur l'utilisation d'outils pour chaque sous-tâche, afin de trouver un chemin d'outils rentable — une séquence d'appels à des outils d'IA. Pour réduire le coût de A^* sur des sous-tâches similaires, nous effectuons un raisonnement inductif sur les chemins d'outils précédemment réussis via les LLMs, afin d'extraire et d'affiner continuellement les sous-routines fréquemment utilisées et de les réutiliser comme nouveaux outils pour les tâches futures dans une planification rapide-lente adaptative. Dans cette approche, les sous-routines de haut niveau sont explorées en premier, et ce n'est que si elles échouent que la recherche A^* de bas niveau est activée. Les sous-routines symboliques réutilisables permettent de réduire considérablement les coûts d'exploration pour les mêmes types de sous-tâches appliquées à des images similaires, donnant naissance à un agent de chemin d'outils rapide-lente « FaSTA^* » : la planification rapide des sous-tâches suivie de la sélection de sous-routines basées sur des règles par sous-tâche est d'abord tentée par les LLMs, ce qui est censé couvrir la plupart des tâches, tandis que la recherche A^* lente n'est déclenchée que pour les sous-tâches nouvelles et complexes. En comparant avec les approches récentes d'édition d'images, nous démontrons que FaSTA^* est significativement plus efficace sur le plan computationnel tout en restant compétitif par rapport à l'état de l'art en termes de taux de réussite.
Les récents progrès en reconstruction de scènes ont permis une modélisation hautement réaliste des environnements de conduite autonome (AD) grâce à l'utilisation de splatting 3D gaussien. Cependant, les reconstructions obtenues restent étroitement liées aux observations originales et peinent à soutenir la synthèse photoréaliste de scènes de conduite significativement modifiées ou nouvelles. Ce travail présente MADrive, un cadre de reconstruction augmenté par mémoire, conçu pour étendre les capacités des méthodes de reconstruction de scènes existantes en remplaçant les véhicules observés par des actifs 3D visuellement similaires, extraits d'une banque de mémoire externe à grande échelle. Plus précisément, nous publions MAD-Cars, un ensemble de données soigneusement sélectionné contenant environ 70 000 vidéos 360° de voitures capturées en conditions réelles, et présentons un module de recherche qui identifie les instances de voitures les plus similaires dans la banque de mémoire, reconstruit les actifs 3D correspondants à partir des vidéos, et les intègre dans la scène cible par alignement d'orientation et rééclairage. Les remplacements résultants offrent des représentations multi-vues complètes des véhicules dans la scène, permettant une synthèse photoréaliste de configurations substantiellement modifiées, comme le démontrent nos expériences. Page du projet : https://yandex-research.github.io/madrive/
Nous présentons WorldVLA, un modèle de monde d'actions autorégressif qui unifie la compréhension et la génération d'actions et d'images. Notre WorldVLA intègre un modèle Vision-Langue-Action (VLA) et un modèle de monde dans un seul et même cadre. Le modèle de monde prédit les images futures en s'appuyant à la fois sur la compréhension des actions et des images, dans le but d'apprendre la physique sous-jacente de l'environnement pour améliorer la génération d'actions. Parallèlement, le modèle d'actions génère les actions suivantes en se basant sur les observations d'images, aidant ainsi à la compréhension visuelle et, en retour, contribuant à la génération visuelle du modèle de monde. Nous démontrons que WorldVLA surpasse les modèles d'actions et de monde autonomes, mettant en évidence l'amélioration mutuelle entre le modèle de monde et le modèle d'actions. De plus, nous constatons que la performance du modèle d'actions se détériore lors de la génération de séquences d'actions de manière autorégressive. Ce phénomène peut être attribué à la capacité limitée de généralisation du modèle pour la prédiction d'actions, entraînant la propagation des erreurs des actions précédentes vers les suivantes. Pour résoudre ce problème, nous proposons une stratégie de masque d'attention qui masque sélectivement les actions antérieures lors de la génération de l'action actuelle, ce qui montre une amélioration significative des performances dans la tâche de génération de segments d'actions.
Le phénomène de "grokking", c'est-à-dire l'amélioration continue des performances en test bien après la convergence de la perte d'entraînement, a récemment été observé dans l'entraînement des réseaux de neurones, rendant mystérieux le mécanisme de généralisation ainsi que d'autres capacités émergentes telles que le raisonnement. Alors que les études antérieures entraînaient généralement de petits modèles sur quelques tâches simplistes ou hautement spécifiques pendant des milliers d'époques, nous menons la première étude sur le grokking à partir de points de contrôle (checkpoints) lors de l'entraînement en une passe d'un grand modèle de langage (LLM) de 7 milliards de paramètres, à savoir OLMoE. Nous calculons la perte d'entraînement et évaluons la généralisation sur diverses tâches de référence, incluant le raisonnement mathématique, la génération de code et la récupération de connaissances de bon sens ou spécifiques à un domaine. Notre étude vérifie, pour la première fois, que le grokking se produit également lors de l'entraînement préalable de modèles de fondation à grande échelle, bien que différentes données puissent entrer dans les phases de grokking de manière asynchrone. Nous démystifions en outre l'"émergence de la généralisation" associée au grokking en étudiant la dynamique interne des LLM. Plus précisément, nous constatons que les parcours des échantillons d'entraînement (c'est-à-dire les choix d'experts à travers les couches) évoluent d'un état aléatoire et spécifique à l'instance vers un état plus structuré et partageable entre les échantillons pendant le grokking. De plus, la complexité du parcours d'un échantillon diminue malgré la convergence de la perte. Ces observations indiquent une conversion de la mémorisation vers la généralisation, fournissant une explication mécaniste de la généralisation retardée. Dans cette étude, nous développons deux nouvelles métriques pour quantifier la distance entre les parcours et la complexité d'un parcours individuel. Nous démontrons leur capacité à prédire l'amélioration de la généralisation sur diverses tâches en aval. Ces métriques sont efficaces, simples à calculer et dépendent uniquement des données d'entraînement. Elles ont donc une valeur pratique pour l'entraînement préalable, nous permettant de surveiller les performances de généralisation sans ajustement fin ni tests supplémentaires. Théoriquement, nous montrons que des parcours plus structurés réduisent la complexité du modèle et améliorent la borne de généralisation.
Le calcul conditionnel est une stratégie populaire pour rendre les Transformers plus efficaces. Les méthodes existantes ciblent souvent des modules individuels (par exemple, des couches de mélange d'experts) ou sautent des couches de manière indépendante. Cependant, les recherches en interprétabilité ont montré que les couches intermédiaires des Transformers présentent une plus grande redondance, et que les premières couches agrègent l'information dans les positions de tokens. Guidés par ces observations, nous proposons une nouvelle architecture qui saute dynamiquement un nombre variable de couches à partir du milieu vers l'extérieur. En particulier, un mécanisme de gating appris détermine s'il faut contourner une plage symétrique de blocs centraux en fonction de l'entrée, et un mécanisme d'attention gérée empêche les tokens suivants de prendre en compte les positions de tokens sautées. Les normes résiduelles sont contrôlées avec un schéma 'sandwich' ou 'perilayernorm', et la parcimonie des gates avec une perte de régularisation adaptative. Nous avions pour objectif de réduire les besoins en calcul pour les tokens 'plus simples' et potentiellement favoriser une hiérarchie de représentation multi-niveaux émergente, mais, aux échelles étudiées, notre approche n'améliore pas le compromis entre l'entropie croisée de validation et les FLOPs estimés par rapport aux modèles denses avec moins de couches. Nous publions notre code à l'adresse https://github.com/tim-lawson/skip-middle.
Nous présentons SAM4D, un modèle fondateur multimodal et temporel conçu pour la segmentation à la demande à travers les flux de caméra et de LiDAR. L'Encodage Positionnel Multimodal Unifié (UMPE) est introduit pour aligner les caractéristiques de la caméra et du LiDAR dans un espace 3D partagé, permettant une incitation et une interaction intermodales fluides. De plus, nous proposons l'Attention Mémoire Intermodale Sensible au Mouvement (MCMA), qui exploite la compensation du mouvement propre pour améliorer la cohérence temporelle et la récupération de caractéristiques à long terme, assurant une segmentation robuste dans des scènes de conduite autonome en évolution dynamique. Pour éviter les goulots d'étranglement liés à l'annotation, nous développons un moteur de données automatisé multimodal qui combine des masquelets vidéo pilotés par VFM, une reconstruction spatiotemporelle 4D, et une fusion intermodale de masquelets. Ce cadre génère des pseudo-étiquettes alignées caméra-LiDAR à une vitesse plusieurs ordres de grandeur plus rapide que l'annotation humaine, tout en préservant la fidélité sémantique dérivée de VFM dans les représentations de nuages de points. Nous menons des expériences approfondies sur le jeu de données Waymo-4DSeg construit, qui démontrent la puissante capacité de segmentation intermodale et le grand potentiel en annotation de données de SAM4D proposé.
Le skinning et le rigging sont des composants fondamentaux dans l'animation, la reconstruction d'objets articulés, le transfert de mouvement et la génération 4D. Les approches existantes reposent principalement sur le Linear Blend Skinning (LBS), en raison de sa simplicité et de sa différentiabilité. Cependant, le LBS introduit des artefacts tels que la perte de volume et des déformations non naturelles, et il échoue à modéliser des matériaux élastiques comme les tissus mous, la fourrure et les appendices flexibles (par exemple, les trompes d'éléphant, les oreilles et les tissus adipeux). Dans ce travail, nous proposons PhysRig : un cadre de skinning et de rigging basé sur la physique et différentiable, qui surmonte ces limitations en intégrant le squelette rigide dans une représentation volumétrique (par exemple, un maillage tétraédrique), simulée comme une structure de corps mou déformable pilotée par le squelette animé. Notre méthode s'appuie sur la mécanique des milieux continus et discrétise l'objet en particules intégrées dans une grille de fond eulérienne pour garantir la différentiabilité par rapport aux propriétés matérielles et au mouvement squelettique. De plus, nous introduisons des prototypes de matériaux, réduisant significativement l'espace d'apprentissage tout en maintenant une expressivité élevée. Pour évaluer notre cadre, nous construisons un ensemble de données synthétiques complet en utilisant des maillages provenant d'Objaverse, The Amazing Animals Zoo et MixaMo, couvrant diverses catégories d'objets et modèles de mouvement. Notre méthode surpasse systématiquement les approches traditionnelles basées sur le LBS, générant des résultats plus réalistes et physiquement plausibles. En outre, nous démontrons l'applicabilité de notre cadre dans la tâche de transfert de pose, mettant en évidence sa polyvalence pour la modélisation d'objets articulés.
Nous entraînons des modèles pour prédire des vidéos égocentriques à partir des actions humaines (PEVA), en utilisant la vidéo passée et une action représentée par la pose corporelle 3D relative. En conditionnant sur les trajectoires cinématiques des poses, structurées par la hiérarchie articulaire du corps, notre modèle apprend à simuler comment les actions physiques humaines façonnent l'environnement d'un point de vue à la première personne. Nous entraînons un transformateur de diffusion conditionnel auto-régressif sur Nymeria, un ensemble de données à grande échelle de vidéos égocentriques réelles et de captures de poses corporelles. Nous concevons en outre un protocole d'évaluation hiérarchique avec des tâches de difficulté croissante, permettant une analyse approfondie des capacités de prédiction et de contrôle incarnées du modèle. Notre travail représente une première tentative pour relever les défis de la modélisation d'environnements complexes du monde réel et des comportements d'agents incarnés avec la prédiction vidéo du point de vue d'un humain.
Avec la prolifération rapide des grands modèles de langage (LLMs) — chacun optimisé pour des forces, des styles ou des profils de latence/coût différents — le routage est devenu une technique essentielle pour opérationnaliser l'utilisation de différents modèles. Cependant, les approches de routage existantes pour les LLMs présentent deux limites majeures : elles évaluent les performances à l'aide de benchmarks qui échouent souvent à capturer les préférences humaines guidées par des critères d'évaluation subjectifs, et elles sélectionnent généralement parmi un pool restreint de modèles. Dans ce travail, nous proposons un cadre de routage aligné sur les préférences qui guide la sélection des modèles en associant les requêtes à des domaines définis par l'utilisateur (par exemple, voyage) ou à des types d'actions (par exemple, édition d'images) — offrant ainsi un mécanisme pratique pour encoder les préférences dans les décisions de routage. Plus précisément, nous introduisons Arch-Router, un modèle compact de 1,5 milliard de paramètres qui apprend à mapper les requêtes aux préférences de domaine-action pour les décisions de routage des modèles. Notre approche permet également d'ajouter de nouveaux modèles pour le routage de manière transparente, sans nécessiter de réentraînement ou de modifications architecturales. Les expériences sur des ensembles de données conversationnels démontrent que notre approche atteint des résultats de pointe (SOTA) en matière de correspondance des requêtes avec les préférences humaines, surpassant les meilleurs modèles propriétaires. Notre approche capture les critères d'évaluation subjectifs et rend les décisions de routage plus transparentes et flexibles. Notre modèle est disponible à l'adresse : https://huggingface.co/katanemo/Arch-Router-1.5B.
Les maladies rares affectent collectivement plus de 300 millions de personnes dans le monde, mais un diagnostic rapide et précis reste un défi majeur. Cela est principalement dû à leur hétérogénéité clinique, à leur faible prévalence individuelle et à la connaissance limitée que la plupart des cliniciens ont de ces affections. Nous présentons ici DeepRare, le premier système agentique de diagnostic des maladies rares alimenté par un modèle de langage à grande échelle (LLM), capable de traiter des données cliniques hétérogènes. Le système génère des hypothèses diagnostiques hiérarchisées pour les maladies rares, chacune accompagnée d'une chaîne de raisonnement transparente qui relie les étapes analytiques intermédiaires à des preuves médicales vérifiables. DeepRare se compose de trois éléments clés : un hôte central doté d'un module de mémoire à long terme ; des serveurs agents spécialisés responsables de tâches analytiques spécifiques à un domaine, intégrant plus de 40 outils spécialisés et des sources de connaissances médicales à l'échelle du web et à jour, garantissant ainsi l'accès aux informations cliniques les plus récentes. Cette conception modulaire et évolutive permet un raisonnement diagnostique complexe tout en maintenant la traçabilité et l'adaptabilité. Nous évaluons DeepRare sur huit ensembles de données. Le système démontre une performance diagnostique exceptionnelle parmi 2 919 maladies, atteignant une précision de 100 % pour 1 013 maladies. Dans les évaluations basées sur HPO, DeepRare surpasse significativement 15 autres méthodes, telles que les outils de diagnostic bioinformatiques traditionnels, les LLM et d'autres systèmes agentiques, obtenant un score moyen Recall@1 de 57,18 % et dépassant la deuxième meilleure méthode (Reasoning LLM) par une marge substantielle de 23,79 points de pourcentage. Pour les scénarios d'entrée multi-modaux, DeepRare atteint 70,60 % à Recall@1 contre 53,20 % pour Exomiser dans 109 cas. La vérification manuelle des chaînes de raisonnement par des experts cliniques atteint un taux d'accord de 95,40 %. Par ailleurs, le système DeepRare a été implémenté sous la forme d'une application web conviviale accessible à l'adresse http://raredx.cn/doctor.
Nous proposons FairyGen, un système automatique pour générer des vidéos de dessins animés basées sur une histoire à partir d’un seul dessin d’enfant, tout en préservant fidèlement son style artistique unique. Contrairement aux méthodes précédentes de narration qui se concentrent principalement sur la cohérence des personnages et les mouvements de base, FairyGen dissocie explicitement la modélisation des personnages de la génération d’arrière-plans stylisés et intègre une conception de plans cinématographiques pour soutenir une narration expressive et cohérente. Étant donné un croquis de personnage unique, nous utilisons d’abord un MLLM pour générer un storyboard structuré avec des descriptions au niveau des plans, spécifiant les environnements, les actions des personnages et les perspectives de la caméra. Pour assurer la cohérence visuelle, nous introduisons un adaptateur de propagation de style qui capture le style visuel du personnage et l’applique à l’arrière-plan, conservant fidèlement l’identité visuelle complète du personnage tout en synthétisant des scènes stylistiquement cohérentes. Un module de conception de plans améliore davantage la diversité visuelle et la qualité cinématographique grâce au recadrage des images et à la synthèse multi-vues basée sur le storyboard. Pour animer l’histoire, nous reconstruisons un proxy 3D du personnage pour dériver des séquences de mouvements physiquement plausibles, qui sont ensuite utilisées pour affiner un modèle de diffusion image-à-vidéo basé sur MMDiT. Nous proposons également un adaptateur de personnalisation de mouvement en deux étapes : la première étape apprend les caractéristiques d’apparence à partir d’images non ordonnées dans le temps, dissociant l’identité du mouvement ; la deuxième étape modélise la dynamique temporelle en utilisant une stratégie de décalage temporel avec des poids d’identité figés. Une fois entraîné, FairyGen rend directement des scènes vidéo diverses et cohérentes alignées sur le storyboard. Des expériences approfondies démontrent que notre système produit des animations fidèles au style, avec des mouvements naturels structurés narrativement, mettant en évidence son potentiel pour l’animation d’histoires personnalisées et engageantes. Le code sera disponible à l’adresse suivante : https://github.com/GVCLab/FairyGen.
Nous décrivons Generative Blocks World pour interagir avec la scène d'une image générée en manipulant des abstractions géométriques simples. Notre méthode représente les scènes comme des assemblages de primitives 3D convexes, et la même scène peut être représentée par un nombre variable de primitives, permettant à un éditeur de déplacer soit des structures entières, soit de petits détails. Une fois la géométrie de la scène modifiée, l'image est générée par une méthode basée sur un flux conditionné par la profondeur et une indication de texture. Notre indication de texture prend en compte les primitives 3D modifiées, surpassant la cohérence de texture offerte par les techniques existantes de mise en cache clé-valeur. Ces indications de texture (a) permettent des déplacements précis des objets et de la caméra et (b) préservent largement l'identité des objets représentés. Des expériences quantitatives et qualitatives démontrent que notre approche surpasse les travaux antérieurs en termes de fidélité visuelle, d'éditabilité et de généralisation compositionnelle.
L'entraînement distribué des modèles de base, en particulier des grands modèles de langage (LLMs), nécessite un niveau élevé de communication. Par conséquent, il dépend fortement d'un cluster centralisé doté d'interconnexions rapides et fiables. Pouvons-nous mener l'entraînement sur des réseaux lents et ainsi libérer la puissance des clusters décentralisés lorsqu'il s'agit de modèles dépassant les 100 milliards de paramètres ? Dans cet article, nous proposons DiLoCoX, un cadre d'entraînement décentralisé à grande échelle à faible communication. Il combine le parallélisme par pipeline avec une politique à double optimiseur, un chevauchement en un pas de retard entre la communication et l'entraînement local, ainsi qu'un schéma de compression de gradient adaptatif. Cette combinaison améliore considérablement l'échelle des paramètres et la vitesse de pré-entraînement du modèle. Nous justifions les avantages du chevauchement en un pas de retard entre la communication et l'entraînement local, ainsi que du schéma de compression de gradient adaptatif, par une analyse théorique de la convergence. Empiriquement, nous démontrons que DiLoCoX est capable de pré-entraîner un modèle de base de 107 milliards de paramètres sur un réseau de 1 Gbps. Par rapport à l'AllReduce classique, DiLoCoX peut atteindre une accélération de 357 fois dans l'entraînement distribué tout en maintenant une dégradation négligeable de la convergence du modèle. À notre connaissance, il s'agit du premier cadre d'entraînement décentralisé appliqué avec succès à des modèles de plus de 100 milliards de paramètres.
Dans cet article, nous proposons DuaShepherd, un nouveau cadre de modélisation de récompense qui intègre deux signaux de récompense complémentaires, la justesse et le potentiel, afin d'améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLM). Alors que les signaux basés sur la justesse mettent l'accent sur l'identification des erreurs étape par étape, les signaux basés sur le potentiel se concentrent sur la probabilité d'atteindre la réponse finale correcte. Nous avons développé un pipeline automatisé pour construire un ensemble de données à grande échelle pour la modélisation de récompense avec ces deux signaux. Une architecture unifiée à têtes multiples a été explorée pour entraîner les deux modèles de récompense dans un cadre multitâche, démontrant les avantages de l'apprentissage simultané de la justesse et du potentiel. En combinant ces deux signaux en une probabilité composée, notre modèle obtient des améliorations de performance constantes sur plusieurs benchmarks. Les évaluations empiriques sur MATH500 et ProcessBench confirment que cette récompense combinée surpasse significativement les modèles entraînés sur un seul type de récompense, atteignant des performances de pointe sous des contraintes de ressources comparables.
Nous proposons MuseControlLite, un mécanisme léger conçu pour affiner les modèles de génération de texte-à-musique en utilisant un conditionnement précis basé sur divers attributs musicaux variant dans le temps et des signaux audio de référence. La découverte clé est que les embeddings positionnels, rarement utilisés par les modèles de génération de texte-à-musique dans le conditionneur pour les conditions textuelles, sont essentiels lorsque la condition d'intérêt est une fonction du temps. En prenant le contrôle de la mélodie comme exemple, nos expériences montrent que l'ajout simple d'embeddings positionnels rotatifs aux couches d'attention croisée découplées augmente la précision du contrôle de 56,6 % à 61,1 %, tout en nécessitant 6,75 fois moins de paramètres entraînables que les mécanismes d'affinage de pointe, en utilisant le même modèle de diffusion Transformer pré-entraîné de Stable Audio Open. Nous évaluons diverses formes de contrôle d'attributs musicaux, d'inpainting audio et d'outpainting audio, démontrant une amélioration de la contrôlabilité par rapport à MusicGen-Large et Stable Audio Open ControlNet à un coût d'affinage significativement plus faible, avec seulement 85 millions de paramètres entraînables. Le code source, les points de contrôle du modèle et des exemples de démonstration sont disponibles à l'adresse suivante : https://musecontrollite.github.io/web/.
Les algorithmes heuristiques jouent un rôle crucial dans la résolution des problèmes d'optimisation combinatoire (OC), mais les conceptions traditionnelles dépendent fortement de l'expertise manuelle et peinent à généraliser leurs performances sur des instances diverses. Nous présentons HeurAgenix, un cadre hyper-heuristique en deux étapes alimenté par des modèles de langage de grande taille (LLM), qui évolue d'abord des heuristiques puis les sélectionne automatiquement. Dans la phase d'évolution des heuristiques, HeurAgenix utilise un LLM pour comparer des solutions heuristiques initiales avec des solutions de meilleure qualité et en extraire des stratégies d'évolution réutilisables. Pendant la résolution de problèmes, il choisit dynamiquement l'heuristique la plus prometteuse pour chaque état du problème, guidé par la capacité de perception du LLM. Pour plus de flexibilité, ce sélecteur peut être soit un LLM de pointe, soit un modèle léger affiné avec un coût d'inférence réduit. Pour atténuer la rareté des supervisions fiables causée par la complexité des OC, nous affinons le sélecteur heuristique léger avec un mécanisme de double récompense qui exploite conjointement les signaux des préférences de sélection et de la perception de l'état, permettant une sélection robuste malgré les annotations bruitées. Des expériences approfondies sur des benchmarks canoniques montrent que HeurAgenix surpasse non seulement les hyper-heuristiques basées sur des LLM existantes, mais rivalise ou dépasse également les solveurs spécialisés. Le code est disponible à l'adresse https://github.com/microsoft/HeurAgenix.