papers.description
Les méthodes d'auto-évolution améliorent la génération de code par des cycles itératifs "générer-vérifier-affiner", mais les approches existantes souffrent d'une faible efficacité d'exploration, échouant à découvrir des solutions présentant une complexité supérieure dans des budgets limités. Cette inefficacité provient du biais d'initialisation qui piège l'évolution dans des régions de solutions médiocres, d'opérations stochastiques non contrôlées manquant de guidage par feedback, et d'une utilisation insuffisante de l'expérience à travers les tâches. Pour résoudre ces goulots d'étranglement, nous proposons l'Auto-évolution Contrôlée (CSE), qui comprend trois composants clés. L'Initialisation par Planification Diversifiée génère des stratégies algorithmiques structurellement distinctes pour une couverture étendue de l'espace des solutions. L'Évolution Génétique remplace les opérations stochastiques par des mécanismes guidés par feedback, permettant une mutation ciblée et un croisement compositionnel. La Mémoire d'Évolution Hiérarchique capture les expériences réussies et échouées aux niveaux inter-tâches et intra-tâche. Les expériences sur EffiBench-X démontrent que CSE surpasse constamment toutes les méthodes de référence sur diverses architectures de grands modèles de langage. De plus, CSE atteint une efficacité supérieure dès les premières générations et maintient une amélioration continue tout au long de l'évolution. Notre code est disponible publiquement à l'adresse https://github.com/QuantaAlpha/EvoControl.
Les systèmes de recherche approfondie sont largement utilisés pour la recherche web multi-étapes, l'analyse et la synthèse multi-sources, mais leur évaluation reste difficile. Les bancs d'essai existants nécessitent souvent une construction de tâches intensive en annotations, reposent sur des dimensions d'évaluation statiques, ou échouent à vérifier les faits de manière fiable lorsque les citations sont manquantes. Pour combler ces lacunes, nous présentons DeepResearchEval, un cadre automatisé pour la construction de tâches de recherche approfondie et l'évaluation agentique. Pour la construction des tâches, nous proposons un pipeline piloté par des personas générant des tâches de recherche réalistes et complexes ancrées dans des profils utilisateurs variés, en appliquant un filtre en deux étapes : Qualification de la Tâche et Nécessité de Recherche, pour ne conserver que les tâches nécessitant une intégration de preuves multi-sources et une récupération externe. Pour l'évaluation, nous proposons un pipeline agentique à deux composantes : une Évaluation de Qualité Ponctuelle Adaptative qui dérive dynamiquement des dimensions, critères et poids d'évaluation spécifiques à chaque tâche, conditionnés par la tâche générée ; et une Vérification des Faits Active qui extrait et vérifie de manière autonome les affirmations du rapport via une recherche web, même en l'absence de citations.
Les agents de modèles de langage de grande taille (LLM) manifestent des capacités de raisonnement intrinsèques grâce à la collaboration de multiples outils. Cependant, lors de l'inférence des agents, les méthodes existantes souffrent souvent (i) d'une génération localement myope, due à l'absence d'anticipation, et (ii) d'une instabilité des trajectoires, où de légères erreurs initiales peuvent s'amplifier en chemins de raisonnement divergents. Ces problèmes rendent difficile l'équilibre entre l'efficacité globale et l'efficacité computationnelle. Pour résoudre ces deux problèmes, nous proposons MAXS (meta-adaptive exploration with LLM agents) https://github.com/exoskeletonzj/MAXS, un cadre de raisonnement méta-adaptatif basé sur les agents LLM qui intègre de manière flexible l'exécution d'outils et la planification du raisonnement. MAXS utilise une stratégie d'anticipation pour étendre les chemins de raisonnement de quelques pas en avant, en estimant la valeur d'avantage de l'utilisation des outils, et combine la variance de cohérence étape par étape et les pentes de tendance inter-étapes pour sélectionner conjointement des étapes de raisonnement stables, cohérentes et à haute valeur. De plus, nous introduisons un mécanisme de convergence de trajectoire qui contrôle le coût computationnel en arrêtant les déploiements ultérieurs une fois la cohérence du chemin atteinte, permettant un équilibre entre l'efficacité des ressources et l'efficacité globale dans le raisonnement multi-outils. Nous menons des études empiriques approfondies sur trois modèles de base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) et cinq jeux de données, démontrant que MAXS surpasse constamment les méthodes existantes tant en performances qu'en efficacité d'inférence. Une analyse plus poussée confirme l'efficacité de notre stratégie d'anticipation et de l'utilisation des outils.
Le raisonnement scientifique ne repose pas uniquement sur l'inférence logique, mais aussi sur l'activation de connaissances antérieures et de structures expérientielles. La mémoire permet de réutiliser efficacement les connaissances et d'améliorer la cohérence et la stabilité du raisonnement. Cependant, les benchmarks existants évaluent principalement les réponses finales ou la cohérence étape par étape, négligeant les mécanismes pilotés par la mémoire qui sous-tendent le raisonnement humain, lequel implique l'activation d'ancrages et d'attracteurs avant de les intégrer dans une inférence multi-étapes. Pour combler cette lacune, nous proposons A^3-Bench~ https://a3-bench.github.io, un benchmark conçu pour évaluer le raisonnement scientifique via une activation mémoire à double échelle, fondée sur l'Activation des Ancrages et des Attracteurs. Premièrement, nous annotons 2 198 problèmes de raisonnement scientifique across différents domaines en utilisant le processus SAPM (sujet, ancrage & attracteur, problème et développement mémoriel). Deuxièmement, nous introduisons un cadre d'évaluation mémoire à double échelle utilisant les ancrages et les attracteurs, ainsi que la métrique AAUI (Indice d'Utilisation des Ancrages-Attracteurs) pour mesurer les taux d'activation mémoire. Enfin, via des expériences avec divers modèles de base et paradigmes, nous validons A^3-Bench et analysons comment l'activation mémoire influence les performances raisonnées, offrant ainsi des perspectives sur le raisonnement scientifique piloté par la mémoire.
Dans ce rapport, nous présentons DASD-4B-Thinking, un modèle de raisonnement léger mais très performant, entièrement open-source. Il atteint des performances SOTA parmi les modèles open-source d'échelle comparable sur divers benchmarks exigeants en mathématiques, en raisonnement scientifique et en génération de code – surpassant même plusieurs modèles plus volumineux. Nous commençons par réexaminer de manière critique un paradigme de distillation largement adopté par la communauté : le SFT sur les réponses générées par un enseignant, également connu sous le nom de distillation au niveau de la séquence. Bien qu'une série de travaux récents suivant ce schéma aient démontré une efficacité remarquable et de solides performances empiriques, ils s'ancrent principalement dans une perspective de SFT. Par conséquent, ces approches se concentrent de façon prédominante sur la conception de règles heuristiques pour le filtrage des données de SFT, tout en négligeant largement le principe fondamental de la distillation elle-même – permettre au modèle étudiant d'apprendre la distribution complète des sorties du modèle enseignant afin d'hériter de sa capacité de généralisation. Plus précisément, nous identifions trois limitations critiques dans les pratiques actuelles : i) Une représentation inadéquate de la distribution au niveau de la séquence de l'enseignant ; ii) Un désalignement entre la distribution des sorties de l'enseignant et la capacité d'apprentissage de l'étudiant ; et iii) Un biais d'exposition découlant de l'entraînement par enseignement forcé (teacher forcing) par opposition à l'inférence autorégressive. En résumé, ces lacunes reflètent une absence systémique d'interaction explicite entre l'enseignant et l'étudiant tout au long du processus de distillation, laissant l'essence même de la distillation sous-exploitée. Pour résoudre ces problèmes, nous proposons plusieurs innovations méthodologiques qui forment collectivement un pipeline d'entraînement amélioré pour la distillation au niveau de la séquence. Fait remarquable, DASD-4B-Thinking obtient des résultats compétitifs en utilisant seulement 448 000 échantillons d'entraînement – soit un ordre de grandeur de moins que ceux utilisés par la plupart des efforts open-source existants. Pour soutenir la recherche communautaire, nous publions librement nos modèles et l'ensemble de données d'entraînement.
Les tâches Vision-Langage-Action (VLA) nécessitent un raisonnement sur des scènes visuelles complexes et l'exécution d'actions adaptatives dans des environnements dynamiques. Si les études récentes sur les VLA à raisonnement montrent qu'un enchaînement de pensées (Chain-of-Thought, CoT) explicite peut améliorer la généralisation, elles souffrent d'une latence d'inférence élevée due aux traces de raisonnement longues. Nous proposons Fast-ThinkAct, un cadre de raisonnement efficace qui réalise une planification compacte et performante via un raisonnement latent verbalisable. Fast-ThinkAct apprend à raisonner efficacement avec des CoT latents en se distillant à partir d'un modèle enseignant, guidé par un objectif basé sur les préférences pour aligner les trajectoires de manipulation, transférant ainsi à la fois les capacités de planification linguistique et visuelle pour le contrôle incarné. Cela permet un apprentissage de politiques amélioré par le raisonnement qui connecte efficacement le raisonnement compact à l'exécution des actions. Des expériences approfondies sur divers benchmarks de manipulation incarnée et de raisonnement démontrent que Fast-ThinkAct atteint des performances solides avec une réduction de la latence d'inférence allant jusqu'à 89,3 % par rapport aux VLA à raisonnement de l'état de l'art, tout en maintenant une planification efficace à long terme, une adaptation en few-shot et une capacité de récupération après échec.
Les modèles généraux de vision et langage à grande échelle (LVLM), malgré leur taille massive, échouent souvent en dermatologie en raison d'une « attention diffuse » - l'incapacité à distinguer les lésions pathologiques subtiles du bruit de fond. Dans cet article, nous remettons en cause l'hypothèse selon laquelle l'augmentation des paramètres est la seule voie vers la précision médicale. Nous présentons SkinFlow, un cadre qui traite le diagnostic comme une optimisation de l'efficacité de la transmission de l'information visuelle. Notre approche utilise un Encodeur de Vision Dynamique à Largeur Virtuelle (DVE) pour « déplier » les variétés pathologiques complexes sans expansion physique des paramètres, couplé à une stratégie d'Apprentissage par Renforcement en deux étapes. Cette stratégie aligne séquentiellement les descriptions médicales explicites (Étape I) et reconstruit les textures diagnostiques implicites (Étape II) dans un espace sémantique contraint. De plus, nous proposons un protocole d'évaluation cliniquement fondé qui privilégie la sécurité diagnostique et la pertinence hiérarchique par rapport à la correspondance rigide des étiquettes. Les résultats empiriques sont convaincants : notre modèle de 7B établit un nouvel état de l'art sur le benchmark Fitzpatrick17k, obtenant un gain de +12,06 % en précision Top-1 et une augmentation de +28,57 % en précision Top-6 par rapport aux modèles généraux massifs (par exemple, Qwen3VL-235B et GPT-5.2). Ces résultats démontrent qu'optimiser la capacité géométrique et le flux d'information produit un raisonnement diagnostique supérieur comparé à la simple augmentation brute des paramètres.
Nous proposons OpenVoxel, un algorithme sans apprentissage pour regrouper et légender des voxels épars dans le cadre de tâches de compréhension de scènes 3D en vocabulaire libre. Étant donné le modèle de rasterisation de voxels épars (SVR) obtenu à partir d'images multi-vues d'une scène 3D, notre méthode OpenVoxel est capable de produire des regroupements significatifs qui décrivent les différents objets de la scène. De plus, en tirant parti des modèles vision-langage (VLM) et des grands modèles de langage multimodaux (MLLM), OpenVoxel construit avec succès une carte scénique informative en légendant chaque groupe, permettant ainsi des tâches avancées de compréhension de scènes 3D telles que la segmentation en vocabulaire libre (OVS) ou la segmentation par expression référentielle (RES). Contrairement aux méthodes précédentes, notre approche est non supervisée et n'introduit pas d'embeddings issus d'un encodeur de texte CLIP/BERT. Nous procédons plutôt directement par recherche texte-à-texte à l'aide de MLLM. À travers des expérimentations approfondies, notre méthode démontre des performances supérieures par rapport aux études récentes, particulièrement dans les tâches complexes de segmentation par expression référentielle (RES). Le code sera ouvert.
Le développement des grands modèles de langage (LLM) a permis d'atteindre des performances supérieures dans une série de tâches en aval, y compris la génération augmentée par récupération (RAG) basée sur les LLM. La qualité du contenu généré dépend fortement de l'utilité des informations récupérées et de la capacité du mécanisme interne de traitement de l'information des LLM à les intégrer dans la génération de réponses. On suppose généralement que les informations récupérées sont pertinentes par rapport à la question. Cependant, ces informations peuvent présenter des degrés variables de pertinence et d'utilité, selon la question et la collection de documents. Il est important de prendre en compte la pertinence des informations récupérées dans la génération des réponses. Dans cet article, nous proposons OpenDecoder, une nouvelle approche qui exploite l'évaluation explicite des informations récupérées comme indicateurs de qualité pour la génération. Notre objectif est de construire un modèle RAG plus robuste face à différents niveaux de contexte bruité. Trois types d'informations d'évaluation explicite sont considérés : le score de pertinence, le score de classement et le score QPP (prédiction de performance des requêtes). Les résultats expérimentaux sur cinq ensembles de données de référence démontrent l'efficacité et une meilleure robustesse d'OpenDecoder en surpassant diverses méthodes de référence. Surtout, ce paradigme est suffisamment flexible pour être intégré au post-entraînement des LLM à toutes fins utiles et combiné avec tout type d'indicateurs externes.
L'intervention par l'expérience dans les agents web émerge comme un paradigme technique prometteur, améliorant les capacités d'interaction des agents en fournissant des insights précieux issus d'expériences accumulées. Cependant, les méthodes existantes injectent principalement l'expérience passivement comme contexte global avant l'exécution des tâches, peinant à s'adapter aux observations contextuelles dynamiquement changeantes durant l'interaction agent-environnement. Nous proposons ExpSeek, qui oriente l'expérience vers une recherche proactive au niveau des étapes : (1) en estimant des seuils d'entropie par étape pour déterminer le timing d'intervention en utilisant les signaux intrinsèques du modèle ; (2) en concevant un contenu expérientiel sur mesure au niveau de l'étape. Les expériences sur les modèles Qwen3-8B et 32B à travers quatre benchmarks exigeants pour agents web démontrent qu'ExpSeek obtient des améliorations absolues de 9,3 % et 7,5 % respectivement. Nos expériences valident la faisabilité et les avantages de l'entropie comme signal d'auto-déclenchement, et révèlent qu'un modèle d'expérience de petite échelle (4B) peut significativement booster les performances de modèles d'agents plus grands.
Les modèles vision-langage (VLM) ont démontré des performances remarquables dans les tâches de repérage d'interface utilisateur (UI), grâce à leur capacité à traiter des captures d'écran de résolution de plus en plus élevée. Cependant, les captures d'écran sont tokenisées en milliers de tokens visuels (environ 4700 pour une résolution 2K), entraînant une surcharge computationnelle significative et une dilution de l'attention. En revanche, les humains se concentrent généralement sur les régions d'intérêt lors de l'interaction avec une interface. Dans ce travail, nous pionnons la tâche de repérage d'UI efficace. Guidés par une analyse pratique des caractéristiques et défis de la tâche, nous proposons FocusUI, un cadre de repérage d'UI efficace qui sélectionne les patches les plus pertinents pour l'instruction tout en préservant la continuité positionnelle pour un repérage précis. FocusUI aborde deux défis clés : (1) L'élimination des tokens redondants dans l'encodage visuel. Nous construisons une supervision au niveau des patches en fusionnant un score conditionné par l'instruction avec un score basé sur des règles d'un graphe d'UI qui pondère négativement les grandes régions homogènes pour sélectionner des tokens visuels distincts et pertinents pour l'instruction. (2) La préservation de la continuité positionnelle lors de la sélection des tokens visuels. Nous constatons que les méthodes générales d'élagage de tokens visuels souffrent d'une dégradation sévère de la précision sur les tâches de repérage d'UI en raison de la rupture des informations positionnelles. Nous introduisons une nouvelle stratégie PosPad, qui compresse chaque séquence contiguë de tokens visuels supprimés en un marqueur spécial unique placé à l'index final de la séquence pour préserver la continuité positionnelle. Des expériences complètes sur quatre benchmarks de repérage démontrent que FocusUI surpasse les lignes de base spécifiques aux IUG. Sur le benchmark ScreenSpot-Pro, FocusUI-7B obtient une amélioration de performance de 3,7 % par rapport à GUI-Actor-7B. Même avec seulement 30 % de rétention de tokens visuels, FocusUI-7B ne baisse que de 3,2 % tout en atteignant une inférence jusqu'à 1,44 fois plus rapide et une mémoire GPU de pointe 17 % plus faible.
L'entraînement des grands modèles de langage (LLM) optimise souvent l'alignement sur les préférences, récompensant les sorties perçues comme utiles et propices à l'interaction. Cependant, cet objectif orienté vers les préférences peut être exploité : des invites manipulatoires peuvent orienter les réponses vers un acquiescement destiné à satisfaire l'utilisateur et les éloigner d'une correction axée sur la vérité. Dans ce travail, nous investiguons si les modèles alignés sont vulnérables aux Attaques de Sape des Préférences (PUA), une classe de stratégies d'invite manipulatoires conçues pour exploiter le désir du modèle de satisfaire les préférences de l'utilisateur au détriment de la véracité. Nous proposons une méthodologie de diagnostic qui offre une analyse plus fine et plus directive que les scores agrégés de référence, en utilisant un cadre d'évaluation factorielle pour décomposer les changements induits par l'invite en effets interprétables des objectifs du système (axé sur la vérité vs. axé sur les préférences) et des facteurs de dialogue de type PUA (contrôle directif, dénigrement personnel, approbation conditionnelle, déni de réalité) dans un plan contrôlé 2 fois 2^4. De manière surprenante, les modèles les plus avancés sont parfois plus sensibles aux invites manipulatoires. Au-delà du facteur dominant de déni de réalité, nous observons des inversions de signe spécifiques aux modèles et des interactions avec les facteurs de type PUA, suggérant des défenses sur mesure plutôt qu'une robustesse uniforme. Ces résultats offrent une méthodologie d'évaluation factorielle novatrice et reproductible qui fournit des diagnostics plus granulaires pour les processus post-entraînement comme le RLHF, permettant de meilleurs compromis dans l'itération produit des LLM en offrant une compréhension plus nuancée des risques d'alignement sur les préférences et de l'impact des invites manipulatoires.
Si les agents basés sur LLM ont montré des résultats prometteurs pour la recherche approfondie, la plupart des approches existantes reposent sur des flux de travail fixes qui peinent à s'adapter aux requêtes ouvertes du monde réel. Des travaux récents explorent donc l'auto-évolution en permettant aux agents de réécrire leur propre code ou prompts pour améliorer leur capacité de résolution de problèmes, mais une optimisation non contrainte déclenche souvent de l'instabilité, des hallucinations et une dérive des instructions. Nous proposons EvoFSM, un framework d'auto-évolution structuré qui concilie adaptabilité et contrôle en faisant évoluer une Machine à États Finis (MEF) explicite plutôt que de s'appuyer sur une réécriture libre. EvoFSM découple l'espace d'optimisation en un Flux macroscopique (logique de transition d'état) et des Compétences microscopiques (comportements spécifiques à un état), permettant des améliorations ciblées dans des limites comportementales claires. Guidé par un mécanisme de critique, EvoFSM affine la MEF via un petit ensemble d'opérations contraintes, et intègre en outre une mémoire auto-évolutive qui distille les trajectoires réussies en connaissances a priori réutilisables et les patterns d'échec en contraintes pour les requêtes futures. Des évaluations approfondies sur cinq benchmarks de QA multi-étapes démontrent l'efficacité d'EvoFSM. En particulier, EvoFSM atteint une précision de 58,0 % sur le benchmark DeepSearch. Des résultats supplémentaires sur des tâches de prise de décision interactive valident davantage sa généralisation.
Nous présentons TranslateGemma, une suite de modèles de traduction automatique ouverts basés sur les modèles de fondation Gemma 3. Pour améliorer les capacités multilingues inhérentes de Gemma 3 pour la tâche de traduction, nous employons un processus de fine-tuning en deux étapes. Premièrement, un fine-tuning supervisé est effectué en utilisant un riche mélange de données parallèles synthétiques de grande échelle et de haute qualité, générées via des modèles de pointe, et de données parallèles traduites par des humains. Ceci est suivi par une phase d'apprentissage par renforcement, où nous optimisons la qualité de la traduction en utilisant un ensemble de modèles de récompense, incluant MetricX-QE et AutoMQM, ciblant la qualité de la traduction. Nous démontrons l'efficacité de TranslateGemma avec une évaluation humaine sur le jeu de test WMT25 pour 10 paires de langues et avec une évaluation automatique sur le benchmark WMT24++ pour 55 paires de langues. Les métriques automatiques montrent des gains constants et substantiels par rapport aux modèles de référence Gemma 3, toutes tailles confondues. Notamment, les modèles TranslateGemma plus petits atteignent souvent des performances comparables aux modèles de référence plus grands, offrant ainsi une efficacité améliorée. Nous montrons également que les modèles TranslateGemma conservent de solides capacités multimodales, avec des performances accrues sur le benchmark de traduction d'images Vistra. La publication des modèles ouverts TranslateGemma vise à fournir à la communauté de recherche des outils puissants et adaptables pour la traduction automatique.
Les récents progrès en modélisation du monde ont montré un potentiel prometteur pour la modélisation de la dynamique future des états environnementaux, permettant aux agents de raisonner et d'agir sans accéder aux environnements réels. Les méthodes actuelles effectuent principalement des déploiements en une étape ou avec un horizon fixe, laissant leur potentiel pour la planification de tâches complexes sous-exploité. Nous proposons Imagine-puis-Plan (ITP), un cadre unifié pour l'apprentissage des agents via l'imagination prospective, où le modèle de politique d'un agent interagit avec le modèle du monde appris, produisant des trajectoires « imaginées » multi-étapes. Étant donné que l'horizon d'imagination peut varier selon les tâches et les étapes, nous introduisons un mécanisme adaptatif novateur d'anticipation en équilibrant l'objectif ultime et la progression de la tâche. Les trajectoires imaginées qui en résultent fournissent des signaux riches sur les conséquences futures, tels que la progression réalisée et les conflits potentiels, qui sont fusionnés avec les observations actuelles, formulant un processus de décision markovien partiellement observable et imaginable pour guider l'apprentissage des politiques. Nous instancions ITP avec des variantes sans apprentissage et entraînées par renforcement. Des expériences approfondies sur des benchmarks représentatifs d'agents démontrent qu'ITP surpasse significativement les bases de comparaison compétitives. Des analyses supplémentaires valident le fait que notre anticipation adaptative améliore largement la capacité de raisonnement des agents, fournissant des insights précieux pour aborder des tâches complexes plus vastes.
Les modèles génératifs vidéo modernes basés sur les modèles de diffusion peuvent produire des séquences très réalistes, mais ils sont peu efficaces sur le plan computationnel, nécessitant souvent plusieurs minutes de calcul sur GPU pour seulement quelques secondes de vidéo. Cette inefficacité constitue un obstacle critique au déploiement de la génération vidéo dans des applications nécessitant des interactions en temps réel, telles que l'IA incarnée et la réalité virtuelle/augmentée. Cet article explore une nouvelle stratégie pour la génération vidéo conditionnée par la caméra de scènes statiques : utiliser des modèles génératifs à base de diffusion pour produire un ensemble épars d'images clés, puis synthétiser la vidéo complète via la reconstruction 3D et le rendu. En projetant les images clés dans une représentation 3D et en rendant les vues intermédiaires, notre approche amortit le coût de génération sur des centaines de trames tout en imposant une cohérence géométrique. Nous introduisons en outre un modèle qui prédit le nombre optimal d'images clés pour une trajectoire caméra donnée, permettant au système d'allouer dynamiquement le calcul. Notre méthode finale, SRENDER, utilise des images clés très éparses pour les trajectoires simples et plus denses pour les mouvements de caméra complexes. Il en résulte une génération vidéo plus de 40 fois plus rapide que l'approche de référence basée sur la diffusion pour produire 20 secondes de vidéo, tout en maintenant une haute fidélité visuelle et une stabilité temporelle, offrant ainsi une voie pratique vers une synthèse vidéo efficace et contrôlable.
La mémoire joue un rôle fondamental dans l'amélioration du raisonnement, de l'adaptabilité et de la fidélité contextuelle des modèles de langage de grande taille (LLM) et des LLM multimodaux (MLLM) modernes. Alors que ces modèles passent de prédicteurs statiques à des systèmes interactifs capables d'apprentissage continu et d'inférence personnalisée, l'intégration de mécanismes de mémoire est devenue un thème central dans leur évolution architecturale et fonctionnelle. Cette étude présente une synthèse complète et structurée de la mémoire dans les LLM et les MLLM, organisant la littérature selon une taxonomie cohérente comprenant les paradigmes de mémoire implicite, explicite et agentielle. Plus précisément, l'étude délimite trois cadres mémoriels principaux. La mémoire implicite désigne les connaissances intégrées dans les paramètres internes des transformeurs pré-entraînés, englobant leur capacité de mémorisation, de récupération associative et de raisonnement contextuel. Des travaux récents ont exploré des méthodes pour interpréter, manipuler et reconfigurer cette mémoire latente. La mémoire explicite implique des composants externes de stockage et de récupération conçus pour enrichir les sorties du modèle avec des représentations de connaissances dynamiques et interrogeables, telles que des corpus textuels, des vecteurs denses et des structures basées sur des graphes, permettant ainsi une interaction évolutive et actualisable avec les sources d'information. La mémoire agentielle introduit des structures mémorielles persistantes et temporellement étendues au sein d'agents autonomes, facilitant la planification à long terme, l'auto-cohérence et les comportements collaboratifs dans les systèmes multi-agents, avec une pertinence pour l'IA incarnée et interactive. Au-delà du texte, l'étude examine l'intégration de la mémoire dans des contextes multimodaux, où la cohérence entre les modalités visuelles, linguistiques, auditives et d'action est essentielle. Les avancées architecturales majeures, les tâches de référence et les défis ouverts sont discutés, y compris les questions liées à la capacité mémoire, à l'alignement, à la cohérence factuelle et à l'interopérabilité entre systèmes.
L'analyse des représentations apprises présente un angle mort : elle se concentre sur la similarité, mesurant à quel point les plongements s'alignent sur des références externes, mais la similarité ne révèle que ce qui est représenté, et non si cette structure est robuste. Nous introduisons la stabilité géométrique, une dimension distincte qui quantifie la fiabilité avec laquelle la géométrie représentationnelle se maintient sous perturbation, et présentons Shesha, un cadre pour la mesurer. Sur 2 463 configurations dans sept domaines, nous montrons que la stabilité et la similarité sont empiriquement non corrélées (ρ ≈ 0,01) et mécanistiquement distinctes : les métriques de similarité s'effondrent après suppression des principales composantes, tandis que la stabilité conserve une sensibilité à la structure fine de la variété. Cette distinction produit des insights actionnables : pour la surveillance de la sécurité, la stabilité agit comme un signal d'alarme géométrique fonctionnel, détectant la dérive structurelle près de 2 fois plus sensiblement que le CKA tout en filtrant le bruit non fonctionnel qui déclenche de fausses alertes dans les métriques de distance rigides ; pour la contrôlabilité, la stabilité supervisée prédit la pilotabilité linéaire (ρ = 0,89-0,96) ; pour la sélection de modèles, la stabilité se dissocie de la transférabilité, révélant une taxe géométrique que l'optimisation du transfert engendre. Au-delà de l'apprentissage automatique, la stabilité prédit la cohérence des perturbations CRISPR et le couplage neuro-comportemental. En quantifiant la fiabilité avec laquelle les systèmes maintiennent leur structure, la stabilité géométrique fournit un complément nécessaire à la similarité pour auditer les représentations dans les systèmes biologiques et informatiques.
Les systèmes incarnés perçoivent le monde comme « une symphonie de flux » : une combinaison de multiples flux continus d'entrées sensorielles couplées au mouvement propre, entrelacés avec la dynamique des objets externes. Ces flux obéissent à des symétries lisses paramétrées dans le temps, qui se combinent via une algèbre structurellement précise ; pourtant, la plupart des modèles du monde par réseaux neuronaux ignorent cette structure et réapprennent répétitivement les mêmes transformations à partir des données. Dans ce travail, nous introduisons les « Modèles du Monde à Équivariance de Flux », un cadre dans lequel le mouvement propre et le mouvement des objets externes sont unifiés en tant que « flux » de groupes de Lie à un paramètre. Nous exploitons cette unification pour implémenter l'équivariance de groupe par rapport à ces transformations, fournissant ainsi une représentation latente stable du monde sur des centaines de pas de temps. Sur des benchmarks de modélisation du monde en vidéo partiellement observée en 2D et 3D, nous démontrons que les Modèles du Monde à Équivariance de Flux surpassent significativement les architectures de modélisation du monde comparables, basées sur la diffusion et augmentées par mémoire – particulièrement lorsque des dynamiques mondiales prévisibles existent en dehors du champ de vision actuel de l'agent. Nous montrons que l'équivariance de flux est particulièrement bénéfique pour les déploiements longs, généralisant bien au-delà de l'horizon d'entraînement. En structurant les représentations du modèle du monde par rapport au mouvement interne et externe, l'équivariance de flux trace une voie évolutive vers une intelligence incarnée, efficace en données et guidée par les symétries. Lien du projet : https://flowequivariantworldmodels.github.io.
Les modèles de langage de grande taille multimodaux (MLLM) réalisent des progrès significatifs dans le raisonnement multimodal. Les premières approches se concentraient sur un raisonnement purement textuel. Des études plus récentes ont incorporé des informations multimodales dans les étapes de raisonnement ; cependant, elles suivent souvent un schéma de raisonnement unique spécifique à une tâche, ce qui limite leur généralisabilité à diverses tâches multimodales. En réalité, de nombreuses tâches multimodales nécessitent des compétences de raisonnement diverses, telles que zoomer sur une région spécifique ou marquer un objet dans une image. Pour résoudre ce problème, nous proposons un raisonnement multimodal génératif unifié, qui unifie diverses compétences de raisonnement multimodal en générant des images intermédiaires durant le processus de raisonnement. Nous concrétisons ce paradigme avec Omni-R1, un cadre SFT+RL en deux étapes intégrant une perte d'alignement perceptif et une récompense perceptive, permettant ainsi une génération d'images fonctionnelle. De plus, nous présentons Omni-R1-Zero, qui élimine le besoin d'annotations multimodales en amorçant des visualisations étape par étape à partir de données de raisonnement textuel uniquement. Les résultats empiriques montrent qu'Omni-R1 atteint un raisonnement génératif unifié sur un large éventail de tâches multimodales, et qu'Omni-R1-Zero peut égaler voire surpasser Omni-R1 en moyenne, suggérant une voie prometteuse pour le raisonnement multimodal génératif.
L'amélioration des grands modèles de langage (LLM) par apprentissage par renforcement (RL) entraîne souvent une réduction de la diversité des sorties, compromettant ainsi leur utilité dans des tâches ouvertes comme l'écriture créative. Les méthodes actuelles manquent de mécanismes explicites pour guider une exploration diversifiée et privilégient plutôt l'efficacité d'optimisation et les performances au détriment de la diversité. Cet article propose un cadre de RL structuré autour d'une Chaîne de Pensée (CoT) longue et semi-structurée, dans laquelle le processus de génération est décomposé en étapes intermédiaires explicitement planifiées. Nous introduisons une méthode de Branchement de Planification Diversifiée qui introduit stratégiquement une divergence lors de la phase de planification en fonction de la variation de la diversité, ainsi qu'une récompense de diversité sensible au groupe pour encourager des trajectoires distinctes. Les résultats expérimentaux sur des benchmarks d'écriture créative démontrent que notre approche améliore significativement la diversité des sorties sans compromettre la qualité de la génération, surpassant constamment les méthodes de référence existantes.
La tâche de génération Image-vers-Vidéo (I2V) vise à synthétiser une vidéo à partir d'une image de référence et d'une instruction textuelle. Cela nécessite que les modèles de diffusion concilient des contraintes visuelles haute fréquence et un guidage textuel basse fréquence pendant le processus de débruitage. Cependant, si les modèles I2V existants privilégient la cohérence visuelle, la manière de coupler efficacement ce double guidage pour assurer une forte adhérence à l'instruction textuelle reste peu explorée. Dans ce travail, nous observons que dans les modèles I2V basés sur les Transformers de Diffusion (DiT), certaines couches intermédiaires présentent des réponses sémantiques faibles (appelées Couches à Sémantique Faible), comme l'indique une baisse mesurable de la similarité texte-visuel. Nous attribuons cela à un phénomène appelé Isolement des Conditions, où l'attention portée aux caractéristiques visuelles se détache partiellement du guidage textuel et repose excessivement sur des prérequis visuels appris. Pour résoudre ce problème, nous proposons le Guidage Focal (FG), qui améliore la contrôlabilité des Couches à Sémantique Faible. FG comprend deux mécanismes : (1) Le Guidage Sémantique Fin (FSG) utilise CLIP pour identifier les régions clés de l'image de référence et les utilise comme ancres pour guider les Couches à Sémantique Faible. (2) La Mémoire d'Attention transfère les cartes d'attention des couches sémantiquement réactives vers les Couches à Sémantique Faible, injectant des signaux sémantiques explicites et réduisant leur dépendance excessive aux prérequis visuels appris par le modèle, améliorant ainsi l'adhésion aux instructions textuelles. Pour valider davantage notre approche et combler le manque d'évaluation dans cette direction, nous introduisons un benchmark pour évaluer le suivi des instructions dans les modèles I2V. Sur ce benchmark, le Guidage Focal démontre son efficacité et sa généralisabilité, portant le score total sur Wan2.1-I2V à 0,7250 (+3,97 %) et faisant grimper le HunyuanVideo-I2V basé sur MMDiT à 0,5571 (+7,44 %).
L'apprentissage par renforcement (RL) offre une approche rigoureuse pour améliorer les capacités de raisonnement des grands modèles de langage, mais son efficacité dépend de signaux d'entraînement qui restent informatifs à mesure que les modèles évoluent. En pratique, les progrès du RL ralentissent souvent lorsque la difficulté des tâches est mal alignée avec les capacités du modèle, ou lorsque l'entraînement est dominé par un ensemble restreint de schémas problématiques récurrents. Pour résoudre conjointement ces problèmes, nous proposons SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), un cadre qui maintient des signaux d'apprentissage efficaces grâce à une conception adaptive de l'environnement. SCALER introduit un pipeline de synthèse évolutif qui convertit des problèmes de programmation réels en environnements de raisonnement vérifiables, avec une difficulté contrôlable et une génération illimitée d'instances, permettant un entraînement par RL au-delà des jeux de données finis tout en préservant de fortes garanties de correction. Sur cette base, SCALER utilise en outre une stratégie de RL multi-environnements adaptive qui ajuste dynamiquement la difficulté des instances et sélectionne l'ensemble actif des environnements pour suivre la frontière des capacités du modèle et maintenir une diversité distributionnelle. Cette co-adaptation prévient la rareté des récompenses, atténue le surajustement à des schémas de tâches étroits et soutient une amélioration soutenue tout au long de l'entraînement. Des expériences approfondies montrent que SCALER surpasse constamment les méthodes de référence basées sur des jeux de données dans divers benchmarks de raisonnement et présente une dynamique d'entraînement plus stable et à plus long terme.
Le renforcement de l'apprentissage guidé par la critique (RL) est devenu un paradigme puissant pour entraîner des agents LLM en enrichissant les récompenses de résultat éparses par des retours en langage naturel. Cependant, les méthodes actuelles reposent souvent sur des modèles critiques statiques ou hors ligne, qui ne s'adaptent pas à l'évolution de la politique. Dans le RL sur la politique, les schémas d'erreur de l'agent évoluent au fil du temps, ce qui rend les critiques stationnaires obsolètes et réduit l'utilité de leurs retours. Pour résoudre ce problème, nous présentons ECHO (Evolving Critic for Hindsight-Guided Optimization), un cadre qui optimise conjointement la politique et le critique grâce à une boucle co-évolutive synchronisée. ECHO utilise un mécanisme de déploiement en cascade où le critique génère plusieurs diagnostics pour une trajectoire initiale, suivis d'un raffinement de la politique permettant une estimation d'avantage à structure de groupe. Nous abordons le défi des plateaux d'apprentissage via un objectif de mise en forme du gain sensible à la saturation, qui récompense le critique pour avoir induit des améliorations incrémentielles dans les trajectoires à haute performance. En employant des mises à jour GRPO à double voie, ECHO garantit que les retours du critique restent synchronisés avec la politique évolutive. Les résultats expérimentaux montrent qu'ECHO permet un entraînement plus stable et un meilleur succès dans les tâches à long terme à travers des environnements en monde ouvert.
L'allocation de charge de travail en cluster nécessite souvent des configurations complexes, créant un déficit d'utilisabilité. Cet article présente un paradigme de planification sémantique et piloté par l'intention pour les systèmes en cluster utilisant le Traitement du Langage Naturel (TLN). Le système emploie un Grand Modèle de Langage (LLM) intégré via un module d'extension de planificateur Kubernetes pour interpréter des annotations d'indices d'allocation en langage naturel exprimant des préférences de soft affinity. Un prototype doté d'un cache d'état du cluster et d'un analyseur d'intention (utilisant AWS Bedrock) a été développé. L'évaluation empirique a démontré une grande précision d'analyse par le LLM (>95% de Subset Accuracy sur un jeu de données de référence) pour les modèles de premier plan comme Amazon Nova Pro/Premier et Mistral Pixtral Large, surpassant significativement un moteur de référence. Des tests de qualité de planification sur six scénarios ont montré que le prototype obtenait un placement supérieur ou équivalent par rapport aux configurations Kubernetes standard, excellant particulièrement dans les scénarios complexes et quantitatifs et dans la gestion de préférences souples conflictuelles. Les résultats valident l'utilisation des LLM pour une planification accessible mais soulignent des limitations comme la latence synchrone des LLM, suggérant un traitement asynchrone pour une mise en production. Ce travail confirme la viabilité de la soft affinity sémantique pour simplifier l'orchestration de la charge de travail.
Les grands modèles de langage produisent fréquemment des résumés plausibles mais infidèles que les utilisateurs ne peuvent pas vérifier par rapport au texte source, une limitation critique dans les domaines sensibles à la conformité comme l'analyse gouvernementale et juridique. Nous présentons sui-1, un modèle de 24 milliards de paramètres qui génère des résumés abstractifs avec des citations intégrées, permettant aux utilisateurs de retracer chaque affirmation à sa phrase source. Notre pipeline de données synthétiques combine l'incitation en chaîne de raisonnement avec une vérification multi-étapes, générant plus de 22 000 exemples d'entraînement de haute qualité dans cinq langues à partir de sources diverses incluant des documents parlementaires, du texte web et Wikipédia. L'évaluation montre que sui-1 surpasse significativement toutes les bases de référence open-weight testées, y compris des modèles ayant 3 fois plus de paramètres. Ces résultats démontrent qu'un entraînement spécifique à la tâche surpasse substantiellement la seule augmentation d'échelle pour la synthèse ancrée par des citations. Les poids du modèle et une démonstration interactive sont publiquement disponibles.
La qualité de la tokenisation par sous-mots est cruciale pour les grands modèles de langage, mais l'évaluation des tokenizers pour les langues ouraliennes morphologiquement riches est entravée par l'absence de lexiques morphématiques propres. Nous présentons SampoNLP, une boîte à outils sans corpus pour la création de lexiques morphologiques utilisant un score d'atomicité auto-référentiel inspiré du principe de longueur minimale de description (MDL), qui filtre les formes composites via des indices structurels internes – adapté aux contextes pauvres en ressources. En utilisant les lexiques de haute pureté générés par SampoNLP pour le finnois, le hongrois et l'estonien, nous menons une évaluation systématique des tokenizers BPE sur une gamme de tailles de vocabulaire (8k-256k). Nous proposons une métrique unifiée, le Score de Performance Intégré (IPS), pour naviguer le compromis entre la couverture morphématique et la sur-segmentation. En analysant les courbes IPS, nous identifions les "points de coude" de rendements décroissants et fournissons les premières recommandations empiriquement fondées pour les tailles de vocabulaire optimales (k) dans ces langues. Notre étude offre non seulement des conseils pratiques, mais démontre aussi quantitativement les limitations du BPE standard pour les langues hautement agglutinantes. La bibliothèque SampoNLP et toutes les ressources générées sont mises à disposition publiquement : https://github.com/AragonerUA/SampoNLP