papers.description
Les modèles de langage de grande taille (LLM) ont obtenu un succès remarquable dans la compréhension du code source, mais avec l'augmentation de l'échelle des systèmes logiciels, l'efficacité computationnelle est devenue un goulot d'étranglement critique. Actuellement, ces modèles s'appuient sur un paradigme textuel qui traite le code source comme une séquence linéaire de tokens, ce qui entraîne une augmentation linéaire de la longueur du contexte et des coûts computationnels associés. Les progrès rapides des LLM multimodaux (MLLM) ouvrent une opportunité d'optimiser l'efficacité en représentant le code source sous forme d'images rendues. Contrairement au texte, difficile à compresser sans perdre de sens sémantique, la modalité image est intrinsèquement adaptée à la compression. En ajustant la résolution, les images peuvent être réduites à une fraction de leur coût initial en tokens tout en restant reconnaissables par les modèles capables de traitement visuel. Pour explorer la faisabilité de cette approche, nous menons la première étude systématique sur l'efficacité des MLLM pour la compréhension du code. Nos expériences révèlent que : (1) les MLLM peuvent comprendre efficacement le code avec une réduction substantielle de tokens, atteignant jusqu'à 8x de compression ; (2) les MLLM peuvent exploiter efficacement des indices visuels tels que la coloration syntaxique, améliorant les performances de complétion de code sous une compression de 4x ; et (3) les tâches de compréhension du code comme la détection de clones présentent une résistance exceptionnelle à la compression visuelle, certains taux de compression surpassant même légèrement les entrées textuelles brutes. Nos résultats soulignent à la fois le potentiel et les limitations actuelles des MLLM dans la compréhension du code, indiquant une transition vers la représentation du code par modalité image comme voie vers une inférence plus efficace.
Les agents langagiers ont démontré un fort potentiel pour l'automatisation des tâches. La concrétisation de ce potentiel pour des tâches de plus en plus complexes et à long terme a favorisé l'émergence d'un paradigme de sous-agents-en-tant qu'outils pour la résolution de tâches multi-tours. Cependant, les conceptions existantes manquent encore d'une vue d'abstraction dynamique des sous-agents, ce qui nuit à l'adaptabilité. Nous relevons ce défi avec une abstraction d'agent unifiée et indépendante du framework, qui modélise tout agent comme un tuple Instruction, Contexte, Outils, Modèle. Ce tuple agit comme une recette compositionnelle de capacités, permettant au système de générer à la demande des exécuteurs spécialisés pour chaque tâche. S'appuyant sur cette abstraction, nous présentons un système agentiel, AOrchestra, où l'orchestrateur central concrétise le tuple à chaque étape : il organise le contexte pertinent pour la tâche, sélectionne les outils et les modèles, et délègue l'exécution via une création automatique d'agents à la volée. De telles conceptions permettent de réduire les efforts d'ingénierie humaine et restent indépendantes du framework avec un support plug-and-play pour divers agents en tant qu'exécuteurs de tâches. Elles permettent également un compromis contrôlable performance-coût, permettant au système de s'approcher de l'efficacité de Pareto. Sur trois benchmarks exigeants (GAIA, SWE-Bench, Terminal-Bench), AOrchestra obtient une amélioration relative de 16,28 % par rapport au plus solide des modèles de référence lorsqu'il est associé à Gemini-3-Flash. Le code est disponible à l'adresse : https://github.com/FoundationAgents/AOrchestra
Ce travail découle d'observations complémentaires antérieures sur la dynamique du raisonnement en chaîne (Chain-of-Thought, CoT) : il a été démontré que les grands modèles de langage (LLMs) planifient de manière latente les raisonnements ultérieurs avant l'émergence du CoT, réduisant ainsi l'importance du CoT explicite ; tandis que le CoT reste crucial pour les tâches nécessitant un raisonnement à multiples étapes. Pour approfondir la compréhension des liens entre les états internes des LLMs et leurs trajectoires de raisonnement verbalisées, nous étudions la capacité de planification latente des LLMs grâce à notre méthode de sondage, Tele-Lens, appliquée aux états cachés dans divers domaines de tâches. Nos résultats empiriques indiquent que les LLMs présentent un horizon myope, effectuant principalement des transitions incrémentales sans planification globale précise. En tirant parti de cette caractéristique, nous proposons une hypothèse pour améliorer l'estimation de l'incertitude du CoT, que nous validons en montrant qu'un petit sous-ensemble de positions du CoT peut représenter efficacement l'incertitude de l'ensemble du chemin. Nous soulignons en outre l'importance d'exploiter la dynamique du CoT et démontrons qu'une reconnaissance automatique du contournement du CoT peut être réalisée sans dégradation des performances. Notre code, nos données et nos modèles sont disponibles à l'adresse https://github.com/lxucs/tele-lens.
L'automatisation de la recherche en IA se distingue de l'ingénierie logicielle générale par une évaluation informatiquement coûteuse (par exemple, l'entraînement des modèles) et une attribution de performance opaque. Les agents actuels basés sur les LLM peinent dans ce contexte, générant souvent des scripts monolithiques qui ignorent les coûts d'exécution et les facteurs causaux. Nous présentons MARS (Modular Agent with Reflective Search), un cadre optimisé pour la recherche en IA autonome. MARS repose sur trois piliers : (1) une Planification Sensible au Budget via une recherche arborescente Monte Carlo (MCTS) sous contrainte de coût pour équilibrer explicitement performance et dépense d'exécution ; (2) une Construction Modulaire, employant un pipeline "Concevoir-Décomposer-Implémenter" pour gérer des référentiels de recherche complexes ; et (3) une Mémoire Réflexive Comparative, qui aborde l'attribution de crédit en analysant les différences entre les solutions pour distiller des insights à fort signal. MARS obtient des performances à l'état de l'art parmi les cadres open-source sur MLE-Bench dans des conditions comparables, restant compétitif avec les meilleures méthodes du classement général. De plus, le système présente qualitativement des moments "Eurêka !", où 63 % de toutes les leçons utilisées proviennent d'un transfert trans-branche, démontrant que l'agent généralise efficacement les insights à travers les chemins de recherche.
Bien que les modèles de langage à grande échelle (LLM) excellent dans les tâches à court terme, leur mise à l'échelle pour des flux de travail agentiques de long horizon reste difficile. Le principal goulot d'étranglement réside dans la rareté des données d'entraînement qui capturent des structures de dépendances longues authentiques et des dynamiques évolutives trans-étapes – les méthodes de synthèse existantes se limitent soit à des scénarios à caractéristique unique contraints par la distribution du modèle, soit entraînent des coûts d'annotation humaine prohibitifs, échouant à fournir une supervision évolutive et de haute qualité. Nous abordons ce problème en reconceptualisant la synthèse de données à travers le prisme de l'évolution réelle des logiciels. Notre idée clé : les séquences de Demandes de Pull (PR) incarnent naturellement les signaux de supervision pour l'apprentissage de long horizon. Elles décomposent des objectifs complexes en unités de soumission vérifiables, maintiennent une cohérence fonctionnelle entre les itérations et encodent des modèles de raffinement authentiques via les historiques de corrections de bogues. En nous appuyant là-dessus, nous proposons daVinci-Agency, qui extrait systématiquement une supervision structurée d'une chaîne de PR via trois mécanismes imbriqués : (1) la décomposition progressive des tâches via des commits continus, (2) le maintien de la cohérence à long terme grâce à des objectifs fonctionnels unifiés, et (3) le raffinement vérifiable à partir de trajectoires authentiques de corrections de bogues. Contrairement aux trajectoires synthétiques qui traitent chaque étape indépendamment, la structure ancrée dans les PR de daVinci-Agency préserve intrinsèquement les dépendances causales et les affinages itératifs essentiels pour enseigner un comportement persistant dirigé vers un but, et permet un alignement naturel avec la modélisation de tâches cycliques complètes au niveau du projet. Les trajectoires résultantes sont substantielles – en moyenne 85k tokens et 116 appels d'outils – mais remarquablement efficaces en données : le fine-tuning de GLM-4.6 sur seulement 239 échantillons de daVinci-Agency produit des améliorations généralisées sur divers benchmarks, atteignant notamment un gain relatif de 47% sur Toolathlon. Au-delà des performances sur les benchmarks, notre analyse confirme...
Les méthodes existantes pour le contrôle du mouvement humain dans la génération vidéo reposent généralement sur des poses 2D ou des modèles paramétriques 3D explicites (par exemple, SMPL) comme signaux de contrôle. Cependant, les poses 2D lient rigidement le mouvement au point de vue pilote, empêchant la synthèse de nouvelles vues. Les modèles 3D explicites, bien que structurellement informatifs, souffrent d'inexactitudes inhérentes (par exemple, l'ambiguïté de la profondeur et une dynamique imprécise) qui, lorsqu'elles sont utilisées comme une contrainte forte, supplantent la puissante conscience 3D intrinsèque des générateurs vidéo à grande échelle. Dans ce travail, nous revisitons le contrôle du mouvement sous un angle conscient de la 3D, en préconisant une représentation de mouvement implicite et indépendante de la vue qui s'aligne naturellement avec les préconceptions spatiales du générateur plutôt que de dépendre de contraintes reconstruites extérieurement. Nous présentons 3DiMo, qui entraîne conjointement un encodeur de mouvement avec un générateur vidéo préentraîné pour distiller les images pilotes en tokens de mouvement compacts et indépendants de la vue, injectés sémantiquement via une attention croisée. Pour favoriser la conscience 3D, nous entraînons avec une supervision riche en vues (c'est-à-dire des vidéos à vue unique, multi-vues et à caméra mobile), forçant la cohérence du mouvement à travers divers points de vue. De plus, nous utilisons une supervision géométrique auxiliaire qui exploite SMPL uniquement pour une initialisation précoce et est annulée jusqu'à zéro, permettant au modèle de passer d'un guidage 3D externe à l'apprentissage d'une compréhension authentique du mouvement spatial 3D à partir des données et des préconceptions du générateur. Les expériences confirment que 3DiMo reproduit fidèlement les mouvements pilotes avec un contrôle flexible de la caméra piloté par le texte, surpassant significativement les méthodes existantes tant en fidélité du mouvement qu'en qualité visuelle.
Les modèles du monde sont devenus une frontière cruciale dans la recherche en IA, visant à améliorer les grands modèles en les imprégnant de dynamiques physiques et de connaissances du monde. L'objectif central est de permettre aux agents de comprendre, prédire et interagir avec des environnements complexes. Cependant, le paysage de recherche actuel reste fragmenté, les approches se concentrant principalement sur l'injection de connaissances du monde dans des tâches isolées, telles que la prédiction visuelle, l'estimation 3D ou l'ancrage symbolique, plutôt que sur l'établissement d'une définition ou d'un cadre unifié. Bien que ces intégrations spécifiques à une tâche produisent des gains de performance, elles manquent souvent de la cohérence systématique nécessaire pour une compréhension holistique du monde. Dans cet article, nous analysons les limites de ces approches fragmentées et proposons une spécification de conception unifiée pour les modèles du monde. Nous suggérons qu'un modèle du monde robuste ne devrait pas être une collection disparate de capacités, mais un cadre normatif intégrant de manière cohérente l'interaction, la perception, le raisonnement symbolique et la représentation spatiale. Ce travail vise à fournir une perspective structurée pour orienter les recherches futures vers des modèles du monde plus généraux, robustes et fondés sur des principes.
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est apparu comme une approche clé pour améliorer le raisonnement des LLM. Cependant, les cadres standards comme l'Optimisation de Politique Relative par Groupe (GRPO) utilisent généralement un budget de déploiement uniforme, conduisant à une inefficacité des ressources. De plus, les méthodes adaptatives existantes reposent souvent sur des métriques au niveau de l'instance, comme les taux de réussite des tâches, sans parvenir à capturer l'état d'apprentissage dynamique du modèle. Pour résoudre ces limitations, nous proposons CoBA-RL, un algorithme d'apprentissage par renforcement conçu pour allouer de manière adaptative les budgets de déploiement en fonction de l'évolution des capacités du modèle. Plus précisément, CoBA-RL utilise une fonction de valeur axée sur les capacités pour mapper les tâches à leurs gains d'entraînement potentiels et emploie une stratégie gloutonne basée sur un tas pour auto-calibrer efficacement la distribution des ressources computationnelles vers les échantillons ayant une valeur d'entraînement élevée. Des expériences approfondies démontrent que notre approche orchestre efficacement le compromis entre exploration et exploitation, apportant des améliorations généralisées et constantes sur plusieurs benchmarks difficiles. Ces résultats soulignent que quantifier la valeur d'entraînement des échantillons et optimiser l'allocation du budget sont essentiels pour faire progresser l'efficacité du post-entraînement des LLM.
La distillation par correspondance de distribution (DMD) aligne un générateur multi-étapes avec sa contrepartie à faible nombre d'étapes pour permettre une génération de haute qualité à faible coût d'inférence. Cependant, la DMD a tendance à souffrir d'un effondrement des modes, car sa formulation basée sur la divergence KL inverse favorise intrinsèquement un comportement de recherche de mode. Les remèdes existants reposent généralement sur une régularisation perceptuelle ou antagoniste, entraînant ainsi une surcharge computationnelle substantielle et une instabilité de l'apprentissage. Dans ce travail, nous proposons un cadre de distillation à rôles séparés qui désentrelace explicitement les rôles des étapes distillées : la première étape est dédiée à la préservation de la diversité des échantillons via un objectif de prédiction cible (par exemple, la prédiction-v), tandis que les étapes suivantes se concentrent sur l'amélioration de la qualité sous la perte DMD standard, les gradients de l'objectif DMD étant bloqués à la première étape. Nous nommons cette approche DMD à Diversité Préservée (DP-DMD), laquelle, malgré sa simplicité – pas de réseau perceptuel, pas de discriminateur, pas de réseaux auxiliaires et pas d'images de vérité terrain supplémentaires – préserve la diversité des échantillons tout en maintenant une qualité visuelle comparable aux méthodes de pointe dans des expériences étendues de texte-à-image.
Les récents progrès des grands modèles de langage (LLM) ont permis aux agents d'ingénierie logicielle de s'attaquer à des tâches complexes de modification de code. La plupart des approches existantes reposent sur des retours d'exécution provenant d'environnements conteneurisés, qui nécessitent une configuration complète des dépendances et une exécution physique des programmes et des tests. Bien qu'efficace, ce paradigme est gourmand en ressources et difficile à maintenir, compliquant considérablement l'entraînement des agents et limitant leur extensibilité. Nous proposons SWE-World, un framework sans Docker qui remplace les environnements d'exécution physique par un substitut appris pour l'entraînement et l'évaluation des agents d'ingénierie logicielle. SWE-World exploite des modèles basés sur des LLM entraînés sur des données réelles d'interaction agent-environnement pour prédire les résultats d'exécution intermédiaires et les retours finaux des tests, permettant aux agents d'apprendre sans interagir avec des environnements conteneurisés physiques. Cette conception préserve la boucle d'interaction standard agent-environnement tout en éliminant le besoin de construction et de maintenance coûteuses des environnements lors de l'optimisation et de l'évaluation des agents. De plus, comme SWE-World peut simuler les résultats finaux d'évaluation des trajectoires candidates sans soumission réelle, il permet de sélectionner la meilleure solution parmi plusieurs tentatives au moment du test, facilitant ainsi une mise à l'échelle efficace au moment du test (TTS) dans les tâches d'ingénierie logicielle. Les expériences sur SWE-bench Verified démontrent que SWE-World améliore Qwen2.5-Coder-32B de 6,2 % à 52,0 % via un SFT sans Docker, à 55,0 % avec du RL sans Docker, et à 68,2 % avec un TTS supplémentaire. Le code est disponible à l'adresse https://github.com/RUCAIBox/SWE-World
Dans ce rapport technique, nous présentons SWE-Master, un cadre post-entraînement open source et entièrement reproductible pour construire des agents efficaces en génie logiciel. SWE-Master explore systématiquement l'ensemble du pipeline de développement d'agents, incluant la synthèse de trajectoires enseignantes et la curation des données, l'apprentissage par fine-tuning supervisé à long horizon, l'apprentissage par renforcement avec retour d'exécution réel, et la conception du cadre d'inférence. En partant d'un modèle de base open source ayant des capacités initiales limitées en génie logiciel, SWE-Master démontre comment une méthode d'optimisation systématique peut susciter de solides capacités de résolution de tâches complexes à long horizon. Nous évaluons SWE-Master sur SWE-bench Verified, un benchmark standard pour les tâches réalistes de génie logiciel. Dans des conditions expérimentales identiques, notre approche atteint un taux de résolution de 61,4 % avec Qwen2.5-Coder-32B, surpassant substantiellement les solutions open source existantes. En intégrant davantage la mise à l'échelle au moment du test (TTS) avec un retour d'environnement basé sur LLM, SWE-Master atteint 70,8 % à TTS@8, démontrant un fort potentiel de performance. SWE-Master fournit une base pratique et transparente pour faire progresser la recherche reproductible sur les agents de génie logiciel. Le code est disponible à l'adresse https://github.com/RUCAIBox/SWE-Master.
De nos jours, l'entraînement et l'évaluation des rapports générés par DeepResearch restent difficiles en raison de l'absence de signaux de récompense vérifiables. Par conséquent, l'évaluation par grille critériée est devenue une pratique courante. Cependant, les approches existantes reposent soit sur des grilles prédéfinies trop grossières manquant de granularité, soit sur des grilles spécifiques aux requêtes construites manuellement, ce qui est coûteux et difficile à généraliser. Dans cet article, nous proposons une méthode pour entraîner des générateurs de grilles d'évaluation spécifiques aux requêtes, alignés sur les préférences humaines et adaptés à la génération de rapports DeepResearch. Nous construisons d'abord un jeu de données de requêtes de style DeepResearch annotées avec des préférences humaines sur des paires de rapports, puis nous entraînons les générateurs de grilles via un apprentissage par renforcement avec une récompense hybride combinant une supervision des préférences humaines et une évaluation des grilles par modèle de langage. Pour mieux gérer le raisonnement à long terme, nous introduisons en outre un workflow à état Markovien multi-agent (MaMs) pour la génération de rapports. Nous démontrons empiriquement que nos générateurs de grilles fournissent une supervision plus discriminante et mieux alignée sur les préférences humaines que les stratégies de conception de grilles existantes. De plus, lorsqu'ils sont intégrés au cadre d'entraînement MaMs, les systèmes DeepResearch équipés de nos générateurs de grilles surpassent constamment toutes les solutions open-source de référence sur le DeepResearch Bench et atteignent des performances comparables à celles des modèles propriétaires leaders.
La pensée parallèle est apparue comme un paradigme prometteur pour le raisonnement, mais elle impose des charges computationnelles significatives. Les méthodes d'efficacité existantes reposent principalement sur des signaux locaux par trajectoire et manquent de mécanismes principiés pour exploiter la dynamique globale entre les branches parallèles. Nous introduisons le sondage 2D, une interface qui expose la dynamique largeur-profondeur de la pensée parallèle en sollicitant périodiquement des réponses intermédiaires de toutes les branches. Notre analyse révèle trois insights clés : une mise à l'échelle non monotone des allocations largeur-profondeur, des longueurs de branches de raisonnement hétérogènes et une stabilisation précoce du consensus global. Guidés par ces observations, nous présentons Parallel-Probe, un contrôleur sans apprentissage conçu pour optimiser la pensée parallèle en ligne. Parallel-Probe utilise un arrêt précoce basé sur le consensus pour réguler la profondeur de raisonnement et un élagage des branches basé sur la déviation pour ajuster dynamiquement la largeur. Des expériences approfondies sur trois benchmarks et plusieurs modèles démontrent que Parallel-Probe établit une frontière de Pareto supérieure pour la mise à l'échelle en temps de test. Par rapport au vote majoritaire standard, il réduit les jetons séquentiels jusqu'à 35,8 % et le coût total en jetons de plus de 25,8 % tout en maintenant une précision compétitive.
Les avancées récentes dans les modèles de récompense multimodaux ont significativement propulsé le développement de la génération visuelle. Les cadres existants adoptent généralement une modélisation des préférences de type Bradley-Terry ou exploitent des modèles de langage visuel génératifs comme juges, puis optimisent les modèles de génération visuelle par apprentissage par renforcement. Cependant, les modèles de récompense actuels souffrent de limitations inhérentes : ils suivent souvent un paradigme universel qui postule une distribution de préférences monolithique ou repose sur des grilles d'évaluation fixes. Par conséquent, ils sont insensibles aux indices visuels spécifiques au contenu, conduisant à un désalignement systématique avec les préférences humaines subjectives et contextuelles. Pour remédier à cela, en nous inspirant de l'évaluation humaine, nous proposons UnifiedReward-Flex, un modèle de récompense personnalisé unifié pour la génération visuelle qui couple la modélisation des récompenses à un raisonnement flexible et adaptatif au contexte. Plus précisément, étant donné une instruction et le contenu visuel généré, le modèle interprète d'abord l'intention sémantique et s'appuie sur des preuves visuelles, puis construit dynamiquement une évaluation hiérarchique en instanciant des critères granulaires sous des dimensions de haut niveau prédéfinies et auto-générées. Notre pipeline d'entraînement suit un processus en deux étapes : (1) nous distillons d'abord des traces de raisonnement structurées et de haute qualité à partir de modèles de langage visuel propriétaires avancés pour amorcer un fine-tuning supervisé, dotant le modèle de comportements de raisonnement flexibles et adaptatifs ; (2) nous effectuons ensuite une optimisation directe des préférences sur des paires de préférences soigneusement sélectionnées pour renforcer la fidélité du raisonnement et l'alignement discriminatif. Pour valuer l'efficacité, nous intégrons UnifiedReward-Flex dans le cadre GRPO pour la synthèse d'images et de vidéos, et des résultats approfondis démontrent sa supériorité.
Le reranking est un composant essentiel des systèmes de recherche modernes, qui associent généralement un récupérateur efficace de première étape à un modèle plus expressif pour affiner les résultats. Si les grands modèles de raisonnement ont permis des progrès rapides dans le reranking centré sur le texte, le reranking basé sur le raisonnement pour la recherche vidéo reste peu exploré. Pour combler cette lacune, nous présentons RANKVIDEO, un reranker basé sur le raisonnement pour la recherche vidéo qui raisonne explicitement sur des paires requête-vidéo en utilisant le contenu vidéo pour évaluer la pertinence. RANKVIDEO est entraîné selon un curriculum en deux étapes comprenant un réglage fin supervisé ancré dans la perception, suivi d'un entraînement au reranking combinant des objectifs de distillation pointwise, pairwise et de confiance de l'enseignant, le tout soutenu par un pipeline de synthèse de données pour construire des paires requête-vidéo intensives en raisonnement. Les expériences sur le benchmark à grande échelle MultiVENT 2.0 démontrent que RANKVIDEO améliore constamment les performances de recherche dans un cadre à deux étapes, produisant une amélioration moyenne de 31% sur nDCG@10 et surpassant les alternatives de reranking textuel et vision-langage, tout en étant plus efficace.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a fait progresser le raisonnement des LLM, mais reste limité par une exploration inefficace sous contrainte de budgets de déploiement limités, conduisant à un faible taux de succès d'échantillonnage et à un apprentissage instable dans les tâches complexes. Nous constatons que de nombreux échecs d'exploration ne proviennent pas de la difficulté du problème, mais d'un petit nombre de tokens d'invite qui introduisent des interférences. Forts de ce constat, nous proposons le cadre d'échantillonnage à moindre bruit (LENS), qui procède d'abord en identifiant et en supprimant les tokens interférents. Il transfère ensuite les déploiements réussis du processus de purification pour superviser l'optimisation de la politique sur les invites bruitées d'origine, permettant au modèle d'apprendre à ignorer les interférences dans des contextes d'invite réalistes et bruités. Les résultats expérimentaux montrent que LENS surpasse significativement GRPO, offrant de meilleures performances et une convergence plus rapide, avec un gain moyen de 3,88 % et une accélération supérieure à 1,6 fois. Notre travail souligne le rôle crucial de l'élagage des tokens interférents pour améliorer l'efficacité du déploiement, offrant une nouvelle perspective pour la recherche sur le RLVR.
L'intelligence de recherche évolue de la Recherche Profonde vers la Recherche Large, un paradigme essentiel pour récupérer et synthétiser des informations exhaustives sous contraintes complexes en parallèle. Cependant, les progrès dans ce domaine sont entravés par l'absence de benchmarks dédiés et de méthodologies d'optimisation pour l'élargissement de la recherche. Pour relever ces défis, nous explorons en profondeur la Recherche Large sous deux angles : le Pipeline de Données et l'Optimisation des Agents. Premièrement, nous produisons WideSeekBench, un benchmark général de recherche d'information large (GBIS) construit via un pipeline de données rigoureux en plusieurs phases pour garantir la diversité en termes de volume d'information cible, de contraintes logiques et de domaines. Deuxièmement, nous présentons WideSeek, une architecture hiérarchique dynamique à agents multiples pouvant générer automatiquement des sous-agents parallèles en fonction des exigences de la tâche. De plus, nous concevons un cadre d'entraînement unifié qui linéarise les trajectoires multi-agents et optimise le système grâce à l'apprentissage par renforcement (RL) de bout en bout. Les résultats expérimentaux démontrent l'efficacité de WideSeek et du RL multi-agents, soulignant que l'augmentation du nombre d'agents est une voie prometteuse pour faire progresser le paradigme de la Recherche Large.
Dans la modélisation générative discrète, deux paradigmes dominants présentent des capacités divergentes : les modèles de langage à diffusion masquée (MDLM) excellent dans la compréhension sémantique et la généralisation zero-shot, tandis que les modèles de langage à diffusion avec bruit uniforme (UDLM) atteignent une forte qualité de génération en peu d'étapes. Aucun des deux n'atteint cependant des performances équilibrées sur ces deux dimensions. Pour y remédier, nous proposons XDLM, qui unifie ces paradigmes via un noyau de bruit stationnaire. XDLM offre deux contributions majeures : (1) une unification théorique principiée des MDLM et UDLM, restaurant chaque paradigme comme cas particulier ; et (2) un goulot d'étranglement mémoire atténué grâce à une simplification algébrique des probabilités postérieures. Les expériences démontrent que XDLM repousse la frontière de Pareto entre capacité de compréhension et qualité de génération. Quantitativement, XDLM dépasse UDLM de 5,4 points sur des benchmarks textuels zero-shot et surpasse MDLM en génération d'images en peu d'étapes (FID 54,1 contre 80,8). Lorsqu'il est mis à l'échelle pour fine-tuner un grand modèle de langage de 8B paramètres, XDLM atteint 15,0 sur MBPP en seulement 32 étapes, doublant efficacement les performances de base. Enfin, l'analyse de la dynamique d'apprentissage révèle le potentiel supérieur de XDLM pour un scaling à long terme. Le code est disponible à l'adresse https://github.com/MzeroMiko/XDLM
Le paradigme de l'homotopie, principe général pour résoudre des problèmes complexes, apparaît dans divers domaines tels que l'optimisation robuste, l'optimisation globale, la recherche de racines polynomiales et l'échantillonnage. Les solveurs pratiques pour ces problèmes suivent généralement une structure prédicteur-correcteur (PC), mais reposent sur des heuristiques artisanales pour les tailles de pas et la terminaison des itérations, qui sont souvent sous-optimales et spécifiques à la tâche. Pour remédier à cela, nous unifions ces problèmes sous un cadre unique, permettant la conception d'un solveur neuronal général. Sur la base de cette vision unifiée, nous proposons le Prédicteur-Correcteur Neuronal (NPC), qui remplace les heuristiques artisanales par des politiques apprises automatiquement. NPC formule la sélection de politique comme un problème décisionnel séquentiel et utilise l'apprentissage par renforcement pour découvrir automatiquement des stratégies efficaces. Pour améliorer davantage la généralisation, nous introduisons un mécanisme d'entraînement amorti, permettant un entraînement hors ligne unique pour une classe de problèmes et une inférence en ligne efficace sur de nouvelles instances. Les expériences sur quatre problèmes d'homotopie représentatifs démontrent que notre méthode généralise efficacement à des instances non vues. Elle surpasse constamment les méthodes de référence classiques et spécialisées en efficacité tout en démontrant une stabilité supérieure across les tâches, soulignant la valeur de l'unification des méthodes d'homotopie dans un cadre neuronal unique.
La complexité quadratique de l'attention reste le principal goulot d'étranglement dans l'inférence à contexte long pour les grands modèles de langage. Les méthodes d'accélération antérieures soit éparsifient la carte d'attention avec des motifs structurés, soit suppriment définitivement des tokens à des couches spécifiques, ce qui peut conserver des tokens non pertinents ou reposer sur des décisions précoces irréversibles, malgré la dynamique variable par couche et par tête de l'importance des tokens. Dans cet article, nous proposons Token Sparse Attention, un mécanisme d'éparsification léger et dynamique au niveau des tokens qui compresse les Q, K, V par tête vers un ensemble réduit de tokens pendant l'attention, puis décompresse la sortie vers la séquence originale, permettant de reconsidérer l'information des tokens dans les couches suivantes. De plus, Token Sparse Attention introduit un nouveau point de conception à l'intersection de la sélection de tokens et de l'attention éparse. Notre approche est entièrement compatible avec les implémentations d'attention dense, y compris Flash Attention, et peut être composée de manière transparente avec les noyaux d'attention éparse existants. Les résultats expérimentaux montrent que Token Sparse Attention améliore constamment le compromis précision-latence, atteignant jusqu'à 3,23 fois d'accélération de l'attention pour un contexte de 128K avec une dégradation de précision inférieure à 1%. Ces résultats démontrent que l'éparsification dynamique et entrelacée au niveau des tokens est une stratégie complémentaire et efficace pour une inférence à contexte long évolutive.
Aider les utilisateurs non experts à développer des sites web interactifs complexes est devenu une tâche populaire pour les agents de code pilotés par des LLM. Cependant, les agents de code existants ont tendance à ne générer que des pages web frontend, masquant l'absence de traitement et de stockage de données full-stack réels par des effets visuels sophistiqués. De manière notable, la construction d'applications web full-stack de niveau production est bien plus complexe que la simple génération de pages frontend, exigeant un contrôle minutieux du flux de données, une compréhension exhaustive des packages et dépendances en constante évolution, et une localisation précise de bugs obscurs dans la base de code. Pour résoudre ces difficultés, nous présentons FullStack-Agent, un système d'agents unifié pour le codage agentique full-stack qui se compose de trois parties : (1) FullStack-Dev, un framework multi-agents doté de solides capacités de planification, d'édition de code, de navigation dans la base de code et de localisation de bugs. (2) FullStack-Learn, une méthode innovante de mise à l'échelle des données et d'auto-amélioration qui rétro-traduit des dépôts de sites web synthétisés et collectés pour améliorer le LLM de base de FullStack-Dev. (3) FullStack-Bench, un benchmark complet qui teste systématiquement les fonctionnalités frontend, backend et base de données du site web généré. Notre FullStack-Dev surpasse la méthode précédente de l'état de l'art de 8,7 %, 38,2 % et 15,9 % respectivement sur les cas de test frontend, backend et base de données. De plus, FullStack-Learn améliore les performances d'un modèle de 30B de 9,7 %, 9,5 % et 2,8 % sur les trois ensembles de tests grâce à l'auto-amélioration, démontrant l'efficacité de notre approche. Le code est disponible à l'adresse https://github.com/mnluzimu/FullStack-Agent.
La détermination d'un mélange de données efficace est un facteur clé dans le pré-entraînement des modèles de langage à grande échelle (LLM), où les modèles doivent équilibrer les compétences générales et la maîtrise de tâches complexes telles que les mathématiques et le code. Cependant, l'identification d'un mélange optimal reste un défi ouvert, car les approches existantes reposent soit sur des expériences proxy à petite échelle peu fiables, soit nécessitent une exploration à grande échelle prohibitivement coûteuse. Pour y remédier, nous proposons Decouple Searching from Training Mix (DeMix), un nouveau cadre qui exploite la fusion de modèles pour prédire les ratios de données optimaux. Au lieu d'entraîner des modèles proxy pour chaque mélange échantillonné, DeMix entraîne des modèles composants sur des ensembles de données candidats à grande échelle et dérive des proxies de mélange de données via une fusion de modèles pondérée. Ce paradigme découple la recherche des coûts d'entraînement, permettant d'évaluer un nombre illimité de mélanges échantillonnés sans charge d'entraînement supplémentaire et facilitant ainsi une meilleure découverte de mélanges grâce à davantage d'essais de recherche. Des expériences approfondies démontrent que DeMix brise le compromis entre exhaustivité, précision et efficacité, obtenant le mélange optimal avec de meilleures performances sur les benchmarks à un coût de recherche inférieur. De plus, nous publions le DeMix Corpora, un ensemble de données complet de 22 000 milliards de tokens comprenant des données de pré-entraînement de haute qualité avec des mélanges validés pour faciliter la recherche ouverte. Notre code et le DeMix Corpora sont disponibles à l'adresse https://github.com/Lucius-lsr/DeMix.
Le raisonnement multimodal adaptatif est apparu comme une frontière prometteuse dans les modèles vision-langage (VLM), visant à moduler dynamiquement entre le raisonnement visuel augmenté par outils et le raisonnement textuel pour améliorer à la fois l'efficacité et l'efficience. Cependant, les évaluations existantes reposent sur des étiquettes de difficulté statiques et des métriques simplistes, qui ne parviennent pas à capturer la nature dynamique de la difficulté relative aux capacités variables des modèles. Par conséquent, elles estompent la distinction entre la sélection de mode adaptative et les performances générales, tout en négligeant les analyses fines des processus. Dans cet article, nous proposons AdaptMMBench, un benchmark complet pour le raisonnement multimodal adaptatif couvrant cinq domaines : monde réel, OCR, interface graphique, connaissances et mathématiques, englobant à la fois des tâches de perception directe et de raisonnement complexe. AdaptMMBench utilise une métrique du coefficient de corrélation de Matthews (MCC) pour évaluer la rationalité de la sélection des différents modes de raisonnement, en isolant cette capacité de métacognition en identifiant dynamiquement les difficultés des tâches sur la base des limites de capacité des modèles. De plus, AdaptMMBench facilite l'évaluation processuelle multidimensionnelle à travers la couverture des étapes clés, l'efficacité des outils et l'efficacité computationnelle. Notre évaluation révèle que si la sélection de mode adaptative s'étend avec la capacité du modèle, elle se découple notablement de la précision finale. À l'inverse, la couverture des étapes clés est alignée avec les performances, bien que l'efficacité des outils reste très incohérente selon les architectures de modèles.
Comprendre la culture nécessite un raisonnement qui intègre le contexte, la tradition et les connaissances sociales implicites, bien au-delà de la simple mémorisation de faits isolés. Pourtant, la plupart des benchmarks de question-réponse (QR) axés sur la culture reposent sur des questions à saut unique, ce qui peut permettre aux modèles d'exploiter des indices superficiels plutôt que de démontrer une véritable compréhension culturelle. Dans ce travail, nous présentons ID-MoCQA, la première base de données de questions-réponses multi-sauts à grande échelle conçue pour évaluer la compréhension culturelle des grands modèles de langage (LLM), ancrée dans les traditions indonésiennes et disponible en anglais et en indonésien. Nous proposons un nouveau cadre qui transforme systématiquement des questions culturelles à saut unique en chaînes de raisonnement multi-sauts couvrant six types d'indices (par exemple, de bon sens, temporels, géographiques). Notre pipeline de validation en plusieurs étapes, combinant une revue d'experts et un filtrage par LLM-comme-juge, garantit des paires question-réponse de haute qualité. Notre évaluation sur des modèles de pointe révèle des lacunes importantes dans le raisonnement culturel, en particulier pour les tâches nécessitant une inférence nuancée. ID-MoCQA constitue un benchmark exigeant et essentiel pour faire progresser les compétences culturelles des LLM.
Les modèles vidéo autoregressifs prédisent les observations visuelles futures conditionnées par des actions. Bien qu'efficaces sur des horizons courts, ces modèles peinent souvent avec la génération à long terme, car les petites erreurs de prédiction s'accumulent dans le temps. Les méthodes existantes atténuent ce problème en introduisant des modèles enseignants pré-entraînés et un appariement de distribution au niveau séquentiel, ce qui engendre un coût computationnel supplémentaire et n'empêche pas la propagation des erreurs au-delà de l'horizon d'entraînement. Dans ce travail, nous proposons LIVE, un modèle vidéo interactif à long horizon qui impose une accumulation d'erreurs bornée via un nouvel objectif de cohérence cyclique, éliminant ainsi le besoin de distillation par modèle enseignant. Concrètement, LIVE effectue d'abord un déploiement avant à partir d'images réelles, puis applique un processus de génération inverse pour reconstruire l'état initial. La perte de diffusion est ensuite calculée sur l'état terminal reconstruit, fournissant une contrainte explicite sur la propagation des erreurs à long horizon. De plus, nous proposons une vue unifiée englobant différentes approches et introduisons un curriculum d'entraînement progressif pour stabiliser l'apprentissage. Les expériences démontrent que LIVE atteint des performances de pointe sur des benchmarks à long horizon, générant des vidéos stables et de haute qualité bien au-delà des longueurs de déploiement d'entraînement.
Le suivi de modalité désigne la capacité des modèles de langage multimodaux de grande taille (MLLM) à utiliser sélectivement les contextes multimodaux selon les instructions de l'utilisateur. Cette capacité est fondamentale pour garantir la sécurité et la fiabilité des déploiements en conditions réelles. Cependant, les mécanismes sous-jacents régissant ce processus décisionnel demeurent mal compris. Dans cet article, nous étudions son mécanisme de fonctionnement sous l'angle des flux d'information. Nos résultats révèlent que les tokens d'instruction fonctionnent comme des ancres structurelles pour l'arbitrage modalitaire : les couches d'attention superficielles effectuent un transfert d'information non sélectif, acheminant les indices multimodaux vers ces ancres sous forme de tampon latent ; la compétition modale est résolue dans les couches d'attention profondes guidées par l'intention de l'instruction, tandis que les couches MLP présentent une inertie sémantique, agissant comme une force antagoniste. De plus, nous identifions un ensemble restreint de têtes d'attention spécialisées qui pilotent cet arbitrage. Des interventions causales démontrent que la manipulation de seulement 5 % de ces têtes critiques peut réduire le taux de suivi modal de 60 % par blocage, ou l'augmenter de 60 % par amplification ciblée des échantillons défaillants. Notre travail constitue une avancée importante vers la transparence des modèles et propose un cadre principiel pour l'orchestration de l'information multimodale dans les MLLM.
La spécialisation des rôles dans les systèmes d'agents multi-LLM est souvent réalisée via une approche multi-LoRA, où les agents partagent une architecture pré-entraînée de base et ne diffèrent que par des adaptateurs légers. Bien qu'ils partagent les poids du modèle de base, chaque agent construit et stocke indépendamment son propre cache KV pour les mêmes longues trajectoires augmentées d'outils, ce qui engendre des surcharges mémoire et computationnelles substantielles. Les méthodes existantes de partage du cache KV négligent largement ce cadre multi-LoRA. Nous observons que, d'un agent à l'autre, les différences de cache sont dominées par les sorties des adaptateurs, tandis que les activations provenant du modèle de base partagé restent très similaires. Sur la base de cette observation, nous proposons LRAgent, un framework de partage du cache KV pour agents multi-LoRA qui décompose le cache en une composante de base partagée (issue des poids pré-entraînés) et une composante dépendante de l'adaptateur (issue des poids LoRA). LRAgent réduit la surcharge mémoire en partageant la composante de base et en stockant la composante adaptateur sous sa forme intrinsèquement low-rank (de faible rang). Il réduit également la surcharge computationnelle, rendue possible par les architectures multi-LoRA à attention partagée, en partageant également le cache low-rank et en évitant les calculs redondants pour les contextes déjà traités par d'autres agents. Pour reconstruire efficacement les contributions des adaptateurs à l'exécution, nous introduisons Flash-LoRA-Attention, un noyau qui réorganise le calcul d'attention pour éviter la matérialisation du cache low-rank en dimension complète. LRAgent atteint un débit et une latence du premier jeton proches de ceux d'un cache entièrement partagé, tout en préservant une précision proche de la ligne de base sans partage sur divers benchmarks de questions-réponses agentiques.
Le raisonnement intégré à la recherche permet aux agents linguistiques de transcender les connaissances paramétriques statiques en interrogeant activement des sources externes. Cependant, l'entraînement de ces agents par apprentissage par renforcement est entravé par le problème d'attribution de crédit multi-échelle : les méthodes existantes reposent généralement sur des récompenses éparses au niveau de la trajectoire, qui ne parviennent pas à distinguer un raisonnement de haute qualité d'une conjecture fortuite, conduisant à des comportements de recherche redondants ou trompeurs. Pour y remédier, nous proposons Search-R2, un nouveau cadre de collaboration Acteur-Raffineur qui améliore le raisonnement par une intervention ciblée, les deux composants étant optimisés conjointement pendant l'entraînement. Notre approche décompose le processus de génération en un Acteur, qui produit des trajectoires de raisonnement initiales, et un Méta-Raffineur, qui diagnostique et corrige sélectivement les étapes défectueuses via un mécanisme de « couper-et-regénérer ». Pour fournir un suivi granulaire, nous introduisons une conception de récompense hybride qui couple l'exactitude du résultat avec une récompense de processus dense quantifiant la densité informationnelle des preuves récupérées. Théoriquement, nous formalisons l'interaction Acteur-Raffineur comme une politique de mélissage lissée, démontrant que la correction sélective procure des gains de performance stricts par rapport aux bases de référence solides. Des expériences approfondies sur divers ensembles de données de questions-réponses générales et à sauts multiples montrent que Search-R2 surpasse constamment les bases de référence solides basées sur le RAG et l'apprentissage par renforcement, quelle que soit l'échelle des modèles, atteignant une précision de raisonnement supérieure avec une surcharge minimale.
À mesure que les modèles de langage de grande taille (LLM) passent d'ensembles d'entraînement soigneusement constitués à des environnements réels ouverts, une limitation fondamentale émerge : l'entraînement statique ne peut pas suivre le rythme des changements continus de l'environnement de déploiement. L'augmentation des capacités de calcul lors de l'entraînement et de l'inférence améliore les performances statiques, mais ne comble pas cet écart entre l'entraînement et le déploiement. Nous soutenons que pour résoudre cette limitation, un nouvel axe d'échelle est nécessaire : l'évolution. Les méthodes d'adaptation existantes au moment du déploiement, qu'il s'agisse de réglage fin paramétrique ou d'accumulation heuristique en mémoire, manquent de l'agentivité stratégique nécessaire pour diagnostiquer les échecs et produire des améliorations durables. Notre position est que l'évolution agentique représente l'avenir inévitable de l'adaptation des LLM, élevant l'évolution elle-même d'un pipeline fixe à un agent évolueur autonome. Nous concrétisons cette vision dans un cadre général, A-Evolve, qui traite l'amélioration en temps de déploiement comme un processus d'optimisation délibéré et orienté vers un but, agissant sur l'état persistant du système. Nous proposons en outre l'hypothèse de l'échelle d'évolution : la capacité d'adaptation augmente avec la puissance de calcul allouée à l'évolution, positionnant l'évolution agentique comme une voie évolutive vers une adaptation soutenue et ouverte dans le monde réel.
Nous présentons WorldVQA, un benchmark conçu pour évaluer les connaissances atomiques du monde visuel des Modèles de Langue Multimodaux (MLLM). Contrairement aux évaluations actuelles qui confondent souvent la récupération de connaissances visuelles avec le raisonnement, WorldVQA dissocie ces capacités pour mesurer strictement « ce que le modèle a mémorisé ». Le benchmark évalue la capacité atomique à ancrer et à nommer des entités visuelles selon une taxonomie stratifiée, allant des objets courants des classes principales aux raretés de la longue traîne. Nous attendons que WorldVQA serve de test rigoureux pour la factualité visuelle, établissant ainsi une norme pour évaluer l'étendue encyclopédique et les taux d'hallucination des modèles frontières actuels et de prochaine génération.
Les agents autonomes propulsés par de grands modèles de langage (LLM) promettent d'accélérer la découverte scientifique de bout en bout, mais évaluer rigoureusement leur capacité à effectuer des découvertes vérifiables reste un défi central. Les benchmarks existants sont confrontés à un compromis : ils reposent soit lourdement sur des évaluations par LLM-juge des productions de recherche générées automatiquement, soit optimisent des métriques de performance pratiques mais isolées qui ne constituent que des substituts grossiers à l'intuition scientifique. Pour combler cette lacune, nous présentons FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), un benchmark qui évalue les agents via la redécouverte de résultats établis issus de recherches récentes et influentes en apprentissage automatique. Les agents reçoivent uniquement une question de recherche de haut niveau extraite d'une étude publiée et vérifiée, et doivent explorer des idées, concevoir des expériences, implémenter du code, exécuter leurs plans et tirer des conclusions étayées par des preuves empiriques de manière autonome. Nous évaluons une gamme d'agents à la pointe de la technologie, reposant sur des LLM de frontière comme gpt-5, sur FIRE-Bench. Nos résultats montrent que la recherche scientifique en cycle complet reste difficile pour les systèmes d'agents actuels : même les agents les plus performants obtiennent un succès de redécouverte limité (<50 F1), présentent une variance élevée entre les exécutions et affichent des modes d'échec récurrents dans la conception expérimentale, l'exécution et le raisonnement fondé sur des preuves. FIRE-Bench fournit un cadre rigoureux et diagnostique pour mesurer les progrès vers une découverte scientifique fiable pilotée par des agents.
L'alignement d'objets avec leurs descriptions textuelles correspondantes est un défi fondamental et une exigence réaliste dans la compréhension vision-langage. Bien que les modèles d'embedding multimodaux récents excellent dans l'alignement global image-texte, ils peinent souvent avec l'alignement fin entre les régions de l'image et des phrases spécifiques. Dans ce travail, nous présentons ObjEmbed, un nouveau modèle d'embedding MLLM qui décompose l'image d'entrée en plusieurs embeddings régionaux, chacun correspondant à un objet individuel, ainsi que des embeddings globaux. Il prend en charge un large éventail de tâches de compréhension visuelle comme l'ancrage visuel, la recherche d'images locales et la recherche d'images globale. ObjEmbed possède trois propriétés clés : (1) Représentation orientée objet : Il capture à la fois les aspects sémantiques et spatiaux des objets en générant deux embeddings complémentaires pour chaque région : un embedding d'objet pour l'appariement sémantique et un embedding IoU qui prédit la qualité de localisation. Le score d'appariement final combine la similarité sémantique avec l'IoU prédite, permettant une recherche plus précise. (2) Polyvalence : Il gère de manière transparente les tâches au niveau de la région et au niveau de l'image. (3) Encodage efficace : Tous les objets d'une image, ainsi que l'image complète, sont encodés en une seule passe avant pour une haute efficacité. Des performances supérieures sur 18 benchmarks diversifiés démontrent sa forte discrimination sémantique.
Le dépistage pan-cancéreux dans les scanners tomodensitométriques à grande échelle reste un défi pour les méthodes d'IA existantes, principalement en raison de la difficulté à localiser divers types de petites lésions dans de grands volumes scanographiques. Le déséquilibre extrême entre le premier plan et l'arrière-plan empêche significativement les modèles de se concentrer sur les régions pathologiques, tandis qu'une attention redondante aux régions saines diminue non seulement l'efficacité mais augmente également les faux positifs. Inspirés par la stratégie diagnostique de coup d'œil et de focalisation des radiologues, nous introduisons GF-Screen, un cadre d'apprentissage par renforcement Glance and Focus pour le dépistage pan-cancéreux. GF-Screen utilise un modèle Glance pour localiser les régions pathologiques et un modèle Focus pour segmenter précisément les lésions, où les résultats de segmentation du modèle Focus sont utilisés pour récompenser le modèle Glance via l'apprentissage par renforcement (RL). Spécifiquement, le modèle Glance recadre un groupe de sous-volumes à partir du volume scanographique entier et apprend à sélectionner les sous-volumes contenant des lésions pour que le modèle Focus les segmente. Étant donné que l'opération de sélection est non différentiable pour l'entraînement à la segmentation, nous proposons d'utiliser les résultats de segmentation pour récompenser le modèle Glance. Pour optimiser le modèle Glance, nous introduisons un nouveau paradigme d'apprentissage relatif par groupe, qui utilise une comparaison relative au sein du groupe pour prioriser les prédictions à fort avantage et écarter les prédictions à faible avantage dans les groupes de sous-volumes, améliorant ainsi non seulement l'efficacité mais aussi réduisant les faux positifs. De cette manière, nous étendons efficacement pour la première fois les techniques de RL de pointe pour relever les défis spécifiques du dépistage pan-cancéreux. Des expériences approfondies sur 16 jeux de données internes et 7 externes couvrant 9 types de lésions ont démontré l'efficacité de GF-Screen. Notamment, GF-Screen mène le classement de validation publique du challenge pan-cancéreux MICCAI FLARE25, surpassant largement la solution championne de FLARE24 (+25,6% DSC et +28,2% NSD).
Récemment, la formation de grands modèles de langage (LLM) par apprentissage par renforcement (RL) pour des tâches du monde réel, telles que la génération de code itérative, a suscité un intérêt de recherche significatif. Bien que le RL en ligne tende à surpasser le RL hors ligne, son coût d'entraînement plus élevé et son instabilité entravent son adoption à grande échelle. Dans cet article, nous partons du constat que la génération de code itérative peut être formulée comme un processus de décision markovien récupérable en une étape et nous proposons l'apprentissage par bandits contextuels avec des trajectoires hors ligne (Cobalt), une nouvelle méthode qui combine les avantages du RL en ligne et hors ligne. Cobalt collecte d'abord des trajectoires de génération de code à l'aide d'un LLM de référence et les divise en trajectoires partielles servant d'invites contextuelles. Ensuite, pendant l'apprentissage en ligne par bandit, le LLM est entraîné à compléter chaque invite de trajectoire partielle via une génération de code en une seule étape. Cobalt surpasse deux méthodes de référence de RL itératif en ligne basées sur GRPO et VeRPO, et améliore considérablement les modèles R1-Distill 8B et Qwen3 8B avec des gains allant jusqu'à 9,0 et 6,2 points absolus de score Pass@1 sur LiveCodeBench. Par ailleurs, nous analysons les comportements de détournement de récompense en contexte (in-context reward hacking) des LLMs et enrichissons l'entraînement de Cobalt avec des trajectoires perturbées pour atténuer ce problème. Globalement, nos résultats démontrent que Cobalt est une solution prometteuse pour les tâches de prise de décision itérative comme la génération de code multi-tours. Notre code et nos données sont disponibles à l'adresse https://github.com/OSU-NLP-Group/cobalt.
Malgré les progrès récents des modèles vision-langage (VLM), les approches existantes échouent souvent à générer des réponses personnalisées basées sur les expériences spécifiques de l'utilisateur, car elles manquent de capacité à associer les entrées visuelles au contexte visuel-textuel accumulé par l'utilisateur. Nous formalisons cette problématique sous le nom de personnalisation visuelle contextualisée, qui nécessite la reconnaissance visuelle et la récupération textuelle des expériences visuelles personnalisées par les VLM lors de l'interprétation de nouvelles images. Pour résoudre ce problème, nous proposons CoViP, un cadre unifié qui traite la légende d'image personnalisée comme une tâche centrale pour la personnalisation visuelle contextualisée et améliore cette capacité grâce à un post-entraînement par apprentissage par renforcement et une génération augmentée par légendes. Nous introduisons en outre des évaluations diagnostiques qui excluent explicitement les solutions de raccourci textuel et vérifient si les VLM exploitent véritablement le contexte visuel. Des expériences approfondies démontrent que les VLM open-source et propriétaires existants présentent des limitations substantielles, tandis que CoViP améliore non seulement la légende d'image personnalisée mais produit aussi des gains holistiques across les tâches de personnalisation en aval. Ces résultats soulignent CoViP comme une étape cruciale pour permettre une personnalisation visuelle contextualisée robuste et généralisable.
Les modèles de langage de grande taille (LLM) et les modèles vision-langage (VLM) ont démontré des capacités remarquables. Cependant, leur déploiement est entravé par des coûts computationnels significatifs. Les méthodes existantes d'élagage structurel, bien qu'optimisées pour le matériel, souffrent souvent d'une dégradation importante de la précision. Dans cet article, nous soutenons que cet échec découle d'une approche d'élagage agnostique aux étapes, qui néglige les rôles asymétriques entre les phases de préremplissage (prefill) et de décodage (decode). En introduisant un mécanisme de porte virtuelle, notre analyse d'importance révèle que les couches profondes sont cruciales pour la prédiction du token suivant (décodage) mais largement redondantes pour l'encodage du contexte (préremplissage). En tirant parti de cette observation, nous proposons l'Élagage Uniquement en Préremplissage (POP), une stratégie d'inférence consciente des étapes qui omet en toute sécurité les couches profondes durant la phase de préremplissage, gourmande en calculs, tout en conservant le modèle complet pour la phase sensible du décodage. Pour permettre la transition entre les étapes, nous introduisons des projections Clé-Valeur (KV) indépendantes pour maintenir l'intégrité du cache, et une stratégie de gestion des limites pour garantir la précision du premier token généré. Des expériences approfondies sur Llama-3.1, Qwen3-VL et Gemma-3, couvrant diverses modalités, démontrent que POP atteint jusqu'à 1,37 fois d'accélération de la latence de préremplissage avec une perte de performance minimale, surmontant efficacement les limitations du compromis précision-efficacité des méthodes d'élagage structurel existantes.
L'ancrage d'interface utilisateur graphique (GUI) vise à traduire des instructions en langage naturel en coordonnées d'écran exécutables, permettant une interaction automatisée avec l'interface. Néanmoins, un ancrage incorrect peut entraîner des actions coûteuses et difficiles à inverser (par exemple, des approbations de paiement erronées), soulevant des préoccupations quant à la fiabilité des modèles. Dans cet article, nous présentons SafeGround, un cadre conscient de l'incertitude pour les modèles d'ancrage de GUI qui permet des prédictions sensibles au risque grâce à des étalonnages avant les tests. SafeGround tire parti d'une méthode de quantification d'incertitude sensible à la distribution pour capturer la dispersion spatiale d'échantillons stochastiques provenant des sorties de tout modèle donné. Ensuite, via le processus d'étalonnage, SafeGround dérive un seuil de décision au moment du test avec un contrôle statistiquement garanti du taux de fausses découvertes (FDR). Nous appliquons SafeGround à plusieurs modèles d'ancrage de GUI pour le benchmark exigeant ScreenSpot-Pro. Les résultats expérimentaux montrent que notre mesure d'incertitude surpasse systématiquement les bases de référence existantes pour distinguer les prédictions correctes des incorrectes, tandis que le seuil étalonné permet de manière fiable un contrôle rigoureux des risques et offre des potentiels d'améliorations substantielles de la précision au niveau du système. Sur plusieurs modèles d'ancrage de GUI, SafeGround améliore la précision au niveau du système jusqu'à 5,38 points de pourcentage par rapport à l'inférence utilisant uniquement Gemini.
Les progrès récents des grands modèles de langage (LLM) ouvrent de nouvelles voies pour accélérer la recherche scientifique. Si ces modèles sont de plus en plus capables d'assister dans les tâches routinières, leur capacité à contribuer à des découvertes mathématiques novatrices de niveau expert reste moins bien comprise. Nous présentons une série d'études de cas démontrant comment des chercheurs ont collaboré avec succès avec des modèles d'IA avancés, spécifiquement les modèles de Google basés sur Gemini (en particulier Gemini Deep Think et ses variantes avancées), pour résoudre des problèmes ouverts, réfuter des conjectures et générer de nouvelles preuves dans divers domaines de l'informatique théorique, ainsi que dans d'autres domaines tels que l'économie, l'optimisation et la physique. Forts de ces expériences, nous identifions des techniques communes pour une collaboration humain-IA efficace dans la recherche théorique, telles que l'affinage itératif, la décomposition des problèmes et le transfert de connaissances interdisciplinaires. Bien que la majorité de nos résultats proviennent de cette méthodologie interactive et conversationnelle, nous soulignons également des cas spécifiques qui vont au-delà des interfaces de chat standard. Ceux-ci incluent le déploiement du modèle en tant qu'examinateur antagoniste rigoureux pour détecter des failles subtiles dans des preuves existantes, et son intégration dans une boucle « neuro-symbolique » qui écrit et exécute de manière autonome du code pour vérifier des dérivations complexes. Ensemble, ces exemples soulignent le potentiel de l'IA non seulement en tant qu'outil d'automatisation, mais aussi en tant que partenaire polyvalent et authentique dans le processus créatif de la découverte scientifique.
La reconnaissance faciale préservant la vie privée par transformation (PPFR) vise à vérifier les identités tout en cachant les données faciales aux attaquants et aux fournisseurs de services malveillants. Les évaluations existantes considèrent principalement la confidentialité comme une résistance à la reconstruction au niveau pixel, mesurée par le PSNR et le SSIM. Nous démontrons que cette vision centrée sur la reconstruction est inadéquate. Nous présentons FaceLinkGen, une attaque par extraction d'identité qui effectue un appariement et une régénération faciale directement à partir des modèles protégés sans restaurer les pixels originaux. Sur trois systèmes PPFR récents, FaceLinkGen atteint une précision d'appariement supérieure à 98,5 % et un taux de réussite de régénération dépassant 96 %, et maintient des performances supérieures à 92 % en appariement et 94 % en régénération dans un scénario à connaissance quasi nulle. Ces résultats révèlent un écart structurel entre les métriques de distorsion pixel, largement utilisées dans l'évaluation PPFR, et la confidentialité réelle. Nous montrons que l'obscurcissement visuel laisse les informations d'identité largement exposées aux intrus externes et aux fournisseurs de services non fiables.
Les petits modèles de langage sont de plus en plus perçus comme une approche prometteuse et économique pour l'IA agentique, leurs partisans affirmant qu'ils sont suffisamment performants pour les flux de travail agentiques. Cependant, si les petits agents peuvent rivaliser avec les plus grands sur des tâches simples, on ignore encore comment leur performance évolue avec la complexité des tâches, quand les grands modèles deviennent nécessaires, et comment mieux exploiter les petits agents pour des charges de travail à long horizon. Dans ce travail, nous démontrons empiriquement que la performance des petits agents n'évolue pas avec la complexité des tâches dans les domaines de la recherche approfondie et du codage, et nous présentons SALE (Strategy Auctions for Workload Efficiency), un cadre agentique inspiré des plateformes de freelances. Dans SALE, les agents soumissionnent avec de brefs plans stratégiques, qui sont évalués par un mécanisme systématique coût-valeur et affinés via une mémoire d'enchères partagée, permettant un routage par tâche et une auto-amélioration continue sans entraîner un routeur distinct ni exécuter tous les modèles jusqu'à terme. Sur des tâches de recherche approfondie et de codage de complexité variable, SALE réduit la dépendance à l'agent le plus volumineux de 53%, diminue le coût global de 35%, et améliore constamment le pass@1 du plus grand agent avec seulement une surcharge négligeable au-delà de l'exécution de la trace finale. En revanche, les routeurs établis qui s'appuient sur des descriptions de tâches sont soit moins performants que le plus grand agent, soit ne réduisent pas les coûts – souvent les deux –, soulignant leur inadéquation aux flux de travail agentiques. Ces résultats suggèrent que si les petits agents peuvent être insuffisants pour les charges de travail complexes, ils peuvent être efficacement « augmentés » via une allocation coordonnée des tâches et une auto-amélioration en temps de test. Plus largement, ils militent pour une vision systémique de l'IA agentique où les gains de performance proviennent moins de modèles individuels toujours plus grands que de mécanismes de coordination inspirés des marchés, organisant des agents hétérogènes en écosystèmes efficaces et adaptatifs.
Dans ce travail, nous revisitons l'optimisation des Transformers sous l'angle de la géométrie du second ordre et établissons un lien direct entre la conception architecturale, l'échelle des activations, la matrice Hessienne et le taux d'apprentissage maximal tolérable. Nous introduisons une stratégie de normalisation simple, nommée SimpleNorm, qui stabilise par construction les échelles d'activation intermédiaires. Ensuite, en analysant le Hessien de la fonction de perte par rapport aux activations du réseau, nous montrons théoriquement que SimpleNorm réduit significativement la norme spectrale du Hessien, permettant ainsi l'utilisation de taux d'apprentissage stables plus élevés. Nous validons nos résultats théoriques par des expériences approfondies sur de grands modèles GPT aux échelles de 1B, 1,4B, 7B et 8B de paramètres. Empiriquement, SimpleGPT, notre réseau basé sur SimpleNorm, tolère des taux d'apprentissage 3 à 10 fois supérieurs à la norme standard, démontre systématiquement une forte stabilité d'optimisation et obtient des performances substantiellement meilleures que les bases de référence établies. Concrètement, lors de l'entraînement de modèles à l'échelle de 7B sur 60 000 pas, SimpleGPT atteint une perte d'entraînement inférieure de 0,08 à celle de LLaMA2 avec QKNorm, réduisant la perte de 2,290 à 2,208. Notre code source sera publié à l'adresse https://github.com/Ocram7/SimpleGPT.
Avec l'avènement des modèles de langage de grande taille (LLM), les agents polyvalents ont connu des avancées fondamentales. Cependant, leur évaluation présente des défis uniques qui les distinguent des benchmarks statiques de questions-réponses. Nous observons que les benchmarks actuels pour agents sont fortement biaisés par des facteurs externes, incluant les prompts système, les configurations d'outils et les dynamiques environnementales. Les évaluations existantes reposent souvent sur des cadres fragmentés et spécifiques aux chercheurs, où l'ingénierie de prompt pour le raisonnement et l'utilisation d'outils varie considérablement, rendant difficile l'attribution des gains de performance au modèle lui-même. De plus, l'absence de données environnementales standardisées entraîne des erreurs non traçables et des résultats non reproductibles. Ce manque de standardisation introduit une injustice substantielle et une opacité dans le domaine. Nous proposons qu'un cadre d'évaluation unifié est essentiel pour l'avancement rigoureux de l'évaluation des agents. À cette fin, nous introduisons une proposition visant à standardiser l'évaluation des agents.
La segmentation d'images médicales évolue des modèles spécifiques à une tâche vers des cadres généralisables. Des recherches récentes exploitent les modèles de langage multimodaux de grande taille (MLLM) en tant qu'agents autonomes, utilisant l'apprentissage par renforcement avec récompense vérifiable (RLVR) pour orchestrer des outils spécialisés comme le Segment Anything Model (SAM). Cependant, ces approches reposent souvent sur des stratégies d'interaction rigides en un seul tour et manquent de supervision au niveau du processus pendant l'entraînement, ce qui limite leur capacité à exploiter pleinement le potentiel dynamique des outils interactifs et conduit à des actions redondantes. Pour combler cette lacune, nous proposons MedSAM-Agent, un cadre qui reformule la segmentation interactive comme un processus décisionnel autonome en plusieurs étapes. Premièrement, nous introduisons une stratégie d'incitation hybride pour la génération de trajectoires expertes, permettant au modèle d'intérioriser des heuristiques décisionnelles similaires à celles des humains et des stratégies d'affinage adaptatives. De plus, nous développons un pipeline d'entraînement en deux étapes qui intègre une vérification des résultats multi-tours de bout en bout avec une conception de récompense de processus à fidélité clinique pour promouvoir la parcimonie interactionnelle et l'efficacité décisionnelle. Des expériences approfondies sur 6 modalités médicales et 21 jeux de données démontrent que MedSAM-Agent atteint des performances de pointe, unifiant efficacement le raisonnement médical autonome avec une optimisation itérative robuste. Le code est disponible {ici} : https://github.com/CUHK-AIM-Group/MedSAM-Agent.
Les interfaces cerveau-texte cliniques sont conçues pour les patients paralysés incapables de fournir des enregistrements d'entraînement extensifs. Le pré-entraînement améliore la généralisation avec peu de données en apprenant des prérequis statistiques entre sujets, mais ces prérequis dépendent crucialement du contexte. Alors que la parole naturelle peut se dérouler progressivement sur plusieurs minutes, la plupart des méthodes se pré-entraînent avec seulement quelques secondes de contexte. Nous proposons donc MEG-XL, un modèle pré-entraîné avec 2,5 minutes de contexte MEG par échantillon, soit 5 à 300 fois plus long que les travaux antérieurs, et équivalent à 191k tokens, capturant un contexte neuronal étendu. Après affinage pour la tâche de décodage de mots à partir de données cérébrales, MEG-XL atteint des performances supervisées avec une fraction des données (par exemple 1 heure contre 50 heures) et surpasse les modèles fondateurs en neuroimagerie. Nous constatons que les modèles pré-entraînés avec des contextes plus longs apprennent des représentations qui se transfèrent mieux au décodage de mots. Nos résultats indiquent que le pré-entraînement avec contexte long permet d'exploiter un contexte neuronal étendu que d'autres méthodes rejettent inutilement. Le code, les poids des modèles et les instructions sont disponibles à l'adresse https://github.com/neural-processing-lab/MEG-XL.
La recherche impliquant des données sensibles liées à la vie privée a toujours été limitée par la rareté des données, ce qui contraste fortement avec d'autres domaines ayant bénéficié de l'augmentation des volumes de données. Ce défi devient de plus en plus urgent alors que les agents d'IA modernes—tels qu'OpenClaw et Gemini Agent—obtiennent un accès persistant à des informations personnelles hautement sensibles. Pour résoudre ce goulot d'étranglement de longue date et les risques croissants, nous présentons Privasis (c'est-à-dire, oasis de confidentialité), le premier jeu de données entièrement synthétique à l'échelle du million, intégralement construit à partir de zéro—un vaste réservoir de textes contenant des informations privées riches et diversifiées—conçu pour élargir et accélérer la recherche dans les domaines où le traitement de données sociales sensibles est inévitable. Comparé aux jeux de données existants, Privasis, qui comprend 1,4 million d'enregistrements, offre une échelle plusieurs ordres de grandeur supérieure avec une qualité préservée, et une diversité bien plus grande couvrant différents types de documents, notamment les antécédents médicaux, les documents juridiques, les dossiers financiers, les agendas et les messages texte, avec un total de 55,1 millions d'attributs annotés tels que l'origine ethnique, la date de naissance, le lieu de travail, etc. Nous exploitons Privasis pour constituer un corpus parallèle pour l'anonymisation de texte grâce à notre pipeline qui décompose les textes et applique une anonymisation ciblée. Nos modèles compacts d'anonymisation (<=4B) entraînés sur ce jeu de données surpassent les grands modèles de langage les plus avancés, tels que GPT-5 et Qwen-3 235B. Nous prévoyons de publier les données, les modèles et le code pour accélérer les futures recherches sur les domaines et agents sensibles au respect de la vie privée.
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) repose généralement soit sur la capacité du modèle à échantillonner une solution correcte à renforcer, soit sur l'existence d'un modèle plus puissant capable de résoudre le problème. Cependant, de nombreux problèmes difficiles restent insolubles, même pour les modèles les plus avancés actuels, empêchant l'extraction de signaux d'apprentissage valides. Une alternative prometteuse consiste à exploiter des solutions humaines expertes de haute qualité, mais l'imitation naïve de ces données échoue car elle est fondamentalement hors distribution : les solutions expertes sont généralement didactiques, contenant des lacunes de raisonnement implicites destinées à des lecteurs humains plutôt qu'à des modèles computationnels. De plus, les solutions expertes de haute qualité sont coûteuses, nécessitant des méthodes d'apprentissage généralisables et efficaces en échantillons. Nous proposons l'Apprentissage par Imitation à Distribution Alignée (DAIL), une méthode en deux étapes qui comble l'écart distributionnel en transformant d'abord les solutions expertes en traces de raisonnement détaillées et dans la distribution, puis en appliquant un objectif contrastif pour concentrer l'apprentissage sur les insights et les méthodologies experts. Nous constatons que DAIL peut exploiter moins de 1000 solutions expertes de haute qualité pour obtenir des gains de 10 à 25 % en pass@k sur les modèles Qwen2.5-Instruct et Qwen3, améliorer l'efficacité du raisonnement d'un facteur 2 à 4, et permettre une généralisation hors domaine.
Un retour de haute qualité est essentiel pour une interaction homme-IA efficace. Il comble les lacunes de connaissances, corrige les digressions et façonne le comportement du système, tant durant l'interaction que tout au long du développement du modèle. Pourtant, malgré son importance, le retour humain fourni aux IA est souvent peu fréquent et de faible qualité. Cet écart motive un examen critique du retour humain lors des interactions avec les IA. Pour comprendre et surmonter les défis empêchant les utilisateurs de fournir un retour de haute qualité, nous avons mené deux études examinant la dynamique du retour entre les humains et les agents conversationnels. Notre étude formative, à travers le prisme des maximes de Grice, a identifié quatre obstacles au retour — le terrain d'entente, la vérifiabilité, la communication et l'informativité — qui empêchent les utilisateurs de fournir un retour de haute qualité. En nous appuyant sur ces résultats, nous dérivons trois desiderata de conception et montrons que les systèmes intégrant des supports alignés sur ces desiderata ont permis aux utilisateurs de fournir un retour de meilleure qualité. Enfin, nous détaillons un appel à l'action lancé à la communauté de l'IA en faveur de progrès dans les capacités des grands modèles de langage pour surmonter les obstacles au retour.
Les relations entre les objets et le langage sont fondamentales pour une communication significative entre les humains et l'IA, ainsi que pour une intelligence incarnée véritablement utile. Nous présentons HieraNav, une tâche de navigation vers un objectif multi-granularité et à vocabulaire ouvert, où des agents interprètent des instructions en langage naturel pour atteindre des cibles à quatre niveaux sémantiques : scène, pièce, région et instance. Pour ce faire, nous proposons LangMap (Language as a Map), un benchmark à grande échelle construit à partir de scans 3D intérieurs du monde réel, avec des annotations complètes vérifiées par des humains et des tâches couvrant ces niveaux. LangMap fournit des étiquettes de région, des descriptions de régions discriminantes, des descriptions d'instances discriminantes couvrant 414 catégories d'objets, et plus de 18 000 tâches de navigation. Chaque cible dispose de descriptions à la fois concises et détaillées, permettant une évaluation sur différents styles d'instruction. LangMap atteint une qualité d'annotation supérieure, surpassant GOAT-Bench de 23,8 % en précision discriminative en utilisant quatre fois moins de mots. Des évaluations complètes de modèles zero-shot et supervisés sur LangMap révèlent qu'un contexte plus riche et une mémoire améliorée augmentent le taux de succès, tandis que les objectifs à longue traîne, de petite taille, dépendants du contexte et éloignés, ainsi que l'achèvement multi-objectifs, restent des défis. HieraNav et LangMap établissent un banc d'essai rigoureux pour faire progresser la navigation incarnée pilotée par le langage. Projet : https://bo-miao.github.io/LangMap
Comprendre le fonctionnement des composants des transformateurs dans les LLMs est essentiel, car il est au cœur des récentes avancées technologiques en intelligence artificielle. Dans ce travail, nous revisitons les défis associés à l'interprétabilité des modules feed-forward (FFN) et proposons MemoryLLM, qui vise à découpler les FFN de l'auto-attention et nous permet d'étudier les FFN découplés comme une mémoire neuronale de récupération token-wise et indépendante du contexte. En détail, nous étudions comment les tokens d'entrée accèdent aux emplacements mémoire au sein des paramètres des FFN et l'importance de la mémoire des FFN pour différentes tâches en aval. MemoryLLM permet d'obtenir des FFN indépendants du contexte en les entraînant de manière isolée de l'auto-attention, directement à partir des embeddings de tokens. Cette approche permet de pré-calculer les FFN sous forme de tables de consultation token-wise (ToLs), autorisant un transfert à la demande entre la VRAM et le stockage, améliorant ainsi l'efficacité de l'inférence. Nous présentons également Flex-MemoryLLM, que nous positionnons entre une architecture de transformateur conventionnelle et MemoryLLM. Cette architecture comble l'écart de performance induit par l'entraînement des FFN avec des embeddings token-wise indépendants du contexte.
Les systèmes de recommandation multimodaux intègrent généralement le comportement des utilisateurs avec les données multimodales des articles, capturant ainsi des préférences utilisateur plus précises. Parallèlement, avec l'émergence des grands modèles (LM), la recommandation multimodale exploite de plus en plus leurs atouts en compréhension sémantique et raisonnement contextuel. Cependant, les représentations des LM sont intrinsèquement optimisées pour des tâches sémantiques générales, tandis que les modèles de recommandation reposent largement sur les caractéristiques d'identifiant (ID) uniques et éparses des utilisateurs/éléments. Les travaux existants négligent la divergence représentationnelle fondamentale entre les grands modèles et les systèmes de recommandation, entraînant des représentations multimodales incompatibles et des performances de recommandation sous-optimales. Pour combler cet écart, nous proposons RecGOAT, un cadre novateur mais simple d'alignement sémantique dual pour la recommandation multimodale améliorée par LLM, offrant une capacité d'alignement théoriquement garantie. RecGOAT utilise d'abord des réseaux à attention de graphe pour enrichir la sémantique collaborative en modélisant les relations article-article, utilisateur-article et utilisateur-utilisateur, en exploitant les représentations LM des utilisateurs/éléments et l'historique des interactions. De plus, nous concevons un cadre d'alignement multimodal-ID progressif à double granularité, qui réalise un alignement sémantique au niveau instance et au niveau distribution via un apprentissage contrastif cross-modal (CMCL) et un transport optimal adaptatif (OAT), respectivement. Théoriquement, nous démontrons que les représentations unifiées issues de notre cadre d'alignement présentent une cohérence et une exhaustivité sémantiques supérieures. Des expériences approfondies sur trois benchmarks publics montrent que notre RecGOAT atteint des performances de pointe, validant empiriquement nos intuitions théoriques. De plus, le déploiement sur une plateforme publicitaire en ligne à grande échelle confirme l'efficacité et l'évolutivité du modèle dans les scénarios de recommandation industrielle. Code disponible à l'adresse https://github.com/6lyc/RecGOAT-LLM4Rec.
De nombreux systèmes d'apprentissage automatique ont accès à plusieurs sources de preuves pour la même cible de prédiction, mais ces sources diffèrent souvent en fiabilité et en contenu informationnel selon les entrées. Dans la classification bioacoustique, l'identité d'une espèce peut être inférée à la fois à partir du signal acoustique et du contexte spatio-temporel tel que la localisation et la saison ; bien que l'inférence bayésienne motive une combinaison multiplicative des preuves, en pratique nous n'avons généralement accès qu'à des prédicteurs discriminatifs plutôt qu'à des modèles génératifs calibrés. Nous présentons Fusion sous Hypothèses Conditionnelles Indépendantes (FINCH), un cadre d'intégration de preuves log-linéaire adaptatif qui combine un classifieur audio pré-entraîné avec un prédicteur spatio-temporel structuré. FINCH apprend une fonction d'activation par échantillon qui estime la fiabilité de l'information contextuelle à partir de statistiques d'incertitude et de contenu informationnel. La famille de fusion résultante contient le classifieur audio seul comme cas particulier et borne explicitement l'influence des preuves contextuelles, produisant une classe d'hypothèses à risque contrôlé avec une solution de repli interprétable basée uniquement sur l'audio. Sur divers benchmarks, FINCH surpasse systématiquement la fusion à poids fixes et les modèles de référence audio seuls, améliorant la robustesse et les compromis d'erreur même lorsque l'information contextuelle est faible isolément. Nous obtenons des performances à l'état de l'art sur CBI et des performances compétitives ou améliorées sur plusieurs sous-ensembles de BirdSet en utilisant une approche légère, interprétable et fondée sur les preuves. Le code est disponible : \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{dépôt-anonyme}
Le cache clé-valeur (KV) des modèles de langage de grande taille (LLM) est basé sur les préfixes, ce qui le rend très inefficace pour traiter des contextes récupérés dans un ordre arbitraire. Le cache indépendant de la position (PIC) a été proposé pour permettre la réutilisation du KV sans contraintes positionnelles ; cependant, les approches existantes entraînent souvent une dégradation substantielle de la précision, limitant leur adoption pratique. Pour résoudre ce problème, nous proposons le PIC natif en réintroduisant l'encodeur dans les LLM décoder-only prédominants et en l'entraînant explicitement à prendre en charge le PIC. Nous développons également COMB, un système de cache compatible PIC qui s'intègre de manière transparente aux infrastructures d'inférence existantes. Les résultats expérimentaux montrent que COMB réduit le temps jusqu'au premier jeton (TTFT) de 51 à 94 % et augmente le débit d'un facteur 3 avec une précision comparable. De plus, l'amélioration de la qualité observée avec DeepSeek-V2-Lite-Chat démontre l'applicabilité de COMB à d'autres types de LLM décoder-only. Notre code est disponible à l'adresse https://github.com/shijuzhao/Comb.