Articles de recherche IA sélectionnés quotidiennement avec traductions
Bien que les modèles de langage par diffusion (DLM) évoluent rapidement, de nombreux modèles récents convergent vers un ensemble de composants partagés. Cependant, ces composants sont dispersés dans des bases de code de recherche ad hoc ou manquent d'implémentations transparentes, ce qui les rend difficiles à reproduire ou à étendre. Alors que le domaine accélère, il existe un besoin clair pour un cadre unifié qui standardise ces composants communs tout en restant suffisamment flexible pour prendre en charge de nouvelles méthodes et architectures. Pour combler cette lacune, nous présentons dLLM, un cadre open-source qui unifie les composants centraux de la modélisation du langage par diffusion — l'entraînement, l'inférence et l'évaluation — et les rend faciles à personnaliser pour de nouvelles conceptions. Avec dLLM, les utilisateurs peuvent reproduire, affiner, déployer et évaluer des grands DLM open-source tels que LLaDA et Dream via un pipeline standardisé. Le framework fournit également des recettes minimales et reproductibles pour construire des petits DLM à partir de zéro avec une puissance de calcul accessible, y compris la conversion de tout encodeur de style BERT ou modèle de langage autorégressif en DLM. Nous publions également les points de contrôle de ces petits DLM pour rendre les DLM plus accessibles et accélérer la recherche future.
L'optimisation des kernels GPU est fondamentale pour l'apprentissage profond moderne mais reste une tâche hautement spécialisée nécessitant une expertise matérielle approfondie. Malgré de solides performances en programmation générale, les grands modèles de langage (LLM) restent non compétitifs face aux systèmes basés sur des compilateurs comme torch.compile pour la génération de kernels CUDA. Les approches existantes de génération de code CUDA reposent soit sur un raffinement sans apprentissage, soit sur un affinage des modèles dans des boucles d'exécution-feedback multi-tours fixes, mais ces deux paradigmes échouent à améliorer fondamentalement la capacité intrinsèque d'optimisation CUDA du modèle, entraînant des gains de performance limités. Nous présentons CUDA Agent, un système d'apprentissage par renforcement agentique à grande échelle qui développe une expertise en kernels CUDA via trois composants : un pipeline synthèse de données scalable, un environnement de développement CUDA enrichi de compétences avec vérification et profilage automatisés pour fournir des signaux de récompense fiables, et des techniques algorithmiques d'apprentissage par renforcement permettant un entraînement stable. CUDA Agent obtient des résultats state-of-the-art sur KernelBench, offrant des taux respectivement 100%, 100% et 92% plus rapides que torch.compile sur les sous-ensembles Niveau-1, Niveau-2 et Niveau-3 de KernelBench, surpassant les modèles propriétaires les plus performants comme Claude Opus 4.5 et Gemini 3 Pro d'environ 40% sur le scénario le plus difficile (Niveau-3).
Les récents progrès en génération d'images à partir de texte ont considérablement amélioré la fidélité visuelle et la créativité, mais ils ont également imposé des exigences plus élevées quant à la complexité des invites - particulièrement pour encoder des relations spatiales complexes. Dans de tels cas, obtenir des résultats satisfaisants nécessite souvent plusieurs tentatives d'échantillonnage. Pour relever ce défi, nous présentons une méthode novatrice qui renforce la compréhension spatiale des modèles actuels de génération d'images. Nous construisons d'abord le SpatialReward-Dataset contenant plus de 80 000 paires de préférences. Sur la base de cet ensemble de données, nous développons SpatialScore, un modèle de récompense conçu pour évaluer la précision des relations spatiales dans la génération d'images à partir de texte, atteignant des performances qui surpassent même les modèles propriétaires leaders en évaluation spatiale. Nous démontrons en outre que ce modèle de récompense permet efficacement un apprentissage par renforcement en ligne pour la génération spatiale complexe. Des expériences approfondies sur plusieurs benchmarks montrent que notre modèle de récompense spécialisé produit des gains significatifs et cohérents dans la compréhension spatiale pour la génération d'images.
La fiabilité de l'évaluation des modèles de langage de grande taille (LLM) multilingues est actuellement compromise par la qualité inégale des benchmarks traduits. Les ressources existantes souffrent souvent de dérive sémantique et de perte de contexte, ce qui peut conduire à des métriques de performance trompeuses. Dans ce travail, nous présentons un cadre entièrement automatisé conçu pour relever ces défis en permettant une traduction évolutive et de haute qualité des jeux de données et des benchmarks. Nous démontrons que l'adaptation des stratégies de mise à l'échelle du calcul au moment du test, spécifiquement l'Auto-amélioration Universelle (USI) et notre méthode de classement multi-tours proposée, T-RANK, permet d'obtenir des résultats de qualité nettement supérieure par rapport aux pipelines traditionnels. Notre cadre garantit que les benchmarks préservent leur structure de tâche originale et leurs nuances linguistiques lors de la localisation. Nous appliquons cette approche pour traduire des benchmarks et jeux de données populaires en huit langues d'Europe orientale et méridionale (ukrainien, bulgare, slovaque, roumain, lituanien, estonien, turc, grec). Les évaluations utilisant à la fois des métriques de référence et la méthode LLM-comme-juge montrent que nos traductions surpassent les ressources existantes, permettant une évaluation plus précise des modèles en aval. Nous publions à la fois le cadre et les benchmarks améliorés pour faciliter le développement d'une IA multilingue robuste et reproductible.
La génération de vidéos à l'échelle, passant de quelques secondes à plusieurs minutes, se heurte à un goulot d'étranglement critique : si les données de vidéos courtes sont abondantes et de haute fidélité, les données longues et cohérentes sont rares et limitées à des domaines restreints. Pour y remédier, nous proposons un paradigme d'entraînement où la Recherche de Mode rencontre la Recherche de Moyenne, découplant la fidélité locale de la cohérence à long terme grâce à une représentation unifiée via un Transformeur à Diffusion Découplé. Notre approche utilise une tête d'Appariement de Flux globale, entraînée par apprentissage supervisé sur de longues vidéos pour capturer la structure narrative, tout en employant simultanément une tête d'Appariement de Distribution locale qui aligne des fenêtres glissantes sur un enseignant de vidéos courtes figé via une divergence inverse de Kullback-Leibler favorisant le mode. Cette stratégie permet la synthèse de vidéos à l'échelle de la minute qui apprend la cohérence et les mouvements à longue portée à partir d'un nombre limité de vidéos longues via l'appariement de flux supervisé, tout en héritant du réalisme local en alignant chaque segment de fenêtre glissante de l'élève sur un enseignant de vidéos courtes figé, aboutissant à un générateur de vidéos longues rapide en peu d'étapes. Les évaluations montrent que notre méthode réduit efficacement l'écart fidélité-horizon en améliorant conjointement la netteté locale, le mouvement et la cohérence à long terme. Site du projet : https://primecai.github.io/mmm/.
Le décodage spéculatif accélère l'inférence des grands modèles de langage (LLM) autorégressifs en utilisant un modèle "brouillon" léger pour proposer des tokens candidats qui sont ensuite vérifiés en parallèle par le modèle cible. L'accélération obtenue dépend significativement du taux d'acceptation, mais l'apprentissage standard minimise la divergence de Kullback-Leibler (KL) comme objectif indirect. Bien que la divergence de KL et le taux d'acceptation partagent le même optimum global, les petits modèles brouillons, ayant une capacité limitée, convergent généralement vers des solutions sous-optimales où minimiser la divergence de KL ne garantit pas de maximiser le taux d'acceptation. Pour résoudre ce problème, nous proposons les pertes LK, des objectifs d'apprentissage spéciaux qui ciblent directement le taux d'acceptation. Des expériences complètes sur quatre architectures de modèles brouillons et six modèles cibles, allant de 8B à 685B de paramètres, démontrent des améliorations constantes des métriques d'acceptation dans toutes les configurations par rapport à l'apprentissage standard basé sur la divergence de KL. Nous évaluons notre approche dans les domaines généraux, du codage et des mathématiques et rapportons des gains allant jusqu'à 8-10% dans la longueur d'acceptation moyenne. Les pertes LK sont faciles à implémenter, n'introduisent aucune surcharge computationnelle et peuvent être intégrées directement dans tout cadre d'apprentissage de spéculateur existant, ce qui en fait une alternative convaincante aux objectifs d'apprentissage de modèles brouillons actuels.
La recherche scientifique repose sur des citations précises pour l'attribution et l'intégrité, mais les grands modèles de langage (LLM) introduisent un nouveau risque : des références fabriquées qui semblent plausibles mais ne correspondent à aucune publication réelle. De telles citations hallucinées ont déjà été observées dans des soumissions et des articles acceptés lors de grandes conférences en apprentissage automatique, exposant des vulnérabilités dans l'évaluation par les pairs. Parallèlement, la croissance rapide des listes de références rend la vérification manuelle impraticable, et les outils automatisés existants restent fragiles face aux formats de citation bruités et hétérogènes et manquent d'évaluation standardisée. Nous présentons le premier benchmark complet et cadre de détection pour les citations hallucinées dans l'écriture scientifique. Notre pipeline de vérification multi-agents décompose la vérification des citations en extraction d'affirmation, récupération de preuves, appariement de passages, raisonnement et jugement calibré pour évaluer si une source citée soutient véritablement son affirmation. Nous construisons un jeu de données à grande échelle validé par des humains couvrant plusieurs domaines et définissons des métriques unifiées pour la fidélité des citations et l'alignement des preuves. Les expériences avec les LLM de pointe révèlent des erreurs de citation substantielles et montrent que notre cadre surpasse significativement les méthodes antérieures en précision et interprétabilité. Ce travail fournit la première infrastructure évolutive pour auditer les citations à l'ère des LLM et des outils pratiques pour améliorer la fiabilité des références scientifiques.
La généralisation compositionnelle, capacité à reconnaître des éléments familiers dans des contextes nouveaux, est une propriété déterminante des systèmes intelligents. Bien que les modèles modernes soient entraînés sur des jeux de données massifs, ceux-ci ne couvrent qu'une infime fraction de l'espace combinatoire des entrées possibles, ce qui soulève la question de la structure que doivent avoir les représentations pour soutenir une généralisation à des combinaisons non vues. Nous formalisons trois desiderata pour la généralisation compositionnelle dans un cadre d'entraînement standard (divisibilité, transférabilité, stabilité) et montrons qu'ils imposent des contraintes géométriques nécessaires : les représentations doivent se décomposer linéairement en composantes par concept, et ces composantes doivent être orthogonales entre les concepts. Cela fournit un fondement théorique à l'hypothèse de la représentation linéaire : la structure linéaire largement observée dans les représentations neuronales est une conséquence nécessaire de la généralisation compositionnelle. Nous dérivons en outre des bornes dimensionnelles reliant le nombre de concepts composables à la géométrie de l'embedding. Empiriquement, nous évaluons ces prédictions sur des modèles de vision modernes (CLIP, SigLIP, DINO) et constatons que les représentations présentent une factorisation linéaire partielle avec des facteurs par concept de faible rang et quasi orthogonaux, et que le degré de cette structure corrèle avec la généralisation compositionnelle sur des combinaisons non vues. À mesure que les modèles gagnent en échelle, ces conditions prédisent la géométrie représentationnelle vers laquelle ils pourraient converger. Le code est disponible à l'adresse https://github.com/oshapio/necessary-compositionality.
La mémorabilité des images, c'est-à-dire la probabilité qu'une image soit mémorisée, a traditionnellement été étudiée en vision par ordinateur soit comme une tâche de prédiction passive, où des modèles régressent un score scalaire, soit par des méthodes génératives modifiant l'entrée visuelle pour augmenter la probabilité que l'image soit retenue. Pourtant, aucun de ces paradigmes ne soutient les utilisateurs au moment de la capture, lorsque la question cruciale est de savoir comment améliorer la mémorabilité d'une photo. Nous introduisons la tâche de Retour sur la Mémorabilité (MemFeed), où un modèle automatisé doit fournir des conseils actionnables et interprétables par l'humain dans le but d'améliorer le rappel futur d'une image. Nous présentons également MemCoach, la première approche conçue pour fournir des suggestions concrètes en langage naturel pour l'amélioration de la mémorabilité (par exemple, « mettez l'accent sur l'expression faciale », « rapprochez le sujet »). Notre méthode, basée sur les Modèles de Langage Multimodaux de Grande Taille (MLLM), ne nécessite pas d'entraînement et utilise une stratégie de pilotage de type maître-élève, alignant les activations internes du modèle vers des motifs plus mémorables appris d'un modèle « maître » progressant le long d'échantillons allant du moins au plus mémorable. Pour permettre une évaluation systématique de cette nouvelle tâche, nous introduisons en outre MemBench, un nouveau benchmark comprenant des séries de photos alignées séquentiellement avec des scores de mémorabilité annotés. Nos expériences, considérant plusieurs MLLM, démontrent l'efficacité de MemCoach, montrant une amélioration constante des performances par rapport à plusieurs modèles zero-shot. Les résultats indiquent que la mémorabilité peut non seulement être prédite, mais aussi enseignée et instruite, déplaçant l'accent de la simple prédiction vers un retour actionnable pour les créateurs humains.
L'apprentissage contrastif est devenu une pierre angulaire de l'apprentissage de représentations moderne, permettant un entraînement avec des données non étiquetées massives pour des modèles spécifiques à une tâche comme pour des modèles généraux (de fondation). Une fonction de perte prototypique dans l'entraînement contrastif est InfoNCE et ses variantes. Dans ce travail, nous montrons que l'objectif InfoNCE induit une structure gaussienne dans les représentations qui émergent de l'apprentissage contrastif. Nous établissons ce résultat dans deux régimes complémentaires. Premièrement, nous montrons que sous certaines hypothèses d'alignement et de concentration, les projections de la représentation en haute dimension approchent asymptotiquement une distribution gaussienne multivariée. Ensuite, sous des hypothèses moins strictes, nous montrons qu'ajouter un petit terme de régularisation, asymptotiquement négligeable, qui favorise une faible norme des caractéristiques et une entropie élevée des caractéristiques, conduit à des résultats asymptotiques similaires. Nous étayons notre analyse par des expériences sur des ensembles de données synthétiques et CIFAR-10 avec diverses architectures et tailles d'encodeurs, démontrant un comportement gaussien cohérent. Cette perspective fournit une explication principielle pour la gaussianité couramment observée dans les représentations contrastives. Le modèle gaussien qui en résulte permet un traitement analytique principiel des représentations apprises et devrait soutenir un large éventail d'applications dans l'apprentissage contrastif.
La compréhension d'expressions référentielles (REC) relie le langage à la perception visuelle au niveau régional. Les benchmarks standards (RefCOCO, RefCOCO+, RefCOCOg) ont progressé rapidement avec les LLMs multimodaux mais constituent toujours des tests faibles en raisonnement visuel et ancrage : (i) de nombreuses expressions sont très courtes, laissant peu de demande de raisonnement ; (ii) les images contiennent souvent peu de distracteurs, rendant la cible facile à trouver ; et (iii) les descripteurs redondants permettent des solutions de contournement qui évitent une compréhension textuelle et un raisonnement visuel authentiques. Nous présentons Ref-Adv, un benchmark REC moderne qui supprime les raccourcis en associant des expressions linguistiquement non triviales à uniquement les informations nécessaires pour identifier de manière unique la cible. Le jeu de données contient des expressions référentielles sur des images réelles, organisées avec des distracteurs difficiles et annotées avec des facettes de raisonnement incluant la négation. Nous menons des ablations complètes (perturbations de l'ordre des mots et suffisance de la suppression des descripteurs) pour montrer que résoudre Ref-Adv nécessite un raisonnement au-delà des indices simples, et nous évaluons une large gamme de LLMs multimodaux contemporains sur Ref-Adv. Malgré des résultats solides sur RefCOCO, RefCOCO+ et RefCOCOg, les performances des modèles chutent nettement sur Ref-Adv, révélant une dépendance aux raccourcis et des lacunes dans le raisonnement visuel et l'ancrage. Nous fournissons une analyse approfondie des échecs et visons à ce que Ref-Adv guide les travaux futurs sur le raisonnement visuel et l'ancrage dans les MLLMs.
Ce travail aborde le défi critique et peu exploré de la compréhension de vidéos longues avec des budgets computationnels réduits. Nous proposons LongVideo-R1, un agent modèle de langage multimodal (MLLM) actif, équipé de capacités de raisonnement, conçu pour une navigation efficace dans le contexte vidéo en évitant la redondance d'une recherche exhaustive. Au cœur de LongVideo-R1 se trouve un module de raisonnement qui exploite des indices visuels de haut niveau pour déduire le clip vidéo le plus informatif pour le traitement ultérieur. Lors de l'inférence, l'agent initie un parcours à partir de résumés visuels de haut niveau et affine itérativement son focus, interrompant immédiatement le processus d'exploration dès qu'il acquiert suffisamment de connaissances pour répondre à la requête. Pour faciliter l'entraînement, nous extrayons d'abord des descriptions hiérarchiques de vidéos à partir de CGBench, un corpus vidéo avec des annotations de grounding, et guidons GPT-5 pour générer 33 000 trajectoires de haute qualité de type chaîne de pensée avec outil. L'agent LongVideo-R1 est affiné à partir du modèle Qwen-3-8B selon un paradigme en deux étapes : un affinage supervisé (SFT) suivi d'un apprentissage par renforcement (RL), où le RL utilise une fonction de récompense spécifiquement conçue pour maximiser une navigation sélective et efficace entre les clips. Les expériences sur plusieurs benchmarks de vidéos longues valident l'efficacité de notre méthode, qui présente un compromis supérieur entre la précision des questions-réponses et l'efficacité. Toutes les données organisées et le code source sont fournis dans le matériel supplémentaire et seront rendus publics. Le code et les données sont disponibles à l'adresse : https://github.com/qiujihao19/LongVideo-R1
Les modèles de génération d'images masquées (MIGMs) ont connu un grand succès, mais leur efficacité est entravée par les multiples étapes d'attention bidirectionnelle. En réalité, il existe une redondance notable dans leur calcul : lors de l'échantillonnage de tokens discrets, la riche sémantique contenue dans les caractéristiques continues est perdue. Certains travaux existants tentent de mettre en cache les caractéristiques pour approximer les caractéristiques futures. Cependant, ils présentent une erreur d'approximation considérable sous des taux d'accélération agressifs. Nous attribuons cela à leur expressivité limitée et à l'incapacité de prendre en compte l'information d'échantillonnage. Pour combler cette lacune, nous proposons d'apprendre un modèle léger qui intègre à la fois les caractéristiques précédentes et les tokens échantillonnés, et qui régresse le champ de vitesse moyen de l'évolution des caractéristiques. Le modèle a une complexité modérée suffisante pour capturer la dynamique subtile tout en restant léger par rapport au modèle de base original. Nous appliquons notre méthode, MIGM-Shortcut, à deux architectures et tâches MIGM représentatives. En particulier, sur le Lumina-DiMOO state-of-the-art, elle permet une accélération de plus de 4x de la génération texte-image tout en maintenant la qualité, repoussant significativement la frontière de Pareto de la génération d'images masquées. Le code et les poids des modèles sont disponibles à l'adresse https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
Les modèles de diffusion atteignent une qualité de génération vidéo à l'état de l'art, mais leur inférence reste coûteuse en raison du grand nombre d'étapes de débruîtage séquentielles. Cela a motivé un nombre croissant de recherches sur l'accélération de l'inférence par diffusion. Parmi les méthodes d'accélération sans apprentissage, la mise en cache réduit les calculs en réutilisant les sorties du modèle précédemment calculées sur plusieurs pas de temps. Les méthodes de cache existantes s'appuient sur des critères heuristiques pour choisir les pas de temps à mettre en cache/réutiliser et nécessitent un réglage approfondi. Nous abordons cette limitation avec un cadre de mise en cache sensible fondé sur des principes. Plus précisément, nous formalisons l'erreur de cache grâce à une analyse de la sensibilité de la sortie du modèle aux perturbations dans les entrées de débruîtage, c'est-à-dire le latent bruité et le pas de temps, et montrons que cette sensibilité est un prédicteur clé de l'erreur de cache. Sur la base de cette analyse, nous proposons Sensitivity-Aware Caching (SenCache), une politique de cache dynamique qui sélectionne de manière adaptative les pas de temps de mise en cache pour chaque échantillon. Notre cadre fournit une base théorique pour la mise en cache adaptative, explique pourquoi les heuristiques empiriques antérieures peuvent être partiellement efficaces et les étend en une approche dynamique et spécifique à l'échantillon. Les expériences sur Wan 2.1, CogVideoX et LTX-Video montrent que SenCache obtient une meilleure qualité visuelle que les méthodes de cache existantes pour des budgets computationnels similaires.
Les Transformers sont devenus les architectures de référence pour la plupart des avancées récentes en modélisation de séquences, principalement grâce à leur capacité mémoire croissante qui évolue avec la longueur du contexte. Bien que cela soit pertinent pour les tâches de recherche d'information, cette caractéristique entraîne une complexité quadratique, motivant ainsi des études récentes à explorer des alternatives récurrentes sous-quadratiques viables. Malgré des résultats préliminaires prometteurs dans divers domaines, ces architectures récurrentes sous-performent les Transformers sur les tâches intensives en rappel, ce qui est souvent attribué à leur mémoire de taille fixe. Dans cet article, nous présentons le *Memory Caching* (MC), une technique simple mais efficace qui améliore les modèles récurrents en mettant en cache des points de contrôle de leurs états de mémoire (également appelés états cachés). Le Memory Caching permet à la capacité mémoire effective des RNN de croître avec la longueur de la séquence, offrant un compromis flexible qui interpole entre la mémoire fixe (c'est-à-dire une complexité en O(L)) des RNN et la mémoire croissante (c'est-à-dire une complexité en O(L²)) des Transformers. Nous proposons quatre variantes de MC, incluant des mécanismes d'agrégation à porte et de sélection parcimonieuse, et discutons de leurs implications sur les modules de mémoire linéaires et profonds. Nos résultats expérimentaux sur la modélisation du langage et les tâches de compréhension de contexte long montrent que MC améliore les performances des modèles récurrents, confirmant son efficacité. Les résultats sur les tâches de rappel en contexte indiquent que si les Transformers obtiennent la meilleure précision, nos variantes de MC affichent des performances compétitives, réduisent l'écart avec les Transformers et surpassent les modèles récurrents de l'état de l'art.
Les modèles de langage de grande taille (LLM) convergent vers un unique Esprit Collectif Artificiel, où leur Nature commune (prédispositions issues du pré-entraînement) entraîne un effondrement profond de la diversité distributionnelle, limitant ainsi les perspectives distinctes nécessaires à l'exploration créative et à la découverte scientifique. Pour remédier à cela, nous proposons d'équiper les modèles avec un Apport individualisé (trajectoires épistémiques individualisées) lors de l'inférence, en utilisant le paradigme de l'Évolution Épistémique, qui progresse selon trois phases : exploration, internalisation et expression. Nous matérialisons cette approche via PRISM (Raisonnement Pluraliste par Modélisation de Structure en Contexte), un système agnostique au modèle qui augmente un LLM avec des Graphes Épistémiques Dynamiques Générés à la Volée. Sur trois benchmarks de créativité, PRISM atteint un niveau de nouveauté de pointe et élargit considérablement la diversité distributionnelle. De plus, nous évaluons son utilité dans le monde réel via un benchmark difficile de diagnostic de maladies rares. Les résultats démontrent que PRISM identifie avec succès des diagnostics corrects mais rares que les LLM standard manquent, confirmant que sa divergence provient d'une exploration significative plutôt que d'un bruit incohérent. Dans l'ensemble, ce travail établit un nouveau paradigme pour une IA Pluraliste, dépassant le consensus monolithique au profit d'un écosystème diversifié d'individus cognitifs uniques, capables d'une découverte collective et multiperspectiviste.
La récupération générative est devenue un paradigme puissant pour la recommandation basée sur les LLM. Cependant, les systèmes de recommandation industriels bénéficient souvent de la restriction de l'espace de sortie à un sous-ensemble contraint d'éléments basé sur la logique métier (par exemple, en imposant la fraîcheur du contenu ou une catégorie de produits), ce que le décodage autogressif standard ne peut pas prendre en charge nativement. De plus, les méthodes de décodage contraint existantes qui utilisent des arbres de préfixes (Tries) entraînent des pénalités de latence sévères sur les accélérateurs matériels (TPU/GPU). Dans ce travail, nous présentons STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding), une technique de décodage contraint efficace et évolutive conçue spécifiquement pour la récupération générative à haut débit basée sur les LLM sur les TPU/GPU. En aplatissant l'arbre de préfixes en une matrice statique au format Compressed Sparse Row (CSR), nous transformons les parcours d'arbres irréguliers en opérations entièrement vectorisées sur des matrices creuses, permettant des gains d'efficacité massifs sur les accélérateurs matériels. Nous déployons STATIC sur une plateforme de recommandation vidéo industrielle à grande échelle desservant des milliards d'utilisateurs. STATIC produit un impact significatif sur les métriques produits avec une surcharge de latence minimale (0,033 ms par étape et 0,25 % du temps d'inférence), obtenant une accélération de 948x par rapport à une implémentation de trie sur CPU et une accélération de 47 à 1033x par rapport à une baseline à recherche binaire accélérée matériellement. De plus, la surcharge d'exécution de STATIC reste extrêmement faible sur une large gamme de configurations pratiques. À notre connaissance, STATIC permet le premier déploiement à l'échelle de production de la récupération générative strictement contrainte. Par ailleurs, l'évaluation sur des benchmarks académiques démontre que STATIC peut considérablement améliorer les performances en cold-start pour la récupération générative. Notre code est disponible à l'adresse https://github.com/youtube/static-constraint-decoding.
Les modèles vision-langage (VLM) ont atteint des capacités remarquables de compréhension et de raisonnement multimodal, mais restent computationnellement coûteux en raison de la tokenisation visuelle dense. Les approches existantes d'efficacité fusionnent les tokens visuels redondants ou les éliminent progressivement dans le backbone linguistique, souvent au détriment de la précision. Dans ce travail, nous proposons DUET-VLM, un cadre de compression duale polyvalent plug-and-play qui consiste en (a) une compression visuelle uniquement, consciente de la redondance, de la sortie de l'encodeur visuel en tokens préservant l'information, suivie de (b) l'abandon couche par couche, guidé par le texte salient, des tokens visuels au sein du backbone linguistique pour élaguer progressivement les tokens moins informatifs. Cette gestion coordonnée des tokens permet une compression agressive tout en conservant la sémantique critique. Sur LLaVA-1.5-7B, notre approche maintient plus de 99 % de la précision de référence avec 67 % de tokens en moins, et conserve encore plus de 97 % même avec une réduction de 89 %. Avec cette compression bi-étagée pendant l'entraînement, elle atteint 99,7 % de précision à 67 % de réduction et 97,6 % à 89 %, surpassant les méthodes état de l'art antérieures de réduction de tokens visuels sur plusieurs benchmarks. Intégrée dans Video-LLaVA-7B, elle dépasse même la référence – atteignant une précision >100 % avec une réduction substantielle de 53,1 % des tokens et conservant 97,6 % de précision dans un cadre extrême de 93,4 %. Ces résultats mettent en évidence l'entraînement de bout en bout avec DUET-VLM, permettant une adaptation robuste à une entrée visuelle (image/vidéo) réduite sans sacrifier la précision, produisant des représentations compactes mais sémantiquement riches dans le même budget computationnel. Notre code est disponible à l'adresse https://github.com/AMD-AGI/DUET-VLM.
Des progrès significatifs ont été réalisés dans le domaine des modèles d'édition d'images basés sur des instructions (IIEMs). Cependant, bien que ces modèles démontrent une adhésion plausible aux instructions et de solides capacités de raisonnement sur les benchmarks actuels, leur aptitude à éditer de petits objets reste peu explorée, malgré son importance pour l'édition locale précise et l'affinement des détails dans les images réelles et générées. Dans cet article, nous présentons DeepLookEditBench (DLEBench), le premier benchmark dédié à l'évaluation des capacités des IIEMs en matière d'édition d'objets à petite échelle. Plus précisément, nous construisons un banc d'essai difficile comprenant 1889 échantillons couvrant sept types d'instructions. Dans ces échantillons, les objets cibles n'occupent que 1% à 10% de la surface de l'image, couvrant des scénarios complexes tels que l'occlusion partielle et l'édition multi-objets. Pour garantir une évaluation robuste sur ce benchmark, nous proposons un protocole d'évaluation avec des grilles de notation affinées afin de minimiser la subjectivité et l'ambiguïté selon deux critères : le Suivi de l'Instruction et la Cohérence Visuelle. Ce protocole introduit également un cadre d'évaluation à double mode (Modes Piloté par l'Outil et Guidé par l'Oracle) pour résoudre le décalage entre l'évaluation par LMM-comme-Juge et les jugements humains sur DLEBench. Les résultats empiriques sur 10 IIEMs révèlent des écarts de performance significatifs dans l'édition d'objets à petite échelle, soulignant la nécessité de benchmarks spécialisés pour faire progresser cette capacité.
L'ingénierie contextuelle est devenue un paradigme essentiel pour exploiter le potentiel des grands modèles de langage (LLM) dans les tâches de génie logiciel, permettant des gains de performance lors des tests sans fine-tuning du modèle. Malgré son succès, la recherche existante manque d'une taxonomie systématique des types de contextes spécifiques au génie logiciel et d'un benchmark dédié pour quantifier les effets hétérogènes des différents contextes à travers les flux de travail fondamentaux du génie logiciel. Pour combler cette lacune, nous proposons CL4SE (Context Learning for Software Engineering), un benchmark complet présentant une taxonomie fine de quatre types de contextes orientés génie logiciel (exemples interprétables, contexte spécifique au projet, contexte décisionnel procédural, et contexte positif-négatif mixte), chacun étant associé à une tâche représentative (génération de code, synthèse de code, revue de code et évaluation de la correction des correctifs). Nous construisons des jeux de données de haute qualité comprenant plus de 13 000 échantillons provenant de plus de 30 projets open source et évaluons cinq LLM grand public selon neuf métriques. Des expériences approfondies démontrent que l'apprentissage contextuel procure une amélioration moyenne des performances de 24,7 % sur l'ensemble des tâches. Plus précisément, le contexte procédural améliore les performances de revue de code jusqu'à 33 % (Qwen3-Max), le contexte mixte positif-négatif améliore l'évaluation des correctifs de 30 % (DeepSeek-V3), le contexte spécifique au projet augmente le BLEU de la synthèse de code de 14,78 % (GPT-Oss-120B), et les exemples interprétables améliorent le PASS@1 de la génération de code de 5,72 % (DeepSeek-V3). CL4SE établit le premier cadre d'évaluation standardisé pour l'apprentissage contextuel en génie logiciel, fournit des insights empiriques actionnables pour la conception de contextes spécifiques aux tâches, et publie un jeu de données à grande échelle pour faciliter la recherche reproductible dans ce domaine.
L'apprentissage par renforcement (RL) en post-formation a récemment permis des progrès majeurs dans les grands modèles de langage (LLM) pour le raisonnement à longue chaîne de pensée, mais le coût d'inférence élevé de ces modèles motive leur distillation vers des modèles étudiants plus petits. La plupart des méthodes de distillation de connaissances (KD) existantes sont conçues pour l'affinage supervisé (SFT), reposant sur des traces fixes de l'enseignant ou sur une régularisation basée sur la divergence de Kullback-Leibler (KL) entre l'enseignant et l'étudiant. Lorsqu'elles sont combinées avec le RL, ces approches souffrent souvent d'un décalage de distribution et d'interférences d'objectifs : la supervision de l'enseignant peut ne pas s'aligner sur la distribution d'exploration évolutive de l'étudiant, et le régulariseur KL peut entrer en concurrence avec la maximisation de la récompense et nécessiter un équilibrage minutieux des pertes. Pour résoudre ces problèmes, nous proposons la distillation sensible au RL (RLAD), qui effectue une imitation sélective pendant le RL – guidant l'étudiant vers l'enseignant uniquement lorsque cela améliore la mise à jour de la politique actuelle. Notre composant central, la Distillation par Ratio de Région de Confiance (TRRD), remplace le régulariseur KL enseignant-étudiant par un objectif de rapport de vraisemblance de type PPO/GRPO ancré à un mélange enseignant-ancienne-politique, produisant une distillation avantageuse et bornée par une région de confiance sur les explorations de l'étudiant, et équilibrant naturellement l'exploration, l'exploitation et l'imitation. Sur divers benchmarks de raisonnement logique et mathématique, RLAD surpasse systématiquement la distillation hors ligne, le GRPO standard et la distillation de connaissances enseignant-étudiant en ligne basée sur la KL.
Si les grands modèles de langage (LLM) contemporains montrent des capacités croissantes en isolation, de nombreux problèmes complexes dépassent encore les capacités d'un seul LLM. Pour de telles tâches, la meilleure manière de combiner plusieurs LLMs en un système plus vaste reste incertaine. Ce document de position soutient que des plans conceptuels potentiels pour concevoir de tels agents linguistiques modulaires peuvent être trouvés dans la littérature existante sur les modèles cognitifs et les algorithmes d'intelligence artificielle (IA). Pour clarifier cette idée, nous formalisons le concept de modèle d'agent qui spécifie les rôles des LLMs individuels et la manière dont leurs fonctionnalités doivent être composées. Nous passons ensuite en revue divers agents linguistiques existants dans la littérature et mettons en évidence leurs modèles sous-jacents, directement inspirés de modèles cognitifs ou d'algorithmes d'IA. En soulignant ces architectures, nous visons à attirer l'attention sur les modèles d'agent inspirés des sciences cognitives et de l'IA comme outil puissant pour développer des agents linguistiques efficaces et interprétables.