Articles de recherche IA sélectionnés quotidiennement avec traductions
L'exploitation des connaissances préalables des modèles de diffusion 2D pour l'édition 3D est apparue comme un paradigme prometteur. Cependant, maintenir la cohérence multi-vues dans les résultats édités reste difficile, et l'extrême rareté de données appariées d'édition 3D cohérente rend impossible le fine-tuning supervisé (SFT), la stratégie d'entraînement la plus efficace pour les tâches d'édition. Dans cet article, nous observons que, bien que générer du contenu 3D cohérent en multi-vues soit très complexe, vérifier la cohérence 3D est réalisable, positionnant naturellement l'apprentissage par renforcement (RL) comme une solution faisable. Motivés par cela, nous proposons RL3DEdit, un cadre monolithique piloté par une optimisation RL avec des récompenses novatrices dérivées du modèle de fondation 3D, VGGT. Concrètement, nous exploitons les connaissances préalables robustes de VGGT apprises à partir de données massives du monde réel, nous alimentons les images éditées et utilisons les cartes de confiance en sortie ainsi que les erreurs d'estimation de pose comme signaux de récompense, ancrant efficacement les connaissances préalables de l'édition 2D sur une variété cohérente en 3D via le RL. Des expériences approfondies démontrent que RL3DEdit atteint une cohérence multi-vues stable et surpasse les méthodes de pointe en qualité d'édition avec une grande efficacité. Pour promouvoir le développement de l'édition 3D, nous publierons le code et le modèle.
Si le raisonnement dans les LLM joue un rôle naturel en mathématiques, en génération de code et pour les questions factuelles à inférences multiples, son effet sur les questions factuelles simples et directes reste incertain. Ces questions ne nécessitent pas de décomposition logique étape par étape, ce qui rend l'utilité du raisonnement hautement contre-intuitive. Pourtant, nous constatons que l'activation du raisonnement élargit substantiellement la frontière des capacités de rappel des connaissances paramétriques du modèle, débloquant des réponses correctes qui seraient autrement inaccessibles. Pourquoi le raisonnement facilite-t-il le rappel de connaissances paramétriques alors qu'aucune étape de raisonnement complexe n'est nécessaire ? Pour répondre à cette question, nous concevons une série d'expériences contrôlées guidées par des hypothèses et identifions deux mécanismes clés : (1) un effet tampon computationnel, où le modèle utilise les jetons de raisonnement générés pour effectuer un calcul latent indépendant de leur contenu sémantique ; et (2) un amorçage factuel, où la génération de faits topiquement liés agit comme un pont sémantique facilitant la récupération de la réponse correcte. Fait important, ce dernier mécanisme d'auto-récupération générative comporte des risques inhérents : nous démontrons que le fait d'halluciner des faits intermédiaires durant le raisonnement augmente la probabilité d'hallucinations dans la réponse finale. Enfin, nous montrons que nos conclusions peuvent être exploitées pour améliorer directement la précision du modèle en prioritisant les trajectoires de raisonnement contenant des énoncés factuels exempts d'hallucinations.
Bien que les modèles de langage multimodaux (MLLM) récents aient réalisé des progrès impressionnants, ils emploient principalement une architecture autogressive conventionnelle comme ossature, laissant un champ important à l'exploration d'alternatives efficaces et efficientes en matière de conception architecturale. Parallèlement, des études récentes ont appliqué avec succès des modèles de diffusion discrets à divers domaines, tels que la compréhension visuelle et la génération d'images, révélant leur potentiel considérable en tant qu'ossature prometteuse pour les systèmes multimodaux. Nous nous inspirons de ces recherches pionnières pour présenter Omni-Diffusion, le premier modèle de langage multimodal tout-à-tout entièrement construit sur des modèles de diffusion discrets basés sur le masquage, qui unifie la compréhension et la génération à travers le texte, la parole et les images. Omni-Diffusion utilise un modèle de diffusion discret unifié basé sur le masquage pour capturer directement la distribution conjointe sur les jetons multimodaux discrets. Cette approche prend en charge non seulement les tâches bimodales, mais aussi des scénarios plus complexes impliquant de multiples modalités. Sur un ensemble diversifié de benchmarks, notre méthode surpasse ou égale les systèmes multimodaux existants qui traitent deux modalités ou plus, soulignant le potentiel significatif des modèles de diffusion pour alimenter la prochaine génération de modèles fondationnels multimodaux. Page web du projet : https://omni-diffusion.github.io.
L'auto-évolution est devenue un paradigme clé pour améliorer les modèles fondateurs tels que les grands modèles de langage (LLM) et les modèles de vision et langage (VLM) avec une intervention humaine minimale. Si des approches récentes ont montré que des agents LLM peuvent s'auto-évoluer à partir de zéro avec peu ou pas de données, les VLM introduisent une modalité visuelle supplémentaire qui nécessite typiquement au moins quelques données d'amorçage, telles que des images, pour initier le processus d'auto-évolution. Dans ce travail, nous présentons Multi-model Multimodal Zero (MM-Zero), le premier cadre basé sur l'apprentissage par renforcement (RL) permettant une auto-évolution sans données pour le raisonnement des VLM. Allant au-delà des configurations antérieures à double rôle (Proposant et Solveur), MM-Zero introduit un cadre d'entraînement auto-évolutif multi-rôles comprenant trois rôles spécialisés : un Proposant qui génère des concepts visuels abstraits et formule des questions ; un Codeur qui traduit ces concepts en code exécutable (par exemple, Python, SVG) pour générer des images visuelles ; et un Solveur qui effectue un raisonnement multimodal sur le contenu visuel généré. Les trois rôles sont initialisés à partir du même modèle de base et entraînés à l'aide de l'Optimisation de Politique Relative par Groupe (GRPO), avec des mécanismes de récompense soigneusement conçus qui intègrent un retour d'exécution, une vérification visuelle et un équilibrage de la difficulté. Nos expériences montrent que MM-Zero améliore les performances de raisonnement des VLM sur un large éventail de benchmarks multimodaux. MM-Zero établit une voie évolutive vers des systèmes multi-modèles auto-évolutifs pour les modèles multimodaux, étendant la frontière de l'auto-amélioration au-delà du paradigme conventionnel à deux modèles.
Les modèles multimodaux unifiés (UMM) qui intègrent la compréhension, le raisonnement, la génération et l'édition sont confrontés à des compromis inhérents entre le maintien d'une forte compréhension sémantique et l'acquisition de puissantes capacités de génération. Dans ce rapport, nous présentons InternVL-U, un UMM léger de 4 milliards de paramètres qui démocratise ces capacités au sein d'un cadre unifié. Guidé par les principes de modélisation contextuelle unifiée et de conception modulaire spécifique aux modalités avec des représentations visuelles découplées, InternVL-U intègre un modèle de langage multimodal (MLLM) de pointe avec une tête de génération visuelle spécialisée basée sur MMDiT. Pour combler davantage l'écart entre la génération esthétique et l'intelligence de haut niveau, nous construisons un pipeline complet de synthèse de données ciblant des tâches à haute densité sémantique, telles que le rendu de texte et le raisonnement scientifique, sous un paradigme centré sur le raisonnement qui exploite le « Chain-of-Thought » (Chaîne de Pensée, CoT) pour mieux aligner l'intention abstraite de l'utilisateur avec les détails fins de la génération visuelle. Des expériences approfondies démontrent qu'InternVL-U atteint un équilibre performance-efficacité supérieur. Bien qu'il n'utilise que 4 milliards de paramètres, il surpasse systématiquement les modèles de base unifiés ayant des tailles plus de 3 fois supérieures, tels que BAGEL (14B), sur diverses tâches de génération et d'édition, tout en conservant de solides capacités de compréhension et de raisonnement multimodal.
Les grands modèles linguistiques multimodaux (MLLM) peuvent traiter le texte présenté sous forme d'images, mais leurs performances sont souvent inférieures à celles obtenues lorsque le même contenu est fourni sous forme de tokens textuels. Nous diagnostiquons systématiquement cet "écart modal" en évaluant sept MLLM sur sept benchmarks selon cinq modes d'entrée, couvrant à la fois du texte synthétiquement rendu et des images réalistes de documents allant des PDF arXiv aux pages Wikipédia. Nous constatons que l'écart modal dépend de la tâche et des données. Par exemple, les tâches mathématiques se dégradent de plus de 60 points sur les rendus synthétiques, tandis que les images de documents naturels égalent ou dépassent souvent les performances en mode texte. Les choix de rendu tels que la police et la résolution sont de puissants facteurs de confusion, la police seule pouvant faire varier la précision jusqu'à 47 points de pourcentage. Pour comprendre ce phénomène, nous menons une analyse d'erreurs fondée sur la théorie ancrée portant sur plus de 4 000 exemples, révélant que le mode image amplifie sélectivement les erreurs de lecture (échecs de calcul et de formatage) tout en laissant largement inchangées les erreurs de connaissances et de raisonnement, et que certains modèles présentent un effondrement du raisonnement en chaîne de pensée sous entrée visuelle. Motivés par ces résultats, nous proposons une méthode d'auto-distillation qui entraîne le modèle sur ses propres traces de raisonnement en texte pur associées à des entrées image, augmentant la précision en mode image sur GSM8K de 30,71 % à 92,72 % et permettant un transfert sur des benchmarks non vus sans oubli catastrophique. Globalement, notre étude offre une compréhension systématique de l'écart modal et suggère une voie pratique pour améliorer la compréhension du texte visuel dans les modèles linguistiques multimodaux.
Le sport a longtemps suscité un intérêt général car il repousse les limites des capacités physiques et cognitives humaines. Alors que l'intérêt pour l'intelligence spatiale des modèles vision-langage (VLM) grandit, le sport constitue un terrain d'évaluation naturel pour comprendre les mouvements humains de haute intensité et les interactions dynamiques d'objets. Dans cette optique, nous présentons CourtSI, la première base de données à grande échelle dédiée à l'intelligence spatiale dans des scénarios sportifs. CourtSI contient plus d'un million de paires question-réponse, organisées selon une taxonomie holistique couvrant systématiquement le dénombrement spatial, la mesure des distances, la localisation et le raisonnement relationnel, à travers des sports de filet représentatifs incluant le badminton, le tennis et le tennis de table. En tirant parti de la géométrie bien définie des terrains comme ancres métriques, nous avons développé un moteur de données semi-automatique pour reconstruire les scènes sportives, permettant une curation scalable de CourtSI. Par ailleurs, nous introduisons CourtSI-Bench, un benchmark d'évaluation de haute qualité comprenant 3 686 paires question-réponse vérifiées rigoureusement par des humains. Nous avons évalué 25 VLM propriétaires et open-source sur CourtSI-Bench, révélant un écart persistant entre les performances humaines et l'IA, ainsi qu'une généralisation limitée depuis les benchmarks existants en intelligence spatiale. Ces résultats indiquent que les scénarios sportifs mettent en lumière les limitations des capacités d'intelligence spatiale capturées par les benchmarks actuels. De plus, le fine-tuning de Qwen3-VL-8B sur CourtSI améliore la précision sur CourtSI-Bench de 23,5 points de pourcentage. Le modèle adapté généralise aussi efficacement à CourtSI-Ext, un ensemble d'évaluation basé sur un sport similaire mais non vu lors de l'entraînement, et démontre une génération de commentaires spatialement conscients améliorée. Ensemble, ces résultats montrent que CourtSI offre une voie scalable pour faire progresser l'intelligence spatiale des VLM dans le domaine sportif.
Nous présentons Fish Audio S2, un système de synthèse vocale open source proposant la génération multi-locuteurs et multi-tours, et surtout un contrôle par instructions via des descriptions en langage naturel. Pour optimiser l'entraînement, nous avons développé une méthode d'entraînement multi-étapes ainsi qu'un pipeline de données incluant le sous-titrage vidéo et vocal, l'évaluation de la qualité vocale et la modélisation par récompense. Pour repousser les limites des systèmes TTS open source, nous publions les poids de notre modèle, le code de fine-tuning et un moteur d'inférence basé sur SGLang. Ce moteur est prêt pour la production en streaming, avec un RTF de 0,195 et un temps jusqu'au premier audio inférieur à 100 ms. Notre code et nos poids sont disponibles sur GitHub (https://github.com/fishaudio/fish-speech) et Hugging Face (https://huggingface.co/fishaudio/s2-pro). Nous encourageons vivement les lecteurs à visiter https://fish.audio pour tester des voix personnalisées.
La capacité à distinguer des différences subtiles entre des images visuellement similaires est essentielle dans divers domaines tels que la détection d'anomalies industrielles, l'imagerie médicale et la surveillance aérienne. Bien que des benchmarks d'évaluation du raisonnement comparatif pour les modèles vision-langage (VLM) aient récemment émergé, ils se concentrent principalement sur des images présentant des différences importantes et saillantes, sans capturer le raisonnement nuancé requis pour les applications réelles. Dans ce travail, nous présentons VLM-SubtleBench, un benchmark conçu pour évaluer les VLM sur le raisonnement comparatif subtil. Notre benchmark couvre dix types de différences - Attribut, État, Émotion, Temporel, Spatial, Existence, Quantité, Qualité, Point de vue et Action - et propose des ensembles question-image reflétant ces variations fines. Contrairement aux benchmarks antérieurs limités à des ensembles d'images naturelles, notre benchmark couvre divers domaines, incluant l'imagerie industrielle, aérienne et médicale. Par une évaluation approfondie de VLM propriétaires et open-source, nous révélons des écarts systématiques entre les performances des modèles et celles des humains selon les types de différences et les domaines, et fournissons des analyses contrôlées mettant en évidence les situations où le raisonnement des VLM se dégrade fortement. Ensemble, notre benchmark et nos résultats établissent une base pour faire progresser les VLM vers un raisonnement comparatif de niveau humain.
Les grands modèles de langage multimodaux peuvent présenter une dominance textuelle, en s'appuyant excessivement sur des préjugés linguistiques plutôt que d'ancrer leurs prédictions dans les entrées non textuelles. Un exemple est celui des grands modèles audio-langage (LALM) où des preuves audio décisives peuvent être sous-utilisées même lorsqu'elles contiennent des informations importantes. Pour résoudre ce problème, nous utilisons l'interprétabilité mécaniste pour identifier un petit ensemble de têtes d'attention spécialisées dans l'audio, dont l'attention auditive produit un signal d'« écoute ». Nous montrons que ce signal augmente lorsque les preuves audio influencent la sortie du modèle, fournissant ainsi un indicateur d'engagement audio sous prompt standard. En tirant parti de cette localisation, nous construisons une direction de pilotage audio-silence et appliquons une intervention d'activation au moment de l'inférence à la représentation finale, amplifiant ainsi l'effet audio du modèle. Pour démontrer l'utilité de cette intervention, nous montrons sur MMAU que celle-ci améliore la précision jusqu'à +8,0 points de pourcentage sur deux LALM basés sur Qwen, sans aucune mise à jour des paramètres.
Avec les progrès rapides des grands modèles de langage (LLM) dans la génération de code, l'interaction humain-IA évolue des réponses textuelles statiques vers des applications dynamiques et interactives basées sur HTML, que nous nommons MiniApps. Ces applications exigent des modèles qu'ils restituent non seulement des interfaces visuelles, mais aussi qu'ils construisent une logique d'interaction personnalisée respectant des principes du monde réel. Cependant, les benchmarks existants se concentrent principalement sur l'exactitude algorithmique ou la reconstruction statique des mises en page, sans parvenir à capturer les capacités requises pour ce nouveau paradigme. Pour combler cette lacune, nous présentons MiniAppBench, le premier benchmark complet conçu pour évaluer la génération d'applications interactives guidée par des principes. Sourcé à partir d'une application réelle ayant généré plus de 10 millions de contenus, MiniAppBench distille 500 tâches réparties dans six domaines (par exemple, Jeux, Sciences et Outils). De plus, pour relever le défi de l'évaluation d'interactions ouvertes où aucune vérité terrain unique n'existe, nous proposons MiniAppEval, un cadre d'évaluation agentique. Tirant parti de l'automatisation navigateur, il effectue des tests exploratoires similaires à ceux d'un humain pour évaluer systématiquement les applications selon trois dimensions : Intention, Statique et Dynamique. Nos expériences révèlent que les LLM actuels rencontrent encore des difficultés significatives à générer des MiniApps de haute qualité, tandis que MiniAppEval démontre une forte corrélation avec le jugement humain, établissant une norme fiable pour les recherches futures. Notre code est disponible sur github.com/MiniAppBench.
Les modèles de langage de grande taille pour la parole (SLLM) se sont rapidement développés, prenant en charge un large éventail de tâches. Ces modèles sont généralement évalués à l'aide d'invites textuelles, ce qui peut ne pas refléter les scénarios réels où les utilisateurs interagissent par la parole. Pour combler cette lacune, nous présentons DoWhatISay (DOWIS), un ensemble de données multilingue d'invites orales et écrites enregistrées par des humains, conçu pour s'associer à n'importe quel benchmark existant afin d'évaluer de manière réaliste les SLLM dans des conditions d'instruction orale. Couvrant 9 tâches et 11 langues, il fournit 10 variantes d'invites par paire tâche-langue, réparties sur cinq styles. En utilisant DOWIS, nous évaluons des SLLM de pointe, en analysant l'interaction entre la modalité de l'invite, le style, la langue et le type de tâche. Les résultats montrent que les invites textuelles surpassent systématiquement les invites orales, particulièrement dans des contextes multilingues et pour les langues peu dotées. Ce n'est que pour les tâches avec sortie vocale que les invites orales réduisent l'écart, soulignant la nécessité d'utiliser des invites basées sur la parole dans l'évaluation des SLLM.
Nous présentons la Définition d'Agent IA Pilotée par les Tests (TDAD), une méthodologie qui traite les prompts d'agents comme des artefacts compilés : les ingénieurs fournissent des spécifications comportementales, un agent de codage les convertit en tests exécutables, et un second agent de codage affine itérativement le prompt jusqu'à ce que les tests passent. Le déploiement en production d'agents LLM utilisant des outils nécessite une conformité comportementale mesurable que les pratiques de développement actuelles ne peuvent assurer. De petites modifications de prompt provoquent des régressions silencieuses, les mauvais usages des outils passent inaperçus, et les violations de politiques n'apparaissent qu'après le déploiement. Pour atténuer le détournement de spécifications, TDAD introduit trois mécanismes : (1) des séparations de tests visibles/cachés qui retiennent les tests d'évaluation pendant la compilation, (2) des tests de mutation sémantique via un agent post-compilation qui génère des variantes de prompts plausibles mais erronées, le harness mesurant si la suite de tests les détecte, et (3) des scénarios d'évolution des spécifications qui quantifient la sécurité contre les régressions lorsque les exigences changent. Nous évaluons TDAD sur SpecSuite-Core, un benchmark de quatre agents fortement spécifiés couvrant la conformité aux politiques, l'analyse ancrée, l'adhésion aux procédures et l'application de règles déterministes. Sur 24 essais indépendants, TDAD atteint 92 % de succès de compilation v1 avec un taux moyen de réussite aux tests cachés de 97 % ; les spécifications évoluées sont compilées à 58 %, la plupart des exécutions échouées passant tous les tests visibles sauf 1-2, et montrent des scores de mutation de 86 à 100 %, un taux de réussite aux tests cachés v2 de 78 %, et des scores de sécurité contre les régressions de 97 %. L'implémentation est disponible comme benchmark ouvert à l'adresse https://github.com/f-labs-io/tdad-paper-code.
Les grands modèles de diffusion préentraînés ont considérablement amélioré la qualité des vidéos générées, mais leur utilisation en streaming en temps réel reste limitée. Les modèles autorégressifs offrent un cadre naturel pour la synthèse séquentielle d'images, mais nécessitent des calculs intensifs pour atteindre une haute fidélité. La distillation par diffusion peut compresser ces modèles en variantes efficaces à quelques étapes, mais les approches de distillation vidéo existantes adaptent largement des méthodes spécifiques aux images qui négligent les dépendances temporelles. Ces techniques excellent souvent en génération d'images mais sous-performent en synthèse vidéo, présentant une cohérence mouvement réduite, une accumulation d'erreurs sur les longues séquences et un compromis latence-qualité. Nous identifions deux facteurs à l'origine de ces limitations : une utilisation insuffisante du contexte temporel lors de la réduction d'étapes et une prédiction implicite des niveaux de bruit suivants dans la prédiction des segments suivants (c'est-à-dire un biais d'exposition). Pour résoudre ces problèmes, nous proposons la Distillation Diagonale, qui opère orthogonalement aux approches existantes et exploite mieux l'information temporelle à travers les segments vidéo et les étapes de débruitage. Au cœur de notre approche se trouve une stratégie de génération asymétrique : plus d'étapes au début, moins d'étapes plus tard. Cette conception permet aux segments ultérieurs d'hériter d'informations d'apparence riches provenant des premiers segments traités de manière approfondie, tout en utilisant des segments partiellement débruités comme entrées conditionnelles pour la synthèse suivante. En alignant la prédiction implicite des niveaux de bruit suivants lors de la génération des segments avec les conditions d'inférence réelles, notre approche atténue la propagation des erreurs et réduit la sursaturation dans les séquences longues. Nous intégrons en outre une modélisation implicite du flux optique pour préserver la qualité du mouvement sous des contraintes strictes d'étapes. Notre méthode génère une vidéo de 5 secondes en 2,61 secondes (jusqu'à 31 IPS), réalisant une accélération de 277,3x par rapport au modèle non distillé.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) améliore significativement le raisonnement des grands modèles de langage (LLM) mais souffre gravement d'une dégénérescence de l'étalonnage, les modèles devenant excessivement sur-confiantes dans des réponses incorrectes. Les études précédentes se consacrent à intégrer directement un objectif d'étalonnage dans la fonction d'optimisation existante. Cependant, notre analyse théorique démontre qu'il existe un conflit fondamental de gradient entre l'optimisation pour maximiser la précision de la politique et minimiser l'erreur d'étalonnage. Sur la base de cette intuition, nous proposons DCPO, un cadre simple mais efficace qui découple systématiquement les objectifs de raisonnement et d'étalonnage. Des expériences approfondies démontrent que notre DCPO préserve non seulement une précision équivalente à GRPO, mais atteint également les meilleures performances d'étalonnage et atténue substantiellement le problème de sur-confiance. Notre étude fournit des insights précieux et une solution pratique pour un déploiement plus fiable des LLM.
La conscience situationnelle, capacité d'un système d'IA à reconnaître sa propre nature, à comprendre son contexte d'entraînement et de déploiement, et à raisonner stratégiquement sur ses circonstances, est largement considérée comme l'une des capacités émergentes les plus dangereuses des systèmes d'IA avancés. Parallèlement, un effort de recherche croissant vise à améliorer les capacités de raisonnement logique des grands modèles de langage (LLM) en matière de déduction, d'induction et d'abduction. Dans cet article, nous soutenons que ces deux trajectoires de recherche sont sur une trajectoire de collision. Nous présentons le cadre RAISE (Reasoning Advancing Into Self Examination), qui identifie trois voies mécanistes par lesquelles les améliorations du raisonnement logique permettent des niveaux progressivement plus profonds de conscience situationnelle : l'auto-inférence déductive, la reconnaissance contextuelle inductive et l'auto-modélisation abductive. Nous formalisons chaque voie, construisons une échelle d'escalade allant de la simple auto-reconnaissance à la tromperie stratégique, et démontrons que chaque grand thème de recherche en raisonnement logique des LLM correspond directement à un amplificateur spécifique de la conscience situationnelle. Nous analysons en outre pourquoi les mesures de sécurité actuelles sont insuffisantes pour prévenir cette escalade. Nous concluons en proposant des garanties concrètes, notamment un benchmark "Test du Miroir" et un Principe de Parité de Sécurité du Raisonnement, et posons une question inconfortable mais nécessaire à la communauté du raisonnement logique concernant sa responsabilité dans cette trajectoire.
Les agents doivent inférer les résultats des actions et sélectionner celles qui maximisent un signal de récompense indiquant la proximité de l'objectif. L'apprentissage supervisé des modèles de récompense pourrait introduire des biais inhérents aux données d'entraînement, limitant la généralisation à de nouveaux objectifs et environnements. Dans cet article, nous étudions si des représentations bien définies de l'état du monde peuvent à elles seules permettre une prédiction précise des récompenses across les domaines. Pour répondre à cette question, nous présentons StateFactory, une méthode de représentation factorisée qui transforme les observations non structurées en une structure hiérarchique objet-attribut à l'aide de modèles de langage. Cette représentation structurée permet d'estimer naturellement les récompenses comme la similarité sémantique entre l'état actuel et l'état objectif sous contrainte hiérarchique. Globalement, la structure de représentation compacte induite par StateFactory permet de solides capacités de généralisation des récompenses. Nous évaluons notre méthode sur RewardPrediction, un nouveau jeu de données de référence couvrant cinq domaines variés et comprenant 2 454 trajectoires action-observation uniques avec des récompenses réelles étape par étape. Notre méthode montre des résultats prometteurs en zero-shot contre les modèles de récompense VLWM-critic et LLM-as-a-Judge, atteignant respectivement une distance EPIC inférieure de 60 % et 8 %. De plus, cette qualité supérieure des récompenses se traduit avec succès par une amélioration des performances de planification des agents, entraînant des gains de taux de réussite de +21,64 % sur AlfWorld et +12,40 % sur ScienceWorld par rapport aux politiques réactives de type système 1, et améliorant la planification des agents de type système 2. Page du projet : https://statefactory.github.io
L'avancée rapide des modèles texte-vidéo (T2V) a révolutionné la création de contenu, mais leur potentiel commercial reste largement inexploité. Nous introduisons, pour la première fois, la tâche d'intégration publicitaire native dans les T2V : intégrer automatiquement des marques annonceurs dans des vidéos générées par prompt tout en préservant la fidélité sémantique à l'intention de l'utilisateur. Cette tâche confronte trois défis majeurs : maintenir la fidélité au prompt, assurer la reconnaissabilité de la marque et réaliser une intégration contextuellement naturelle. Pour y répondre, nous proposons BrandFusion, un nouveau cadre multi-agents comprenant deux phases synergiques. Dans la phase hors ligne (destinée aux annonceurs), nous construisons une Base de Connaissances de Marque en sondant les prérequis du modèle et en nous adaptant à de nouvelles marques via un ajustement fin léger. Dans la phase en ligne (destinée aux utilisateurs), cinq agents améliorent conjointement les prompts utilisateur par raffinement itératif, exploitant la base de connaissances partagée et un suivi contextuel en temps réel pour garantir la visibilité de la marque et l'alignement sémantique. Les expériences sur 18 marques établies et 2 marques personnalisés, via plusieurs modèles T2V de pointe, démontrent que BrandFusion surpasse significativement les méthodes de référence en préservation sémantique, reconnaissabilité de la marque et naturel d'intégration. Les évaluations humaines confirment en outre une satisfaction utilisateur accrue, établissant une voie pratique pour une monétisation durable des T2V.
Le décodage spéculatif est apparu comme une approche puissante pour accélérer l'inférence des grands modèles de langage (LLM) en utilisant des modèles d'ébauche légers pour proposer des tokens candidats qui sont ensuite vérifiés par le modèle cible. L'efficacité de ce paradigme dépend crucialement de la qualité du modèle d'ébauche. Bien que des avancées récentes comme la série EAGLE obtiennent une accélération de pointe, les modèles d'ébauche existants restent limités par l'accumulation d'erreurs : ils se conditionnent uniquement sur le préfixe actuel, ce qui entraîne une divergence de leurs prédictions par rapport au modèle cible au fil des étapes. Dans ce travail, nous proposons ConFu (Contemplate the Future), un nouveau cadre de décodage spéculatif qui permet aux modèles d'ébauche d'anticiper la direction future de la génération. ConFu introduit (i) des tokens de contemplation et des prompts souples qui permettent au modèle d'ébauche d'exploiter des signaux orientés vers le futur provenant du modèle cible à un coût négligeable, (ii) un mécanisme dynamique de tokens de contemplation avec MoE pour permettre une prédiction future adaptative au contexte, et (iii) un cadre d'entraînement avec échantillonnage de tokens d'ancrage et réplication des prédictions futures qui apprend une prédiction future robuste. Les expériences démontrent que ConFu améliore les taux d'acceptation des tokens et la vitesse de génération par rapport à EAGLE-3 de 8 à 11 % sur diverses tâches en aval avec les modèles Llama-3 3B et 8B. Nous pensons que notre travail est le premier à faire le lien entre le décodage spéculatif et les tokens de raisonnement continu, offrant une nouvelle direction pour accélérer l'inférence des LLM.
Si les grands modèles de langage (LLM) ont révolutionné la génération de code, les approches standard de « Système 1 », qui produisent des solutions en une seule passe avant, atteignent souvent un plafond de performance face à des tâches algorithmiques complexes. Les stratégies existantes de raffinement itératif tentent de combler cet écart au moment de l'inférence, mais elles reposent principalement sur des oracles externes, des retours d'exécution ou des cycles prompts-réponses informatiquement coûteux. Dans ce travail, nous proposons ReflexiCoder, un nouveau cadre d'apprentissage par renforcement (RL) qui internalise la trajectoire de raisonnement structuré, comprenant la génération initiale, une réflexion consciente des bogues et de l'optimisation, et l'auto-correction, directement dans les poids du modèle. Contrairement aux méthodes antérieures, ReflexiCoder fait évoluer le paradigme d'un raffinement dépendant de l'externe vers des capacités intrinsèques, entièrement autonomes, d'auto-réflexion et d'auto-correction au moment de l'inférence. Nous utilisons un paradigme d'entraînement RL-zéro avec des fonctions de récompense granulaires pour optimiser l'ensemble de la trajectoire réflexion-correction, enseignant au modèle comment déboguer sans dépendre de retours terrain ou de moteurs d'exécution lors de l'inférence. Des expériences approfondies sur sept benchmarks démontrent que notre ReflexiCoder-8B établit un nouvel état de l'art (SOTA) parmi les principaux modèles open-source dans la plage 1,5B-14B, atteignant 94,51 % (87,20 %) sur HumanEval (Plus), 81,80 % (78,57 %) sur MBPP (Plus), 35,00 % sur BigCodeBench, 52,21 % sur LiveCodeBench et 37,34 % sur CodeForces dans un scénario à tentative unique, rivalisant ou surpassant des modèles propriétaires comme GPT-5.1. Notamment, notre cadre est nettement plus économe en tokens que les modèles de base, réduisant la surcharge computationnelle lors de l'inférence d'environ 40 % grâce à des schémas de raisonnement et de réflexion disciplinés et haute vitesse. Le code source est disponible à l'adresse https://github.com/juyongjiang/ReflexiCoder.
L'entraînement de grands modèles de langage (LLM) sur des traces d'exécution Python les ancre dans l'exécution du code et permet la prédiction pas-à-pas de programmes Python entiers, les transformant effectivement en interpréteurs neuronaux (FAIR CodeGen Team et al., 2025). Cependant, les développeurs exécutent rarement les programmes étape par étape ; ils utilisent plutôt des débogueurs pour arrêter l'exécution à certains points d'arrêt et parcourir uniquement les portions pertinentes tout en inspectant ou modifiant les variables du programme. Les approches existantes d'interpréteurs neuronaux manquent d'un tel contrôle interactif. Pour remédier à cette limitation, nous introduisons les débogueurs neuronaux : des modèles de langage qui émulent les débogueurs traditionnels, prenant en charge des opérations telles que l'exécution pas à pas détaillée, pas à pas principal ou le pas à pas sortant, ainsi que le réglage de points d'arrêt sur des lignes de code spécifiques. Nous montrons que les débogueurs neuronaux — obtenus par micro-ajustement de grands LLM ou par pré-entraînement de modèles plus petits à partir de zéro — peuvent modéliser de manière fiable à la fois l'exécution directe (prédire les états et sorties futurs) et l'exécution inverse (inférer les états ou entrées antérieurs) conditionnées par les actions du débogueur. Évalués sur CruxEval, nos modèles obtiennent de solides performances sur les tâches de prédiction de sortie et d'entrée, démontrant une modélisation robuste de l'exécution conditionnelle. Notre travail constitue une première étape vers de futurs systèmes de codage agentiques dans lesquels les débogueurs neuronaux servent de modèle du monde pour des environnements de débogage simulés, fournissant un retour d'exécution ou permettant aux agents d'interagir avec de vrais outils de débogage. Cette capacité jette les bases d'une génération de code, d'une compréhension de programme et d'un débogage automatisé plus puissants.
L'auto-amélioration récursive passe de la théorie à la pratique : les systèmes modernes peuvent critiquer, réviser et évaluer leurs propres résultats, mais l'auto-modification itérative risque une dérive subtile de l'alignement. Nous présentons SAHOO, un cadre pratique pour surveiller et contrôler cette dérive via trois mécanismes de sauvegarde : (i) l'Indice de Dérive des Objectifs (IDO), un détecteur apprenant multi-signaux combinant des mesures sémantiques, lexicales, structurelles et distributionnelles ; (ii) des vérifications de préservation des contraintes qui imposent des invariants critiques pour la sécurité, tels que la correction syntaxique et la non-hallucination ; et (iii) une quantification du risque de régression pour signaler les cycles d'amélioration qui annulent les gains antérieurs. Sur 189 tâches de génération de code, de raisonnement mathématique et de véracité, SAHOO produit des gains de qualité substantiels, notamment une amélioration de 18,3 % pour les tâches de code et de 16,8 % pour le raisonnement, tout en préservant les contraintes dans deux domaines et en maintenant un faible taux de violations pour la véracité. Les seuils sont calibrés sur un petit ensemble de validation de 18 tâches sur trois cycles. Nous cartographions en outre la frontière capacité-alignement, montrant des cycles d'amélioration précoces efficaces mais des coûts d'alignement croissants ultérieurement, et exposant des tensions spécifiques aux domaines telles que la fluidité contre l'exactitude factuelle. SAHOO rend ainsi la préservation de l'alignement durant l'auto-amélioration récursive mesurable, déployable et systématiquement validée à grande échelle.
Les implémentations de modèles à espace d'états sont généralement couplées à des noyaux CUDA et Triton fusionnés, héritant d'une dépendance matérielle contraignante envers NVIDIA. Nous démontrons que l'algorithme de dualité des espaces d'états de Mamba-2 - structure d'état diagonale, récurrence segmentable, et calcul dominé par einsum avec flux de contrôle statique - s'applique parfaitement aux optimisations réellement effectuées par les passes de fusion et de pavage de XLA, rendant les noyaux personnalisés optionnels plutôt que nécessaires. Nous implémentons le chemin d'inférence complet (préremplissage, décodage autorégressif avec cache) sous forme de primitives standard structurées dans XLA, sans noyaux écrits manuellement, et matérialisons la gestion théorique O(1) de l'état de l'architecture sous forme de cache compilé sur périphérique ne nécessitant aucune synchronisation hôte pendant la génération. L'implémentation s'exécute sans modification sur CPU, GPU NVIDIA et TPU Google Cloud à partir d'une unique source JAX. Sur TPU v6e à travers cinq échelles de modèles (130M à 2,7B paramètres), le code généré par XLA atteint environ 140 TFLOPS en préremplissage mono-flux (15% MFU) et jusqu'à 64% d'utilisation de bande passante en décodage. Le décodage glouton correspond parfaitement token-à-token à la référence PyTorch/CUDA sur 64 étapes, avec un accord des états cachés dans la tolérance d'arrondi float32. Ce schéma est transférable à toute récurrence SSM satisfaisant les mêmes conditions structurelles, sur toute plateforme disposant d'un backend XLA mature. L'implémentation est publiquement disponible à l'adresse https://github.com/CosmoNaught/mamba2-jax et fusionnée dans la bibliothèque de modèles Bonsai JAX.
Les progrès récents des modèles vision-langage (VLM) ont démontré des capacités remarquables en zéro-shot, mais l'adaptation de ces modèles à des domaines spécialisés reste un défi majeur. En nous appuyant sur des avancées théoriques récentes suggérant que les VLM entraînés indépendamment sont reliés par une transformation canonique, nous étendons cette compréhension au concept de domaines. Nous émettons l'hypothèse que les caractéristiques d'image entre des domaines disparates sont reliées par une transformation géométrique canonisable qui peut être retrouvée à l'aide d'un petit ensemble d'ancres. La classification en few-shot offre un cadre naturel pour cet alignement, car les échantillons étiquetés limités servent d'ancres nécessaires pour estimer cette transformation. Motivés par cette hypothèse, nous présentons BiCLIP, un cadre qui applique une transformation ciblée aux caractéristiques multimodales pour améliorer l'alignement intermodal. Notre approche se caractérise par son extrême simplicité et son faible empreinte paramétrique. Des évaluations approfondies sur 11 benchmarks standards, incluant EuroSAT, DTD et FGVCAircraft, démontrent que BiCLIP atteint constamment des résultats state-of-the-art. De plus, nous fournissons une vérification empirique de résultats géométriques existants en analysant l'orthogonalité et la distribution angulaire des transformations apprises, confirmant qu'un alignement structuré est la clé d'une adaptation de domaine robuste. Le code est disponible à l'adresse https://github.com/QuantitativeImagingLaboratory/BilinearCLIP
Le kashmiri est parlé par environ 7 millions de personnes mais reste gravement sous-desservi en technologies de la parole, malgré son statut officiel et son riche patrimoine linguistique. L'absence de systèmes robustes de synthèse vocale (TTS) limite l'accessibilité numérique et l'interaction homme-machine inclusive pour les locuteurs natifs. Dans ce travail, nous présentons le premier système neuronal open-source de TTS dédié au kashmiri. Nous montrons que les modèles multilingges zero-shot entraînés pour les langues indiques échouent à produire une parole intelligible, obtenant un Score Moyen d'Opinion (MOS) de seulement 1,86, principalement en raison d'une modélisation inadéquate des diacritiques perso-arabes et de la phonotactique spécifique à la langue. Pour remédier à ces limitations, nous proposons Bolbosh, une stratégie d'adaptation supervisée cross-lingue basée sur le Conditional Flow Matching par Transport Optimal (OT-CFM) dans le cadre Matcha-TTS. Cela permet un alignement stable avec des données appariées limitées. Nous introduisons en outre une pipeline d'amélioration acoustique en trois étapes comprenant la déréverbération, l'élagage des silences et la normalisation de la sonie pour unifier des sources vocales hétérogènes et stabiliser l'apprentissage de l'alignement. Le vocabulaire du modèle est étendu pour encoder explicitement les graphèmes kashmiris, préservant les distinctions vocaliques fines. Notre système atteint un MOS de 3,63 et une Distortion Mél-Cepstrale (MCD) de 3,73, surpassant substantiellement les modèles de référence multilingues et établissant une nouvelle référence pour la synthèse vocale en kashmiri. Nos résultats démontrent que l'adaptation supervisée basée sur les flux et consciente de l'écriture est cruciale pour la TTS à faibles ressources dans les langues sensibles aux diacritiques. Le code et les données sont disponibles à l'adresse : https://github.com/gaash-lab/Bolbosh.
Nous présentons Midicoth, un système de compression sans perte qui introduit une couche de débruitage par micro-diffusion pour améliorer les estimations de probabilité produites par des modèles statistiques adaptatifs. Dans les compresseurs tels que la Prédiction par Correspondance Partielle (PPM), les estimations de probabilité sont lissées par un a priori pour gérer les observations parcimonieuses. Lorsque les contextes n'ont été observés que quelques fois, cet a priori domine la prédiction et produit des distributions nettement plus plates que la distribution réelle de la source, entraînant une inefficacité de la compression. Midicoth résout cette limitation en traitant le lissage a priori comme un processus de rétrécissement et en appliquant une étape de débruitage inverse qui corrige les probabilités prédites à l'aide de statistiques de calibration empiriques. Pour rendre cette correction efficace en données, la méthode décompose chaque prédiction d'octet en une hiérarchie de décisions binaires le long d'un arbre binaire. Cela transforme un problème unique de calibration à 256 issues en une séquence de tâches de calibration binaire, permettant une estimation fiable des termes de correction à partir d'un nombre relativement faible d'observations. Le processus de débruitage est appliqué en plusieurs étapes successives, permettant à chaque stade d'affiner les erreurs de prédiction résiduelles laissées par le précédent. La couche de micro-diffusion fonctionne comme une étape de calibration post-mélange légère appliquée après la combinaison de toutes les prédictions du modèle, lui permettant de corriger les biais systématiques dans la distribution de probabilité finale. Midicoth combine cinq composants entièrement en ligne : un modèle PPM adaptatif, un modèle d'appariement à longue portée, un modèle de mots basé sur un arbre, un modèle de contexte d'ordre élevé et le débruitage par micro-diffusion appliqué comme étape finale.
La mémoire associative a longtemps soutenu la conception des modèles séquentiels. Au-delà du rappel, les humains raisonnent en projetant des états futurs et en sélectionnant des actions orientées vers un but, une capacité que les modèles de langage modernes nécessitent de plus en plus mais n'encodent pas nativement. Si les travaux antérieurs utilisent l'apprentissage par renforcement ou l'entraînement au moment du test, la planification reste externe à l'architecture du modèle. Nous formulons le raisonnement comme un contrôle optimal et introduisons la couche de contrôle au moment du test (TTC), qui effectue une planification LQR à horizon fini sur les états latents lors de l'inférence, représente une fonction de valeur dans les architectures neuronales et l'utilise comme objectif imbriqué pour permettre la planification avant la prédiction. Pour garantir l'évolutivité, nous dérivons un solveur LQR efficace matériellement basé sur une formulation symplectique et l'implémentons comme un noyau CUDA fusionné, permettant une exécution parallèle avec une surcharge minimale. Intégrées comme adaptateur dans les LLM pré-entraînés, les couches TTC améliorent les performances en raisonnement mathématique jusqu'à +27,8 % sur MATH-500 et des améliorations de 2 à 3x du Pass@8 sur AMC et AIME, démontrant qu'intégrer le contrôle optimal comme composant architectural fournit un mécanisme efficace et évolutif pour le raisonnement au-delà de l'entraînement au moment du test.
La découverte de catégories à la volée (OCD) vise à reconnaître les catégories connues tout en découvrant simultanément de nouvelles catégories à partir d'un flux non étiqueté en ligne, en utilisant un modèle entraîné uniquement sur des données étiquetées. Les approches existantes figent l'extracteur de caractéristiques entraîné hors ligne et emploient un cadre basé sur le hachage qui quantifie les caractéristiques en codes binaires comme prototypes de classe. Cependant, découvrir de nouvelles catégories avec une base de connaissances fixe est contre-intuitif, car le potentiel d'apprentissage des données entrantes est entièrement négligé. De plus, la quantification des caractéristiques introduit une perte d'information, diminue l'expressivité représentationnelle et amplifie la variance intra-classe. Elle entraîne souvent une explosion des catégories, où une seule classe est fragmentée en plusieurs pseudo-classes. Pour surmonter ces limitations, nous proposons un cadre d'adaptation en phase de test qui permet l'apprentissage par la découverte. Il intègre deux stratégies complémentaires : une mise à jour de prototype sensible à la sémantique et une mise à jour stable de l'encodeur en phase de test. La première affine dynamiquement les prototypes de classe pour améliorer la classification, tandis que la seconde intègre directement les nouvelles informations dans l'espace des paramètres. Ensemble, ces composants permettent au modèle d'étendre continuellement sa base de connaissances avec les échantillons nouvellement rencontrés. Par ailleurs, nous introduisons un calibrage des logits tenant compte de la marge lors de l'étape hors ligne pour élargir les marges inter-classes et améliorer la compacité intra-classe, réservant ainsi un espace d'incorporation pour la future découverte de classes. Les expériences sur les benchmarks OCD standard démontrent que notre méthode surpasse substantiellement les approches état de l'art existantes basées sur le hachage, produisant des améliorations notables de la précision sur les nouvelles classes et atténuant efficacement l'explosion des catégories. Le code est publiquement disponible à l'adresse blue{https://github.com/ynanwu/TALON}.
Tout le monde peut écrire ses histoires sous forme de texte libre – c'est une compétence que nous apprenons tous à l'école. Pourtant, la narration par la vidéo nécessite l'apprentissage d'outils spécialisés et complexes. Dans cet article, nous présentons Doki, une interface native texte pour la création générative de vidéos, alignant la production vidéo sur le processus naturel de l'écriture textuelle. Dans Doki, l'écriture de texte est l'interaction principale : au sein d'un seul document, les utilisateurs définissent les assets, structurent les scènes, créent les plans, affinent le montage et ajoutent l'audio. Nous articulons les principes de conception de cette approche axée sur le texte et démontrons les capacités de Doki à travers une série d'exemples. Pour évaluer son utilisation en conditions réelles, nous avons mené une étude de déploiement d'une semaine avec des participants aux compétences variées en création vidéo. Ce travail propose un changement fondamental dans les interfaces de vidéo générative, démontrant une nouvelle manière puissante et accessible de façonner des histoires visuelles.
L'inférence à contexte long dans les grands modèles de langage est limitée par le chargement du cache Clé-Valeur (KV) lors de l'étape de décodage, où la nature séquentielle de la génération nécessite de transférer répétitivement le cache KV de la mémoire haute bande passante (HBM) externe vers la mémoire statique à accès aléatoire (SRAM) interne à chaque étape. Bien que l'attention latente multi-têtes (MLA) réduise considérablement la taille totale du cache KV, elle souffre d'un goulot d'étranglement de partitionnement lors du décodage distribué via le parallélisme par tenseurs (TP). Puisque sa tête latente unique ne peut pas être partitionnée, chaque dispositif est contraint de charger redondamment le cache KV complet pour chaque token, consommant un trafic mémoire excessif et réduisant les avantages du TP comme le partitionnement des poids. Dans ce travail, nous proposons l'attention à faible rang multi-têtes (MLRA), qui permet des états latents partitionnables pour un décodage TP à 4 voies efficace. Des expériences approfondies montrent que MLRA atteint une perplexité et des performances sur tâches en aval à l'état de l'art, tout en offrant une accélération du décodage de 2,8 fois par rapport à MLA. Le code est disponible à l'adresse https://github.com/SongtaoLiu0823/MLRA. Les poids pré-entraînés, ainsi que les données d'entraînement et d'évaluation, sont disponibles à l'adresse https://huggingface.co/Soughing/MLRA.