papers.description
Les grands modèles de langage (LLM) ont fondamentalement transformé le développement logiciel automatisé en permettant la traduction directe de descriptions en langage naturel en code fonctionnel, stimulant ainsi l'adoption commerciale grâce à des outils tels que Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) et Claude Code (Anthropic). Bien que le domaine ait considérablement évolué, passant de systèmes basés sur des règles à des architectures fondées sur les Transformers, permettant d'atteindre des améliorations de performance allant de taux de réussite à un chiffre à plus de 95 % sur des benchmarks comme HumanEval. Dans ce travail, nous proposons une synthèse complète et un guide pratique (une série d'expériences analytiques et exploratoires) sur les LLM pour le code, en examinant systématiquement le cycle de vie complet des modèles, de la curation des données au post-entraînement, en passant par les paradigmes de prompting avancés, le pré-entraînement sur le code, le fine-tuning supervisé, l'apprentissage par renforcement et les agents de codage autonomes. Nous analysons les capacités en génération de code des LLM généraux (GPT-4, Claude, LLaMA) et des LLM spécialisés dans le code (StarCoder, Code LLaMA, DeepSeek-Coder et QwenCoder), en examinant de manière critique les techniques, les décisions de conception et les compromis. De plus, nous articulons l'écart entre la recherche et la pratique, entre la recherche académique (par exemple, les benchmarks et les tâches) et le déploiement réel (par exemple, les tâches de code liées au logiciel), incluant la correction du code, la sécurité, la conscience contextuelle des grandes bases de code et l'intégration aux flux de travail de développement, et nous cartographions les directions de recherche prometteuses en fonction des besoins pratiques. Enfin, nous menons une série d'expériences pour fournir une analyse complète du pré-entraînement sur le code, du fine-tuning supervisé et de l'apprentissage par renforcement, couvrant les lois d'échelle, la sélection des frameworks, la sensibilité des hyperparamètres, les architectures de modèles et les comparaisons de jeux de données.
Les grands modèles multimodaux (LMM) ont démontré un potentiel considérable pour le raisonnement vidéo grâce à la Chaîne de Pensée textuelle. Cependant, ils restent vulnérables aux hallucinations, particulièrement lors du traitement de vidéos longues où les preuves sont rares et temporellement dispersées. Inspirés par la manière dont les humains comprennent les vidéos longues – en parcourant d'abord globalement puis en examinant les clips pertinents pour les détails – nous introduisons LongVT, un cadre agentiel de bout en bout qui permet de « Penser avec les Vidéos Longues » via une Chaîne de Pensée-Outils Multimodale entrelacée. Spécifiquement, nous exploitons la capacité inhérente d'ancrage temporel des LMM comme un outil natif de rognage vidéo pour zoomer sur un clip vidéo spécifique et rééchantillonner des images vidéo plus fines. Cette boucle de raisonnement globale-à-locale se poursuit jusqu'à ce que les réponses soient ancrées dans des preuves visuelles récupérées. Compte tenu de la rareté des données de questions-réponses (QR) granulaires pour la tâche de raisonnement sur vidéo longue, nous avons constitué et publierons une suite de données nommée VideoSIAH pour faciliter l'entraînement et l'évaluation. Spécifiquement, notre jeu de données d'entraînement se compose respectivement de 247,9 k échantillons pour le réglage fin supervisé à froid intégrant des outils, de 1,6 k échantillons pour l'apprentissage par renforcement agentique et de 15,4 k échantillons pour le réglage fin par renforcement agentique. Notre benchmark d'évaluation comprend 1 280 paires de questions-réponses soigneusement constituées via un pipeline de données semi-automatique avec validation humaine en boucle. Grâce à une stratégie d'entraînement en trois étapes méticuleusement conçue et une validation empirique extensive, LongVT surpasse constamment les solides bases de référence existantes sur quatre benchmarks exigeants de compréhension et de raisonnement sur vidéo longue. Nos codes, données et points de contrôle de modèle sont disponibles publiquement à l'adresse https://github.com/EvolvingLMMs-Lab/LongVT.
Les modèles multimodaux actuels visent à transcender les limitations des représentations unimodales en unifiant la compréhension et la génération, utilisant souvent les tâches texte-image (T2I) pour calibrer la cohérence sémantique. Cependant, leur dépendance à la génération d'images statiques uniques lors de l'entraînement et de l'évaluation conduit à un surapprentissage du couplage de motifs statiques et de la fusion sémantique, tout en entravant fondamentalement leur capacité à modéliser les processus dynamiques qui se déroulent dans le temps. Pour répondre à ces contraintes, nous proposons Envision - un benchmark de progression événementielle causale pour la génération chaînée de texte vers multiples images. Ancré dans la connaissance du monde et structuré par la causalité spatiotemporelle, il réorganise les dimensions d'évaluation existantes et inclut 1 000 prompts en quatre étapes couvrant six domaines scientifiques et humains. Pour faire passer l'évaluation des images uniques aux séquences d'images et évaluer si les modèles internalisent véritablement les connaissances mondiales tout en respectant les contraintes causales-temporelles, nous introduisons Envision-Score, une métrique holistique intégrant la cohérence multidimensionnelle, la physicalité et l'esthétique. L'évaluation complète de 15 modèles (10 modèles T2I spécialisés, 5 modèles unifiés) révèle que : les modèles T2I spécialisés démontrent une compétence en rendu esthétique mais manquent de connaissances mondiales intrinsèques. Les modèles multimodaux unifiés comblent cet écart, surpassant systématiquement leurs homologues spécialisés en cohérence narrative causale. Cependant, même ces architectures unifiées restent inférieures aux modèles propriétaires et peinent à surmonter le défi fondamental de la cohérence spatiotemporelle. Cela démontre qu'une focalisation sur les images uniques causalement isolées entrave le raisonnement et la génération multiframes, favorisant le couplage de motifs statiques plutôt que la modélisation du monde dynamique - limitant finalement l'internalisation des connaissances mondiales et la génération.
Ce travail propose une formulation novatrice pour l'apprentissage par renforcement (RL) avec des grands modèles de langage, expliquant pourquoi et sous quelles conditions la récompense séquentielle réelle peut être optimisée via un objectif substitut au niveau des tokens dans les méthodes de gradient de politique telles que REINFORCE. Plus précisément, grâce à une approximation du premier ordre, nous démontrons que ce substitut devient valide uniquement lorsque l'écart entraînement-inférence et la péremption de la politique sont minimisés. Cette analyse fournit une explication fondamentale du rôle crucial de plusieurs techniques largement adoptées pour stabiliser l'entraînement par RL, incluant la correction par échantillonnage préférentiel, l'écrêtage, et particulièrement le Réacheminement par Rejeu (Routing Replay) pour les modèles de type Mixture d'Experts (MoE). À travers des expériences approfondies sur un modèle MoE de 30B totalisant des centaines de milliers d'heures GPU, nous montrons que pour un entraînement sur-politique, l'algorithme de base de gradient de politique avec correction par échantillonnage préférentiel atteint la plus grande stabilité d'entraînement. Lorsque des mises à jour hors-politique sont introduites pour accélérer la convergence, la combinaison de l'écrêtage et du Réacheminement par Rejeu devient essentielle pour atténuer l'instabilité causée par la péremption de la politique. Il est à noter qu'une fois l'entraînement stabilisé, une optimisation prolongée produit systématiquement des performances finales comparables, indépendamment de l'initialisation à froid. Nous espérons que les analyses partagées et les méthodes développées pour un entraînement RL stable faciliteront les recherches futures.
Les agents de recherche approfondie (Deep Research Agents - DRA) visent à produire automatiquement des rapports de niveau analyste grâce à une itération de recherche et de synthèse d'informations. Cependant, la plupart des DRA existants ont été validés sur des benchmarks de question-réponse, tandis que la recherche sur la génération de rapports complets reste négligée. Pire, les benchmarks actuels pour la synthèse de rapports souffrent d'une complexité des tâches et de métriques subjectives, ce qui ne reflète pas les demandes des utilisateurs et limite l'utilité pratique des rapports générés. Pour combler ces lacunes, nous présentons FINDER (Fine-grained DEepResearch bench), un benchmark amélioré composé de 100 tâches de recherche organisées par des humains, avec 419 éléments de checklist structurés qui standardisent la structure du rapport, la profondeur analytique et l'ancrage factuel. Sur la base d'environ 1 000 rapports produits par des DRA grand public, nous proposons en outre DEFT (Deep rEsearch Failure Taxonomy), la première taxonomie des échecs pour les agents de recherche approfondie. DEFT contient 14 modes d'échec granulaires couvrant le raisonnement, la recherche et la génération, et est construit sur la théorie ancrée avec une co-annotation humain-LLM et une validation de la fiabilité inter-annotateurs. Nos résultats expérimentaux révèlent que les DRA actuels éprouvent des difficultés non pas avec la compréhension des tâches, mais avec l'intégration des preuves, leur vérification et la planification résiliente au raisonnement.
Les modèles récents de diffusion vidéo peuvent synthétiser des séquences visuellement convaincantes, mais violent souvent les lois physiques fondamentales : les objets flottent, les accélérations dérivent et les collisions se comportent de manière incohérente, révélant un écart persistant entre le réalisme visuel et le réalisme physique. Nous proposons NewtonRewards, le premier cadre de post-formation ancré dans la physique pour la génération de vidéos, basé sur des récompenses vérifiables. Au lieu de s'appuyer sur des retours humains ou des modèles de langage visuel (VLM), NewtonRewards extrait des indicateurs mesurables des vidéos générées en utilisant des modèles utilitaires figés : le flux optique sert d'indicateur pour la vitesse, tandis que les caractéristiques d'apparence de haut niveau servent d'indicateur pour la masse. Ces indicateurs permettent l'imposition explicite d'une structure newtonienne via deux récompenses complémentaires : une contrainte cinématique newtonienne imposant une dynamique à accélération constante, et une récompense de conservation de la masse empêchant les solutions triviales et dégénérées. Nous évaluons NewtonRewards sur cinq primitives de mouvement newtonien (chute libre, lancé horizontal/parabolique, et glissement sur rampe vers le bas/haut) en utilisant notre nouveau benchmark à grande échelle, NewtonBench-60K. Sur toutes les primitives et selon les métriques visuelles et physiques, NewtonRewards améliore constamment la plausibilité physique, la fluidité du mouvement et la cohérence temporelle par rapport aux méthodes de post-formation antérieures. Il maintient également des performances solides face à des changements hors distribution concernant la hauteur, la vitesse et les frottements. Nos résultats montrent que les récompenses vérifiables ancrées dans la physique offrent une voie évolutive vers une génération de vidéos consciente des lois physiques.
Les travaux antérieurs ont exploré diverses tâches de génération personnalisée à partir d'une image de référence, mais ils peinent encore à produire des détails fins et cohérents. Dans cet article, notre objectif est de résoudre le problème d'incohérence des images générées en appliquant une approche de post-édition guidée par référence, et nous présentons notre méthode ImageCritic. Nous construisons d'abord un jeu de données de triplets référence-dégradé-cible obtenus via une sélection basée sur un modèle de langage visuel (VLM) et une dégradation explicite, qui simule efficacement les inexactitudes ou incohérences courantes observées dans les modèles de génération existants. De plus, en nous appuyant sur un examen approfondi des mécanismes d'attention et des représentations intrinsèques du modèle, nous concevons une fonction de perte d'alignement attentionnel et un encodeur de détails pour rectifier précisément les incohérences. ImageCritic peut être intégré dans un cadre d'agent pour détecter automatiquement les incohérences et les corriger via des éditions multi-tours et locales dans des scénarios complexes. Des expériences approfondies démontrent qu'ImageCritic peut résoudre efficacement les problèmes liés aux détails dans divers scénarios de génération personnalisée, apportant des améliorations significatives par rapport aux méthodes existantes.
Les modèles de diffusion vidéo autorégressifs actuels sont limités par trois goulots d'étranglement fondamentaux : (i) l'horizon temporel fini imposé par l'encodage positionnel rotatif 3D (3D-RoPE) du modèle de base, (ii) une lente réactivité aux prompts pour maintenir un contrôle précis des actions lors de générations longues, et (iii) l'incapacité à réaliser des transitions cinématographiques discontinues dans un seul flux de génération. Nous présentons infty-RoPE, un cadre d'inférence unifié qui résout ces trois limitations via trois composants interconnectés : le RoPE block-relativiste, le KV Flush et le RoPE Cut. Le RoPE block-relativiste reformule l'encodage temporel comme un référentiel local mobile, où chaque nouveau bloc latent généré est rotatif par rapport à l'horizon temporel maximal du modèle de base, tandis que les blocs antérieurs sont pivotés vers l'arrière pour préserver la géométrie temporelle relative. Cette formulation relativiste élimine les positions temporelles fixes, permettant une génération vidéo continue bien au-delà des limites positionnelles de base. Pour obtenir un contrôle granulaire des actions sans ré-encodage, KV Flush renouvelle le cache KV en ne conservant que deux images latentes : le point d'ancrage global et la dernière image latente générée, garantissant ainsi une réactivité immédiate au prompt. Enfin, RoPE Cut introduit des discontinuités contrôlées dans les coordonnées RoPE temporelles, permettant des transitions scéniques multi-plans dans un déroulement continu unique. Ensemble, ces composants établissent infty-RoPE comme une fondation sans apprentissage pour la diffusion vidéo à horizon infini, contrôlable et cinématographique. Des expériences exhaustives montrent qu'infty-RoPE surpasse constamment les modèles autorégressifs précédents dans les scores globaux VBench.
Les modèles multimodaux unifiés (UMM) visent à réaliser conjointement la compréhension et la génération multimodales au sein d'un même cadre. Nous présentons TUNA, un UMM natif qui construit une représentation visuelle continue unifiée en cascadant un encodeur VAE avec un encodeur de représentation. Cet espace de représentation unifié permet un traitement de bout en bout des images et des vidéos pour les tâches de compréhension et de génération. Comparé aux UMM antérieurs avec représentations découplées, l'espace visuel unifié de TUNA évite les inadéquations de format de représentation introduites par des encodeurs séparés, surpassant les alternatives découplées à la fois en compréhension et en génération. De plus, nous observons que des encodeurs de représentation pré-entraînés plus performants produisent systématiquement de meilleurs résultats sur l'ensemble des tâches multimodales, soulignant l'importance de l'encodeur de représentation. Enfin, dans ce cadre unifié, l'apprentissage conjoint sur des données de compréhension et de génération permet aux deux tâches de bénéficier l'une de l'autre plutôt que d'interférer. Nos expériences approfondies sur des benchmarks de compréhension et de génération multimodales montrent que TUNA obtient des résultats state-of-the-art en compréhension d'images et de vidéos, en génération d'images et de vidéos, et en édition d'images, démontrant l'efficacité et l'évolutivité de sa conception de représentation unifiée.
Nous présentons LFM2, une famille de modèles de fondation liquide conçus pour un déploiement efficace sur appareil et de solides capacités multitâches. En utilisant une recherche d'architecture en boucle fermée avec des contraintes matérielles de latence et de mémoire en environnement edge, nous obtenons un backbone hybride compact qui combine des convolutions courtes à porte avec un petit nombre de blocs d'attention à requêtes groupées, offrant jusqu'à 2 fois plus de rapidité en préremplissage et décodage sur CPU par rapport à des modèles de taille similaire. La famille LFM2 couvre des paramètres de 350M à 8,3B, incluant des modèles denses (350M, 700M, 1,2B, 2,6B) et une variante à mixture d'experts (8,3B totaux, 1,5B actifs), tous avec une longueur de contexte de 32K. Le pipeline d'entraînement de LFM2 intègre un objectif de distillation de connaissances Top-K tempéré et découplé qui évite les incompatibilités de support ; un apprentissage curriculaire avec des données ordonnées par difficulté ; et une recette post-entraînement en trois étapes : fine-tuning supervisé, optimisation des préférences à longueur normalisée et fusion de modèles. Pré-entraînés sur 10 à 12 billions de tokens, les modèles LFM2 obtiennent de solides résultats sur divers benchmarks ; par exemple, LFM2-2.6B atteint 79,56 % sur IFEval et 82,41 % sur GSM8K. Nous développons également des variantes multimodales et de recherche : LFM2-VL pour les tâches vision-langage, LFM2-Audio pour la parole et LFM2-ColBERT pour la recherche d'information. LFM2-VL prend en charge des compromis précision-latence ajustables via un traitement visuel économe en tokens, tandis que LFM2-Audio sépare les voies d'entrée et de sortie audio pour permettre une interaction parole-à-parole en temps réel, rivalisant avec des modèles 3 fois plus grands. LFM2-ColBERT fournit un encodeur à faible latence pour les requêtes et documents, permettant une recherche haute performance multilingue. Tous les modèles sont publiés avec des poids ouverts et des packages de déploiement pour ExecuTorch, llama.cpp et vLLM, faisant de LFM2 une base pratique pour les applications edge nécessitant une inférence rapide, économe en mémoire et de solides capacités multitâches.
Les graphes de connaissances (KG) fournissent un ancrage structuré et vérifiable aux grands modèles de langage (LLM), mais les systèmes actuels basés sur les LLM utilisent généralement les KG comme structures auxiliaires pour la recherche de texte, laissant leur qualité intrinsèque sous-explorée. Dans ce travail, nous proposons Wikontic, un pipeline multi-étapes qui construit des KG à partir de texte ouvert en extrayant des triplets candidats avec qualificatifs, en appliquant des contraintes de types et de relations basées sur Wikidata, et en normalisant les entités pour réduire la duplication. Les KG résultants sont compacts, cohérents avec une ontologie et bien connectés ; sur MuSiQue, l'entité de réponse correcte apparaît dans 96 % des triplets générés. Sur HotpotQA, notre configuration utilisant uniquement les triplets atteint un F1 de 76,0, et sur MuSiQue un F1 de 59,8, égalant ou surpassant plusieurs modèles de référence à génération augmentée par retrieval qui nécessitent encore un contexte textuel. De plus, Wikontic obtient une performance de rétention d'information de pointe sur le benchmark MINE-1 (86 %), surpassant les méthodes précédentes de construction de KG. Wikontic est également efficace en temps de construction : la création du KG utilise moins de 1 000 tokens en sortie, soit environ 3 fois moins qu'Artigraph et <1/20 de GraphRAG. Le pipeline proposé améliore la qualité du KG généré et offre une solution évolutive pour exploiter les connaissances structurées dans les LLM.
Les récents progrès des grands modèles de langage (LLM) sont portés par leurs capacités émergentes de raisonnement, notamment via l'utilisation de prompts à longue chaîne de pensée (CoT), qui permettent une exploration et une délibération approfondies. Malgré ces avancées, les LLM utilisant de longues chaînes CoT présentent souvent des comportements de raisonnement sous-optimaux, tels que la surréflexion et des chaînes de raisonnement excessivement prolongées, pouvant altérer les performances. Dans cet article, nous analysons les processus de raisonnement sous l'angle de l'optimisation, en conceptualisant la CoT comme une procédure de descente de gradient où chaque étape de raisonnement constitue une mise à jour vers la résolution du problème. Sur la base de cette perspective, nous introduisons RePro (Rectification par Récompense de Processus), une approche novatrice pour affiner le raisonnement des LLM lors du post-entraînement. RePro définit une fonction objectif de substitution pour évaluer le processus d'optimisation sous-jacent à la CoT, utilisant un mécanisme de double évaluation pour quantifier son intensité et sa stabilité. Ces scores sont agrégés en une récompense composite au niveau processus, intégrée de manière transparente dans des pipelines d'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour optimiser les LLM. Des expériences approfondies avec plusieurs algorithmes d'apprentissage par renforcement et divers LLM, évaluées sur des benchmarks couvrant les mathématiques, les sciences et la programmation, démontrent que RePro améliore constamment les performances de raisonnement et atténue les comportements de raisonnement sous-optimaux.
Les modèles de diffusion sont devenus une classe prédominante de modèles génératifs, mais leur processus d'échantillonnage itératif reste coûteux en calcul. La distillation des pas de temps est une technique prometteuse pour accélérer la génération, mais elle nécessite souvent un entraînement intensif et entraîne une dégradation de la qualité de l'image. De plus, le réglage fin de ces modèles distillés pour des objectifs spécifiques, tels que l'attrait esthétique ou les préférences des utilisateurs, à l'aide de l'apprentissage par renforcement (RL), est notoirement instable et tombe facilement dans le détournement de récompense. Dans ce travail, nous présentons Flash-DMD, un nouveau cadre qui permet une convergence rapide avec distillation et un raffinement conjoint basé sur le RL. Plus précisément, nous proposons d'abord une stratégie de distillation efficace prenant en compte les pas de temps, qui réduit significativement le coût d'entraînement tout en améliorant le réalisme, surpassant DMD2 avec seulement 2,1 % de son coût d'entraînement. Deuxièmement, nous introduisons un schéma d'entraînement conjoint où le modèle est affiné avec un objectif de RL tandis que l'entraînement de distillation des pas de temps se poursuit simultanément. Nous démontrons que la perte stable et bien définie provenant de la distillation en cours agit comme un régularisateur puissant, stabilisant efficacement le processus d'entraînement RL et empêchant l'effondrement de la politique. Des expériences approfondies sur les modèles basés sur le score et l'appariement de flux montrent que notre Flash-DMD proposé converge non seulement beaucoup plus rapidement, mais atteint également une qualité de génération de pointe dans le régime d'échantillonnage à faible nombre d'étapes, surpassant les méthodes existantes en termes de qualité visuelle, de préférence humaine et de métriques d'alignement texte-image. Notre travail présente un paradigme efficace pour l'entraînement de modèles génératifs efficaces, fidèles et stables. Les codes seront bientôt disponibles.
Les modèles vision-langage-action (VLA) deviennent de plus en plus performants sur diverses tâches robotiques. Cependant, leur déploiement en conditions réelles reste lent et inefficace : les vidéos de démonstration sont souvent accélérées de 5 à 10 fois pour paraître fluides, avec des blocages d'action notables et des réactions retardées aux changements environnementaux. L'inférence asynchrone offre une solution prometteuse pour réaliser un contrôle continu à faible latence en permettant aux robots d'exécuter des actions et d'effectuer des inférences simultanément. Cependant, comme le robot et l'environnement continuent d'évoluer pendant l'inférence, un décalage temporel apparaît entre les intervalles de prédiction et d'exécution. Cela entraîne une instabilité d'action significative, tandis que les méthodes existantes dégradent soit la précision, soit introduisent une surcharge computationnelle pour l'atténuer. Nous proposons VLASH, un cadre d'inférence asynchrone général pour les VLA qui fournit un contrôle réactif fluide, précis et rapide sans surcharge supplémentaire ni modifications architecturales. VLASH estime l'état futur au moment de l'exécution en faisant avancer l'état du robot avec le segment d'action précédemment généré, comblant ainsi l'écart entre prédiction et exécution. Les expériences montrent que VLASH atteint jusqu'à 2,03 fois d'accélération et réduit la latence réactionnelle jusqu'à 17,4 fois par rapport à l'inférence synchrone tout en préservant intégralement la précision originale. De plus, il permet aux VLA de gérer des tâches à réaction rapide et haute précision comme jouer au ping-pong ou à la taupe, où l'inférence synchrone traditionnelle échoue. Le code est disponible à l'adresse https://github.com/mit-han-lab/vlash
Nous présentons GR-RL, un cadre d'apprentissage robotique qui transforme une politique vision-langage-action (VLA) généraliste en un spécialiste hautement performant pour la manipulation dextre à long terme. L'optimalité des démonstrations humaines est un postulat central des politiques VLA existantes. Cependant, nous affirmons que dans les tâches de manipulation hautement dextres et précises, les démonstrations humaines sont bruitées et sous-optimales. GR-RL propose un pipeline d'entraînement multi-étapes qui filtre, augmente et renforce les démonstrations par apprentissage par renforcement. Premièrement, GR-RL apprend une fonction de progression de tâche conditionnée par la vision et le langage, filtre les trajectoires de démonstration et ne conserve que les transitions qui contribuent positivement à la progression. Plus précisément, nous montrons qu'en appliquant directement un RL hors-ligne avec une récompense éparse, les valeurs Q résultantes peuvent être interprétées comme une fonction de progression robuste. Ensuite, nous introduisons une augmentation par symétrie morphologique qui améliore considérablement la généralisation et les performances de GR-RL. Enfin, pour mieux aligner la politique VLA avec ses comportements en déploiement pour un contrôle de haute précision, nous effectuons un RL en ligne en apprenant un prédicteur de bruit dans l'espace latent. Grâce à ce pipeline, GR-RL est, à notre connaissance, la première politique basée sur l'apprentissage capable de lacer une chaussure de manière autonome en passant les lacets à travers plusieurs œillets avec un taux de réussite de 83,3 %, une tâche nécessitant un raisonnement à long terme, une précision au niveau millimétrique et une interaction conforme avec des corps mous. Nous espérons que GR-RL constitue une avancée vers la spécialisation des modèles de fondation robotiques généralistes en experts fiables pour le monde réel.
Le pré-entraînement à grande échelle sur des paires vidéo-texte obtient de fortes performances, mais il dépend de légendes synthétiques bruitées ayant une couverture sémantique limitée, négligeant souvent les connaissances implicites du monde telles que le mouvement des objets, la géométrie 3D et les indices physiques. En revanche, la modélisation de vidéos masquées (MVM) exploite directement les structures spatiotemporelles, mais reste à la traîne des méthodes supervisées par le texte sur les tâches générales. Nous constatons que cet écart provient de problèmes architecturaux négligés : la reconstruction au niveau des pixels peine à converger et son exigence de bas niveau entre souvent en conflit avec la sémantique, tandis que la prédiction latente encourage souvent l'apprentissage de raccourcis. Pour y remédier, nous dissocions la conception traditionnelle encodeur-décodeur en un cadre Encodeur-Prédicteur-Décodeur (EPD), où le prédicteur agit comme un modèle latent du monde, et nous proposons InternVideo-Next, un schéma de pré-entraînement en deux étapes qui construit un espace latent sémantiquement cohérent tout en préservant les détails pour ce modèle du monde. Premièrement, le décodeur linéaire conventionnel dans la MVM pixel impose que la sortie latente du prédicteur soit projetée linéairement, et donc séparable dans l'espace pixel, causant un conflit avec l'abstraction sémantique. Notre Étape 1 propose un décodeur à diffusion conditionnelle et injecte des préconnaissances sémantiques fiables au niveau de l'image pour améliorer la sémantique et la convergence, créant ainsi un pont entre la fidélité au niveau pixel et l'abstraction sémantique de haut niveau. L'Étape 2 apprend davantage de connaissances du monde en prédisant les cibles gelées de l'Étape 1 au sein de cet espace, atténuant ainsi l'apprentissage de raccourcis. Entraîné sur des vidéos publiques non étiquetées, InternVideo-Next obtient des résultats state-of-the-art sur divers benchmarks et offre une voie évolutive vers l'apprentissage de représentations vidéo générales.
Les modèles génératifs à flux ont récemment démontré des performances remarquables, mais l'échantillonnage repose généralement sur une intégration numérique coûteuse d'équations différentielles ordinaires (EDO). Rectified Flow permet un échantillonnage en une étape en apprenant des chemins de probabilité quasi rectilignes, mais atteindre une telle rectitude nécessite de multiples itérations de reflux computationnellement intensives. MeanFlow réalise une génération en une étape en modélisant directement la vitesse moyenne dans le temps ; cependant, lorsqu'il est entraîné sur des flux fortement courbés, il souffre d'une convergence lente et d'une supervision bruitée. Pour résoudre ces limitations, nous proposons Rectified MeanFlow, un cadre qui modélise le champ de vitesse moyenne le long de la trajectoire rectifiée en utilisant seulement une seule étape de reflux. Cela élimine le besoin de trajectoires parfaitement rectilignes tout en permettant un entraînement efficace. De plus, nous introduisons une heuristique de troncature simple mais efficace qui vise à réduire la courbure résiduelle et à améliorer davantage les performances. Des expériences approfondies sur ImageNet aux résolutions 64, 256 et 512 montrent que Re-MeanFlow surpasse constamment les méthodes antérieures de distillation de flux en une étape et les méthodes Rectified Flow, tant en qualité d'échantillon qu'en efficacité d'entraînement. Le code est disponible à l'adresse https://github.com/Xinxi-Zhang/Re-MeanFlow.
Dans cet article, nous soulignons que l'objectif des algorithmes de recherche est de s'aligner sur le LLM, ce qui est similaire à l'objectif de la distillation des connaissances dans les LLM. Nous analysons la similarité dans la focalisation de l'information entre le modèle de langage distillé (DLM) et le LLM original sous l'angle de la théorie de l'information, et proposons ainsi un nouveau paradigme qui exploite un DLM comme algorithme de recherche. Sur la base de cette idée, nous présentons SpeContext, une conception conjointe algorithme-système pour le raisonnement en contexte long. (1) Au niveau algorithmique, SpeContext propose une tête de récupération légère basée sur les poids d'attention au niveau des têtes du DLM, réalisant une réduction de > 90 % des paramètres par élagage de la redondance. (2) Au niveau système, SpeContext conçoit un flux de données à préchargement asynchrone via une stratégie de chargement élastique, chevauchant efficacement la récupération du cache KV avec le calcul du LLM. (3) Au niveau de la compilation, SpeContext construit un modèle mémoire théorique et implémente un système de gestion de mémoire adaptatif pour réaliser une accélération en maximisant l'utilisation de la mémoire GPU. Nous déployons et évaluons SpeContext dans deux environnements à ressources limitées, cloud et edge. Des expériences approfondies montrent que, par rapport au framework Huggingface, SpeContext atteint une amélioration du débit allant jusqu'à 24.89x dans le cloud et une accélération de 10.06x en edge avec une perte de précision négligeable, repoussant ainsi la frontière de Pareto entre la précision et le débit.
Les modèles de langage de grande taille pour vidéos en flux continu (VideoLLMs) démontrent des performances impressionnantes sur diverses tâches de compréhension vidéo, mais leur déploiement en temps réel est entravé par le coût computationnel élevé du traitement des tokens visuels denses provenant de flux vidéo continus. Dans les scénarios de vidéo en streaming, le goulot d'étranglement principal se situe au niveau de l'étape d'encodage par Vision Transformer (ViT), où le traitement redondant de frames temporellement similaires entraîne une inefficacité. De plus, les séquences de tokens gonflées lors du pré-remplissage du LLM exacerbent davantage la latence et la surcharge mémoire. Pour relever ces défis, nous proposons Streaming Token Compression (STC), un framework hiérarchique plug-and-play qui s'intègre de manière transparente aux VideoLLMs en flux continu existants, optimisant à la fois les étapes d'encodage ViT et de pré-remplissage LLM pour accélérer le traitement. STC introduit deux accélérateurs au niveau des tokens : STC-Cacher, qui réduit la surcharge d'encodage ViT en mettant en cache et en réutilisant les caractéristiques des frames temporellement similaires, et STC-Pruner, qui compresse la séquence de tokens visuels avant qu'elle n'entre dans le LLM, ne conservant que les tokens les plus saillants basés sur la pertinence spatiale et temporelle. Des expériences approfondies sur quatre VideoLLMs en streaming de référence à travers cinq benchmarks démontrent que STC surpasse les autres méthodes de compression. Notably, STC conserve jusqu'à 99 % de la précision sur le framework ReKV tout en réduisant la latence d'encodage ViT et la latence de pré-remplissage LLM de 24,5 % et 45,3 %.
Les grands modèles de langage (LLM) sous-tendent des applications dans la génération de code, le raisonnement mathématique et les workflows à base d'agents. En pratique, les systèmes accèdent aux LLM via des API commerciales ou des déploiements open-source, et le paysage des modèles (par exemple GPT, Claude, Llama) évolue rapidement. Cette évolution rapide impose des changements fréquents de modèles, motivés par les capacités, le coût, les contraintes de déploiement et la confidentialité. Pourtant, les *prompts* sont très sensibles au modèle : réutiliser un *prompt* conçu pour un modèle sur un autre donne souvent des performances bien inférieures à celles d'un *prompt* optimisé pour le modèle cible. Nous nommons ce phénomène *Model Drifting* (Dérive de Modèle). Par une analyse empirique approfondie sur diverses configurations de LLM, nous montrons que la dérive de modèle est à la fois fréquente et sévère. Pour relever ce défi, nous présentons PromptBridge, un cadre sans entraînement qui préserve l'efficacité des *prompts* lors de changements de modèle, permettant un transfert de *prompt* inter-modèle sans coûteuse ré-optimisation par tâche ou par modèle. PromptBridge ne nécessite qu'un petit ensemble de tâches d'alignement pour l'étalonnage. Il applique d'abord l'Évolution Réfléchie de *Prompt* Adaptatif au Modèle (MAP-RPE) pour obtenir des *prompts* optimaux spécifiques à la tâche et au modèle via un raffinement réfléchi itératif et une évaluation quantitative. En utilisant les paires de *prompts* étalonnés résultantes pour les modèles source et cible, PromptBridge apprend un mapping de *prompt* inter-modèle. Au moment du test, c'est-à-dire pour une tâche non vue, étant donné un *prompt* pour le modèle source, ce mapping produit directement un *prompt* optimisé pour le modèle cible. Les expériences en settings mono-agent et multi-agent montrent que PromptBridge améliore constamment la précision en aval tout en réduisant l'effort de migration. Le code sera bientôt disponible.
L'ajustement du calcul au moment du test est apparu comme un paradigme puissant pour améliorer le raisonnement mathématique des grands modèles de langage (LLM) en allouant des ressources computationnelles supplémentaires lors de l'inférence. Cependant, les méthodes actuelles emploient une distribution uniforme des ressources sur tous les sous-problèmes de raisonnement, créant des goulots d'étranglement fondamentaux où les sous-problèmes difficiles reçoivent une attention insuffisante tandis que les opérations routinières consomment des ressources disproportionnées. Cette allocation uniforme crée des limites de performance où les ressources computationnelles supplémentaires produisent des rendements décroissants. Inspiré par la théorie du double processus, nous proposons SCALE (Allocation SÉlective des Ressources), un cadre qui alloue sélectivement les ressources computationnelles en fonction de la difficulté du sous-problème. SCALE fonctionne en quatre étapes : (1) la décomposition du problème en sous-problèmes de raisonnement séquentiels, (2) l'évaluation de la difficulté de chaque sous-problème pour distinguer les opérations routinières des sous-problèmes computationnellement exigeants, (3) l'attribution sélective d'un mode de traitement entre le Système 1 pour les sous-problèmes simples et le Système 2 pour les sous-problèmes complexes, et (4) l'exécution séquentielle avec propagation du contexte. En concentrant les ressources sur les sous-problèmes difficiles tout en traitant efficacement les opérations routinières, SCALE obtient des améliorations substantielles de performance avec une utilisation supérieure des ressources. Des expériences approfondies démontrent que SCALE surpasse significativement les lignes de base d'ajustement uniforme, atteignant des gains de précision allant jusqu'à 13,75 points de pourcentage (de 57,50 % à 71,25 % sur AIME25) tout en réduisant les coûts computationnels de 33 % à 53 %, représentant une avancée majeure dans l'ajustement au moment du test qui répond aux limitations fondamentales des approches actuelles.
Les modèles multilingues de génération d'images à partir de texte (T2I) ont progressé rapidement en termes de réalisme visuel et d'alignement sémantique, et sont désormais largement utilisés. Pourtant, leurs résultats varient selon les contextes culturels : puisque la langue véhicule des connotations culturelles, les images synthétisées à partir d'invites multilingues devraient préserver une cohérence culturelle translinguistique. Nous menons une analyse complète montrant que les modèles T2I actuels produisent souvent des résultats culturellement neutres ou biaisés vers l'anglais avec des invites multilingues. L'analyse de deux modèles représentatifs indique que le problème ne provient pas d'un manque de connaissances culturelles, mais d'une activation insuffisante des représentations liées à la culture. Nous proposons une méthode de sondage qui localise les signaux sensibles à la culture dans un petit ensemble de neurones situés dans quelques couches fixes. Guidés par cette découverte, nous introduisons deux stratégies d'alignement complémentaires : (1) une activation culturelle à l'inférence qui amplifie les neurones identifiés sans fine-tuning du modèle de base ; et (2) un renforcement culturel ciblant des couches spécifiques qui ne met à jour que les couches culturellement pertinentes. Les expériences sur notre CultureBench démontrent des améliorations constantes par rapport aux bases de référence solides en matière de cohérence culturelle, tout en préservant la fidélité et la diversité.
La croissance rapide des tokens visuels dans les modèles de langage multimodaux de grande taille (MLLM) entraîne une consommation excessive de mémoire et une latence d'inférence élevée, particulièrement lors du traitement d'images et de vidéos en haute résolution. L'élagage de tokens est une technique utilisée pour atténuer ce problème en supprimant les redondances, mais les méthodes existantes négligent souvent la pertinence par rapport à la requête utilisateur ou souffrent des limitations des mécanismes d'attention, réduisant ainsi leur adaptabilité et leur efficacité. Pour relever ces défis, nous proposons Script, une méthode d'élagage prête à l'emploi qui ne nécessite pas de réentraînement et qui généralise à divers MLLM. Script comprend deux modules : un module d'élagage à structure graphique qui supprime les tokens visuels redondants, et un module d'élagage sémantique conditionné par la requête qui préserve les informations visuelles pertinentes. Ensemble, ils améliorent les performances sur les tâches multimodales. Les expériences menées sur quatorze benchmarks couvrant des tâches de compréhension d'images et de vidéos montrent que Script atteint constamment une meilleure efficacité du modèle et une précision prédictive supérieure par rapport aux méthodes d'élagage existantes. Sur LLaVA-NeXT-7B, il permet une accélération du préremplissage jusqu'à 6,8x et une réduction de 10x des FLOP, tout en conservant 96,88 % des performances originales.
La récupération de propriétés géométriques pixel par pixel à partir d'une seule image est fondamentalement mal posée en raison de l'ambiguïté d'apparence et des mappings non injectifs entre les observations 2D et les structures 3D. Bien que les modèles discriminants de régression obtiennent des performances élevées grâce à un apprentissage supervisé à grande échelle, leur succès est limité par l'échelle, la qualité et la diversité des données disponibles, ainsi que par un raisonnement physique restreint. Les récents modèles de diffusion exhibent de puissants a priori sur le monde qui encodent la géométrie et la sémantique apprises à partir de masses de données image-texte. Cependant, leur réutilisation directe via leur formulation générative stochastique est sous-optimale pour l'inférence géométrique déterministe : la première est optimisée pour une génération d'images diverse et de haute fidélité, tandis que la seconde nécessite des prédictions stables et précises. Dans ce travail, nous proposons Lotus-2, un cadre déterministe en deux étapes pour une prédiction dense géométrique stable, précise et à grain fin, visant à fournir un protocole d'adaptation optimal pour exploiter pleinement les a priori génératifs pré-entraînés. Plus précisément, dans la première étape, le prédicteur principal utilise une formulation déterministe en une seule étape avec un objectif de données propres et un module léger de continuité locale (LCM) pour générer des structures globalement cohérentes sans artéfacts de grille. Dans la seconde étape, l'accentueur de détails effectue un raffinement par flux rectifié multi-étapes contraint au sein de la variété définie par le prédicteur principal, améliorant la géométrie fine via un appariement de flux déterministe sans bruit. En utilisant seulement 59 000 échantillons d'entraînement, soit moins de 1 % des jeux de données à grande échelle existants, Lotus-2 établit de nouveaux records de l'état de l'art en estimation de profondeur monoculaire et des prédictions de normales de surface très compétitives. Ces résultats démontrent que les modèles de diffusion peuvent servir d'a priori déterministes sur le monde, permettant un raisonnement géométrique de haute qualité au-delà des paradigmes discriminants et génératifs traditionnels.
La compréhension vidéo en flux continu exige des modèles qu'ils traitent non seulement les images entrantes temporellement, mais aussi qu'ils anticipent l'intention de l'utilisateur pour des applications réalistes comme les lunettes de réalité augmentée. Si les benchmarks de streaming antérieurs évaluent le raisonnement temporel, aucun ne mesure si les MLLM peuvent interpréter ou exploiter les signaux du regard humain dans un contexte de flux continu. Pour combler cette lacune, nous présentons StreamGaze, le premier benchmark conçu pour évaluer l'efficacité avec laquelle les MLLM utilisent le regard pour le raisonnement temporel et proactif dans les vidéos en streaming. StreamGaze introduit des tâches passées, présentes et proactives guidées par le regard qui évaluent de manière exhaustive la compréhension vidéo en flux continu. Ces tâches évaluent si les modèles peuvent utiliser le regard en temps réel pour suivre l'attention changeante et déduire les intentions de l'utilisateur à partir uniquement des images passées et actuellement observées. Pour construire StreamGaze, nous développons un pipeline de génération de questions-réponses sur vidéo et regard qui aligne les vidéos égocentriques avec les trajectoires brutes du regard via l'extraction de fixations, l'invite visuelle région-spécifique et la construction de scanpaths. Ce pipeline produit des paires question-réponse ancrées spatio-temporellement qui reflètent étroitement la dynamique perceptuelle humaine. Sur toutes les tâches de StreamGaze, nous observons des écarts de performance substantiels entre les MLLM de pointe et les performances humaines, révélant des limitations fondamentales dans le raisonnement temporel basé sur le regard, la modélisation de l'intention et la prédiction proactive. Nous fournissons en outre des analyses détaillées des stratégies d'invite par le regard, des comportements de raisonnement et des modes d'échec spécifiques aux tâches, offrant un aperçu plus profond des raisons pour lesquelles les MLLM actuels peinent et des capacités que les futurs modèles doivent développer. Toutes les données et le code seront publiés publiquement pour soutenir la recherche continue dans la compréhension vidéo en streaming guidée par le regard.
Les modèles récents de raisonnement multimodal, inspirés de DeepSeek-R1, ont considérablement fait progresser les systèmes vision-langage. Cependant, dans les tâches de télédétection (RS), nous observons un raisonnement pseudo-systématique : les modèles décrivent le processus de raisonnement plutôt que de raisonner véritablement vers la réponse correcte sur la base de preuves visuelles. Nous attribuons cela à l'**Effet Coup d'Œil** (*Glance Effect*), où une perception unique et grossière des images RS à grande échelle entraîne une compréhension incomplète et un raisonnement basé sur l'auto-cohérence linguistique plutôt que sur des preuves visuelles. Pour y remédier, nous proposons **RS-EoT** (*Remote Sensing Evidence-of-Thought*), un paradigme itératif, piloté par le langage, de recherche de preuves visuelles. Pour instiller ce paradigme, nous proposons **SocraticAgent**, un système multi-agent à auto-jeu qui synthétise des traces de raisonnement via des cycles alternés de raisonnement et d'inspection visuelle. Pour renforcer et généraliser ces schémas, nous proposons une stratégie RL progressive en deux étapes : d'abord, du RL sur des tâches de Localisation fine (*Grounding*) pour renforcer les capacités RS-EoT, suivi par du RL sur du VQA RS pour généraliser à des scénarios de compréhension plus larges. Les expériences montrent que RS-EoT atteint des performances à l'état de l'art sur plusieurs benchmarks de VQA et de localisation en RS. Les analyses révèlent des cycles itératifs clairs de raisonnement et de recherche de preuves, confirmant que RS-EoT atténue l'Effet Coup d'Œil et permet un raisonnement authentiquement fondé sur des preuves. Notre code, nos données et nos modèles sont disponibles à l'adresse https://geox-lab.github.io/Asking_like_Socrates.
Les agents d'interface utilisateur graphique (GUI) nécessitent une utilisation efficace du contexte historique pour réaliser des tâches de navigation séquentielle. Bien que l'intégration des actions et observations passées puisse améliorer la prise de décision, une utilisation naïve de l'historique complet entraîne une surcharge computationnelle excessive et des distractions dues aux informations non pertinentes. Pour résoudre ce problème, nous présentons HiconAgent, un agent GUI entraîné avec une Optimisation de Politique Consciente du Contexte Historique (HCPO) pour une utilisation efficace et efficiente des informations historiques. HCPO optimise l'utilisation de l'historique à la fois dans l'échantillonnage et les mises à jour de politique via deux composants complémentaires : (1) l'Échantillonnage Dynamique du Contexte (DCS) présente à l'agent des historiques de longueur variable pendant l'échantillonnage, permettant une utilisation adaptative du contexte le plus pertinent ; (2) la Compression d'Historique Guidée par Ancres (AHC) affine la phase de mise à jour de la politique avec une stratégie à double branche où la branche compressée supprime les observations historiques tout en conservant les actions historiques comme ancres du flux d'information. Les branches compressée et non compressée sont couplées via une perte d'alignement améliorée par l'historique pour imposer une utilisation cohérente de l'historique tout en maintenant l'efficacité. Les expériences sur les benchmarks principaux de navigation GUI démontrent des performances solides. Bien que plus petit, HiconAgent-3B surpasse GUI-R1-7B de +8,46 % en précision de grounding et +11,32 % en taux de réussite par étape sur GUI-Odyssey, tout en obtenant des résultats comparables sur AndroidControl et AITW avec une accélération computationnelle allant jusqu'à 2,47x et une réduction de 60 % des FLOPs.
Les Grands Modèles de Raisonnement (LRM) obtiennent des performances solides en mathématiques, en génération de code et en planification de tâches, mais leur dépendance à de longues chaînes de tokens de "réflexion" verbeux entraîne une latence élevée, de la redondance et des chemins de raisonnement incohérents. Inspirés par l'hypothèse du Langage de la Pensée, qui postule que le raisonnement humain opère via un langage mental symbolique et compositionnel appelé Mentalais, nous introduisons un cadre qui entraîne les modèles à raisonner dans un style similairement compact. Le Mentalais encode le raisonnement abstrait sous forme de tokens ultra-compressés et structurés, permettant aux modèles de résoudre des problèmes complexes avec beaucoup moins d'étapes. Pour améliorer à la fois l'efficacité et la précision, nous proposons l'OPTIMISATION PAR PRÉFÉRENCE DE LONGUEUR RÉDUITE (SLPO), une méthode d'apprentissage par renforcement qui récompense les solutions concises qui restent correctes, tout en permettant un raisonnement plus long si nécessaire. Appliquée aux modèles alignés sur le Mentalais, la SLPO permet des taux de compression significativement plus élevés en permettant un raisonnement concis qui préserve les avantages d'une réflexion détaillée sans la surcharge computationnelle. Sur des benchmarks incluant AIME 2024 et 2025, MinervaMath, OlympiadBench, Math500 et AMC, nos modèles ORION produisent des traces de raisonnement avec 4 à 16 fois moins de tokens, atteignent une latence d'inférence jusqu'à 5 fois plus faible et réduisent les coûts d'entraînement de 7 à 9 fois par rapport au modèle DeepSeek R1 Distillé, tout en maintenant 90 à 98 % de sa précision. ORION surpasse également Claude et ChatGPT-4o jusqu'à 5 % en précision tout en maintenant une compression par 2. Ces résultats montrent que le raisonnement compressé de type Mentalais représente un pas vers une efficacité cognitive semblable à celle de l'humain, permettant un raisonnement en temps réel et économique sans sacrifier la précision.
Le paradigme Inversion-Dénuage, basé sur les modèles de diffusion, excelle dans diverses tâches d'édition et de restauration d'images. Nous revisitons son mécanisme et révélons un facteur critique et négligé dans la dégradation de la reconstruction : l'erreur de bruit approximatif. Cette erreur provient de l'approximation du bruit à l'étape t par la prédiction à l'étape t-1, entraînant une accumulation sévère d'erreurs tout au long du processus d'inversion. Nous présentons la méthode des Moindres Carrés Orthogonaux par Projection pour une Inversion Robuste et Adaptative (POLARIS), qui reformule l'inversion d'un problème de compensation d'erreur en un problème d'origine de l'erreur. Plutôt que d'optimiser des plongements ou des codes latents pour compenser la dérive accumulée, POLARIS traite le facteur de guidage ω comme une variable pas-à-pas et dérive une formule mathématiquement fondée pour minimiser l'erreur d'inversion à chaque étape. Fait remarquable, POLARIS améliore la qualité des latents d'inversion avec une seule ligne de code. Avec une surcharge de performance négligeable, elle atténue substantiellement les erreurs d'approximation du bruit et améliore constamment la précision des tâches en aval.
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) a amélioré la capacité de raisonnement des grands modèles de langage (LLM), permettant à des agents autonomes de mener un raisonnement efficace multi-tours et intégrant des outils. Bien que les instructions constituent le principal protocole pour définir les agents, le RLVR repose généralement sur des instructions statiques et conçues manuellement. Cependant, ces instructions peuvent être sous-optimales pour le modèle de base, et l'instruction optimale peut évoluer au fur et à mesure que la politique de l'agent s'améliore et explore l'interaction avec l'environnement. Pour combler cet écart, nous présentons INSPO, un nouveau cadre de co-évolution Instruction-Politique qui intègre l'optimisation des instructions comme une composante dynamique de la boucle d'apprentissage par renforcement (RL). INSPO maintient une population dynamique de candidats d'instructions qui sont échantillonnés avec des questions, où les signaux de récompense dans les boucles RL sont automatiquement attribués à chaque instruction, et les moins performantes sont périodiquement élaguées. De nouvelles instructions sont générées et vérifiées via un mécanisme de réflexion sur la politique, où un optimiseur basé sur un LLM analyse l'expérience passée d'un tampon de rejeu et fait évoluer des stratégies plus efficaces compte tenu de la politique actuelle. Nous menons des expériences approfondies sur des tâches de raisonnement et de recherche d'information multi-tours, démontrant qu'INSPO surpasse substantiellement les solides bases de référence reposant sur des instructions statiques. INSPO découvre des instructions innovantes qui guident l'agent vers des chemins de raisonnement plus stratégiques, obtenant des gains de performance substantiels avec seulement une augmentation marginale de la surcharge computationnelle.
Les assistants d'IA clinique spécialisés font une entrée rapide dans la pratique médicale, souvent présentés comme plus sûrs ou plus fiables que les grands modèles de langage (LLM) généralistes. Pourtant, contrairement aux modèles de pointe, ces outils cliniques sont rarement soumis à une évaluation quantitative indépendante, créant ainsi un déficit de preuves critique malgré leur influence croissante sur le diagnostic, le triage et l'interprétation des recommandations. Nous avons évalué deux systèmes d'IA clinique largement déployés (OpenEvidence et UpToDate Expert AI) par rapport à trois LLM généralistes de pointe (GPT-5, Gemini 3 Pro et Claude Sonnet 4.5) en utilisant un mini-benchmark de 1 000 items combinant les tâches MedQA (connaissances médicales) et HealthBench (alignement clinicien). Les modèles généralistes ont systématiquement surpassé les outils cliniques, GPT-5 obtenant les scores les plus élevés, tandis qu'OpenEvidence et UpToDate ont montré des lacunes en matière d'exhaustivité, de qualité de communication, de conscience contextuelle et de raisonnement sécuritaire basé sur les systèmes. Ces résultats révèlent que les outils commercialisés pour le soutien décisionnel clinique peuvent souvent être à la traîne par rapport aux LLM de pointe, soulignant le besoin urgent d'une évaluation indépendante et transparente avant leur déploiement dans les flux de travail en contact avec les patients.
L'ajustement à l'inférence (TTS) – l'allocation dynamique de la puissance de calcul pendant l'inférence – est une voie prometteuse pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, une comparaison systématique des stratégies TTS bien connues dans des conditions identiques fait défaut, et l'influence du type de modèle et de la difficulté du problème sur les performances reste floue. Pour combler ces lacunes, nous menons la première étude à grande échelle sur le TTS, couvrant plus de trente milliards de tokens générés à l'aide de huit LLM open-source (de 7B à 235B paramètres) et sur quatre ensembles de données de raisonnement. Nous observons trois tendances constantes : (1) aucune stratégie TTS unique ne domine universellement ; (2) les modèles de raisonnement présentent des profils distincts de qualité de trace en fonction de la difficulté du problème et de la longueur de la trace, formant des catégories d'horizon court et d'horizon long ; et (3) pour un type de modèle donné, la performance TTS optimale augmente de manière monotone avec le budget de calcul. Sur la base de ces observations, nous proposons une méthode pratique pour sélectionner la meilleure stratégie TTS, en tenant compte de la difficulté du problème, du type de modèle et du budget de calcul, fournissant ainsi un guide pratique pour une mise à l'échelle efficace à l'inférence.
Les modèles récents d'édition d'images possèdent des capacités intelligentes de pointe, facilitant l'édition d'images fondée sur la cognition et la créativité. Pourtant, les benchmarks existants offrent un champ d'évaluation trop restreint, ne permettant pas d'évaluer de manière holistique ces capacités avancées. Pour remédier à cela, nous présentons WiseEdit, un benchmark à forte intensité de connaissances pour l'évaluation complète de l'édition d'images éclairée par la cognition et la créativité, caractérisé par une profondeur de tâche importante et une largeur de connaissances étendue. Par analogie avec la création cognitive humaine, WiseEdit décompose l'édition d'images en trois étapes en cascade : la Prise de conscience, l'Interprétation et l'Imagination, chacune correspondant à une tâche qui représente un défi pour les modèles à accomplir à l'étape spécifique. Il inclut également des tâches complexes, où aucune des trois étapes ne peut être facilement terminée. De plus, WiseEdit intègre trois types fondamentaux de connaissances : les connaissances Déclaratives, Procédurales et Métacognitives. Au final, WiseEdit comprend 1 220 cas de test, révélant objectivement les limites des modèles d'édition d'images à l'état de l'art en matière de capacités de raisonnement cognitif basé sur les connaissances et de composition créative. Le benchmark, le code d'évaluation et les images générées par chaque modèle seront bientôt rendus publics. Page du projet : https://qnancy.github.io/wiseedit_project_page/.
Bien que les modèles de génération vidéo contrôlée par caméra dominants puissent produire des résultats cinématographiques, leur adaptation directe à la génération de vidéos multi-vues synchronisées dans le temps, fidèles et cohérentes en 3D, reste un défi. Cette capacité est pourtant essentielle pour maîtriser les mondes 4D. Certains travaux ont recours à l'augmentation de données ou à l'optimisation au moment du test, mais ces stratégies sont limitées par une généralisation imparfaite des modèles et des problèmes d'évolutivité. Pour y remédier, nous proposons ChronosObserver, une méthode sans apprentissage comprenant un Hyperespace d'État Mondial pour représenter les contraintes spatiotemporelles d'une scène mondiale 4D, et un Échantillonnage Guidé par l'Hyperespace pour synchroniser les trajectoires d'échantillonnage de diffusion des vues multiples à l'aide de cet hyperespace. Les résultats expérimentaux démontrent que notre méthode permet de générer des vidéos multi-vues synchronisées dans le temps, de haute fidélité et cohérentes en 3D, sans apprentissage ou ajustement fin des modèles de diffusion.
Nous présentons un nouveau cadre qui apprend directement une base spectrale pour l'analyse de formes et de variétés à partir de données non structurées, éliminant le besoin de sélection d'opérateur traditionnelle, de discrétisation et de solveurs aux valeurs propres. Fondée sur la théorie de l'approximation optimale, nous entraînons un réseau à décomposer un opérateur d'approximation implicite en minimisant l'erreur de reconstruction dans la base apprise sur une distribution choisie de fonctions tests. Pour des distributions appropriées, celles-ci peuvent être vues comme une approximation de l'opérateur Laplacien et de sa décomposition en valeurs propres, qui sont fondamentaux en traitement géométrique. De plus, notre méthode retrouve de manière unifiée non seulement la base spectrale, mais aussi la densité d'échantillonnage de la métrique implicite et les valeurs propres de l'opérateur sous-jacent. Notamment, notre méthode non supervisée ne fait aucune hypothèse sur la variété de données, telle qu'un maillage ou la dimensionnalité de la variété, lui permettant de s'adapter à des jeux de données arbitraires de toute dimension. Sur des nuages de points situés sur des surfaces en 3D et des variétés d'images en haute dimension, notre approche produit des bases spectrales significatives, qui peuvent ressembler à celles du Laplacien, sans construction explicite d'un opérateur. En remplaçant la sélection, la construction et la décomposition en valeurs propres traditionnelles d'un opérateur par une approche basée sur l'apprentissage, notre cadre offre une alternative rigoureuse et pilotée par les données aux pipelines conventionnels. Cela ouvre de nouvelles possibilités en traitement géométrique pour les données non structurées, en particulier dans les espaces de grande dimension.
Un objectif de longue date en vision par ordinateur est de modéliser les mouvements à partir de vidéos, tandis que les représentations sous-jacentes à ces mouvements, c'est-à-dire les interactions physiques invisibles qui provoquent la déformation et le déplacement des objets, restent largement inexplorées. Dans cet article, nous étudions comment retrouver les forces invisibles à partir d'observations visuelles, par exemple, estimer le champ de vent en observant une feuille tomber au sol. Notre innovation clé est un cadre d'inverse rendering différentiable de bout en bout, qui modélise conjointement la géométrie des objets, les propriétés physiques et les interactions directement à partir des vidéos. Grâce à la rétropropagation, notre approche permet la reconstruction des représentations de forces à partir des mouvements des objets. Nous validons notre méthode sur des scénarios synthétiques et réels, et les résultats démontrent sa capacité à déduire des champs de force plausibles à partir de vidéos. De plus, nous montrons les applications potentielles de notre approche, incluant la génération et l'édition de vidéos basées sur la physique. Nous espérons que notre approche éclaire la compréhension et la modélisation des processus physiques derrière les pixels, en comblant le fossé entre la vision et la physique. Veuillez consulter davantage de résultats vidéo sur notre {page de projet} https://chaoren2357.github.io/seeingthewind/.
Bien que les grands modèles de langage excellent dans les tâches multilingues à ressources abondantes, les langues indiennes à ressources faibles et extrêmement faibles restent gravement sous-évaluées. Nous présentons IndicParam, un benchmark minutieusement annoté manuellement comprenant plus de 13 000 questions à choix multiples couvrant 11 de ces langues (le népalais, le gujarati, le marathi et l'odia comme langues à ressources faibles ; le dogri, le maïthili, le rajasthani, le sanskrit, le bodo, le santali et le konkani comme langues à ressources extrêmement faibles), ainsi qu'un ensemble de données en code-mixte sanskrit-anglais. Nous avons évalué 19 LLM, à la fois propriétaires et open-weights, ce qui révèle que même le meilleur modèle, GPT-5, n'atteint qu'une précision moyenne de 45,0 %, suivi par DeepSeek-3.2 (43,1 %) et Claude-4.5 (42,7 %). Nous avons en outre étiqueté chaque question comme étant orientée connaissance ou purement linguistique pour distinguer le rappel factuel de la compétence grammaticale. De plus, nous évaluons la capacité des LLM à traiter divers formats de questions - tels que l'appariement basé sur des listes, les paires assertion-raison et l'ordonnancement de séquences - parallèlement aux questions à choix multiples conventionnelles. IndicParam offre un aperçu des limites du transfert translinguistique et établit un benchmark exigeant pour les langues indiennes. Le jeu de données est disponible à l'adresse https://huggingface.co/datasets/bharatgenai/IndicParam. Les scripts pour exécuter le benchmark sont disponibles à l'adresse https://github.com/ayushbits/IndicParam.
Les méthodes actuelles de visualisation narrative ont tendance à positionner les sujets uniquement par le texte et rencontrent des difficultés à maintenir une cohérence artistique. Pour résoudre ces limitations, nous présentons DreamingComics, un cadre de visualisation narrative sensible à la mise en page. Nous nous appuyons sur un modèle de diffusion-transformer (DiT) vidéo préentraîné, en exploitant ses préconnaissances spatiotemporelles pour améliorer la cohérence d'identité et de style. Pour le contrôle positionnel basé sur la mise en page, nous proposons RegionalRoPE, un schéma d'encodage positionnel sensible aux régions qui réindexe les plongements en fonction de la mise en page cible. De plus, nous introduisons une perte conditionnelle masquée pour contraindre davantage les caractéristiques visuelles de chaque sujet à sa région désignée. Pour déduire les mises en page à partir de scripts en langage naturel, nous intégrons un générateur de mise en page basé sur un LLM, entraîné à produire des mises en page de style bande dessinée, permettant un conditionnement de mise en page flexible et contrôlable. Nous présentons une évaluation complète de notre approche, montrant une augmentation de 29,2 % de la cohérence des personnages et de 36,2 % de la similarité de style par rapport aux méthodes précédentes, tout en affichant une grande précision spatiale. Notre page projet est disponible à l'adresse https://yj7082126.github.io/dreamingcomics/
La pensée causale permet aux humains de comprendre non seulement ce qui est observé, mais aussi pourquoi cela se produit. Pour reproduire cette capacité dans les systèmes d'IA modernes, nous introduisons la tâche de découverte causale visuelle. Celle-ci exige des modèles qu'ils infèrent des relations de cause à effet entre des entités visuelles dans divers scénarios, au lieu de simplement percevoir leur présence. À cette fin, nous construisons d'abord le jeu de données Visual Causal Graph (VCG-32K), une collection à grande échelle de plus de 32 000 images annotées avec des graphes causaux au niveau entité, et développons ensuite CauSight, un nouveau modèle vision-langage conçu pour réaliser la découverte causale visuelle via un raisonnement conscient de la causalité. Notre méthode d'apprentissage intègre trois composantes : (1) la curation de données d'entraînement provenant de VCG-32K, (2) l'Arbre-de-Pensée-Causale (ToCT) pour synthétiser des trajectoires de raisonnement, et (3) l'apprentissage par renforcement avec une récompense causale conçue pour affiner la politique de raisonnement. Les expériences montrent que CauSight surpasse GPT-4.1 en découverte causale visuelle, obtenant une amélioration de performance de plus du triple (gain absolu de 21 %). Notre code, modèle et jeu de données sont entièrement open-source sur la page du projet : https://github.com/OpenCausaLab/CauSight.
Récemment, les stratégies de réglage fin en deux étapes - comme l'acquisition de connaissances essentielles sur la conduite via le réglage fin supervisé (SFT) et l'amélioration supplémentaire de la prise de décision et de la planification via le réglage fin par renforcement (RFT) - ont montré un fort potentiel pour faire progresser le paradigme de la conduite autonome (AD) basée sur la connaissance. Cependant, la nature d'apprentissage du SFT limite toujours la généralisation du raisonnement, restreignant ainsi le plein potentiel des performances de conduite. Parallèlement, les approches RFT actuelles sont principalement appliquées aux tâches en aval, car la compréhension de scène est un problème ouvert où les récompenses correspondantes sont difficiles à quantifier. Pour résoudre ces limitations, nous proposons OpenREAD, un cadre de conduite autonome (AD) basé sur un modèle vision-langage (VLM) renforcé par un raisonnement OPEN (OPEN-ended REasoning reinforced), qui permet un RFT de bout en bout sur l'ensemble du spectre, du raisonnement de haut niveau à la planification de trajectoire de bas niveau. Plus précisément, nous commençons par construire des annotations à grande échelle de Chaîne de Pensée (CoT) sur des ensembles de données open source liés aux connaissances de conduite, et utilisons le puissant modèle de langage étendu (LLM) Qwen3 comme critique dans le RFT pour quantifier la qualité du raisonnement pour les questions ouvertes lors de la modélisation des récompenses. Des expériences approfondies confirment que le RFT conjoint de bout en bout produit des améliorations substantielles tant dans les tâches en amont qu'en aval, permettant à OpenREAD d'atteindre des performances de pointe sur les benchmarks de raisonnement et de planification.
Des progrès significatifs ont été réalisés dans les modèles de langage élargis (LLM) open-source de traduction textuelle uniquement, offrant une meilleure couverture linguistique et une meilleure qualité. Cependant, ces modèles ne peuvent être utilisés que dans des pipelines en cascade pour la traduction de la parole (ST), en effectuant d'abord la reconnaissance automatique de la parole suivie de la traduction. Cela introduit une latence supplémentaire, particulièrement critique dans la traduction simultanée de la parole (SimulST), et empêche le modèle d'exploiter le contexte multimodal, comme les images, qui peut aider à la désambiguïsation. Les modèles fondationnels multimodaux (MMFM) préentraînés possèdent déjà de solides capacités de perception et de raisonnement sur plusieurs modalités, mais manquent généralement de la couverture multilingue et des performances de traduction spécialisées des LLM dédiés à la traduction. Pour construire un système de traduction multimodal efficace, nous proposons une approche de bout en bout qui fusionne les MMFM avec les LLM de traduction. Nous introduisons une nouvelle stratégie de fusion qui connecte les états cachés de multiples couches d'un MMFM préentraîné à un LLM de traduction, permettant un apprentissage conjoint de bout en bout. Le modèle résultant, OmniFusion, construit sur Omni 2.5-7B comme MMFM et SeedX PPO-7B comme LLM de traduction, peut effectuer de la traduction parole-texte, parole-et-image-texte, et texte-et-image-texte. Les expériences démontrent qu'OmniFusion exploite efficacement les entrées audio et visuelles, atteint une réduction de latence d'une seconde en SimulST par rapport aux pipelines en cascade et améliore également la qualité de traduction globale. Le code est disponible à l'adresse https://github.com/saikoneru/OmniFusion.
Les mouvements de caméra et d'objet sont au cœur de la narration vidéo. Cependant, leur édition précise après capture reste un défi majeur, particulièrement sous des mouvements d'objets complexes. Les approches actuelles de transformation image-à-vidéo (I2V) contrôlée par le mouvement manquent souvent de contexte scénique complet pour une édition vidéo cohérente, tandis que les méthodes vidéo-à-vidéo (V2V) permettent des changements de point de vue ou des translations d'objets basiques, mais offrent un contrôle limité sur les mouvements fins des objets. Nous présentons un cadre V2V conditionné par des pistes qui permet l'édition conjointe du mouvement de la caméra et des objets. Nous y parvenons en conditionnant un modèle de génération vidéo sur une vidéo source et des pistes de points 3D appariées représentant les mouvements source et cible. Ces pistes 3D établissent des correspondances éparses qui transfèrent le contexte riche de la vidéo source vers de nouveaux mouvements tout en préservant la cohérence spatiotemporelle. Fait crucial, comparées aux pistes 2D, les pistes 3D fournissent des indications de profondeur explicites, permettant au modèle de résoudre l'ordre de profondeur et de gérer les occlusions pour une édition précise du mouvement. Entraîné en deux étapes sur des données synthétiques et réelles, notre modèle prend en charge diverses éditions de mouvement, incluant la manipulation conjointe caméra/objet, le transfert de mouvement et la déformation non rigide, libérant ainsi de nouveaux potentiels créatifs dans l'édition vidéo.
La prévalence croissante du cancer de la thyroïde à l'échelle mondiale a conduit au développement de diverses méthodes de détection assistée par ordinateur. La segmentation précise des nodules thyroïdiens constitue une première étape cruciale dans le développement de systèmes d'aide à la décision clinique assistés par l'IA. Cette étude se concentre sur la segmentation d'instances des nodules thyroïdiens en utilisant les algorithmes YOLOv5 sur des images échographiques. Nous avons évalué plusieurs variantes de YOLOv5 (Nano, Small, Medium, Large et XLarge) sur deux versions d'un jeu de données, avec et sans images Doppler. L'algorithme YOLOv5-Large a obtenu les meilleures performances avec un score de Dice de 91 % et une mAP de 0,87 sur le jeu de données incluant les images Doppler. Il est à noter que nos résultats démontrent que les images Doppler, généralement exclues par les médecins, peuvent significativement améliorer les performances de segmentation. Le modèle YOLOv5-Small a atteint un score de Dice de 79 % lorsque les images Doppler étaient exclues, tandis que leur inclusion a amélioré les performances pour toutes les variantes de modèles. Ces résultats suggèrent que la segmentation d'instances avec YOLOv5 offre une approche efficace en temps réel pour la détection des nodules thyroïdiens, avec des applications cliniques potentielles dans les systèmes de diagnostic automatisés.
Nous présentons des décodeurs basés sur l'architecture Conformer pour la compétition LibriBrain 2025 PNPL, ciblant deux tâches fondamentales en MEG : la Détection de la Parole et la Classification de Phonèmes. Notre approche adapte un Conformer compact aux signaux MEG bruts de 306 canaux, à l'aide d'une couche de projection convolutionnelle légère et de têtes spécifiques à chaque tâche. Pour la Détection de la Parole, une version de SpecAugment adaptée au MEG a fourni une première exploration de l'augmentation de données spécifique au MEG. Pour la Classification de Phonèmes, nous avons utilisé une pondération des classes par l'inverse de la racine carrée et un chargeur de données avec regroupement dynamique pour traiter des exemples moyennés sur 100 échantillons. De plus, une simple normalisation au niveau de l'instance s'est avérée cruciale pour atténuer les décalages de distribution sur l'ensemble de test. En utilisant les splits officiels de la piste Standard et le F1-macro pour la sélection des modèles, nos meilleurs systèmes ont atteint 88,9 % (Parole) et 65,8 % (Phonèmes) au classement, surpassant les modèles de référence de la compétition et se classant dans le top-10 pour les deux tâches. Pour plus de détails techniques, la documentation, le code source et les points de contrôle sont disponibles à l'adresse https://github.com/neural2speech/libribrain-experiments.
La Business Process Model and Notation (BPMN) est une norme largement adoptée pour la représentation des flux de travail métier complexes. Bien que les diagrammes BPMN soient souvent échangés sous forme d'images visuelles, les méthodes existantes reposent principalement sur des représentations XML pour l'analyse computationnelle. Dans ce travail, nous présentons un pipeline qui exploite les modèles vision-langage (VLM) pour extraire des représentations structurées en JSON de diagrammes BPMN directement à partir d'images, sans nécessiter les fichiers sources du modèle ou des annotations textuelles. Nous intégrons également la reconnaissance optique de caractères (OCR) pour l'enrichissement textuel et évaluons les listes d'éléments générées par rapport à des données de référence dérivées des fichiers XML sources. Notre approche permet une extraction robuste des composants dans les scénarios où les fichiers sources originaux ne sont pas disponibles. Nous comparons plusieurs modèles VLM et observons des améliorations de performance pour plusieurs modèles lorsque l'OCR est utilisé pour l'enrichissement textuel. De plus, nous avons mené des analyses statistiques approfondies des méthodes d'enrichissement basées sur l'OCR et des études d'ablation des prompts, fournissant une compréhension plus claire de leur impact sur la performance des modèles.