papers.description
Les grands modèles de langage exploitent des données textuelles à l'échelle d'Internet, mais l'IA incarnée reste limitée par les coûts prohibitifs de la collecte de trajectoires physiques. Les environnements de bureau — en particulier les jeux vidéo — offrent une alternative convaincante : ils permettent des interactions sensori-motrices riches à grande échelle tout en maintenant le couplage structuré observation-action essentiel pour l'apprentissage incarné. Nous présentons D2E (Desktop to Embodied AI), un cadre qui démontre que les interactions sur ordinateur peuvent servir de substrat de pré-entraînement efficace pour les tâches d'IA incarnée en robotique. Contrairement aux travaux antérieurs qui restaient spécifiques à un domaine (par exemple, VPT pour Minecraft) ou gardaient les données propriétaires (par exemple, SIMA), D2E établit un pipeline complet allant de la collecte de données à grande échelle sur ordinateur au transfert vérifié dans des domaines incarnés. Notre cadre comprend trois composants : (1) l'OWA Toolkit, qui unifie diverses interactions de bureau dans un format standardisé avec une compression de 152x, (2) le Generalist-IDM, qui atteint une forte généralisation zero-shot à travers des jeux inconnus grâce à la prédiction d'événements basée sur des timestamps, permettant un étiquetage pseudo-supervisé à l'échelle d'Internet, et (3) VAPT, qui transfère les représentations pré-entraînées sur ordinateur à des tâches de manipulation et de navigation physiques. En utilisant plus de 1 300 heures de données (259 heures de démonstrations humaines et plus de 1 000 heures de gameplay pseudo-étiqueté), nous obtenons un taux de réussite total de 96,6 % sur le benchmark de manipulation LIBERO et de 83,3 % sur celui de navigation CANVAS. Cela valide que les primitives sensori-motrices dans les interactions numériques présentent une invariance suffisante pour se transférer de manière significative à des tâches physiques incarnées, établissant ainsi le pré-entraînement sur ordinateur comme un paradigme pratique pour la robotique. Nous rendrons public l'intégralité de notre travail, y compris l'OWA Toolkit, les jeux de données collectés par des humains et pseudo-étiquetés, ainsi que les modèles entraînés avec VAPT, disponibles sur https://worv-ai.github.io/d2e/.
La compréhension et la génération centrées sur la caméra sont deux pierres angulaires de l'intelligence spatiale, mais elles sont généralement étudiées de manière isolée. Nous présentons Puffin, un modèle multimodal unifié centré sur la caméra qui étend la conscience spatiale le long de la dimension caméra. Puffin intègre la régression linguistique et la génération basée sur la diffusion pour interpréter et créer des scènes à partir de points de vue arbitraires. Pour combler l'écart de modalité entre les caméras et la vision-langage, nous introduisons un nouveau paradigme qui traite la caméra comme un langage, permettant de penser avec la caméra. Cela guide le modèle à aligner les indices visuels spatialement ancrés avec la terminologie photographique tout en raisonnant dans un contexte géométrique. Puffin est entraîné sur Puffin-4M, un ensemble de données à grande échelle de 4 millions de triplets vision-langage-caméra. Nous incorporons à la fois des paramètres globaux de la caméra et des cartes caméra au niveau des pixels, permettant une génération spatiale flexible et fiable. Les expériences démontrent la performance supérieure de Puffin par rapport aux modèles spécialisés pour la génération et la compréhension centrées sur la caméra. Avec un réglage par instruction, Puffin se généralise à diverses tâches inter-vues telles que l'imagination spatiale, l'exploration du monde et le guidage photographique. Nous publierons le code, les modèles, le pipeline de données et le benchmark pour faire progresser la recherche en intelligence spatiale multimodale.
Ce travail présente la première investigation à grande échelle sur la construction d'un modèle de langage massivement bilingue (LLM) entièrement ouvert pour une langue non anglaise, en l'occurrence le coréen, entraîné principalement sur des données synthétiques. Nous introduisons KORMo-10B, un modèle de 10,8 milliards de paramètres entraîné à partir de zéro sur un corpus coréen-anglais dont 68,74 % de la partie coréenne est synthétique. À travers une expérimentation systématique, nous démontrons que les données synthétiques, lorsqu'elles sont soigneusement sélectionnées avec une couverture linguistique équilibrée et des styles d'instruction diversifiés, ne provoquent ni instabilité ni dégradation lors de l'entraînement préalable à grande échelle. De plus, le modèle atteint des performances comparables à celles des modèles multilingues contemporains à poids ouverts sur un large éventail de benchmarks de raisonnement, de connaissances et de suivi d'instructions. Nos expériences révèlent deux conclusions majeures : (1) les données synthétiques peuvent soutenir de manière fiable un entraînement préalable à long terme sans effondrement du modèle, et (2) le réglage d'instruction bilingue permet un raisonnement et une cohérence discursive quasi-natifs en coréen. En publiant intégralement tous les composants, y compris les données, le code, les recettes d'entraînement et les journaux, ce travail établit un cadre transparent pour le développement de modèles entièrement ouverts (FOMs) basés sur des données synthétiques dans des contextes à faibles ressources et fixe un précédent reproductible pour les futures recherches sur les LLM multilingues.
Alors que le volume de recherches évaluées par les pairs augmente de manière exponentielle, les chercheurs se tournent de plus en plus vers les plateformes sociales pour découvrir des travaux, tandis que les auteurs consacrent des efforts considérables à promouvoir leurs publications afin d'assurer leur visibilité et d'obtenir des citations. Pour rationaliser ce processus et réduire la dépendance à l'effort humain, nous introduisons la Promotion Automatique (AutoPR), une nouvelle tâche qui transforme les articles de recherche en contenu public précis, engageant et opportun. Pour permettre une évaluation rigoureuse, nous publions PRBench, un benchmark multimodal qui relie 512 articles évalués par des pairs à des posts promotionnels de haute qualité, en évaluant les systèmes selon trois axes : Fidélité (exactitude et ton), Engagement (ciblage et attractivité du public) et Alignement (optimisation du timing et des canaux). Nous présentons également PRAgent, un cadre multi-agents qui automatise AutoPR en trois étapes : extraction de contenu avec préparation multimodale, synthèse collaborative pour des productions polies, et adaptation spécifique aux plateformes pour optimiser les normes, le ton et les tags afin de maximiser la portée. Comparé aux pipelines directs de LLM sur PRBench, PRAgent démontre des améliorations substantielles, notamment une augmentation de 604 % du temps de visionnage total, une hausse de 438 % des likes, et au moins un boost de 2,9x de l'engagement global. Les études d'ablation montrent que la modélisation des plateformes et la promotion ciblée contribuent le plus à ces gains. Nos résultats positionnent AutoPR comme un problème de recherche traitable et mesurable, et fournissent une feuille de route pour une communication scientifique automatisée, scalable et impactante.
Les modèles vision-langage (VLMs) pourraient alimenter des assistants en temps réel et des agents autonomes, mais ils sont confrontés à un défi critique : comprendre des flux vidéo quasi infinis sans augmenter la latence et l'utilisation de la mémoire. Traiter des vidéos entières avec une attention complète entraîne des coûts de calcul quadratiques et une performance médiocre sur les vidéos longues. Par ailleurs, les méthodes simples de fenêtrage glissant sont également imparfaites, car elles brisent la cohérence ou souffrent d'une latence élevée due à la recomputation redondante. Dans cet article, nous présentons StreamingVLM, un modèle conçu pour une compréhension en temps réel et stable d'entrées visuelles infinies. Notre approche est un cadre unifié qui aligne l'entraînement avec l'inférence en flux. Pendant l'inférence, nous maintenons un cache KV compact en réutilisant les états des puits d'attention, une courte fenêtre de tokens visuels récents et une longue fenêtre de tokens textuels récents. Cette capacité de streaming est instaurée via une stratégie simple de fine-tuning supervisé (SFT) qui applique une attention complète sur des segments vidéo courts et chevauchants, imitant efficacement le modèle d'attention au moment de l'inférence sans nécessiter un entraînement sur des contextes excessivement longs. Pour l'évaluation, nous construisons Inf-Streams-Eval, un nouveau benchmark avec des vidéos d'une durée moyenne de plus de deux heures qui nécessite un alignement dense, par seconde, entre les images et le texte. Sur Inf-Streams-Eval, StreamingVLM atteint un taux de réussite de 66,18 % contre GPT-4O mini et maintient une performance stable en temps réel jusqu'à 8 FPS sur une seule carte NVIDIA H100. Notamment, notre stratégie SFT améliore également les capacités générales de VQA sans aucun fine-tuning spécifique à la VQA, améliorant les performances sur LongVideoBench de +4,30 et sur OVOBench Realtime de +5,96. Le code est disponible à l'adresse https://github.com/mit-han-lab/streaming-vlm.
Les modèles de diffusion récents atteignent des performances de pointe en génération d'images, mais souffrent souvent d'incohérences sémantiques ou d'hallucinations. Bien que diverses méthodes de guidage au moment de l'inférence puissent améliorer la génération, elles opèrent souvent indirectement en s'appuyant sur des signaux externes ou des modifications architecturales, ce qui introduit une surcharge computationnelle supplémentaire. Dans cet article, nous proposons le Tangential Amplifying Guidance (TAG), une méthode de guidage plus efficace et directe qui opère uniquement sur les signaux de trajectoire sans modifier le modèle de diffusion sous-jacent. TAG exploite un échantillon intermédiaire comme base de projection et amplifie les composantes tangentielles des scores estimés par rapport à cette base pour corriger la trajectoire d'échantillonnage. Nous formalisons ce processus de guidage en utilisant un développement de Taylor au premier ordre, ce qui démontre que l'amplification de la composante tangentielle oriente l'état vers des régions de plus haute probabilité, réduisant ainsi les incohérences et améliorant la qualité des échantillons. TAG est un module plug-and-play, indépendant de l'architecture, qui améliore la fidélité de l'échantillonnage par diffusion avec un ajout computationnel minimal, offrant une nouvelle perspective sur le guidage des modèles de diffusion.
Les modèles de langage de grande taille (LLMs) ont démontré un succès remarquable, et leurs extensions multimodales (MLLMs) débloquent davantage de capacités couvrant les images, les vidéos et d’autres modalités au-delà du texte. Cependant, malgré cette évolution, les approches d’optimisation des prompts, conçues pour réduire la charge de la création manuelle de prompts tout en maximisant les performances, restent confinées au texte, limitant ainsi le plein potentiel des MLLMs. Motivés par cette lacune, nous introduisons le nouveau problème de l’optimisation multimodale des prompts, qui étend la définition précédente de l’optimisation des prompts à l’espace multimodal défini par les paires de prompts textuels et non textuels. Pour résoudre ce problème, nous proposons ensuite l’Optimiseur de Prompts Multimodaux (MPO), un cadre unifié qui non seulement effectue l’optimisation conjointe des prompts multimodaux via des mises à jour préservant l’alignement, mais guide également le processus de sélection des prompts candidats en exploitant les évaluations antérieures comme a priori dans une stratégie de sélection basée sur l’approche bayésienne. À travers des expériences approfondies couvrant diverses modalités allant au-delà du texte, telles que les images, les vidéos et même les molécules, nous démontrons que MPO surpasse les principales méthodes d’optimisation textuelles, établissant ainsi l’optimisation multimodale des prompts comme une étape cruciale pour réaliser le potentiel des MLLMs.
Les capacités incarnées désignent un ensemble de compétences fondamentales permettant à un agent de percevoir, de comprendre et d'interagir avec le monde physique. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) montrent un potentiel en tant qu'agents incarnés, une évaluation approfondie et systématique de leurs capacités incarnées reste peu explorée, les benchmarks existants se concentrant principalement sur des domaines spécifiques tels que la planification ou la compréhension spatiale. Pour combler cette lacune, nous introduisons BEAR, un benchmark complet et granulaire qui évalue les MLLMs sur des capacités incarnées atomiques. BEAR comprend 4 469 entrées entrelacées d'images, de vidéos et de textes réparties dans 14 domaines et 6 catégories, incluant des tâches allant du pointage de bas niveau, de la compréhension de trajectoires, du raisonnement spatial, jusqu'à la planification de haut niveau. Les résultats d'évaluation approfondis de 20 MLLMs représentatifs révèlent leurs limitations persistantes dans tous les domaines des capacités incarnées. Pour remédier à ces lacunes, nous proposons BEAR-Agent, un agent conversationnel multimodal qui intègre des modèles de vision pré-entraînés pour renforcer la perception, la compréhension 3D et les capacités de planification des MLLMs. Il améliore considérablement les performances des MLLMs sur diverses capacités incarnées dans BEAR, avec un gain absolu de 9,12 % et une amélioration relative de 17,5 % sur GPT-5. De plus, nos expériences indiquent que l'amélioration des capacités incarnées des MLLMs peut bénéficier aux tâches incarnées dans des environnements simulés. Site web du projet : https://bear-official66.github.io/
Les modèles de langage de grande taille (LLMs) ont obtenu un succès remarquable grâce à l'apprentissage par imitation sur de vastes corpus textuels, mais ce paradigme crée un écart entre l'entraînement et la génération, limitant ainsi le raisonnement robuste. L'apprentissage par renforcement (RL) offre une solution plus efficace en termes de données, capable de combler cet écart, mais son application a été limitée par un goulot d'étranglement critique : les ensembles de données RL existants sont des ordres de grandeur plus petits et moins diversifiés que les corpus de pré-entraînement à l'échelle du web. Pour remédier à cela, nous introduisons la pipeline Webscale-RL, un moteur de données scalable qui convertit systématiquement des documents de pré-entraînement à grande échelle en millions de paires question-réponse diversifiées et vérifiables pour le RL. En utilisant cette pipeline, nous construisons l'ensemble de données Webscale-RL, contenant 1,2 million d'exemples couvrant plus de 9 domaines. Nos expériences montrent que le modèle entraîné sur cet ensemble de données surpasse significativement le pré-entraînement continu et des bases de référence solides en raffinement de données sur une série de benchmarks. Notamment, l'entraînement RL avec notre ensemble de données s'avère substantiellement plus efficace, atteignant les performances du pré-entraînement continu avec jusqu'à 100 fois moins de tokens. Notre travail présente une voie viable pour étendre le RL aux niveaux de pré-entraînement, permettant des modèles de langage plus performants et efficaces.
Les plateformes d'évaluation de modèles basées sur la foule, telles que Chatbot Arena, permettent une évaluation en temps réel à partir de perspectives humaines pour juger de la qualité des réponses des modèles. Dans le domaine de la programmation, l'examen manuel de la qualité du contenu généré par les modèles de langage (LLM) est extrêmement complexe, car il nécessite de comprendre de longs segments de code brut et de simuler délibérément l'exécution du code. Pour répondre à ce besoin, nous présentons BigCodeArena, une plateforme ouverte d'évaluation humaine pour la génération de code, soutenue par un environnement d'exécution complet et en temps réel. Construite sur Chatbot Arena, BigCodeArena permet l'exécution du code généré par les LLM et offre aux humains la possibilité d'interagir avec le processus d'exécution et ses résultats. Nous avons collecté plus de 14 000 sessions de conversation centrées sur le code provenant de 10 LLM largement utilisés, couvrant 10 langages et 8 types d'environnements d'exécution. Parmi ces conversations, nous avons identifié plus de 4 700 échantillons multi-tours avec des préférences humaines par paires. Une analyse approfondie révèle des préférences peu explorées des LLM dans des domaines fins caractérisés par des tâches, des langages et des frameworks. Pour examiner systématiquement les capacités de compréhension et de génération de code des LLM de pointe, nous avons élaboré deux benchmarks basés sur les données collectées, à savoir BigCodeReward et AutoCodeArena. Pour BigCodeReward, nous avons post-traité les 4 700 conversations et évalué la cohérence entre les modèles de récompense et les préférences humaines. L'évaluation montre que la plupart des LLM offrent des performances supérieures dans le jugement des préférences de codage lorsque les résultats d'exécution sont disponibles. Inspirés par ces résultats, nous proposons AutoCodeArena, un benchmark automatique de classement Elo conçu pour évaluer la qualité du codage des LLM sans intervention humaine. Nous constatons que les LLM propriétaires comme GPT-5, Claude-Sonnet-4 et Claude-Opus-4 restent en tête en termes de performance de génération de code parmi les modèles émergents récents.
Les tendances récentes en matière de mise à l'échelle au moment des tests pour les modèles de raisonnement (par exemple, OpenAI o1, DeepSeek-R1) ont conduit à des améliorations remarquables grâce à des chaînes de pensée (Chain-of-Thought, CoT) longues. Cependant, les benchmarks existants se concentrent principalement sur des tâches immédiates et à horizon unique, ne parvenant pas à évaluer adéquatement la capacité des modèles à comprendre et à répondre à des scénarios complexes et à long horizon. Pour remédier à cette évaluation incomplète des Grands Modèles de Raisonnement (Large Reasoning Models, LRMs), nous proposons R-HORIZON, une méthode conçue pour stimuler les comportements de raisonnement à long horizon dans les LRMs grâce à la composition de requêtes. Sur la base de R-HORIZON, nous construisons un benchmark de raisonnement à long horizon, comprenant des tâches complexes de raisonnement en plusieurs étapes avec des problèmes interdépendants qui s'étendent sur de longs horizons de raisonnement. À travers une évaluation approfondie des LRMs utilisant le benchmark R-HORIZON, nous constatons que même les LRMs les plus avancés subissent une dégradation significative de leurs performances. Notre analyse révèle que les LRMs présentent une longueur de raisonnement efficace limitée et peinent à allouer de manière appropriée leur budget de réflexion à travers plusieurs problèmes. Conscients de ces limitations, nous utilisons R-HORIZON pour construire des données de raisonnement à long horizon pour l'apprentissage par renforcement avec récompenses vérifiées (Reinforcement Learning with Verified Rewards, RLVR). Par rapport à l'entraînement avec des données à horizon unique, RLVR avec R-HORIZON améliore non seulement considérablement les performances sur les tâches de raisonnement à multi-horizon, mais favorise également la précision sur les tâches de raisonnement standard, avec une augmentation de 7,5 sur AIME2024. Ces résultats positionnent R-HORIZON comme un paradigme évolutif, contrôlable et à faible coût pour améliorer et évaluer les capacités de raisonnement à long horizon des LRMs.
Les grands modèles de langage dotés de capacités de raisonnement manifestent des comportements de raisonnement complexes grâce à la génération étendue de chaînes de pensée, créant ainsi une surcharge sans précédent du cache clé-valeur (KV) lors de la phase de décodage. Les méthodes existantes de compression du cache KV sous-performent sur les modèles de raisonnement : les méthodes d'élimination de tokens compromettent l'intégrité du raisonnement en supprimant des informations critiques, tandis que les méthodes de réallocation de têtes compriment par erreur les têtes essentielles au raisonnement, car elles sont conçues pour des tâches de recherche, entraînant une dégradation significative des performances à mesure que les taux de compression augmentent. Nous émettons l'hypothèse que les têtes KV présentent une hétérogénéité fonctionnelle dans les modèles de raisonnement—certaines têtes sont cruciales pour la cohérence de la chaîne de pensée, tandis que d'autres sont compressibles. Pour valider et exploiter cette intuition, nous proposons RLKV, un nouveau cadre d'identification des têtes critiques pour le raisonnement, qui utilise l'apprentissage par renforcement pour optimiser directement la relation entre l'utilisation du cache de chaque tête et la qualité du raisonnement. Comme RLKV génère des récompenses à partir d'échantillons réels produits pendant l'entraînement, il identifie naturellement les têtes pertinentes pour les comportements de raisonnement. Nous allouons ensuite un cache KV complet à ces têtes tout en appliquant un cache KV compressé constant aux autres pour une inférence efficace. Nos expériences révèlent que seule une petite fraction des têtes d'attention est essentielle pour le raisonnement, permettant à notre approche de compression KV de surpasser les méthodes de référence tout en réalisant une réduction de 20 à 50 % du cache avec une performance quasi sans perte par rapport aux résultats non compressés.
Avec l'essor actuel des explorations en raisonnement spatial, les chercheurs ont réalisé des progrès significatifs dans la compréhension des scènes intérieures, mais continuent de rencontrer des difficultés dans des applications variées telles que la robotique et la conduite autonome. Cet article vise à faire progresser le raisonnement spatial à toutes les échelles dans divers scénarios en abordant deux défis majeurs : 1) la forte dépendance aux scans 3D intérieurs et aux annotations manuelles laborieuses pour la constitution de jeux de données ; 2) l'absence de modélisation efficace des scènes à toutes les échelles, ce qui conduit souvent à un surajustement aux scènes individuelles. Dans cet article, nous proposons une solution holistique qui intègre un système de connaissances structuré pour le raisonnement spatial, une modélisation sensible à l'échelle et un paradigme d'apprentissage progressif, constituant à notre connaissance la première tentative d'élargir l'intelligence spatiale à toutes les échelles des MLLMs. En utilisant un pipeline automatisé spécifique aux tâches et piloté par des spécialistes, nous avons constitué plus de 38 000 scènes vidéo à travers 5 échelles spatiales pour créer SpaceVista-1M, un jeu de données comprenant environ 1 million de paires de questions-réponses spatiales couvrant 19 types de tâches variées. Bien que les modèles spécialisés puissent apporter des connaissances utiles dans leur domaine, ils ne sont pas fiables pour l'évaluation. Nous avons ensuite construit un benchmark à toutes les échelles avec des annotations précises en enregistrant, récupérant et assemblant manuellement des données basées sur des vidéos. Cependant, un apprentissage naïf avec SpaceVista-1M donne souvent des résultats sous-optimaux en raison de conflits potentiels de connaissances. En conséquence, nous introduisons SpaceVista-7B, un modèle de raisonnement spatial qui accepte des entrées denses allant au-delà de la sémantique et utilise l'échelle comme ancre pour des experts sensibles à l'échelle et des récompenses progressives. Enfin, des évaluations approfondies sur 5 benchmarks, y compris notre SpaceVista-Bench, démontrent des performances compétitives, mettant en évidence une forte généralisation à toutes les échelles et dans tous les scénarios. Notre jeu de données, modèle et benchmark seront disponibles sur https://peiwensun2000.github.io/mm2km.
L'évaluation des modèles modernes d'apprentissage automatique est devenue prohibitivement coûteuse. Des benchmarks tels que LMMs-Eval et HELM nécessitent des milliers d'heures de GPU par modèle. Cette évaluation coûteuse réduit l'inclusivité, ralentit le cycle d'innovation et aggrave l'impact environnemental. L'approche typique suit deux étapes. Premièrement, sélectionner un sous-ensemble de données de référence. Deuxièmement, entraîner une correspondance entre la précision sur ce sous-ensemble et le résultat final du test. L'inconvénient est que la sélection des références dépend du clustering, qui peut être complexe et sensible aux choix de conception. Nous soutenons que promouvoir la diversité parmi les échantillons n'est pas essentiel ; ce qui importe est de sélectionner des échantillons qui maximisent la diversité dans les réponses des modèles. Notre méthode, Diversifying Sample Condensation (DISCO), sélectionne les k meilleurs échantillons présentant les plus grands désaccords entre modèles. Cela utilise des statistiques gloutonnes et par échantillon plutôt qu'un clustering global. L'approche est conceptuellement plus simple. D'un point de vue théorique, le désaccord inter-modèle fournit une règle optimale en théorie de l'information pour une telle sélection gloutonne. DISCO montre des gains empiriques par rapport aux méthodes précédentes, atteignant des résultats de pointe en prédiction de performance sur MMLU, Hellaswag, Winogrande et ARC. Le code est disponible ici : https://github.com/arubique/disco-public.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode standard pour améliorer les modèles de langage de grande taille (LLMs) sur des tâches de raisonnement, avec l'Optimisation de Politique Relative par Groupe (GRPO) largement utilisée en pratique. Cependant, GRPO gaspille une quantité substantielle de calculs sur les groupes négatifs : les groupes dans lesquels aucune réponse échantillonnée n'est correcte produisent un avantage nul et donc aucun gradient. Nous nous demandons si les groupes négatifs peuvent être exploités sans supervision supplémentaire. En partant d'un objectif de maximum de vraisemblance (MLE) dans la modélisation des récompenses, nous montrons que le gradient MLE est équivalent à un gradient de politique pour une fonction de valeur modifiée. Cette fonction de valeur ajoute une pénalité pondérée par la confiance sur les réponses incorrectes, imposant des pénalités plus importantes sur les erreurs plus confiantes. Nous appelons cela l'Estimation de Vraisemblance avec Échantillons Négatifs (LENS). LENS modifie GRPO pour attribuer des récompenses non nulles et dépendantes de la confiance aux générations incorrectes, rendant les groupes négatifs informatifs et convertissant les échantillons précédemment gaspillés en mises à jour de gradient utiles. Sur le benchmark MATH avec Llama-3.1-8B et Qwen-2.5-3B, la variante proposée surpasse systématiquement la base de référence GRPO, avec des gains significatifs sur les éléments plus difficiles. Ces résultats démontrent une manière à la fois théorique et pratique de "sauver" les groupes négatifs, améliorant ainsi l'efficacité et la performance dans le RLVR.
Les récentes avancées dans les modèles de raisonnement multimodal à grande échelle (MLRMs) ont considérablement amélioré leur capacité à résoudre des tâches complexes, tant textuelles que visuelles. Cependant, ces modèles ont tendance à trop réfléchir sur des problèmes simples, produisant des traces de raisonnement inutilement longues, tout en explorant insuffisamment les problèmes difficiles, ce qui conduit à des solutions manquées. Pour remédier à ce déséquilibre, nous proposons ARES, un cadre unifié open-source pour le raisonnement adaptatif qui alloue dynamiquement l'effort d'exploration en fonction de la difficulté de la tâche. Notre approche est motivée par deux observations empiriques clés : (i) bien que l'entropie à un seul token soit bruitée, les tokens à haute entropie de fenêtre (HWE) (entropies au niveau des tokens moyennées sous une fenêtre glissante) peuvent capturer de manière fiable les moments critiques du raisonnement ; et (ii) réduire l'utilisation de HWE bénéficie aux problèmes faciles, tandis que l'augmenter est essentiel pour résoudre les problèmes difficiles. Sur la base de ces insights, ARES introduit un pipeline d'entraînement en deux étapes. Dans l'étape de démarrage à froid adaptatif, nous sélectionnons des données multimodales et textuelles accompagnées de traces de raisonnement dont la longueur est proportionnelle à la difficulté du problème, dotant ainsi le modèle d'une conscience initiale de la difficulté. Dans la deuxième étape, nous développons l'Optimisation de Politique d'Entropie Adaptative (AEPO), qui utilise les tokens HWE comme déclencheurs d'exploration pour décider quand explorer, et une récompense d'entropie hiérarchique avec contrôle dynamique de KL pour décider combien explorer. Des expériences approfondies démontrent qu'ARES atteint des performances et une efficacité de raisonnement supérieures sur divers benchmarks mathématiques, logiques et multimodaux, tout en réduisant l'écart avec les systèmes commerciaux leaders à des coûts d'inférence significativement plus faibles.
La capacité à utiliser, comprendre et créer des outils est une caractéristique majeure de l'intelligence humaine, permettant une interaction sophistiquée avec le monde physique. Pour qu'un agent intelligent à usage général atteigne une véritable polyvalence, il doit également maîtriser ces compétences fondamentales. Bien que les modèles de langage multimodaux à grande échelle (MLLMs) exploitent leurs vastes connaissances communes pour la planification de haut niveau dans l'IA incarnée et dans les modèles Vision-Langage-Action (VLA) en aval, l'étendue de leur véritable compréhension des outils physiques reste non quantifiée. Pour combler cette lacune, nous présentons PhysToolBench, le premier benchmark dédié à l'évaluation de la compréhension des outils physiques par les MLLMs. Notre benchmark est structuré comme un ensemble de données de question-réponse visuelle (VQA) comprenant plus de 1 000 paires image-texte. Il évalue les capacités à trois niveaux de difficulté distincts : (1) Reconnaissance d'outils : Nécessitant la reconnaissance de la fonction principale d'un outil. (2) Compréhension d'outils : Testant la capacité à saisir les principes sous-jacents du fonctionnement d'un outil. (3) Création d'outils : Défiant le modèle à concevoir un nouvel outil à partir d'objets environnants lorsque les options conventionnelles sont indisponibles. Notre évaluation approfondie de 32 MLLMs - englobant des modèles propriétaires, open-source, spécialisés en IA incarnée et des modèles de base dans les VLA - révèle une déficience significative dans la compréhension des outils. De plus, nous fournissons une analyse détaillée et proposons des solutions préliminaires. Le code et l'ensemble de données sont disponibles publiquement.
Les récents progrès ont repoussé les frontières de l'IA au-delà des tâches de reconnaissance de motifs vers des problèmes nécessitant un raisonnement étape par étape de type Système 2, en particulier avec les grands modèles de langage. Cependant, contrairement à l'apprentissage où les concepts de généralisation et d'évaluation hors distribution (OoD) sont bien formalisés, il n'existe pas de définition ou de métrique claire et cohérente pour la capacité de raisonnement. Nous proposons la généralisation hors distribution de complexité (Complexity OoD) comme cadre et problème pour définir et mesurer le raisonnement. Un modèle présente une généralisation Complexity OoD lorsqu'il maintient ses performances sur des instances de test dont la complexité minimale requise pour la solution, qu'elle soit représentationnelle (structure de solution plus riche) ou computationnelle (plus d'étapes de raisonnement/longueur de programme), dépasse celle de tous les exemples d'entraînement. Nous formalisons la complexité via la complexité de Kolmogorov des descriptions de solutions et des proxies opérationnels (par exemple, comptes d'objets/relations ; comptes d'étapes de raisonnement), clarifiant ainsi en quoi Complexity OoD diffère de la longueur et de la composition OoD. Cette perspective unifie apprentissage et raisonnement : de nombreux cas résolubles par un traitement de type Système 1 à faible complexité deviennent de type Système 2 sous pression de complexité, tandis que le Système 2 peut être vu comme une généralisation sur les structures de solutions. Nous traduisons cette perspective en pratique avec des recommandations pour opérationnaliser Complexity OoD à travers la pile : intégrer la complexité dans la conception des benchmarks et des métriques d'évaluation, repenser la supervision pour cibler les traces de solutions, rechercher et concevoir des biais inductifs pour la généralisation Complexity OoD, aborder les effets de bord de l'apprentissage à raisonner tels que les raccourcis fallacieux, la robustesse sémantique, l'oubli catastrophique et l'étalonnage étape par étape. Parce que Complexity OoD ne peut être résolu par la simple augmentation des données, les progrès vers un raisonnement robuste nécessiteront des architectures et des régimes d'entraînement qui modélisent et allouent explicitement le calcul en fonction de la complexité.
La tâche de prédiction d'occupation 3D a connu des progrès remarquables ces dernières années, jouant un rôle crucial dans les systèmes de conduite autonome basés sur la vision. Alors que les méthodes traditionnelles se limitent à des catégories sémantiques fixes, les approches récentes ont évolué vers la prédiction de caractéristiques alignées sur le texte, permettant des requêtes textuelles en vocabulaire ouvert dans des scènes réelles. Cependant, il existe un compromis dans la modélisation de scènes alignées sur le texte : la représentation Gaussienne éparse peine à capturer les petits objets dans la scène, tandis que la représentation dense entraîne une surcharge computationnelle significative. Pour surmonter ces limitations, nous présentons PG-Occ, un cadre innovant de transformateur Gaussien progressif qui permet la prédiction d'occupation 3D en vocabulaire ouvert. Notre cadre utilise une densification progressive en ligne, une stratégie feed-forward qui améliore graduellement la représentation Gaussienne 3D pour capturer les détails fins de la scène. En améliorant itérativement la représentation, le cadre atteint une compréhension de la scène de plus en plus précise et détaillée. Une autre contribution clé est l'introduction d'une stratégie d'échantillonnage sensible à l'anisotropie avec fusion spatio-temporelle, qui attribue de manière adaptative des champs réceptifs aux Gaussiennes à différentes échelles et étapes, permettant une agrégation de caractéristiques plus efficace et une capture d'informations de scène plus riche. À travers des évaluations approfondies, nous démontrons que PG-Occ atteint des performances de pointe avec une amélioration relative de 14,3 % en mIoU par rapport à la meilleure méthode précédente. Le code et les modèles pré-entraînés seront publiés sur notre page de projet : https://yanchi-3dv.github.io/PG-Occ.
Les grands modèles de langage (LLM) ont démontré des progrès remarquables en matière de raisonnement, souvent grâce à un ajustement supervisé (SFT). Cependant, le SFT est gourmand en ressources, reposant sur de vastes ensembles de données soigneusement sélectionnés, des démonstrations échantillonnées par rejet, et une optimisation uniforme sur tous les tokens, bien qu'une seule fraction d'entre eux ait une valeur d'apprentissage significative. Dans ce travail, nous explorons une idée contre-intuitive : les petits modèles de langage (SLM) peuvent-ils enseigner aux grands modèles de langage (LLM) en révélant des moments de raisonnement à haute valeur qui reflètent la force unique de ces derniers ? Nous proposons LightReasoner, un cadre novateur qui exploite la divergence comportementale entre un modèle expert plus fort (LLM) et un modèle amateur plus faible (SLM). LightReasoner fonctionne en deux étapes : (1) une étape d'échantillonnage qui identifie les moments critiques de raisonnement et construit des exemples de supervision capturant l'avantage de l'expert grâce à un contraste expert-amateur, et (2) une étape d'ajustement qui aligne le modèle expert sur ces exemples distillés, amplifiant ainsi ses forces de raisonnement. Sur sept benchmarks mathématiques, LightReasoner améliore la précision jusqu'à 28,1 %, tout en réduisant la consommation de temps de 90 %, les problèmes échantillonnés de 80 %, et l'utilisation de tokens ajustés de 99 %, le tout sans recourir à des étiquettes de vérité terrain. En transformant les SLM plus faibles en signaux d'enseignement efficaces, LightReasoner offre une approche évolutive et économe en ressources pour faire progresser le raisonnement des LLM. Le code est disponible à l'adresse : https://github.com/HKUDS/LightReasoner
Les modèles de diffusion contrôlables actuels reposent généralement sur des architectures fixes qui modifient les activations intermédiaires pour injecter un guidage conditionné par une nouvelle modalité. Cette approche utilise une stratégie de conditionnement statique pour un processus de débruitage dynamique et multi-étapes, limitant la capacité du modèle à adapter sa réponse au fur et à mesure que la génération évolue d'une structure grossière à des détails fins. Nous introduisons TC-LoRA (Temporally Modulated Conditional LoRA), un nouveau paradigme qui permet un contrôle dynamique et contextuel en conditionnant directement les poids du modèle. Notre framework utilise un hyper-réseau pour générer des adaptateurs LoRA à la volée, ajustant les modifications de poids pour le backbone figé à chaque étape de diffusion en fonction du temps et de la condition de l'utilisateur. Ce mécanisme permet au modèle d'apprendre et d'exécuter une stratégie explicite et adaptative pour appliquer un guidage conditionnel tout au long du processus de génération. À travers des expériences sur divers domaines de données, nous démontrons que ce contrôle paramétrique dynamique améliore significativement la fidélité générative et l'adhésion aux conditions spatiales par rapport aux méthodes statiques basées sur les activations. TC-LoRA établit une approche alternative dans laquelle la stratégie de conditionnement du modèle est modifiée par une adaptation fonctionnelle plus profonde de ses poids, permettant un alignement du contrôle avec les exigences dynamiques de la tâche et de l'étape générative.
Nous présentons MRMR, le premier benchmark expert multidisciplinaire multimodal de recherche nécessitant un raisonnement approfondi. MRMR contient 1 502 requêtes couvrant 23 domaines, avec des documents positifs soigneusement vérifiés par des experts humains. Par rapport aux benchmarks précédents, MRMR introduit trois avancées majeures. Premièrement, il met à l'épreuve les systèmes de recherche dans divers domaines d'expertise, permettant une comparaison fine des modèles à travers les domaines. Deuxièmement, les requêtes nécessitent un raisonnement intensif, avec des images exigeant une interprétation approfondie, comme le diagnostic de lames microscopiques. Nous introduisons également la Recherche de Contradiction, une nouvelle tâche qui demande aux modèles d'identifier des concepts conflictuels. Enfin, les requêtes et les documents sont construits sous forme de séquences entrelacées image-texte. Contrairement aux benchmarks antérieurs limités à des images uniques ou des documents unimodaux, MRMR offre un cadre réaliste avec des requêtes multi-images et des documents de corpus à modalités mixtes. Nous menons une évaluation approfondie de 4 catégories de systèmes de recherche multimodaux et de 14 modèles de pointe sur MRMR. Le modèle d'incorporation de texte Qwen3-Embedding avec des légendes d'images générées par LLM obtient les meilleures performances, mettant en évidence un potentiel d'amélioration substantiel pour les modèles de recherche multimodaux. Bien que les derniers modèles multimodaux tels que Ops-MM-Embedding se montrent compétitifs sur les requêtes de domaines experts, ils sont moins performants sur les tâches nécessitant un raisonnement approfondi. Nous croyons que MRMR ouvre la voie à l'avancement de la recherche multimodale dans des scénarios plus réalistes et plus exigeants.
Les modèles de raisonnement ont récemment montré des progrès remarquables dans des domaines tels que les mathématiques et la programmation. Cependant, leurs capacités de niveau expert en mathématiques et en programmation contrastent fortement avec leurs performances dans des tâches interactives à long terme, telles que la navigation sur le web et l'utilisation d'ordinateurs ou de téléphones. Inspirés par la littérature sur la cognition humaine, nous soutenons que les agents d'intelligence artificielle actuels ont besoin d'« essais et erreurs vicariants » - la capacité de simuler mentalement des futurs alternatifs avant d'agir - afin d'améliorer leur compréhension et leurs performances dans des environnements interactifs complexes. Nous présentons Dyna-Mind, un cadre de formation en deux étapes qui enseigne explicitement aux agents (V)LM à intégrer une telle simulation dans leur raisonnement. Dans la première étape, nous introduisons le Raisonnement avec Simulations (ReSim), qui forme l'agent à générer des traces de raisonnement structurées à partir d'arbres de recherche élargis construits à partir d'expériences réelles recueillies lors d'interactions avec l'environnement. ReSim ancre ainsi le raisonnement de l'agent dans des dynamiques du monde fidèles et l'équipe de la capacité d'anticiper les états futurs dans son raisonnement. Dans la deuxième étape, nous proposons Dyna-GRPO, une méthode d'apprentissage par renforcement en ligne pour renforcer davantage la capacité de simulation et de prise de décision de l'agent en utilisant à la fois les récompenses finales et les états intermédiaires comme feedback provenant de déploiements réels. Des expériences sur deux benchmarks synthétiques (Sokoban et ALFWorld) et un benchmark réaliste (AndroidWorld) démontrent que (1) ReSim infuse efficacement la capacité de simulation dans les agents d'IA, et (2) Dyna-GRPO exploite les signaux au niveau des résultats et des interactions pour apprendre de meilleures politiques pour des tâches à long terme et nécessitant une planification intensive. Ensemble, ces résultats mettent en évidence le rôle central de la simulation pour permettre aux agents d'IA de raisonner, planifier et agir plus efficacement dans des environnements de plus en plus complexes.
La synthèse dynamique de vues a connu des avancées significatives, mais la reconstruction de scènes à partir de vidéos non calibrées et informelles reste un défi en raison de l'optimisation lente et de l'estimation complexe des paramètres. Dans ce travail, nous présentons Instant4D, un système de reconstruction monoculaire qui exploite une représentation native 4D pour traiter efficacement des séquences vidéo informelles en quelques minutes, sans caméras calibrées ni capteurs de profondeur. Notre méthode commence par une récupération géométrique via un SLAM visuel profond, suivie d'un élagage de grille pour optimiser la représentation de la scène. Notre conception réduit considérablement la redondance tout en préservant l'intégrité géométrique, réduisant la taille du modèle à moins de 10 % de son empreinte initiale. Pour gérer efficacement la dynamique temporelle, nous introduisons une représentation simplifiée en Gaussiennes 4D, obtenant une accélération de 30 fois et réduisant le temps d'entraînement à moins de deux minutes, tout en maintenant des performances compétitives sur plusieurs benchmarks. Notre méthode reconstruit une vidéo unique en moins de 10 minutes sur le dataset Dycheck ou pour une vidéo typique de 200 images. Nous appliquons également notre modèle à des vidéos en conditions réelles, démontrant ainsi sa généralisabilité. Notre site web de projet est publié à l'adresse https://instant4d.github.io/.
Les grands modèles de langage (LLMs) ont démontré des avancées remarquables en raisonnement mathématique et logique, mais les statistiques, en tant que discipline distincte et intégrative, restent sous-explorées dans les efforts de benchmarking. Pour combler cette lacune, nous introduisons StatEval, le premier benchmark complet dédié aux statistiques, couvrant à la fois l'étendue et la profondeur à travers différents niveaux de difficulté. StatEval se compose de 13 817 problèmes fondamentaux couvrant les programmes de licence et de master, ainsi que de 2374 tâches de preuve de niveau recherche extraites de revues scientifiques de premier plan. Pour construire ce benchmark, nous concevons un pipeline multi-agent évolutif avec validation humaine en boucle, automatisant l'extraction à grande échelle, la réécriture et le contrôle qualité des problèmes, tout en garantissant la rigueur académique. Nous proposons en outre un cadre d'évaluation robuste adapté à la fois aux tâches computationnelles et basées sur des preuves, permettant une évaluation fine des capacités de raisonnement. Les résultats expérimentaux révèlent que si les modèles propriétaires tels que GPT5-mini obtiennent moins de 57 % sur les problèmes de niveau recherche, les modèles open-source performent significativement moins bien. Ces résultats mettent en lumière les défis uniques du raisonnement statistique et les limites des LLMs actuels. Nous espérons que StatEval servira de benchmark rigoureux pour faire progresser l'intelligence statistique dans les grands modèles de langage. Toutes les données et le code sont disponibles sur notre plateforme web : https://stateval.github.io/.
La robustesse de la reconnaissance automatique de la parole (ASR) face aux changements de domaine est cruciale, car les systèmes réels rencontrent des accents et des domaines inédits avec des données annotées limitées. Bien que l'étiquetage pseudo-supervisé offre une solution pratique, il introduit souvent des erreurs systématiques spécifiques aux accents que le filtrage ne parvient pas à corriger. Nous posons la question suivante : comment corriger ces biais récurrents sans vérité terrain cible ? Nous proposons une correction simple dans l'espace des paramètres : dans un domaine source contenant à la fois des données réelles et pseudo-étiquetées, deux modèles ASR sont affinés à partir de la même initialisation, l'un sur des étiquettes de vérité terrain et l'autre sur des pseudo-étiquettes, et la différence de leurs poids forme un vecteur de correction qui capture les biais des pseudo-étiquettes. Lorsqu'il est appliqué à un modèle cible pseudo-étiqueté, ce vecteur améliore la reconnaissance, permettant une réduction relative du taux d'erreur sur les mots (WER) allant jusqu'à 35 % sur AfriSpeech-200 pour dix accents africains avec le modèle Whisper tiny.
Les approches multimodales traditionnelles cherchent à établir des représentations unifiées pour des tâches comme la réponse à des questions visuelles, mais elles reposent fortement sur des ensembles de données appariées. Cependant, une question négligée mais potentiellement puissante est : peut-on exploiter des données multimodales auxiliaires non appariées pour améliorer directement l'apprentissage de représentations dans une modalité cible ? Nous présentons UML : Unpaired Multimodal Learner, un paradigme d'entraînement agnostique à la modalité dans lequel un seul modèle traite alternativement des entrées provenant de différentes modalités tout en partageant des paramètres entre elles. Cette conception exploite l'hypothèse selon laquelle différentes modalités sont des projections d'une réalité sous-jacente commune, permettant au modèle de bénéficier d'une structure intermodale sans nécessiter de paires explicites. Théoriquement, sous des hypothèses linéaires de génération de données, nous montrons que des données auxiliaires non appariées peuvent produire des représentations strictement plus informatives sur le processus de génération des données que l'entraînement unimodal. Empiriquement, nous démontrons que l'utilisation de données non appariées provenant de modalités auxiliaires -- telles que le texte, l'audio ou les images -- améliore systématiquement les performances en aval pour diverses cibles unimodales comme l'image et l'audio. Notre page de projet : https://unpaired-multimodal.github.io/
Les agents DeepResearch incarnent un paradigme transformateur de l'IA, menant des recherches de niveau expert grâce à un raisonnement sophistiqué et une intégration multi-outils. Cependant, l'évaluation de ces systèmes reste un défi critique en raison de scénarios de recherche ouverts et de benchmarks existants qui se concentrent sur des capacités isolées plutôt que sur la performance globale. Contrairement aux tâches traditionnelles des LLM, les systèmes DeepResearch doivent synthétiser des sources diverses, générer des insights et présenter des conclusions cohérentes, des capacités qui résistent à une vérification simple. Pour combler cette lacune, nous introduisons DeepResearch-ReportEval, un cadre complet conçu pour évaluer les systèmes DeepResearch à travers leurs productions les plus représentatives : les rapports de recherche. Notre approche mesure systématiquement trois dimensions : la qualité, la redondance et la factualité, en utilisant une méthodologie innovante de LLM-comme-Juge atteignant une forte concordance avec les experts. Nous contribuons un benchmark standardisé de 100 requêtes soigneusement sélectionnées couvrant 12 catégories du monde réel, permettant une comparaison systématique des capacités. Notre évaluation de quatre systèmes commerciaux leaders révèle des philosophies de conception distinctes et des compromis de performance, établissant des insights fondamentaux alors que DeepResearch évolue d'assistants d'information vers des partenaires de recherche intelligents. Le code source et les données sont disponibles à l'adresse : https://github.com/HKUDS/DeepResearch-Eval.
Les protocoles de contrôle de l'IA servent de mécanisme de défense pour empêcher les agents LLM non fiables de causer des dommages dans des contextes autonomes. Les travaux antérieurs abordent ce problème comme une question de sécurité, en effectuant des tests de résistance avec des exploits qui utilisent le contexte de déploiement pour accomplir subtilement des tâches secondaires nuisibles, telles que l'insertion de portes dérobées. En pratique, la plupart des protocoles de contrôle de l'IA reposent fondamentalement sur des moniteurs LLM, qui peuvent devenir un point de défaillance central. Nous étudions les attaques adaptatives par un modèle non fiable qui connaît le protocole et le modèle de surveillance, ce qui est plausible si le modèle non fiable a été entraîné avec une date de connaissance ultérieure ou peut rechercher cette information de manière autonome. Nous instancions un vecteur d'attaque adaptative simple par lequel l'attaquant intègre des injections d'invites publiquement connues ou zero-shot dans les sorties du modèle. En utilisant cette tactique, les modèles de pointe contournent systématiquement divers moniteurs et accomplissent des tâches malveillantes sur deux principaux benchmarks de contrôle de l'IA. L'attaque fonctionne universellement contre les protocoles actuels qui s'appuient sur un moniteur. De plus, le protocole récent Defer-to-Resample se retourne même contre lui, car son rééchantillonnage amplifie l'injection d'invite et la reformule efficacement comme une attaque best-of-n. En général, les attaques adaptatives sur les modèles de surveillance représentent un angle mort majeur dans les protocoles de contrôle actuels et devraient devenir un composant standard des évaluations pour les futurs mécanismes de contrôle de l'IA.
Le scaling parallèle au moment du test (TTS) est une approche essentielle pour améliorer les grands modèles de langage (LLMs), généralement en échantillonnant plusieurs chaînes de pensée basées sur des tokens en parallèle et en agrégeant les résultats par vote ou recherche. Les avancées récentes dans le raisonnement latent, où le raisonnement intermédiaire se déroule dans des espaces vectoriels continus, offrent une alternative plus efficace au Chain-of-Thought explicite. Cependant, la question de savoir si ces modèles latents peuvent bénéficier de manière similaire du TTS parallèle reste ouverte, principalement en raison de l'absence de mécanismes d'échantillonnage dans l'espace continu et du manque de signaux probabilistes pour l'agrégation avancée des trajectoires. \ Ce travail permet le TTS parallèle pour les modèles de raisonnement latent en abordant ces problèmes. Pour l'échantillonnage, nous introduisons deux stratégies stochastiques inspirées par l'incertitude : le Monte Carlo Dropout et le bruit gaussien additif. Pour l'agrégation, nous concevons un modèle de récompense latent (LatentRM) entraîné avec un objectif contrastif étape par étape pour évaluer et guider le raisonnement latent. Des expériences approfondies et des analyses de visualisation montrent que les deux stratégies d'échantillonnage s'adaptent efficacement à la puissance de calcul et présentent des dynamiques d'exploration distinctes, tandis que le LatentRM permet une sélection efficace des trajectoires. Ensemble, nos explorations ouvrent une nouvelle direction pour l'inférence scalable dans les espaces continus. Le code est disponible à l'adresse suivante : https://github.com/YRYangang/LatentTTS.
Les générateurs de légendes zero-shot sont des modèles récemment proposés qui exploitent des représentations vision-langage dans un espace commun pour légender des images sans s'appuyer sur des données appariées image-texte. Pour légender une image, ils procèdent en décodant textuellement une caractéristique d'image alignée sur le texte, mais ils limitent leur portée aux représentations globales et aux légendes d'image entière. Nous présentons , un cadre unifié pour la génération de légendes zero-shot qui passe d'un paradigme centré sur l'image à un paradigme centré sur les patchs, permettant de légender des régions arbitraires sans nécessiter de supervision au niveau des régions. Au lieu de s'appuyer sur des représentations globales de l'image, nous traitons les patchs individuels comme des unités atomiques de légendage et les agrégeons pour décrire des régions arbitraires, allant de patchs uniques à des zones non contiguës et à des images entières. Nous analysons les éléments clés qui permettent aux générateurs de légendes latents actuels de fonctionner dans notre nouveau cadre proposé. Les expériences démontrent que les architectures produisant des caractéristiques visuelles denses et significatives, comme DINO, sont essentielles pour atteindre des performances de pointe dans plusieurs tâches de légendage basées sur les régions. Par rapport à d'autres modèles de référence et à des concurrents de pointe, nos modèles obtiennent de meilleures performances sur des tâches de légendage dense zero-shot, de légendage d'ensemble de régions, et sur une nouvelle tâche de légendage de traces, mettant en évidence l'efficacité des représentations sémantiques par patch pour la génération de légendes scalable. Page du projet à l'adresse https://paciosoft.com/Patch-ioner/ .
L'évaluation par les pairs est la pierre angulaire de la publication scientifique, mais elle souffre d'incohérences, de subjectivité des évaluateurs et de défis liés à l'évolutivité. Nous présentons ReviewerToo, un cadre modulaire pour étudier et déployer l'évaluation par les pairs assistée par l'intelligence artificielle (IA) afin de compléter le jugement humain par des évaluations systématiques et cohérentes. ReviewerToo permet de mener des expériences systématiques avec des profils d'évaluateurs spécialisés et des critères d'évaluation structurés, et peut être partiellement ou entièrement intégré dans les flux de travail réels des conférences. Nous validons ReviewerToo sur un ensemble de données soigneusement sélectionné de 1 963 soumissions de papiers provenant de l'ICLR 2025, où nos expériences avec le modèle gpt-oss-120b atteignent une précision de 81,8 % pour la tâche de catégorisation d'un article en accepté/rejeté, contre 83,9 % pour l'évaluateur humain moyen. De plus, les évaluations générées par ReviewerToo sont jugées de qualité supérieure à la moyenne humaine par un juge LLM, bien qu'elles restent en deçà des contributions des experts les plus performants. Notre analyse met en lumière les domaines où les évaluateurs IA excellent (par exemple, la vérification des faits, la couverture de la littérature) et ceux où ils rencontrent des difficultés (par exemple, l'évaluation de la nouveauté méthodologique et des contributions théoriques), soulignant le besoin persistant d'expertise humaine. Sur la base de ces résultats, nous proposons des lignes directrices pour intégrer l'IA dans les processus d'évaluation par les pairs, montrant comment l'IA peut améliorer la cohérence, la couverture et l'équité tout en laissant les jugements évaluatifs complexes aux experts du domaine. Notre travail jette les bases de systèmes hybrides d'évaluation par les pairs systématiques, capables de s'adapter à la croissance de la publication scientifique.
Les grands modèles de raisonnement (LRM) renforcés par l'apprentissage par renforcement basé sur la récompense du vérificateur (RLVR) ont démontré une grande puissance dans la résolution de problèmes, mais ils entraînent souvent une surréflexion : un raisonnement excessif et sinueux qui augmente les coûts de calcul. Les conceptions précédentes de pénalisation dans le RLVR parviennent à réduire la consommation de tokens, mais nuisent souvent à la performance du modèle, en raison de la simplicité excessive de la supervision au niveau des tokens. Dans cet article, nous soutenons que la granularité de la supervision joue un rôle crucial dans l'équilibre entre efficacité et précision, et proposons la Pénalisation Relative par Segment de Groupe (GRSP), une méthode au niveau des étapes pour régulariser le raisonnement. Étant donné que des analyses préliminaires montrent que les segments de raisonnement sont fortement corrélés à la consommation de tokens et à la performance du modèle, nous concevons un mécanisme de pondération tenant compte de la longueur à travers des clusters de segments. Des expériences approfondies démontrent que le GRSP atteint une efficacité supérieure en termes de tokens sans compromettre lourdement la précision, en particulier pour les problèmes plus difficiles. De plus, le GRSP stabilise l'entraînement par renforcement et s'adapte efficacement à différentes tailles de modèles.
Les modèles de langage parlés en temps réel (SLMs) peinent à exploiter le raisonnement en chaîne de pensée (CoT) en raison de la latence prohibitive liée à la génération séquentielle de l'intégralité du processus de réflexion. Permettre aux SLMs de penser tout en parlant, à l'instar des humains, suscite un intérêt croissant. Nous présentons, pour la première fois, le cadre **Mind-Paced Speaking (MPS)**, inspiré du cerveau, qui permet un raisonnement en temps réel de haute fidélité. Similairement à la manière dont les humains utilisent des régions cérébrales distinctes pour penser et répondre, nous proposons une approche novatrice à double cerveau, employant un « Cerveau de Formulation » pour un raisonnement de haut niveau afin de rythmer et guider un « Cerveau d'Articulation » distinct pour la génération fluide de la parole. Cette division du travail élimine les changements de mode, préservant ainsi l'intégrité du processus de raisonnement. Les expériences montrent que MPS surpasse significativement les méthodes existantes de pensée-parallèle et atteint des performances de raisonnement comparables à celles des modèles qui pré-calculent l'intégralité du CoT avant de parler, tout en réduisant drastiquement la latence. Dans une configuration à latence nulle, la méthode proposée atteint une précision de 92,8 % sur la tâche de raisonnement mathématique Spoken-MQA et obtient un score de 82,5 sur la tâche de conversation parlée URO-Bench. Notre travail comble efficacement le fossé entre un raisonnement de haute qualité et une interaction en temps réel.
Les agents basés sur des modèles de langage de grande taille (LLMs) peinent à effectuer des essais-erreurs sans réflexion et à générer des actions hallucinatoires en raison d'un manque de planification globale dans les tâches à long terme. Dans cet article, nous introduisons un cadre planifier-exécuter et proposons EAGLET, une méthode de formation de planificateur efficace et efficiente pour améliorer les capacités de planification de l'agent exécuteur sans effort humain. Plus précisément, nous formons un planificateur global plug-and-play via un processus en deux étapes : nous synthétisons d'abord des plans de haute qualité à partir d'un LLM avancé en utilisant notre stratégie de filtrage par consensus homologue, puis appliquons un ajustement fin comme amorçage à froid. De plus, nous améliorons davantage le planificateur avec une étape d'apprentissage par renforcement basée sur des règles utilisant une nouvelle récompense de gain de capacité de l'exécuteur, garantissant qu'il peut gérer des instructions de tâches de difficulté variable. Les expériences sur trois tâches d'agents à long terme montrent que les agents exécuteurs équipés de notre planificateur surpassent les méthodes existantes, atteignant de nouvelles performances de pointe. Par ailleurs, EAGLET réduit les coûts de formation par 8 par rapport aux bases de référence basées sur l'apprentissage par renforcement, et ne nécessite aucun effort manuel ni données de formation supplémentaires, offrant ainsi une solution efficace et efficiente.
En tant que nouveau paradigme de génération de contenu visuel, les modèles autoregressifs de texte-à-image souffrent d'une inférence lente en raison de leur processus séquentiel de décodage token par token, nécessitant souvent des milliers de passes avant pour générer une seule image. Pour remédier à cette inefficacité, nous proposons le Spéculatif Jacobi-Denoising Decoding (SJD2), un cadre qui intègre le processus de débruitage dans les itérations de Jacobi pour permettre une génération parallèle de tokens dans les modèles autoregressifs. Notre méthode introduit un paradigme de prédiction de tokens propres suivants qui permet aux modèles autoregressifs pré-entraînés d'accepter des embeddings de tokens perturbés par du bruit et de prédire les tokens propres suivants via un ajustement fin à faible coût. Ce paradigme de débruitage guide le modèle vers des trajectoires de Jacobi plus stables. Pendant l'inférence, notre méthode initialise les séquences de tokens avec un bruit gaussien et effectue une prédiction itérative de tokens propres suivants dans l'espace d'embedding. Nous utilisons un critère probabiliste pour vérifier et accepter plusieurs tokens en parallèle, et affinons les tokens non acceptés pour la prochaine itération avec la trajectoire de débruitage. Les expériences montrent que notre méthode peut accélérer la génération en réduisant les passes avant du modèle tout en maintenant la qualité visuelle des images générées.
La segmentation d'objets vidéo par référence (RVOS) vise à segmenter l'objet désigné par une phrase de requête dans une vidéo. La plupart des méthodes existantes nécessitent un entraînement de bout en bout avec des annotations de masques denses, ce qui peut être coûteux en calcul et moins évolutif. Dans ce travail, nous revisitons le problème de la RVOS et cherchons à identifier les éléments clés de cette tâche. En nous appuyant sur des modèles de segmentation de base existants, nous décomposons la tâche de RVOS en facteurs de référence, vidéo et segmentation, et proposons un cadre de génération et de sélection de prompts temporels (Tenet) pour aborder les facteurs de référence et vidéo, tout en laissant le problème de segmentation aux modèles de base. Pour adapter efficacement les modèles de segmentation d'images de base à la segmentation d'objets vidéo par référence, nous exploitons des détecteurs et des traqueurs d'objets prêts à l'emploi pour produire des prompts temporels associés à la phrase de référence. Bien que des prompts temporels de haute qualité puissent être générés, ils ne peuvent pas être facilement identifiés à partir des scores de confiance. Pour résoudre ce problème, nous proposons un apprentissage de préférence des prompts pour évaluer la qualité des prompts temporels produits. En utilisant ces prompts pour guider les modèles de segmentation d'images de base, nous pouvons produire des masques de haute qualité pour l'objet référencé, permettant une adaptation efficace du modèle à la segmentation d'objets vidéo par référence. Les expériences sur les benchmarks de RVOS démontrent l'efficacité du cadre Tenet.
Les grands modèles de langage (LLMs) et les cadres agentiques émergents commencent à transformer la biologie unicellulaire en permettant le raisonnement en langage naturel, l'annotation générative et l'intégration de données multimodales. Cependant, les progrès restent fragmentés entre les modalités de données, les architectures et les normes d'évaluation. LLM4Cell présente la première étude unifiée de 58 modèles de base et agentiques développés pour la recherche unicellulaire, couvrant les modalités RNA, ATAC, multi-omiques et spatiales. Nous catégorisons ces méthodes en cinq familles - fondation, pont textuel, spatial, multimodal, épigénomique et agentique - et les cartographions à huit tâches analytiques clés, incluant l'annotation, la modélisation de trajectoires et de perturbations, et la prédiction de réponse aux médicaments. En nous appuyant sur plus de 40 ensembles de données publics, nous analysons la pertinence des benchmarks, la diversité des données, ainsi que les contraintes éthiques ou de scalabilité, et évaluons les modèles selon 10 dimensions couvrant l'ancrage biologique, l'alignement multi-omique, l'équité, la confidentialité et l'explicabilité. En reliant les ensembles de données, les modèles et les domaines d'évaluation, LLM4Cell offre la première vue intégrée de l'intelligence unicellulaire pilotée par le langage et souligne les défis ouverts en matière d'interprétabilité, de standardisation et de développement de modèles dignes de confiance.
Les grands modèles de langage (LLMs) posent des défis de déploiement importants en raison de leurs exigences computationnelles et mémoire considérables. Bien que l'élagage semi-structuré, en particulier la sparsité 2:4, offre une voie vers une accélération matérielle pratique, les méthodes existantes entraînent souvent une dégradation substantielle des performances. Pour combler cet écart, nous introduisons ARMOR (Adaptive Representation with Matrix-factORization), un nouvel algorithme d'élagage post-entraînement en une seule étape. Au lieu d'élaguer directement les poids, ARMOR factorise chaque matrice de poids en un cœur sparse 2:4 enveloppé par deux matrices diagonales par blocs à faible surcharge. Ces enveloppes agissent comme des correcteurs d'erreur de pré et post-transformation efficaces, offrant une plus grande flexibilité pour préserver la qualité du modèle par rapport aux techniques d'élagage 2:4 conventionnelles. Le cœur sparse et les enveloppes diagonales par blocs sont choisis via un algorithme de descente de coordonnées par blocs qui minimise une perte proxy par couche. Nous prouvons théoriquement que cette optimisation est garantie de converger vers une solution avec une perte proxy inférieure ou égale à celle des algorithmes d'élagage de pointe. Les expériences sur les familles de modèles Llama (Touvron et al., 2023 ; Dubey et al., 2024) et Qwen (Yang et al., 2025) démontrent qu'ARMOR surpasse de manière constante et significative les méthodes d'élagage 2:4 de pointe sur un large éventail de tâches en aval et d'évaluations de perplexité. ARMOR atteint cette performance supérieure tout en conservant les accélérations d'inférence et les réductions substantielles de l'utilisation de la mémoire de l'élagage 2:4, établissant un compromis plus efficace entre la compression du modèle et la précision des tâches.
Les agents robotiques du monde réel doivent agir dans des conditions de visibilité partielle et sur des horizons temporels étendus, où des indices cruciaux peuvent apparaître bien avant qu'ils n'influencent la prise de décision. Cependant, la plupart des approches modernes reposent uniquement sur des informations instantanées, sans intégrer les insights du passé. Les modèles récurrents ou transformeurs standards peinent à retenir et à exploiter les dépendances à long terme : les fenêtres de contexte tronquent l'historique, tandis que les extensions naïves de mémoire échouent face à l'échelle et à la parcimonie. Nous proposons ELMUR (External Layer Memory with Update/Rewrite), une architecture de transformeur dotée d'une mémoire externe structurée. Chaque couche maintient des embeddings de mémoire, interagit avec eux via une attention croisée bidirectionnelle, et les met à jour grâce à un module de mémoire LRU (Least Recently Used) utilisant un remplacement ou un mélange convexe. ELMUR étend les horizons effectifs jusqu'à 100 000 fois au-delà de la fenêtre d'attention et atteint un taux de réussite de 100 % sur une tâche synthétique de labyrinthe en T avec des corridors allant jusqu'à un million d'étapes. Dans POPGym, il surpasse les modèles de référence sur plus de la moitié des tâches. Sur les tâches de manipulation à récompense éparse MIKASA-Robo avec observations visuelles, il double presque les performances des modèles de référence solides. Ces résultats démontrent qu'une mémoire externe structurée et locale aux couches offre une approche simple et scalable pour la prise de décision sous visibilité partielle.
Comment pouvons-nous enseigner de nouvelles compétences aux grands modèles multimodaux (LMMs) sans effacer leurs capacités antérieures ? Nous étudions le fine-tuning séquentiel sur cinq compétences cibles tout en surveillant les capacités générales sur huit benchmarks de référence à travers trois familles de modèles. Nous observons que l'« oubli » apparent sur les tâches de référence après un fine-tuning ciblé peut partiellement se résorber à des étapes ultérieures. Nous retraçons ce comportement à un changement mesurable dans la distribution des tokens de sortie, manifesté à travers une sonde simple de biais de comptage qui co-varie avec l'oubli. Guidés par cette observation, nous identifions deux recettes de réglage simples et robustes qui apprennent efficacement tout en limitant la dérive : (i) mettre à jour uniquement les couches de projection de l'auto-attention, et (ii) mettre à jour uniquement les portes et projections ascendantes (MLP Gate&Up) tout en gelant les projections descendantes (Down). À travers les modèles et les tâches, ces choix offrent des gains cibles significatifs tout en préservant largement les performances sur les benchmarks de référence. Le code est disponible à l'adresse suivante : https://github.com/jessemelpolio/LMM_CL.
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès remarquables en matière de raisonnement, mais produisent parfois des réponses sous-optimales pour les utilisateurs dans des tâches telles que la rédaction, la recherche d'informations ou la fourniture de conseils pratiques. Les pratiques conventionnelles d'alignement supposent généralement que maximiser la récompense du modèle maximise également le bien-être de l'utilisateur, mais cette hypothèse échoue fréquemment en pratique : les modèles peuvent trop clarifier ou générer des raisonnements excessivement verbeux lorsque les utilisateurs préfèrent des réponses concises. Ces comportements ressemblent au dilemme du prisonnier, où des choix individuellement rationnels conduisent à des résultats socialement sous-optimaux. Le défi fondamental est l'absence d'un mécanisme de prise de décision principiel qui profite mutuellement à la fois au LLM et à l'utilisateur. Nous proposons l'Alignement Théorique des Jeux (GTAlign), un cadre d'alignement qui intègre la prise de décision basée sur la théorie des jeux dans le raisonnement et l'entraînement. Pendant le raisonnement, le modèle traite explicitement l'interaction utilisateur-LLM comme un jeu stratégique : il construit des matrices de gains dans sa chaîne de raisonnement pour estimer le bien-être à la fois pour lui-même et pour l'utilisateur, puis sélectionne des actions mutuellement bénéfiques. Pendant l'entraînement, nous introduisons une récompense de bien-être mutuel qui renforce les réponses coopératives, alignant ainsi le comportement du modèle sur des résultats socialement efficaces. De plus, nous introduisons une technique d'inférence qui exploite le raisonnement théorique des jeux pour adapter dynamiquement la réponse du LLM lorsque les politiques de tarification des services LLM changent. Des expériences approfondies démontrent que GTAlign améliore considérablement l'efficacité du raisonnement, la qualité des réponses et le bien-être mutuel par rapport aux méthodes de référence dans diverses tâches. Le code est disponible à l'adresse https://github.com/ulab-uiuc/GTAlign.
Les récits personnels sont des histoires que les auteurs construisent pour donner un sens à leurs expériences. Le style, la manière distinctive dont les auteurs utilisent le langage pour s'exprimer, est fondamental dans la manière dont ces récits transmettent des expériences subjectives. Pourtant, il manque un cadre formel pour analyser systématiquement ces choix stylistiques. Nous présentons une approche novatrice qui formalise le style dans les récits personnels en tant que modèles dans les choix linguistiques que les auteurs font lorsqu'ils communiquent des expériences subjectives. Notre cadre intègre trois domaines : la linguistique fonctionnelle établit le langage comme un système de choix significatifs, l'informatique fournit des méthodes pour extraire et analyser automatiquement des modèles séquentiels, et ces modèles sont reliés à des observations psychologiques. En utilisant des modèles de langage, nous extrayons automatiquement des caractéristiques linguistiques telles que les processus, les participants et les circonstances. Nous appliquons notre cadre à des centaines de récits de rêves, y compris une étude de cas sur un ancien combattant souffrant de trouble de stress post-traumatique. L'analyse de ses récits révèle des modèles distinctifs, en particulier la domination des processus verbaux sur les processus mentaux, illustrant la relation entre les choix linguistiques et les états psychologiques.
Les approches actuelles d'estimation de profondeur monoculaire auto-supervisée (MDE) rencontrent des limitations de performance dues à une extraction insuffisante des connaissances sémantico-spatiales. Pour relever ce défi, nous proposons Hybrid-depth, un nouveau cadre systématiquement intégrant des modèles de base (par exemple, CLIP et DINO) pour extraire des a priori visuels et acquérir des informations contextuelles suffisantes pour la MDE. Notre approche introduit un cadre d'apprentissage progressif du grossier au fin : 1) Tout d'abord, nous agrégeons des caractéristiques multi-granulaires de CLIP (sémantique globale) et de DINO (détails spatiaux locaux) sous guidage linguistique contrastif. Une tâche proxy comparant des patches d'images proches-lointaines est conçue pour imposer un alignement des caractéristiques sensible à la profondeur en utilisant des invites textuelles ; 2) Ensuite, en nous appuyant sur les caractéristiques grossières, nous intégrons des informations sur la pose de la caméra et un alignement linguistique pixel par pixel pour affiner les prédictions de profondeur. Ce module s'intègre de manière transparente avec les pipelines MDE auto-supervisés existants (par exemple, Monodepth2, ManyDepth) en tant qu'encodeur de profondeur plug-and-play, améliorant l'estimation continue de la profondeur. En agrégeant le contexte sémantique de CLIP et les détails spatiaux de DINO à travers un guidage linguistique, notre méthode résout efficacement les inadéquations de granularité des caractéristiques. Des expériences approfondies sur le benchmark KITTI démontrent que notre méthode surpasse significativement les méthodes SOTA sur tous les indicateurs, ce qui profite également aux tâches en aval comme la perception BEV. Le code est disponible à l'adresse https://github.com/Zhangwenyao1/Hybrid-depth.
Les grands modèles de langage (LLMs) nécessitent une édition de connaissances (KE) efficace pour mettre à jour les informations factuelles, mais les méthodes existantes présentent une dégradation significative des performances dans le rappel de faits multi-étapes. Cet échec est particulièrement marqué lorsque les modifications impliquent des sujets implicites intermédiaires dans les chaînes de raisonnement. Grâce à une analyse causale, nous révélons que cette limitation découle d'une négligence dans la représentation et l'utilisation dynamiques des connaissances enchaînées au niveau des neurones. Nous découvrons que lors d'un raisonnement multi-étapes, les sujets implicites fonctionnent comme des neurones de requête, qui activent séquentiellement les neurones de valeur correspondants à travers les couches du transformateur pour accumuler les informations vers la réponse finale, une dynamique que les travaux précédents en KE ont négligée. Guidés par cette observation, nous proposons ACE : Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, un cadre qui exploite l'attribution au niveau des neurones pour identifier et éditer ces voies critiques de requête-valeur (Q-V). ACE offre une solution mécaniquement fondée pour la KE multi-étapes, surpassant empiriquement les méthodes de pointe de 9,44 % sur GPT-J et de 37,46 % sur Qwen3-8B. Notre analyse révèle en outre des modèles d'activation plus fins dans Qwen3 et démontre que l'interprétabilité sémantique des neurones de valeur est orchestrée par une accumulation pilotée par la requête. Ces résultats établissent une nouvelle voie pour faire progresser les capacités de KE en s'appuyant sur une compréhension principielle des mécanismes internes de raisonnement.
La personnalisation des modèles de diffusion permet aux utilisateurs de générer de nouvelles images intégrant un sujet donné, offrant ainsi un contrôle supérieur à celui d'une simple invite textuelle. Ces modèles rencontrent souvent des difficultés lorsqu'ils se contentent de reproduire l'image du sujet tout en ignorant l'invite textuelle. Nous observons qu'une méthode populaire de personnalisation, l'IP-Adapter, génère automatiquement des masques qui segmentent clairement le sujet de l'arrière-plan lors de l'inférence. Nous proposons d'utiliser ce masque généré automatiquement lors d'une deuxième passe pour masquer les tokens de l'image, les limitant ainsi au sujet et non à l'arrière-plan, ce qui permet à l'invite textuelle de se concentrer sur le reste de l'image. Pour les invites textuelles décrivant des lieux et des endroits, cela produit des images qui représentent fidèlement le sujet tout en correspondant parfaitement à l'invite. Nous comparons notre méthode à quelques autres méthodes de personnalisation au moment du test, et constatons que notre méthode présente un alignement élevé entre l'invite et l'image source.