papers.description
L'ancrage d'interface graphique (GUI) associe des instructions en langage naturel à des emplacements précis de l'interface pour une interaction autonome. Les approches actuelles d'apprentissage par renforcement utilisent des récompenses binaires qui traitent les éléments comme des cibles à atteindre ou non, générant ainsi des signaux clairsemés qui ignorent la nature continue des interactions spatiales. Inspirés par le comportement de clic humain qui forme naturellement des distributions gaussiennes centrées sur les éléments cibles, nous introduisons les Récompenses Gaussiennes d'Ancrage GUI (GUI-G^2), un cadre de récompense structuré qui modélise les éléments GUI comme des distributions gaussiennes continues sur le plan de l'interface. GUI-G^2 intègre deux mécanismes synergiques : les récompenses ponctuelles gaussiennes modélisent la localisation précise via des distributions à décroissance exponentielle centrées sur les centroïdes des éléments, tandis que les récompenses de couverture évaluent l'alignement spatial en mesurant le chevauchement entre les distributions gaussiennes prédites et les régions cibles. Pour gérer les échelles variées des éléments, nous développons un mécanisme de variance adaptative qui ajuste les distributions de récompense en fonction des dimensions des éléments. Ce cadre transforme l'ancrage GUI d'une classification binaire clairsemée en une optimisation continue dense, où les distributions gaussiennes génèrent des signaux de gradient riches qui guident les modèles vers des positions d'interaction optimales. Des expériences approfondies sur les benchmarks ScreenSpot, ScreenSpot-v2 et ScreenSpot-Pro démontrent que GUI-G^2 surpasse significativement la méthode de pointe UI-TARS-72B, avec une amélioration la plus notable de 24,7 % sur ScreenSpot-Pro. Notre analyse révèle que la modélisation continue offre une robustesse supérieure face aux variations d'interface et une meilleure généralisation à des dispositions inédites, établissant ainsi un nouveau paradigme pour le raisonnement spatial dans les tâches d'interaction GUI.
Les grands modèles de langage ont récemment évolué de la génération fluide de texte vers un raisonnement avancé dans divers domaines, donnant naissance aux modèles de langage à raisonnement. Parmi ces domaines, le raisonnement mathématique sert de référence représentative car il nécessite une logique multi-étapes précise et un raisonnement abstrait, qui peuvent être généralisés à d'autres tâches. Bien que les modèles de raisonnement propriétaires tels que GPT-3 démontrent des capacités de raisonnement impressionnantes, leur nature fermée limite la transparence et la reproductibilité. Bien que de nombreux projets open-source visent à combler cet écart, la plupart manquent d'une ouverture suffisante en omettant des ressources critiques telles que les jeux de données et les configurations détaillées d'entraînement, ce qui entrave la reproductibilité. Pour contribuer à une plus grande transparence dans le développement des modèles de raisonnement, nous présentons la série MiroMind-M1, un ensemble de modèles de raisonnement entièrement open-source basés sur l'architecture Qwen-2.5, qui égalent ou surpassent les performances des modèles open-source existants. Plus précisément, nos modèles sont entraînés en deux étapes : un fine-tuning supervisé (SFT) sur un corpus soigneusement sélectionné de 719K problèmes de raisonnement mathématique avec des trajectoires de raisonnement en chaîne (CoT) vérifiées, suivi d'un apprentissage par renforcement avec vérification (RLVR) sur 62K problèmes complexes et vérifiables. Pour améliorer la robustesse et l'efficacité du processus RLVR, nous introduisons l'optimisation de politique multi-étapes contextuelle, un algorithme qui intègre un entraînement progressif en longueur avec une pénalité de répétition adaptative pour encourager un apprentissage par renforcement contextuel. Notre modèle atteint des performances de pointe ou compétitives, ainsi qu'une efficacité supérieure en termes de tokens parmi les modèles open-source basés sur Qwen-2.5 de 7B et 32B sur les benchmarks AIME24, AIME25 et MATH. Pour faciliter la reproductibilité, nous publions l'ensemble complet : les modèles (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B) ; les jeux de données (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K) ; ainsi que toutes les configurations d'entraînement et d'évaluation. Nous espérons que ces ressources soutiendront la recherche future et favoriseront l'avancement de la communauté.
Les récents progrès dans les grands modèles de raisonnement mettent en lumière l'apprentissage par renforcement avec récompenses vérifiables (RLVR) comme une méthode prometteuse pour améliorer les capacités de l'IA, en particulier dans la résolution de tâches logiques complexes. Cependant, il reste incertain si le RLVR étend véritablement les limites de raisonnement d'un modèle ou s'il amplifie simplement les sorties à haute récompense que le modèle de base connaît déjà pour améliorer la précision. Cette étude présente une investigation théorique et empirique qui apporte de nouveaux éclairages sur les limites potentielles du RLVR. Premièrement, nous proposons une nouvelle perspective théorique selon laquelle le RLVR est contraint par le support du modèle de base - incapable d'échantillonner des solutions avec une probabilité initiale nulle - et fonctionne comme un mécanisme de repondération conservateur qui peut restreindre la découverte de solutions entièrement originales. Nous identifions également un compromis entropie-récompense : bien que le RLVR améliore de manière fiable la précision, il peut progressivement réduire l'exploration et potentiellement négliger des solutions correctes mais sous-représentées. Des expériences empiriques approfondies valident que, bien que le RLVR améliore systématiquement le pass@1, la réduction du support empirique dépasse généralement l'expansion du support empirique sous des budgets d'échantillonnage plus importants, ne parvenant pas à récupérer des réponses correctes qui étaient auparavant accessibles au modèle de base. Fait intéressant, nous observons également que, bien que le RLVR augmente parfois l'entropie au niveau des tokens, entraînant une plus grande incertitude à chaque étape de génération, l'entropie au niveau des réponses diminue, indiquant que ces chemins apparemment plus incertains convergent finalement vers un ensemble plus restreint de réponses distinctes. Pris ensemble, ces résultats révèlent les limites potentielles du RLVR dans l'extension des horizons de raisonnement. Briser cette laisse invisible pourrait nécessiter de futures innovations algorithmiques telles que des mécanismes d'exploration explicites ou des stratégies hybrides qui répartissent la masse de probabilité dans les régions de solutions sous-représentées.
Les récents progrès en modélisation générative permettent de créer des assistants d'édition d'images qui suivent des instructions en langage naturel sans nécessiter d'entrée utilisateur supplémentaire. Leur entraînement supervisé requiert des millions de triplets : image originale, instruction, image modifiée. Cependant, l'extraction d'exemples précis au niveau des pixels est complexe. Chaque modification doit affecter uniquement les régions spécifiées par l'invite, préserver la cohérence stylistique, respecter la plausibilité physique et conserver l'attrait visuel. L'absence de métriques robustes et automatisées pour évaluer la qualité des modifications entrave une automatisation fiable à grande échelle. Nous présentons un pipeline automatisé et modulaire qui extrait des triplets de haute fidélité à travers différents domaines, résolutions, complexités d'instructions et styles. Basé sur des modèles générateurs publics et fonctionnant sans intervention humaine, notre système utilise un validateur Gemini ajusté à la tâche pour évaluer directement l'adhésion aux instructions et l'esthétique, éliminant ainsi le besoin de modèles de segmentation ou de référencement. L'inversion et le bootstrap compositionnel augmentent l'ensemble extrait d'environ 2,2 fois, permettant ainsi la création de données d'entraînement à grande échelle et de haute fidélité. En automatisant les étapes d'annotation les plus répétitives, cette approche permet un nouvel échelle d'entraînement sans effort d'étiquetage humain. Pour démocratiser la recherche dans ce domaine gourmand en ressources, nous publions NHR-Edit : un ensemble de données ouvert de 358 000 triplets de haute qualité. Dans la plus grande évaluation inter-ensembles de données, il surpasse toutes les alternatives publiques. Nous publions également Bagel-NHR-Edit, un modèle Bagel affiné en open source, qui atteint des métriques de pointe dans nos expériences.
L'avènement des agents alimentés par des modèles de langage de grande taille (LLM) a révolutionné l'intelligence artificielle en permettant la résolution de tâches complexes et ouvertes grâce à des capacités de recherche d'information (RI) basées sur le web. La rareté de données d'entraînement de haute qualité a limité le développement des agents de RI. Les approches existantes adoptent généralement un paradigme axé sur l'information, qui consiste d'abord à collecter des données web, puis à générer des questions basées sur la récupération. Cependant, cela peut entraîner une incohérence entre la structure de l'information et la structure de raisonnement, ainsi qu'entre la question et la réponse. Pour remédier à cela, nous proposons un cadre de synthèse de données de RI piloté par la formalisation, appelé WebShaper, afin de construire un ensemble de données. WebShaper formalise systématiquement les tâches de RI à travers la théorie des ensembles. Au cœur de cette formalisation se trouve le concept de Projections de Connaissance (KP), qui permet un contrôle précis de la structure de raisonnement grâce à des compositions d'opérations de KP. Lors de la synthèse, nous commençons par créer des tâches de base, puis utilisons un processus d'expansion en plusieurs étapes. À chaque étape, un agent Expander complexifie la question formelle actuelle à l'aide d'outils de récupération et de validation basés sur notre formalisation. Nous entraînons notre modèle sur l'ensemble de données synthétisé. Les résultats expérimentaux montrent que WebShaper atteint des performances de pointe parmi les agents de RI open-source sur les benchmarks GAIA et WebWalkerQA.
Nous présentons nos récents progrès dans la construction de politiques robotiques généralistes, avec le développement de GR-3. GR-3 est un modèle à grande échelle de vision-langage-action (VLA). Il démontre des capacités exceptionnelles à généraliser à de nouveaux objets, environnements et instructions impliquant des concepts abstraits. De plus, il peut être efficacement affiné avec un minimum de données de trajectoires humaines, permettant une adaptation rapide et économique à de nouveaux contextes. GR-3 excelle également dans la gestion de tâches à long terme et de manipulation dextre, y compris celles nécessitant une manipulation bi-manuelle et des mouvements mobiles, montrant une performance robuste et fiable. Ces capacités sont obtenues grâce à une recette d'entraînement multifacette qui inclut un co-entraînement avec des données vision-langage à l'échelle du web, un affinage efficace à partir de données de trajectoires humaines collectées via des dispositifs de réalité virtuelle, et un apprentissage par imitation efficace avec des données de trajectoires robotiques. En outre, nous introduisons ByteMini, un robot mobile bi-manuel polyvalent conçu avec une flexibilité et une fiabilité exceptionnelles, capable d'accomplir une large gamme de tâches lorsqu'il est intégré à GR-3. À travers de nombreuses expériences en conditions réelles, nous montrons que GR-3 surpasse la méthode de référence actuelle, pi_0, sur une grande variété de tâches complexes. Nous espérons que GR-3 pourra constituer une étape vers la construction de robots généralistes capables d'assister les humains dans la vie quotidienne.
La segmentation d'objets vidéo (Video Object Segmentation, VOS) est une tâche fondamentale en vision par ordinateur, nécessitant que les modèles suivent et segmentent des objets cibles à travers les images d'une vidéo. Malgré des avancées notables grâce aux efforts récents, les techniques actuelles restent en deçà des capacités humaines pour gérer les variations visuelles drastiques, les occlusions et les changements de scène complexes. Cette limitation découle de leur dépendance à l'appariement d'apparences, négligeant la compréhension conceptuelle des objets, semblable à celle des humains, qui permet une identification robuste à travers les dynamiques temporelles. Motivés par cet écart, nous proposons Segment Concept (SeC), un cadre de segmentation axé sur les concepts qui s'éloigne de l'appariement de caractéristiques conventionnel pour se concentrer sur la construction progressive et l'utilisation de représentations de haut niveau centrées sur les objets. SeC utilise des modèles de vision-langage de grande échelle (Large Vision-Language Models, LVLMs) pour intégrer des indices visuels à travers des images variées, construisant ainsi des préconcepts robustes. Pendant l'inférence, SeC forme une représentation sémantique complète de la cible basée sur les images traitées, permettant une segmentation robuste des images suivantes. De plus, SeC équilibre de manière adaptative le raisonnement sémantique basé sur les LVLMs avec un appariement de caractéristiques amélioré, ajustant dynamiquement les efforts de calcul en fonction de la complexité de la scène. Pour évaluer rigoureusement les méthodes de VOS dans des scénarios exigeant un raisonnement conceptuel de haut niveau et une compréhension sémantique robuste, nous introduisons le benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS comprend 160 vidéos multi-scénarios annotées manuellement, conçues pour mettre les modèles à l'épreuve avec des variations d'apparence substantielles et des transformations de scène dynamiques. En particulier, SeC réalise une amélioration de 11,8 points par rapport à SAM 2.1 sur SeCVOS, établissant un nouvel état de l'art dans la segmentation d'objets vidéo consciente des concepts.
Les récents progrès dans les représentations neuronales 3D et les modèles d'édition au niveau des instances ont permis la création efficace de contenus 3D de haute qualité. Cependant, réaliser des modifications locales précises en 3D reste un défi, en particulier pour le Gaussian Splatting, en raison des segmentations 2D multi-vues incohérentes des parties et de la nature intrinsèquement ambiguë de la perte de distillation de score (Score Distillation Sampling, SDS). Pour surmonter ces limitations, nous proposons RoMaP, un nouveau cadre d'édition locale de Gaussiennes 3D qui permet des modifications précises et radicales au niveau des parties. Premièrement, nous introduisons un module robuste de génération de masques 3D avec notre prédiction de labels conscients de la géométrie 3D (3D-Geometry Aware Label Prediction, 3D-GALP), qui utilise les coefficients d'harmoniques sphériques (SH) pour modéliser les variations de labels dépendantes de la vue et la propriété des labels doux, produisant ainsi des segmentations de parties précises et cohérentes à travers les points de vue. Deuxièmement, nous proposons une perte SDS régularisée qui combine la perte SDS standard avec des régularisateurs supplémentaires. En particulier, une perte d'ancrage L1 est introduite via notre méthode d'édition Scheduled Latent Mixing and Part (SLaMP), qui génère des images 2D de parties éditées de haute qualité et limite les modifications uniquement à la région cible tout en préservant la cohérence contextuelle. Des régularisateurs supplémentaires, tels que la suppression du prior gaussien, améliorent davantage la flexibilité en permettant des changements au-delà du contexte existant, et le masquage 3D robuste empêche les modifications non intentionnelles. Les résultats expérimentaux démontrent que notre RoMaP atteint des performances de pointe en matière d'édition locale 3D sur des scènes et objets gaussiens reconstruits et générés, qualitativement et quantitativement, rendant possible une édition 3D de Gaussiennes plus robuste et flexible au niveau des parties. Le code est disponible à l'adresse https://janeyeon.github.io/romap.
Nous présentons Being-H0, un modèle vision-langage-action (VLA) dextre entraîné sur des vidéos humaines à grande échelle. Les VLAs existants peinent à accomplir des tâches de manipulation complexes nécessitant une dextérité élevée et généralisent mal à des scénarios et tâches nouveaux, principalement en raison de leur dépendance à des données synthétiques présentant d'importants écarts sim-to-real ou à des démonstrations téléopérées manquant d'échelle et de diversité. Pour résoudre ce goulot d'étranglement des données, nous proposons d'exploiter les mains humaines comme manipulateur de base, en capitalisant sur la riche dextérité et l'évolutivité présentes dans les données web. Notre approche repose sur le réglage par instruction physique, un nouveau paradigme d'entraînement qui combine un pré-entraînement VLA à grande échelle à partir de vidéos humaines, un alignement dans l'espace physique pour le raisonnement 3D, et une adaptation post-entraînement pour les tâches robotiques. De plus, nous introduisons une méthode de tokenisation du mouvement au niveau des parties, qui atteint une précision de reconstruction au millimètre pour modéliser des trajectoires de main précises dans l'apprentissage des actions. Pour soutenir ce paradigme, nous développons également un pipeline complet de curation de données qui intègre des sources hétérogènes -- incluant la capture de mouvement, la réalité virtuelle et des vidéos RGB uniquement -- dans un jeu de données à grande échelle contenant des millions d'instances d'instructions basées sur le mouvement. Nous démontrons empiriquement l'excellence de Being-H0 dans la génération de mouvements de main et le suivi d'instructions, ainsi que sa bonne évolutivité avec la taille des modèles et des données. Surtout, nous observons les gains attendus de Being-H0 dans la manipulation robotique réelle grâce à l'application du réglage par instruction physique. Plus de détails sont disponibles sur https://beingbeyond.github.io/Being-H0.
Les modèles de langage parlés (SLMs) sont conçus pour prendre des entrées vocales et produire des réponses parlées. Cependant, les SLMs actuels ne possèdent pas la capacité d'effectuer un processus de réflexion interne et non verbalisé avant de répondre. En revanche, les humains s'engagent généralement dans un raisonnement mental complexe en interne, ce qui leur permet de communiquer des idées de manière claire et concise. Ainsi, l'intégration d'un processus de pensée non verbalisé dans les SLMs est hautement souhaitable. Bien que la génération naïve d'une chaîne de raisonnement (CoT) complète avant de commencer à parler puisse permettre la réflexion pour les SLMs, cela induit une latence supplémentaire pour la réponse vocale, car la CoT peut être arbitrairement longue. Pour résoudre ce problème, nous proposons Stitch, une nouvelle méthode de génération qui alterne entre la génération de segments de raisonnement non verbalisés et de segments de réponse parlée. Étant donné que la durée audio d'un segment de réponse parlée est beaucoup plus longue que le temps nécessaire pour générer les tokens dans un segment de réponse parlée, nous utilisons le temps libre restant pour générer les tokens de raisonnement non verbalisés. Lorsqu'un segment audio est joué pour l'utilisateur, le modèle continue à générer le prochain segment de raisonnement non verbalisé, réalisant ainsi une réflexion et une parole simultanées. Remarquablement, Stitch correspond à la latence des modèles de référence qui ne peuvent pas générer de CoT non verbalisé par conception, tout en surpassant ces modèles de référence de 15 % sur les ensembles de données de raisonnement mathématique ; Stitch performe également aussi bien que ces modèles de référence sur les ensembles de données non liés au raisonnement. Des animations et des démonstrations sont disponibles sur la page du projet : https://d223302.github.io/STITCH.
Nous construisons des tâches d'évaluation dans lesquelles l'extension de la longueur de raisonnement des modèles de raisonnement à grande échelle (LRMs) détériore les performances, révélant une relation d'échelle inverse entre le calcul au moment du test et la précision. Nos tâches d'évaluation couvrent quatre catégories : des tâches de comptage simple avec distracteurs, des tâches de régression avec caractéristiques fallacieuses, des tâches de déduction avec suivi de contraintes, et des risques avancés liés à l'IA. Nous identifions cinq modes de défaillance distincts lorsque les modèles raisonnent plus longtemps : 1) les modèles Claude deviennent de plus en plus distraits par des informations non pertinentes ; 2) les modèles OpenAI o-series résistent aux distracteurs mais surajustent les cadrages des problèmes ; 3) les modèles passent de prémisses raisonnables à des corrélations fallacieuses ; 4) tous les modèles montrent des difficultés à maintenir leur concentration sur des tâches déductives complexes ; et 5) un raisonnement prolongé peut amplifier des comportements préoccupants, avec Claude Sonnet 4 montrant une augmentation des expressions d'autopréservation. Ces résultats suggèrent que, bien que l'augmentation du calcul au moment du test reste prometteuse pour améliorer les capacités des modèles, elle peut renforcer involontairement des schémas de raisonnement problématiques. Nos résultats démontrent l'importance d'évaluer les modèles sur des longueurs de raisonnement variées afin d'identifier et de corriger ces modes de défaillance dans les LRMs.
Le splatting de Gaussiennes 3D (3DGS) a démontré sa capacité expressive détaillée et sa vitesse de rendu hautement efficace dans la tâche de synthèse de nouvelles vues (NVS). Son application au rendu inverse rencontre cependant plusieurs défis, car la nature discrète des primitives gaussiennes rend difficile l'application de contraintes géométriques. Des travaux récents introduisent le champ de distance signée (SDF) comme représentation continue supplémentaire pour régulariser la géométrie définie par les primitives gaussiennes. Cela améliore la qualité de la décomposition, au prix d'une augmentation de l'utilisation de la mémoire et d'une complexification de l'entraînement. Contrairement à ces travaux, nous introduisons un SDF discrétisé pour représenter le SDF continu de manière discrète en l'encodant dans chaque Gaussienne à l'aide d'une valeur échantillonnée. Cette approche nous permet de lier le SDF à l'opacité des Gaussiennes via une transformation SDF-vers-opacité, permettant de rendre le SDF par splatting et d'éviter le coût computationnel du ray marching. Le défi principal est de régulariser les échantillons discrets pour qu'ils soient cohérents avec le SDF sous-jacent, car la représentation discrète ne peut guère appliquer les contraintes basées sur le gradient (par exemple, la perte Eikonale). Pour cela, nous projetons les Gaussiennes sur l'ensemble de niveau zéro du SDF et forçons un alignement avec la surface issue du splatting, à travers une perte de cohérence basée sur la projection. Grâce au SDF discrétisé, notre méthode atteint une meilleure qualité de rééclairage, tout en ne nécessitant aucune mémoire supplémentaire au-delà de celle du GS et en évitant une optimisation complexe et manuellement conçue. Les expériences révèlent que notre méthode surpasse les méthodes existantes de rendu inverse basées sur les Gaussiennes. Notre code est disponible à l'adresse https://github.com/NK-CS-ZZL/DiscretizedSDF.
L'intelligence humaine nécessite à la fois exactitude et robustesse, la première étant fondamentale pour la seconde. Dans la compréhension vidéo, l'exactitude garantit une interprétation précise du contenu visuel, tandis que la robustesse maintient des performances constantes dans des conditions difficiles. Malgré les avancées des modèles de langage de grande taille pour la vidéo (video LLMs), les benchmarks existants ne reflètent pas adéquatement l'écart entre ces modèles et l'intelligence humaine en matière de maintien de l'exactitude et de la robustesse dans l'interprétation vidéo. Nous introduisons le Test de Pensée Vidéo (Video-TT) pour évaluer si les video LLMs peuvent interpréter les vidéos du monde réel aussi efficacement que les humains. Video-TT met en lumière des lacunes réelles dans la compréhension des récits visuels complexes et évalue la robustesse face à des questions adverses naturelles. Video-TT comprend 1 000 vidéos YouTube Shorts, chacune accompagnée d'une question ouverte et de quatre questions adverses qui explorent la complexité visuelle et narrative. Notre évaluation révèle un écart significatif entre les performances des video LLMs et celles des humains.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode efficace d'après-entraînement pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), principalement en façonnant des comportements d'ordre supérieur tels que la réflexion et la planification. Cependant, les algorithmes RLVR précédents appliquent souvent des signaux d'entraînement uniformes à tous les tokens, sans tenir compte des rôles différents des tokens à faible entropie liés aux connaissances et des tokens à haute entropie liés au raisonnement. Certaines méthodes récentes tentent de séparer ces types de tokens par masquage de gradient ou mises à jour asynchrones, mais ces approches peuvent rompre les dépendances sémantiques dans la sortie du modèle et entraver un apprentissage efficace. Dans ce travail, nous proposons Archer, une approche RLVR sensible à l'entropie avec des contraintes duales sur les tokens et des mises à jour synchrones. Plus précisément, notre méthode applique une régularisation KL plus faible et des seuils de découpage plus élevés aux tokens de raisonnement pour encourager l'exploration, tout en utilisant des contraintes plus fortes sur les tokens de connaissance pour préserver les connaissances factuelles. Les résultats expérimentaux sur plusieurs benchmarks de raisonnement mathématique et de génération de code montrent que notre approche surpasse significativement les méthodes RLVR précédentes, atteignant ou dépassant les performances de pointe parmi les modèles de taille comparable. Le code est disponible à l'adresse suivante : https://github.com/wizard-III/ArcherCodeR.
L'essor rapide des agents intelligents basés sur les modèles de langage de grande taille (LLMs) met en évidence la nécessité de cadres d'évaluation robustes et évolutifs. Les méthodes existantes s'appuient sur des benchmarks statiques et une collecte de données laborieuse, limitant ainsi l'évaluation pratique. Nous présentons \oursystemname, un cadre open-source basé sur le Protocole de Contexte de Modèle (MCP) qui automatise la génération de tâches de bout en bout et l'évaluation approfondie des agents LLM dans divers domaines. MCPEval standardise les métriques, s'intègre de manière transparente avec les outils natifs des agents et élimine l'effort manuel dans la construction de pipelines d'évaluation. Les résultats empiriques dans cinq domaines réels démontrent son efficacité à révéler des performances nuancées et spécifiques à chaque domaine. Nous rendons MCPEval public sur https://github.com/SalesforceAIResearch/MCPEval afin de promouvoir une évaluation reproductible et standardisée des agents LLM.
Les modèles de génération vidéo ont réalisé des progrès remarquables dans la création de contenus photoréalistes de haute qualité. Cependant, leur capacité à simuler avec précision les phénomènes physiques reste un défi critique et non résolu. Cet article présente PhyWorldBench, un benchmark complet conçu pour évaluer les modèles de génération vidéo en fonction de leur adhésion aux lois de la physique. Le benchmark couvre plusieurs niveaux de phénomènes physiques, allant des principes fondamentaux tels que le mouvement des objets et la conservation de l'énergie à des scénarios plus complexes impliquant des interactions de corps rigides et des mouvements humains ou animaux. De plus, nous introduisons une nouvelle catégorie « Anti-Physique », où les prompts violent intentionnellement les lois physiques du monde réel, permettant d'évaluer si les modèles peuvent suivre de telles instructions tout en maintenant une cohérence logique. En plus d'une évaluation humaine à grande échelle, nous concevons également une méthode simple mais efficace qui pourrait utiliser les modèles de langage multimodal (MLLM) actuels pour évaluer le réalisme physique de manière zero-shot. Nous évaluons 12 modèles de génération texte-à-vidéo de pointe, incluant cinq modèles open-source et cinq modèles propriétaires, avec une comparaison et une analyse détaillées. Nous identifions les défis cruciaux auxquels ces modèles sont confrontés pour adhérer aux lois physiques du monde réel. À travers des tests systématiques de leurs sorties sur 1 050 prompts soigneusement sélectionnés – couvrant des scénarios fondamentaux, composites et anti-physiques – nous mettons en lumière les difficultés majeures rencontrées par ces modèles. Nous examinons ensuite rigoureusement leurs performances sur divers phénomènes physiques avec différents types de prompts, en dérivant des recommandations ciblées pour la formulation de prompts qui améliorent la fidélité aux principes physiques.
La perception et la reconstruction de la géométrie spatio-temporelle 4D à partir de vidéos constituent une tâche fondamentale mais complexe en vision par ordinateur. Pour faciliter les applications interactives et en temps réel, nous proposons un transformateur de géométrie visuelle 4D en flux continu, qui partage une philosophie similaire avec les modèles de langage autoregressifs à grande échelle. Nous explorons une conception simple et efficace et utilisons une architecture de transformateur causal pour traiter la séquence d'entrée de manière en ligne. Nous employons une attention temporelle causale et mettons en cache les clés et valeurs historiques comme mémoire implicite, permettant ainsi une reconstruction 4D à long terme en flux continu et efficace. Cette conception permet de gérer la reconstruction 4D en temps réel en intégrant progressivement les informations historiques tout en maintenant une cohérence spatiale de haute qualité. Pour un entraînement efficace, nous proposons de distiller les connaissances d'un transformateur de géométrie visuelle bidirectionnel dense (VGGT) vers notre modèle causal. Pour l'inférence, notre modèle prend en charge la migration d'opérateurs d'attention optimisés et efficaces (par exemple, FlashAttention) issus du domaine des modèles de langage à grande échelle. Des expériences approfondies sur divers benchmarks de perception de géométrie 4D démontrent que notre modèle augmente la vitesse d'inférence dans des scénarios en ligne tout en maintenant des performances compétitives, ouvrant la voie à des systèmes de vision 4D évolutifs et interactifs. Le code est disponible à l'adresse : https://github.com/wzzheng/StreamVGGT.
La résolution de problèmes en plusieurs tours est cruciale mais difficile pour les Grands Modèles de Raisonnement (LRMs) afin qu'ils puissent réfléchir à leur raisonnement et réviser à partir de retours d'information. Les méthodes existantes d'Apprentissage par Renforcement (RL) entraînent les grands modèles de raisonnement selon un paradigme à un seul tour avec des récompenses vérifiables. Cependant, nous observons que les modèles entraînés avec les paradigmes RL existants perdent souvent leur capacité à résoudre des problèmes sur plusieurs tours et peinent à réviser leurs réponses en fonction des retours contextuels, ce qui conduit à des réponses répétitives. Nous posons la question suivante : les LRMs peuvent-ils apprendre à réfléchir à leurs réponses dans un contexte à plusieurs tours ? Dans ce travail, nous constatons que l'entraînement des modèles avec du RL multi-tours en utilisant uniquement des retours unaires (par exemple, "Essayons encore") après des réponses incorrectes peut améliorer à la fois la performance à un seul tour et le raisonnement multi-tours. Nous introduisons le Retour Unaire comme Observation (UFO) pour l'apprentissage par renforcement, qui utilise des retours utilisateurs unaires minimaux mais courants lors de la résolution itérative de problèmes. Il peut être facilement appliqué aux configurations d'entraînement RL à un seul tour existantes. Les résultats expérimentaux montrent que l'entraînement RL avec UFO maintient la performance à un seul tour et améliore la précision du raisonnement multi-tours jusqu'à 14 %, permettant aux modèles de langage de mieux réagir aux retours dans la résolution de problèmes multi-tours. Pour minimiser davantage le nombre de tours nécessaires pour obtenir une réponse correcte tout en encourageant un raisonnement diversifié lorsque des erreurs se produisent, nous concevons des structures de récompense qui guident les modèles à produire des réponses réfléchies et délibérées à chaque tour. Code : https://github.com/lichengliu03/unary-feedback
Malgré leur rôle fondamental, il reste incertain quelles propriétés pourraient rendre les tokenizers visuels plus efficaces pour la modélisation générative. Nous observons que les modèles génératifs modernes partagent un objectif d'entraînement conceptuellement similaire -- reconstruire des signaux propres à partir d'entrées corrompues telles que du bruit gaussien ou du masquage -- un processus que nous qualifions de débruitage. Motivés par cette observation, nous proposons d'aligner directement les embeddings du tokenizer avec l'objectif de débruitage en aval, encourageant les embeddings latents à être plus facilement reconstruits même lorsqu'ils sont fortement corrompus. Pour y parvenir, nous introduisons le Latent Denoising Tokenizer (l-DeTok), un tokenizer simple mais efficace entraîné à reconstruire des images propres à partir d'embeddings latents corrompus par du bruit interpolatif et un masquage aléatoire. Des expériences approfondies sur ImageNet 256x256 démontrent que notre tokenizer surpasse systématiquement les tokenizers standards à travers six modèles génératifs représentatifs. Nos résultats mettent en lumière le débruitage comme un principe de conception fondamental pour le développement de tokenizers, et nous espérons qu'il pourra inspirer de nouvelles perspectives pour la conception future de tokenizers.
Alors que l'apprentissage automatique a progressé grâce à une parallélisation massive, nous identifions un angle mort critique : certains problèmes sont fondamentalement séquentiels. Ces problèmes « intrinsèquement séquentiels » – qu'il s'agisse de raisonnement mathématique, de simulations physiques ou de prise de décision séquentielle – nécessitent des étapes de calcul dépendantes qui ne peuvent pas être parallélisées. En nous appuyant sur la théorie de la complexité, nous formalisons cette distinction et démontrons que les architectures actuelles centrées sur la parallélisation rencontrent des limitations fondamentales pour de telles tâches. Nous soutenons que la reconnaissance de la nature séquentielle du calcul a des implications profondes sur l'apprentissage automatique, la conception des modèles et le développement matériel. Alors que l'intelligence artificielle s'attaque à des raisonnements de plus en plus complexes, il est essentiel, pour poursuivre les progrès, de développer délibérément le calcul séquentiel – et pas seulement le calcul parallèle.
Nous présentons le LLM Economist, un cadre novateur qui utilise la modélisation basée sur des agents pour concevoir et évaluer des politiques économiques dans des environnements stratégiques avec une prise de décision hiérarchique. Au niveau inférieur, des agents travailleurs à rationalité limitée -- instanciés sous forme d'invites conditionnées par des personnalités échantillonnées à partir de statistiques démographiques et de revenus calibrées sur le recensement américain -- choisissent l'offre de travail pour maximiser des fonctions d'utilité basées sur le texte apprises en contexte. Au niveau supérieur, un agent planificateur utilise l'apprentissage par renforcement en contexte pour proposer des barèmes d'imposition marginaux linéaires par morceaux ancrés dans les tranches fédérales actuelles des États-Unis. Cette construction confère aux simulacres économiques trois capacités essentielles pour une expérimentation fiscale crédible : (i) l'optimisation d'utilités hétérogènes, (ii) la génération raisonnée de grandes populations d'agents démographiquement réalistes, et (iii) la conception de mécanismes -- le problème ultime de l'incitation -- exprimée entièrement en langage naturel. Des expériences avec des populations allant jusqu'à cent agents en interaction montrent que le planificateur converge vers des équilibres de Stackelberg qui améliorent le bien-être social agrégé par rapport aux solutions de Saez, tandis qu'une procédure de vote périodique au niveau des personnalités renforce ces gains sous une gouvernance décentralisée. Ces résultats démontrent que des agents basés sur des modèles de langage de grande taille peuvent modéliser, simuler et gouverner conjointement des systèmes économiques complexes, fournissant un banc d'essai maniable pour l'évaluation des politiques à l'échelle sociétale afin de contribuer à bâtir de meilleures civilisations.
La génération de vidéos longues et cohérentes représente un défi complexe : bien que les modèles génératifs basés sur la diffusion produisent des clips courts visuellement impressionnants, leur extension à des durées plus longues entraîne souvent des goulots d'étranglement mémoire et des incohérences à long terme. Dans cet article, nous proposons TokensGen, un nouveau cadre en deux étapes qui exploite des tokens condensés pour résoudre ces problèmes. Notre méthode décompose la génération de vidéos longues en trois tâches principales : (1) le contrôle sémantique intra-clip, (2) le contrôle de la cohérence à long terme, et (3) la transition fluide inter-clips. Tout d'abord, nous entraînons To2V (Token-to-Video), un modèle de diffusion pour vidéos courtes guidé par des tokens textuels et vidéo, avec un Tokenizer Vidéo qui condense les clips courts en tokens sémantiquement riches. Ensuite, nous introduisons T2To (Text-to-Token), un transformeur de diffusion de tokens vidéo qui génère tous les tokens en une seule fois, garantissant une cohérence globale entre les clips. Enfin, lors de l'inférence, une stratégie FIFO-Diffusion adaptative connecte de manière fluide les clips adjacents, réduisant les artefacts de bordure et améliorant les transitions. Les résultats expérimentaux montrent que notre approche améliore significativement la cohérence temporelle et de contenu à long terme sans entraîner de surcharge computationnelle prohibitive. En exploitant des tokens condensés et des modèles pré-entraînés pour les vidéos courtes, notre méthode offre une solution modulaire et évolutive pour la génération de vidéos longues, ouvrant de nouvelles possibilités pour la narration, la production cinématographique et les simulations immersives. Consultez notre page de projet à l'adresse https://vicky0522.github.io/tokensgen-webpage/.
Le pré-entraînement continu sur des données spécifiques à petite échelle est une méthode efficace pour améliorer les grands modèles de langage dans de nouveaux domaines cibles, mais il risque d'entraîner un oubli catastrophique de leurs capacités originales. Une solution courante consiste à rééquilibrer les mélanges de données d'entraînement provenant des domaines source et cible dans un espace de domaine pour obtenir des performances équilibrées. Les stratégies précédentes de rééquilibrage de domaine reposaient sur une désignation manuelle avec certaines heuristiques basées sur l'intuition humaine ou des résultats empiriques. Dans ce travail, nous démontrons que des heuristiques plus générales peuvent être paramétrisées en proposant Data Mixing Agent, le premier cadre de bout en bout basé sur un modèle qui apprend à rééquilibrer les domaines. L'agent apprend des heuristiques généralisables grâce à l'apprentissage par renforcement sur de grandes quantités de trajectoires de mélange de données avec des retours correspondants d'un environnement d'évaluation. Les expériences de pré-entraînement continu sur le raisonnement mathématique montrent que Data Mixing Agent surpasse des bases de référence solides pour atteindre des performances équilibrées sur les benchmarks des domaines source et cible. De plus, il généralise bien à des domaines source inconnus, des modèles cibles et des espaces de domaine sans nécessiter de réentraînement. Une application directe dans le domaine de la génération de code indique également son adaptabilité à travers différents domaines cibles. Une analyse approfondie met en évidence l'alignement des heuristiques de l'agent avec l'intuition humaine et son efficacité à obtenir des performances de modèle supérieures avec moins de données du domaine source.
Évaluer les capacités de découverte scientifique des agents basés sur des modèles de langage de grande taille, en particulier leur manière de gérer la complexité environnementale variable et d'utiliser les connaissances préalables, nécessite des benchmarks spécialisés actuellement absents dans le paysage. Pour combler cette lacune, nous introduisons PhysGym, une nouvelle suite de benchmarks et une plateforme de simulation conçues pour évaluer rigoureusement le raisonnement scientifique basé sur les LLM dans des environnements physiques interactifs. La contribution principale de PhysGym réside dans son contrôle sophistiqué du niveau de connaissances préalables fournies à l'agent. Cela permet aux chercheurs d'analyser la performance de l'agent selon des axes incluant la complexité du problème et les niveaux de connaissances préalables. Le benchmark comprend une suite de simulations interactives, où les agents doivent explorer activement les environnements, collecter des données de manière séquentielle sous contraintes et formuler des hypothèses sur les lois physiques sous-jacentes. PhysGym fournit des protocoles d'évaluation standardisés et des métriques pour évaluer la précision des hypothèses et la fidélité du modèle. Nous démontrons l'utilité du benchmark en présentant les résultats de LLM de référence, mettant en évidence sa capacité à différencier les capacités en fonction des connaissances préalables variables et de la complexité des tâches.
La localisation inter-vues, qui consiste à estimer la pose à 3 degrés de liberté (3-DoF) d'une caméra en alignant des images au niveau du sol avec des images satellites, est cruciale pour les applications extérieures à grande échelle telles que la navigation autonome et la réalité augmentée. Les méthodes existantes reposent souvent sur l'apprentissage supervisé complet, qui nécessite des annotations de pose de vérité terrain coûteuses. Dans ce travail, nous proposons GeoDistill, un cadre d'auto-distillation faiblement supervisé guidé par la géométrie, qui utilise l'apprentissage enseignant-élève avec un masquage basé sur le champ de vision (FoV) pour améliorer l'apprentissage des caractéristiques locales en vue d'une localisation inter-vues robuste. Dans GeoDistill, le modèle enseignant localise une image panoramique, tandis que le modèle élève prédit les emplacements à partir d'une version à champ de vision limité créée par le masquage basé sur le FoV. En alignant les prédictions de l'élève avec celles de l'enseignant, l'élève se concentre sur des caractéristiques clés comme les lignes de voie et ignore les régions sans texture, telles que les routes. Cela se traduit par des prédictions plus précises et une incertitude réduite, que les images de requête soient panoramiques ou à champ de vision limité. Nos expériences montrent que GeoDistill améliore significativement les performances de localisation dans différents cadres. De plus, nous introduisons un nouveau réseau d'estimation d'orientation qui prédit l'orientation relative sans nécessiter de vérité terrain précise sur la position planaire. GeoDistill offre une solution évolutive et efficace pour les défis de localisation inter-vues dans le monde réel. Le code et le modèle sont disponibles à l'adresse https://github.com/tongshw/GeoDistill.
La classification précise des images de tomodensitométrie (CT) est essentielle pour le diagnostic et la planification du traitement, mais les méthodes existantes peinent souvent à gérer la nature subtile et spatialement diverse des caractéristiques pathologiques. Les approches actuelles traitent généralement les images de manière uniforme, limitant leur capacité à détecter des anomalies localisées nécessitant une analyse ciblée. Nous présentons UGPL, un cadre d'apprentissage progressif guidé par l'incertitude, qui effectue une analyse globale à locale en identifiant d'abord les régions d'ambiguïté diagnostique, puis en examinant en détail ces zones critiques. Notre approche utilise l'apprentissage profond évidentiel pour quantifier l'incertitude prédictive, guidant l'extraction de patches informatifs grâce à un mécanisme de suppression non maximale qui préserve la diversité spatiale. Cette stratégie de raffinement progressive, combinée à un mécanisme de fusion adaptatif, permet à UGPL d'intégrer à la fois des informations contextuelles et des détails fins. Les expériences menées sur trois ensembles de données CT montrent que UGPL surpasse systématiquement les méthodes de pointe, avec des améliorations de 3,29 %, 2,46 % et 8,08 % en précision pour la détection des anomalies rénales, du cancer du poumon et de la COVID-19, respectivement. Notre analyse montre que le composant guidé par l'incertitude apporte des avantages substantiels, avec une augmentation spectaculaire des performances lorsque l'ensemble du pipeline d'apprentissage progressif est mis en œuvre. Notre code est disponible à l'adresse : https://github.com/shravan-18/UGPL
Les grands modèles de langage (LLMs) ont démontré de solides performances sur les tâches de programmation, mais peuvent-ils générer du code ressemblant à celui des étudiants - imparfait, itératif et stylistiquement diversifié ? Nous présentons ParaStudent, une étude systématique de la génération de code "similaire à celui des étudiants" basée sur les LLMs dans le cadre d'un cours d'introduction à la programmation. En utilisant un ensemble de données de soumissions d'étudiants horodatées sur plusieurs semestres, nous concevons des expériences à basse et haute résolution pour modéliser la progression des étudiants et évaluer les sorties de code selon des dimensions sémantiques, fonctionnelles et stylistiques. Nos résultats montrent que le fine-tuning améliore significativement l'alignement avec les trajectoires réelles des étudiants et capture plus fidèlement les modèles d'erreurs, les améliorations incrémentales et les variations stylistiques. Cette étude montre que la modélisation de code étudiant réaliste nécessite de capturer les dynamiques d'apprentissage à travers une génération contextuelle, une modélisation temporelle et une évaluation multidimensionnelle. Le code pour les expériences et l'évaluation est disponible à l'adresse https://github.com/mmiroyan/ParaStudent.