papers.description
Si les grands modèles multimodaux (LMM) ont réalisé des progrès significatifs, ils restent largement centrés sur le texte, utilisant le langage comme modalité de raisonnement centrale. Par conséquent, leur capacité à traiter des tâches de raisonnement à dominante visuelle est limitée. Des approches récentes ont tenté de résoudre ce problème en supervisant les étapes visuelles intermédiaires à l'aide d'images auxiliaires, de cartes de profondeur ou de recadrages d'images. Cependant, ces stratégies imposent des préconceptions restrictives sur la forme que doivent prendre les abstractions visuelles « utiles », ajoutent des coûts d'annotation élevés et peinent à généraliser d'une tâche à l'autre. Pour remédier à cette limitation cruciale, nous proposons un mécanisme agnostique aux tâches qui entraîne les LMM à découvrir et à utiliser des jetons de raisonnement visuel sans supervision explicite. Ces jetons opèrent une attention globale et ré-encodent l'image de manière adaptative à la tâche, permettant au modèle d'extraire les informations visuelles pertinentes sans supervision artisanale. Notre approche surpasse le réglage fin direct et obtient des résultats state-of-the-art sur un large éventail de tâches centrées sur la vision – y compris celles pour lesquelles les abstractions intermédiaires sont difficiles à spécifier – tout en généralisant à l'apprentissage multi-tâches par instruction.
Les modèles autorégressifs à grande échelle, pré-entraînés sur la prédiction de token suivant et affinés par apprentissage par renforcement (RL), ont obtenu un succès sans précédent dans de nombreux domaines problématiques. Durant le RL, ces modèles explorent en générant de nouvelles sorties, un token à la fois. Cependant, l'échantillonnage d'actions token par token peut entraîner un apprentissage très inefficace, particulièrement lorsque les récompenses sont rares. Nous montrons ici qu'il est possible de surmonter ce problème en agissant et en explorant au sein des représentations internes d'un modèle autorégressif. Plus précisément, pour découvrir des actions temporellement abstraites, nous introduisons un modèle de séquence d'ordre supérieur et non causal dont les sorties contrôlent les activations du flux résiduel d'un modèle autorégressif de base. Sur des tâches de type grille et basées sur MuJoCo présentant une structure hiérarchique, nous constatons que le modèle d'ordre supérieur apprend à compresser de longs segments de séquences d'activation sur des contrôleurs internes. Fait crucial, chaque contrôleur exécute une séquence d'actions comportementalement significatives qui se déploient sur de longues échelles de temps et sont accompagnées d'une condition de terminaison apprise, de telle sorte que la composition de plusieurs contrôleurs dans le temps conduit à une exploration efficace sur des tâches nouvelles. Nous montrons qu'un renforcement direct des contrôleurs internes, un processus que nous appelons « RL interne », permet d'apprendre à partir de récompenses rares dans des cas où l'affinement RL standard échoue. Nos résultats démontrent les avantages de la génération et du renforcement d'actions latentes dans les modèles autorégressifs, suggérant le RL interne comme une voie prometteuse pour réaliser le RL hiérarchique au sein des modèles de fondation.
Les modèles existants de génération vidéo peinent à maintenir une cohérence spatio-temporelle à long terme en raison de la nature dense et hautement dimensionnelle des signaux vidéo. Pour surmonter cette limitation, nous proposons Spatia, un cadre de génération vidéo doté d'une mémoire spatiale qui préserve explicitement une nuage de points 3D de la scène comme mémoire spatiale persistante. Spatia génère itérativement des séquences vidéo conditionnées par cette mémoire spatiale et la met continuellement à jour via un SLAM visuel. Cette conception par dissociation dynamique-statique améliore la cohérence spatiale tout au long du processus de génération tout en préservant la capacité du modèle à produire des entités dynamiques réalistes. De plus, Spatia permet des applications telles que le contrôle explicite de la caméra et l'édition interactive 3D, offrant ainsi un cadre géométriquement fondé pour une génération vidéo évolutive pilotée par la mémoire.
Les grands modèles de langage exposent de plus en plus de traces de raisonnement, mais leur structure cognitive sous-jacente et leurs étapes restent difficiles à identifier et à analyser au-delà des statistiques superficielles. Nous adoptons la théorie des épisodes de Schoenfeld comme grille d'analyse inductive à échelle intermédiaire et introduisons ThinkARM (Anatomie du raisonnement dans les modèles), un cadre évolutif qui abstrait explicitement les traces de raisonnement en étapes fonctionnelles telles que l'Analyse, l'Exploration, la Mise en œuvre, la Vérification, etc. Appliquée à la résolution de problèmes mathématiques par divers modèles, cette abstraction révèle une dynamique de pensée reproductible et des différences structurelles entre modèles raisonneurs et non-raisonneurs, qui ne sont pas apparentes dans les vues au niveau des tokens. Nous présentons en outre deux études de cas diagnostiques montrant que l'exploration fonctionne comme une étape de branchement critique associée à la justesse des réponses, et que les méthodes axées sur l'efficacité suppriment sélectivement les étapes de rétroaction évaluative plutôt que de raccourcir uniformément les réponses. Ensemble, nos résultats démontrent que les représentations au niveau des épisodes rendent les étapes de raisonnement explicites, permettant une analyse systématique de la manière dont le raisonnement est structuré, stabilisé et altéré dans les modèles de langage modernes.
Les vidéos sont des projections 2D continues de mondes 3D. Après un entraînement sur de vastes données vidéo, une compréhension globale de la 3D émerge-t-elle naturellement ? Nous étudions cette question en quantifiant la compréhension 3D de modèles fondateurs vidéo (VidFMs) existants pré-entraînés sur d'immenses quantités de données vidéo. Nous proposons le premier cadre agnostique aux modèles qui mesure la conscience 3D de divers VidFMs en estimant plusieurs propriétés 3D à partir de leurs caractéristiques via des lectures superficielles. Notre étude présente des résultats significatifs concernant la conscience 3D des VidFMs sur de multiples axes. En particulier, nous montrons que les modèles de génération vidéo de pointe présentent une compréhension solide des objets et scènes 3D, bien qu'ils n'aient été entraînés sur aucune donnée 3D. Cette compréhension peut même surpasser celle de grands modèles experts spécifiquement entraînés pour des tâches 3D. Nos résultats, ainsi que l'évaluation comparative 3D des principaux VidFMs, fournissent des observations précieuses pour la construction de modèles 3D évolutifs.
L'apprentissage par renforcement (RL) multi-tours pour les agents multimodaux basés sur des modèles vision-langage (VLM) est entravé par des récompenses éparses et un problème d'attribution du crédit sur un long horizon. Les méthodes récentes densifient la récompense en interrogeant un enseignant qui fournit un retour au niveau de l'étape, par exemple Guided Thought Reinforcement (GTR) et On-Policy Distillation, mais elles reposent sur des modèles coûteux, souvent privilégiés, comme enseignant, ce qui limite la praticabilité et la reproductibilité. Nous présentons GTR-Turbo, une mise à niveau hautement efficace de GTR, qui atteint des performances équivalentes sans entraîner ni interroger un modèle enseignant coûteux. Plus précisément, GTR-Turbo fusionne les poids des points de contrôle produits pendant l'entraînement RL en cours, puis utilise ce modèle fusionné comme un enseignant « gratuit » pour guider le RL ultérieur via du fine-tuning supervisé ou une distillation par logits soft. Cette conception supprime la dépendance à l'égard de VLM privilégiés (par exemple, GPT ou Gemini), atténue l'« effondrement de l'entropie » observé dans les travaux antérieurs et maintient la stabilité de l'entraînement. Sur diverses tâches d'agent visuel, GTR-Turbo amène la précision du modèle de base de 10 à 30 % tout en réduisant le temps d'entraînement réel de 50 % et le coût de calcul de 60 % par rapport à GTR.
La génération visuelle autorégressive (AR) repose sur des tokeniseurs pour mapper les images vers et depuis des séquences discrètes. Cependant, les tokeniseurs sont entraînés à reconstruire des images propres à partir de tokens de vérité terrain, tandis que les générateurs AR sont optimisés uniquement pour la vraisemblance des tokens. Ce désalignement conduit à des séquences de tokens générées qui peuvent se décoder en images de faible qualité, sans supervision directe depuis l'espace pixel. Nous proposons VA-π, un cadre léger d'optimisation post-entraînement qui optimise directement les modèles AR avec un objectif fondé dans l'espace pixel. VA-π formule l'alignement générateur-tokeniseur comme une optimisation variationnelle, dérivant une borne inférieure de l'évidence (ELBO) qui unifie la reconstruction pixel et la modélisation autorégressive. Pour optimiser dans l'espace discret des tokens, VA-π introduit une stratégie d'alignement par renforcement qui traite le générateur AR comme une politique, utilisant la qualité de reconstruction dans l'espace pixel comme récompense intrinsèque. La récompense est mesurée par la capacité des séquences de tokens prédites à reconstruire l'image originale sous forçage de l'enseignant, fournissant au modèle un guidage direct au niveau pixel sans recours à un échantillonnage libre coûteux. Le terme de régularisation de l'ELBO sert de régularisateur naturel, maintenant la cohérence distributionnelle des tokens. VA-π permet l'adaptation rapide de générateurs AR existants, sans nécessiter ni le réentraînement du tokeniseur ni des modèles de récompense externes. Avec seulement 1% des données d'ImageNet-1K et 25 minutes de réglage, il réduit le FID de 14,36 à 7,65 et améliore l'IS de 86,55 à 116,70 sur LlamaGen-XXL, tout en produisant des gains notables dans la tâche texte-image sur GenEval, à la fois pour le modèle de génération visuelle (LlamaGen : de 0,306 à 0,339) et pour le modèle multimodal unifié (Janus-Pro : de 0,725 à 0,744). Le code est disponible à l'adresse https://github.com/Lil-Shake/VA-Pi.