papers.description
Les grands modèles de langage (LLMs) sont de plus en plus attendus pour aller au-delà des simples requêtes factuelles vers des tâches de recherche approfondie qui nécessitent de décomposer les questions en sous-problèmes, de coordonner un raisonnement en plusieurs étapes et de synthétiser des preuves provenant de sources diverses. Nous formalisons les tâches de recherche approfondie avec des réponses vérifiables comme des problèmes de satisfaction de contraintes hiérarchiques (HCSPs), qui sont fondamentalement différents des formulations de CSP à contrainte unique, multi-sauts ou plates. Cependant, les benchmarks existants (par exemple, Natural Questions, HotpotQA) ne parviennent pas à capturer cette complexité, tandis que les ensembles de données synthétiques récents introduisent souvent des raccourcis de raisonnement, des fuites de connaissances ou manquent de profondeur structurelle. Pour combler cette lacune, nous introduisons InfoSeek, un cadre évolutif pour synthétiser des tâches complexes de recherche approfondie. InfoSeek utilise un système à double agent pour construire récursivement un arbre de recherche à partir de pages web à grande échelle, en brouillant les nœuds intermédiaires en sous-problèmes valides, et en convertissant ces arbres en questions en langage naturel qui nécessitent de parcourir toute la hiérarchie. Il permet également une mise à l'échelle rapide, produisant plus de 50 000 exemples d'entraînement, un ensemble de test soigneusement sélectionné et des trajectoires de raisonnement générées via un échantillonnage par rejet. Les expériences montrent que les modèles entraînés sur InfoSeek surpassent systématiquement les bases de référence solides. Sur un benchmark difficile, BrowseComp-Plus, les LLMs de 3B optimisés avec InfoSeek surpassent des modèles beaucoup plus grands de 32B et des API commerciales légères (par exemple, Gemini2.5-Flash), tout en atteignant des performances comparables à des API plus puissantes (par exemple, Gemini2.5-Pro). En préservant les méta-informations telles que les étapes intermédiaires et les étiquettes de récupération, InfoSeek soutient en outre des stratégies d'optimisation avancées, y compris la conception de récompenses composées et l'exploration au niveau des trajectoires. Nous fournissons nos codes et ensembles de données dans https://github.com/VectorSpaceLab/InfoSeek{cette repository}.
Nous présentons Robix, un modèle unifié qui intègre le raisonnement robotique, la planification de tâches et l'interaction en langage naturel au sein d'une architecture unique vision-langage. Agissant comme la couche cognitive de haut niveau dans un système robotique hiérarchique, Robix génère dynamiquement des commandes atomiques pour le contrôleur de bas niveau et des réponses verbales pour l'interaction humaine, permettant ainsi aux robots de suivre des instructions complexes, de planifier des tâches à long terme et d'interagir naturellement avec les humains dans un cadre end-to-end. Robix introduit également de nouvelles capacités telles que le dialogue proactif, la gestion des interruptions en temps réel et le raisonnement de bon sens contextuel pendant l'exécution des tâches. Au cœur de Robix se trouve un raisonnement en chaîne de pensée et une stratégie d'entraînement en trois étapes : (1) un pré-entraînement continu pour renforcer les capacités de raisonnement incarné fondamentales, notamment la compréhension spatiale 3D, l'ancrage visuel et le raisonnement centré sur les tâches ; (2) un affinage supervisé pour modéliser l'interaction humain-robot et la planification de tâches comme une séquence unifiée de raisonnement-action ; et (3) un apprentissage par renforcement pour améliorer la cohérence raisonnement-action et la cohérence des tâches à long terme. Des expériences approfondies démontrent que Robix surpasse à la fois les bases de référence open-source et commerciales (par exemple, GPT-4o et Gemini 2.5 Pro) dans l'exécution interactive de tâches, montrant une forte généralisation à travers divers types d'instructions (par exemple, ouvertes, multi-étapes, contraintes, invalides et interrompues) et diverses tâches impliquant l'utilisateur telles que le débarrassage de table, les courses alimentaires et le filtrage diététique.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme prédominant pour les tâches de raisonnement mathématique, offrant des améliorations stables des capacités de raisonnement. Cependant, les modèles de récompense basés sur les résultats (ORMs) dans le RLVR sont trop grossiers pour distinguer un raisonnement erroné au sein de réponses correctes ou un raisonnement valide au sein de réponses incorrectes. Ce manque de granularité introduit des gradients bruyants et trompeurs de manière significative, entravant ainsi les progrès ultérieurs dans la qualité du processus de raisonnement. Bien que les modèles de récompense basés sur le processus (PRMs) offrent un guidage granulaire pour les étapes intermédiaires, ils souffrent fréquemment d'inexactitudes et sont susceptibles de subir des manipulations de récompense. Pour résoudre ce dilemme, nous introduisons le filtre de cohérence de processus (PROF), une méthode efficace de curation des données qui harmonise les récompenses de processus granulaires mais bruyantes avec les récompenses de résultats grossières mais précises. Plutôt que de mélanger naïvement les PRM et ORM dans la fonction objectif (arXiv:archive/2506.18896), PROF exploite leurs forces complémentaires grâce à une sélection d'échantillons guidée par la cohérence. Notre approche conserve les réponses correctes avec des valeurs de processus moyennes plus élevées et les réponses incorrectes avec des valeurs de processus moyennes plus basses, tout en maintenant un équilibre entre les échantillons d'entraînement positifs et négatifs. Des expériences approfondies démontrent que notre méthode améliore non seulement la précision finale de plus de 4 % par rapport aux approches de mélange, mais renforce également la qualité des étapes intermédiaires de raisonnement. Les codes et les recettes d'entraînement sont disponibles à l'adresse https://github.com/Chenluye99/PROF.
Les modèles de langage (LMs) alimentent de plus en plus d'applications réelles nécessitant une connaissance du monde. Cependant, les processus internes par lesquels ces modèles transforment les données en représentations de connaissances et de croyances sur le monde sont mal compris. Une meilleure compréhension de ces processus pourrait ouvrir la voie au développement de LMs dotés de représentations de connaissances plus cohérentes, robustes et complètes. Pour faciliter l'étude de ces questions, nous présentons LMEnt, une suite d'outils pour analyser l'acquisition de connaissances dans les LMs pendant le pré-entraînement. LMEnt introduit : (1) un corpus de pré-entraînement riche en connaissances, entièrement annoté avec des mentions d'entités, basé sur Wikipédia, (2) une méthode de récupération basée sur les entités sur les données de pré-entraînement qui surpasse les approches précédentes jusqu'à 80,4 %, et (3) 12 modèles pré-entraînés avec jusqu'à 1 milliard de paramètres et 4 000 points de contrôle intermédiaires, offrant des performances comparables aux modèles open-source populaires sur les benchmarks de connaissances. Ensemble, ces ressources fournissent un environnement contrôlé pour analyser les liens entre les mentions d'entités pendant le pré-entraînement et les performances en aval, ainsi que les effets des interventions causales dans les données de pré-entraînement. Nous démontrons l'utilité de LMEnt en étudiant l'acquisition de connaissances à travers les points de contrôle, constatant que la fréquence des faits est clé, mais n'explique pas entièrement les tendances d'apprentissage. Nous publions LMEnt pour soutenir les études sur les connaissances dans les LMs, y compris les représentations de connaissances, la plasticité, l'édition, l'attribution et la dynamique d'apprentissage.
Une planification efficace nécessite des modèles du monde robustes, mais les modèles de haut niveau capables de comprendre et de raisonner sur des actions avec une abstraction sémantique et temporelle restent largement sous-développés. Nous présentons le Vision Language World Model (VLWM), un modèle de base entraîné pour la modélisation du monde basée sur le langage à partir de vidéos naturelles. Étant donné des observations visuelles, le VLWM infère d'abord les réalisations globales des objectifs, puis prédit une trajectoire composée d'actions entrelacées et de changements d'état du monde. Ces cibles sont extraites par un processus itératif de LLM Self-Refine conditionné sur des observations futures compressées représentées par un Arbre de Légendes. Le VLWM apprend à la fois une politique d'action et un modèle de dynamique, qui facilitent respectivement le décodage réactif des plans de type système-1 et la planification réflexive de type système-2 via la minimisation des coûts. Le coût évalue la distance sémantique entre les états futurs hypothétiques donnés par les simulations du VLWM et l'état objectif attendu, et est mesuré par un modèle critique que nous avons entraîné de manière auto-supervisée. Le VLWM atteint des performances de pointe en Planification Visuelle pour l'Assistance (VPA) à la fois sur les évaluations de référence et sur nos évaluations humaines proposées dans PlannerArena, où le système-2 améliore le score Elo de +27 % par rapport au système-1. Les modèles VLWM surpassent également les modèles de référence VLM sur les benchmarks RoboVQA et WorldPrediction.
La génération contrôlée de visages présente des défis critiques en modélisation générative en raison de l'équilibre complexe requis entre la contrôlabilité sémantique et le photoréalisme. Alors que les approches existantes peinent à dissocier les contrôles sémantiques des pipelines de génération, nous revisitons le potentiel architectural des Transformers de Diffusion (DiTs) à travers le prisme de la spécialisation experte. Cet article présente Face-MoGLE, un nouveau cadre comprenant : (1) une modélisation latente découplée sémantiquement via une factorisation de l'espace conditionnée par des masques, permettant une manipulation précise des attributs ; (2) un mélange d'experts globaux et locaux qui capturent la structure holistique et la sémantique au niveau des régions pour une contrôlabilité fine ; (3) un réseau de portes dynamiques produisant des coefficients dépendants du temps qui évoluent avec les étapes de diffusion et les emplacements spatiaux. Face-MoGLE offre une solution puissante et flexible pour la génération de visages de haute qualité et contrôlée, avec un fort potentiel dans la modélisation générative et les applications de sécurité. Des expériences approfondies démontrent son efficacité dans des contextes de génération de visages multimodaux et monomodaux, ainsi que sa robuste capacité de généralisation en zero-shot. La page du projet est disponible à l'adresse https://github.com/XavierJiezou/Face-MoGLE.
La génération personnalisée multi-sujets présente des défis uniques pour maintenir la fidélité identitaire et la cohérence sémantique lors de la synthèse d'images conditionnées par plusieurs sujets de référence. Les méthodes existantes souffrent souvent de mélange d'identités et de fuites d'attributs en raison d'une modélisation inadéquate de la manière dont les différents sujets devraient interagir dans des espaces de représentation partagés. Nous présentons MOSAIC, un framework centré sur la représentation qui repense la génération multi-sujets à travers une correspondance sémantique explicite et une séparation orthogonale des caractéristiques. Notre idée clé est que la génération multi-sujets nécessite un alignement sémantique précis au niveau de la représentation - savoir exactement quelles régions de l'image générée doivent correspondre à quelles parties de chaque référence. Pour y parvenir, nous introduisons SemAlign-MS, un ensemble de données méticuleusement annoté fournissant des correspondances sémantiques fines entre plusieurs sujets de référence et des images cibles, précédemment indisponibles dans ce domaine. Sur cette base, nous proposons la perte d'attention par correspondance sémantique pour imposer un alignement sémantique point à point précis, garantissant une forte cohérence de chaque référence à ses régions désignées. De plus, nous développons la perte de séparation multi-référence pour pousser différents sujets dans des sous-espaces d'attention orthogonaux, empêchant l'interférence des caractéristiques tout en préservant les caractéristiques identitaires individuelles. Des expériences approfondies démontrent que MOSAIC atteint des performances de pointe sur plusieurs benchmarks. Notamment, alors que les méthodes existantes se dégradent généralement au-delà de 3 sujets, MOSAIC maintient une haute fidélité avec 4+ sujets de référence, ouvrant de nouvelles possibilités pour des applications complexes de synthèse multi-sujets.
La manipulation robotique moderne repose principalement sur des observations visuelles dans un espace de couleurs 2D pour l'apprentissage des compétences, mais souffre d'une mauvaise généralisation. En revanche, les humains, évoluant dans un monde en 3D, dépendent davantage des propriétés physiques - telles que la distance, la taille et la forme - que de la texture lorsqu'ils interagissent avec des objets. Étant donné que ces informations géométriques 3D peuvent être acquises à partir de caméras de profondeur largement disponibles, il semble réalisable de doter les robots de capacités perceptives similaires. Notre étude pilote a révélé que l'utilisation de caméras de profondeur pour la manipulation est difficile, principalement en raison de leur précision limitée et de leur sensibilité à divers types de bruit. Dans ce travail, nous proposons les Modèles de Profondeur de Caméra (CDMs) comme un simple module complémentaire sur les caméras de profondeur d'usage quotidien, qui prennent des images RGB et des signaux de profondeur bruts en entrée et produisent une profondeur métrique débruîtée et précise. Pour y parvenir, nous développons un moteur de données neuronales qui génère des données appariées de haute qualité à partir de la simulation en modélisant le modèle de bruit d'une caméra de profondeur. Nos résultats montrent que les CDMs atteignent une précision de prédiction de profondeur presque au niveau de la simulation, comblant efficacement l'écart entre la simulation et la réalité pour les tâches de manipulation. Notamment, nos expériences démontrent, pour la première fois, qu'une politique entraînée sur des données de profondeur simulées brutes, sans nécessité d'ajouter du bruit ou de réaliser un ajustement fin dans le monde réel, se généralise de manière fluide aux robots réels sur deux tâches complexes à long terme impliquant des objets articulés, réfléchissants et minces, avec peu ou pas de dégradation des performances. Nous espérons que nos découvertes inspireront de futures recherches sur l'utilisation des données de simulation et des informations 3D dans les politiques robotiques générales.
Les récents progrès des modèles de langage à grande échelle (LLMs) ont démontré des capacités de raisonnement général remarquables. Cependant, l'évaluation systématique et l'amélioration de ces capacités de raisonnement posent des défis en raison du manque d'outils contrôlables et évolutifs pour une analyse fine. Les benchmarks et ensembles de données existants manquent souvent du contrôle nécessaire des variables pour une analyse et un entraînement multidimensionnels et systématiques, ou se limitent à des types et formats de problèmes restreints. Pour pallier ces limitations, nous présentons SATQuest, un vérificateur systématique conçu pour évaluer et améliorer le raisonnement logique des LLMs en générant des problèmes de raisonnement logique diversifiés basés sur la satisfiabilité directement à partir d'instances de forme normale conjonctive (CNF). SATQuest structure ces problèmes selon trois dimensions orthogonales : l'échelle de l'instance, le type de problème et le format de question, en utilisant une génération de problèmes aléatoire basée sur SAT et une vérification objective des réponses via PySAT. Cette conception atténue les problèmes de mémorisation, permet des insights nuancés sur les performances de raisonnement et facilite un réglage fin par renforcement efficace. Notre évaluation approfondie de divers LLMs avec SATQuest a révélé des limitations significatives dans leur raisonnement logique, notamment en ce qui concerne la généralisation au-delà des formats mathématiques familiers. De plus, nous montrons que le réglage fin par renforcement avec les récompenses de SATQuest améliore substantiellement les performances sur les tâches ciblées et généralise à des instances plus complexes, tout en mettant en lumière les défis persistants dans l'adaptation inter-formats. À travers ces démonstrations, nous illustrons le potentiel de SATQuest en tant qu'outil fondamental et point de départ précieux pour faire progresser le raisonnement logique des LLMs.