papers.description
La génération augmentée par récupération multi-étapes (RAG) est devenue une stratégie largement adoptée pour améliorer les modèles de langage de grande taille sur des tâches exigeant une compréhension globale et un raisonnement approfondi. De nombreux systèmes RAG intègrent un module de mémoire de travail pour consolider les informations récupérées. Cependant, les conceptions mnémoniques existantes fonctionnent principalement comme un stockage passif accumulant des faits isolés dans le but de condenser les entrées longues et de générer de nouvelles sous-requêtes par déduction. Cette nature statique néglige les cruciales corrélations d'ordre supérieur entre les faits primitifs, dont les compositions peuvent souvent fournir un guidage plus fort pour les étapes suivantes. Par conséquent, leur puissance représentationnelle et leur impact sur le raisonnement multi-étapes et l'évolution des connaissances sont limités, entraînant un raisonnement fragmenté et une faible capacité de construction de sens globale dans des contextes étendus. Nous présentons HGMem, un mécanisme de mémoire basé sur les hypergraphes qui étend le concept de mémoire au-delà du simple stockage vers une structure dynamique et expressive pour le raisonnement complexe et la compréhension globale. Dans notre approche, la mémoire est représentée comme un hypergraphe dont les hyperarêtes correspondent à des unités mnémoniques distinctes, permettant la formation progressive d'interactions d'ordre supérieur au sein de la mémoire. Ce mécanisme connecte les faits et les réflexions autour du problème central, évoluant vers une structure de connaissance intégrée et située qui fournit des propositions solides pour un raisonnement plus profond dans les étapes ultérieures. Nous évaluons HGMem sur plusieurs jeux de données complexes conçus pour la construction de sens globale. Des expériences approfondies et des analyses détaillées montrent que notre méthode améliore constamment le RAG multi-étapes et surpasse substantiellement les systèmes de référence solides sur diverses tâches.
Les modèles de langage à grande échelle (LLM) appliquent un calcul uniforme à tous les tokens, bien que le langage présente une densité d'information hautement non uniforme. Ce régime token-uniforme gaspille de la capacité sur des séquences localement prévisibles tout en sous-allouant les calculs aux transitions sémantiquement critiques. Nous proposons les Modèles Dynamiques de Grands Concepts (DLCM), un cadre de modélisation du langage hiérarchique qui apprend les frontières sémantiques à partir de représentations latentes et transfère les calculs des tokens vers un espace conceptuel compressé où le raisonnement est plus efficace. DLCM découvre des concepts de longueur variable de bout en bout sans s'appuyer sur des unités linguistiques prédéfinies. La compression hiérarchique modifie fondamentalement le comportement de mise à l'échelle. Nous introduisons la première loi d'échelle sensible à la compression, qui dissocie la capacité au niveau token, la capacité de raisonnement au niveau conceptuel et le taux de compression, permettant une allocation de calcul raisonnée sous des FLOPs fixes. Pour entraîner de manière stable cette architecture hétérogène, nous développons en outre une paramétrisation μP découplée qui supporte un transfert zéro-shot des hyperparamètres entre différentes largeurs et régimes de compression. Dans un cadre pratique (R=4, correspondant à une moyenne de quatre tokens par concept), DLCM réalloue environ un tiers du calcul d'inférence vers un backbone de raisonnement de plus grande capacité, obtenant une amélioration moyenne de +2,69 % sur 12 benchmarks en zéro-shot sous des FLOPs d'inférence équivalents.
Bien que les modèles de langage multimodaux (MLLM) récents aient réalisé des progrès significatifs en raisonnement multimodal, leurs processus de raisonnement restent principalement centrés sur le texte, ce qui entraîne des performances sous-optimales dans les tâches complexes, à long terme et centrées sur la vision. Dans cet article, nous établissons un nouveau paradigme de raisonnement multimodal génératif et présentons DiffThinker, un cadre de raisonnement basé sur la diffusion. Conceptuellement, DiffThinker reformule le raisonnement multimodal comme une tâche générative native de type image-à-image, atteignant une cohérence logique et une précision spatiale supérieures dans les tâches centrées sur la vision. Nous effectuons une comparaison systématique entre DiffThinker et les MLLM, fournissant la première étude approfondie des caractéristiques intrinsèques de ce paradigme, révélant quatre propriétés fondamentales : l'efficacité, la contrôlabilité, le parallélisme natif et la collaboration. Des expériences approfondies dans quatre domaines (planification séquentielle, optimisation combinatoire, satisfaction de contraintes et configuration spatiale) démontrent que DiffThinker surpasse significativement les modèles propriétaires leaders, notamment GPT-5 (+314,2 %) et Gemini-3-Flash (+111,6 %), ainsi que la baseline fine-tunée Qwen3-VL-32B (+39,0 %), soulignant le raisonnement multimodal génératif comme une approche prometteuse pour le raisonnement centré sur la vision.
Les modèles de diffusion offrent des propriétés attrayantes pour la génération de texte, telles que le décodage parallèle et le raffinement itératif, mais la nature discrète et fortement structurée du langage pose des défis à l'application directe des principes de diffusion. Dans cet article, nous revisitons la modélisation linguistique par diffusion sous l'angle du processus de diffusion et de la modélisation du langage, et identifions cinq propriétés qui distinguent les mécanismes de diffusion des exigences linguistiques spécifiques. Nous catégorisons d'abord les approches existantes en diffusion continue dans l'espace des embeddings et diffusion discrète sur les tokens. Nous montrons ensuite que chacune ne satisfait qu'une partie des cinq propriétés essentielles et reflète donc un compromis structurel. Par l'analyse de récents grands modèles de langage à diffusion, nous identifions deux problèmes centraux : (i) la corruption uniforme ne respecte pas la distribution de l'information selon les positions, et (ii) l'apprentissage marginal token par token ne peut capturer les dépendances multi-tokens lors du décodage parallèle. Ces observations motivent le développement de processus de diffusion mieux alignés avec la structure du texte et encouragent les travaux futurs vers des modèles de langage à diffusion plus cohérents.
Dans ce travail, nous démontrons que l'impact de la capacité du modèle varie selon les pas de temps : il est crucial durant les phases initiales et finales, mais largement négligeable pendant la phase intermédiaire. En conséquence, nous proposons FlowBlending, une stratégie d'échantillonnage multi-modèles adaptative qui utilise un modèle de grande taille et un modèle de petite taille respectivement aux stades sensibles à la capacité et aux stades intermédiaires. Nous introduisons en outre des critères simples pour choisir les limites des phases et fournissons une analyse de divergence de vélocité comme proxy efficace pour identifier les régions sensibles à la capacité. Sur les jeux de données LTX-Video (2B/13B) et WAN 2.1 (1.3B/14B), FlowBlending permet une accélération de l'inférence allant jusqu'à 1,65x avec 57,35 % de moins d'opérations FLOPs, tout en maintenant la fidélité visuelle, la cohérence temporelle et l'alignement sémantique des grands modèles. FlowBlending est également compatible avec les techniques existantes d'accélération de l'échantillonnage, permettant une accélération supplémentaire allant jusqu'à 2x. La page du projet est disponible à l'adresse : https://jibin86.github.io/flowblending_project_page.
La modélisation générative vidéo est apparue comme un outil convaincant pour raisonner à zéro-shot sur les interactions physiques plausibles dans le contexte de la manipulation en monde ouvert. Cependant, traduire ces mouvements dirigés par l'humain en actions de bas niveau exigées par les systèmes robotiques reste un défi. Nous observons que, étant donné une image initiale et une consigne de tâche, ces modèles excellent à synthétiser des mouvements d'objets sensés. Ainsi, nous présentons Dream2Flow, un cadre qui fait le lien entre la génération vidéo et le contrôle robotique via le flux d'objets 3D comme représentation intermédiaire. Notre méthode reconstruit les mouvements d'objets 3D à partir de vidéos générées et formule la manipulation comme un suivi de trajectoire d'objet. En séparant les changements d'état des actionneurs qui réalisent ces changements, Dream2Flow surmonte le fossé de l'incarnation et permet un guidage à zéro-shot à partir de modèles vidéo pré-entraînés pour manipuler des objets de catégories diverses, y compris rigides, articulés, déformables et granulaires. Grâce à l'optimisation de trajectoire ou à l'apprentissage par renforcement, Dream2Flow convertit le flux d'objets 3D reconstruit en commandes de bas niveau exécutables sans démonstrations spécifiques à la tâche. Les expériences en simulation et dans le monde réel soulignent le flux d'objets 3D comme une interface générale et évolutive pour adapter les modèles de génération vidéo à la manipulation robotique en monde ouvert. Les vidéos et visualisations sont disponibles à l'adresse https://dream2flow.github.io/.
L'optimisation par simulation (SO) est fréquemment confrontée à des défis tels que des évaluations bruitées, des coûts computationnels élevés et des paysages de recherche complexes et multimodaux. Cet article présente l'Optimisation par Simulation Améliorée par Tabou (TESO), un nouveau cadre métaheuristique intégrant une recherche adaptative à des stratégies basées sur la mémoire. TESO exploite une Liste Tabou à court terme pour éviter les cycles et encourager la diversification, ainsi qu'une Mémoire d'Élite à long terme pour guider l'intensification en perturbant les solutions performantes. Un critère d'aspiration permet de lever les restrictions taboues pour les candidats exceptionnels. Cette combinaison facilite un équilibre dynamique entre exploration et exploitation dans des environnements stochastiques. Nous démontrons l'efficacité et la fiabilité de TESO sur un problème d'optimisation de file d'attente, montrant des performances supérieures par rapport à des références et validant la contribution de ses composants mémoriels. Le code source et les données sont disponibles à l'adresse : https://github.com/bulentsoykan/TESO.