HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

7 papers found

Amélioration du RAG multi-étapes avec une mémoire basée sur les hypergraphes pour la modélisation relationnelle complexe en contexte long
Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

Dec 30

ByChulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou, Wai Lam, Mo Yu

La génération augmentée par récupération multi-étapes (RAG) est devenue une stratégie largement adoptée pour améliorer les modèles de langage de grande taille sur des tâches exigeant une compréhension globale et un raisonnement approfondi. De nombreux systèmes RAG intègrent un module de mémoire de travail pour consolider les informations récupérées. Cependant, les conceptions mnémoniques existantes fonctionnent principalement comme un stockage passif accumulant des faits isolés dans le but de condenser les entrées longues et de générer de nouvelles sous-requêtes par déduction. Cette nature statique néglige les cruciales corrélations d'ordre supérieur entre les faits primitifs, dont les compositions peuvent souvent fournir un guidage plus fort pour les étapes suivantes. Par conséquent, leur puissance représentationnelle et leur impact sur le raisonnement multi-étapes et l'évolution des connaissances sont limités, entraînant un raisonnement fragmenté et une faible capacité de construction de sens globale dans des contextes étendus. Nous présentons HGMem, un mécanisme de mémoire basé sur les hypergraphes qui étend le concept de mémoire au-delà du simple stockage vers une structure dynamique et expressive pour le raisonnement complexe et la compréhension globale. Dans notre approche, la mémoire est représentée comme un hypergraphe dont les hyperarêtes correspondent à des unités mnémoniques distinctes, permettant la formation progressive d'interactions d'ordre supérieur au sein de la mémoire. Ce mécanisme connecte les faits et les réflexions autour du problème central, évoluant vers une structure de connaissance intégrée et située qui fournit des propositions solides pour un raisonnement plus profond dans les étapes ultérieures. Nous évaluons HGMem sur plusieurs jeux de données complexes conçus pour la construction de sens globale. Des expériences approfondies et des analyses détaillées montrent que notre méthode améliore constamment le RAG multi-étapes et surpasse substantiellement les systèmes de référence solides sur diverses tâches.

Modèles Dynamiques de Grands Concepts : Raisonnement Latent dans un Espace Sémantique Adaptatif
Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

Dec 31

ByXingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang

Les modèles de langage à grande échelle (LLM) appliquent un calcul uniforme à tous les tokens, bien que le langage présente une densité d'information hautement non uniforme. Ce régime token-uniforme gaspille de la capacité sur des séquences localement prévisibles tout en sous-allouant les calculs aux transitions sémantiquement critiques. Nous proposons les Modèles Dynamiques de Grands Concepts (DLCM), un cadre de modélisation du langage hiérarchique qui apprend les frontières sémantiques à partir de représentations latentes et transfère les calculs des tokens vers un espace conceptuel compressé où le raisonnement est plus efficace. DLCM découvre des concepts de longueur variable de bout en bout sans s'appuyer sur des unités linguistiques prédéfinies. La compression hiérarchique modifie fondamentalement le comportement de mise à l'échelle. Nous introduisons la première loi d'échelle sensible à la compression, qui dissocie la capacité au niveau token, la capacité de raisonnement au niveau conceptuel et le taux de compression, permettant une allocation de calcul raisonnée sous des FLOPs fixes. Pour entraîner de manière stable cette architecture hétérogène, nous développons en outre une paramétrisation μP découplée qui supporte un transfert zéro-shot des hyperparamètres entre différentes largeurs et régimes de compression. Dans un cadre pratique (R=4, correspondant à une moyenne de quatre tokens par concept), DLCM réalloue environ un tiers du calcul d'inférence vers un backbone de raisonnement de plus grande capacité, obtenant une amélioration moyenne de +2,69 % sur 12 benchmarks en zéro-shot sous des FLOPs d'inférence équivalents.

DiffThinker : Vers un raisonnement multimodal génératif avec les modèles de diffusion
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

Dec 30

ByZefeng He, Xiaoye Qu, Yafu Li, Tong Zhu, Siyuan Huang, Yu Cheng

Bien que les modèles de langage multimodaux (MLLM) récents aient réalisé des progrès significatifs en raisonnement multimodal, leurs processus de raisonnement restent principalement centrés sur le texte, ce qui entraîne des performances sous-optimales dans les tâches complexes, à long terme et centrées sur la vision. Dans cet article, nous établissons un nouveau paradigme de raisonnement multimodal génératif et présentons DiffThinker, un cadre de raisonnement basé sur la diffusion. Conceptuellement, DiffThinker reformule le raisonnement multimodal comme une tâche générative native de type image-à-image, atteignant une cohérence logique et une précision spatiale supérieures dans les tâches centrées sur la vision. Nous effectuons une comparaison systématique entre DiffThinker et les MLLM, fournissant la première étude approfondie des caractéristiques intrinsèques de ce paradigme, révélant quatre propriétés fondamentales : l'efficacité, la contrôlabilité, le parallélisme natif et la collaboration. Des expériences approfondies dans quatre domaines (planification séquentielle, optimisation combinatoire, satisfaction de contraintes et configuration spatiale) démontrent que DiffThinker surpasse significativement les modèles propriétaires leaders, notamment GPT-5 (+314,2 %) et Gemini-3-Flash (+111,6 %), ainsi que la baseline fine-tunée Qwen3-VL-32B (+39,0 %), soulignant le raisonnement multimodal génératif comme une approche prometteuse pour le raisonnement centré sur la vision.

Sur le rôle de la discrétion dans les modèles de langage à diffusion
On the Role of Discreteness in Diffusion LLMs

Dec 27

ByZiqi Jin, Bin Wang, Xiang Lin, Lidong Bing, Aixin Sun

Les modèles de diffusion offrent des propriétés attrayantes pour la génération de texte, telles que le décodage parallèle et le raffinement itératif, mais la nature discrète et fortement structurée du langage pose des défis à l'application directe des principes de diffusion. Dans cet article, nous revisitons la modélisation linguistique par diffusion sous l'angle du processus de diffusion et de la modélisation du langage, et identifions cinq propriétés qui distinguent les mécanismes de diffusion des exigences linguistiques spécifiques. Nous catégorisons d'abord les approches existantes en diffusion continue dans l'espace des embeddings et diffusion discrète sur les tokens. Nous montrons ensuite que chacune ne satisfait qu'une partie des cinq propriétés essentielles et reflète donc un compromis structurel. Par l'analyse de récents grands modèles de langage à diffusion, nous identifions deux problèmes centraux : (i) la corruption uniforme ne respecte pas la distribution de l'information selon les positions, et (ii) l'apprentissage marginal token par token ne peut capturer les dépendances multi-tokens lors du décodage parallèle. Ces observations motivent le développement de processus de diffusion mieux alignés avec la structure du texte et encouragent les travaux futurs vers des modèles de langage à diffusion plus cohérents.

FlowBlending : Échantillonnage Multi-Modèle Conscient de l'Étape pour une Génération de Vidéos Rapide et de Haute Fidélité
FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

Dec 31

ByJibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh

Dans ce travail, nous démontrons que l'impact de la capacité du modèle varie selon les pas de temps : il est crucial durant les phases initiales et finales, mais largement négligeable pendant la phase intermédiaire. En conséquence, nous proposons FlowBlending, une stratégie d'échantillonnage multi-modèles adaptative qui utilise un modèle de grande taille et un modèle de petite taille respectivement aux stades sensibles à la capacité et aux stades intermédiaires. Nous introduisons en outre des critères simples pour choisir les limites des phases et fournissons une analyse de divergence de vélocité comme proxy efficace pour identifier les régions sensibles à la capacité. Sur les jeux de données LTX-Video (2B/13B) et WAN 2.1 (1.3B/14B), FlowBlending permet une accélération de l'inférence allant jusqu'à 1,65x avec 57,35 % de moins d'opérations FLOPs, tout en maintenant la fidélité visuelle, la cohérence temporelle et l'alignement sémantique des grands modèles. FlowBlending est également compatible avec les techniques existantes d'accélération de l'échantillonnage, permettant une accélération supplémentaire allant jusqu'à 2x. La page du projet est disponible à l'adresse : https://jibin86.github.io/flowblending_project_page.

Dream2Flow : Relier la génération vidéo et la manipulation en monde ouvert par le flux d'objets 3D
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

Dec 31

ByKarthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang

La modélisation générative vidéo est apparue comme un outil convaincant pour raisonner à zéro-shot sur les interactions physiques plausibles dans le contexte de la manipulation en monde ouvert. Cependant, traduire ces mouvements dirigés par l'humain en actions de bas niveau exigées par les systèmes robotiques reste un défi. Nous observons que, étant donné une image initiale et une consigne de tâche, ces modèles excellent à synthétiser des mouvements d'objets sensés. Ainsi, nous présentons Dream2Flow, un cadre qui fait le lien entre la génération vidéo et le contrôle robotique via le flux d'objets 3D comme représentation intermédiaire. Notre méthode reconstruit les mouvements d'objets 3D à partir de vidéos générées et formule la manipulation comme un suivi de trajectoire d'objet. En séparant les changements d'état des actionneurs qui réalisent ces changements, Dream2Flow surmonte le fossé de l'incarnation et permet un guidage à zéro-shot à partir de modèles vidéo pré-entraînés pour manipuler des objets de catégories diverses, y compris rigides, articulés, déformables et granulaires. Grâce à l'optimisation de trajectoire ou à l'apprentissage par renforcement, Dream2Flow convertit le flux d'objets 3D reconstruit en commandes de bas niveau exécutables sans démonstrations spécifiques à la tâche. Les expériences en simulation et dans le monde réel soulignent le flux d'objets 3D comme une interface générale et évolutive pour adapter les modèles de génération vidéo à la manipulation robotique en monde ouvert. Les vidéos et visualisations sont disponibles à l'adresse https://dream2flow.github.io/.

TESO Tabu : Optimisation par Simulation Améliorée pour les Problèmes de Boîte Noire Bruitée
TESO Tabu Enhanced Simulation Optimization for Noisy Black Box Problems

Dec 30

ByBulent Soykan, Sean Mondesire, Ghaith Rabadi

L'optimisation par simulation (SO) est fréquemment confrontée à des défis tels que des évaluations bruitées, des coûts computationnels élevés et des paysages de recherche complexes et multimodaux. Cet article présente l'Optimisation par Simulation Améliorée par Tabou (TESO), un nouveau cadre métaheuristique intégrant une recherche adaptative à des stratégies basées sur la mémoire. TESO exploite une Liste Tabou à court terme pour éviter les cycles et encourager la diversification, ainsi qu'une Mémoire d'Élite à long terme pour guider l'intensification en perturbant les solutions performantes. Un critère d'aspiration permet de lever les restrictions taboues pour les candidats exceptionnels. Cette combinaison facilite un équilibre dynamique entre exploration et exploitation dans des environnements stochastiques. Nous démontrons l'efficacité et la fiabilité de TESO sur un problème d'optimisation de file d'attente, montrant des performances supérieures par rapport à des références et validant la contribution de ses composants mémoriels. Le code source et les données sont disponibles à l'adresse : https://github.com/bulentsoykan/TESO.

Amélioration du RAG multi-étapes avec une mémoire basée sur les hypergraphes pour la modélisation relationnelle complexe en contexte long
Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

Dec 30

ByChulun Zhou, Chunkang Zhang, Guoxin Yu, Fandong Meng, Jie Zhou, Wai Lam, Mo Yu