papers.description
La Génération Augmentée par Récupération (RAG) améliore la factualité des Modèles de Langage à Grande Échelle (LLMs) en injectant des connaissances externes, mais elle montre des limites face aux problèmes nécessitant une inférence en plusieurs étapes ; à l'inverse, les approches purement orientées vers le raisonnement produisent souvent des hallucinations ou des erreurs de fondement factuel. Cette synthèse intègre ces deux axes sous une perspective unifiée de raisonnement-récupération. Nous commençons par montrer comment un raisonnement avancé optimise chaque étape de RAG (RAG Amélioré par le Raisonnement). Ensuite, nous illustrons comment les connaissances récupérées de différents types fournissent des prémisses manquantes et élargissent le contexte pour des inférences complexes (Raisonnement Amélioré par RAG). Enfin, nous mettons en lumière les cadres émergents de RAG-Raisonnement Synergisé, où les LLMs (agentiques) entrelacent de manière itérative recherche et raisonnement pour atteindre des performances de pointe sur des benchmarks intensifs en connaissances. Nous catégorisons les méthodes, les jeux de données et les défis ouverts, et esquissons des pistes de recherche vers des systèmes RAG-Raisonnement plus profonds, plus efficaces, adaptatifs multimodaux, fiables et centrés sur l'humain. La collection est disponible à l'adresse https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
L'optimisation des performances du code est primordiale dans le génie logiciel réel et cruciale pour les systèmes de niveau production. Bien que les modèles de langage de grande taille (LLMs) aient démontré des capacités impressionnantes en génération de code et en correction de bugs, leur compétence dans l'amélioration des performances du code au niveau du dépôt reste largement inexplorée. Pour combler cette lacune, nous introduisons SWE-Perf, le premier benchmark spécifiquement conçu pour évaluer systématiquement les LLMs sur des tâches d'optimisation des performances du code dans des contextes de dépôts authentiques. SWE-Perf comprend 140 instances soigneusement sélectionnées, chacune dérivée de demandes d'extraction visant à améliorer les performances provenant de dépôts GitHub populaires. Chaque instance de benchmark inclut la base de code pertinente, les fonctions cibles, les tests liés aux performances, les correctifs rédigés par des experts et des environnements exécutables. Grâce à une évaluation exhaustive des méthodes représentatives couvrant les approches au niveau fichier et dépôt (par exemple, Agentless et OpenHands), nous révélons un écart de capacité substantiel entre les LLMs existants et les performances d'optimisation de niveau expert, mettant en lumière des opportunités de recherche critiques dans ce domaine émergent.
La modélisation 3D évolue du virtuel au physique. Les méthodes actuelles de génération 3D se concentrent principalement sur les géométries et les textures, tout en négligeant la modélisation ancrée dans la physique. Par conséquent, malgré le développement rapide des modèles génératifs 3D, les actifs 3D synthétisés ignorent souvent des propriétés physiques riches et importantes, limitant leur application dans des domaines physiques tels que la simulation et l'IA incarnée. Pour relever ce défi, nous proposons PhysX, un paradigme de bout en bout pour la génération d'actifs 3D ancrés dans la physique. 1) Pour combler le manque critique de jeux de données 3D annotés physiquement, nous présentons PhysXNet - le premier jeu de données 3D ancré dans la physique, systématiquement annoté selon cinq dimensions fondamentales : l'échelle absolue, le matériau, l'affordance, la cinématique et la description fonctionnelle. Nous concevons notamment un pipeline d'annotation scalable basé sur des modèles vision-langage, permettant la création efficace d'actifs physiques à partir de données 3D brutes. 2) De plus, nous proposons PhysXGen, un framework feed-forward pour la génération d'actifs 3D à partir d'images, intégrant des connaissances physiques dans l'espace structurel 3D pré-entraîné. Concrètement, PhysXGen utilise une architecture à double branche pour modéliser explicitement les corrélations latentes entre les structures 3D et les propriétés physiques, produisant ainsi des actifs 3D avec des prédictions physiques plausibles tout en préservant la qualité géométrique native. Des expériences approfondies valident les performances supérieures et la capacité de généralisation prometteuse de notre framework. Tous les codes, données et modèles seront publiés pour faciliter les recherches futures en IA générative physique.
Les humains sont des composants essentiels de l'écosystème des transports, et comprendre leurs comportements est crucial pour faciliter le développement de systèmes de conduite sûrs. Bien que des progrès récents aient exploré divers aspects du comportement humain—tels que le mouvement, les trajectoires et les intentions—un benchmark complet pour évaluer la compréhension du comportement humain dans la conduite autonome reste indisponible. Dans ce travail, nous proposons MMHU, un benchmark à grande échelle pour l'analyse du comportement humain, comportant des annotations riches telles que le mouvement et les trajectoires humaines, des descriptions textuelles des mouvements humains, les intentions humaines et des étiquettes de comportement critiques liées à la sécurité routière. Notre ensemble de données comprend 57 000 clips de mouvement humain et 1,73 million d'images provenant de sources diverses, notamment des ensembles de données de conduite établis comme Waymo, des vidéos en conditions réelles de YouTube et des données auto-collectées. Un pipeline d'annotation avec intervention humaine est développé pour générer des descriptions détaillées des comportements. Nous fournissons une analyse approfondie de l'ensemble de données et évaluons plusieurs tâches—allant de la prédiction de mouvement à la génération de mouvement et à la réponse à des questions sur le comportement humain—offrant ainsi une suite d'évaluation complète. Page du projet : https://MMHU-Benchmark.github.io.
Permettre aux humains virtuels de répondre de manière dynamique et réaliste à divers stimuli auditifs reste un défi majeur dans l'animation de personnages, nécessitant l'intégration de modélisation perceptuelle et de synthèse de mouvement. Malgré son importance, cette tâche reste largement inexplorée. La plupart des travaux précédents se sont principalement concentrés sur la cartographie de modalités telles que la parole, l'audio et la musique pour générer des mouvements humains. Jusqu'à présent, ces modèles négligent généralement l'impact des caractéristiques spatiales encodées dans les signaux audio spatiaux sur le mouvement humain. Pour combler cette lacune et permettre une modélisation de haute qualité des mouvements humains en réponse à l'audio spatial, nous introduisons le premier ensemble de données complet de Mouvement Humain Piloté par Audio Spatial (SAM), qui contient des données audio spatiales et de mouvement diversifiées et de haute qualité. Pour l'évaluation, nous développons un cadre génératif simple mais efficace basé sur la diffusion pour la génération de MOuvement humain piloté par l'audio SPatial, appelé MOSPA, qui capture fidèlement la relation entre le mouvement corporel et l'audio spatial grâce à un mécanisme de fusion efficace. Une fois entraîné, MOSPA peut générer des mouvements humains réalistes et diversifiés en fonction de diverses entrées audio spatiales. Nous menons une investigation approfondie de l'ensemble de données proposé et réalisons des expériences extensives pour l'évaluation, où notre méthode atteint des performances de pointe sur cette tâche. Notre modèle et l'ensemble de données seront open-source après acceptation. Veuillez vous référer à notre vidéo supplémentaire pour plus de détails.
Les agents de modèles de langage de grande taille (LLM) ont démontré un grand potentiel pour résoudre des problèmes du monde réel et promettent d'être une solution pour l'automatisation des tâches dans l'industrie. Cependant, davantage de benchmarks sont nécessaires pour évaluer systématiquement les agents d'automatisation d'un point de vue industriel, par exemple dans le génie civil. Par conséquent, nous proposons DrafterBench pour l'évaluation complète des agents LLM dans le contexte de la révision de dessins techniques, une tâche de représentation en génie civil. DrafterBench contient douze types de tâches résumées à partir de fichiers de dessins réels, avec 46 fonctions/outils personnalisés et 1920 tâches au total. DrafterBench est un benchmark open-source conçu pour tester rigoureusement la compétence des agents IA dans l'interprétation d'instructions complexes et à long contexte, l'exploitation de connaissances antérieures et l'adaptation à la qualité dynamique des instructions via une conscience implicite des politiques. Le toolkit évalue de manière exhaustive des capacités distinctes dans la compréhension de données structurées, l'exécution de fonctions, le suivi d'instructions et le raisonnement critique. DrafterBench offre une analyse détaillée de la précision des tâches et des statistiques d'erreurs, visant à fournir une compréhension plus approfondie des capacités des agents et à identifier des cibles d'amélioration pour l'intégration des LLM dans les applications d'ingénierie. Notre benchmark est disponible à l'adresse https://github.com/Eason-Li-AIS/DrafterBench, avec l'ensemble de tests hébergé à l'adresse https://huggingface.co/datasets/Eason666/DrafterBench.
La communauté des grands modèles de langage (LLM) se concentre presque exclusivement sur les modèles de langage à décodeur uniquement, car ils sont plus faciles à utiliser pour la génération de texte. Cependant, une grande partie de la communauté continue d'utiliser des modèles à encodeur uniquement pour des tâches telles que la classification ou la recherche. Les travaux précédents ont tenté de comparer ces architectures, mais ont été contraints de faire des comparaisons avec des modèles ayant des nombres de paramètres, des techniques d'entraînement et des jeux de données différents. Nous présentons la suite de modèles Ettin, un ensemble de données ouvertes de pointe : des modèles jumelés à encodeur uniquement et à décodeur uniquement, allant de 17 millions à 1 milliard de paramètres, entraînés sur jusqu'à 2 000 milliards de tokens. En utilisant la même recette pour les modèles à encodeur uniquement et à décodeur uniquement, nous obtenons des recettes de pointe dans les deux catégories pour leurs tailles respectives, surpassant ModernBERT en tant qu'encodeur et Llama 3.2 et SmolLM2 en tant que décodeurs. Comme les travaux précédents, nous constatons que les modèles à encodeur uniquement excellent dans les tâches de classification et de recherche, tandis que les décodeurs excellent dans les tâches génératives. Cependant, nous montrons qu'adapter un modèle de décodeur aux tâches d'encodeur (et vice versa) par un entraînement continu est inférieur à l'utilisation de l'objectif inverse uniquement (par exemple, un encodeur de 400 millions de paramètres surpasse un décodeur de 1 milliard sur MNLI, et vice versa pour les tâches génératives). Nous rendons publics tous les artefacts de cette étude, y compris les données d'entraînement, l'ordre d'entraînement segmenté par point de contrôle, et plus de 200 points de contrôle, afin de permettre aux travaux futurs d'analyser ou d'étendre tous les aspects de l'entraînement.
Nous proposons Lizard, un cadre de linéarisation qui transforme les modèles de langage de grande taille (LLMs) basés sur des Transformers pré-entraînés en architectures flexibles et sous-quadratiques pour la génération de contexte infini. Les LLMs basés sur des Transformers rencontrent des goulots d'étranglement significatifs en termes de mémoire et de calcul à mesure que les longueurs de contexte augmentent, en raison de la complexité quadratique de l'attention softmax et de la croissance du cache clé-valeur (KV). Lizard résout ces limitations en introduisant un mécanisme d'attention sous-quadratique qui approxime étroitement l'attention softmax tout en préservant la qualité de la sortie. Contrairement aux méthodes de linéarisation précédentes, souvent limitées par des structures de modèles fixes et excluant donc les mécanismes de gating, Lizard intègre un module de gating inspiré des modèles linéaires récents de pointe. Cela permet un contrôle adaptatif de la mémoire, supporte une inférence à mémoire constante, offre une forte généralisation en longueur et permet une conception de modèle plus flexible. Lizard combine une attention linéaire avec gating pour la compression du contexte global avec une attention par fenêtre glissante améliorée par une méta-mémoire, formant un mécanisme hybride qui capture à la fois les dépendances à long terme et les interactions locales fines. De plus, nous introduisons un algorithme conscient du matériel qui accélère la vitesse d'entraînement de nos modèles. Des expériences approfondies montrent que Lizard atteint une récupération quasi sans perte des performances du modèle enseignant sur des tâches standard de modélisation du langage, tout en surpassant significativement les méthodes de linéarisation précédentes. Sur le benchmark MMLU en 5 essais, Lizard améliore les modèles antérieurs de 18 points et montre des améliorations significatives sur les tâches de rappel associatif.
Les récents progrès dans la génération vidéo, en particulier avec les modèles de diffusion, ont conduit à des avancées notables dans la synthèse texte-à-vidéo (T2V) et image-à-vidéo (I2V). Cependant, des défis subsistent pour intégrer efficacement les signaux de mouvement dynamique et les contraintes spatiales flexibles. Les méthodes T2V existantes reposent généralement sur des invites textuelles, qui manquent intrinsèquement de contrôle précis sur la disposition spatiale du contenu généré. En revanche, les méthodes I2V sont limitées par leur dépendance à des images réelles, ce qui restreint l'éditabilité du contenu synthétisé. Bien que certaines méthodes intègrent ControlNet pour introduire un conditionnement basé sur l'image, elles manquent souvent de contrôle explicite du mouvement et nécessitent un entraînement coûteux en calcul. Pour surmonter ces limitations, nous proposons AnyI2V, un cadre sans entraînement qui anime n'importe quelle image conditionnelle avec des trajectoires de mouvement définies par l'utilisateur. AnyI2V prend en charge une gamme plus large de modalités comme image conditionnelle, y compris des types de données tels que les maillages et les nuages de points, qui ne sont pas supportés par ControlNet, permettant une génération vidéo plus flexible et polyvalente. De plus, il prend en charge des entrées conditionnelles mixtes et permet le transfert de style et l'édition via LoRA et des invites textuelles. Des expériences approfondies démontrent que AnyI2V offre des performances supérieures et apporte une nouvelle perspective dans la génération vidéo contrôlée spatialement et en termes de mouvement. Le code est disponible à l'adresse https://henghuiding.com/AnyI2V/.
Nous présentons SpatialTrackerV2, une méthode de suivi de points 3D en flux direct pour des vidéos monoculaires. Allant au-delà des pipelines modulaires construits à partir de composants standards pour le suivi 3D, notre approche unifie les connexions intrinsèques entre le suivi de points, la profondeur monoculaire et l'estimation de la pose de la caméra en un suiveur de points 3D performant et en flux direct. Il décompose le mouvement 3D dans l'espace mondial en géométrie de la scène, mouvement propre de la caméra et mouvement objet au niveau des pixels, avec une architecture entièrement différentiable et de bout en bout, permettant un entraînement scalable sur une large gamme de jeux de données, incluant des séquences synthétiques, des vidéos RGB-D avec pose, et des séquences non étiquetées en conditions réelles. En apprenant conjointement la géométrie et le mouvement à partir de données aussi hétérogènes, SpatialTrackerV2 surpasse les méthodes de suivi 3D existantes de 30%, et atteint la précision des meilleures approches de reconstruction 3D dynamique tout en étant 50 fois plus rapide.
Les récents progrès ont établi un nouveau paradigme d'apprentissage automatique basé sur l'augmentation de la puissance de calcul au moment de l'inférence ainsi que pendant l'entraînement. Dans cette lignée de travaux, une combinaison de Fine-Tuning Supervisé (SFT) sur des démonstrations synthétiques et d'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) est utilisée pour entraîner des modèles de langage de grande taille à dépenser une puissance de calcul supplémentaire lors de l'inférence sous la forme de "pensées" exprimées en langage naturel. Dans cet article, nous proposons plutôt de formater ces tokens sous la forme d'une trace d'interaction multi-tours avec un outil doté d'un état. À chaque tour, le nouvel état de l'outil est ajouté au contexte du modèle, dont la tâche est de générer les tokens nécessaires pour contrôler l'outil via un DSL personnalisé. Nous évaluons cette approche sur le problème de la réparation de code Python défectueux, et montrons que cette configuration contrainte permet un échantillonnage plus rapide de l'expérience et un signal de récompense plus dense, permettant même à des modèles de taille allant jusqu'à 3 milliards de paramètres d'apprendre à dépenser efficacement une puissance de calcul supplémentaire sur la tâche.
Cet article présente la participation d'AI Wizards au Lab CheckThat! de CLEF 2025, Tâche 1 : Détection de la subjectivité dans les articles de presse, consistant à classer les phrases comme subjectives/objectives dans des contextes monolingues, multilingues et en zero-shot. Des ensembles de données d'entraînement et de développement ont été fournis pour l'arabe, l'allemand, l'anglais, l'italien et le bulgare ; l'évaluation finale incluait des langues supplémentaires non vues (par exemple, le grec, le roumain, le polonais, l'ukrainien) pour évaluer la généralisation. Notre stratégie principale a consisté à améliorer les classificateurs basés sur des transformers en intégrant des scores de sentiment, dérivés d'un modèle auxiliaire, avec les représentations de phrases, visant à dépasser le fine-tuning standard. Nous avons exploré cette architecture enrichie par le sentiment avec mDeBERTaV3-base, ModernBERT-base (anglais) et Llama3.2-1B. Pour traiter le déséquilibre de classes, répandu à travers les langues, nous avons utilisé une calibration des seuils de décision optimisée sur l'ensemble de développement. Nos expériences montrent que l'intégration des caractéristiques de sentiment améliore significativement les performances, en particulier le score F1 subjectif. Ce cadre a conduit à des classements élevés, notamment la 1ère place pour le grec (Macro F1 = 0,51).
L'apprentissage par renforcement (RL) pour les grands modèles de langage est une entreprise énergivore : l'entraînement peut être instable, et la politique peut progressivement s'éloigner de ses poids pré-entraînés. Nous présentons RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,un cadre en deux phases qui collecte d'abord des trajectoires vérifiées puis les rejoue lors des entraînements ultérieurs. À chaque étape de mise à jour, la politique est optimisée sur des mini-lots qui mélangent des déploiements nouvellement générés avec ces succès rejoués. En rejouant des exemples de haute qualité, RLEP guide le modèle loin des explorations infructueuses, concentre l'apprentissage sur des chemins de raisonnement prometteurs, et offre à la fois une convergence plus rapide et une performance finale supérieure. Sur le modèle de base Qwen2.5-Math-7B, RLEP atteint la précision maximale de référence avec nettement moins de mises à jour et finit par la surpasser, améliorant la précision sur AIME-2024 de 38,2% à 39,9%, sur AIME-2025 de 19,8% à 22,3%, et sur AMC-2023 de 77,0% à 82,2%. Notre code, jeux de données et points de contrôle sont disponibles publiquement à l'adresse https://github.com/Kwai-Klear/RLEP pour faciliter la reproductibilité et les recherches ultérieures.
L'évolution rapide des bibliothèques logicielles constitue un défi majeur pour la génération de code, nécessitant une adaptation continue aux mises à jour fréquentes tout en préservant la compatibilité ascendante. Bien que les benchmarks existants sur l'évolution du code fournissent des informations précieuses, ils manquent généralement d'évaluation basée sur l'exécution pour générer du code conforme à des versions spécifiques de bibliothèques. Pour remédier à cela, nous présentons GitChameleon, un nouveau jeu de données méticuleusement constitué comprenant 328 problèmes de complétion de code Python, chacun conditionné à des versions spécifiques de bibliothèques et accompagné de tests unitaires exécutables. GitChameleon évalue rigoureusement la capacité des modèles de langage de grande taille (LLM) contemporains, des agents alimentés par des LLM, des assistants de code et des systèmes RAG à effectuer une génération de code conditionnée par la version, démontrant une précision fonctionnelle par l'exécution. Nos évaluations approfondies indiquent que les systèmes de pointe rencontrent des difficultés significatives dans cette tâche ; les modèles d'entreprise atteignant des taux de réussite de base dans la plage de 48 à 51 %, soulignant la complexité du problème. En proposant un benchmark basé sur l'exécution mettant l'accent sur la nature dynamique des bibliothèques de code, GitChameleon permet une compréhension plus claire de ce défi et aide à orienter le développement de méthodes de génération de code IA plus adaptables et fiables. Nous mettons le jeu de données et le code d'évaluation à disposition du public à l'adresse suivante : https://github.com/mrcabbage972/GitChameleonBenchmark.
Les modèles multi-modaux de base sont souvent conçus en assemblant plusieurs modèles uni-modaux pré-entraînés existants : par exemple, un classifieur d'images avec un modèle de texte. Ce processus d'assemblage est réalisé en entraînant un module de connexion visant à aligner les espaces de représentation de ces modèles uni-modaux vers un objectif multi-modal. Cependant, compte tenu de la complexité de l'entraînement de tels connecteurs sur des ensembles de données web à grande échelle, ainsi que du nombre toujours croissant de modèles uni-modaux pré-entraînés disponibles, la sélection des modèles uni-modaux et l'entraînement ultérieur du module de connexion deviennent exigeants en termes de calcul. Pour résoudre ce problème critique sous-étudié, nous proposons Hypernetwork Model Alignment (Hyma), une solution tout-en-un novatrice pour la sélection optimale de modèles uni-modaux et l'entraînement des connecteurs en exploitant les hyper-réseaux. Plus précisément, notre framework utilise la capacité de prédiction de paramètres d'un hyper-réseau pour obtenir des modules de connexion entraînés conjointement pour N fois M combinaisons de modèles uni-modaux. Dans nos expériences, Hyma réduit le coût de la recherche de la paire de modèles uni-modaux la plus performante par un facteur de 10, tout en correspondant au classement et à la performance des connecteurs entraînés obtenus via une recherche exhaustive sur une série de benchmarks multi-modaux diversifiés.
La distillation de connaissances, en tant que technique efficace de transfert de connaissances, a obtenu un succès remarquable dans des scénarios unimodaux. Cependant, dans des contextes intermodaux, les méthodes de distillation conventionnelles rencontrent des défis significatifs en raison des hétérogénéités des données et des statistiques, échouant à exploiter les connaissances a priori complémentaires intégrées dans les modèles enseignants intermodaux. Cet article révèle empiriquement deux problèmes critiques dans les approches existantes : la sélection du chemin de distillation et la dérive des connaissances. Pour surmonter ces limitations, nous proposons MST-Distill, un nouveau cadre de distillation de connaissances intermodales mettant en œuvre un mélange d'enseignants spécialisés. Notre approche utilise un ensemble diversifié de modèles enseignants dans des configurations à la fois intermodales et multimodales, intégré avec un réseau de routage au niveau des instances qui facilite une distillation adaptative et dynamique. Cette architecture transcende efficacement les contraintes des méthodes traditionnelles qui reposent sur des modèles enseignants monotones et statiques. De plus, nous introduisons un module de masquage plug-in, entraîné indépendamment pour supprimer les écarts spécifiques aux modalités et reconstruire les représentations des enseignants, atténuant ainsi la dérive des connaissances et améliorant l'efficacité du transfert. Des expériences approfondies sur cinq ensembles de données multimodales variés, couvrant les domaines visuel, audio et textuel, démontrent que notre méthode surpasse significativement les méthodes de distillation de connaissances intermodales de pointe existantes. Le code source est disponible à l'adresse https://github.com/Gray-OREO/MST-Distill.