papers.description
La performance des modèles de langage à grande échelle (LLMs) est fondamentalement déterminée par les informations contextuelles fournies lors de l'inférence. Cette étude introduit l'Ingénierie Contextuelle, une discipline formelle qui dépasse la simple conception de prompts pour englober l'optimisation systématique des charges d'information pour les LLMs. Nous présentons une taxonomie complète décomposant l'Ingénierie Contextuelle en ses composants fondamentaux et les implémentations sophistiquées qui les intègrent dans des systèmes intelligents. Nous examinons d'abord les composants fondamentaux : la récupération et la génération de contexte, le traitement du contexte et la gestion du contexte. Nous explorons ensuite comment ces composants sont intégrés architecturalement pour créer des implémentations de systèmes sophistiquées : la génération augmentée par récupération (RAG), les systèmes de mémoire et le raisonnement intégré d'outils, ainsi que les systèmes multi-agents. À travers cette analyse systématique de plus de 1300 articles de recherche, notre étude établit non seulement une feuille de route technique pour le domaine, mais révèle également un déficit critique de recherche : une asymétrie fondamentale existe entre les capacités des modèles. Alors que les modèles actuels, augmentés par une ingénierie contextuelle avancée, démontrent une remarquable maîtrise dans la compréhension de contextes complexes, ils présentent des limitations prononcées dans la génération de productions longues et tout aussi sophistiquées. Combler ce déficit est une priorité déterminante pour les recherches futures. En fin de compte, cette étude fournit un cadre unifié pour les chercheurs et les ingénieurs qui font progresser l'IA contextuelle.
Les avancées récentes dans les modèles vision-langage (VLMs) ont amélioré les performances en augmentant le nombre de tokens visuels, qui sont souvent nettement plus longs que les tokens textuels. Cependant, nous observons que la plupart des scénarios réels ne nécessitent pas un nombre aussi élevé de tokens visuels. Bien que les performances chutent significativement dans un petit sous-ensemble de tâches liées à la reconnaissance optique de caractères (OCR), les modèles restent précis dans la plupart des autres tâches générales de question-réponse visuelle (VQA) avec seulement 1/4 de la résolution. Par conséquent, nous proposons de traiter dynamiquement les échantillons distincts avec différentes résolutions, et présentons un nouveau paradigme pour la compression des tokens visuels, nommé VisionThink. Il commence par une image sous-échantillonnée et décide intelligemment si elle est suffisante pour résoudre le problème. Sinon, le modèle peut produire un token spécial pour demander l'image en haute résolution. Comparé aux méthodes Efficient VLM existantes qui compressent les tokens en utilisant des ratios ou des seuils fixes, VisionThink décide de manière autonome s'il faut compresser les tokens au cas par cas. En conséquence, il démontre une forte capacité de compréhension visuelle fine sur les tâches liées à l'OCR, tout en économisant un nombre substantiel de tokens visuels sur des tâches plus simples. Nous adoptons l'apprentissage par renforcement et proposons la stratégie LLM-as-Judge pour appliquer avec succès l'apprentissage par renforcement aux tâches générales de VQA. De plus, nous concevons soigneusement une fonction de récompense et un mécanisme de pénalité pour atteindre un ratio d'appel de redimensionnement d'image stable et raisonnable. Des expériences approfondies démontrent la supériorité, l'efficacité et l'efficience de notre méthode. Notre code est disponible à l'adresse https://github.com/dvlab-research/VisionThink.
Nous présentons pi^3, un réseau de neurones à propagation avant qui propose une approche novatrice pour la reconstruction de la géométrie visuelle, rompant avec la dépendance à une vue de référence fixe conventionnelle. Les méthodes précédentes ancraient souvent leurs reconstructions à un point de vue désigné, un biais inductif pouvant entraîner des instabilités et des échecs si la référence est sous-optimale. En revanche, pi^3 utilise une architecture entièrement permutation-équivariante pour prédire des poses de caméra invariantes par affinité et des cartes de points locaux invariantes à l'échelle, sans aucun cadre de référence. Cette conception rend notre modèle intrinsèquement robuste à l'ordre des entrées et hautement scalable. Ces avantages permettent à notre approche simple et sans biais d'atteindre des performances de pointe sur une large gamme de tâches, incluant l'estimation de la pose de la caméra, l'estimation de la profondeur monoculaire/vidéo, et la reconstruction dense de cartes de points. Le code et les modèles sont disponibles publiquement.
Cet article aborde le défi de la synthèse de vues haute fidélité d'humains à partir de vidéos en vue éparse comme entrée. Les méthodes précédentes résolvent le problème de l'observation insuffisante en exploitant des modèles de diffusion 4D pour générer des vidéos sous de nouveaux points de vue. Cependant, les vidéos générées par ces modèles manquent souvent de cohérence spatio-temporelle, ce qui dégrade la qualité de la synthèse de vues. Dans cet article, nous proposons un nouveau processus de débruîtage itératif glissant pour améliorer la cohérence spatio-temporelle du modèle de diffusion 4D. Plus précisément, nous définissons une grille latente dans laquelle chaque latent encode l'image, la pose de la caméra et la pose humaine pour un certain point de vue et un instant donné, puis nous débruîtons alternativement la grille latente selon les dimensions spatiales et temporelles avec une fenêtre glissante, et enfin nous décodons les vidéos aux points de vue cibles à partir des latents débruîtés correspondants. Grâce à l'itération glissante, l'information circule suffisamment à travers la grille latente, permettant au modèle de diffusion d'obtenir un champ réceptif large et ainsi d'améliorer la cohérence 4D de la sortie, tout en rendant la consommation de mémoire GPU abordable. Les expériences sur les ensembles de données DNA-Rendering et ActorsHQ démontrent que notre méthode est capable de synthétiser des vidéos de nouvelles vues de haute qualité et cohérentes, surpassant significativement les approches existantes. Consultez notre page de projet pour des démonstrations interactives et des résultats vidéo : https://diffuman4d.github.io/.
La généralisation en longueur, c'est-à-dire la capacité à résoudre des problèmes impliquant des séquences plus longues que celles observées lors de l'entraînement, représente un défi central pour les modèles de langage de grande taille (LLM) basés sur les Transformers. Bien que les études existantes se soient principalement concentrées sur des approches basées sur les données pour les opérations arithmétiques et les tâches de manipulation symbolique, ces approches tendent à être spécifiques à une tâche avec une performance globale limitée. Pour rechercher une solution plus générale, cet article se concentre sur un cas plus large de problèmes de raisonnement qui sont calculables, c'est-à-dire des problèmes que des algorithmes peuvent résoudre et qui peuvent donc être résolus par la machine de Turing. Dans cette perspective, cet article propose l'apprentissage par imitation de la machine de Turing (TAIL) pour améliorer la capacité de généralisation en longueur des LLM. TAIL synthétise des données de chaînes de pensée (CoT) qui imitent le processus d'exécution d'une machine de Turing par des programmes informatiques, ce qui étend linéairement les étapes de raisonnement en états atomiques pour atténuer l'apprentissage par raccourci et introduit un mécanisme explicite de récupération de mémoire pour réduire les difficultés d'accès dynamique et à longue portée aux données dans les opérations élémentaires. Pour valider la fiabilité et l'universalité de TAIL, nous construisons un ensemble de données synthétiques complexe couvrant 8 classes d'algorithmes et 18 tâches. Sans fioritures, TAIL améliore significativement la capacité de généralisation en longueur ainsi que la performance de Qwen2.5-7B sur diverses tâches en utilisant uniquement des données synthétiques, surpassant les méthodes précédentes et DeepSeek-R1. Les résultats expérimentaux révèlent que les concepts clés de la machine de Turing, plutôt que les styles de pensée, sont indispensables à TAIL pour la généralisation en longueur, à travers lesquels le modèle exhibe des comportements de lecture et d'écriture cohérents avec les propriétés de la machine de Turing dans ses couches d'attention. Ce travail ouvre une voie prometteuse pour les futures recherches sur l'apprentissage du raisonnement des LLM à partir de données synthétiques.
La génération de légendes contrôlable est essentielle pour un alignement multimodal précis et le suivi des instructions, mais les modèles existants manquent souvent de contrôle fin et de protocoles d'évaluation fiables. Pour combler cette lacune, nous présentons le projet AnyCap, une solution intégrée englobant modèle, jeu de données et évaluation. Nous introduisons AnyCapModel (ACM), un framework léger et plug-and-play qui améliore la contrôlabilité des modèles de base existants pour la génération de légendes omni-modales sans nécessiter de réentraînement du modèle de base. ACM réutilise les légendes originales des modèles de base tout en intégrant les instructions utilisateur et les caractéristiques modales pour générer des légendes améliorées. Pour pallier la pénurie de données dans la génération de légendes multimodales contrôlables, nous avons construit AnyCapDataset (ACD), couvrant trois modalités, 28 types d'instructions utilisateur et 300 000 entrées de données de haute qualité. Nous proposons également AnyCapEval, un nouveau benchmark qui fournit des métriques d'évaluation plus fiables pour la génération de légendes contrôlables en découplant la précision du contenu et la fidélité stylistique. ACM améliore notablement la qualité des légendes sur un ensemble diversifié de modèles de base selon AnyCapEval. En particulier, ACM-8B augmente les scores de contenu de GPT-4o de 45 % et les scores stylistiques de 12 %, tout en obtenant des gains substantiels sur des benchmarks largement utilisés tels que MIA-Bench et VidCapBench.
L'adaptation à faible rang (Low-Rank Adaptation, LoRA) est devenue une norme largement adoptée pour le réglage fin efficace en paramètres des grands modèles de langage (LLMs), réduisant significativement les besoins en mémoire et en calcul. Cependant, des défis persistent, notamment la recherche de stratégies d'initialisation optimales ou la mitigation de la surparamétrisation dans la factorisation matricielle à faible rang. Dans ce travail, nous proposons une nouvelle approche qui aborde simultanément ces deux défis dans un cadre unifié. Notre méthode traite un ensemble de matrices LoRA de rang fixe comme une variété lisse. En considérant les adaptateurs comme des éléments sur cette variété, la surparamétrisation est éliminée, tandis que la détermination de la direction de la décroissance la plus rapide de la perte le long de la variété fournit l'initialisation. Une attention particulière est portée à l'obtention d'une implémentation numériquement stable et efficace en calcul de notre méthode, en utilisant les meilleures pratiques de l'algèbre linéaire numérique et de l'optimisation riemannienne. Les résultats expérimentaux sur les architectures de LLM et de modèles de diffusion démontrent que RiemannLoRA améliore de manière constante à la fois la vitesse de convergence et les performances finales par rapport à LoRA standard et à ses modifications de pointe.
Nous présentons Voxtral Mini et Voxtral Small, deux modèles de chat audio multimodaux. Voxtral est entraîné pour comprendre à la fois l'audio parlé et les documents textuels, atteignant des performances de pointe sur une variété de benchmarks audio, tout en conservant de solides capacités textuelles. Voxtral Small surpasse plusieurs modèles propriétaires, tout en étant suffisamment compact pour fonctionner localement. Une fenêtre de contexte de 32K permet au modèle de traiter des fichiers audio d'une durée allant jusqu'à 40 minutes ainsi que des conversations multi-tours prolongées. Nous contribuons également à trois benchmarks pour évaluer les modèles de compréhension de la parole sur des connaissances et des faits divers. Les deux modèles Voxtral sont publiés sous licence Apache 2.0.
Le raisonnement spatial en 3D est central dans la cognition humaine et indispensable pour des tâches incarnées telles que la navigation et la manipulation. Cependant, les modèles vision-langage (VLMs) de pointe rencontrent fréquemment des difficultés avec des tâches aussi simples que d'anticiper l'apparence d'une scène après un mouvement égocentrique : ils perçoivent des images en 2D mais manquent d'un modèle interne des dynamiques en 3D. Nous proposons donc MindJourney, un cadre de mise à l'échelle au moment du test qui confère à un VLM cette capacité manquante en le couplant à un modèle de monde contrôlable basé sur la diffusion vidéo. Le VLM esquisse itérativement une trajectoire de caméra concise, tandis que le modèle de monde synthétise la vue correspondante à chaque étape. Le VLM raisonne ensuite sur cette preuve multi-vue recueillie lors de l'exploration interactive. Sans aucun ajustement fin, notre MindJourney obtient une amélioration moyenne de plus de 8 % sur le benchmark représentatif de raisonnement spatial SAT, montrant que l'association de VLMs avec des modèles de monde pour la mise à l'échelle au moment du test offre une voie simple et plug-and-play vers un raisonnement 3D robuste. Par ailleurs, notre méthode améliore également l'inférence au moment du test des VLMs entraînés par apprentissage par renforcement, ce qui démontre le potentiel de notre méthode utilisant des modèles de monde pour la mise à l'échelle au moment du test.
Produire des animations faciales expressives à partir d'images statiques est une tâche complexe. Les méthodes antérieures reposant sur des priors géométriques explicites (par exemple, des points de repère faciaux ou des modèles 3DMM) souffrent souvent d'artefacts dans les scénarios de réenactment croisé et peinent à capturer des émotions subtiles. De plus, les approches existantes ne prennent pas en charge l'animation multi-personnages, car les caractéristiques motrices de différents individus interfèrent fréquemment entre elles, compliquant la tâche. Pour relever ces défis, nous proposons FantasyPortrait, un framework basé sur un transformateur de diffusion capable de générer des animations de haute fidélité et riches en émotions pour des scénarios mono- et multi-personnages. Notre méthode introduit une stratégie d'apprentissage augmentée par les expressions qui utilise des représentations implicites pour capturer la dynamique faciale indépendante de l'identité, améliorant ainsi la capacité du modèle à restituer des émotions fines. Pour le contrôle multi-personnages, nous concevons un mécanisme d'attention croisée masquée qui garantit une génération d'expressions indépendante mais coordonnée, empêchant efficacement les interférences de caractéristiques. Pour faire avancer la recherche dans ce domaine, nous proposons le dataset Multi-Expr et ExprBench, des ensembles de données et des benchmarks spécifiquement conçus pour l'entraînement et l'évaluation des animations de portraits multi-personnages. Des expériences approfondies démontrent que FantasyPortrait surpasse significativement les méthodes de pointe à la fois en termes de métriques quantitatives et d'évaluations qualitatives, excellant particulièrement dans les contextes difficiles de réenactment croisé et multi-personnages. Notre page de projet est disponible à l'adresse suivante : https://fantasy-amap.github.io/fantasy-portrait/.
Nous présentons AbGen, le premier benchmark conçu pour évaluer les capacités des modèles de langage (LLM) à concevoir des études d'ablation pour la recherche scientifique. AbGen se compose de 1 500 exemples annotés par des experts, issus de 807 articles en traitement automatique du langage naturel (NLP). Dans ce benchmark, les LLM sont chargés de générer des conceptions détaillées d'études d'ablation pour un module ou un processus spécifié, en se basant sur le contexte de recherche donné. Notre évaluation des LLM leaders, tels que DeepSeek-R1-0528 et o4-mini, met en évidence un écart de performance significatif entre ces modèles et les experts humains en termes d'importance, de fidélité et de robustesse des conceptions d'études d'ablation. De plus, nous démontrons que les méthodes d'évaluation automatisées actuelles ne sont pas fiables pour notre tâche, car elles présentent une divergence significative par rapport à l'évaluation humaine. Pour mieux étudier cela, nous développons AbGen-Eval, un benchmark de méta-évaluation conçu pour évaluer la fiabilité des systèmes d'évaluation automatisés couramment utilisés dans la mesure de la performance des LLM sur notre tâche. Nous examinons divers systèmes LLM-as-Judge sur AbGen-Eval, fournissant des insights pour les recherches futures visant à développer des systèmes d'évaluation basés sur les LLM plus efficaces et fiables pour des tâches scientifiques complexes.
Les autoencodeurs parcimonieux (Sparse Autoencoders, SAE) se sont imposés comme des outils puissants pour interpréter les représentations internes des modèles de langage de grande taille (Large Language Models, LLM). Cependant, ils échouent souvent à capturer des caractéristiques spécifiques à un domaine qui ne sont pas prédominantes dans leurs corpus d’entraînement. Cet article propose une approche d’apprentissage résiduel pour remédier à cette cécité aux caractéristiques sans nécessiter un réentraînement complet. Nous suggérons d’entraîner un SAE secondaire spécifiquement pour modéliser l’erreur de reconstruction d’un SAE préentraîné sur des textes spécifiques à un domaine, capturant ainsi efficacement les caractéristiques manquées par le modèle principal. En additionnant les sorties des deux modèles lors de l’inférence, nous démontrons des améliorations significatives à la fois en termes d’entropie croisée des LLM et de variance expliquée dans plusieurs domaines spécialisés. Nos expériences montrent que cette méthode intègre efficacement de nouvelles connaissances spécifiques à un domaine dans des SAE existants tout en maintenant leurs performances sur des tâches générales. Cette approche permet aux chercheurs d’améliorer sélectivement l’interprétabilité des SAE pour des domaines d’intérêt spécifiques, ouvrant de nouvelles perspectives pour une interprétabilité mécaniste ciblée des LLM.
Les modèles de langage (LMs) sont difficiles à adapter à de nouvelles distributions de données par un simple ajustement fin. Cela est dû à la rigidité de leurs tokenizers sous-mots, qui restent généralement inchangés lors de l'adaptation. Cette inflexibilité conduit souvent à une tokenisation inefficace, provoquant une sur-fragmentation des domaines hors distribution, des langues non vues ou des scripts. Dans ce travail, nous développons des LMs au niveau des octets avec des tokenizers apprenables pour rendre la tokenisation adaptative. Nos modèles incluent un sous-module qui apprend à prédire les limites entre les séquences d'octets d'entrée, les encodant en segments de longueur variable. Les méthodes existantes sans tokenizer entraînent ce prédicteur de limites en utilisant une perte auxiliaire qui impose un taux de compression fixe sur le corpus d'entraînement, introduisant ainsi une nouvelle forme de rigidité. Nous proposons FLEXITOKENS, un objectif d'entraînement simplifié qui permet une flexibilité significativement plus grande lors de l'adaptation. En évaluant sur plusieurs benchmarks multilingues, des tâches morphologiquement diversifiées et des domaines variés, nous démontrons que FLEXITOKENS réduit systématiquement la sur-fragmentation des tokens et améliore jusqu'à 10 % les performances sur les tâches en aval par rapport aux tokenizers sous-mots et autres tokenizers basés sur le gradient. Le code et les données de nos expériences seront disponibles à l'adresse suivante : https://github.com/owos/flexitokens.
Nous présentons Einstein Fields, une représentation neuronale conçue pour compresser des simulations numériques de relativité générale en quatre dimensions, qui sont intensives en calcul, en des poids de réseaux de neurones implicites compacts. En modélisant la métrique, qui est le champ tensoriel central de la relativité générale, Einstein Fields permettent de dériver des quantités physiques via la différenciation automatique. Cependant, contrairement aux champs neuronaux conventionnels (par exemple, les champs de distance signée, d'occupation ou de radiance), Einstein Fields sont des Champs Tensoriels Neuronaux avec la différence clé que, lors de l'encodage de la géométrie spatio-temporelle de la relativité générale en représentations de champs neuronaux, les dynamiques émergent naturellement comme un sous-produit. Einstein Fields montrent un potentiel remarquable, incluant la modélisation continue de l'espace-temps 4D, l'agnosticisme vis-à-vis des maillages, l'efficacité de stockage, la précision des dérivées et la facilité d'utilisation. Nous abordons ces défis à travers plusieurs bancs d'essai canoniques de la relativité générale et publions une bibliothèque open source basée sur JAX, ouvrant la voie à des approches plus scalables et expressives en relativité numérique. Le code est disponible à l'adresse suivante : https://github.com/AndreiB137/EinFields.
L'interpolation d'images vidéo (Video Frame Interpolation, VFI) vise à prédire l'image intermédiaire I_n (nous utilisons n pour désigner le temps dans les vidéos afin d'éviter une surcharge de notation avec l'instant t dans les modèles de diffusion) à partir de deux images consécutives voisines I_0 et I_1. Les approches récentes appliquent des modèles de diffusion (à la fois basés sur des images et sur des vidéos) à cette tâche et obtiennent des performances solides. Cependant, les modèles de diffusion basés sur des images sont incapables d'extraire des informations temporelles et sont relativement inefficaces par rapport aux méthodes non basées sur la diffusion. Les modèles de diffusion basés sur des vidéos peuvent extraire des informations temporelles, mais ils sont trop volumineux en termes d'échelle d'entraînement, de taille de modèle et de temps d'inférence. Pour atténuer ces problèmes, nous proposons le modèle de diffusion Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), un modèle de diffusion basé sur des vidéos efficace. En extrayant des informations temporelles riches des entrées vidéo grâce à notre gating 3D par ondelettes et à un autoencodeur temporellement conscient, notre méthode obtient une amélioration de 20 % du FID sur les ensembles de données les plus difficiles par rapport aux modèles de diffusion basés sur des images récents. Par ailleurs, grâce à la présence d'informations temporelles riches, notre méthode atteint des performances solides tout en ayant trois fois moins de paramètres. Cette réduction de paramètres entraîne une accélération de 2,3 fois. En intégrant un guidage par flux optique, notre méthode nécessite 9000 fois moins de données d'entraînement et atteint plus de 20 fois moins de paramètres que les modèles de diffusion basés sur des vidéos. Les codes et les résultats sont disponibles sur notre page de projet : https://zonglinl.github.io/tlbvfi_page.
Les récents progrès dans les modèles de langage multimodal de grande envergure (MLLMs) ont débloqué de puissantes capacités de raisonnement intermodal, mais ont également soulevé de nouvelles préoccupations en matière de sécurité, en particulier face à des entrées multimodales adverses. Pour améliorer la sécurité des MLLMs lors de l'inférence, nous introduisons une technologie d'intervention modulaire et adaptative en temps d'inférence, AutoSteer, sans nécessiter de réglage fin du modèle sous-jacent. AutoSteer intègre trois composants principaux : (1) un nouveau Score de Conscience de Sécurité (SAS) qui identifie automatiquement les distinctions les plus pertinentes pour la sécurité parmi les couches internes du modèle ; (2) un sondeur de sécurité adaptatif entraîné à estimer la probabilité de sorties toxiques à partir des représentations intermédiaires ; et (3) une Tête de Refus légère qui intervient sélectivement pour moduler la génération lorsque des risques de sécurité sont détectés. Les expériences sur LLaVA-OV et Chameleon à travers divers benchmarks critiques en matière de sécurité démontrent qu'AutoSteer réduit significativement le Taux de Réussite des Attaques (ASR) pour les menaces textuelles, visuelles et intermodales, tout en maintenant les capacités générales. Ces résultats positionnent AutoSteer comme un cadre pratique, interprétable et efficace pour un déploiement plus sûr des systèmes d'IA multimodaux.