Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Pangu Ultra, un modèle de langage de grande taille (LLM) doté de 135 milliards de paramètres et de modules Transformer denses, entraîné sur des unités de traitement neuronal (NPU) Ascend. Bien que le domaine des LLM ait connu des avancées sans précédent ces dernières années en repoussant les limites d'échelle et de capacités des modèles, l'entraînement d'un modèle à si grande échelle reste confronté à des défis d'optimisation et de système majeurs. Pour stabiliser le processus d'entraînement, nous proposons une normalisation en sandwich à échelle de profondeur, qui élimine efficacement les pics de perte lors de l'entraînement de modèles profonds. Nous pré-entraînons notre modèle sur 13,2 billions de tokens diversifiés et de haute qualité, et renforçons ses capacités de raisonnement lors d'une phase de post-entraînement. Pour réaliser un entraînement à si grande échelle de manière efficace, nous utilisons 8 192 NPU Ascend avec une série d'optimisations système. Les évaluations sur plusieurs benchmarks variés montrent que Pangu Ultra repousse significativement l'état de l'art des LLM denses tels que Llama 405B et Mistral Large 2, et obtient même des résultats compétitifs avec DeepSeek-R1, dont la structure de modèle sparse contient bien plus de paramètres. Notre exploration démontre que les NPU Ascend sont capables d'entraîner efficacement des modèles denses de plus de 100 milliards de paramètres. Notre modèle et notre système seront disponibles pour nos clients commerciaux.
Nous présentons Kimi-VL, un modèle vision-langage (VLM) open-source efficace basé sur une architecture Mixture-of-Experts (MoE) qui offre un raisonnement multimodal avancé, une compréhension de contexte étendu et de solides capacités d'agent - tout en activant seulement 2,8 milliards de paramètres dans son décodeur de langage (Kimi-VL-A3B). Kimi-VL démontre des performances remarquables dans des domaines exigeants : en tant que VLM généraliste, il excelle dans les tâches d'agent multi-tours (par exemple, OSWorld), rivalisant avec les modèles phares. De plus, il présente des capacités impressionnantes dans diverses tâches vision-langage complexes, incluant la compréhension d'images et de vidéos de niveau universitaire, la reconnaissance de texte (OCR), le raisonnement mathématique et la compréhension multi-images. Dans les évaluations comparatives, il rivalise efficacement avec des VLMs efficaces de pointe tels que GPT-4o-mini, Qwen2.5-VL-7B et Gemma-3-12B-IT, tout en surpassant GPT-4o dans plusieurs domaines clés. Kimi-VL fait également des progrès dans le traitement de contextes longs et la perception claire. Avec une fenêtre de contexte étendue à 128K, Kimi-VL peut traiter des entrées longues et variées, obtenant des scores impressionnants de 64,5 sur LongVideoBench et 35,1 sur MMLongBench-Doc. Son encodeur visuel en résolution native, MoonViT, lui permet de voir et de comprendre des entrées visuelles en ultra-haute résolution, atteignant 83,2 sur InfoVQA et 34,5 sur ScreenSpot-Pro, tout en maintenant un coût computationnel réduit pour les tâches courantes. Sur la base de Kimi-VL, nous introduisons une variante avancée de raisonnement long : Kimi-VL-Thinking. Développé grâce à un fine-tuning supervisé (SFT) en chaîne de pensée (CoT) étendue et à l'apprentissage par renforcement (RL), ce modèle présente de solides capacités de raisonnement à long terme. Il obtient des scores de 61,7 sur MMMU, 36,8 sur MathVision et 71,3 sur MathVista tout en conservant les 2,8 milliards de paramètres activés du LLM, établissant une nouvelle référence pour les modèles de pensée multimodale efficaces. Le code et les modèles sont accessibles publiquement à l'adresse https://github.com/MoonshotAI/Kimi-VL.
Les grands modèles de raisonnement comme DeepSeek-R1 marquent un changement fondamental dans la manière dont les LLM abordent les problèmes complexes. Au lieu de produire directement une réponse pour une entrée donnée, DeepSeek-R1 crée des chaînes de raisonnement détaillées en plusieurs étapes, semblant "réfléchir" à un problème avant de fournir une réponse. Ce processus de raisonnement est accessible publiquement à l'utilisateur, offrant d'innombrables opportunités pour étudier le comportement de raisonnement du modèle et ouvrant le champ de la Thoughtologie. En partant d'une taxonomie des éléments de base du raisonnement de DeepSeek-R1, nos analyses sur DeepSeek-R1 examinent l'impact et la contrôlabilité de la longueur des pensées, la gestion des contextes longs ou confus, les préoccupations culturelles et de sécurité, ainsi que le statut de DeepSeek-R1 par rapport aux phénomènes cognitifs, tels que le traitement du langage semblable à celui de l'homme et la modélisation du monde. Nos résultats dressent un tableau nuancé. Notamment, nous montrons que DeepSeek-R1 possède une "zone optimale" de raisonnement, où un temps d'inférence supplémentaire peut nuire à la performance du modèle. De plus, nous observons une tendance de DeepSeek-R1 à ruminer de manière persistante sur des formulations de problèmes déjà explorées, entravant ainsi toute exploration ultérieure. Nous notons également de fortes vulnérabilités en matière de sécurité de DeepSeek-R1 par rapport à sa contrepartie non raisonnante, ce qui peut également compromettre les LLM alignés sur la sécurité.
Les modèles de langage de grande taille (LLM) à mélange d'experts (MoE) souffrent de chemins d'experts fortement sous-optimaux - notre étude révèle que la sélection naïve des experts apprise lors du pré-entraînement laisse un écart de précision surprenant de 10 à 20 % à combler. Motivés par cette observation, nous développons une nouvelle classe de méthodes d'optimisation au moment du test pour ré-équilibrer ou "re-mélanger" les experts dans différentes couches de manière conjointe pour chaque échantillon de test. Comme la vérité terrain de l'échantillon de test est inconnue, nous proposons d'optimiser un objectif de substitution défini par les "voisins réussis" de l'échantillon provenant d'un ensemble de référence. Nous introduisons trois substituts et algorithmes basés sur la recherche de mode, la régression par noyau et la perte moyenne des échantillons/tâches de référence similaires. Pour réduire le coût de l'optimisation des chemins entiers, nous appliquons nos algorithmes uniquement aux poids de mélange des experts centraux dans les couches critiques, ce qui offre des performances similaires mais permet d'économiser des calculs significatifs. Cela conduit à "l'Optimisation Collaborative des Chemins par Experts Centraux dans les Couches Critiques (C3PO)". Nous appliquons C3PO à deux récents LLM MoE et l'évaluons sur six benchmarks largement utilisés. Il améliore systématiquement le modèle de base de 7 à 15 % en précision et surpasse les méthodes d'apprentissage au moment du test couramment utilisées, comme l'apprentissage en contexte et le réglage par prompt/préfixe, avec une large marge. De plus, C3PO permet aux LLM MoE avec 1 à 3 milliards de paramètres actifs de surpasser les LLM de 7 à 9 milliards de paramètres, améliorant ainsi les avantages de MoE en termes d'efficacité. Notre étude d'ablation approfondie apporte également de nouvelles perspectives sur l'amélioration au moment du test pour MoE.
Les récents progrès des modèles de diffusion ont considérablement fait avancer diverses tâches de génération d'images. Cependant, l'approche dominante actuelle reste centrée sur la construction de modèles spécifiques à une tâche, ce qui limite leur efficacité lorsqu'il s'agit de répondre à un large éventail de besoins différents. Bien que les modèles universels tentent de surmonter cette limitation, ils se heurtent à des défis critiques, notamment l'instruction généralisable des tâches, la distribution appropriée des tâches et la conception architecturale unifiée. Pour relever ces défis, nous proposons VisualCloze, un cadre universel de génération d'images, qui prend en charge une large gamme de tâches dans le domaine, la généralisation à des tâches non vues, l'unification inédite de multiples tâches et la génération inverse. Contrairement aux méthodes existantes qui s'appuient sur des instructions de tâches basées sur le langage, entraînant une ambiguïté des tâches et une faible généralisation, nous intégrons l'apprentissage visuel en contexte, permettant aux modèles d'identifier les tâches à partir de démonstrations visuelles. Par ailleurs, la sparsité inhérente des distributions de tâches visuelles entrave l'apprentissage de connaissances transférables entre les tâches. À cette fin, nous introduisons Graph200K, un ensemble de données structuré en graphe qui établit diverses tâches interreliées, augmentant la densité des tâches et les connaissances transférables. De plus, nous découvrons que notre formulation unifiée de génération d'images partage un objectif cohérent avec le remplissage d'images, nous permettant ainsi d'exploiter les forts a priori génératifs des modèles de remplissage pré-entraînés sans modifier les architectures.
L'avancée du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) a considérablement amélioré les capacités des grands modèles de langage (LLMs) et des grands modèles vision-langage (LVLMs). Cependant, un cadre d'évaluation rigoureux pour le raisonnement CoT appliqué aux vidéos fait encore défaut. Les benchmarks vidéo actuels ne parviennent pas à évaluer adéquatement le processus de raisonnement ni à identifier si les échecs proviennent de lacunes dans les capacités de perception ou de raisonnement. Par conséquent, nous introduisons VCR-Bench, un nouveau benchmark conçu pour évaluer de manière exhaustive les capacités de raisonnement CoT des LVLMs dans le contexte vidéo. VCR-Bench comprend 859 vidéos couvrant une variété de contenus et de durées, ainsi que 1 034 paires question-réponse de haute qualité. Chaque paire est annotée manuellement avec un raisonnement CoT étape par étape, où chaque étape est étiquetée pour indiquer son association avec les capacités de perception ou de raisonnement. De plus, nous concevons sept dimensions de tâches distinctes et proposons le score CoT pour évaluer l'ensemble du processus CoT en nous basant sur les raisonnements CoT étiquetés étape par étape. Des expériences approfondies sur VCR-Bench mettent en lumière des limitations substantielles des LVLMs actuels. Même le modèle le plus performant, o1, n'atteint qu'un score CoT de 62,8 % et une précision de 56,7 %, tandis que la plupart des modèles obtiennent des scores inférieurs à 40 %. Les expériences montrent que la plupart des modèles obtiennent des scores plus faibles sur les étapes de perception que sur celles de raisonnement, révélant un goulot d'étranglement clé des LVLMs dans le traitement des informations spatio-temporelles pour le raisonnement vidéo complexe. Une forte corrélation positive entre le score CoT et la précision confirme la validité de notre cadre d'évaluation et souligne le rôle crucial du raisonnement CoT dans la résolution de tâches de raisonnement vidéo complexes. Nous espérons que VCR-Bench servira de cadre d'évaluation standardisé et mettra en lumière les véritables lacunes dans les tâches de raisonnement vidéo complexe.
La capacité de Suivi d'Instructions (Instruction Following, IF) mesure à quel point les Modèles de Langage Multimodaux de Grande Taille (Multi-modal Large Language Models, MLLMs) comprennent exactement ce que les utilisateurs leur disent et s'ils exécutent correctement ces instructions. Les données d'entraînement existantes pour le suivi d'instructions multimodales sont rares, les benchmarks sont simples avec des instructions atomiques, et les stratégies d'évaluation sont imprécises pour les tâches exigeant des contraintes de sortie exactes. Pour remédier à cela, nous présentons MM-IFEngine, un pipeline efficace pour générer des paires image-instruction de haute qualité. Notre pipeline MM-IFEngine produit des données d'entraînement à grande échelle, diversifiées et de haute qualité, MM-IFInstruct-23k, adaptées au Réglage Fin Supervisé (Supervised Fine-Tuning, SFT) et étendues en MM-IFDPO-23k pour l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO). Nous introduisons également MM-IFEval, un benchmark de suivi d'instructions multimodal à la fois exigeant et diversifié, qui inclut (1) des contraintes au niveau de la composition pour les réponses de sortie et des contraintes au niveau de la perception liées aux images d'entrée, et (2) un pipeline d'évaluation complet intégrant à la fois une évaluation basée sur des règles et un modèle de jugement. Nous menons des expériences de SFT et DPO et démontrons que le réglage fin des MLLMs sur MM-IFInstruct-23k et MM-IFDPO-23k permet d'obtenir des gains significatifs sur divers benchmarks IF, tels que MM-IFEval (+10,2 %), MIA (+7,6 %) et IFEval (+12,3 %). Les données complètes et le code d'évaluation seront publiés sur https://github.com/SYuan03/MM-IFEngine.
La construction de modèles généralistes capables de percevoir efficacement le monde à travers des signaux multimodaux constitue un objectif de longue date. Les approches actuelles impliquent l'intégration de composants pré-entraînés séparément, comme la connexion d'encodeurs visuels à des modèles de langage (LLMs) suivie d'un entraînement multimodal. Bien que ces approches démontrent une remarquable efficacité en termes d'échantillons, la question de savoir si ces architectures à fusion tardive sont intrinsèquement supérieures reste ouverte. Dans ce travail, nous revisitons la conception architecturale des modèles multimodaux natifs (NMMs)—ceux entraînés dès le départ sur toutes les modalités—et menons une étude approfondie des lois d'échelle, couvrant 457 modèles entraînés avec différentes architectures et mélanges d'entraînement. Notre investigation révèle qu'il n'existe aucun avantage inhérent aux architectures à fusion tardive par rapport à celles à fusion précoce, qui ne reposent pas sur des encodeurs d'images. Au contraire, la fusion précoce montre de meilleures performances avec un nombre de paramètres réduit, est plus efficace à entraîner et plus facile à déployer. Motivés par les performances solides des architectures à fusion précoce, nous montrons que l'intégration de Mixture of Experts (MoEs) permet à des modèles d'apprendre des poids spécifiques à chaque modalité, améliorant ainsi significativement les performances.
La segmentation amodale de parties 3D – décomposer une forme 3D en parties complètes et sémantiquement significatives, même lorsqu'elles sont occluses – est une tâche complexe mais cruciale pour la création et la compréhension de contenus 3D. Les méthodes existantes de segmentation de parties 3D ne parviennent qu'à identifier les patches de surface visibles, limitant ainsi leur utilité. Inspirés par la segmentation amodale en 2D, nous introduisons cette nouvelle tâche dans le domaine 3D et proposons une approche pratique en deux étapes, abordant les défis clés que sont l'inférence de la géométrie 3D occluse, le maintien de la cohérence globale de la forme et la gestion de formes variées avec des données d'entraînement limitées. Premièrement, nous exploitons les techniques existantes de segmentation de parties 3D pour obtenir des segments de parties initiaux et incomplets. Deuxièmement, nous introduisons HoloPart, un nouveau modèle basé sur la diffusion, pour compléter ces segments en parties 3D complètes. HoloPart utilise une architecture spécialisée avec une attention locale pour capturer la géométrie fine des parties et une attention contextuelle globale pour assurer la cohérence de la forme globale. Nous introduisons de nouveaux benchmarks basés sur les ensembles de données ABO et PartObjaverse-Tiny et démontrons que HoloPart surpasse significativement les méthodes de complétion de formes de pointe. En intégrant HoloPart avec les techniques de segmentation existantes, nous obtenons des résultats prometteurs en segmentation amodale de parties 3D, ouvrant de nouvelles perspectives pour des applications dans l'édition de géométrie, l'animation et l'assignation de matériaux.
Dans cet article, nous présentons une méthode efficace pour améliorer le raisonnement visuel en utilisant un nombre significativement réduit d'échantillons d'entraînement, en s'appuyant uniquement sur l'auto-amélioration sans distillation de connaissances. Notre idée clé est que la difficulté des données d'entraînement lors du réglage fin par renforcement (RFT) est cruciale. Des échantillons suffisamment difficiles peuvent considérablement renforcer les capacités de raisonnement, même lorsque le jeu de données est petit. Bien que cela soit intuitif, le principal défi reste de quantifier avec précision la difficulté des échantillons pour permettre un filtrage efficace des données. À cette fin, nous proposons une nouvelle manière de réutiliser la recherche arborescente Monte Carlo (MCTS) pour y parvenir. En partant de nos 70 000 échantillons d'entraînement open-source soigneusement sélectionnés, nous introduisons une méthode de sélection basée sur MCTS qui quantifie la difficulté des échantillons en fonction du nombre d'itérations nécessaires aux modèles de langage visuel (VLMs) pour résoudre chaque problème. Ce raisonnement explicite étape par étape dans MCTS oblige le modèle à réfléchir plus longtemps et identifie mieux les échantillons qui sont véritablement difficiles. Nous filtrons et conservons 11 000 échantillons pour effectuer le RFT sur Qwen2.5-VL-7B-Instruct, aboutissant à notre modèle final, ThinkLite-VL. Les résultats d'évaluation sur huit benchmarks montrent que ThinkLite-VL améliore la performance moyenne de Qwen2.5-VL-7B-Instruct de 7 %, en utilisant seulement 11 000 échantillons d'entraînement sans distillation de connaissances. Cela surpasse significativement tous les VLMs de raisonnement existants de niveau 7B, ainsi que nos bases de comparaison qui utilisent des méthodes de sélection classiques telles que le filtrage basé sur la précision. Notamment, sur MathVista, ThinkLite-VL-7B atteint une précision SoTA de 75,1, surpassant Qwen2.5-VL-72B, GPT-4o et O1. Notre code, données et modèle sont disponibles à l'adresse https://github.com/si0wang/ThinkLite-VL.
Nous présentons MOSAIC, un nouveau cadre de simulation de réseau social open-source, où des agents de langage génératif prédisent les comportements des utilisateurs tels que l'appréciation, le partage et le signalement de contenu. Cette simulation combine des agents LLM avec un graphe social orienté pour analyser les comportements émergents de tromperie et mieux comprendre comment les utilisateurs déterminent la véracité du contenu social en ligne. En construisant des représentations d'utilisateurs à partir de personnalités diverses et granulaires, notre système permet des simulations multi-agents qui modélisent la diffusion de contenu et les dynamiques d'engagement à grande échelle. Dans ce cadre, nous évaluons trois stratégies différentes de modération de contenu avec une diffusion simulée de désinformation, et nous constatons qu'elles non seulement atténuent la propagation de contenu non factuel, mais augmentent également l'engagement des utilisateurs. De plus, nous analysons les trajectoires du contenu populaire dans nos simulations, et explorons si le raisonnement articulé des agents de simulation pour leurs interactions sociales correspond véritablement à leurs modèles collectifs d'engagement. Nous rendons notre logiciel de simulation open-source pour encourager des recherches supplémentaires en IA et en sciences sociales.
Malgré l'évolution actuelle des Modèles de Langage Multimodaux de Grande Taille (MLLMs), une limitation non négligeable persiste dans leur difficulté à ancrer visuellement le texte, en particulier dans les images riches en texte de documents. Les images de documents, telles que les formulaires scannés et les infographies, mettent en lumière des défis critiques en raison de leurs mises en page complexes et de leur contenu textuel. Cependant, les benchmarks actuels ne traitent pas pleinement ces défis, car ils se concentrent principalement sur l'ancrage visuel dans les images naturelles plutôt que dans les images de documents riches en texte. Ainsi, pour combler cette lacune, nous introduisons TRIG, une nouvelle tâche accompagnée d'un ensemble d'instructions nouvellement conçu pour évaluer et améliorer les capacités d'ancrage d'images riches en texte des MLLMs dans le cadre de questions-réponses sur des documents. Plus précisément, nous proposons un pipeline d'interaction OCR-LLM-humain pour créer 800 paires de questions-réponses annotées manuellement comme benchmark et un ensemble d'entraînement à grande échelle de 90$ de données synthétiques basées sur quatre ensembles de données diversifiés. Une évaluation approfondie de divers MLLMs sur notre benchmark proposé révèle des limitations substantielles dans leur capacité d'ancrage sur des images riches en texte. De plus, nous proposons deux méthodes TRIG simples et efficaces basées respectivement sur un réglage d'instructions général et un encastrement efficace plug-and-play. En affinant les MLLMs sur notre ensemble de données synthétiques, ils améliorent de manière prometteuse leurs capacités de raisonnement spatial et d'ancrage.
Les approches existantes pour contrôler les modèles de diffusion texte-image, bien que puissantes, ne permettent pas un contrôle explicite centré sur des objets 3D, tel qu'un contrôle précis de l'orientation des objets. Dans ce travail, nous abordons le problème du contrôle de l'orientation multi-objets dans les modèles de diffusion texte-image. Cela permet la génération de scènes multi-objets variées avec un contrôle précis de l'orientation pour chaque objet. L'idée clé est de conditionner le modèle de diffusion avec un ensemble de tokens de boussole sensibles à l'orientation, un pour chaque objet, ainsi que des tokens de texte. Un réseau encodeur léger prédit ces tokens de boussole en prenant l'orientation de l'objet comme entrée. Le modèle est entraîné sur un ensemble de données synthétiques de scènes générées de manière procédurale, chacune contenant un ou deux objets 3D sur un fond uni. Cependant, un entraînement direct de ce cadre entraîne un mauvais contrôle de l'orientation ainsi qu'un enchevêtrement entre les objets. Pour atténuer cela, nous intervenons dans le processus de génération et contraignons les cartes d'attention croisée de chaque token de boussole aux régions correspondant à son objet. Le modèle entraîné est capable d'atteindre un contrôle précis de l'orientation pour a) des objets complexes non vus pendant l'entraînement et b) des scènes multi-objets avec plus de deux objets, indiquant de fortes capacités de généralisation. De plus, lorsqu'il est combiné avec des méthodes de personnalisation, notre méthode contrôle précisément l'orientation du nouvel objet dans divers contextes. Notre méthode atteint un contrôle d'orientation et un alignement texte de pointe, quantifiés par des évaluations approfondies et une étude utilisateur.
Nous présentons Geo4D, une méthode permettant de réutiliser des modèles de diffusion vidéo pour la reconstruction 3D monoculaire de scènes dynamiques. En exploitant le fort a priori dynamique capturé par ces modèles vidéo, Geo4D peut être entraîné en utilisant uniquement des données synthétiques tout en généralisant efficacement à des données réelles de manière zero-shot. Geo4D prédit plusieurs modalités géométriques complémentaires, à savoir des cartes de points, de profondeur et de rayons. Il utilise un nouvel algorithme d'alignement multi-modal pour aligner et fusionner ces modalités, ainsi que plusieurs fenêtres glissantes, au moment de l'inférence, obtenant ainsi une reconstruction 4D robuste et précise de vidéos longues. Des expériences approfondies sur plusieurs benchmarks montrent que Geo4D surpasse significativement les méthodes d'estimation de profondeur vidéo de pointe, y compris des méthodes récentes comme MonST3R, qui sont également conçues pour gérer des scènes dynamiques.
Les détecteurs monoculaires 3D actuels sont limités par la diversité et l'échelle restreintes des ensembles de données du monde réel. Bien que l'augmentation des données soit certainement utile, il est particulièrement difficile de générer des données augmentées réalistes et conscientes de la scène pour des environnements extérieurs. La plupart des approches actuelles de génération de données synthétiques se concentrent sur l'apparence réaliste des objets grâce à des techniques de rendu améliorées. Cependant, nous montrons que la position et la manière dont les objets sont placés sont tout aussi cruciales pour entraîner des détecteurs monoculaires 3D efficaces. L'obstacle principal réside dans la détermination automatique des paramètres de placement réalistes des objets - incluant la position, les dimensions et l'alignement directionnel lors de l'introduction d'objets synthétiques dans des scènes réelles. Pour résoudre ce problème, nous introduisons MonoPlace3D, un système novateur qui prend en compte le contenu 3D de la scène pour créer des augmentations réalistes. Plus précisément, étant donné une scène de fond, MonoPlace3D apprend une distribution sur des boîtes englobantes 3D plausibles. Ensuite, nous rendons des objets réalistes et les plaçons selon les emplacements échantillonnés à partir de la distribution apprise. Notre évaluation approfondie sur deux ensembles de données standard, KITTI et NuScenes, démontre que MonoPlace3D améliore significativement la précision de plusieurs détecteurs monoculaires 3D existants tout en étant très efficace en termes de données.
Le suivi de tout point (TAP) dans une vidéo est un problème complexe en vision par ordinateur, avec de nombreuses applications démontrées en robotique, montage vidéo et reconstruction 3D. Les méthodes existantes pour le TAP reposent fortement sur des biais inductifs et des heuristiques spécifiques au suivi, limitant ainsi leur généralité et leur potentiel de mise à l'échelle. Pour relever ces défis, nous présentons TAPNext, une nouvelle approche qui reformule le TAP comme un décodage séquentiel de tokens masqués. Notre modèle est causal, effectue le suivi de manière purement en ligne et élimine les biais inductifs spécifiques au suivi. Cela permet à TAPNext de fonctionner avec une latence minimale et supprime la nécessité de fenêtrage temporel requise par de nombreux trackers de pointe existants. Malgré sa simplicité, TAPNext atteint une performance de suivi inédite parmi les trackers en ligne et hors ligne. Enfin, nous montrons que de nombreuses heuristiques de suivi largement utilisées émergent naturellement dans TAPNext grâce à un apprentissage de bout en bout.