Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de raisonnement (LRMs) possèdent déjà une capacité latente pour les chaînes de raisonnement longues et complexes. Des travaux antérieurs ont montré que l'apprentissage par renforcement (RL) basé sur les résultats peut susciter de manière incidente des comportements de raisonnement avancés tels que l'autocorrection, le retour en arrière et les phénomènes de vérification, souvent qualifiés de « moment eurêka » du modèle. Cependant, le moment d'apparition et la cohérence de ces comportements émergents restent imprévisibles et incontrôlables, limitant ainsi l'évolutivité et la fiabilité des capacités de raisonnement des LRMs. Pour surmonter ces limitations, nous dépassons la dépendance aux incitations et aux « moments eurêka » fortuits. À la place, nous alignons explicitement les modèles sur trois méta-capacités : la déduction, l'induction et l'abduction, en utilisant des tâches auto-vérifiables générées automatiquement. Notre pipeline en trois étapes — alignement individuel, fusion de l'espace des paramètres et apprentissage par renforcement spécifique au domaine — améliore les performances de plus de 10 % par rapport aux modèles de référence ajustés par instruction. De plus, l'apprentissage par renforcement spécifique au domaine à partir du point de contrôle aligné entraîne un gain moyen supplémentaire de 2 % dans le plafond de performance sur des benchmarks en mathématiques, codage et sciences, démontrant ainsi que l'alignement explicite des méta-capacités offre une base évolutive et fiable pour le raisonnement. Le code est disponible à l'adresse suivante : https://github.com/zhiyuanhubj/Meta-Ability-Alignment
Il est communément admis que la mise à l'échelle des modèles de langage devrait engendrer un coût significatif en espace ou en temps, en augmentant les paramètres (mise à l'échelle des paramètres) ou les tokens de sortie (mise à l'échelle au moment de l'inférence). Nous introduisons un troisième paradigme de mise à l'échelle, plus efficace en termes d'inférence : l'augmentation du calcul parallèle du modèle pendant l'entraînement et l'inférence. Nous appliquons P transformations diverses et apprenables à l'entrée, exécutons les passes avant du modèle en parallèle, et agrégons dynamiquement les P sorties. Cette méthode, appelée mise à l'échelle parallèle (ParScale), met à l'échelle le calcul parallèle en réutilisant les paramètres existants et peut être appliquée à n'importe quelle structure de modèle, procédure d'optimisation, données ou tâche. Nous proposons théoriquement une nouvelle loi de mise à l'échelle et la validons par un pré-entraînement à grande échelle, qui montre qu'un modèle avec P flux parallèles est similaire à une mise à l'échelle des paramètres par O(log P) tout en présentant une efficacité d'inférence supérieure. Par exemple, ParScale peut utiliser jusqu'à 22 fois moins d'augmentation de mémoire et 6 fois moins d'augmentation de latence par rapport à la mise à l'échelle des paramètres pour atteindre la même amélioration de performance. Il peut également recycler un modèle pré-entraîné standard en un modèle mis à l'échelle parallèlement par un post-entraînement sur un petit nombre de tokens, réduisant ainsi davantage le budget d'entraînement. La nouvelle loi de mise à l'échelle que nous avons découverte facilite potentiellement le déploiement de modèles plus puissants dans des scénarios à ressources limitées, et offre une perspective alternative sur le rôle du calcul dans l'apprentissage automatique.
Les modèles de langage de grande envergure (LLMs) ont démontré des capacités remarquables, où l'optimisation de leurs invites d'entrée joue un rôle crucial pour maximiser leurs performances. Cependant, bien que les invites des LLMs comprennent à la fois les invites système indépendantes de la tâche et les invites utilisateur spécifiques à la tâche, les travaux existants sur l'optimisation des invites se sont concentrés sur les invites utilisateur liées à des requêtes ou tâches individuelles, et ont largement négligé l'invite système qui, une fois optimisée, est applicable à travers différentes tâches et domaines. Motivés par cela, nous introduisons le problème novateur de l'optimisation hiérarchique des invites système, dont l'objectif est de concevoir des invites système robustes face à diverses invites utilisateur et transférables à des tâches inédites. Pour résoudre ce problème, nous proposons ensuite un cadre d'apprentissage méta, qui méta-apprend l'invite système en l'optimisant sur diverses invites utilisateur à travers plusieurs jeux de données, tout en mettant à jour les invites utilisateur de manière itérative pour assurer une synergie entre elles. Nous menons des expériences sur 14 jeux de données inédits couvrant 5 domaines différents, sur lesquels nous montrons que notre approche produit des invites système qui généralisent efficacement à des invites utilisateur variées. De plus, nos résultats révèlent que l'invite système optimisée permet une adaptation rapide même à des tâches inédites, nécessitant moins d'étapes d'optimisation pour les invites utilisateur au moment du test tout en obtenant de meilleures performances.
Alors que les humains peuvent exploiter de manière flexible la cognition visuelle interactive pour résoudre des problèmes complexes, permettre aux Grands Modèles Vision-Langage (LVLMs) d'apprendre des comportements adaptatifs similaires avec des outils visuels reste un défi. Un obstacle majeur est l'absence actuelle d'infrastructure standardisée, ce qui entrave l'intégration d'outils divers, la génération de données d'interaction riches et l'entraînement efficace d'agents robustes. Pour combler ces lacunes, nous présentons OpenThinkIMG, le premier framework open-source et complet de bout en bout pour les LVLMs augmentés d'outils. Il propose des interfaces standardisées pour les outils visuels, une génération évolutive de trajectoires pour l'initialisation des politiques, et un environnement d'entraînement flexible. De plus, considérant que le fine-tuning supervisé (SFT) sur des démonstrations statiques offre une généralisation limitée des politiques pour l'invocation dynamique d'outils, nous proposons un nouveau framework d'apprentissage par renforcement (RL), V-ToolRL, pour entraîner les LVLMs à apprendre des politiques adaptatives pour invoquer des outils visuels externes. V-ToolRL permet aux LVLMs de découvrir de manière autonome les stratégies optimales d'utilisation des outils en optimisant directement la réussite des tâches grâce aux retours des interactions avec les outils. Nous validons empiriquement V-ToolRL sur des tâches complexes de raisonnement sur des graphiques. Notre agent entraîné par RL, basé sur un Qwen2-VL-2B, surpasse significativement son homologue initialisé par SFT (+28,83 points) et dépasse les bases de référence supervisées pour l'apprentissage d'outils comme Taco et CogCom en moyenne de +12,7 points. Notamment, il surpasse également des modèles propriétaires de premier plan comme GPT-4.1 de +8,68 points de précision. Nous espérons qu'OpenThinkIMG pourra servir de framework fondateur pour faire progresser le raisonnement visuel dynamique augmenté d'outils, aidant la communauté à développer des agents IA capables de véritablement "penser avec des images".
Motivés par les lois d'échelle en modélisation du langage qui démontrent comment la perte en test évolue selon une loi de puissance avec la taille des modèles et des jeux de données, nous constatons que des lois similaires existent dans la modélisation des préférences. Nous proposons la Modélisation des Préférences Mondiales (WorldPM) pour mettre en avant ce potentiel d'échelle, où les Préférences Mondiales incarnent une représentation unifiée des préférences humaines. Dans cet article, nous collectons des données de préférences provenant de forums publics couvrant diverses communautés d'utilisateurs, et menons un entraînement extensif sur des données à l'échelle de 15M à travers des modèles allant de 1,5B à 72B paramètres. Nous observons des tendances distinctes selon les différentes métriques d'évaluation : (1) Les métriques adverses (capacité à identifier des caractéristiques trompeuses) s'améliorent systématiquement avec l'augmentation des données d'entraînement et de la taille du modèle de base ; (2) Les métriques objectives (connaissances factuelles avec des réponses bien définies) montrent un comportement émergent dans les modèles de langage plus grands, soulignant le potentiel d'échelle de WorldPM ; (3) Les métriques subjectives (préférences subjectives issues d'un nombre limité d'humains ou d'IA) ne présentent pas de tendances d'échelle. Des expériences supplémentaires valident l'efficacité de WorldPM comme base pour l'affinage des préférences. À travers des évaluations sur 7 benchmarks comprenant 20 sous-tâches, nous constatons que WorldPM améliore globalement la performance de généralisation sur des jeux de données de préférences humaines de tailles variées (7K, 100K et 800K échantillons), avec des gains de performance dépassant 5% sur de nombreuses sous-tâches clés. En intégrant WorldPM dans notre pipeline interne de RLHF, nous observons des améliorations significatives sur les ensembles d'évaluation internes et publics, avec des gains notables de 4% à 8% dans nos évaluations internes.
La longue chaîne de raisonnement (CoT) est un élément essentiel pour une utilisation efficace des grands modèles de langage modernes, mais notre compréhension des stratégies de raisonnement sous-jacentes à ces capacités reste limitée. Bien que certains travaux antérieurs aient tenté de catégoriser les CoT en utilisant des types de stratégies prédéfinis, ces approches sont contraintes par l'intuition humaine et ne parviennent pas à capturer toute la diversité des comportements des modèles. Dans ce travail, nous introduisons l'Encyclopédie CoT, un cadre d'analyse et de pilotage du raisonnement des modèles basé sur une approche ascendante. Notre méthode extrait automatiquement des critères de raisonnement variés à partir des CoT générés par les modèles, les intègre dans un espace sémantique, les regroupe en catégories représentatives et dérive des grilles contrastées pour interpréter les comportements de raisonnement. Les évaluations humaines montrent que ce cadre produit des analyses plus interprétables et complètes que les méthodes existantes. De plus, nous démontrons que cette compréhension permet des gains de performance : nous pouvons prédire quelle stratégie un modèle est susceptible d'utiliser et le guider vers des alternatives plus efficaces. Enfin, nous fournissons des insights pratiques, tels que le fait que le format des données d'entraînement (par exemple, libre vs. à choix multiples) a un impact bien plus important sur le comportement de raisonnement que le domaine des données, soulignant l'importance d'une conception de modèles consciente du format.
Les progrès de l'IA sont freinés par la qualité de l'évaluation, et les modèles puissants de type LLM-comme-Juge se sont avérés être une solution clé. Une capacité de jugement améliorée est rendue possible par un raisonnement en chaîne de pensée plus robuste, ce qui motive la nécessité de trouver les meilleures méthodes pour entraîner de tels modèles à penser. Dans ce travail, nous présentons J1, une approche d'apprentissage par renforcement pour entraîner ces modèles. Notre méthode transforme à la fois les invites vérifiables et non vérifiables en tâches de jugement avec des récompenses vérifiables qui incitent à la réflexion et atténuent les biais de jugement. En particulier, notre approche surpasse tous les autres modèles existants de 8B ou 70B lorsqu'elle est entraînée à ces tailles, y compris les modèles distillés à partir de DeepSeek-R1. J1 surpasse également o1-mini, et même R1 sur certains benchmarks, malgré l'entraînement d'un modèle plus petit. Nous fournissons une analyse et des ablations comparant les modèles Pairwise-J1 et Pointwise-J1, les méthodes d'entraînement hors ligne et en ligne, les stratégies de récompense, les invites de départ, ainsi que les variations dans la longueur et le contenu de la pensée. Nous constatons que nos modèles font de meilleurs jugements en apprenant à définir des critères d'évaluation, à comparer avec des réponses de référence auto-générées, et à réévaluer la justesse des réponses du modèle.
L'apprentissage par imitation robotique a évolué de la résolution de tâches statiques à la gestion de scénarios d'interaction dynamiques, mais les tests et l'évaluation restent coûteux et complexes en raison de la nécessité d'une interaction en temps réel avec des environnements dynamiques. Nous proposons EnerVerse-AC (EVAC), un modèle de monde conditionnel par actions qui génère des observations visuelles futures en fonction des actions prédites par un agent, permettant une inférence robotique réaliste et contrôlable. S'appuyant sur des architectures antérieures, EVAC introduit un mécanisme de conditionnement par actions multi-niveaux et un encodage de carte de rayons pour la génération dynamique d'images multi-vues, tout en enrichissant les données d'entraînement avec des trajectoires d'échec variées pour améliorer la généralisation. En tant que moteur de données et évaluateur, EVAC enrichit les trajectoires collectées par l'homme en ensembles de données diversifiés et génère des observations vidéo réalistes conditionnées par les actions pour tester les politiques, éliminant ainsi le besoin de robots physiques ou de simulations complexes. Cette approche réduit considérablement les coûts tout en maintenant une haute fidélité dans l'évaluation de la manipulation robotique. Des expériences approfondies valident l'efficacité de notre méthode. Le code, les points de contrôle et les ensembles de données sont disponibles à l'adresse <https://annaj2178.github.io/EnerverseAC.github.io>.
La tokenisation visuelle existante isole l'optimisation des tokenizers visuels de l'entraînement en aval, supposant implicitement que les tokens visuels peuvent généraliser efficacement à travers diverses tâches, telles que la génération d'images et la réponse à des questions visuelles. Le tokenizer visuel optimisé pour la reconstruction de bas niveau est agnostique aux tâches en aval nécessitant des représentations et sémantiques variées. Ce paradigme découplé introduit un désalignement critique : la perte lors de la tokenisation visuelle peut constituer un goulot d'étranglement pour les représentations des tâches cibles. Par exemple, des erreurs dans la tokenisation du texte d'une image donnée entraînent de mauvais résultats lors de sa reconnaissance ou de sa génération. Pour résoudre ce problème, nous proposons ETT, une approche de réglage de tokenizer visuel de bout en bout qui permet une optimisation conjointe entre la tokenisation visuelle et les tâches autorégressives cibles. Contrairement aux modèles autorégressifs précédents qui utilisent uniquement des indices discrets provenant d'un tokenizer visuel figé, ETT exploite les embeddings visuels du codebook du tokenizer et optimise les tokenizers visuels de bout en bout avec des objectifs de reconstruction et de description. ETT peut être intégré de manière transparente dans les pipelines d'entraînement existants avec des modifications architecturales minimales. Notre ETT est simple à implémenter et à intégrer, sans nécessiter d'ajuster les codebooks ou les architectures des grands modèles de langage utilisés. Des expériences approfondies démontrent que notre approche de réglage de tokenizer visuel de bout en bout permet des gains de performance significatifs, c'est-à-dire de 2 à 6 % pour les tâches de compréhension multimodale et de génération visuelle par rapport aux bases de référence utilisant des tokenizers figés, tout en préservant la capacité de reconstruction d'origine. Nous espérons que cette méthode très simple et efficace pourra renforcer les modèles fondamentaux multimodaux au-delà de la génération et de la compréhension d'images.
Les récentes avancées dans l'IA créative ont permis la synthèse d'images et de vidéos haute fidélité conditionnées par des instructions linguistiques. S'appuyant sur ces développements, les modèles de diffusion texte-vidéo ont évolué en modèles de monde incarné (EWMs, Embodied World Models) capables de générer des scènes physiquement plausibles à partir de commandes linguistiques, établissant ainsi un pont entre la vision et l'action dans les applications d'IA incarnée. Ce travail aborde le défi critique de l'évaluation des EWMs au-delà des métriques perceptuelles générales, afin de garantir la génération de comportements physiquement fondés et cohérents avec l'action. Nous proposons l'Embodied World Model Benchmark (EWMBench), un cadre dédié conçu pour évaluer les EWMs selon trois aspects clés : la cohérence visuelle des scènes, la correction des mouvements et l'alignement sémantique. Notre approche s'appuie sur un ensemble de données soigneusement sélectionné, couvrant des scènes et des motifs de mouvement variés, ainsi qu'une boîte à outils d'évaluation multidimensionnelle complète, pour évaluer et comparer les modèles candidats. Le benchmark proposé identifie non seulement les limites des modèles existants de génération vidéo à répondre aux exigences uniques des tâches incarnées, mais offre également des insights précieux pour guider les avancées futures dans ce domaine. L'ensemble de données et les outils d'évaluation sont disponibles publiquement à l'adresse suivante : https://github.com/AgibotTech/EWMBench.
Nous présentons MLE-Dojo, un framework de type Gym pour l'apprentissage par renforcement systématique, l'évaluation et l'amélioration d'agents autonomes basés sur des grands modèles de langage (LLM) dans des workflows itératifs d'ingénierie de l'apprentissage automatique (MLE). Contrairement aux benchmarks existants qui reposent principalement sur des ensembles de données statiques ou des évaluations à tentative unique, MLE-Dojo fournit un environnement interactif permettant aux agents d'expérimenter, de déboguer et d'affiner leurs solutions de manière itérative grâce à des boucles de rétroaction structurées. Basé sur plus de 200 défis réels de Kaggle, MLE-Dojo couvre une variété de tâches MLE ouvertes et soigneusement sélectionnées pour refléter des scénarios d'ingénierie réalistes tels que le traitement des données, la recherche d'architecture, le réglage des hyperparamètres et le débogage de code. Son environnement entièrement exécutable permet un entraînement complet des agents via un ajustement fin supervisé et un apprentissage par renforcement, facilitant l'expérimentation itérative, l'échantillonnage réaliste de données et la vérification en temps réel des résultats. Des évaluations approfondies de huit LLM de pointe révèlent que si les modèles actuels réalisent des améliorations itératives significatives, ils présentent encore des limitations importantes dans la génération autonome de solutions à long terme et la résolution efficace d'erreurs complexes. De plus, l'architecture flexible et extensible de MLE-Dojo intègre de manière transparente diverses sources de données, outils et protocoles d'évaluation, permettant de manière unique l'ajustement des agents basés sur des modèles et favorisant l'interopérabilité, l'évolutivité et la reproductibilité. Nous ouvrons notre framework et nos benchmarks en open source pour encourager l'innovation communautaire vers la prochaine génération d'agents MLE.
Cet article présente Unilogit, une nouvelle méthode d'auto-distillation pour le désapprentissage automatique dans les grands modèles de langage. Unilogit relève le défi d'oublier sélectivement des informations spécifiques tout en préservant l'utilité globale du modèle, une tâche cruciale pour se conformer aux réglementations sur la protection des données comme le RGPD. Contrairement aux méthodes antérieures qui reposent sur des hyperparamètres statiques ou sur les sorties initiales du modèle, Unilogit ajuste dynamiquement les logits cibles pour atteindre une probabilité uniforme pour le token cible, en exploitant les sorties actuelles du modèle pour des cibles d'auto-distillation plus précises. Cette approche élimine non seulement le besoin d'hyperparamètres supplémentaires, mais améliore également la capacité du modèle à approcher les cibles idéales. Des expériences approfondies sur des benchmarks publics et un jeu de données interne dans le domaine du commerce électronique démontrent la performance supérieure d'Unilogit dans l'équilibrage des objectifs d'oubli et de rétention, surpassant les méthodes de pointe telles que NPO et UnDIAL. Notre analyse révèle en outre la robustesse d'Unilogit dans divers scénarios, mettant en évidence son applicabilité pratique et son efficacité pour réaliser un désapprentissage automatique efficace.
Les graphiques vectoriels évolutifs (SVG) sont très appréciés par les concepteurs en raison de leur indépendance à la résolution et de leur structure de couches bien organisée. Bien que les méthodes existantes de génération de texte à vecteur (T2V) puissent créer des SVG à partir de prompts textuels, elles négligent souvent un besoin important dans les applications pratiques : la personnalisation du style, qui est essentielle pour produire une collection de graphiques vectoriels avec une apparence visuelle cohérente et une esthétique harmonieuse. L'extension des méthodes T2V existantes pour la personnalisation du style présente certains défis. Les modèles T2V basés sur l'optimisation peuvent utiliser les a priori des modèles de texte à image (T2I) pour la personnalisation, mais peinent à maintenir une régularité structurelle. D'autre part, les modèles T2V à propagation directe peuvent assurer une régularité structurelle, mais rencontrent des difficultés à dissocier le contenu et le style en raison de données d'entraînement SVG limitées. Pour relever ces défis, nous proposons un nouveau pipeline de personnalisation de style en deux étapes pour la génération de SVG, tirant parti des avantages des modèles T2V à propagation directe et des a priori d'image T2I. Dans la première étape, nous entraînons un modèle de diffusion T2V avec une représentation au niveau des tracés pour garantir la régularité structurelle des SVG tout en préservant des capacités expressives variées. Dans la deuxième étape, nous personnalisons le modèle de diffusion T2V à différents styles en distillant des modèles T2I personnalisés. En intégrant ces techniques, notre pipeline peut générer des SVG de haute qualité et diversifiés dans des styles personnalisés à partir de prompts textuels de manière efficace et à propagation directe. L'efficacité de notre méthode a été validée par des expériences approfondies. La page du projet est disponible à l'adresse https://customsvg.github.io.
Ce travail présente Prior Depth Anything, un cadre qui combine des informations métriques incomplètes mais précises en matière de mesure de profondeur avec des structures géométriques relatives mais complètes en prédiction de profondeur, générant ainsi des cartes de profondeur métriques denses, détaillées et précises pour n'importe quelle scène. Pour ce faire, nous concevons un pipeline allant du grossier au fin pour intégrer progressivement ces deux sources de profondeur complémentaires. Tout d'abord, nous introduisons un alignement métrique au niveau des pixels et une pondération basée sur la distance pour pré-remplir divers a priori métriques en utilisant explicitement la prédiction de profondeur. Cela réduit efficacement l'écart de domaine entre les motifs a priori, améliorant ainsi la généralisation dans divers scénarios. Ensuite, nous développons un modèle de monocular depth estimation (MDE) conditionné pour affiner le bruit inhérent aux a priori de profondeur. En se basant sur l'a priori pré-rempli normalisé et la prédiction, le modèle fusionne implicitement les deux sources de profondeur complémentaires. Notre modèle démontre une impressionnante généralisation zero-shot dans les tâches de complétion de profondeur, de super-résolution et de réparation sur 7 ensembles de données du monde réel, égalant voire surpassant les méthodes spécifiques précédentes. Plus important encore, il performe bien sur des a priori mixtes inédits et difficiles, et permet des améliorations au moment du test en changeant de modèles de prédiction, offrant ainsi un compromis flexible entre précision et efficacité tout en évoluant avec les avancées des modèles MDE.
Le pointage constitue un mécanisme fondamental et intuitif pour ancrer le langage dans des contextes visuels, avec des applications allant de la robotique aux technologies d'assistance et aux systèmes d'IA interactifs. Bien que les modèles multimodaux récents aient commencé à intégrer des capacités de pointage, les benchmarks existants se concentrent généralement uniquement sur des tâches de localisation référentielle d'objets. Nous présentons PointArena, une plateforme complète pour évaluer le pointage multimodal dans divers scénarios de raisonnement. PointArena se compose de trois éléments : (1) Point-Bench, un ensemble de données soigneusement sélectionné contenant environ 1 000 tâches de pointage réparties en cinq catégories de raisonnement ; (2) Point-Battle, une arène interactive basée sur le web facilitant des comparaisons par paires de modèles en aveugle, qui a déjà recueilli plus de 4 500 votes anonymes ; et (3) Point-Act, un système de manipulation robotique en monde réel permettant aux utilisateurs d'évaluer directement les capacités de pointage des modèles multimodaux dans des contextes pratiques. Nous avons mené des évaluations approfondies des modèles multimodaux open-source et propriétaires les plus avancés. Les résultats indiquent que Molmo-72B surpasse systématiquement les autres modèles, bien que les modèles propriétaires démontrent de plus en plus des performances comparables. De plus, nous constatons qu'un entraînement supervisé ciblant spécifiquement les tâches de pointage améliore significativement les performances des modèles. À travers notre pipeline d'évaluation multi-étapes, nous observons également de fortes corrélations, soulignant le rôle crucial des capacités de pointage précises pour permettre aux modèles multimodaux de relier efficacement le raisonnement abstrait à des actions concrètes dans le monde réel. Page du projet : https://pointarena.github.io/
Cette étude distingue de manière critique les Agents IA et l'IA Agentique, en proposant une taxonomie conceptuelle structurée, une cartographie des applications et une analyse des défis pour clarifier leurs philosophies de conception et capacités divergentes. Nous commençons par décrire la stratégie de recherche et les définitions fondamentales, caractérisant les Agents IA comme des systèmes modulaires pilotés par des modèles de langage de grande taille (LLMs) et des modèles d'image de grande taille (LIMs) pour une automatisation spécifique à des tâches étroites. L'IA générative est positionnée comme un précurseur, avec les Agents IA progressant grâce à l'intégration d'outils, à l'ingénierie des prompts et à l'amélioration du raisonnement. En revanche, les systèmes d'IA Agentique représentent un changement paradigmatique marqué par la collaboration multi-agents, la décomposition dynamique des tâches, la mémoire persistante et l'autonomie orchestrée. À travers une évaluation séquentielle de l'évolution architecturale, des mécanismes opérationnels, des styles d'interaction et des niveaux d'autonomie, nous présentons une analyse comparative des deux paradigmes. Les domaines d'application tels que le support client, la planification et la synthèse de données sont contrastés avec les déploiements de l'IA Agentique dans l'automatisation de la recherche, la coordination robotique et le support décisionnel médical. Nous examinons en outre les défis uniques de chaque paradigme, notamment les hallucinations, la fragilité, les comportements émergents et les échecs de coordination, et proposons des solutions ciblées telles que les boucles ReAct, RAG, les couches d'orchestration et la modélisation causale. Ce travail vise à fournir une feuille de route définitive pour le développement de systèmes robustes, évolutifs et explicables basés sur des Agents IA et l'IA Agentique. >Agents IA, Piloté par des agents, Modèles vision-langage, Système de support décisionnel d'IA Agentique, Applications de l'IA Agentique
Cet article ne décrit pas une nouvelle méthode ; il propose plutôt une exploration approfondie d'un espace de conception important mais peu étudié, lié aux récentes avancées dans la synthèse texte-image — plus précisément, la fusion profonde des grands modèles de langage (LLMs) et des transformateurs de diffusion (DiTs) pour la génération multimodale. Les études précédentes se sont principalement concentrées sur la performance globale du système plutôt que sur des comparaisons détaillées avec des méthodes alternatives, et les détails clés de conception ainsi que les protocoles d'entraînement étaient souvent non divulgués. Ces lacanes créent une incertitude quant au véritable potentiel de cette approche. Pour combler ces manques, nous menons une étude empirique sur la génération texte-image, en effectuant des comparaisons contrôlées avec des références établies, en analysant des choix de conception cruciaux, et en fournissant une recette claire et reproductible pour l'entraînement à grande échelle. Nous espérons que ce travail offre des points de données significatifs et des lignes directrices pratiques pour les futures recherches dans le domaine de la génération multimodale.
Les modèles de langage pré-entraînés (LLMs) sont souvent limités par leurs schémas de tokenisation fixes, entraînant des inefficacités et des limitations de performance, en particulier pour les applications multilingues ou spécialisées. Ce verrouillage du tokeniseur présente des défis significatifs. Les méthodes standard pour y remédier nécessitent souvent des ressources computationnelles prohibitives. Bien que le remplacement du tokeniseur avec une initialisation heuristique vise à réduire cette charge, les méthodes existantes requièrent souvent un réglage fin exhaustif des résidus et peuvent ne pas préserver pleinement les nuances sémantiques ou résoudre adéquatement les inefficacités de compression sous-jacentes. Notre framework introduit deux innovations : premièrement, Tokenadapt, une méthode de transplantation de tokeniseur agnostique au modèle, et deuxièmement, un apprentissage de pré-tokenisation novateur pour les Supertokens multi-mots afin d'améliorer la compression et de réduire la fragmentation. Tokenadapt initialise de nouveaux embeddings de tokens uniques via une heuristique hybride qui combine deux méthodes : une estimation locale basée sur la décomposition en sous-mots utilisant l'ancien tokeniseur, et une estimation globale exploitant les k tokens sémantiquement les plus similaires du vocabulaire original. Cette méthodologie vise à préserver la sémantique tout en minimisant significativement les besoins de réentraînement. Les investigations empiriques valident les deux contributions : l'heuristique de transplantation initialise avec succès des tokens uniques, surpassant nettement les bases de référence conventionnelles et les méthodes sophistiquées incluant Transtokenizer et ReTok, tandis que nos Supertokens obtiennent des gains de compression notables. Nos résultats de perplexité en zero-shot démontrent que l'initialisation hybride de TokenAdapt produit systématiquement des ratios de perplexité plus bas comparés à ceux de ReTok et TransTokenizer, sur différents modèles de base et nouveaux tokeniseurs cibles. TokenAdapt a généralement réduit le ratio de perplexité global de manière significative par rapport à ReTok, offrant au moins une amélioration de 2 fois dans ces scores agrégés.
La segmentation de scènes chirurgicales est cruciale dans la chirurgie assistée par ordinateur et joue un rôle essentiel dans l'amélioration de la qualité des interventions et des résultats pour les patients. Récemment, la segmentation chirurgicale référencée émerge, grâce à son avantage de fournir aux chirurgiens une expérience interactive pour segmenter l'objet cible. Cependant, les méthodes existantes sont limitées par une faible efficacité et un suivi à court terme, ce qui entrave leur applicabilité dans des scénarios chirurgicaux complexes du monde réel. Dans cet article, nous présentons ReSurgSAM2, un cadre de segmentation chirurgicale référencée en deux étapes qui exploite le modèle Segment Anything Model 2 pour effectuer une détection ciblée basée sur le texte, suivie d'un suivi avec une identification fiable de l'image initiale et une mémoire à long terme pilotée par la diversité. Pour l'étape de détection, nous proposons un Mamba spatio-temporel cross-modal pour générer des résultats de détection et de segmentation précis. Sur la base de ces résultats, notre stratégie de sélection d'image initiale crédible identifie l'image fiable pour le suivi ultérieur. Une fois l'image initiale sélectionnée, notre méthode passe à l'étape de suivi, où elle intègre un mécanisme de mémoire piloté par la diversité qui maintient une banque de mémoire crédible et diversifiée, assurant un suivi à long terme cohérent. Des expériences approfondies démontrent que ReSurgSAM2 réalise des améliorations substantielles en termes de précision et d'efficacité par rapport aux méthodes existantes, fonctionnant en temps réel à 61,2 FPS. Notre code et nos jeux de données seront disponibles à l'adresse https://github.com/jinlab-imvr/ReSurgSAM2.
Malgré des avancées significatives dans la modélisation des a priori d'image via les modèles de diffusion, l'édition d'images en 3D reste un défi, en partie parce que l'objet n'est spécifié que par une seule image. Pour relever ce défi, nous proposons 3D-Fixup, un nouveau cadre pour l'édition d'images 2D guidée par des a priori 3D appris. Ce cadre prend en charge des situations d'édition complexes telles que la translation d'objets et la rotation en 3D. Pour y parvenir, nous exploitons une approche basée sur l'apprentissage qui tire parti de la puissance générative des modèles de diffusion. Comme les données vidéo encodent naturellement les dynamiques physiques du monde réel, nous nous tournons vers les données vidéo pour générer des paires de données d'entraînement, c'est-à-dire une image source et une image cible. Plutôt que de s'appuyer uniquement sur un seul modèle entraîné pour inférer les transformations entre les images source et cible, nous intégrons un guidage 3D provenant d'un modèle Image-to-3D, qui facilite cette tâche complexe en projetant explicitement les informations 2D dans l'espace 3D. Nous concevons un pipeline de génération de données pour garantir un guidage 3D de haute qualité tout au long de l'entraînement. Les résultats montrent qu'en intégrant ces a priori 3D, 3D-Fixup prend efficacement en charge des modifications complexes et cohérentes en 3D, produisant des résultats de haute qualité et faisant progresser l'application des modèles de diffusion dans la manipulation réaliste d'images. Le code est disponible à l'adresse suivante : https://3dfixup.github.io/
L'émergence des modèles hybrides quantiques-classiques d'apprentissage automatique (HQML) ouvre de nouveaux horizons en matière d'intelligence computationnelle, mais leur complexité fondamentale conduit fréquemment à un comportement de boîte noire qui compromet la transparence et la fiabilité de leur application. Bien que l'IA explicable (XAI) pour les systèmes quantiques en soit encore à ses balbutiements, un important déficit de recherche est évident en ce qui concerne les approches robustes d'explicabilité globale et locale conçues pour les architectures HQML qui utilisent un encodage quantifié des caractéristiques suivi d'un apprentissage classique. Ce déficit est au cœur de ce travail, qui introduit QuXAI, un cadre basé sur Q-MEDLEY, un outil d'explication pour interpréter l'importance des caractéristiques dans ces systèmes hybrides. Notre modèle implique la création de modèles HQML intégrant des cartes de caractéristiques quantiques, l'utilisation de Q-MEDLEY, qui combine des inférences basées sur les caractéristiques, préserve l'étape de transformation quantique et visualise les attributions résultantes. Nos résultats montrent que Q-MEDLEY met en évidence les aspects classiques influents dans les modèles HQML, tout en isolant leur bruit, et rivalise favorablement avec les techniques XAI établies dans des contextes de validation classiques. Les études d'ablation révèlent de manière plus significative les vertus de la structure composite utilisée dans Q-MEDLEY. Les implications de ce travail sont d'une importance cruciale, car il offre une voie pour améliorer l'interprétabilité et la fiabilité des modèles HQML, favorisant ainsi une plus grande confiance et permettant un usage plus sûr et plus responsable de la technologie d'IA améliorée par le quantique.
La détection universelle d'anomalies visuelles vise à identifier des anomalies dans des domaines visuels nouveaux ou inconnus sans ajustement supplémentaire, ce qui est crucial dans des scénarios ouverts. Des études récentes ont démontré que les modèles vision-langage pré-entraînés comme CLIP présentent une forte généralisation avec seulement zéro ou quelques images normales. Cependant, les méthodes existantes peinent à concevoir des modèles de prompts, des interactions complexes entre tokens, ou nécessitent un ajustement supplémentaire, ce qui limite leur flexibilité. Dans ce travail, nous présentons une méthode simple mais efficace appelée AdaptCLIP, basée sur deux idées clés. Premièrement, les représentations visuelles et textuelles adaptatives doivent être apprises alternativement plutôt que conjointement. Deuxièmement, l'apprentissage comparatif entre la requête et le prompt d'image normale doit intégrer à la fois des caractéristiques contextuelles et des caractéristiques résiduelles alignées, plutôt que de reposer uniquement sur les caractéristiques résiduelles. AdaptCLIP traite les modèles CLIP comme un service de base, en ajoutant seulement trois adaptateurs simples : un adaptateur visuel, un adaptateur textuel et un adaptateur prompt-requête, à ses entrées ou sorties. AdaptCLIP supporte la généralisation zero-/few-shot à travers différents domaines et possède une approche sans entraînement sur les domaines cibles une fois entraîné sur un ensemble de données de base. AdaptCLIP atteint des performances de pointe sur 12 benchmarks de détection d'anomalies provenant de domaines industriels et médicaux, surpassant significativement les méthodes concurrentes existantes. Nous mettrons le code et le modèle d'AdaptCLIP à disposition sur https://github.com/gaobb/AdaptCLIP.
La mise à l'échelle de l'apprentissage robotique nécessite des ensembles de données vastes et diversifiés. Cependant, le paradigme dominant de collecte de données – la téléopération humaine – reste coûteux et limité par l'effort manuel et l'accès physique aux robots. Nous présentons Real2Render2Real (R2R2R), une approche novatrice pour générer des données d'entraînement robotique sans recourir à la simulation de la dynamique des objets ou à la téléopération de matériel robotique. L'entrée consiste en une numérisation capturée par smartphone d'un ou plusieurs objets et une seule vidéo d'une démonstration humaine. R2R2R génère des milliers de démonstrations à haute fidélité visuelle, indépendantes du robot, en reconstruisant la géométrie 3D détaillée et l'apparence des objets, et en suivant le mouvement des objets à 6 degrés de liberté (6-DoF). R2R2R utilise le *3D Gaussian Splatting* (3DGS) pour permettre une génération flexible d'assets et une synthèse de trajectoires pour les objets rigides et articulés, convertissant ces représentations en maillages pour maintenir la compatibilité avec des moteurs de rendu évolutifs comme IsaacLab, mais sans modélisation de collision. Les données de démonstration robotique générées par R2R2R s'intègrent directement avec des modèles qui opèrent sur les états proprioceptifs du robot et les observations visuelles, tels que les modèles vision-langue-action (VLA) et les politiques d'apprentissage par imitation. Les expériences physiques suggèrent que les modèles entraînés sur des données R2R2R issues d'une seule démonstration humaine peuvent égaler les performances des modèles entraînés sur 150 démonstrations de téléopération humaine. Page du projet : https://real2render2real.com
Les réseaux de reconstruction non supervisés utilisant des transformeurs à auto-attention ont atteint des performances de pointe pour la détection d'anomalies multi-classes (unifiée) avec un seul modèle. Cependant, ces modèles de reconstruction à auto-attention opèrent principalement sur les caractéristiques cibles, ce qui peut entraîner une reconstruction parfaite à la fois des caractéristiques normales et des anomalies en raison d'une forte cohérence avec le contexte, conduisant à un échec dans la détection des anomalies. De plus, ces modèles produisent souvent une segmentation inexacte des anomalies en raison de la reconstruction dans un espace latent à faible résolution spatiale. Pour permettre aux modèles de reconstruction de bénéficier d'une grande efficacité tout en améliorant leur généralisation pour la détection unifiée d'anomalies, nous proposons une méthode simple mais efficace qui reconstruit les caractéristiques normales et restaure les caractéristiques d'anomalies avec un seul **Prompt d'Image Normale** (OneNIP). Contrairement aux travaux précédents, OneNIP permet pour la première fois de reconstruire ou de restaurer des anomalies avec un seul prompt d'image normale, améliorant ainsi significativement les performances de détection unifiée d'anomalies. En outre, nous proposons un raffineur supervisé qui régresse les erreurs de reconstruction en utilisant à la fois des images normales réelles et des images anormales synthétisées, ce qui améliore considérablement la segmentation des anomalies au niveau des pixels. OneNIP surpasse les méthodes précédentes sur trois benchmarks industriels de détection d'anomalies : MVTec, BTAD et VisA. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/gaobb/OneNIP.
La segmentation d'anomalies visuelles en zero-shot et few-shot repose sur des modèles vision-langage puissants qui détectent des anomalies inédites à l'aide de prompts textuels conçus manuellement. Cependant, les représentations visuelles sont intrinsèquement indépendantes du langage. Dans cet article, nous explorons le potentiel d'un modèle de fondation purement visuel comme alternative aux modèles vision-langage largement utilisés pour la segmentation universelle d'anomalies visuelles. Nous présentons un nouveau paradigme qui unifie la segmentation d'anomalies dans la segmentation de changements. Ce paradigme nous permet d'exploiter des paires d'images synthétiques à grande échelle, mettant en avant des changements au niveau des objets et des régions locales, dérivées de jeux de données d'images existants, indépendants des jeux de données d'anomalies cibles. Nous proposons un cadre de méta-apprentissage à un prompt pour la Segmentation Universelle d'Anomalies (MetaUAS) qui est entraîné sur ce jeu de données synthétique et généralise ensuite bien pour segmenter toute nouvelle anomalie visuelle inédite dans le monde réel. Pour gérer les variations géométriques entre les images de prompt et de requête, nous proposons un module d'alignement de caractéristiques doux qui relie la perception de changement d'images appariées à la segmentation sémantique d'image unique. Ce travail est le premier à réaliser la segmentation universelle d'anomalies en utilisant un modèle purement visuel sans s'appuyer sur des jeux de données spécialisés de détection d'anomalies et des modèles vision-langage pré-entraînés. Notre méthode segmente efficacement et de manière efficiente toute anomalie avec un seul prompt d'image normale et bénéficie d'un apprentissage sans entraînement et sans guidance linguistique. Notre MetaUAS surpasse significativement les méthodes précédentes de segmentation d'anomalies en zero-shot, few-shot, et même en full-shot. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/gaobb/MetaUAS.
La détection d'anomalies est une tâche pratique et complexe en raison de la rareté des échantillons d'anomalies dans l'inspection industrielle. Certaines méthodes existantes de détection d'anomalies abordent ce problème en synthétisant des anomalies avec du bruit ou des données externes. Cependant, il existe toujours un écart sémantique important entre les anomalies synthétiques et celles du monde réel, ce qui entraîne une performance médiocre en détection d'anomalies. Pour résoudre ce problème, nous proposons une méthode de génération pilotée par les anomalies (AnoGen) en few-shot, qui guide le modèle de diffusion pour générer des anomalies réalistes et diversifiées avec seulement quelques anomalies réelles, améliorant ainsi l'entraînement des modèles de détection d'anomalies. Plus précisément, notre travail est divisé en trois étapes. Dans la première étape, nous apprenons la distribution des anomalies à partir de quelques anomalies réelles données et injectons les connaissances acquises dans un embedding. Dans la deuxième étape, nous utilisons cet embedding et des boîtes englobantes données pour guider le modèle de diffusion afin de générer des anomalies réalistes et diversifiées sur des objets (ou textures) spécifiques. Dans la dernière étape, nous proposons une méthode de détection d'anomalies faiblement supervisée pour entraîner un modèle plus performant avec les anomalies générées. Notre méthode s'appuie sur DRAEM et DesTSeg comme modèle de base et réalise des expériences sur le jeu de données couramment utilisé pour la détection d'anomalies industrielles, MVTec. Les expériences montrent que nos anomalies générées améliorent efficacement les performances du modèle à la fois pour les tâches de classification et de segmentation des anomalies, par exemple, DRAEM et DesTSeg ont respectivement obtenu une amélioration de 5,8 % et 1,5 % sur la métrique AU-PR pour la tâche de segmentation. Le code et les données anormales générées sont disponibles à l'adresse https://github.com/gaobb/AnoGen.
Les vidéos humaines offrent une méthode évolutive pour entraîner des politiques de manipulation robotique, mais elles manquent des étiquettes d'action nécessaires aux algorithmes d'apprentissage par imitation standard. Les approches inter-embodiment existantes tentent de mapper le mouvement humain aux actions robotiques, mais échouent souvent lorsque les embodiments diffèrent significativement. Nous proposons X-Sim, un cadre réel-simulé-réel qui utilise le mouvement des objets comme signal dense et transférable pour l'apprentissage de politiques robotiques. X-Sim commence par reconstruire une simulation photoréaliste à partir d'une vidéo humaine RGBD et suit les trajectoires des objets pour définir des récompenses centrées sur les objets. Ces récompenses sont utilisées pour entraîner une politique d'apprentissage par renforcement (RL) en simulation. La politique apprise est ensuite distillée en une politique de diffusion conditionnée par l'image à l'aide de déploiements synthétiques rendus avec des points de vue et des éclairages variés. Pour transférer dans le monde réel, X-Sim introduit une technique d'adaptation de domaine en ligne qui aligne les observations réelles et simulées pendant le déploiement. Notamment, X-Sim ne nécessite aucune donnée de téléopération robotique. Nous l'évaluons sur 5 tâches de manipulation dans 2 environnements et montrons qu'il : (1) améliore la progression des tâches de 30 % en moyenne par rapport aux bases de suivi manuel et de transfert simulé-réel, (2) correspond à l'apprentissage par imitation avec 10 fois moins de temps de collecte de données, et (3) généralise à de nouveaux points de vue de caméra et à des changements en temps réel. Le code et les vidéos sont disponibles à l'adresse https://portal-cornell.github.io/X-Sim/.