Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le raisonnement visuel est une composante essentielle de l'intelligence humaine et une capacité critique pour les modèles multimodaux avancés. Cependant, les évaluations actuelles du raisonnement des grands modèles de langage multimodaux (MLLMs) reposent souvent sur des descriptions textuelles et permettent des raccourcis de raisonnement basés sur le langage, ne mesurant pas véritablement le raisonnement centré sur la vision. Pour remédier à cela, nous présentons VisuLogic : un benchmark de 1 000 problèmes vérifiés par des humains, répartis en six catégories (par exemple, les variations quantitatives, les relations spatiales, les comparaisons d'attributs). Ces différents types de questions permettent d'évaluer les capacités de raisonnement visuel des MLLMs sous plusieurs angles. Nous évaluons les principaux MLLMs sur ce benchmark et analysons leurs résultats pour identifier les modes d'échec courants. La plupart des modèles obtiennent une précision inférieure à 30 % - légèrement au-dessus de la base aléatoire de 25 % et bien en dessous des 51,4 % atteints par les humains - révélant des lacunes significatives dans le raisonnement visuel. De plus, nous fournissons un ensemble de données d'entraînement supplémentaire et une base de référence en apprentissage par renforcement pour soutenir les progrès futurs.
Comment peut-on atteindre des capacités de raisonnement solides dans les modèles de langage de manière rentable ? Motivés par cette question fondamentale, nous présentons Tina, une famille de petits modèles de raisonnement obtenus avec une grande efficacité économique. Tina démontre de manière notable que des performances substantielles en matière de raisonnement peuvent être développées en utilisant uniquement des ressources minimales, en appliquant des mises à jour paramétriquement efficaces lors de l'apprentissage par renforcement (RL), en utilisant l'adaptation à faible rang (LoRA), sur un modèle de base déjà petit de 1,5 milliard de paramètres. Cette approche minimaliste produit des modèles qui atteignent des performances de raisonnement compétitives, et parfois supérieures, aux modèles de raisonnement RL de pointe (SOTA) construits sur le même modèle de base. Ceci est crucialement réalisé à une fraction infime du coût de post-formation computationnel employé par les modèles SOTA existants. En fait, le meilleur modèle Tina obtient une augmentation de plus de 20 % des performances de raisonnement et une précision Pass@1 de 43,33 % sur AIME24, pour un coût de post-formation et d'évaluation de seulement 9 USD (soit une réduction estimée de 260 fois). Notre travail révèle l'efficacité surprenante du raisonnement RL efficace via LoRA. Nous validons cela sur plusieurs ensembles de données de raisonnement open-source et divers paramètres d'ablation, en partant d'un seul ensemble fixe d'hyperparamètres. De plus, nous émettons l'hypothèse que cette efficacité et cette efficience découlent de la capacité de LoRA à adapter rapidement le modèle au format structurel de raisonnement récompensé par le RL, tout en préservant largement les connaissances sous-jacentes du modèle de base. Au service de l'accessibilité et de la recherche ouverte, nous mettons à disposition en open-source tout le code, les journaux de formation, ainsi que les poids et points de contrôle des modèles.
Dans cet article, nous présentons DreamID, un modèle d'échange de visages basé sur la diffusion qui atteint des niveaux élevés de similarité d'identité, de préservation des attributs, de fidélité de l'image et de vitesse d'inférence rapide. Contrairement au processus typique d'entraînement pour l'échange de visages, qui repose souvent sur une supervision implicite et peine à obtenir des résultats satisfaisants, DreamID établit une supervision explicite pour l'échange de visages en construisant des données de groupe Triplet ID, améliorant ainsi significativement la similarité d'identité et la préservation des attributs. La nature itérative des modèles de diffusion pose des défis pour l'utilisation de fonctions de perte efficaces dans l'espace image, car effectuer un échantillonnage multi-étapes chronophage pour obtenir l'image générée pendant l'entraînement est peu pratique. Pour résoudre ce problème, nous exploitons le modèle de diffusion accéléré SD Turbo, réduisant les étapes d'inférence à une seule itération, permettant ainsi un entraînement efficace de bout en bout au niveau des pixels avec une supervision explicite du groupe Triplet ID. De plus, nous proposons une architecture de modèle basée sur la diffusion améliorée comprenant SwapNet, FaceNet et ID Adapter. Cette architecture robuste libère pleinement la puissance de la supervision explicite du groupe Triplet ID. Enfin, pour étendre davantage notre méthode, nous modifions explicitement les données du groupe Triplet ID pendant l'entraînement pour affiner et préserver des attributs spécifiques, tels que les lunettes et la forme du visage. Des expériences approfondies démontrent que DreamID surpasse les méthodes de pointe en termes de similarité d'identité, de préservation de la pose et de l'expression, et de fidélité de l'image. Globalement, DreamID atteint des résultats d'échange de visages de haute qualité à une résolution de 512*512 en seulement 0,6 seconde et performe exceptionnellement bien dans des scénarios difficiles tels que des éclairages complexes, des angles importants et des occlusions.
Nous présentons PHYBench, un nouveau benchmark de haute qualité conçu pour évaluer les capacités de raisonnement des grands modèles de langage (LLM) dans des contextes physiques. PHYBench se compose de 500 problèmes de physique soigneusement sélectionnés, basés sur des scénarios physiques réalistes, et conçus pour évaluer la capacité des modèles à comprendre et à raisonner sur des processus physiques réalistes. Couvrant la mécanique, l'électromagnétisme, la thermodynamique, l'optique, la physique moderne et la physique avancée, le benchmark englobe des niveaux de difficulté allant des exercices de lycée aux problèmes de premier cycle universitaire et aux défis des Olympiades de Physique. De plus, nous proposons le score Expression Edit Distance (EED), une nouvelle métrique d'évaluation basée sur la distance d'édition entre expressions mathématiques, qui capture efficacement les différences dans les processus de raisonnement et les résultats des modèles, au-delà des méthodes traditionnelles de notation binaire. Nous évaluons divers LLM sur PHYBench et comparons leurs performances à celles d'experts humains. Nos résultats révèlent que même les modèles de raisonnement les plus avancés sont significativement en retard par rapport aux experts humains, mettant en lumière leurs limites et la nécessité d'améliorations dans les scénarios de raisonnement physique complexes. Nos résultats de benchmark et notre ensemble de données sont disponibles publiquement à l'adresse https://phybench-official.github.io/phybench-demo/.
Nous présentons Trillion-7B, le modèle de langage multilingue (LLM) centré sur le coréen le plus efficace en termes de tokens. Notre nouveau mécanisme d'attention interlingue sur les documents (XLDA) permet un transfert de connaissances hautement efficace de l'anglais vers des langues cibles comme le coréen et le japonais. Combiné à des mélanges de données optimisés, un filtrage spécifique à chaque langue et une construction de tokenizer sur mesure, Trillion-7B atteint des performances compétitives tout en consacrant seulement 10 % de ses 2 000 milliards de tokens d'entraînement aux données multilingues et en nécessitant seulement 59 400 heures de GPU H100 (148 000 dollars) pour un entraînement complet. Des évaluations approfondies sur 27 benchmarks dans quatre langues démontrent les performances multilingues robustes de Trillion-7B et son exceptionnelle cohérence interlingue.
Alors que le domaine de l'apprentissage de représentations se développe, on observe une prolifération de différentes fonctions de perte pour résoudre diverses classes de problèmes. Nous introduisons une équation unique basée sur la théorie de l'information qui généralise une grande collection de fonctions de perte modernes en apprentissage automatique. Plus précisément, nous présentons un cadre qui montre que plusieurs grandes classes de méthodes d'apprentissage automatique minimisent précisément une divergence de Kullback-Leibler intégrée entre deux distributions conditionnelles : les représentations supervisées et apprises. Cette perspective révèle une géométrie de l'information sous-jacente à des techniques telles que le clustering, les méthodes spectrales, la réduction de dimension, l'apprentissage contrastif et l'apprentissage supervisé. Ce cadre permet le développement de nouvelles fonctions de perte en combinant des techniques réussies issues de la littérature. Nous présentons non seulement une large gamme de preuves, reliant plus de 23 approches différentes, mais nous exploitons également ces résultats théoriques pour créer des classificateurs d'images non supervisés de pointe qui améliorent de +8 % l'état de l'art précédent en classification non supervisée sur ImageNet-1K. Nous démontrons également que I-Con peut être utilisé pour dériver des méthodes de débiaisage fondées sur des principes, améliorant ainsi les apprenants de représentations contrastives.
Récemment, des recherches approfondies sur la personnalisation d'images (par exemple, identité, sujet, style, arrière-plan, etc.) ont démontré de solides capacités de personnalisation dans les modèles génératifs à grande échelle. Cependant, la plupart des approches sont conçues pour des tâches spécifiques, limitant ainsi leur généralisabilité à combiner différents types de conditions. Développer un cadre unifié pour la personnalisation d'images reste un défi ouvert. Dans cet article, nous présentons DreamO, un cadre de personnalisation d'images conçu pour prendre en charge un large éventail de tâches tout en facilitant l'intégration transparente de multiples conditions. Plus précisément, DreamO utilise un cadre de transformateur de diffusion (DiT) pour traiter uniformément des entrées de différents types. Pendant l'entraînement, nous construisons un ensemble de données d'entraînement à grande échelle qui inclut diverses tâches de personnalisation, et nous introduisons une contrainte de routage des caractéristiques pour faciliter l'interrogation précise des informations pertinentes à partir des images de référence. De plus, nous concevons une stratégie de placeholders qui associe des placeholders spécifiques à des conditions à des positions particulières, permettant ainsi de contrôler le placement des conditions dans les résultats générés. Par ailleurs, nous employons une stratégie d'entraînement progressive composée de trois étapes : une étape initiale axée sur des tâches simples avec des données limitées pour établir une cohérence de base, une étape d'entraînement à grande échelle pour améliorer de manière exhaustive les capacités de personnalisation, et une étape finale d'alignement de la qualité pour corriger les biais de qualité introduits par des données de faible qualité. Des expériences approfondies démontrent que le DreamO proposé peut effectuer efficacement diverses tâches de personnalisation d'images avec une haute qualité et intégrer de manière flexible différents types de conditions de contrôle.
Cet article présente notre soumission gagnante au concours AI Mathematical Olympiad - Progress Prize 2 (AIMO-2). Notre approche pour construire des modèles de raisonnement mathématique de pointe repose sur trois piliers clés. Premièrement, nous créons un jeu de données à grande échelle comprenant 540K problèmes mathématiques uniques de haute qualité, incluant des problèmes de niveau olympiade, ainsi que leurs 3,2M solutions de raisonnement long. Deuxièmement, nous développons une méthode novatrice pour intégrer l'exécution de code avec des modèles de raisonnement long grâce à un entraînement itératif, une génération et un filtrage de qualité, produisant ainsi 1,7M solutions de raisonnement intégrant des outils de haute qualité. Troisièmement, nous mettons en place un pipeline pour entraîner les modèles à sélectionner la solution la plus prometteuse parmi plusieurs candidats. Nous montrons que cette sélection générative de solutions (GenSelect) peut significativement surpasser la méthode de vote majoritaire de référence. En combinant ces idées, nous entraînons une série de modèles qui obtiennent des résultats de pointe sur des benchmarks de raisonnement mathématique. Pour faciliter les recherches futures, nous publions notre code, nos modèles et le jeu de données complet OpenMathReasoning sous une licence commercialement permissive.
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) simplifie l'apprentissage par renforcement à partir de retours humains (Reinforcement Learning from Human Feedback, RLHF) pour les grands modèles de langage (Large Language Models, LLMs) en optimisant directement les préférences humaines sans recourir à un modèle de récompense explicite. Nous constatons que, lors de l'entraînement DPO, le modèle de référence joue le rôle d'un ajusteur de pondération des données. Cependant, la pratique courante consistant à initialiser les modèles de politique et de référence de manière identique dans DPO peut entraîner une utilisation inefficace des données et imposer un plafond de performance. Par ailleurs, l'absence de modèle de référence dans l'Optimisation Simple des Préférences (Simple Preference Optimization, SimPO) réduit la robustesse de l'entraînement et nécessite des conditions plus strictes pour éviter l'oubli catastrophique. Dans ce travail, nous proposons Pre-DPO, un paradigme d'entraînement basé sur DPO, simple mais efficace, qui améliore la performance de l'optimisation des préférences en exploitant un modèle de référence guide. Ce modèle de référence offre une vision prospective de l'état optimal de la politique réalisable grâce aux données de préférences d'entraînement, servant de mécanisme guide qui attribue de manière adaptative des poids plus élevés aux échantillons plus adaptés au modèle et des poids plus faibles à ceux qui le sont moins. Des expériences approfondies sur les benchmarks AlpacaEval 2.0 et Arena-Hard v0.1 démontrent que Pre-DPO améliore systématiquement les performances de DPO et SimPO, sans recourir à des modèles externes ou à des données supplémentaires.
Le pré-entraînement contrastif langue-image (CLIP) a obtenu des succès sur plusieurs tâches en aval en alignant les modalités image et texte. Cependant, la nature de l'apprentissage contrastif global limite la capacité de CLIP à comprendre des concepts compositionnels, tels que les relations et les attributs. Bien que des études récentes utilisent des échantillons négatifs globaux difficiles pour améliorer la compréhension compositionnelle, ces méthodes compromettent significativement les capacités générales inhérentes du modèle en éloignant forcément les échantillons textuels négatifs des images dans l'espace d'embedding. Pour surmonter cette limitation, nous introduisons un cadre d'Alignement Global-Local Découplé (DeGLA) qui améliore la compréhension compositionnelle tout en atténuant substantiellement les pertes de capacités générales. Pour optimiser la rétention des capacités inhérentes du modèle, nous intégrons un mécanisme d'auto-distillation dans le processus d'alignement global, alignant l'encodeur image-texte apprenable avec un modèle enseignant figé dérivé d'une moyenne mobile exponentielle. Sous la contrainte de l'auto-distillation, cela atténue efficacement l'oubli catastrophique des connaissances pré-entraînées lors du fine-tuning. Pour améliorer la compréhension compositionnelle, nous exploitons d'abord la capacité d'apprentissage en contexte des modèles de langage de grande taille (LLMs) pour construire environ 2 millions de légendes négatives de haute qualité réparties en cinq types. Ensuite, nous proposons la perte de Contraste Ancré dans l'Image (IGC) et la perte de Contraste Ancré dans le Texte (TGC) pour renforcer la compositionnalité vision-langue. Les résultats expérimentaux approfondis démontrent l'efficacité du cadre DeGLA. Par rapport aux méthodes précédentes de pointe, DeGLA obtient une amélioration moyenne de 3,5 % sur les benchmarks VALSE, SugarCrepe et ARO. Simultanément, il réalise une amélioration moyenne de 13,0 % sur les tâches de classification zero-shot à travers onze jeux de données. Notre code sera publié à l'adresse https://github.com/xiaoxing2001/DeGLA.
Le succès remarquable des modèles de langage de grande taille (LLMs) a mis en lumière une voie prometteuse vers la réalisation de l'intelligence artificielle générale, tant pour les communautés académiques qu'industrielles, grâce à leurs performances sans précédent dans diverses applications. Alors que les LLMs continuent de gagner en importance dans les domaines de la recherche et du commerce, leurs implications en matière de sécurité et de sûreté sont devenues une préoccupation croissante, non seulement pour les chercheurs et les entreprises, mais aussi pour chaque nation. Actuellement, les études existantes sur la sécurité des LLMs se concentrent principalement sur des étapes spécifiques de leur cycle de vie, par exemple la phase de déploiement ou de fine-tuning, manquant ainsi une compréhension globale de l'ensemble de la "chaîne de vie" des LLMs. Pour combler cette lacune, cet article introduit, pour la première fois, le concept de sécurité "full-stack" afin de considérer systématiquement les problèmes de sécurité tout au long du processus complet de formation, de déploiement et de commercialisation des LLMs. Par rapport aux études de sécurité des LLMs disponibles sur le marché, notre travail présente plusieurs avantages distincts : (I) Perspective complète. Nous définissons le cycle de vie complet des LLMs comme englobant la préparation des données, le pré-entraînement, le post-entraînement, le déploiement et la commercialisation finale. À notre connaissance, il s'agit de la première étude de sécurité à couvrir l'ensemble du cycle de vie des LLMs. (II) Soutien littéraire étendu. Notre recherche s'appuie sur une revue exhaustive de plus de 800 articles, garantissant une couverture complète et une organisation systématique des problèmes de sécurité dans une compréhension plus holistique. (III) Perspectives uniques. Grâce à une analyse systématique de la littérature, nous avons développé des feuilles de route fiables et des perspectives pour chaque chapitre. Notre travail identifie des directions de recherche prometteuses, notamment la sécurité dans la génération de données, les techniques d'alignement, l'édition de modèles et les systèmes d'agents basés sur les LLMs. Ces perspectives offrent des orientations précieuses pour les chercheurs qui souhaitent poursuivre des travaux futurs dans ce domaine.
Récemment, DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) a démontré ses excellentes capacités de raisonnement dans des tâches complexes et a partagé publiquement sa méthodologie. Cela fournit des données de chaîne de pensée (CoT) potentiellement de haute qualité pour stimuler les capacités de raisonnement des modèles de langage de grande taille (LLMs) de petite taille. Pour générer des données CoT de haute qualité pour différents LLMs, nous recherchons une méthode efficace pour générer des données CoT de haute qualité avec des niveaux de difficulté des questions adaptés aux LLMs. Tout d'abord, nous classons la difficulté des questions en fonction des capacités de raisonnement des LLMs eux-mêmes et construisons une base de données de questions adaptée aux LLMs. Ensuite, nous échantillonnons la base de données de problèmes en fonction d'une distribution des niveaux de difficulté des questions, puis utilisons DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) pour générer les données CoT de haute qualité correspondantes avec des réponses correctes. Grâce à la construction de données CoT avec des niveaux de difficulté adaptés aux LLMs, nous avons considérablement réduit le coût de génération des données et amélioré l'efficacité du réglage fin supervisé (SFT) des modèles. Enfin, nous avons validé l'efficacité et la généralisabilité de la méthode proposée dans les domaines des compétitions mathématiques complexes et des tâches de génération de code. Notamment, avec seulement 2k données CoT mathématiques de haute qualité, notre ZMath-32B surpasse DeepSeek-Distill-32B dans les tâches de raisonnement mathématique. De même, avec seulement 2k données CoT de code de haute qualité, notre ZCode-32B surpasse DeepSeek-Distill-32B dans les tâches de raisonnement de code.
Comme l'annotation des données est coûteuse, les ensembles de données de référence intègrent souvent des étiquettes provenant de jeux de données d'images établis. Dans ce travail, nous évaluons l'impact des erreurs d'étiquetage dans MSCOCO sur le benchmark fréquemment utilisé pour l'hallucination d'objets, POPE. Nous ré-annotons les images du benchmark et identifions un déséquilibre dans les erreurs d'annotation entre différents sous-ensembles. En évaluant plusieurs modèles sur les étiquettes révisées, que nous désignons sous le nom de RePOPE, nous observons des changements notables dans le classement des modèles, mettant en évidence l'impact de la qualité des étiquettes. Le code et les données sont disponibles à l'adresse https://github.com/YanNeu/RePOPE.
L'analyse causale joue un rôle fondamental dans la découverte scientifique et la prise de décision fiable, mais elle reste largement inaccessible aux experts de domaine en raison de sa complexité conceptuelle et algorithmique. Cette déconnexion entre la méthodologie causale et son utilité pratique présente un double défi : les experts de domaine ne peuvent pas tirer parti des avancées récentes en apprentissage causal, tandis que les chercheurs en causalité manquent de déploiements à grande échelle dans le monde réel pour tester et affiner leurs méthodes. Pour remédier à cela, nous présentons Causal-Copilot, un agent autonome qui opérationnalise l'analyse causale de niveau expert dans un cadre de modèle de langage à grande échelle. Causal-Copilot automatise l'ensemble du pipeline d'analyse causale pour les données tabulaires et temporelles -- incluant la découverte causale, l'inférence causale, la sélection d'algorithmes, l'optimisation des hyperparamètres, l'interprétation des résultats et la génération d'idées exploitables. Il permet un affinement interactif via le langage naturel, réduisant ainsi la barrière pour les non-spécialistes tout en préservant la rigueur méthodologique. En intégrant plus de 20 techniques d'analyse causale de pointe, notre système favorise un cercle vertueux -- élargissant l'accès aux méthodes causales avancées pour les experts de domaine tout en générant des applications riches et réalistes qui informent et font progresser la théorie causale. Les évaluations empiriques démontrent que Causal-Copilot obtient des performances supérieures par rapport aux bases de référence existantes, offrant une solution fiable, évolutive et extensible qui comble le fossé entre la sophistication théorique et l'applicabilité pratique dans l'analyse causale. Une démonstration interactive en direct de Causal-Copilot est disponible à l'adresse https://causalcopilot.com/.
La transpilation de C vers Rust est essentielle pour moderniser le code C hérité tout en améliorant la sécurité et l'interopérabilité avec les écosystèmes modernes de Rust. Cependant, il n'existe actuellement aucun jeu de données permettant d'évaluer si un système peut transpiler du C en Rust sûr tout en passant une série de tests. Nous présentons CRUST-Bench, un jeu de données de 100 dépôts C, chacun accompagné d'interfaces écrites manuellement en Rust sûr ainsi que de cas de test permettant de valuer la correction de la transpilation. En considérant des dépôts entiers plutôt que des fonctions isolées, CRUST-Bench capture les défis liés à la traduction de projets complexes avec des dépendances réparties sur plusieurs fichiers. Les interfaces Rust fournies offrent des spécifications explicites garantissant le respect des modèles idiomatiques et sûrs de Rust, tandis que les cas de test associés assurent la correction fonctionnelle. Nous évaluons les modèles de langage de pointe (LLMs) sur cette tâche et constatons que la génération de Rust sûr et idiomatique reste un problème difficile pour diverses méthodes et techniques de pointe. Nous fournissons également des insights sur les erreurs que les LLMs commettent généralement lors de la transpilation de code de C vers Rust sûr. Le modèle le plus performant, OpenAI o1, ne parvient à résoudre que 15 tâches dans un contexte de single-shot. Des améliorations sur CRUST-Bench conduiraient à des systèmes de transpilation plus performants, capables de raisonner sur des scénarios complexes et d'aider à migrer des bases de code héritées de C vers des langages comme Rust, qui garantissent la sécurité mémoire. Vous pouvez trouver le jeu de données et le code à l'adresse suivante : https://github.com/anirudhkhatry/CRUST-bench.
Les cases à cocher sont cruciales dans le traitement de documents réels, où la présence ou l'absence de coches influence directement l'extraction de données et les processus de prise de décision. Pourtant, malgré les performances impressionnantes des grands modèles de vision et de langage sur une large gamme de tâches, ils peinent à interpréter le contenu des cases à cocher. Ce défi devient particulièrement pressant dans les industries où une seule case non détectée peut entraîner des erreurs réglementaires ou contractuelles coûteuses. Pour combler cette lacune, nous présentons le jeu de données CheckboxQA, une ressource ciblée conçue pour évaluer et améliorer les performances des modèles sur les tâches liées aux cases à cocher. Il met en lumière les limites des modèles actuels et sert d'outil précieux pour faire progresser les systèmes de compréhension de documents, avec des implications significatives pour des applications dans des secteurs tels que la technologie juridique et la finance. Le jeu de données est disponible publiquement à l'adresse suivante : https://github.com/Snowflake-Labs/CheckboxQA
L'ancrage visuel multi-tâches (MTVG) comprend deux sous-tâches, à savoir la compréhension d'expressions référentielles (REC) et la segmentation d'expressions référentielles (RES). Les approches représentatives existantes suivent généralement un pipeline de recherche qui se compose principalement de trois procédures clés : l'extraction indépendante de caractéristiques pour les modalités visuelles et linguistiques respectivement, un module d'interaction cross-modale, et des têtes de prédiction indépendantes pour les différentes sous-tâches. Bien qu'elles obtiennent des performances remarquables, cette ligne de recherche présente deux limitations : 1) Le contenu linguistique n'est pas pleinement injecté dans l'ensemble du backbone visuel pour stimuler une extraction de caractéristiques visuelles plus efficace, et nécessite un module d'interaction cross-modale supplémentaire ; 2) La relation entre les tâches REC et RES n'est pas exploitée efficacement pour aider à la prédiction collaborative afin d'obtenir une sortie plus précise. Pour résoudre ces problèmes, dans cet article, nous proposons un cadre d'apprentissage visuel guidé par le langage progressif pour l'ancrage visuel multi-tâches, appelé PLVL, qui non seulement exploite finement l'expression intrinsèque des caractéristiques de la modalité visuelle elle-même, mais injecte également progressivement les informations linguistiques pour aider à apprendre les caractéristiques visuelles liées au langage. De cette manière, notre PLVL n'a pas besoin de module de fusion cross-modale supplémentaire tout en introduisant pleinement le guidage linguistique. De plus, nous analysons que le centre de localisation pour REC aiderait à identifier dans une certaine mesure la région de l'objet à segmenter pour RES. Inspirés par cette analyse, nous concevons une tête multi-tâches pour accomplir des prédictions collaboratives pour ces deux sous-tâches. Des expériences approfondies menées sur plusieurs ensembles de données de référence confirment de manière exhaustive que notre PLVL surpasse de manière évidente les méthodes représentatives dans les tâches REC et RES. https://github.com/jcwang0602/PLVL