Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les encodeurs visuels génèrent généralement un grand nombre de tokens visuels, fournissant des représentations riches en informations mais augmentant considérablement les exigences computationnelles. Cela soulève la question de savoir si tous les tokens générés sont également précieux ou si certains peuvent être éliminés pour réduire les coûts computationnels sans compromettre la qualité. Dans cet article, nous introduisons une nouvelle méthode pour déterminer l'utilité des caractéristiques, basée sur l'idée que les caractéristiques moins précieuses peuvent être reconstruites à partir de celles plus précieuses. Nous mettons en œuvre ce concept en intégrant un autoencodeur avec un mécanisme de sélection Gumbel-Softmax, qui permet d'identifier et de conserver uniquement les tokens visuels les plus informatifs. Pour valider notre approche, nous avons comparé les performances du modèle LLaVA-NeXT, utilisant les caractéristiques sélectionnées par notre méthode, avec des caractéristiques sélectionnées aléatoirement. Nous avons constaté que pour les tâches basées sur la reconnaissance optique de caractères (OCR), plus de 50 % du contexte visuel peut être supprimé avec une perte de performance minimale, alors que l'élimination aléatoire de la même proportion de caractéristiques affecte significativement les capacités du modèle. De plus, dans les tâches de domaine général, même la conservation aléatoire de seulement 30 % des tokens permet d'atteindre des performances comparables à l'utilisation de l'ensemble complet des tokens visuels. Nos résultats mettent en lumière une direction prometteuse vers un élagage multimodal adaptatif et efficace, facilitant une inférence scalable et à faible surcharge sans compromettre les performances.
Les problèmes scientifiques multimodaux (MSPs) impliquent des enjeux complexes nécessitant l'intégration de multiples modalités, telles que le texte et les diagrammes, ce qui représente un défi majeur en intelligence artificielle. Bien que des progrès aient été réalisés dans la résolution des problèmes scientifiques traditionnels, les MSPs rencontrent encore deux problèmes principaux : la difficulté de raisonnement multimodal global dans la résolution de problèmes scientifiques et le manque de capacités de réflexion et de remise en question. Pour résoudre ces problèmes, nous introduisons un cadre Multi-Agent basé sur les Big Seven de la personnalité et le guidage socratique (MAPS). Ce cadre utilise sept agents distincts qui exploitent des mécanismes de rétroaction et la méthode socratique pour guider la résolution des MSPs. Pour aborder le premier problème, nous proposons une stratégie de résolution progressive à quatre agents, où chaque agent se concentre sur une étape spécifique du processus de résolution de problèmes. Pour le second problème, nous introduisons un agent Critique, inspiré par le questionnement socratique, qui stimule la pensée critique et encourage l'apprentissage autonome. Nous menons des expériences approfondies sur les ensembles de données EMMA, Olympiad et MathVista, obtenant des résultats prometteurs qui surpassent le modèle SOTA actuel de 15,84 % sur toutes les tâches. Par ailleurs, les expériences analytiques supplémentaires confirment également les progrès du modèle ainsi que sa capacité de généralisation.
Le traitement efficace des contextes longs a toujours été un objectif majeur en traitement automatique du langage naturel. Avec l'augmentation du nombre de documents longs, de dialogues et d'autres données textuelles, il est crucial de développer des modèles de langage à contexte long (LCLM, Long Context Language Models) capables de traiter et d'analyser des entrées étendues de manière efficace et efficiente. Dans cet article, nous présentons une étude approfondie des avancées récentes en modélisation de contextes longs pour les grands modèles de langage. Notre étude est structurée autour de trois aspects clés : comment obtenir des LCLM efficaces et efficients, comment entraîner et déployer des LCLM de manière efficiente, et comment évaluer et analyser les LCLM de manière exhaustive. Pour le premier aspect, nous discutons des stratégies de données, des conceptions architecturales et des approches de workflow orientées vers le traitement de contextes longs. Pour le deuxième aspect, nous examinons en détail l'infrastructure nécessaire pour l'entraînement et l'inférence des LCLM. Pour le troisième aspect, nous présentons des paradigmes d'évaluation pour la compréhension de contextes longs et la génération de textes longs, ainsi que l'analyse comportementale et l'interprétabilité des mécanismes des LCLM. Au-delà de ces trois aspects clés, nous explorons en profondeur les divers scénarios d'application où les LCLM existants ont été déployés et nous esquissons les directions prometteuses pour leur développement futur. Cette étude fournit une revue actualisée de la littérature sur les LCLM, que nous souhaitons voir servir de ressource précieuse pour les chercheurs et les ingénieurs. Un dépôt GitHub associé, rassemblant les derniers articles et référentiels, est disponible à l'adresse suivante : https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
Le format de base des modèles de langage de grande taille pour les questions-réponses consiste à soumettre une invite et à recevoir une réponse, où la qualité de l'invite influence directement l'efficacité de la réponse. L'Optimisation Automatisée des Invites (APO) vise à s'affranchir des biais cognitifs liés à la conception manuelle des invites et à explorer un espace de conception plus vaste pour celles-ci. Cependant, les méthodes APO existantes souffrent de problèmes majeurs, notamment la flexibilité limitée des modèles fixes et une recherche inefficace dans les espaces d'invites. Pour remédier à cela, nous proposons un cadre Multi-Agent intégrant une guidance Socratique (MARS), qui utilise une technologie de fusion multi-agent pour la planification automatique, avec une optimisation et une évaluation continues et progressives. Concrètement, MARS comprend sept agents, chacun ayant des fonctionnalités distinctes, qui utilisent de manière autonome le Planificateur pour concevoir un chemin d'optimisation garantissant la flexibilité. De plus, il emploie un modèle de dialogue Socratique Enseignant-Critique-Élève pour optimiser itérativement les invites tout en effectuant une recherche efficace. Nous menons des expériences approfondies sur divers ensembles de données pour valider l'efficacité de notre méthode, et réalisons des expériences analytiques supplémentaires pour évaluer les avancées du modèle ainsi que son interprétabilité.
La conception de systèmes multi-agents incarnés efficaces est cruciale pour résoudre des tâches complexes du monde réel dans divers domaines. En raison de la complexité des systèmes multi-agents incarnés, les méthodes existantes échouent à générer automatiquement des données d'entraînement sûres et efficaces pour de tels systèmes. À cette fin, nous proposons le concept de contraintes compositionnelles pour les systèmes multi-agents incarnés, abordant les défis liés à la collaboration entre agents incarnés. Nous concevons diverses interfaces adaptées à différents types de contraintes, permettant une interaction fluide avec le monde physique. En exploitant les contraintes compositionnelles et des interfaces spécialement conçues, nous développons un cadre automatisé de collecte de données pour les systèmes multi-agents incarnés et introduisons le premier benchmark pour la manipulation multi-agents incarnés, RoboFactory. Sur la base du benchmark RoboFactory, nous adaptons et évaluons la méthode d'apprentissage par imitation et analysons ses performances dans des tâches d'agents de difficulté variable. De plus, nous explorons les architectures et les stratégies d'entraînement pour l'apprentissage par imitation multi-agents, dans le but de construire des systèmes multi-agents incarnés sûrs et efficaces.
Les tâches de rédaction créative n'ayant pas de réponses uniques et correctes, les grands modèles de langage (LLMs) entraînés pour accomplir ces tâches devraient être capables de générer des sorties diverses et valides. Cependant, l'après-entraînement des LLMs se concentre souvent sur l'amélioration de la qualité de génération tout en négligeant la facilitation de la diversité des sorties. Par conséquent, dans la génération de textes créatifs, nous explorons des approches d'après-entraînement visant à promouvoir à la fois la diversité et la qualité des sorties. Notre idée centrale est d'intégrer la déviation -- le degré de différence entre un échantillon d'entraînement et tous les autres échantillons partageant le même prompt -- dans l'objectif d'entraînement afin de faciliter l'apprentissage à partir d'instances rares et de haute qualité. En appliquant notre approche à l'optimisation directe des préférences (DPO) et à l'optimisation des préférences par rapport aux cotes (ORPO), nous démontrons que nous pouvons promouvoir la diversité des sorties des modèles entraînés tout en minimisant la baisse de qualité. Notre meilleur modèle, doté de 8 milliards de paramètres, parvient à atteindre une diversité comparable à celle d'un ensemble de données créé par des humains, tout en offrant une qualité de sortie similaire aux meilleurs modèles à instruction que nous avons examinés, GPT-4o et DeepSeek-R1. Nous validons en outre nos approches par une évaluation humaine, une ablation et une comparaison avec une méthode existante de diversification, DivPO.
Les modèles de génération visuelle autoregressive reposent généralement sur des tokenizers pour compresser les images en tokens pouvant être prédits séquentiellement. Un dilemme fondamental existe dans la représentation des tokens : les tokens discrets permettent une modélisation directe avec une perte d'entropie croisée standard, mais souffrent d'une perte d'information et d'une instabilité lors de l'entraînement du tokenizer ; les tokens continus préservent mieux les détails visuels, mais nécessitent une modélisation complexe des distributions, compliquant le pipeline de génération. Dans cet article, nous proposons TokenBridge, qui comble cet écart en maintenant la forte capacité de représentation des tokens continus tout en préservant la simplicité de modélisation des tokens discrets. Pour y parvenir, nous découplons la discrétisation du processus d'entraînement du tokenizer grâce à une quantification post-entraînement qui obtient directement des tokens discrets à partir de représentations continues. Plus précisément, nous introduisons une stratégie de quantification dimensionnelle qui discrétise indépendamment chaque dimension de caractéristique, associée à un mécanisme de prédiction autoregressif léger qui modélise efficacement l'espace de tokens résultant. Des expériences approfondies montrent que notre approche atteint une qualité de reconstruction et de génération comparable aux méthodes continues tout en utilisant une prédiction catégorique standard. Ce travail démontre que combiner les paradigmes discrets et continus peut exploiter efficacement les forces des deux approches, offrant une direction prometteuse pour une génération visuelle de haute qualité avec une modélisation autoregressive simple. Page du projet : https://yuqingwang1029.github.io/TokenBridge.
Les avatars 3D réalistes en corps entier dotés de la parole présentent un grand potentiel dans la réalité augmentée, avec des applications allant du streaming en direct pour l'e-commerce à la communication holographique. Malgré les avancées dans le domaine du 3D Gaussian Splatting (3DGS) pour la création d'avatars réalistes, les méthodes existantes peinent à offrir un contrôle précis des expressions faciales et des mouvements corporels dans les tâches de parole en corps entier. De plus, elles manquent souvent de détails suffisants et ne peuvent pas fonctionner en temps réel sur les appareils mobiles. Nous présentons TaoAvatar, un avatar parlant en corps entier basé sur le 3DGS, à haute fidélité et léger, piloté par divers signaux. Notre approche commence par la création d'un modèle paramétrique humain habillé personnalisé qui lie les Gaussiennes pour représenter les apparences. Nous pré-entraînons ensuite un réseau basé sur StyleUnet pour gérer les déformations non rigides complexes dépendantes de la pose, capable de capturer des détails d'apparence à haute fréquence mais trop gourmand en ressources pour les appareils mobiles. Pour surmonter cela, nous "cuisons" les déformations non rigides dans un réseau léger basé sur MLP en utilisant une technique de distillation et développons des blend shapes pour compenser les détails. Des expériences approfondies montrent que TaoAvatar atteint une qualité de rendu de pointe tout en fonctionnant en temps réel sur divers appareils, maintenant 90 FPS sur des dispositifs stéréo haute définition tels que l'Apple Vision Pro.
Les récents progrès démontrés par DeepSeek-R1 ont montré que les capacités de raisonnement complexe dans les grands modèles de langage (LLMs), y compris des comportements sophistiqués tels que l'auto-vérification et l'auto-correction, peuvent être atteints par l'apprentissage par renforcement (RL) avec des récompenses vérifiables, améliorant significativement les performances du modèle sur des tâches difficiles comme AIME. Motivés par ces résultats, notre étude explore si des capacités de raisonnement similaires peuvent être intégrées avec succès dans les grands modèles vision-langage (LVLMs) et évalue leur impact sur des tâches de raisonnement multimodal complexes. Nous envisageons une approche qui exploite itérativement le fine-tuning supervisé (SFT) sur des données d'entraînement légères et l'apprentissage par renforcement (RL) pour améliorer davantage la généralisation du modèle. Initialement, les capacités de raisonnement ont été distillées à partir des modèles R1 en texte pur en générant des étapes de raisonnement à l'aide de légendes de haute qualité d'images provenant de divers ensembles de données visuelles. Par la suite, l'entraînement itératif par RL a encore renforcé les compétences de raisonnement, chaque itération du modèle amélioré par RL générant des ensembles de données SFT raffinés pour le tour suivant. Ce processus itératif a donné naissance à OpenVLThinker, un LVLM présentant une amélioration constante des performances de raisonnement sur des benchmarks difficiles tels que MathVista, MathVerse et MathVision, démontrant le potentiel de notre stratégie pour un raisonnement vision-langage robuste. Le code, le modèle et les données sont disponibles à l'adresse https://github.com/yihedeng9/OpenVLThinker.
Malgré des progrès substantiels dans la génération de texte-à-vidéo, la maîtrise précise et flexible des attributs spatio-temporels à granularité fine reste un défi majeur non résolu dans la recherche sur la génération vidéo. Pour surmonter ces limitations, nous présentons VCtrl (également appelé PP-VCtrl), un nouveau cadre conçu pour permettre un contrôle granulaire des modèles de diffusion vidéo pré-entraînés de manière unifiée. VCtrl intègre divers signaux de contrôle spécifiés par l'utilisateur—tels que les contours Canny, les masques de segmentation et les points clés humains—dans les modèles de diffusion vidéo pré-entraînés via un module conditionnel généralisable capable d'encoder uniformément plusieurs types de signaux auxiliaires sans modifier le générateur sous-jacent. De plus, nous concevons un pipeline unifié d'encodage des signaux de contrôle et un mécanisme de connexion résiduelle parcimonieuse pour incorporer efficacement les représentations de contrôle. Des expériences approfondies et des évaluations humaines démontrent que VCtrl améliore significativement la contrôlabilité et la qualité de génération. Le code source et les modèles pré-entraînés sont disponibles publiquement et implémentés à l'aide du framework PaddlePaddle à l'adresse suivante : http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
Malgré des performances impressionnantes dans diverses tâches, les Modèles de Langage Multimodaux de Grande Taille (MLLMs) n'ont pas encore pleinement démontré leur potentiel dans la résolution de problèmes mathématiques visuels, en particulier dans la perception et l'interprétation précises des diagrammes. Inspirés par les processus typiques des humains, nous émettons l'hypothèse que les capacités de perception pour extraire des informations significatives des diagrammes sont cruciales, car elles influencent directement les processus d'inférence ultérieurs. Pour valider cette hypothèse, nous avons développé FlowVerse, un benchmark complet qui catégorise toutes les informations utilisées lors de la résolution de problèmes en quatre composantes, qui sont ensuite combinées en six versions de problèmes pour l'évaluation. Nos résultats préliminaires sur FlowVerse révèlent que les MLLMs existants présentent des limitations substantielles lorsqu'il s'agit d'extraire des informations essentielles et des propriétés raisonnées à partir des diagrammes et d'effectuer des raisonnements complexes basés sur ces entrées visuelles. En réponse, nous introduisons MathFlow, un pipeline de résolution de problèmes modulaire qui découple la perception et l'inférence en étapes distinctes, optimisant ainsi chacune indépendamment. Compte tenu des limitations perceptives observées dans les MLLMs actuels, nous avons entraîné MathFlow-P-7B comme modèle de perception dédié. Les résultats expérimentaux indiquent que MathFlow-P-7B apporte des gains de performance substantiels lorsqu'il est intégré à divers modèles d'inférence propriétaires et open-source. Cela démontre l'efficacité du pipeline MathFlow et sa compatibilité avec divers frameworks d'inférence. Le benchmark FlowVerse et le code sont disponibles à l'adresse https://github.com/MathFlow-zju/MathFlow.
La personnalisation de la génération et de l'édition d'images est particulièrement complexe lorsque nous ne disposons que de quelques images du sujet, voire d'une seule image. Une approche courante pour la personnalisation est l'apprentissage de concepts, qui permet d'intégrer le sujet dans des modèles existants relativement rapidement, mais produit des images dont la qualité tend à se dégrader rapidement lorsque le nombre d'images du sujet est faible. La qualité peut être améliorée en pré-entraînant un encodeur, mais l'entraînement limite la génération à la distribution d'entraînement et est chronophage. Il reste un défi difficile et ouvert de personnaliser la génération et l'édition d'images à partir d'une seule image sans entraînement. Ici, nous présentons SISO, une nouvelle approche sans entraînement basée sur l'optimisation d'un score de similarité avec une image de sujet donnée. Plus précisément, SISO génère itérativement des images et optimise le modèle en fonction de la perte de similarité avec l'image de sujet donnée jusqu'à ce qu'un niveau de similarité satisfaisant soit atteint, permettant une optimisation plug-and-play pour tout générateur d'images. Nous avons évalué SISO dans deux tâches, l'édition d'images et la génération d'images, en utilisant un ensemble de données diversifié de sujets personnels, et démontrons des améliorations significatives par rapport aux méthodes existantes en termes de qualité d'image, fidélité au sujet et préservation de l'arrière-plan.
L'évaluation précise de l'alignement sémantique entre les invites textuelles et les vidéos générées reste un défi dans la génération texte-vidéo (T2V). Les métriques existantes d'alignement texte-vidéo, comme CLIPScore, ne produisent que des scores grossiers sans détails d'alignement fins, ne correspondant pas aux préférences humaines. Pour pallier cette limitation, nous proposons ETVA, une nouvelle méthode d'évaluation de l'alignement texte-vidéo via la génération et la réponse à des questions fines. D'abord, un système multi-agents analyse les invites en graphes de scènes sémantiques pour générer des questions atomiques. Ensuite, nous concevons un cadre de raisonnement multi-étapes enrichi par des connaissances pour répondre aux questions, où un LLM auxiliaire récupère d'abord des connaissances de bon sens pertinentes (par exemple, les lois physiques), puis un LLM vidéo répond aux questions générées via un mécanisme de raisonnement multi-étapes. Des expériences approfondies montrent qu'ETVA atteint un coefficient de corrélation de Spearman de 58,47, indiquant une corrélation bien plus élevée avec le jugement humain que les métriques existantes qui n'atteignent que 31,0. Nous construisons également un benchmark complet spécifiquement conçu pour l'évaluation de l'alignement texte-vidéo, comprenant 2 000 invites diverses et 12 000 questions atomiques couvrant 10 catégories. À travers une évaluation systématique de 15 modèles texte-vidéo existants, nous identifions leurs principales capacités et limites, ouvrant la voie à la prochaine génération de génération T2V.
Dans cet article, nous proposons \textsc{FastCuRL}, une approche simple mais efficace d'apprentissage par renforcement curriculaire avec une stratégie d'extension de fenêtre contextuelle pour accélérer l'efficacité de l'entraînement en apprentissage par renforcement des modèles de raisonnement de type R1, tout en améliorant leurs performances dans la résolution de tâches de raisonnement complexes nécessitant des chaînes de pensée longues, en particulier avec un modèle de langage de 1,5 milliard de paramètres. \textsc{FastCuRL} se compose de deux procédures principales : la segmentation des données d'entraînement en fonction de la longueur et l'entraînement avec extension de la fenêtre contextuelle. Plus précisément, la première étape consiste à diviser les données d'entraînement originales en trois niveaux différents selon la longueur des invites d'entrée, puis la seconde exploite des ensembles de données segmentés avec une longueur de fenêtre contextuelle progressivement croissante pour entraîner le modèle de raisonnement. Les résultats expérimentaux montrent que \textsc{FastCuRL}-1.5B-Preview surpasse DeepScaleR-1.5B-Preview sur les cinq jeux de données (incluant MATH 500, AIME 2024, AMC 2023, Minerva Math et OlympiadBench) tout en utilisant seulement 50\% des étapes d'entraînement. De plus, toutes les phases d'entraînement pour FastCuRL-1.5B-Preview sont réalisées avec un seul nœud équipé de 8 GPU.
Dans cet article, nous présentons MapBench, le premier ensemble de données spécifiquement conçu pour la navigation extérieure basée sur des cartes lisibles par l'homme et représentées en pixels, élaboré à partir de scénarios complexes de recherche de chemin. MapBench comprend plus de 1600 problèmes de recherche de chemin dans des cartes en espace pixel, issus de 100 cartes diverses. Dans MapBench, les LVLM (Large Vision-Language Models) génèrent des instructions de navigation basées sur le langage à partir d'une image de carte et d'une requête indiquant des points de départ et d'arrivée. Pour chaque carte, MapBench fournit un graphe de scène en espace cartographique (MSSG) comme structure de données d'indexation pour convertir entre le langage naturel et évaluer les résultats générés par les LVLM. Nous démontrons que MapBench représente un défi significatif pour les LVLM de pointe, tant en mode zero-shot prompting qu'avec un cadre de raisonnement augmenté par la méthode Chain-of-Thought (CoT), qui décompose la navigation sur carte en processus cognitifs séquentiels. Notre évaluation des LVLM open-source et closed-source met en évidence la difficulté substantielle posée par MapBench, révélant des limitations critiques dans leurs capacités de raisonnement spatial et de prise de décision structurée. Nous publions l'intégralité du code et de l'ensemble de données sur https://github.com/taco-group/MapBench.
Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) ont réalisé des progrès significatifs dans la combinaison de la compréhension visuelle et de la génération de langage. Malgré ces succès, les données d'entraînement des LVLMs souffrent toujours de problèmes de distribution à longue traîne (Long-Tail, LT), où la distribution des données est fortement déséquilibrée. Les travaux précédents se sont principalement concentrés sur les architectures traditionnelles de modèles vision-langage, comme CLIP ou ViT, et sur des tâches spécifiques telles que la reconnaissance et la classification. Cependant, l'exploration des LVLMs (par exemple, LLaVA) et des tâches plus générales (comme le question-réponse visuel et le raisonnement visuel) reste insuffisamment étudiée. Dans cet article, nous menons d'abord une analyse approfondie des problèmes de longue traîne dans les LVLMs et identifions deux causes principales : la surreprésentation des concepts de tête et la sous-représentation des concepts de queue. Sur la base de cette observation, nous proposons un cadre de raffinement adaptatif des données (Adaptive Data Refinement Framework, ADR), qui se compose de deux étapes : le rééquilibrage des données (Data Rebalancing, DR) et la synthèse des données (Data Synthesis, DS). Dans l'étape DR, nous rééquilibrons de manière adaptative les données redondantes en fonction des distributions d'entités, tandis que dans l'étape DS, nous exploitons les modèles de diffusion probabiliste débruiteurs (Denoising Diffusion Probabilistic Models, DDPMs) et les images rares pour compléter les parties sous-représentées. Grâce à des évaluations approfondies sur onze benchmarks, notre cadre ADR atténue efficacement le problème de longue traîne dans les données d'entraînement, améliorant la performance moyenne de LLaVA 1.5 de manière relative de 4,36 %, sans augmenter le volume des données d'entraînement.
Les modèles de langage de grande taille pour la vidéo (ViLLMs) excellent dans la compréhension générale des vidéos, par exemple en reconnaissant des activités comme parler ou manger, mais peinent à comprendre les aspects liés à l'identité, tels que "Wilson reçoit une chimiothérapie" ou "Tom discute avec Sarah", limitant ainsi leur applicabilité dans les environnements de santé intelligente et de maison connectée. Pour pallier cette limitation, nous proposons un cadre d'apprentissage en une seule étape, PVChat, le premier ViLLM personnalisé permettant un question-réponse (QA) basé sur le sujet à partir d'une seule vidéo par individu. Notre approche optimise un ViLLM amélioré par un mécanisme de Mixture-of-Heads (MoH) sur un ensemble de données vidéo-QA synthétiquement augmenté, en exploitant une stratégie d'apprentissage progressive de l'image à la vidéo. Plus précisément, nous introduisons un pipeline d'augmentation automatisé qui synthétise des échantillons positifs préservant l'identité et récupère des échantillons négatifs difficiles à partir de corpus vidéo existants, générant ainsi un ensemble de données d'entraînement diversifié avec quatre types de QA : existence, apparence, action et localisation. Pour améliorer l'apprentissage spécifique au sujet, nous proposons un mécanisme d'attention MoH avec routage ReLU, ainsi que deux nouveaux objectifs : (1) une régularisation de proximité lisse pour un apprentissage progressif via un ajustement exponentiel de la distance, et (2) une amélioration de l'activation des têtes pour un routage d'attention équilibré. Enfin, nous adoptons une stratégie d'entraînement en deux étapes, passant d'un pré-entraînement sur images à un affinage sur vidéos, permettant un processus d'apprentissage graduel des attributs statiques aux représentations dynamiques. Nous évaluons PVChat sur divers ensembles de données couvrant des scénarios médicaux, des séries télévisées, des animes et des séquences du monde réel, démontrant sa supériorité dans la compréhension des caractéristiques personnalisées après apprentissage à partir d'une seule vidéo, par rapport aux ViLLMs de pointe.
Le biais implicite fait référence aux processus mentaux automatiques ou spontanés qui influencent les perceptions, les jugements et les comportements. Les recherches précédentes examinant le « biais implicite » dans les grands modèles de langage (LLMs) ont souvent abordé ce phénomène différemment de son étude chez les humains, en se concentrant principalement sur les sorties des modèles plutôt que sur leur traitement interne. Pour analyser ce traitement, nous présentons une méthode appelée le Test d'Association Implicite pour Modèles de Raisonnement (RM-IAT), qui permet d'étudier des schémas analogues au biais implicite dans les modèles de raisonnement : des LLMs qui utilisent un raisonnement étape par étape pour résoudre des tâches complexes. En utilisant cette méthode, nous constatons que les modèles de raisonnement nécessitent plus de tokens pour traiter des informations incompatibles avec les associations par rapport à celles qui y sont compatibles. Ces résultats suggèrent que les systèmes d'IA présentent des schémas de traitement de l'information analogues au biais implicite humain. Nous examinons les implications de ces schémas ressemblant au biais implicite pour leur déploiement dans des applications réelles.
Ces dernières années, le domaine de la génération d'images a connu des avancées significatives, notamment dans les méthodes de fine-tuning qui alignent les modèles avec les préférences humaines universelles. Cet article explore le rôle crucial des données de préférence dans le processus d'entraînement des modèles de diffusion, en particulier dans le contexte de Diffusion-DPO et de ses adaptations ultérieures. Nous étudions les complexités liées aux préférences humaines universelles dans la génération d'images, en mettant en lumière la nature subjective de ces préférences et les défis posés par les échantillons minoritaires dans les ensembles de données de préférence. À travers des expériences pilotes, nous démontrons l'existence d'échantillons minoritaires et leurs effets néfastes sur les performances du modèle. Nous proposons Adaptive-DPO — une approche novatrice qui intègre une métrique sensible aux instances minoritaires dans l'objectif DPO. Cette métrique, qui inclut la confiance intra-annotateur et la stabilité inter-annotateur, distingue les échantillons majoritaires des échantillons minoritaires. Nous introduisons une fonction de perte Adaptive-DPO qui améliore la perte DPO de deux manières : en renforçant l'apprentissage des labels majoritaires par le modèle tout en atténuant l'impact négatif des échantillons minoritaires. Nos expériences montrent que cette méthode gère efficacement à la fois les données minoritaires synthétiques et les données de préférence réelles, ouvrant la voie à des méthodologies d'entraînement plus efficaces pour les tâches de génération d'images.
La géolocalisation d'images, où traditionnellement un modèle d'IA prédit les coordonnées GPS précises d'une image, est une tâche complexe avec de nombreuses applications en aval. Cependant, l'utilisateur ne peut pas exploiter le modèle pour approfondir ses connaissances au-delà des coordonnées GPS ; le modèle manque de compréhension de l'emplacement et de la capacité conversationnelle pour interagir avec l'utilisateur. Récemment, avec les progrès considérables des grands modèles multimodaux (LMMs), les chercheurs, tant dans le domaine propriétaire qu'open-source, ont tenté de géolocaliser des images via ces LMMs. Cependant, les problèmes persistent ; au-delà des tâches générales, pour des tâches en aval plus spécialisées, dont la géolocalisation, les LMMs rencontrent des difficultés. Dans ce travail, nous proposons de résoudre ce problème en introduisant un modèle conversationnel, GAEA, capable de fournir des informations sur l'emplacement d'une image, selon les besoins de l'utilisateur. Aucun jeu de données à grande échelle permettant l'entraînement d'un tel modèle n'existe. Ainsi, nous proposons un jeu de données complet, GAEA, comprenant 800K images et environ 1,6M paires de questions-réponses, construit en exploitant les attributs d'OpenStreetMap (OSM) et les indices contextuels géographiques. Pour l'évaluation quantitative, nous proposons un benchmark diversifié comprenant 4K paires image-texte pour évaluer les capacités conversationnelles avec divers types de questions. Nous considérons 11 LMMs open-source et propriétaires de pointe et démontrons que GAEA surpasse significativement le meilleur modèle open-source, LLaVA-OneVision, de 25,69 % et le meilleur modèle propriétaire, GPT-4o, de 8,28 %. Notre jeu de données, modèle et codes sont disponibles.
Les méthodes récentes d'édition 3D de visages utilisant des masques ont produit des images éditées de haute qualité en exploitant les champs de radiance neuronaux (NeRF). Malgré leurs performances impressionnantes, les méthodes existantes offrent souvent un contrôle utilisateur limité en raison de l'utilisation de masques de segmentation pré-entraînés. Pour utiliser des masques avec une disposition souhaitée, un ensemble de données d'entraînement étendu est nécessaire, ce qui est difficile à rassembler. Nous présentons FFaceNeRF, une technique d'édition de visage basée sur NeRF qui peut surmonter le défi du contrôle utilisateur limité dû à l'utilisation de dispositions de masques fixes. Notre méthode utilise un adaptateur de géométrie avec injection de caractéristiques, permettant une manipulation efficace des attributs géométriques. De plus, nous adoptons un mélange latent pour l'augmentation de tri-plan, ce qui permet un entraînement avec peu d'échantillons. Cela facilite une adaptation rapide du modèle aux dispositions de masques souhaitées, cruciale pour des applications dans des domaines comme l'imagerie médicale personnalisée ou l'édition créative de visages. Nos évaluations comparatives démontrent que FFaceNeRF surpasse les méthodes existantes d'édition de visage basées sur des masques en termes de flexibilité, de contrôle et de qualité des images générées, ouvrant la voie à des avancées futures dans l'édition 3D de visages personnalisée et haute fidélité. Le code est disponible sur la {https://kwanyun.github.io/FFaceNeRF_page/{page du projet}}.
La segmentation généralisée de nuages de points 3D en few-shot (GFS-PCS) adapte les modèles à de nouvelles classes avec peu d'échantillons de support tout en conservant la segmentation des classes de base. Les méthodes existantes de GFS-PCS améliorent les prototypes en interagissant avec les caractéristiques de support ou de requête, mais restent limitées par la connaissance parcellaire issue des échantillons few-shot. Parallèlement, les modèles vision-langage 3D (3D VLMs), qui généralisent à travers des classes nouvelles du monde ouvert, contiennent une connaissance riche mais bruyante des classes nouvelles. Dans ce travail, nous introduisons un cadre GFS-PCS qui combine les pseudo-étiquettes denses mais bruyantes des 3D VLMs avec les échantillons few-shot précis mais rares pour maximiser les forces des deux, nommé GFS-VL. Plus précisément, nous proposons une sélection de pseudo-étiquettes guidée par les prototypes pour filtrer les régions de faible qualité, suivie d'une stratégie de remplissage adaptatif qui combine les connaissances des contextes de pseudo-étiquettes et des échantillons few-shot pour étiqueter de manière adaptative les zones filtrées et non étiquetées. De plus, nous concevons une stratégie de mélange nouvelle-base pour intégrer les échantillons few-shot dans les scènes d'entraînement, préservant le contexte essentiel pour un meilleur apprentissage des classes nouvelles. Par ailleurs, reconnaissant la diversité limitée des benchmarks actuels de GFS-PCS, nous introduisons deux benchmarks exigeants avec des classes nouvelles variées pour une évaluation complète de la généralisation. Les expériences valident l'efficacité de notre cadre à travers les modèles et les jeux de données. Notre approche et nos benchmarks fournissent une base solide pour faire progresser la GFS-PCS dans le monde réel. Le code est disponible à l'adresse suivante : https://github.com/ZhaochongAn/GFS-VL.