Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles multimodaux mettent en évidence la valeur des légendes réécrites pour améliorer les performances, mais des défis clés subsistent. Par exemple, bien que les légendes synthétiques offrent souvent une qualité supérieure et un alignement image-texte, il n'est pas clair si elles peuvent entièrement remplacer les textes alternatifs : le rôle des légendes synthétiques et leur interaction avec les textes alternatifs originaux collectés sur le web lors de la pré-formation ne sont pas encore bien compris. De plus, différents modèles fondamentaux multimodaux peuvent avoir des préférences uniques pour des formats de légende spécifiques, mais les efforts pour identifier les légendes optimales pour chaque modèle restent limités. Dans ce travail, nous proposons un pipeline de légendage novateur, contrôlable et évolutif conçu pour générer divers formats de légendes adaptés à différents modèles multimodaux. En examinant les Légendes Synthétiques Courtes (LSC) vers les Légendes Synthétiques Denses (LSD+) comme études de cas, nous explorons systématiquement leurs effets et interactions avec les textes alternatifs à travers des modèles tels que CLIP, les LLMs multimodaux et les modèles de diffusion. Nos résultats révèlent qu'une approche hybride qui conserve à la fois les légendes synthétiques et les textes alternatifs peut surpasser l'utilisation des légendes synthétiques seules, améliorant à la fois l'alignement et les performances, chaque modèle montrant des préférences pour des formats de légende particuliers. Cette analyse approfondie fournit des perspectives précieuses pour optimiser les stratégies de légendage, faisant ainsi progresser la pré-formation des modèles fondamentaux multimodaux.
L'architecture transformer prédomine à travers divers modèles. En tant que cœur du transformer, l'attention a une complexité computationnelle de O(N^2), comparée à O(N) pour les transformations linéaires. Lorsqu'il s'agit de traiter de longues séquences, l'attention devient le composant principal consommateur de temps. Bien que la quantification se soit avérée être une méthode efficace pour accélérer l'inférence des modèles, les méthodes de quantification existantes se concentrent principalement sur l'optimisation de la couche linéaire. En réponse, nous analysons d'abord en détail la faisabilité de la quantification dans l'attention. Ensuite, nous proposons SageAttention, une méthode de quantification hautement efficace et précise pour l'attention. Le nombre d'opérations par seconde (OPS) de notre approche surpasse FlashAttention2 et xformers d'environ 2,1 fois et 2,7 fois respectivement. SageAttention atteint également des performances de précision supérieures à FlashAttention3. Des expériences approfondies confirment que notre approche n'entraîne presque aucune perte de métriques de bout en bout à travers divers modèles, y compris ceux pour le traitement de langage, la génération d'images et la génération de vidéos.
Nous présentons un modèle de base pour l'estimation métrique de profondeur monoculaire en zéro-shot. Notre modèle, Depth Pro, synthétise des cartes de profondeur haute résolution avec une netteté inégalée et des détails haute fréquence. Les prédictions sont métriques, à échelle absolue, sans dépendre de la disponibilité de métadonnées telles que les intrinsèques de la caméra. De plus, le modèle est rapide, produisant une carte de profondeur de 2,25 mégapixels en 0,3 seconde sur un GPU standard. Ces caractéristiques sont rendues possibles par plusieurs contributions techniques, notamment un transformateur de vision multi-échelle efficace pour la prédiction dense, un protocole d'entraînement combinant des ensembles de données réels et synthétiques pour atteindre une précision métrique élevée ainsi qu'un suivi précis des contours, des métriques d'évaluation dédiées pour la précision des contours dans les cartes de profondeur estimées, et une estimation de la longueur focale de pointe à partir d'une seule image. Des expériences approfondies analysent des choix de conception spécifiques et démontrent que Depth Pro surpasse les travaux antérieurs sur plusieurs aspects. Nous mettons à disposition le code et les poids sur https://github.com/apple/ml-depth-pro.
Le développement des grands modèles multimodaux vidéo (LMM) a été entravé par la difficulté de constituer de grandes quantités de données brutes de haute qualité sur le web. Pour remédier à cela, nous proposons une approche alternative en créant un ensemble de données synthétiques de haute qualité spécifiquement pour le suivi d'instructions vidéo, nommé LLaVA-Video-178K. Cet ensemble de données comprend des tâches clés telles que la légende détaillée, la réponse à des questions ouvertes (QA) et des questions à choix multiples. En formant ce modèle sur cet ensemble de données, en combinaison avec des données d'ajustement visuel d'instructions existantes, nous introduisons LLaVA-Video, un nouveau LMM vidéo. Nos expériences démontrent que LLaVA-Video obtient de bonnes performances sur divers benchmarks vidéo, mettant en avant l'efficacité de notre ensemble de données. Nous prévoyons de publier l'ensemble de données, son pipeline de génération et les points de contrôle du modèle.
Il est souhaitable mais difficile de générer des vidéos longues riches en contenu à l'échelle de minutes. Les grands modèles de langage autorégressifs (LLM) ont réussi à générer avec succès des séquences cohérentes et longues de jetons dans le domaine du traitement du langage naturel, tandis que l'exploration des LLM autorégressifs pour la génération de vidéos se limite à la création de courtes vidéos de quelques secondes. Dans ce travail, nous menons une analyse approfondie des défis qui empêchent les générateurs de vidéos basés sur des LLM autorégressifs de produire des vidéos longues. Sur la base des observations et de l'analyse, nous proposons Loong, un nouveau générateur de vidéos basé sur des LLM autorégressifs capable de générer des vidéos d'une minute. Plus précisément, nous modélisons les jetons de texte et les jetons vidéo comme une séquence unifiée pour les LLM autorégressifs et entraînons le modèle à partir de zéro. Nous proposons un entraînement progressif de court à long avec un schéma de rééquilibrage des pertes pour atténuer le problème de déséquilibre des pertes lors de l'entraînement sur de longues vidéos. Nous examinons en outre des stratégies d'inférence, y compris le réencodage des jetons vidéo et les stratégies d'échantillonnage, pour réduire l'accumulation d'erreurs pendant l'inférence. Notre Loong proposé peut être entraîné sur des vidéos de 10 secondes et être étendu pour générer des vidéos longues d'une minute conditionnées par des indications de texte, comme le démontrent les résultats. Davantage d'échantillons sont disponibles sur : https://epiphqny.github.io/Loong-video.
La Pré-formation Contrastive Langage-Image (CLIP) est une méthode célèbre pour entraîner des encodeurs de vision à générer des représentations d'images/texte facilitant diverses applications. Récemment, CLIP a été largement adopté en tant que colonne vertébrale visuelle des grands modèles de langage multimodaux (MLLMs) pour connecter les entrées d'images aux interactions langagières. Le succès de CLIP en tant que modèle fondamental vision-langage repose sur l'alignement des annotations de texte bruyant collectées sur le web au niveau des images. Néanmoins, de tels critères peuvent s'avérer insuffisants pour les tâches en aval nécessitant des représentations visuelles fines, notamment lorsque la compréhension au niveau des régions est exigeante pour les MLLMs. Dans cet article, nous améliorons la capacité de localisation de CLIP avec plusieurs avancées. Nous proposons une méthode de pré-formation appelée Pré-formation Contrastive Localisée Langage-Image (CLOC) en complétant CLIP avec une perte contrastive et des modules texte-région. Nous formulons un nouveau concept, les embeddings promptables, dont l'encodeur produit des embeddings d'images faciles à transformer en représentations de régions en fonction d'indices spatiaux. Pour soutenir la pré-formation à grande échelle, nous concevons un cadre de légendage enrichi visuellement et localisé spatialement pour générer efficacement des pseudo-étiquettes texte-région à grande échelle. En passant à des milliards d'images annotées, CLOC permet d'obtenir des embeddings régionaux de haute qualité pour les tâches de reconnaissance et de recherche de régions d'images, et peut remplacer CLIP pour améliorer les MLLMs, notamment pour les tâches de référence et d'ancrage.
Nous présentons LLaVA-Critic, le premier modèle multimodal large (LMM) open-source conçu comme un évaluateur généraliste pour évaluer les performances sur une large gamme de tâches multimodales. LLaVA-Critic est entraîné en utilisant un ensemble de données de suivi d'instructions de critique de haute qualité qui intègre des critères d'évaluation et des scénarios diversifiés. Nos expériences démontrent l'efficacité du modèle dans deux domaines clés : (1) LMM-comme-Juge, où LLaVA-Critic fournit des scores d'évaluation fiables, se situant au même niveau voire dépassant les modèles GPT sur plusieurs référentiels d'évaluation ; et (2) Apprentissage de Préférences, où il génère des signaux de récompense pour l'apprentissage de préférences, améliorant ainsi les capacités d'alignement du modèle. Ce travail souligne le potentiel des LMMs open-source dans l'auto-critique et l'évaluation, posant les bases pour des recherches futures sur des mécanismes d'alignement superhumains et évolutifs pour les LMMs.
Les grands modèles de langage (LLM) se sont avérés remarquablement efficaces, à la fois dans une large gamme de tâches de traitement du langage naturel et au-delà. Cependant, une analyse théorique approfondie des origines de leurs performances impressionnantes reste insaisissable. Dans cet article, nous abordons cette tâche complexe en établissant une équivalence entre les modèles de langage autoregressifs génériques avec un vocabulaire de taille T et une fenêtre contextuelle de taille K, et les chaînes de Markov définies sur un espace d'états fini de taille O(T^K). Nous obtenons plusieurs résultats surprenants concernant l'existence d'une distribution stationnaire des chaînes de Markov qui capture le pouvoir d'inférence des LLM, leur vitesse de convergence vers celle-ci, et l'influence de la température sur cette dernière. Nous prouvons ensuite des bornes de pré-entraînement et de généralisation en contexte, et montrons comment l'équivalence établie nous permet d'enrichir leur interprétation. Enfin, nous illustrons nos garanties théoriques avec des expériences sur plusieurs LLM récents pour mettre en lumière comment ils capturent le comportement observé en pratique.
Le guidage sans classificateur (CFG) est crucial pour améliorer à la fois la qualité de génération et l'alignement entre la condition d'entrée et la sortie finale dans les modèles de diffusion. Alors qu'une échelle de guidage élevée est généralement nécessaire pour améliorer ces aspects, elle entraîne également une surcharge et des artefacts irréalistes. Dans cet article, nous revisitons la règle de mise à jour du CFG et introduisons des modifications pour résoudre ce problème. Nous décomposons d'abord le terme de mise à jour dans le CFG en composantes parallèles et orthogonales par rapport à la prédiction du modèle conditionnel et observons que la composante parallèle provoque principalement une surcharge, tandis que la composante orthogonale améliore la qualité de l'image. En conséquence, nous proposons de pondérer à la baisse la composante parallèle pour obtenir des générations de haute qualité sans surcharge. De plus, nous établissons un lien entre le CFG et la montée de gradient et introduisons une nouvelle méthode de mise à l'échelle et de momentum pour la règle de mise à jour du CFG basée sur cette compréhension. Notre approche, appelée guidage projeté adaptatif (APG), conserve les avantages d'amélioration de la qualité du CFG tout en permettant l'utilisation d'échelles de guidage plus élevées sans surcharge. L'APG est facile à mettre en œuvre et n'introduit pratiquement aucun surcoût computationnel supplémentaire dans le processus d'échantillonnage. À travers des expériences approfondies, nous démontrons que l'APG est compatible avec divers modèles de diffusion conditionnelle et échantillonneurs, conduisant à une amélioration des scores FID, de rappel et de saturation tout en maintenant une précision comparable au CFG, faisant de notre méthode une alternative plug-and-play supérieure au guidage sans classificateur standard.
Les grands modèles de langage (LLM) sont de plus en plus utilisés pour des tâches de raisonnement complexe qui nécessitent l'exécution de plusieurs étapes complexes avant de recevoir une récompense. Attribuer correctement du crédit à ces étapes est essentiel pour améliorer les performances du modèle. L'optimisation de politique proximale (PPO), un algorithme d'apprentissage par renforcement (RL) de pointe utilisé pour le fine-tuning des LLM, utilise des réseaux de valeur pour aborder l'attribution de crédit. Cependant, les réseaux de valeur rencontrent des défis pour prédire de manière précise les récompenses cumulatives attendues dans des tâches de raisonnement complexe, entraînant souvent des mises à jour à haute variance et des performances sous-optimales. Dans ce travail, nous évaluons systématiquement l'efficacité des réseaux de valeur et révélons leurs lacunes significatives dans les tâches de LLM axées sur le raisonnement, montrant qu'ils surpassent à peine une référence aléatoire lors de la comparaison des étapes alternatives. Pour remédier à cela, nous proposons VinePPO, une approche simple qui tire parti de la flexibilité des environnements linguistiques pour calculer des estimations non biaisées basées sur Monte Carlo, contournant ainsi le besoin de grands réseaux de valeur. Notre méthode surpasse de manière constante PPO et d'autres références sans RL sur les ensembles de données MATH et GSM8K avec moins de mises à jour de gradient (jusqu'à 9x), moins de temps réel (jusqu'à 3,0x). Ces résultats soulignent l'importance de l'attribution précise de crédit dans le fine-tuning RL des LLM et démontrent le potentiel de VinePPO en tant qu'alternative supérieure.
Les assistants vocaux, tels que Siri et Google Assistant, modélisent généralement l'audio et le texte séparément, ce qui entraîne une perte d'informations vocales et une complexité accrue. Les récents efforts pour remédier à cela avec des Modèles de Langage Large (LLM) de bout en bout entraînés avec un affinage supervisé (SFT) ont conduit à des modèles "oubliant" des capacités des LLM textuels uniquement. Notre travail propose un paradigme alternatif pour former des LLM vocaux sans données d'instruction, en utilisant la réponse d'un LLM textuel aux transcriptions comme auto-supervision. Importamment, ce processus peut être réalisé sans réponses annotées. Nous montrons que notre Assistant Vocal Distillé (DiVA) se généralise à la Réponse à des Questions Orales, à la Classification et à la Traduction. De plus, nous montrons que DiVA répond mieux aux préférences des utilisateurs, atteignant un taux de réussite de 72 % par rapport aux modèles de pointe comme Qwen 2 Audio, malgré l'utilisation de >100 fois moins de puissance de calcul pour l'entraînement.
Les plongements denses de documents sont essentiels pour la récupération neuronale. Le paradigme dominant consiste à entraîner et construire des plongements en exécutant des codeurs directement sur des documents individuels. Dans ce travail, nous soutenons que ces plongements, bien qu'efficaces, sont implicitement hors contexte pour des cas d'utilisation ciblés de la récupération, et qu'un plongement de document contextualisé devrait prendre en compte à la fois le document et les documents voisins dans le contexte - de manière analogue aux plongements de mots contextualisés. Nous proposons deux méthodes complémentaires pour les plongements de documents contextualisés : premièrement, un objectif alternatif d'apprentissage contrastif qui intègre explicitement les documents voisins dans la perte contextuelle intra-batch ; deuxièmement, une nouvelle architecture contextuelle qui encode explicitement les informations des documents voisins dans la représentation encodée. Les résultats montrent que les deux méthodes obtiennent de meilleures performances que les biencodeurs dans plusieurs contextes, avec des différences particulièrement marquées hors domaine. Nous obtenons des résultats de pointe sur le banc d'essai MTEB sans extraction de négatifs difficiles, distillation des scores, instructions spécifiques au jeu de données, partage d'exemples intra-GPU, ou des tailles de lots extrêmement grandes. Notre méthode peut être appliquée pour améliorer les performances sur n'importe quel jeu de données d'apprentissage contrastif et n'importe quel biencodeur.
Ces dernières années, la Pré-formation Contradictoire Langage-Image (CLIP) est devenue un pilier de l'intelligence multimodale. Cependant, des études récentes ont identifié une perte d'information substantielle dans le processus d'encodage CLIP, et CLIP a tendance à capturer uniquement des caractéristiques grossières de l'entrée. Cette lacune limite considérablement la capacité d'un seul modèle CLIP à traiter des images riches en détails visuels. Dans ce travail, nous proposons une stratégie simple mais efficace, agnostique au modèle, appelée Upcycling Multiplet Diversifié (DMU), pour CLIP. DMU affine efficacement une série de modèles CLIP qui capturent différents espaces de caractéristiques, à partir d'un point de contrôle CLIP pré-entraîné dense, partageant des paramètres à l'exception du Réseau Feed-Forward (FFN). Ces modèles peuvent ensuite être transformés en un CLIP-MoE avec une capacité de modèle plus grande, conduisant à des performances considérablement améliorées avec un surcoût computationnel minimal. À notre connaissance, l'Upcycling Multiplet Diversifié est la première approche à introduire des MoE activés de manière épars dans les modèles de base CLIP. Des expériences approfondies démontrent les performances significatives de CLIP-MoE dans diverses tâches de recherche sans apprentissage, de classification d'images sans apprentissage et de référentiels de modèles de langage multimodal large en aval (MLLM) en servant d'encodeur visuel. De plus, l'Upcycling Multiplet Diversifié permet la conversion de tout modèle CLIP dense en CLIP-MoEs, qui peuvent remplacer CLIP de manière plug-and-play sans nécessiter d'adaptation supplémentaire dans les cadres en aval. À travers l'Upcycling Multiplet Diversifié, nous visons à fournir des perspectives précieuses pour la recherche future sur le développement de systèmes d'apprentissage multimodal plus efficaces et efficaces.
Les ingénieurs logiciels écrivent principalement du code en modifiant des programmes existants. En revanche, les grands modèles de langage (LLMs) synthétisent de manière autorégressive des programmes en une seule passe. Une explication à cela est la rareté des données d'édition open-source. Alors que les données d'instructions de haute qualité pour la synthèse de code sont déjà rares, les données d'édition de haute qualité le sont encore plus. Pour combler ce fossé, nous avons développé un algorithme de génération de données synthétiques appelé LintSeq. Cet algorithme refactore le code existant en une séquence d'éditions de code en utilisant un linter pour échantillonner de manière procédurale parmi les insertions sans erreur qui peuvent être utilisées pour écrire séquentiellement des programmes. Il produit des séquences d'édition sous forme de chaînes de texte composées de différences de programme consécutives. Pour tester LintSeq, nous l'utilisons pour refacturer un ensemble de données de paires d'instructions + programmes en tuples d'instructions + séquences de différences de programmes. Ensuite, nous affinons l'instruction d'une série de LLMs plus petits allant de 2,6 milliards à 14 milliards de paramètres sur les versions refacturées et originales de cet ensemble de données, en comparant les performances sans entraînement sur des bancs d'essai de synthèse de code. Nous montrons que lors d'échantillonnages répétés, les modèles affinés par séquence d'édition produisent des programmes plus diversifiés que les références. Cela se traduit par une meilleure évolutivité au moment de l'inférence pour la couverture des bancs d'essai en fonction des échantillons, c'est-à-dire la fraction de problèmes "pass@k" résolus par toute tentative donnée "k" essais. Par exemple, sur HumanEval pass@50, les petits LLMs affinés sur des séquences d'édition synthétiques sont compétitifs avec GPT-4 et surpassent les modèles affinés sur l'ensemble de données de référence de +20% (+/-3%) en score absolu. Enfin, nous préentraînons également nos propres petits LMs pour la compréhension du code. Nous montrons que l'affinage des petits modèles sur des éditions de code synthétiques donne des résultats de synthèse de code de pointe pour la classe de modèles sur appareil. Notre LM de séquence d'édition de 150 millions de paramètres égale ou surpasse les modèles de code avec le double de paramètres, avec ou sans échantillonnage répété, y compris Codex et AlphaCode.
Les modèles à long contexte (LCMs) ont fait d'énormes progrès ces dernières années, offrant aux utilisateurs une grande commodité pour gérer des tâches impliquant un long contexte, telles que la résumé de documents. Alors que la communauté accorde de plus en plus d'importance à la fidélité des résultats générés, il n'est pas suffisant de simplement garantir l'exactitude des sorties des LCM, car il est très difficile pour les humains de vérifier les résultats à partir d'un contexte extrêmement long. Cependant, bien que certains efforts aient été déployés pour évaluer si les LCM répondent véritablement en fonction du contexte, ces travaux se limitent soit à des tâches spécifiques, soit dépendent fortement de ressources d'évaluation externes comme GPT-4. Dans ce travail, nous introduisons L-CiteEval, un banc d'essai multi-tâches complet pour la compréhension à long contexte avec citations, visant à évaluer à la fois la capacité de compréhension et la fidélité des LCMs. L-CiteEval couvre 11 tâches de domaines divers, allant de longueurs de contexte de 8K à 48K, et fournit une suite d'évaluation entièrement automatisée. En testant 11 LCMs de pointe à code source fermé et à code source ouvert, nous constatons que bien que ces modèles présentent des différences mineures dans leurs résultats générés, les modèles à code source ouvert accusent un retard substantiel par rapport à leurs homologues à code source fermé en termes de précision et de rappel des citations. Cela suggère que les LCMs à code source ouvert actuels ont tendance à répondre en fonction de leurs connaissances inhérentes plutôt que du contexte donné, ce qui représente un risque significatif pour l'expérience utilisateur dans les applications pratiques. Nous évaluons également l'approche RAG et observons que RAG peut améliorer significativement la fidélité des LCMs, bien qu'avec une légère diminution de la qualité de génération. De plus, nous découvrons une corrélation entre les mécanismes d'attention des LCMs et le processus de génération de citations.
La Génération Améliorée par Récupération (RAG) a été démontrée pour améliorer la précision factuelle des Grands Modèles de Langage (LLMs), mais les méthodes existantes souffrent souvent de capacités de raisonnement limitées dans l'utilisation efficace des preuves récupérées, en particulier lors de l'utilisation de LLMs open-source. Pour pallier à cette lacune, nous introduisons un nouveau cadre, Open-RAG, conçu pour améliorer les capacités de raisonnement dans RAG avec des LLMs open-source. Notre cadre transforme un LLM dense arbitraire en un modèle de mélange d'experts (MoE) parcimonieux et efficace en paramètres capable de traiter des tâches de raisonnement complexes, y compris les requêtes à un ou plusieurs sauts. Open-RAG entraîne de manière unique le modèle à naviguer dans des distracteurs difficiles qui semblent pertinents mais sont trompeurs. En conséquence, Open-RAG exploite l'apprentissage latent, sélectionnant dynamiquement des experts pertinents et intégrant efficacement des connaissances externes pour des réponses plus précises et contextuellement pertinentes. De plus, nous proposons une méthode de récupération adaptative hybride pour déterminer la nécessité de la récupération et équilibrer le compromis entre le gain de performance et la vitesse d'inférence. Les résultats expérimentaux montrent que Open-RAG basé sur Llama2-7B surpasse les LLMs et les modèles RAG de pointe tels que ChatGPT, Self-RAG et Command R+ dans diverses tâches intensives en connaissances. Nous rendons notre code et nos modèles open-source disponibles sur https://openragmoe.github.io/
Nous étudions les représentations internes des modèles vision-langage (VLM) pour résoudre les hallucinations, un défi persistant malgré les progrès en termes de taille et d'entraînement des modèles. Nous projetons les représentations internes d'images des VLM sur leur vocabulaire linguistique et observons des probabilités de sortie plus confiantes pour les objets réels que pour les objets hallucinés. Nous utilisons en outre ces probabilités de sortie pour localiser spatialement les objets réels. En nous appuyant sur cette approche, nous introduisons un algorithme d'effacement de connaissances qui élimine les hallucinations en orthogonalisant linéairement les caractéristiques de l'image par rapport aux caractéristiques des objets hallucinés. Nous montrons que des modifications ciblées des représentations latentes d'un modèle peuvent réduire les hallucinations jusqu'à 25,7% sur l'ensemble de données COCO2014 tout en préservant les performances. Nos résultats montrent comment une compréhension plus approfondie des représentations latentes des VLM peut améliorer la fiabilité et permettre de nouvelles capacités, telles que la segmentation sans apprentissage préalable.
Les grands modèles de langage (LLM), connus pour leur polyvalence dans les données textuelles, sont de plus en plus explorés pour leur potentiel à améliorer la segmentation d'images médicales, une tâche cruciale pour l'imagerie diagnostique précise. Cette étude explore l'amélioration des Transformateurs de Vision (ViTs) pour la segmentation d'images médicales en intégrant des blocs de transformateurs LLM pré-entraînés. Notre approche, qui intègre un bloc de transformateur LLM figé dans l'encodeur d'un modèle basé sur ViT, entraîne des améliorations substantielles des performances de segmentation à travers différentes modalités d'imagerie médicale. Nous proposons un Mécanisme d'Attention Hybride qui combine l'apprentissage des caractéristiques globales et locales avec un Bloc de Fusion Multi-Échelle pour agréger les caractéristiques à différentes échelles. Le modèle amélioré montre des gains de performances significatifs, y compris une augmentation du score Dice moyen de 0,74 à 0,79 et des améliorations en termes de précision, d'exactitude et de l'Indice de Jaccard. Ces résultats démontrent l'efficacité des transformateurs basés sur les LLM dans le raffinement de la segmentation d'images médicales, mettant en avant leur potentiel pour améliorer significativement la précision et la robustesse des modèles. Le code source et notre implémentation sont disponibles sur : https://bit.ly/3zf2CVs
Les agents autonomes ont démontré un potentiel significatif dans l'automatisation des tâches complexes de prise de décision multi-étapes. Cependant, même les modèles vision-langage de pointe (VLM), tels que GPT-4o, restent en deçà des performances humaines, notamment dans des environnements web complexes et des tâches de planification à long terme. Pour remédier à ces limitations, nous introduisons la Recherche d'Arbre de Monte Carlo Réflexive (R-MCTS), un algorithme novateur conçu pour améliorer la capacité des agents IA, par exemple alimentés par GPT-4o, à explorer l'espace de décision en temps réel. R-MCTS étend le MCTS traditionnel en 1) incorporant une réflexion contrastive, permettant aux agents d'apprendre des interactions passées et d'améliorer dynamiquement leur efficacité de recherche ; et 2) en utilisant un débat multi-agent pour fournir une évaluation d'état fiable. De plus, nous améliorons les performances de l'agent en affinant GPT-4o par auto-apprentissage, en utilisant les traversées d'arbres générées par R-MCTS sans étiquettes fournies par l'humain. Sur le difficile benchmark VisualWebArena, notre agent R-MCTS basé sur GPT-4o atteint une amélioration relative de 6 % à 30 % sur diverses tâches par rapport à l'état de l'art précédent. De plus, nous montrons que les connaissances acquises lors de la recherche en temps réel peuvent être efficacement transférées à GPT-4o via l'affinage. Le GPT-4o affiné correspond à 97 % des performances de R-MCTS tout en réduisant l'utilisation de calcul par un facteur de quatre en temps de test. En outre, les résultats qualitatifs révèlent que le modèle GPT-4o affiné démontre la capacité à explorer l'environnement, évaluer un état et revenir à des états viables lorsqu'il détecte que l'état actuel ne peut pas mener au succès. De plus, notre travail démontre les propriétés d'échelle de calcul à la fois dans la collecte de données d'entraînement avec R-MCTS et en temps de test. Ces résultats suggèrent une direction de recherche prometteuse pour améliorer le raisonnement et les capacités de planification des VLM pour les applications agentic via la recherche en temps réel et l'auto-apprentissage.
Les travaux récents en rendu volumétrique, tels que NeRF et le Splatting Gaussien 3D (3DGS), font progresser de manière significative la qualité et l'efficacité du rendu grâce au champ de radiance neurale implicite appris ou aux Gaussiennes 3D. En rendu sur une représentation explicite, le 3DGS classique et ses variantes offrent une efficacité en temps réel en optimisant le modèle paramétrique avec une supervision à vue unique par itération pendant l'entraînement, adoptée de NeRF. En conséquence, certaines vues sont surajustées, entraînant une apparence insatisfaisante dans la synthèse de nouvelles vues et des géométries 3D imprécises. Pour résoudre les problèmes mentionnés ci-dessus, nous proposons une nouvelle méthode d'optimisation du 3DGS incorporant quatre contributions clés novatrices : 1) Nous transformons le paradigme d'entraînement à vue unique conventionnel en une stratégie d'entraînement à vues multiples. Avec notre régulation multi-vues proposée, les attributs Gaussiens 3D sont davantage optimisés sans surajustement de certaines vues d'entraînement. En tant que solution générale, nous améliorons la précision globale dans une variété de scénarios et de différentes variantes Gaussiennes. 2) Inspirés par les avantages introduits par des vues supplémentaires, nous proposons en outre un schéma de guidage croisé-intrinsèque, menant à une procédure d'entraînement grossier à fin concernant différentes résolutions. 3) Basé sur notre entraînement régulé multi-vues, nous proposons en outre une stratégie de densification croisée des rayons, densifiant davantage de noyaux Gaussiens dans les régions d'intersection des rayons à partir d'une sélection de vues. 4) En approfondissant la stratégie de densification, nous avons constaté que l'effet de densification devrait être renforcé lorsque certaines vues sont nettement distinctes. En tant que solution, nous proposons une nouvelle stratégie de densification augmentée multi-vues, où les Gaussiennes 3D sont encouragées à être densifiées jusqu'à un nombre suffisant en conséquence, ce qui se traduit par une amélioration de la précision de la reconstruction.
Il y a eu récemment un sentiment croissant selon lequel les modernes grands modèles multimodaux (LMM) ont abordé la plupart des défis clés liés à la compréhension des courtes vidéos. En conséquence, tant le milieu universitaire que l'industrie déplacent progressivement leur attention vers les défis plus complexes posés par la compréhension des vidéos longues. Cependant, est-ce vraiment le cas ? Nos études indiquent que les LMM manquent encore de nombreuses capacités de raisonnement fondamentales même lorsqu'ils traitent de courtes vidéos. Nous introduisons Vinoground, un banc d'essai d'évaluation LMM contrefactuel temporel comprenant 1000 paires de vidéos courtes et naturelles avec légendes. Nous démontrons que les LMM existants ont du mal à distinguer les différences temporelles entre différentes actions et transformations d'objets. Par exemple, le meilleur modèle GPT-4o n'obtient qu'environ 50 % sur nos scores de texte et de vidéo, montrant un écart important par rapport à la référence humaine d'environ 90 %. Tous les modèles multimodaux open-source et les modèles basés sur CLIP se comportent beaucoup moins bien, produisant principalement des performances aléatoires. À travers ce travail, nous mettons en lumière le fait que le raisonnement temporel dans les vidéos courtes est un problème qui reste à résoudre pleinement. Le jeu de données et le code d'évaluation sont disponibles sur https://vinoground.github.io.
Nous explorons l'émergence de comportements intelligents dans des systèmes artificiels en étudiant comment la complexité des systèmes basés sur des règles influence les capacités des modèles entraînés à prédire ces règles. Notre étude se concentre sur les automates cellulaires élémentaires (ECA), des systèmes unidimensionnels simples mais puissants qui génèrent des comportements allant du trivial à hautement complexe. En entraînant différents Grands Modèles de Langage (GML) sur différents ECA, nous avons évalué la relation entre la complexité du comportement des règles et l'intelligence manifestée par les GML, comme reflété dans leurs performances sur des tâches ultérieures. Nos résultats révèlent que les règles avec une complexité plus élevée conduisent à des modèles manifestant une plus grande intelligence, comme le démontre leur performance dans des tâches de raisonnement et de prédiction de coups d'échecs. Les systèmes uniformes et périodiques, et souvent aussi les systèmes hautement chaotiques, ont entraîné des performances ultérieures plus faibles, mettant en évidence un juste équilibre de complexité propice à l'intelligence. Nous conjecturons que l'intelligence découle de la capacité à prédire la complexité et que créer de l'intelligence pourrait nécessiter seulement une exposition à la complexité.
Nous présentons Synthio, une nouvelle approche pour augmenter les ensembles de données de classification audio à petite échelle avec des données synthétiques. Notre objectif est d'améliorer la précision de la classification audio avec des données étiquetées limitées. Les techniques traditionnelles d'augmentation de données, qui appliquent des transformations artificielles (par exemple, ajouter du bruit aléatoire ou masquer des segments), ont du mal à créer des données qui captent la véritable diversité présente dans les audios du monde réel. Pour remédier à cette lacune, nous proposons d'augmenter l'ensemble de données avec des audios synthétiques générés à partir de modèles de diffusion texte-vers-audio (T2A). Cependant, la synthèse d'augmentations efficaces est un défi car les données générées doivent non seulement être acoustiquement cohérentes avec l'ensemble de données à petite échelle sous-jacent, mais elles doivent également présenter une diversité compositionnelle suffisante. Pour surmonter le premier défi, nous alignons les générations du modèle T2A avec l'ensemble de données à petite échelle en utilisant une optimisation de préférence. Cela garantit que les caractéristiques acoustiques des données générées restent cohérentes avec l'ensemble de données à petite échelle. Pour relever le deuxième défi, nous proposons une nouvelle technique de génération de légendes qui exploite les capacités de raisonnement des grands modèles de langage pour (1) générer des légendes audio diverses et significatives et (2) affiner itérativement leur qualité. Les légendes générées sont ensuite utilisées pour solliciter le modèle T2A aligné. Nous évaluons de manière approfondie Synthio sur dix ensembles de données et quatre paramètres de données limitées simulées. Les résultats indiquent que notre méthode surpasse systématiquement toutes les lignes de base de 0,1 % à 39 % en utilisant un modèle T2A entraîné uniquement sur AudioSet faiblement légendé.
Nous démontrons que de petits modèles de langage génératif pré-entraînés avec des millions de paramètres peuvent apprendre les règles latentes d'un processus à partir des données associées audit processus. Inspirés par la nouvelle de Stefan Zweig "Schachnovelle," également connue sous le nom de "The Royal Game" en anglais, nous montrons que des petits modèles de langage fondamentaux pré-entraînés avec 28M et 125M de paramètres peuvent être affinés par instruction avec 1 000 à 1 000 000 exemples pour apprendre les règles des échecs, proposer des coups légaux et résoudre avec précision des problèmes d'échecs. Nous explorons également l'impact des époques successives d'affinage du modèle de langage sur des résultats améliorés et démontrons des réductions des hallucinations du modèle en augmentant le nombre d'exemples d'affinage par instruction.
La fusion de modèles, telle que le "model souping", consiste à combiner différents modèles ayant la même architecture sans effectuer de nouvel entraînement. Dans ce travail, nous présentons une méthodologie de fusion de modèles qui aborde la difficulté de l'adaptation fine des Grands Modèles de Langage (GML) pour des tâches cibles dans des langues autres que l'anglais, où les données spécifiques à la tâche sont souvent indisponibles. Nous nous concentrons sur le raisonnement mathématique et, sans données mathématiques dans la langue cible, nous facilitons le transfert interlingue en combinant les capacités linguistiques et mathématiques. À partir du même modèle pré-entraîné, nous adaptons finement des "experts" distincts sur des données d'instructions mathématiques en anglais et sur des données d'instructions génériques dans la langue cible. Nous remplaçons ensuite directement les couches supérieures et inférieures du transformateur de l'expert en mathématiques par des couches de l'expert en langues, ce qui améliore par conséquent les performances mathématiques dans la langue cible. Les modèles fusionnés résultants surpassent les experts individuels et d'autres méthodes de fusion sur le banc d'essai mathématique, MGSM, de 10 % dans quatre langues majeures où les données d'instructions mathématiques sont rares. De plus, cet échange de couches est simple, peu coûteux et intuitif, car il est basé sur une analyse interprétative des changements de paramètres les plus importants lors de l'adaptation fine de chaque expert. La capacité à recomposer avec succès des GML pour le transfert interlingue de cette manière ouvre de futures possibilités pour combiner l'expertise des modèles, créer des solutions modulaires et transférer les capacités de raisonnement entre les langues a posteriori.
Les récents progrès dans les Modèles de Langage 3D Large (3DLLMs) ont mis en lumière leur potentiel dans la construction d'agents polyvalents dans le monde réel en 3D, cependant des défis persistent en raison du manque de données robustes de haute qualité pour suivre des instructions, ce qui limite le pouvoir discriminatif et la généralisation des 3DLLMs. Dans cet article, nous présentons Robin3D, un puissant 3DLLM entraîné sur des données de suivi d'instructions à grande échelle générées par notre moteur de données novateur, Robust Instruction Generation (RIG). RIG génère deux types de données d'instructions clés : 1) les données d'Adversarial Instruction-following, qui présentent des échantillons négatifs et positifs mélangés pour améliorer la compréhension discriminative du modèle. 2) les données de Diverse Instruction-following, qui contiennent divers styles d'instructions pour améliorer la généralisation du modèle. En conséquence, nous construisons un million de données de suivi d'instructions, comprenant 344K échantillons Adversarial, 508K échantillons Diverse, et 165K échantillons de l'ensemble d'entraînement de référence. Pour mieux gérer ces instructions complexes, Robin3D intègre d'abord un Projecteur Augmenté par Relation pour améliorer la compréhension spatiale, puis renforce la capacité de référencement et d'ancrage d'objets grâce à l'ID-Feature Bonding. Robin3D surpasse de manière constante les méthodes précédentes sur cinq benchmarks d'apprentissage multimodal 3D largement utilisés, sans nécessiter de fine-tuning spécifique à la tâche. Notamment, nous obtenons une amélioration de 7,8\% dans la tâche d'ancrage (Multi3DRefer) et une amélioration de 6,9\% dans la tâche de légendage (Scan2Cap).
Le fine-tuning basé sur des prompts est devenu une méthode essentielle pour extraire des informations encodées dans des modèles de langage pré-entraînés pour une variété de tâches, y compris la classification de texte. Pour les tâches de classification multi-classe, le fine-tuning basé sur des prompts dans des scénarios à faibles ressources a conduit à des niveaux de performance comparables à ceux des méthodes de fine-tuning complet. Des études antérieures ont utilisé des modèles de prompts élaborés et des verbaliseurs, faisant correspondre l'espace des termes d'étiquette à l'espace de classe, pour résoudre le problème de classification en tant que tâche de modélisation de langage masqué. Cependant, le fine-tuning basé sur des prompts croisés et raffiné avec un verbaliseur automatiquement enrichi reste inexploré, principalement en raison de la difficulté et des coûts de sélection manuelle des termes d'étiquette de domaine pour le verbaliseur, nécessitant des humains avec une expertise de domaine. Pour relever ce défi, nous introduisons SciPrompt, un cadre conçu pour récupérer automatiquement des termes liés aux sujets scientifiques pour des tâches de classification de texte à faibles ressources. À cette fin, nous sélectionnons des termes d'étiquette sémantiquement corrélés et spécifiques au domaine dans le contexte de la littérature scientifique pour l'augmentation du verbaliseur. De plus, nous proposons une nouvelle stratégie de verbalisation qui utilise des scores de corrélation comme poids supplémentaires pour améliorer les performances de prédiction du modèle de langage lors du réglage du modèle. Notre méthode surpasse les méthodes de fine-tuning basées sur des prompts de pointe sur des tâches de classification de texte scientifique dans des paramètres à faible et zéro-shot, en particulier dans la classification de sujets scientifiques fins et émergents.