Articles de recherche en IA sélectionnés quotidiennement avec traductions
Permettre aux LLM d'améliorer leurs sorties en utilisant davantage de calcul au moment du test constitue une étape cruciale vers la construction d'agents capables de s'améliorer de manière générale et d'opérer sur du langage naturel ouvert. Dans cet article, nous étudions la mise à l'échelle du calcul au moment de l'inférence dans les LLM, en nous concentrant sur la question suivante : si un LLM est autorisé à utiliser une quantité fixe mais non négligeable de calcul au moment de l'inférence, dans quelle mesure peut-il améliorer ses performances sur une tâche complexe ? Répondre à cette question a des implications non seulement sur les performances réalisables des LLM, mais aussi sur l'avenir du pré-entraînement des LLM et sur la manière dont il faut équilibrer le calcul au moment de l'inférence et celui du pré-entraînement. Malgré son importance, peu de recherches ont tenté de comprendre les comportements de mise à l'échelle de diverses méthodes d'inférence au moment du test. De plus, les travaux actuels fournissent largement des résultats négatifs pour un certain nombre de ces stratégies. Dans ce travail, nous analysons deux mécanismes principaux pour mettre à l'échelle le calcul au moment du test : (1) la recherche contre des modèles de récompense vérificateurs denses et basés sur des processus ; et (2) la mise à jour adaptative de la distribution du modèle sur une réponse, en fonction de la tâche au moment du test. Nous constatons que dans les deux cas, l'efficacité des différentes approches pour mettre à l'échelle le calcul au moment du test varie de manière critique en fonction de la difficulté de la tâche. Cette observation motive l'application d'une stratégie de mise à l'échelle "optimale en termes de calcul", qui vise à allouer de manière la plus efficace le calcul au moment du test de manière adaptative par tâche. En utilisant cette stratégie optimale en termes de calcul, nous pouvons améliorer l'efficacité de la mise à l'échelle du calcul au moment du test de plus de 4 fois par rapport à une base de référence de type "best-of-N". De plus, dans une évaluation équivalente en termes de FLOPs, nous constatons que sur des problèmes où un modèle de base plus petit atteint des taux de succès quelque peu non négligeables, le calcul au moment du test peut être utilisé pour surpasser un modèle 14 fois plus grand.
La capacité à traiter plusieurs images est cruciale pour les Grands Modèles Vision-Langage (LVLMs) afin de développer une compréhension plus approfondie et nuancée d'une scène. Les récents LVLMs multi-images ont commencé à répondre à ce besoin. Cependant, leur évaluation n'a pas suivi le rythme de leur développement. Pour combler cette lacune, nous introduisons le benchmark Multimodal Multi-image Understanding (MMIU), une suite d'évaluation complète conçue pour évaluer les LVLMs sur une large gamme de tâches multi-images. MMIU englobe 7 types de relations multi-images, 52 tâches, 77K images et 11K questions à choix multiples soigneusement élaborées, ce qui en fait le benchmark le plus étendu de son genre. Notre évaluation de 24 LVLMs populaires, incluant à la fois des modèles open-source et propriétaires, révèle des défis significatifs dans la compréhension multi-image, en particulier dans les tâches impliquant la compréhension spatiale. Même les modèles les plus avancés, tels que GPT-4o, n'atteignent qu'une précision de 55,7 % sur MMIU. À travers des expériences analytiques multidimensionnelles, nous identifions les lacunes et limitations clés en matière de performance, fournissant des insights précieux pour les futures améliorations des modèles et des données. Nous visons à ce que MMIU fasse progresser la recherche et le développement des LVLMs, nous rapprochant ainsi d'interactions utilisateur multimodales multi-images sophistiquées.
Nous présentons LLaVA-OneVision, une famille de modèles multimodaux ouverts de grande taille (LMMs) développée en consolidant nos insights sur les données, les modèles et les représentations visuelles dans la série de blogs LLaVA-NeXT. Nos résultats expérimentaux démontrent que LLaVA-OneVision est le premier modèle unique capable de repousser simultanément les limites de performance des LMMs ouverts dans trois scénarios importants de vision par ordinateur : les scénarios à image unique, à images multiples et à vidéo. De manière cruciale, la conception de LLaVA-OneVision permet un transfert d'apprentissage robuste à travers différentes modalités/scénarios, engendrant de nouvelles capacités émergentes. En particulier, une compréhension vidéo robuste et des capacités transversales sont démontrées grâce au transfert de tâches des images vers les vidéos.
Nous présentons une nouvelle approche pour générer des modèles 3D réalistes avec des cartes UV à travers une représentation appelée "Object Images". Cette approche encapsule la géométrie de surface, l'apparence et les structures de patchs dans une image de 64x64 pixels, convertissant ainsi efficacement des formes 3D complexes en un format 2D plus facile à manipuler. Ce faisant, nous abordons les défis liés à l'irrégularité géométrique et sémantique inhérente aux maillages polygonaux. Cette méthode nous permet d'utiliser directement des modèles de génération d'images, tels que les Diffusion Transformers, pour la génération de formes 3D. Évaluée sur le jeu de données ABO, nos formes générées avec des structures de patchs atteignent un FID de nuage de points comparable aux modèles génératifs 3D récents, tout en supportant naturellement la génération de matériaux PBR.
Cet article présente MedTrinity-25M, un ensemble de données multimodal à grande échelle et complet pour la médecine, couvrant plus de 25 millions d'images réparties sur 10 modalités, avec des annotations multigranulaires pour plus de 65 maladies. Ces annotations enrichies incluent à la fois des informations textuelles globales, telles que le type de maladie/lésion, la modalité, les descriptions spécifiques à une région et les relations inter-régionales, ainsi que des annotations locales détaillées pour les régions d'intérêt (ROIs), comprenant des boîtes englobantes et des masques de segmentation. Contrairement aux approches existantes limitées par la disponibilité de paires image-texte, nous avons développé le premier pipeline automatisé qui met à l'échelle les données multimodales en générant des annotations visuelles et textuelles multigranulaires (sous forme de triplets image-ROI-description) sans nécessiter de descriptions textuelles appariées. Plus précisément, des données provenant de plus de 90 sources différentes ont été collectées, prétraitées et ancrées à l'aide de modèles experts spécifiques au domaine pour identifier les ROIs liées aux régions anormales. Nous avons ensuite construit une base de connaissances complète et incité des modèles de langage multimodaux à grande échelle à effectuer une génération augmentée par récupération avec les ROIs identifiées comme guide, aboutissant à des descriptions textuelles multigranulaires. Par rapport aux ensembles de données existants, MedTrinity-25M fournit les annotations les plus enrichies, supportant une gamme complète de tâches multimodales telles que la génération de légendes et de rapports, ainsi que des tâches centrées sur la vision comme la classification et la segmentation. En pré-entraînant sur MedTrinity-25M, notre modèle atteint des performances de pointe sur VQA-RAD et PathVQA, surpassant à la fois les modèles de langage multimodaux à grande échelle et d'autres approches représentatives de l'état de l'art. Cet ensemble de données peut également être utilisé pour soutenir le pré-entraînement à grande échelle de modèles d'IA médicaux multimodaux, contribuant au développement de futurs modèles de base dans le domaine médical.
Les modèles de diffusion repoussent continuellement les limites de l'état de l'art en génération d'images, mais le processus est difficile à contrôler avec nuance : la pratique montre que les invites textuelles sont insuffisantes pour décrire avec précision le style d'une image ou ses détails structurels fins (comme les visages). ControlNet et IPAdapter pallient cette lacune en conditionnant le processus génératif sur des images, mais chaque instance est limitée à la modélisation d'une seule distribution conditionnelle a posteriori : pour des cas d'utilisation pratiques, où plusieurs distributions a posteriori différentes sont souhaitées dans le même flux de travail, l'entraînement et l'utilisation de plusieurs adaptateurs s'avèrent fastidieux. Nous proposons IPAdapter-Instruct, qui combine le conditionnement sur des images naturelles avec des invites de type « Instruct » pour alterner entre différentes interprétations d'une même image de conditionnement : transfert de style, extraction d'objet, les deux, ou encore autre chose ? IPAdapter-Instruct apprend efficacement plusieurs tâches avec une perte de qualité minimale par rapport à des modèles dédiés à chaque tâche.
Une ligne de recherche croissante s'intéresse à la vérification de l'exactitude des sorties des modèles de langage. Parallèlement, ces modèles sont utilisés pour traiter des requêtes complexes nécessitant un raisonnement. Nous présentons CoverBench, un benchmark exigeant axé sur la vérification des sorties des modèles de langage dans des contextes de raisonnement complexe. Les ensembles de données utilisables à cette fin sont souvent conçus pour d'autres tâches de raisonnement complexe (par exemple, question-réponse) ciblant des cas d'usage spécifiques (par exemple, tableaux financiers), nécessitant des transformations, un échantillonnage négatif et une sélection d'exemples difficiles pour constituer un tel benchmark. CoverBench propose une évaluation diversifiée pour la vérification de déclarations complexes dans divers domaines, types de raisonnement, entrées relativement longues, et une variété de standardisations, telles que des représentations multiples pour les tableaux lorsqu'elles sont disponibles, et un schéma cohérent. Nous vérifions manuellement la qualité des données pour garantir un faible niveau de bruit dans les étiquettes. Enfin, nous rapportons divers résultats de base compétitifs pour montrer que CoverBench est exigeant et offre une marge d'amélioration très significative. Les données sont disponibles à l'adresse suivante : https://huggingface.co/datasets/google/coverbench.
Cet article démontre comment utiliser des modèles génératifs entraînés pour la synthèse d'images comme outils pour l'exploration visuelle de données. Notre idée est que, puisque les modèles génératifs contemporains apprennent une représentation précise de leurs données d'entraînement, nous pouvons les utiliser pour résumer ces données en extrayant des motifs visuels. Concrètement, nous montrons qu'après avoir affiné des modèles de diffusion conditionnelle pour synthétiser des images à partir d'un ensemble de données spécifique, nous pouvons utiliser ces modèles pour définir une mesure de typicité sur cet ensemble. Cette mesure évalue à quel point les éléments visuels sont typiques pour différentes étiquettes de données, telles que la localisation géographique, les horodatages, les étiquettes sémantiques, ou même la présence d'une maladie. Cette approche d'analyse par synthèse pour l'exploration de données présente deux avantages clés. Premièrement, elle est bien plus scalable que les approches traditionnelles basées sur la correspondance, car elle ne nécessite pas de comparer explicitement toutes les paires d'éléments visuels. Deuxièmement, alors que la plupart des travaux précédents sur l'exploration visuelle de données se concentrent sur un seul ensemble de données, notre approche fonctionne sur des ensembles de données diversifiés en termes de contenu et d'échelle, incluant un ensemble de données historiques de voitures, un ensemble de données historiques de visages, un vaste ensemble de données de vues de rues à l'échelle mondiale, et un ensemble de données de scènes encore plus large. De plus, notre approche permet de traduire des éléments visuels entre différentes étiquettes de classe et d'analyser les changements cohérents.
La synchronisation labiale de vidéos avec un audio donné constitue la base de diverses applications, notamment la création de présentateurs ou d'artistes virtuels. Bien que des études récentes explorent la synchronisation labiale haute fidélité avec différentes techniques, leurs modèles orientés tâche nécessitent soit des vidéos de longue durée pour un entraînement spécifique à un clip, soit conservent des artefacts visibles. Dans cet article, nous proposons un cadre unifié et efficace, ReSyncer, qui synchronise les informations audio-visuelles faciales généralisées. La conception clé consiste à revisiter et à réorganiser le générateur basé sur le style pour adopter efficacement les dynamiques faciales 3D prédites par un Transformer injecté de style et basé sur des principes. En reconfigurant simplement les mécanismes d'insertion d'informations dans l'espace de bruit et de style, notre cadre fusionne le mouvement et l'apparence avec un entraînement unifié. Des expériences approfondies démontrent que ReSyncer produit non seulement des vidéos synchronisées labialement de haute fidélité selon l'audio, mais prend également en charge plusieurs propriétés attrayantes adaptées à la création de présentateurs et d'artistes virtuels, y compris un réglage fin personnalisé rapide, une synchronisation labiale pilotée par vidéo, le transfert de styles de parole et même l'échange de visages. Les ressources peuvent être trouvées à l'adresse https://guanjz20.github.io/projects/ReSyncer.
L'évaluation est le pilier du développement des grands modèles de langage. Les évaluations actuelles utilisent généralement un paradigme d'évaluation à un seul item pour chaque objectif de test atomique, ce qui peine à déterminer si un modèle possède véritablement les capacités requises ou s'il se contente de mémoriser/deviner les réponses à des questions spécifiques. Pour remédier à cela, nous proposons un nouveau cadre d'évaluation appelé StructEval. Partant d'un objectif de test atomique, StructEval approfondit et élargit l'évaluation en réalisant une évaluation structurée à travers plusieurs niveaux cognitifs et concepts critiques, offrant ainsi une évaluation complète, robuste et cohérente pour les grands modèles de langage. Les expériences menées sur trois benchmarks largement utilisés démontrent que StructEval constitue un outil fiable pour résister au risque de contamination des données et réduire l'interférence des biais potentiels, fournissant ainsi des conclusions plus fiables et cohérentes concernant les capacités des modèles. Notre cadre éclaire également la conception de futurs protocoles d'évaluation des grands modèles de langage, à la fois principiels et dignes de confiance.
L'écart de capacité entre les modèles de langage à grande échelle (LLM) open-source et propriétaires reste un défi dans les tâches de conversion texte-SQL. Dans cet article, nous présentons une approche de données synthétiques qui combine des données produites par des modèles plus grands et plus puissants (modèles forts) avec des informations d'erreur générées par des modèles plus petits et moins bien alignés (modèles faibles). Cette méthode améliore non seulement la généralisation des modèles texte-SQL à différents domaines, mais explore également le potentiel de la supervision par données d'erreur via l'apprentissage par préférence. De plus, nous utilisons l'approche de données synthétiques pour l'ajustement par instruction sur des LLM open-source, aboutissant à SENSE, un modèle texte-SQL spécialisé. L'efficacité de SENSE est démontrée par des résultats de pointe sur les benchmarks SPIDER et BIRD, réduisant ainsi l'écart de performance entre les modèles open-source et les méthodes utilisant des modèles propriétaires.
Récemment, les modèles basés sur des transformers ont démontré des performances remarquables dans les tâches de segmentation audio-visuelle (AVS). Cependant, leur coût computationnel élevé rend l'inférence en temps réel peu pratique. En caractérisant les cartes d'attention du réseau, nous identifions deux obstacles majeurs dans les modèles AVS : 1) la dissipation de l'attention, correspondant aux poids d'attention trop concentrés par Softmax dans des trames restreintes, et 2) un décodeur transformer inefficace et encombrant, causé par des motifs de focalisation étroite dans les premières étapes. Dans cet article, nous présentons AVESFormer, le premier transformer de segmentation audio-visuelle efficace en temps réel, qui combine rapidité, efficacité et légèreté. Notre modèle exploite un générateur de requêtes prompt efficace pour corriger le comportement de l'attention croisée. De plus, nous proposons un décodeur ELF pour accroître l'efficacité en facilitant les convolutions adaptées aux caractéristiques locales, réduisant ainsi la charge computationnelle. Des expériences approfondies montrent que notre AVESFormer améliore significativement les performances du modèle, atteignant 79,9 % sur S4, 57,9 % sur MS3 et 31,2 % sur AVSS, surpassant les précédents modèles de pointe et offrant un excellent compromis entre performance et vitesse. Le code est disponible à l'adresse https://github.com/MarkXCloud/AVESFormer.git.