Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles vision-langage (VLM) se sont distingués dans les tâches multimodales, mais les adapter à la prise de décision incarnée dans des environnements ouverts pose des défis. Un problème clé réside dans la difficulté à connecter de manière fluide les entités individuelles dans les observations de bas niveau avec les concepts abstraits nécessaires à la planification. Une approche courante pour résoudre ce problème est l'utilisation d'agents hiérarchiques, où les VLM agissent en tant que raisonneurs de haut niveau qui décomposent les tâches en sous-tâches exécutables, généralement spécifiées à l'aide du langage et d'observations imaginées. Cependant, le langage échoue souvent à transmettre efficacement les informations spatiales, tandis que la génération d'images futures avec une précision suffisante reste un défi. Pour remédier à ces limitations, nous proposons un protocole de communication novateur entre les VLM et les modèles de politique, appelé incitation contextuelle visuelle-temporelle. Ce protocole exploite la segmentation d'objets à partir des observations passées et présentes pour guider les interactions politique-environnement. En utilisant cette approche, nous formons ROCKET-1, une politique de bas niveau qui prédit les actions en se basant sur des observations visuelles concaténées et des masques de segmentation, avec un suivi d'objets en temps réel fourni par SAM-2. Notre méthode libère tout le potentiel des capacités de raisonnement visuel-langage des VLM, leur permettant de résoudre des tâches créatives complexes, en particulier celles fortement dépendantes de la compréhension spatiale. Des expériences dans Minecraft démontrent que notre approche permet aux agents d'accomplir des tâches auparavant inaccessibles, mettant en évidence l'efficacité de l'incitation contextuelle visuelle-temporelle dans la prise de décision incarnée. Les codes et démonstrations seront disponibles sur la page du projet : https://craftjarvis.github.io/ROCKET-1.
Le succès des modèles de transformer autorégressifs avec des jetons discrets a inspiré des approches basées sur la quantification pour les modalités continues, bien que celles-ci limitent souvent la qualité de la reconstruction. Nous introduisons donc SALAD, un modèle de diffusion latente par jeton pour la synthèse vocale zéro-shot, qui fonctionne sur des représentations continues. SALAD s'appuie sur la tête de diffusion expressive récemment proposée pour la génération d'images, et l'étend pour générer des sorties de longueurs variables. Notre approche utilise des jetons sémantiques pour fournir des informations contextuelles et déterminer la condition d'arrêt. Nous proposons trois variantes continues pour notre méthode, étendant des techniques populaires de synthèse vocale discrète. De plus, nous mettons en œuvre des références discrètes pour chaque variante et réalisons une analyse comparative des techniques de modélisation de la parole discrète par rapport aux techniques continues. Nos résultats montrent que les approches continues et discrètes sont très compétentes, et que SALAD obtient un score d'intelligibilité supérieur tout en obtenant une qualité de parole et une similarité de locuteur comparables à l'audio de référence.
L'électrocardiogramme (ECG) est un outil de diagnostic essentiel non invasif pour évaluer les conditions cardiaques. Les méthodes d'interprétation automatique existantes souffrent d'une généralisabilité limitée, se concentrant sur une gamme étroite de conditions cardiaques, et dépendent généralement de signaux physiologiques bruts, qui peuvent ne pas être facilement disponibles dans des environnements à ressources limitées où seules des images ECG imprimées ou numériques sont accessibles. Les récentes avancées dans les grands modèles de langage multimodaux (MLLM) offrent des opportunités prometteuses pour relever ces défis. Cependant, l'application des MLLM à l'interprétation d'images ECG reste difficile en raison du manque de jeux de données d'accord d'instruction et de références d'images ECG bien établies pour l'évaluation quantitative. Pour relever ces défis, nous présentons ECGInstruct, un ensemble de données complet d'accord d'instruction d'images ECG de plus d'un million d'échantillons, couvrant un large éventail de tâches liées à l'ECG à partir de sources de données diverses. En utilisant ECGInstruct, nous développons PULSE, un MLLM adapté à la compréhension des images ECG. De plus, nous constituons ECGBench, un nouveau banc d'essai couvrant quatre tâches clés d'interprétation d'images ECG à travers neuf ensembles de données différents. Nos expériences montrent que PULSE établit un nouvel état de l'art, surpassant les MLLM généraux avec une amélioration moyenne de la précision de 15 % à 30 %. Ce travail met en lumière le potentiel de PULSE pour améliorer l'interprétation des ECG en pratique clinique.
Dans cet article, nous présentons \textit{FasterCache}, une stratégie novatrice sans entraînement conçue pour accélérer l'inférence des modèles de diffusion vidéo avec une génération de haute qualité. En analysant les méthodes existantes basées sur le cache, nous observons que la réutilisation directe des caractéristiques des étapes adjacentes dégrade la qualité vidéo en raison de la perte de variations subtiles. Nous menons ensuite une enquête pionnière sur le potentiel d'accélération du guidage sans classificateur (CFG) et révélons une redondance significative entre les caractéristiques conditionnelles et inconditionnelles au sein de la même étape temporelle. Capitalisant sur ces observations, nous introduisons FasterCache pour accélérer de manière significative la génération vidéo basée sur la diffusion. Nos principales contributions comprennent une stratégie de réutilisation dynamique des caractéristiques qui préserve à la fois la distinction des caractéristiques et la continuité temporelle, et CFG-Cache qui optimise la réutilisation des sorties conditionnelles et inconditionnelles pour améliorer davantage la vitesse d'inférence sans compromettre la qualité vidéo. Nous évaluons empiriquement FasterCache sur des modèles récents de diffusion vidéo. Les résultats expérimentaux montrent que FasterCache peut accélérer de manière significative la génération vidéo (par exemple, un gain de vitesse de 1,67 fois sur Vchitect-2.0) tout en maintenant une qualité vidéo comparable à celle de la référence, et surpasser de manière constante les méthodes existantes à la fois en termes de vitesse d'inférence et de qualité vidéo.
La capacité de comprendre l'audio - comprenant la parole, les sons non verbaux et la musique - est cruciale pour que les agents d'IA interagissent efficacement avec le monde. Nous présentons MMAU, un nouveau banc d'essai conçu pour évaluer les modèles de compréhension audio multimodale sur des tâches nécessitant une connaissance de niveau expert et un raisonnement complexe. MMAU comprend 10 000 extraits audio soigneusement sélectionnés, associés à des questions et réponses en langage naturel annotées par des humains, couvrant la parole, les sons environnementaux et la musique. Il inclut des questions d'extraction d'informations et de raisonnement, obligeant les modèles à démontrer 27 compétences distinctes à travers des tâches uniques et complexes. Contrairement aux bancs d'essai existants, MMAU met l'accent sur la perception avancée et le raisonnement avec des connaissances spécifiques au domaine, défiant les modèles à relever des tâches similaires à celles auxquelles sont confrontés les experts. Nous évaluons 18 modèles audio-langage (Large) open-source et propriétaires, mettant en évidence les défis significatifs posés par MMAU. Notamment, même le plus avancé des modèles Gemini Pro v1.5 n'atteint qu'une précision de 52,97 %, et le modèle open-source de pointe Qwen2-Audio n'atteint que 52,50 %, soulignant un potentiel d'amélioration considérable. Nous pensons que MMAU incitera la communauté de recherche en audio et multimodal à développer des modèles de compréhension audio plus avancés capables de résoudre des tâches audio complexes.
Les modèles Vision-Language (VLMs) ont récemment progressé de manière significative, mais l'échelle limitée et la qualité des données d'instructions open-source entravent leurs performances par rapport aux modèles closed-source. Dans ce travail, nous abordons cette limitation en introduisant Infinity-MM, un ensemble de données d'instructions multimodal à grande échelle comprenant 40 millions d'échantillons, amélioré grâce à un filtrage de qualité rigoureux et à une déduplication. Nous proposons également une méthode de génération d'instructions synthétiques basée sur des VLMs open-source, en utilisant des annotations d'images détaillées et une génération de questions diversifiée. En utilisant ces données, nous avons entraîné un VLM de 2 milliards de paramètres, Aquila-VL-2B, atteignant des performances de pointe (SOTA) pour des modèles de taille similaire. Cela démontre que l'expansion des données d'instructions et la génération de données synthétiques peuvent considérablement améliorer les performances des modèles open-source.
La prolifération des grands modèles de langage (LLM) a conduit à l'adoption d'architectures Mixture-of-Experts (MoE) qui exploitent dynamiquement des sous-réseaux spécialisés pour une efficacité et des performances améliorées. Malgré leurs avantages, les modèles MoE rencontrent des défis significatifs lors de l'inférence, notamment une gestion inefficace de la mémoire et un regroupement sous-optimal, en raison de choix de conception mal alignés entre l'architecture du modèle et les politiques du système. De plus, l'approche conventionnelle consistant à entraîner les MoE à partir de zéro devient de plus en plus prohibitive en termes de coût. Dans cet article, nous proposons un nouveau cadre, Read-ME, qui transforme les LLM denses pré-entraînés en modèles MoE plus petits (par opposition à la "valorisation" des MoE généralistes), évitant les coûts élevés de l'entraînement à partir de zéro. Notre approche utilise la sparsité de l'activation pour extraire des experts. Pour composer les experts, nous examinons la conception de routeur couche par couche largement adoptée et montrons sa redondance, et introduisons donc le routeur de pré-porte découplé de l'épine dorsale MoE qui facilite la pré-computation conviviale du système et la planification anticipée, améliorant le regroupement et la mise en cache conscients des experts. Notre coconception aborde donc les lacunes critiques à la fois sur les plans algorithmique et système, établissant une alternative évolutive et efficace pour l'inférence LLM dans des environnements contraints en ressources. Read-ME surpasse d'autres modèles denses open-source populaires de tailles similaires, obtenant des améliorations allant jusqu'à 10,1% sur MMLU, et améliorant la latence moyenne de bout en bout jusqu'à 6,1%. Les codes sont disponibles sur : https://github.com/VITA-Group/READ-ME.
Les référentiels de traitement automatique du langage naturel reposent sur des ensembles de données normalisés pour l'entraînement et l'évaluation des modèles, et sont cruciaux pour faire progresser le domaine. Traditionnellement, les annotations d'experts garantissent des étiquettes de haute qualité ; cependant, le coût de l'annotation par des experts n'évolue pas de manière optimale avec la demande croissante de jeux de données plus importants nécessaires aux modèles modernes. Alors que le recours à la foule offre une solution plus évolutive, cela se fait souvent au détriment de la précision et de la cohérence des annotations. Les récentes avancées dans les grands modèles de langage (LLM) offrent de nouvelles opportunités pour améliorer le processus d'annotation, en particulier pour détecter les erreurs d'étiquetage dans les ensembles de données existants. Dans ce travail, nous examinons l'approche récente du LLM en tant que juge, en exploitant un ensemble de LLM pour signaler les exemples potentiellement mal étiquetés. À travers une étude de cas portant sur quatre ensembles de données de l'ensemble TRUE, couvrant différentes tâches et domaines, nous analysons empiriquement la qualité de l'étiquetage des ensembles de données existants, et comparons les annotations d'experts, de la foule et basées sur notre LLM en termes d'accord, de qualité d'étiquetage et d'efficacité, démontrant les forces et les limites de chaque méthode d'annotation. Nos résultats révèlent un nombre substantiel d'erreurs d'étiquetage, qui, une fois corrigées, entraînent une augmentation significative des performances des modèles rapportées. Cela suggère que bon nombre des prétendues erreurs des LLM sont dues à des erreurs d'étiquetage plutôt qu'à de véritables échecs du modèle. De plus, nous discutons des implications des données mal étiquetées et proposons des méthodes pour les atténuer lors de l'entraînement afin d'améliorer les performances des modèles.
Les Transformers, l'épine dorsale des modèles de langage à grande échelle (LLM) modernes, rencontrent des limitations architecturales inhérentes qui entravent leurs capacités de raisonnement. Contrairement aux réseaux récurrents, les Transformers manquent de connexions récurrentes, les confinant à une computation de profondeur constante. Cette restriction les place dans la classe de complexité TC^0, les rendant théoriquement incapables de résoudre des tâches exigeant un raisonnement de plus en plus profond à mesure que la longueur de l'entrée augmente. Le comptage, composante fondamentale de nombreuses tâches de raisonnement, nécessite également une profondeur de raisonnement croissante pour être effectué de manière inductive. Alors que des études antérieures ont établi les limites supérieures de la capacité de comptage dans les modèles experts basés sur les Transformers (c'est-à-dire, les modèles spécifiquement entraînés pour des tâches de comptage), ces résultats ne s'étendent pas directement aux LLM polyvalents en raison de différences dans les mécanismes de raisonnement. Des travaux récents ont souligné comment le raisonnement en chaîne de pensée (CoT) peut contribuer à atténuer certaines des limitations architecturales des Transformers dans les tâches de comptage. Cependant, peu d'attention a été accordée au rôle de la tokenisation dans ces modèles. Contrairement aux modèles experts qui utilisent souvent une tokenisation au niveau des caractères, les LLM s'appuient généralement sur des tokeniseurs au niveau des octets (BPE), ce qui modifie fondamentalement la manière dont le raisonnement est traité. Notre travail examine l'impact de la tokenisation sur les capacités de comptage des LLM, révélant d'importantes variations de performance en fonction des différences de tokenisation d'entrée. Nous proposons à la fois des analyses théoriques et expérimentales, offrant des perspectives sur la manière dont les choix de tokenisation peuvent compromettre la computabilité théorique des modèles, inspirant ainsi la conception de nouvelles méthodes de tokenisation pour améliorer le raisonnement dans les LLM.
Apprendre à partir des retours humains a permis l'alignement des modèles de langage (LM) avec les préférences humaines. Cependant, collecter directement les préférences humaines peut être coûteux, chronophage et présenter une forte variance. Une alternative attrayante est de distiller les préférences des LM en tant que source d'annotations synthétiques car elles sont plus cohérentes, moins chères et plus évolutives que les annotations humaines ; cependant, elles sont également sujettes aux biais et aux erreurs. Dans ce travail, nous introduisons un cadre de routage qui combine les entrées des humains et des LM pour obtenir une meilleure qualité d'annotation, tout en réduisant le coût total de l'annotation humaine. L'essence de notre approche est d'identifier les instances de préférence qui bénéficieront des annotations humaines. Nous formulons cela comme un problème d'optimisation : étant donné un ensemble de données de préférences et une métrique d'évaluation, nous entraînons un modèle de prédiction des performances pour prédire les performances d'un modèle de récompense sur une combinaison arbitraire d'annotations humaines et de LM, et utilisons une stratégie de routage qui sélectionne une combinaison maximisant les performances prédites. Nous entraînons le modèle de prédiction des performances sur MultiPref, un nouvel ensemble de données de préférences avec 10 000 instances associées à des étiquettes humaines et LM. Nous montrons que le mélange hybride sélectionné de préférences LM et humaines directes à l'aide de notre cadre de routage obtient de meilleures performances du modèle de récompense par rapport à l'utilisation exclusive de l'un ou de l'autre. Nous simulons la collecte sélective de préférences humaines sur trois autres ensembles de données et montrons que notre méthode généralise bien à tous les trois. Nous analysons les caractéristiques du modèle de routage pour identifier les instances qui peuvent bénéficier des retours humains, par exemple, les invites avec un niveau de préoccupation modéré en termes de sécurité ou une complexité d'intention modérée. Nous mettons à disposition l'ensemble de données, la plateforme d'annotation et le code source utilisés dans cette étude pour favoriser une collecte de préférences plus efficace et précise à l'avenir.
Des études récentes ont identifié un facteur aggravant des hallucinations des LLM comme l'incohérence des connaissances entre la pré-formation et le fine-tuning, où des données de fine-tuning non familières induisent en erreur le LLM pour produire des sorties plausibles mais incorrectes. Dans cet article, nous proposons une nouvelle stratégie de fine-tuning appelée Prereq-Tune pour résoudre cette incohérence des connaissances et réduire les hallucinations. Fondamentalement, Prereq-Tune démêle l'apprentissage des compétences et des connaissances, de sorte que le modèle n'apprend que les compétences de la tâche sans être affecté par l'incohérence des connaissances. Pour y parvenir, Prereq-Tune introduit une étape d'apprentissage préalable supplémentaire pour acquérir les connaissances nécessaires à SFT, permettant ainsi à SFT ultérieur de se concentrer uniquement sur les compétences de la tâche. Prereq-Tune peut également être combiné avec des données synthétiques fictives pour renforcer l'ancrage des sorties de LLM à leurs connaissances internes. Les expériences montrent que Prereq-Tune surpasse les bases existantes en améliorant la factualité des LLM sur des tâches de questions-réponses courtes et de génération de longs textes. Il ouvre également de nouvelles possibilités pour la génération contrôlée par les connaissances dans les LLM. Notre code est disponible sur https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
Les grands modèles de langage (LLM) peuvent stocker une quantité significative de connaissances factuelles dans leurs paramètres. Cependant, leurs connaissances paramétriques peuvent entrer en conflit avec les informations fournies dans le contexte. De tels conflits peuvent entraîner un comportement indésirable du modèle, comme une dépendance à des informations obsolètes ou incorrectes. Dans ce travail, nous examinons si les LLM peuvent identifier les conflits de connaissances et s'il est possible de savoir sur quelle source de connaissances le modèle va s'appuyer en analysant le flux résiduel du LLM. À travers des tâches de sondage, nous constatons que les LLM peuvent enregistrer internement le signal de conflit de connaissances dans le flux résiduel, qui peut être détecté avec précision en sondant les activations intermédiaires du modèle. Cela nous permet de détecter les conflits au sein du flux résiduel avant de générer les réponses sans modifier l'entrée ou les paramètres du modèle. De plus, nous constatons que le flux résiduel montre des motifs significativement différents lorsque le modèle se base sur des connaissances contextuelles par rapport aux connaissances paramétriques pour résoudre les conflits. Ce motif peut être utilisé pour estimer le comportement des LLM lorsque des conflits surviennent et éviter des réponses inattendues avant de produire les réponses. Notre analyse offre des perspectives sur la manière dont les LLM gèrent internement les conflits de connaissances et fournit une base pour le développement de méthodes visant à contrôler les processus de sélection des connaissances.
Les vidéos de robots interagissant avec des objets codent des informations riches sur la dynamique des objets. Cependant, les approches existantes de prédiction vidéo ne tiennent généralement pas compte explicitement des informations 3D des vidéos, telles que les actions du robot et les états 3D des objets, limitant leur utilisation dans les applications robotiques du monde réel. Dans ce travail, nous introduisons un cadre pour apprendre la dynamique des objets directement à partir de vidéos RGB multi-vues en tenant compte explicitement des trajectoires d'actions du robot et de leurs effets sur la dynamique de la scène. Nous utilisons la représentation gaussienne 3D du Splatting gaussien 3D (3DGS) pour entraîner un modèle de dynamique basé sur des particules en utilisant des Réseaux Neuronaux Graphiques. Ce modèle opère sur des particules de contrôle clairsemées échantillonnées à partir des reconstructions gaussiennes 3D suivies de manière dense. En apprenant le modèle de dynamique neuronale sur des données d'interaction robotique hors ligne, notre méthode peut prédire les mouvements des objets sous différentes configurations initiales et des actions de robot non vues. Les transformations 3D des Gaussiennes peuvent être interpolées à partir des mouvements des particules de contrôle, permettant le rendu des états futurs prédits des objets et atteignant une prédiction vidéo conditionnée par l'action. Le modèle de dynamique peut également être appliqué à des cadres de planification basés sur des modèles pour des tâches de manipulation d'objets. Nous menons des expériences sur divers types de matériaux déformables, y compris des cordes, des vêtements et des peluches, démontrant la capacité de notre cadre à modéliser des formes et des dynamiques complexes. Notre page de projet est disponible sur https://gs-dynamics.github.io.
La capacité d'adapter les croyances ou les comportements en réponse à des résultats inattendus, la réflexion, est fondamentale pour l'interaction des systèmes intelligents avec le monde. D'un point de vue des sciences cognitives, cela constitue un principe fondamental de l'intelligence applicable aux systèmes humains et IA. Pour aborder le débat sur l'intelligence des grands modèles de langage (GML), nous proposons Réflexion-Bench, un banc d'essai complet comprenant 7 tâches couvrant les fonctions cognitives de base cruciales pour la réflexion, notamment la perception, la mémoire, la mise à jour des croyances, la prise de décision, la prédiction, la pensée contrefactuelle et la méta-réflexion. Nous évaluons les performances de 13 GML de premier plan tels que OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Les résultats indiquent que les GML actuels manquent encore de capacité de réflexion satisfaisante. Nous discutons des causes sous-jacentes de ces résultats et suggérons des pistes potentielles pour des recherches futures. En conclusion, Réflexion-Bench offre à la fois des outils d'évaluation et de l'inspiration pour développer une IA capable d'interagir de manière fiable avec l'environnement. Nos données et notre code sont disponibles sur https://github.com/YabYum/ReflectionBench.
L'évaluation des biais des sources d'information est primordiale pour les professionnels, les organisations et les chercheurs qui se fient à des preuves fiables pour la collecte et la diffusion d'informations. Alors que certains indicateurs de biais sont discernables à partir de l'analyse du contenu, des descripteurs tels que le biais politique et les fausses nouvelles posent des défis plus importants. Dans cet article, nous proposons une extension à une méthode d'estimation de la fiabilité des médias d'information récemment présentée, qui se concentre sur la modélisation des médias et de leurs interactions web longitudinales. Concrètement, nous évaluons les performances de classification de quatre stratégies d'apprentissage par renforcement sur un grand graphe d'hyperliens de médias d'information. Nos expériences, ciblant deux descripteurs de biais difficiles, à savoir le reporting factuel et le biais politique, ont montré une amélioration significative des performances au niveau des médias sources. De plus, nous validons nos méthodes lors du défi du laboratoire CheckThat! de CLEF 2023, surpassant les résultats rapportés à la fois en termes de score F1 et de la métrique MAE officielle. En outre, nous contribuons en publiant le plus grand ensemble de données annotées de médias sources d'information, catégorisés avec des étiquettes de reporting factuel et de biais politique. Nos résultats suggèrent que le profilage des sources de médias d'information en fonction de leurs interactions d'hyperliens dans le temps est réalisable, offrant une vue d'ensemble des paysages médiatiques en évolution.
La pré-entraînement non supervisée a été transformative dans de nombreux domaines supervisés. Cependant, appliquer de telles idées à l'apprentissage par renforcement (RL) présente un défi unique en ce sens que l'ajustement fin ne consiste pas à imiter des données spécifiques à la tâche, mais plutôt à explorer et à localiser la solution par auto-amélioration itérative. Dans ce travail, nous étudions comment les données de trajectoire préalables non étiquetées peuvent être exploitées pour apprendre des stratégies d'exploration efficaces. Alors que les données préalables peuvent être utilisées pour pré-entraîner un ensemble de compétences de bas niveau, ou comme données hors politique supplémentaires pour l'apprentissage en ligne par renforcement, il n'a pas été clair comment combiner ces idées de manière efficace pour l'exploration en ligne. Notre méthode SUPE (Compétences à partir de données préalables non étiquetées pour l'exploration) démontre qu'une combinaison soigneuse de ces idées amplifie leurs avantages. Notre méthode extrait d'abord des compétences de bas niveau en utilisant un autoencodeur variationnel (VAE), puis re-étiquette de manière pseudo les trajectoires non étiquetées en utilisant un modèle de récompense optimiste, transformant les données préalables en exemples de haut niveau pertinents pour la tâche. Enfin, SUPE utilise ces exemples transformés comme données hors politique supplémentaires pour l'apprentissage en ligne par renforcement afin d'apprendre une politique de haut niveau qui compose des compétences de bas niveau pré-entraînées pour explorer efficacement. Nous montrons empiriquement que SUPE surpasse de manière fiable les stratégies précédentes, résolvant avec succès une série de tâches à récompense rare à horizon long. Code : https://github.com/rail-berkeley/supe.