Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans le cadre traditionnel de RAG, les unités de récupération de base sont généralement courtes. Les récupérateurs courants comme DPR fonctionnent normalement avec des paragraphes de Wikipédia de 100 mots. Une telle conception oblige le récupérateur à parcourir un large corpus pour trouver l'unité "aiguille". En revanche, les lecteurs n'ont besoin d'extraire les réponses que des courtes unités récupérées. Cette conception déséquilibrée, avec un récupérateur "lourd" et un lecteur "léger", peut entraîner des performances sous-optimales. Pour atténuer ce déséquilibre, nous proposons un nouveau cadre appelé LongRAG, composé d'un "récupérateur long" et d'un "lecteur long". LongRAG traite l'intégralité de Wikipédia en unités de 4 000 tokens, soit 30 fois plus longues qu'auparavant. En augmentant la taille des unités, nous réduisons considérablement le nombre total d'unités, passant de 22 millions à 700 000. Cela allège significativement la charge du récupérateur, ce qui conduit à un score de récupération remarquable : un rappel de réponse@1 de 71 % sur NQ (contre 52 % précédemment) et un rappel de réponse@2 de 72 % (contre 47 % précédemment) sur HotpotQA (full-wiki). Ensuite, nous alimentons les k premières unités récupérées (environ 30 000 tokens) dans un LLM à contexte long existant pour effectuer une extraction de réponse en zero-shot. Sans nécessiter d'entraînement, LongRAG atteint un EM de 62,7 % sur NQ, ce qui constitue le meilleur résultat connu. LongRAG atteint également 64,3 % sur HotpotQA (full-wiki), ce qui est comparable au modèle SoTA. Notre étude offre des perspectives sur la feuille de route future pour combiner RAG avec des LLMs à contexte long.
Proposant une solution prometteuse aux défis de scalabilité associés à l'évaluation humaine, le paradigme LLM-en-tant-que-juge gagne rapidement en popularité comme approche pour évaluer les grands modèles de langage (LLM). Cependant, de nombreuses questions restent ouvertes concernant les forces et les faiblesses de ce paradigme, ainsi que les biais potentiels qu'il pourrait comporter. Dans cet article, nous présentons une étude approfondie des performances de divers LLM agissant en tant que juges. Nous utilisons TriviaQA comme référence pour évaluer le raisonnement objectif des LLM et les comparons aux annotations humaines, qui présentent un fort accord inter-annotateurs. Notre étude inclut 9 modèles juges et 9 modèles candidats — à la fois de base et ajustés par instruction. Nous évaluons l'alignement des modèles juges en fonction de différentes tailles de modèles, familles et prompts de juges. Parmi d'autres résultats, notre recherche redécouvre l'importance d'utiliser le kappa de Cohen comme métrique d'alignement plutôt qu'un simple accord en pourcentage, montrant que des juges avec un accord en pourcentage élevé peuvent néanmoins attribuer des scores très différents. Nous constatons que Llama-3 70B et GPT-4 Turbo présentent un excellent alignement avec les humains, mais en termes de classement des modèles candidats, ils sont surpassés par JudgeLM-7B et le juge lexical Contains, qui ont jusqu'à 34 points d'alignement humain inférieur. Grâce à l'analyse des erreurs et à diverses autres études, incluant les effets de la longueur des instructions et du biais de clémence, nous espérons fournir des leçons précieuses pour l'utilisation future des LLM en tant que juges.
Les créateurs de contenu vidéo ont besoin d'outils efficaces pour réutiliser leur contenu, une tâche qui nécessite souvent des recherches manuelles ou automatisées complexes. Créer une nouvelle vidéo à partir de vastes bibliothèques vidéo reste un défi. Dans cet article, nous introduisons la tâche de Question-Réponse sur Bibliothèque Vidéo (VLQA) à travers une architecture interopérable qui applique la Génération Augmentée par Récupération (RAG) aux bibliothèques vidéo. Nous proposons un système qui utilise des modèles de langage de grande taille (LLMs) pour générer des requêtes de recherche, récupérant ainsi des moments vidéo pertinents indexés par des métadonnées vocales et visuelles. Un module de génération de réponses intègre ensuite les requêtes des utilisateurs avec ces métadonnées pour produire des réponses accompagnées de timestamps vidéo spécifiques. Cette approche montre des perspectives prometteuses dans la récupération de contenu multimédia et la création de contenu vidéo assistée par l'IA.
Bien que les Transformers soient largement utilisés pour les tâches de traitement du langage naturel, en particulier pour la traduction automatique, ils ne disposent pas d'une mémoire explicite pour stocker les concepts clés des textes traités. Cet article explore les propriétés du contenu d'une mémoire de travail symbolique ajoutée au décodeur du modèle Transformer. Une telle mémoire de travail améliore la qualité des prédictions du modèle dans la tâche de traduction automatique et sert de représentation neuro-symbolique des informations importantes pour que le modèle produise des traductions correctes. L'étude du contenu de la mémoire a révélé que les mots-clés du texte traduit sont stockés dans la mémoire de travail, soulignant la pertinence du contenu de la mémoire par rapport au texte traité. De plus, la diversité des tokens et des parties du discours stockés en mémoire est corrélée à la complexité des corpus utilisés pour la tâche de traduction automatique.
Ces dernières années ont été marquées par des avancées significatives dans le domaine de la génération vidéo. Cependant, le développement de métriques automatiques pour évaluer les vidéos est nettement en retard. Aucune des métriques existantes n'est capable de fournir des scores fiables pour les vidéos générées. Le principal obstacle réside dans l'absence d'un jeu de données à grande échelle annoté par des humains. Dans cet article, nous présentons VideoFeedback, le premier jeu de données à grande échelle contenant des scores multi-aspects fournis par des humains pour 37,6K vidéos synthétisées provenant de 11 modèles génératifs vidéo existants. Nous entraînons MantisScore (initialisé à partir de Mantis) sur VideoFeedback afin de permettre une évaluation automatique de la qualité vidéo. Les expériences montrent que la corrélation de Spearman entre MantisScore et les évaluations humaines atteint 77,1 sur VideoFeedback-test, surpassant les meilleures métriques précédentes d'environ 50 points. Des résultats supplémentaires sur d'autres jeux de données tels que EvalCrafter, GenAI-Bench et VBench montrent que MantisScore présente une corrélation bien plus élevée avec les jugements humains que les autres métriques. Grâce à ces résultats, nous pensons que MantisScore peut servir de proxy efficace pour les évaluateurs humains afin de (1) noter différents modèles vidéo pour suivre les progrès et (2) simuler des retours humains granulaires dans l'apprentissage par renforcement avec feedback humain (RLHF) pour améliorer les modèles actuels de génération vidéo.
Les défis de l'évaluation automatisée des systèmes de question-réponse (QA) basés sur la génération augmentée par récupération (Retrieval-Augmented Generation, RAG) incluent les problèmes d'hallucination dans les connaissances spécifiques à un domaine et l'absence de référentiels standard pour les tâches internes aux entreprises. Cela entraîne des difficultés à évaluer les variantes de RAG, comme RAG-Fusion (RAGF), dans le cadre d'une tâche de QA produit chez Infineon Technologies. Pour résoudre ces problèmes, nous proposons un cadre d'évaluation complet qui exploite les modèles de langage de grande taille (LLMs) pour générer de vastes ensembles de données de requêtes synthétiques basées sur des requêtes utilisateurs réelles et des documents du domaine, utilise le LLM-comme-juge pour évaluer les documents récupérés et les réponses, évalue la qualité des réponses, et classe différentes variantes d'agents RAG grâce à la compétition automatisée basée sur Elo de RAGElo. L'évaluation par LLM-comme-juge d'un échantillon aléatoire de requêtes synthétiques montre une corrélation positive modérée avec le scoring d'experts du domaine en termes de pertinence, exactitude, exhaustivité et précision. Bien que RAGF ait surpassé RAG en score Elo, une analyse de significativité par rapport aux annotations d'experts montre également que RAGF surpasse significativement RAG en exhaustivité, mais est moins performant en précision. De plus, l'assistant RAGF d'Infineon a démontré une performance légèrement supérieure en pertinence des documents basée sur les scores MRR@5. Nous constatons que RAGElo s'aligne positivement avec les préférences des annotateurs humains, bien qu'une certaine prudence reste nécessaire. Enfin, l'approche RAGF conduit à des réponses plus complètes selon les annotations d'experts et à de meilleures réponses globales selon les critères d'évaluation de RAGElo.
Les modèles de génération d'images à partir de texte gagnent en popularité, révolutionnant le paysage de la création artistique numérique en permettant la génération de contenus visuels hautement détaillés et créatifs. Ces modèles sont largement utilisés dans divers domaines, notamment dans la génération artistique, où ils facilitent un large éventail d'expressions créatives et démocratisent l'accès à la création artistique. Dans cet article, nous présentons STYLEBREEDER, un ensemble de données complet de 6,8 millions d'images et de 1,8 million de prompts générés par 95 000 utilisateurs sur Artbreeder, une plateforme devenue un hub majeur pour l'exploration créative avec plus de 13 millions d'utilisateurs. Nous proposons une série de tâches avec cet ensemble de données visant à identifier des styles artistiques diversifiés, à générer des contenus personnalisés et à recommander des styles en fonction des intérêts des utilisateurs. En documentant des styles uniques générés par les utilisateurs qui transcendent les catégories conventionnelles comme 'cyberpunk' ou 'Picasso', nous explorons le potentiel de styles uniques issus de la foule, qui pourraient fournir des insights profonds sur la psyché créative collective des utilisateurs à travers le monde. Nous évaluons également différentes méthodes de personnalisation pour enrichir l'expression artistique et introduisons un atlas des styles, rendant ces modèles disponibles au format LoRA pour un usage public. Notre recherche démontre le potentiel des modèles de diffusion texte-image à découvrir et promouvoir des expressions artistiques uniques, démocratisant davantage l'IA dans l'art et favorisant une communauté artistique plus diverse et inclusive. L'ensemble de données, le code et les modèles sont disponibles à l'adresse https://stylebreeder.github.io sous une licence Domaine Public (CC0).
La vision événementielle a suscité un intérêt croissant en raison de ses caractéristiques uniques, telles que sa haute résolution temporelle et sa grande plage dynamique. Elle a récemment été utilisée dans la super-résolution vidéo (VSR) pour améliorer l'estimation du flux et l'alignement temporel. Plutôt que pour l'apprentissage du mouvement, nous proposons dans cet article la première méthode VSR qui exploite les signaux événementiels pour l'amélioration des textures. Notre méthode, appelée EvTexture, tire parti des détails haute fréquence des événements pour mieux restaurer les régions texturées en VSR. Dans EvTexture, une nouvelle branche d'amélioration des textures est présentée. Nous introduisons en outre un module d'amélioration itérative des textures pour explorer progressivement les informations événementielles à haute résolution temporelle en vue de la restauration des textures. Cela permet un affinement graduel des régions texturées à travers plusieurs itérations, conduisant à des détails haute résolution plus précis et riches. Les résultats expérimentaux montrent que notre EvTexture atteint des performances de pointe sur quatre jeux de données. Pour le jeu de données Vid4, riche en textures, notre méthode peut obtenir un gain allant jusqu'à 4,67 dB par rapport aux méthodes récentes basées sur les événements. Code : https://github.com/DachunKai/EvTexture.
L'applicabilité généralisée et l'omniprésence croissante des LLM (modèles de langage de grande taille) ont suscité un besoin d'aligner les réponses des LLM sur les préférences des utilisateurs et des parties prenantes. De nombreuses approches d'optimisation des préférences ont été proposées, ajustant finement les paramètres des LLM pour atteindre un bon alignement. Cependant, un tel réglage des paramètres est connu pour interférer avec les performances du modèle sur de nombreuses tâches. De plus, suivre l'évolution des préférences des utilisateurs s'avère délicat dans ce contexte. L'alignement au moment du décodage avec guidage par modèle de récompense résout ces problèmes au prix d'un temps d'inférence accru. Néanmoins, la plupart de ces méthodes échouent à trouver le bon équilibre entre exploration et exploitation de la récompense, souvent en raison d'une formulation confondue de ces deux aspects, pour fournir des réponses bien alignées. Pour remédier à cela, nous découplons ces deux aspects et les mettons en œuvre de manière évolutive : l'exploration est imposée par le décodage à partir d'instructions mutées, et l'exploitation est représentée par le remplacement périodique des générations faiblement récompensées par celles bien récompensées. Les preuves empiriques indiquent que cette stratégie surpasse de nombreuses approches d'optimisation des préférences et d'alignement au moment du décodage sur deux benchmarks d'alignement largement acceptés, AlpacaEval 2 et MT-Bench. Notre implémentation sera disponible à l'adresse : https://darwin-alignment.github.io.
L'adoption généralisée des grands modèles de langage (LLM) a suscité des inquiétudes concernant leur sécurité et leur fiabilité, en particulier en ce qui concerne leur vulnérabilité aux attaques adverses. Dans cet article, nous proposons une perspective novatrice qui attribue cette vulnérabilité à une mauvaise spécification de la récompense lors du processus d'alignement. Nous introduisons une métrique, ReGap, pour quantifier l'étendue de cette mauvaise spécification de la récompense et démontrons son efficacité et sa robustesse dans la détection des invites malveillantes (backdoor prompts). Sur la base de ces insights, nous présentons ReMiss, un système de red teaming automatisé qui génère des invites adverses contre divers LLM alignés ciblés. ReMiss atteint des taux de réussite d'attaque de pointe sur le benchmark AdvBench tout en préservant la lisibilité humaine des invites générées. Une analyse détaillée met en lumière les avantages uniques apportés par l'objectif de mauvaise spécification de la récompense proposé par rapport aux méthodes précédentes.
Bien que la situation se soit améliorée pour les modèles textuels uniquement, il semble actuellement que les modèles multimodaux (texte et image) évoluent plus rapidement que les méthodes pour les évaluer. Dans cet article, nous adaptons un paradigme d'évaluation récemment développé pour les modèles textuels aux modèles multimodaux, à savoir l'évaluation par le jeu orienté vers un objectif (auto-joué), complétant ainsi les évaluations basées sur des références et des préférences. Plus précisément, nous définissons des jeux qui mettent à l'épreuve la capacité d'un modèle à représenter une situation à partir d'informations visuelles et à aligner ces représentations par le dialogue. Nous constatons que les plus grands modèles fermés performent plutôt bien sur les jeux que nous définissons, tandis que même les meilleurs modèles à poids ouvert peinent à les résoudre. Une analyse plus approfondie révèle que les capacités exceptionnelles de description approfondie des plus grands modèles contribuent en partie à cette performance. Il reste encore des marges de progression pour les deux types de modèles, assurant ainsi la pertinence continue du benchmark.
Les modèles de langage ont démontré des capacités impressionnantes dans diverses tâches de traitement du langage naturel, mais ils peinent à accomplir des tâches de planification nécessitant des simulations en plusieurs étapes. Inspiré par les processus cognitifs humains, cet article explore la puissance de planification optimale des modèles de langage capables de construire une carte cognitive d'un environnement donné. Nos expériences montrent que la carte cognitive améliore significativement les performances des modèles, tant en génération de plans optimaux qu'en génération de plans réalisables, dans la tâche de planification de trajectoire dans un environnement Gridworld. Nous observons que notre méthode présente deux caractéristiques clés similaires à la cognition humaine : la généralisation de sa capacité de planification à des environnements extrapolés et une adaptation rapide avec un nombre limité de données d'entraînement. Nous espérons que nos résultats dans la tâche Gridworld fournissent des insights pour modéliser les processus cognitifs humains dans les modèles de langage, ouvrant potentiellement la voie au développement de systèmes plus avancés et robustes qui ressemblent davantage à la cognition humaine.
L'épanouissement des technologies de réalité virtuelle et augmentée (VR/AR) a suscité une demande croissante pour la création d'environnements immersifs, dynamiques et de haute qualité. Cependant, les techniques génératives existantes se concentrent soit uniquement sur les objets dynamiques, soit effectuent un étalement à partir d'une seule image en perspective, ne répondant pas aux besoins des applications VR/AR. Dans ce travail, nous abordons la tâche complexe d'élever une seule image panoramique à une expérience immersive en 4D. Pour la première fois, nous démontrons la capacité à générer des scènes dynamiques omnidirectionnelles avec des vues à 360 degrés en résolution 4K, offrant ainsi une expérience utilisateur immersive. Notre méthode introduit un pipeline qui facilite les animations naturelles de scènes et optimise un ensemble de Gaussiennes 4D en utilisant des techniques de splatting efficaces pour une exploration en temps réel. Pour pallier le manque de données et de modèles annotés 4D à l'échelle de la scène, en particulier dans les formats panoramiques, nous proposons un nouveau Panoramic Denoiser qui adapte des priors de diffusion 2D génériques pour animer de manière cohérente des images à 360 degrés, les transformant en vidéos panoramiques avec des scènes dynamiques dans des régions ciblées. Par la suite, nous élevons la vidéo panoramique à un environnement immersif 4D tout en préservant la cohérence spatiale et temporelle. En transférant les connaissances antérieures des modèles 2D du domaine perspectif au domaine panoramique et en effectuant une élévation 4D avec une régularisation de l'apparence et de la géométrie spatiale, nous atteignons pour la première fois une génération Panorama-to-4D de haute qualité à une résolution de (4096 fois 2048). Consultez le site du projet à l'adresse https://4k4dgen.github.io.
L'opacité entourant le développement des grands modèles de langage (LLMs) suscite des préoccupations croissantes concernant la contamination potentielle des benchmarks publics dans les données de pré-entraînement. Les méthodes existantes de détection de contamination reposent généralement sur le chevauchement textuel entre les données d'entraînement et d'évaluation, ce qui peut être trop superficiel pour refléter des formes plus profondes de contamination. Dans cet article, nous présentons d'abord une forme de contamination multilingue qui gonfle les performances des LLMs tout en échappant aux méthodes de détection actuelles, en surajustant délibérément les LLMs sur les versions traduites des ensembles de test de référence. Ensuite, nous proposons des approches basées sur la généralisation pour révéler une telle contamination profondément dissimulée. Plus précisément, nous examinons l'évolution des performances du LLM après avoir modifié le benchmark original en remplaçant les choix de réponses incorrects par des réponses correctes provenant d'autres questions. Les modèles contaminés peinent à généraliser à de telles situations plus simples, où les choix incorrects peuvent ne même pas être faux, car tous les choix sont corrects dans leur mémorisation. Les résultats expérimentaux montrent que la contamination multilingue peut facilement tromper les méthodes de détection existantes, mais pas la nôtre. De plus, nous discutons de l'utilisation potentielle de la contamination multilingue pour interpréter les mécanismes de fonctionnement des LLMs et pour améliorer les capacités multilingues des LLMs après leur entraînement. Le code et le jeu de données utilisés peuvent être obtenus à l'adresse https://github.com/ShangDataLab/Deep-Contam.
Avec la prolifération des modèles spécifiques à un domaine, la fusion de modèles est apparue comme un ensemble de techniques permettant de combiner les capacités de plusieurs modèles en un seul capable de multitâches sans le coût d'un entraînement supplémentaire. Dans cet article, nous proposons une nouvelle technique de fusion de modèles, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), qui utilise une technique d'élagage innovante, MAGPRUNE, démontrant des avantages significatifs par rapport à DARE et TIES. MAGPRUNE classe d'abord les paramètres en fonction de leur magnitude et attribue des probabilités d'abandon (p) plus élevées aux paramètres de rang inférieur correspondant à des magnitudes plus faibles. Pour approximer les embeddings originaux, MAGPRUNE applique une opération de redimensionnement sur les paramètres qui survivent à l'abandon aléatoire par 1/(1 - p). Sur trois modèles experts considérés pour la fusion (LM, Math, Code) et les ensembles de données de référence correspondants (AlpacaEval, GSM8K, MBPP), DELLA montre une amélioration moyenne de 2,4 points par rapport aux méthodes de base utilisant l'élagage des paramètres delta (une amélioration de 3,6 points par rapport à TIES, 1,2 points par rapport à DARE), et de 11,1 points par rapport à la base sans élagage (TA). Nous publions le code source à l'adresse suivante : https://github.com/declare-lab/della.
La Génération Augmentée par Récupération (RAG) représente une avancée significative en intelligence artificielle, combinant une phase de récupération avec une phase générative, cette dernière étant généralement alimentée par des modèles de langage de grande taille (LLMs). Les pratiques courantes actuelles en RAG impliquent l'utilisation de LLMs "instruits", qui sont affinés par un apprentissage supervisé pour améliorer leur capacité à suivre des instructions et sont alignés sur les préférences humaines grâce à des techniques de pointe. Contrairement à la croyance populaire, notre étude démontre que les modèles de base surpassent leurs homologues instruits dans les tâches RAG de 20 % en moyenne dans nos conditions expérimentales. Cette découverte remet en question les hypothèses dominantes sur la supériorité des LLMs instruits dans les applications RAG. Des investigations plus poussées révèlent une situation plus nuancée, interrogeant des aspects fondamentaux de RAG et suggérant la nécessité de discussions plus larges sur le sujet ; ou, comme Fromm l'aurait dit, "Il est rare qu'un simple coup d'œil aux statistiques suffise à comprendre la signification des chiffres".
Prédire l'efficacité et la sécurité des médicaments in vivo nécessite des informations sur les réponses biologiques (par exemple, la morphologie cellulaire et l'expression génique) aux perturbations par petites molécules. Cependant, les méthodes actuelles d'apprentissage de représentation moléculaire ne fournissent pas une vue complète des états cellulaires sous ces perturbations et peinent à éliminer le bruit, ce qui entrave la généralisation des modèles. Nous introduisons l'approche d'Alignement d'Information (InfoAlign) pour apprendre les représentations moléculaires à travers la méthode du goulot d'information dans les cellules. Nous intégrons les molécules et les données de réponse cellulaire en tant que nœuds dans un graphe de contexte, les connectant avec des arêtes pondérées basées sur des critères chimiques, biologiques et informatiques. Pour chaque molécule dans un lot d'entraînement, InfoAlign optimise la représentation latente de l'encodeur avec un objectif de minimalité pour éliminer les informations structurelles redondantes. Un objectif de suffisance décode la représentation pour l'aligner avec différents espaces de caractéristiques provenant du voisinage de la molécule dans le graphe de contexte. Nous démontrons que l'objectif de suffisance proposé pour l'alignement est plus strict que les méthodes contrastives existantes basées sur l'encodeur. Empiriquement, nous validons les représentations issues d'InfoAlign dans deux tâches en aval : la prédiction des propriétés moléculaires contre jusqu'à 19 méthodes de référence sur quatre ensembles de données, ainsi que l'appariement zéro-shot molécule-morphologie.
Nous proposons Ruby Teaming, une méthode qui améliore Rainbow Teaming en intégrant un cache mémoire comme troisième dimension. La dimension mémoire fournit des indices au mutateur pour générer des invites de meilleure qualité, tant en termes de taux de réussite des attaques (ASR) que de diversité qualitative. L'archive d'invites générée par Ruby Teaming présente un ASR de 74 %, soit 20 % de plus que la référence. En matière de diversité qualitative, Ruby Teaming surpasse Rainbow Teaming de 6 % et 3 % respectivement sur l'indice d'équitabilité de Shannon (SEI) et l'indice de diversité de Simpson (SDI).
L'évaluation des politiques de conduite basées sur la vision présente des défis importants. D'un côté, l'évaluation en boucle ouverte avec des données réelles est simple, mais ces résultats ne reflètent pas les performances en boucle fermée. De l'autre, l'évaluation en boucle fermée est possible en simulation, mais elle est difficile à mettre à l'échelle en raison de ses exigences computationnelles importantes. De plus, les simulateurs disponibles aujourd'hui présentent un écart de domaine important par rapport aux données réelles. Cela a entraîné une incapacité à tirer des conclusions claires de l'ensemble croissant de recherches sur la conduite autonome de bout en bout. Dans cet article, nous présentons NAVSIM, un compromis entre ces paradigmes d'évaluation, où nous utilisons de grands ensembles de données en combinaison avec un simulateur non réactif pour permettre un benchmarking à grande échelle dans le monde réel. Plus précisément, nous collectons des métriques basées sur la simulation, telles que la progression et le temps avant collision, en déroulant des abstractions en vue aérienne des scènes de test pour un horizon de simulation court. Notre simulation est non réactive, c'est-à-dire que la politique évaluée et l'environnement n'influencent pas mutuellement. Comme nous le démontrons empiriquement, ce découplage permet le calcul de métriques en boucle ouverte tout en étant mieux aligné avec les évaluations en boucle fermée que les erreurs de déplacement traditionnelles. NAVSIM a permis l'organisation d'un nouveau concours tenu à CVPR 2024, où 143 équipes ont soumis 463 entrées, aboutissant à plusieurs nouvelles conclusions. Sur un large ensemble de scénarios difficiles, nous observons que des méthodes simples avec des exigences de calcul modérées, comme TransFuser, peuvent rivaliser avec les architectures récentes de conduite de bout en bout à grande échelle, telles que UniAD. Notre cadre modulaire peut potentiellement être étendu avec de nouveaux ensembles de données, des stratégies de curation de données et des métriques, et sera continuellement maintenu pour accueillir de futurs défis. Notre code est disponible à l'adresse https://github.com/autonomousvision/navsim.
Les modèles génératifs à grande échelle pour le langage et la vision-langage (LLMs et VLMs) excellent dans l'apprentissage en contexte avec peu d'exemples pour la prise de décision et le suivi d'instructions. Cependant, ils nécessitent des démonstrations exemplaires de haute qualité à inclure dans leur fenêtre contextuelle. Dans ce travail, nous posons la question suivante : Les LLMs et VLMs peuvent-ils générer leurs propres exemples de prompts à partir de démonstrations génériques et sous-optimales ? Nous proposons l'Apprentissage par Abstraction en Contexte (ICAL), une méthode qui construit une mémoire d'expériences multimodales à partir de démonstrations sous-optimales et de retours humains. Face à une démonstration bruyante dans un nouveau domaine, les VLMs abstraient la trajectoire en un programme général en corrigeant les actions inefficaces et en annotant des abstractions cognitives : relations entre tâches, changements d'état des objets, sous-objectifs temporels et interprétations des tâches. Ces abstractions sont affinées et adaptées de manière interactive grâce aux retours humains tandis que l'agent tente d'exécuter la trajectoire dans un environnement similaire. Les abstractions résultantes, utilisées comme exemples dans le prompt, améliorent significativement la prise de décision dans les agents LLM et VLM augmentés par la récupération. Notre agent ICAL surpasse l'état de l'art dans le suivi d'instructions basé sur le dialogue dans TEACh, les agents web multimodaux dans VisualWebArena, et l'anticipation d'actions dans Ego4D. Dans TEACh, nous obtenons une amélioration de 12,6 % dans le succès conditionné par l'objectif. Dans VisualWebArena, notre taux de réussite des tâches passe de 14,3 % à 22,7 % par rapport à l'état de l'art. Dans la prévision d'actions Ego4D, nous surpassons GPT-4V avec peu d'exemples et restons compétitifs avec les modèles supervisés. Nous montrons que le fine-tuning de notre agent en contexte augmenté par la récupération apporte des améliorations supplémentaires. Notre approche réduit significativement la dépendance aux exemples conçus par des experts et surpasse systématiquement l'apprentissage en contexte à partir de plans d'actions dépourvus de telles insights.
Nous proposons un pipeline simple mais efficace pour styliser une scène 3D, en exploitant la puissance des modèles de diffusion d'images 2D. Étant donné un modèle NeRF reconstruit à partir d'un ensemble d'images multi-vues, nous effectuons un transfert de style 3D en affinant le modèle NeRF source à l'aide d'images stylisées générées par un modèle de diffusion image-à-image aligné sur le style. Pour un prompt de style cible donné, nous générons d'abord des images multi-vues perceptuellement similaires en utilisant un modèle de diffusion conditionné par la profondeur avec un mécanisme de partage d'attention. Ensuite, basé sur les images multi-vues stylisées, nous proposons de guider le processus de transfert de style avec une perte de Wasserstein découpée basée sur les cartes de caractéristiques extraites d'un modèle CNN pré-entraîné. Notre pipeline se compose d'étapes découplées, permettant aux utilisateurs de tester diverses idées de prompts et de prévisualiser le résultat 3D stylisé avant de passer à l'étape de fine-tuning du NeRF. Nous démontrons que notre méthode peut transférer divers styles artistiques à des scènes 3D du monde réel avec une qualité compétitive.
Les grands modèles de langage (LLM) affinés pour la recherche de texte ont démontré des résultats de pointe sur plusieurs benchmarks de recherche d'information (IR). Cependant, l'entraînement supervisé pour améliorer ces modèles nécessite de nombreux exemples étiquetés, qui sont généralement indisponibles ou coûteux à acquérir. Dans ce travail, nous explorons l'efficacité de l'extension de l'adaptation par ingénierie inverse au contexte de la recherche d'information (RE-AdaptIR). Nous utilisons RE-AdaptIR pour améliorer les modèles IR basés sur LLM en utilisant uniquement des données non étiquetées. Nous démontrons une amélioration des performances à la fois dans les domaines d'entraînement et en zero-shot dans des domaines où les modèles n'ont vu aucune requête. Nous analysons les changements de performance dans divers scénarios d'affinage et proposons des résultats immédiatement utiles aux praticiens.
Les modèles de fondation multimodaux (MMFMs) ont démontré des performances remarquables sur diverses tâches de vision par ordinateur et de traitement du langage naturel. Cependant, leurs performances sur des tâches spécifiques telles que la compréhension de documents restent limitées. Ils nécessitent également plus de ressources de calcul, de temps et d'ingénierie pour être affinés et déployés par rapport aux modèles unimodaux traditionnels. Dans ce rapport, nous présentons la Génération Structurée Multimodale, un cadre général qui contraint les logits de sortie des MMFMs figés pour les forcer à raisonner avant de répondre avec des sorties structurées que les API en aval peuvent analyser et utiliser. Nous fournissons un compte rendu détaillé de notre approche, incluant les détails techniques, les discussions théoriques et les résultats d'évaluation finale dans le 2e défi des Modèles de Fondation Multimodaux organisé par la conférence Computer Vision and Pattern Recognition (CVPR). Notre approche a obtenu le deuxième meilleur score sur l'ensemble de test caché pour la Phase 2 et le troisième meilleur score global. Cela démontre la capacité de la méthode à généraliser à des tâches inédites. Et que l'ingénierie simple peut surpasser les étapes de modélisation coûteuses et complexes, comme nous l'avons initialement discuté dans notre article, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. Tous nos scripts, étapes de déploiement et résultats d'évaluation sont accessibles sur https://github.com/leloykun/MMFM-Challenge.
Les modèles existants de détection de toxicité présentent des limitations significatives, telles qu'un manque de transparence, de personnalisation et de reproductibilité. Ces défis découlent de la nature fermée de leurs données d'entraînement et du manque d'explications concernant leur mécanisme d'évaluation. Pour résoudre ces problèmes, nous proposons un mécanisme de création de jeux de données qui intègre des processus de vote et de chaîne de raisonnement, produisant ainsi un jeu de données open-source de haute qualité pour la détection de contenu toxique. Notre méthodologie garantit des métriques de classification diversifiées pour chaque échantillon et inclut à la fois des scores de classification et un raisonnement explicatif pour les classifications. Nous utilisons le jeu de données créé grâce à notre mécanisme proposé pour entraîner notre modèle, qui est ensuite comparé aux détecteurs largement utilisés existants. Notre approche améliore non seulement la transparence et la personnalisation, mais facilite également un meilleur ajustement fin pour des cas d'utilisation spécifiques. Ce travail contribue à un cadre robuste pour le développement de modèles de détection de contenu toxique, en mettant l'accent sur l'ouverture et l'adaptabilité, ouvrant ainsi la voie à des solutions de modération de contenu plus efficaces et spécifiques aux utilisateurs.
Les grands modèles de langage (LLMs) tentent d'imiter le comportement humain en répondant aux individus de manière à leur plaire, y compris en adhérant à leurs valeurs. Cependant, les humains proviennent de cultures diverses avec des valeurs différentes. Il est crucial de comprendre si les LLMs présentent des valeurs différentes à l'utilisateur en fonction des valeurs stéréotypées du pays connu de l'utilisateur. Nous sollicitons différents LLMs avec une série de demandes de conseils basées sur les 5 dimensions culturelles de Hofstede — une manière quantifiable de représenter les valeurs d'un pays. Tout au long de chaque sollicitation, nous intégrons des personnages représentant 36 pays différents et, séparément, les langues principalement associées à chaque pays pour analyser la cohérence dans la compréhension culturelle des LLMs. À travers notre analyse des réponses, nous avons constaté que les LLMs peuvent différencier un aspect d'une valeur d'un autre, ainsi que comprendre que les pays ont des valeurs différentes, mais ne respecteront pas toujours ces valeurs lorsqu'ils donnent des conseils, et ne parviennent pas à comprendre la nécessité de répondre différemment en fonction des différentes valeurs culturelles. Enracinées dans ces découvertes, nous présentons des recommandations pour former des LLMs alignés sur les valeurs et sensibles à la culture. Plus important encore, la méthodologie et le cadre développés ici peuvent aider à mieux comprendre et atténuer les problèmes d'alignement culturel et linguistique avec les LLMs.
Nous présentons une nouvelle approche basée sur l'algorithme d'apprentissage fédéré personnalisé MeritFed, qui peut être appliquée à des tâches de traitement du langage naturel avec des données hétérogènes. Nous l'évaluons sur la tâche de traduction automatique à faible ressource, en utilisant le jeu de données issu du défi partagé de traduction automatique multilingue à grande échelle (Small Track #2) et le sous-ensemble des langues sames du benchmark multilingue pour les langues finno-ougriennes. En plus de son efficacité, MeritFed est également très interprétable, car il peut être utilisé pour suivre l'impact de chaque langue utilisée pour l'entraînement. Notre analyse révèle que la taille du jeu de données cible affecte la distribution des poids entre les langues auxiliaires, que les langues non apparentées n'interfèrent pas avec l'entraînement, et que les paramètres de l'optimiseur auxiliaire ont un impact minimal. Notre approche est facile à appliquer avec quelques lignes de code, et nous fournissons des scripts pour reproduire les expériences à l'adresse https://github.com/VityaVitalich/MeritFed.