Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'animation d'image de personnage, qui génère des vidéos de haute qualité à partir d'une image de référence et d'une séquence de poses cibles, a connu des progrès significatifs ces dernières années. Cependant, la plupart des méthodes existantes s'appliquent uniquement aux figures humaines, qui ne se généralisent généralement pas bien aux personnages anthropomorphes couramment utilisés dans des industries telles que les jeux vidéo et le divertissement. Notre analyse approfondie suggère que cette limitation est due à leur modélisation insuffisante du mouvement, qui ne parvient pas à comprendre le motif de mouvement de la vidéo pilote, imposant ainsi rigidement une séquence de poses au personnage cible. À cette fin, cet article propose Animate-X, un cadre d'animation universel basé sur LDM pour divers types de personnages (collectivement nommés X), y compris les personnages anthropomorphes. Pour améliorer la représentation du mouvement, nous introduisons l'Indicateur de Pose, qui capture le motif de mouvement complet de la vidéo pilote de manière implicite et explicite. Le premier exploite les caractéristiques visuelles CLIP d'une vidéo pilote pour extraire l'essence de son mouvement, comme le motif de mouvement global et les relations temporelles entre les mouvements, tandis que le second renforce la généralisation de LDM en simulant à l'avance les entrées possibles qui pourraient survenir pendant l'inférence. De plus, nous introduisons un nouveau Banc d'Essai Anthropomorphe Animé (A^2Bench) pour évaluer les performances d'Animate-X sur des images d'animation universelles et largement applicables. Des expériences approfondies démontrent la supériorité et l'efficacité d'Animate-X par rapport aux méthodes de pointe.
Avec le développement rapide du contenu généré par l'IA, l'internet du futur pourrait être inondé de données synthétiques, rendant de plus en plus difficile la discrimination des données multimodales authentiques et crédibles. La détection de données synthétiques a ainsi suscité une attention généralisée, et les performances des grands modèles multimodaux (LMMs) dans cette tâche ont attiré un intérêt significatif. Les LMMs peuvent fournir des explications en langage naturel pour leurs jugements d'authenticité, améliorant l'explicabilité de la détection de contenu synthétique. Simultanément, la tâche de distinguer entre les données réelles et synthétiques teste efficacement les capacités de perception, de connaissance et de raisonnement des LMMs. En réponse, nous présentons LOKI, un nouveau banc d'essai conçu pour évaluer la capacité des LMMs à détecter des données synthétiques à travers plusieurs modalités. LOKI englobe les modalités vidéo, image, 3D, texte et audio, comprenant 18 000 questions soigneusement sélectionnées réparties dans 26 sous-catégories avec des niveaux de difficulté clairs. Le banc d'essai inclut des jugements à gros grains et des questions à choix multiples, ainsi que des tâches de sélection et d'explication d'anomalies à grains fins, permettant une analyse complète des LMMs. Nous avons évalué 22 LMMs open-source et 6 modèles à code source fermé sur LOKI, mettant en lumière leur potentiel en tant que détecteurs de données synthétiques et révélant également certaines limitations dans le développement des capacités des LMMs. Plus d'informations sur LOKI sont disponibles sur https://opendatalab.github.io/LOKI/
La compréhension et la génération multimodales entrelacées, permettant aux modèles de produire et d'interpréter à la fois des images et du texte dans des séquences arbitraires, sont devenues un domaine crucial dans l'apprentissage multimodal. Malgré des avancées significatives, l'évaluation de cette capacité reste insuffisante. Les benchmarks existants souffrent de limitations en termes d'échelle des données, de portée et de profondeur d'évaluation, tandis que les métriques d'évaluation actuelles sont souvent coûteuses ou biaisées, manquant de fiabilité pour des applications pratiques. Pour relever ces défis, nous introduisons MMIE, un benchmark intensif en connaissances à grande échelle pour évaluer la compréhension et la génération multimodales entrelacées dans les Grands Modèles Vision-Langage (LVLM). MMIE comprend 20 000 requêtes multimodales méticuleusement sélectionnées, couvrant 3 catégories, 12 domaines et 102 sous-domaines, incluant les mathématiques, la programmation, la physique, la littérature, la santé et les arts. Il prend en charge à la fois les entrées et les sorties entrelacées, offrant un mélange de formats de questions à choix multiples et ouvertes pour évaluer des compétences diverses. De plus, nous proposons une métrique d'évaluation automatisée fiable, exploitant un modèle de notation affiné avec des données annotées par des humains et des critères d'évaluation systématiques, visant à réduire les biais et à améliorer la précision de l'évaluation. Des expériences approfondies démontrent l'efficacité de notre benchmark et de nos métriques pour fournir une évaluation complète des LVLM entrelacés. Plus précisément, nous évaluons huit LVLM, révélant que même les meilleurs modèles montrent un potentiel d'amélioration significatif, la plupart n'atteignant que des résultats modérés. Nous pensons que MMIE stimulera de nouvelles avancées dans le développement des LVLM entrelacés. Nous rendons notre benchmark et notre code publics sur https://mmie-bench.github.io/.
Suivre les instructions naturelles est crucial pour l'application efficace des systèmes de Génération Augmentée par Récupération (RAG). Malgré les récents progrès dans les Grands Modèles de Langage (LLM), la recherche sur l'évaluation et l'amélioration de l'alignement de suivi des instructions (IF) dans le domaine RAG reste limitée. Pour résoudre ce problème, nous proposons VIF-RAG, le premier pipeline synthétique automatisé, évolutif et vérifiable pour l'alignement de suivi des instructions dans les systèmes RAG. Nous commençons par créer manuellement un ensemble minimal d'instructions atomiques (<100) et développons des règles de combinaison pour synthétiser et vérifier des instructions complexes pour un ensemble de départ. Ensuite, nous utilisons des modèles supervisés pour la réécriture des instructions tout en générant simultanément du code pour automatiser la vérification de la qualité des instructions via un exécuteur Python. Enfin, nous intégrons ces instructions avec des échantillons de données RAG et générales étendus, en montant en échelle vers un ensemble de données VIF-RAG-QA de haute qualité (>100k) via des processus automatisés. Pour combler davantage le fossé dans l'auto-évaluation du suivi des instructions pour les systèmes RAG, nous introduisons le Benchmark FollowRAG, qui comprend environ 3K échantillons de test, couvrant 22 catégories de contraintes d'instructions générales et quatre ensembles de données QA intensifs en connaissances. Grâce à sa conception de pipeline robuste, FollowRAG peut s'intégrer parfaitement à différents benchmarks RAG. En utilisant FollowRAG et huit benchmarks largement utilisés pour les LLM, nous démontrons que VIF-RAG améliore nettement les performances des LLM sur un large éventail de contraintes d'instructions générales tout en exploitant efficacement ses capacités dans des scénarios RAG. Une analyse plus approfondie offre des perspectives pratiques pour atteindre l'alignement IF dans les systèmes RAG. Notre code et nos ensembles de données sont disponibles sur https://FollowRAG.github.io.
Nous présentons MEGA-Bench, une suite d'évaluation qui étend l'évaluation multimodale à plus de 500 tâches du monde réel, afin de répondre aux cas d'utilisation quotidiens hautement hétérogènes des utilisateurs finaux. Notre objectif est d'optimiser un ensemble d'échantillons de données de haute qualité couvrant un ensemble très diversifié et riche de tâches multimodales, tout en permettant une évaluation de modèle rentable et précise. En particulier, nous avons collecté 505 tâches réalistes englobant plus de 8 000 échantillons provenant de 16 annotateurs experts pour couvrir de manière exhaustive l'espace des tâches multimodales. Au lieu d'unifier ces problèmes en questions à choix multiples standard (comme MMMU, MMBench et MMT-Bench), nous adoptons une large gamme de formats de sortie tels que des nombres, des phrases, du code, \LaTeX, des coordonnées, JSON, libre, etc. Pour accommoder ces formats, nous avons développé plus de 40 métriques pour évaluer ces tâches. Contrairement aux référentiels existants, MEGA-Bench offre un rapport de capacité détaillé à travers de multiples dimensions (par exemple, application, type d'entrée, format de sortie, compétence), permettant aux utilisateurs d'interagir avec les capacités du modèle et de les visualiser en profondeur. Nous évaluons une grande variété de modèles de vision-langage de pointe sur MEGA-Bench pour comprendre leurs capacités à travers ces dimensions.
Les récents progrès dans les grands modèles de langage (LLM) ont conduit à des avancées significatives dans les capacités de raisonnement mathématique. Cependant, les benchmarks existants tels que GSM8K ou MATH sont désormais résolus avec une grande précision (par exemple, OpenAI o1 atteint 94,8% sur l'ensemble de données MATH), indiquant leur inadéquation pour défier réellement ces modèles. Pour combler cet écart, nous proposons un benchmark complet et exigeant spécifiquement conçu pour évaluer le raisonnement mathématique des LLM au niveau olympique. Contrairement aux benchmarks existants liés aux Olympiades, notre ensemble de données se concentre exclusivement sur les mathématiques et comprend une vaste collection de 4428 problèmes de niveau de compétition avec une annotation humaine rigoureuse. Ces problèmes sont méticuleusement catégorisés en plus de 33 sous-domaines et couvrent plus de 10 niveaux de difficulté distincts, permettant une évaluation holistique des performances du modèle en matière de raisonnement mathématique olympique. De plus, nous avons mené une analyse approfondie basée sur ce benchmark. Nos résultats expérimentaux montrent que même les modèles les plus avancés, OpenAI o1-mini et OpenAI o1-preview, ont du mal avec des problèmes de niveau olympique très difficiles, avec des précisions de 60,54% et 52,55%, mettant en évidence des défis significatifs dans le raisonnement mathématique de niveau olympique.
Les modèles génératifs transforment du bruit aléatoire en images ; leur inversion vise à transformer les images en bruit structuré pour la récupération et l'édition. Cet article aborde deux tâches clés : (i) l'inversion et (ii) l'édition d'une image réelle en utilisant des équivalents stochastiques de modèles de flux rectifiés (comme Flux). Bien que les Modèles de Diffusion (MD) aient récemment dominé le domaine de la modélisation générative pour les images, leur inversion présente des défis de fidélité et d'éditabilité en raison des non-linéarités dans la dérive et la diffusion. Les approches d'inversion d'état de l'art existantes des MD reposent sur l'entraînement de paramètres supplémentaires ou sur l'optimisation des variables latentes au moment du test ; les deux sont coûteux en pratique. Les Flux Rectifiés (RF) offrent une alternative prometteuse aux modèles de diffusion, cependant leur inversion a été peu explorée. Nous proposons une inversion RF en utilisant un contrôle optimal dynamique dérivé via un régulateur quadratique linéaire. Nous prouvons que le champ de vecteurs résultant est équivalent à une équation différentielle stochastique rectifiée. De plus, nous étendons notre cadre pour concevoir un échantillonneur stochastique pour Flux. Notre méthode d'inversion permet des performances de pointe en inversion et édition sans entraînement, surpassant les travaux antérieurs en synthèse d'image à partir de traits et en édition sémantique d'images, avec des évaluations humaines à grande échelle confirmant la préférence des utilisateurs.
L'entraînement à grande échelle de modèles multimodaux sur des données extraites du web a montré une utilité exceptionnelle pour infuser ces modèles avec les connaissances mondiales requises pour performer efficacement sur de multiples tâches en aval. Cependant, un inconvénient de l'extraction de données du web peut être le sacrifice potentiel des références sur lesquelles les capacités de ces modèles sont souvent évaluées. Pour prévenir la contamination des données de test et tester véritablement les capacités de ces modèles de base, nous proposons LiveXiv : un banc d'essai évolutif en direct et évolutif basé sur des articles scientifiques ArXiv. LiveXiv accède à des manuscrits spécifiques à un domaine à n'importe quel moment donné et propose de générer automatiquement des paires question-réponse visuelles (VQA). Ceci est réalisé sans aucune intervention humaine, en utilisant le contenu multimodal des manuscrits, comme les graphiques, les diagrammes et les tableaux. De plus, nous introduisons une approche d'évaluation efficace qui estime les performances de tous les modèles sur le banc d'essai évolutif en utilisant des évaluations de seulement un sous-ensemble de modèles. Cela réduit considérablement le coût global de l'évaluation. Nous évaluons plusieurs modèles multimodaux larges (LMM) ouverts et propriétaires sur la première version de notre banc d'essai, démontrant sa nature exigeante et révélant les véritables capacités des modèles, évitant ainsi la contamination. Enfin, dans notre engagement envers la qualité élevée, nous avons collecté et évalué un sous-ensemble vérifié manuellement. En comparant ses résultats globaux à nos annotations automatiques, nous avons constaté que la variance de performance est en effet minimale (<2,5%). Notre ensemble de données est disponible en ligne sur HuggingFace, et notre code sera disponible ici.
La génération augmentée par récupération (RAG) est une technique efficace qui permet aux grands modèles de langage (LLM) d'utiliser des sources de connaissances externes pour la génération. Cependant, les systèmes RAG actuels sont uniquement basés sur du texte, rendant impossible l'utilisation d'informations visuelles telles que la mise en page et les images qui jouent un rôle crucial dans les documents multimodaux du monde réel. Dans cet article, nous présentons VisRAG, qui aborde ce problème en établissant un pipeline RAG basé sur un modèle vision-langage (VLM). Dans ce pipeline, au lieu d'analyser d'abord le document pour obtenir du texte, le document est directement intégré en utilisant un VLM en tant qu'image, puis récupéré pour améliorer la génération d'un VLM. Comparé au RAG traditionnel basé sur du texte, VisRAG maximise la rétention et l'utilisation des informations de données dans les documents originaux, éliminant la perte d'informations introduite lors du processus d'analyse. Nous collectons à la fois des données open source et synthétiques pour entraîner le système de récupération dans VisRAG et explorons diverses méthodes de génération. Les expériences démontrent que VisRAG surpasse le RAG traditionnel à la fois dans les étapes de récupération et de génération, réalisant un gain de performance de bout en bout de 25 à 39 % par rapport au pipeline RAG traditionnel basé sur du texte. Une analyse supplémentaire révèle que VisRAG est efficace dans l'utilisation des données d'entraînement et démontre une forte capacité de généralisation, ce qui en fait une solution prometteuse pour le RAG sur les documents multimodaux. Notre code et nos données sont disponibles sur https://github.com/openbmb/visrag.
Ces dernières années, il y a eu des avancées remarquables dans la génération d'images vers vidéos. Cependant, la cohérence 3D et la contrôlabilité de la caméra des images générées sont restées non résolues. Des études récentes ont tenté d'incorporer le contrôle de la caméra dans le processus de génération, mais leurs résultats sont souvent limités à des trajectoires simples ou manquent de la capacité de générer des vidéos cohérentes à partir de plusieurs chemins de caméra distincts pour la même scène. Pour remédier à ces limitations, nous présentons Cavia, un nouveau cadre pour la génération de vidéos multi-vues contrôlables par caméra, capable de convertir une image d'entrée en plusieurs vidéos spatiotemporellement cohérentes. Notre cadre étend les modules d'attention spatiale et temporelle en modules d'attention intégrés à la vue, améliorant à la fois la cohérence du point de vue et temporelle. Cette conception flexible permet un entraînement conjoint avec diverses sources de données sélectionnées, y compris des vidéos statiques au niveau de la scène, des vidéos dynamiques multi-vues synthétiques au niveau de l'objet et des vidéos dynamiques monoclaires du monde réel. À notre connaissance, Cavia est le premier de son genre à permettre à l'utilisateur de spécifier précisément le mouvement de la caméra tout en obtenant le mouvement de l'objet. Des expériences approfondies démontrent que Cavia dépasse les méthodes de pointe en termes de cohérence géométrique et de qualité perceptuelle. Page du projet : https://ir1d.github.io/Cavia/
Les LLM sont généralement entraînés pour répondre aux questions des utilisateurs ou suivre des instructions de la même manière que le font les experts humains. Cependant, dans le cadre de l'alignement standard, ils manquent de la capacité de réflexion explicite avant de répondre. La réflexion est importante pour les questions complexes qui nécessitent du raisonnement et de la planification, mais peut être appliquée à n'importe quelle tâche. Nous proposons une méthode d'entraînement pour doter les LLM existants de telles capacités de réflexion pour suivre des instructions générales sans recourir à des données humaines supplémentaires. Nous parvenons à cela grâce à une procédure de recherche et d'optimisation itérative qui explore l'espace des générations de pensées possibles, permettant au modèle d'apprendre à réfléchir sans supervision directe. Pour chaque instruction, les candidats pensées sont évalués en utilisant un modèle juge pour évaluer uniquement leurs réponses, puis optimisés via une optimisation des préférences. Nous montrons que cette procédure conduit à des performances supérieures sur AlpacaEval et Arena-Hard, et montre des avantages de la réflexion sur des catégories non liées au raisonnement telles que le marketing, la santé et les connaissances générales, en plus des tâches plus traditionnelles de raisonnement et de résolution de problèmes.
La compréhension des dynamiques temporelles fines est cruciale pour la compréhension et la génération vidéo multimodales. En raison du manque d'annotations temporelles fines, les benchmarks vidéo existants ressemblent principalement à des benchmarks d'images statiques et sont inaptes à évaluer les modèles pour la compréhension temporelle. Dans cet article, nous introduisons TemporalBench, un nouveau benchmark dédié à l'évaluation de la compréhension temporelle fine dans les vidéos. TemporalBench se compose d'environ 10 000 paires question-réponse vidéo, dérivées d'environ 2 000 annotations humaines de haute qualité détaillant les dynamiques temporelles dans les clips vidéo. En conséquence, notre benchmark fournit une plateforme de test unique pour évaluer diverses capacités de compréhension et de raisonnement temporels telles que la fréquence des actions, l'amplitude du mouvement, l'ordre des événements, etc. De plus, il permet des évaluations sur diverses tâches telles que la réponse aux questions vidéo et la légende, la compréhension de vidéos courtes et longues, ainsi que différents modèles tels que les modèles d'incorporation vidéo multimodaux et les modèles de génération de texte. Les résultats montrent que des modèles de pointe comme GPT-4o n'atteignent qu'une précision de réponse aux questions de 38,5% sur TemporalBench, démontrant un écart significatif (~30%) entre les humains et l'IA en matière de compréhension temporelle. De plus, nous remarquons une faille critique pour les questions à choix multiples où les LLM peuvent détecter les changements subtils dans les légendes négatives et trouver une description centralisée comme indice pour leur prédiction, où nous proposons l'Exactitude Binaire Multiple (MBA) pour corriger un tel biais. Nous espérons que TemporalBench encouragera la recherche sur l'amélioration des capacités de raisonnement temporel des modèles. À la fois l'ensemble de données et le code d'évaluation seront rendus disponibles.
Le réglage fin supervisé (SFS) est crucial pour aligner les Grands Modèles de Langage (GML) avec les instructions humaines. L'objectif principal pendant le SFS est de sélectionner un petit sous-ensemble représentatif de données d'entraînement à partir du pool plus large, de sorte que le réglage fin avec ce sous-ensemble atteigne des résultats comparables, voire supérieurs, à ceux obtenus en utilisant l'ensemble des données. Cependant, la plupart des techniques de sélection de données existantes sont conçues pour des pools de données à petite échelle, ce qui ne répond pas aux exigences des scénarios réels de SFS. Dans cet article, nous avons reproduit plusieurs méthodes d'auto-évaluation qui ne dépendent pas de l'assistance de modèles externes sur des ensembles de données à l'échelle de deux millions, et avons constaté que presque toutes les méthodes ont du mal à surpasser significativement la sélection aléatoire lorsqu'il s'agit de traiter de tels pools de données à grande échelle. De plus, nos comparaisons suggèrent que, pendant le SFS, la diversité dans la sélection des données est plus critique que de simplement se concentrer sur des données de haute qualité. Nous avons également analysé les limites de plusieurs approches actuelles, expliquant pourquoi elles fonctionnent mal sur des ensembles de données à grande échelle et pourquoi elles ne sont pas adaptées à de tels contextes. Enfin, nous avons constaté que le filtrage des données par longueur de jeton offre une méthode stable et efficace pour améliorer les résultats. Cette approche, en particulier lors de l'entraînement sur des données textuelles longues, s'avère très bénéfique pour des modèles de base relativement plus faibles, tels que Llama3.
Les récents systèmes d'assistant de discussion pilotés par de grands modèles de langage (LLM) ont intégré des composants de mémoire pour suivre les historiques de discussion utilisateur-assistant, permettant des réponses plus précises et personnalisées. Cependant, leurs capacités de mémoire à long terme dans des interactions soutenues restent peu explorées. Cet article présente LongMemEval, un banc d'essai complet conçu pour évaluer cinq capacités fondamentales de mémoire à long terme des assistants de discussion : l'extraction d'informations, le raisonnement multi-session, le raisonnement temporel, les mises à jour de connaissances et l'abstention. Avec 500 questions méticuleusement sélectionnées intégrées dans des historiques de discussion utilisateur-assistant librement évolutifs, LongMemEval représente un défi majeur pour les systèmes de mémoire à long terme existants, les assistants de discussion commerciaux et les LLM à long contexte montrant une baisse de précision de 30 % dans la mémorisation des informations à travers des interactions soutenues. Nous présentons ensuite un cadre unifié qui décompose la conception de la mémoire à long terme en quatre choix de conception à travers les étapes d'indexation, de récupération et de lecture. Basé sur des idées expérimentales clés, nous proposons plusieurs conceptions de mémoire, y compris la décomposition de session pour optimiser la granularité de la valeur, l'expansion de clé augmentée par les faits pour améliorer la structure de l'index, et l'expansion de requête consciente du temps pour affiner la portée de la recherche. Les résultats des expériences montrent que ces optimisations améliorent considérablement à la fois le rappel de la mémoire et la réponse aux questions en aval sur LongMemEval. Dans l'ensemble, notre étude fournit des ressources précieuses et des orientations pour faire progresser les capacités de mémoire à long terme des assistants de discussion basés sur LLM, ouvrant la voie vers une IA conversationnelle plus personnalisée et fiable.
L'avènement des grands Modèles Vision-Langage (VLM) a considérablement fait progresser la compréhension multimodale, permettant une intégration plus sophistiquée et précise des informations visuelles et textuelles à travers diverses tâches, notamment la légende d'images et de vidéos, la réponse à des questions visuelles et la recherche croisée multimodale. Malgré les capacités supérieures des VLM, les chercheurs manquent d'une compréhension complète de leur compositionnalité - la capacité à comprendre et produire de nouvelles combinaisons de composants visuels et textuels connus. Les benchmarks précédents ne fournissent qu'une évaluation relativement grossière de la compositionnalité du point de vue des objets, des relations et des attributs, en négligeant un raisonnement plus approfondi sur les interactions entre objets, le dénombrement et les compositions complexes. Cependant, la compositionnalité est une capacité critique qui facilite le raisonnement cohérent et la compréhension à travers les modalités pour les VLM. Pour remédier à cette limitation, nous proposons MMCOMPOSITION, un nouveau benchmark annoté par des humains pour évaluer de manière exhaustive et précise la compositionnalité des VLM. Notre benchmark proposé sert de complément à ces travaux antérieurs. Avec MMCOMPOSITION, nous pouvons quantifier et explorer la compositionnalité des VLM les plus courants. À notre grande surprise, nous constatons une compositionnalité inférieure de GPT-4o par rapport au meilleur modèle open-source, et nous analysons les raisons sous-jacentes. Notre analyse expérimentale révèle les limites des VLM dans la perception et le raisonnement compositionnels fins, et indique des pistes d'amélioration dans la conception et l'entraînement des VLM. Ressources disponibles sur : https://hanghuacs.github.io/MMComposition/
Les grands modèles de langage (LLMs) ont démontré des performances remarquables sur de multiples tâches grâce à l'apprentissage en contexte. Pour les tâches de raisonnement complexe nécessitant une réflexion étape par étape, les incitations Chain-of-Thought (CoT) ont donné des résultats impressionnants, surtout lorsqu'elles sont combinées à l'auto-consistance. Néanmoins, certaines tâches restent particulièrement difficiles à résoudre pour les LLMs. L'Arbre de Pensées (ToT) et le Graphe de Pensées (GoT) ont émergé comme des alternatives, divisant le problème complexe en chemins de sous-problèmes. Dans cet article, nous proposons l'Arbre de Problèmes (ToP), une version plus simple de ToT, que nous supposons pouvoir mieux fonctionner pour les tâches complexes pouvant être divisées en sous-tâches identiques. Nos résultats empiriques montrent que notre approche surpasse ToT et GoT, et en plus, elle est plus performante que CoT sur des tâches de raisonnement complexe. Tout le code de cet article est disponible publiquement ici : https://github.com/ArmelRandy/tree-of-problems.
Le déploiement des grands modèles de langage à long contexte (LLM) est essentiel mais pose des défis computationnels et de mémoire importants. Mettre en cache tous les états Clé et Valeur (KV) à travers toutes les têtes d'attention consomme une mémoire substantielle. Les méthodes existantes d'élagage du cache KV endommagent soit les capacités à long contexte des LLM, soit n'offrent que des améliorations d'efficacité limitées. Dans cet article, nous identifions qu'une fraction seulement des têtes d'attention, appelées Têtes de Récupération, sont cruciales pour le traitement des longs contextes et nécessitent une attention complète sur tous les jetons. En revanche, toutes les autres têtes, qui se concentrent principalement sur les jetons récents et les puits d'attention - appelées Têtes de Diffusion - ne nécessitent pas une attention complète. Sur la base de cette observation, nous introduisons DuoAttention, un cadre qui n'applique un cache KV complet qu'aux têtes de récupération tout en utilisant un cache KV léger et de longueur constante pour les têtes de diffusion, ce qui réduit à la fois la mémoire de décodage et de pré-remplissage des LLM ainsi que la latence sans compromettre leurs capacités à long contexte. DuoAttention utilise un algorithme léger basé sur l'optimisation avec des données synthétiques pour identifier précisément les têtes de récupération. Notre méthode réduit significativement la mémoire d'inférence à long contexte jusqu'à 2,55 fois pour les modèles MHA et 1,67 fois pour les modèles GQA tout en accélérant le décodage jusqu'à 2,18 fois et 1,50 fois, et en accélérant le pré-remplissage jusqu'à 1,73 fois et 1,63 fois pour les modèles MHA et GQA respectivement, avec une perte de précision minimale par rapport à une attention complète. Notamment, combiné à la quantification, DuoAttention permet le décodage de Llama-3-8B avec une longueur de contexte de 3,3 millions sur un seul GPU A100. Le code est disponible sur https://github.com/mit-han-lab/duo-attention.
Les robots humanoïdes capables de fonctionner de manière autonome dans des environnements divers sont depuis longtemps un objectif pour les roboticiens. Cependant, la manipulation autonome par des robots humanoïdes a largement été limitée à une scène spécifique, principalement en raison de la difficulté d'acquérir des compétences généralisables. Les récentes avancées dans les politiques visuomotrices 3D, telles que la Politique de Diffusion 3D (DP3), ont montré des promesses pour étendre ces capacités à des environnements plus sauvages. Cependant, les politiques visuomotrices 3D reposent souvent sur l'étalonnage de la caméra et la segmentation du nuage de points, ce qui pose des défis pour le déploiement sur des robots mobiles tels que les humanoïdes. Dans ce travail, nous introduisons la Politique de Diffusion 3D Améliorée (iDP3), une nouvelle politique visuomotrice 3D qui élimine ces contraintes en exploitant des représentations visuelles 3D égocentriques. Nous démontrons que iDP3 permet à un robot humanoïde de taille réelle d'effectuer de manière autonome des compétences dans divers scénarios du monde réel, en utilisant uniquement des données collectées en laboratoire. Des vidéos sont disponibles sur : https://humanoid-manipulation.github.io
Les grands modèles de langage ont démontré des performances impressionnantes lorsqu'ils sont intégrés avec des modèles de vision, permettant même la compréhension vidéo. Cependant, l'évaluation de ces modèles vidéo présente ses propres défis uniques, pour lesquels plusieurs référentiels ont été proposés. Dans cet article, nous montrons que les référentiels vidéo-langage les plus utilisés actuellement peuvent être résolus sans nécessiter beaucoup de raisonnement temporel. Nous avons identifié trois problèmes principaux dans les ensembles de données existants : (i) les informations statiques des images individuelles sont souvent suffisantes pour résoudre les tâches, (ii) le texte des questions et des réponses possibles est trop informatif, permettant aux modèles de répondre correctement sans se baser sur une entrée visuelle, (iii) la connaissance du monde seule peut répondre à bon nombre des questions, faisant des référentiels un test de reproduction de connaissances plutôt que de raisonnement visuel. De plus, nous avons constaté que les référentiels de questions-réponses ouvertes pour la compréhension vidéo souffrent de problèmes similaires, tandis que le processus d'évaluation automatique avec les LLM est peu fiable, en faisant une alternative inadaptée. En guise de solution, nous proposons TVBench, un nouveau référentiel vidéo open-source de questions à choix multiples, et démontrons à travers des évaluations approfondies qu'il nécessite un haut niveau de compréhension temporelle. De manière surprenante, nous constatons que la plupart des modèles vidéo-langage de pointe récents ont des performances similaires à celles du hasard sur TVBench, seuls Gemini-Pro et Tarsier dépassant clairement cette référence.
Nous utilisons de nouveaux outils d'interprétabilité mécaniste afin de déterminer si la structure interne des grands modèles de langage (LLM) présente une correspondance avec les structures linguistiques sous-jacentes aux langues sur lesquelles ils sont entraînés. En particulier, nous nous demandons (1) lorsque deux langues utilisent les mêmes processus morphosyntaxiques, est-ce que les LLM les traitent en utilisant un circuit interne partagé ? et (2) lorsque deux langues nécessitent des processus morphosyntaxiques différents, est-ce que les LLM les traitent en utilisant un circuit interne différent ? En utilisant des modèles multilingues et monolingues anglais et chinois, nous analysons le circuit interne impliqué dans deux tâches. Nous trouvons des preuves que les modèles utilisent le même circuit pour traiter le même processus syntaxique indépendamment de la langue dans laquelle il se produit, et que c'est le cas même pour les modèles monolingues entraînés complètement indépendamment. De plus, nous montrons que les modèles multilingues utilisent des composants spécifiques à la langue (têtes d'attention et réseaux feed-forward) lorsqu'ils sont nécessaires pour traiter des processus linguistiques (par exemple, le marquage morphologique) qui n'existent que dans certaines langues. Ensemble, nos résultats fournissent de nouvelles perspectives sur la manière dont les LLM jonglent entre l'exploitation de structures communes et la préservation des différences linguistiques lorsqu'ils sont chargés de modéliser simultanément plusieurs langues.
LayerNorm est un composant essentiel dans les modèles de langage de grande taille modernes (LLM) pour stabiliser l'entraînement et garantir une optimisation fluide. Cependant, il introduit des défis importants en termes d'interprétabilité mécaniste, de suppression des caractéristiques aberrantes, de propagation fidèle du signal, ainsi que de complexité computationnelle et de communication de l'inférence privée. Ce travail explore les fonctions d'activation souhaitables dans les LLMs décodeurs sans normalisation. Contrairement à la préférence conventionnelle pour le GELU dans les modèles basés sur les transformers, nos résultats empiriques démontrent une tendance opposée - ReLU surpasse significativement le GELU dans les modèles sans LayerNorm, entraînant une amélioration de {\bf 8,2\%} de la perplexité. Nous identifions un problème clé avec le GELU, où les premières couches subissent une surcharge entropique, entraînant une sous-utilisation de la capacité de représentation des têtes d'attention. Cela met en évidence que des activations plus douces comme le GELU ne conviennent pas aux architectures sans LayerNorm, tandis que les propriétés géométriques de ReLU - spécialisation dans l'espace d'entrée et sélectivité intra-classe - conduisent à une dynamique d'apprentissage améliorée et une meilleure rétention d'informations en l'absence de LayerNorm. Cette étude offre des perspectives clés pour optimiser les architectures de transformers où LayerNorm pose des défis importants.
Nous introduisons la Pré-entraînement des Actions Latentes pour les modèles d'Actions généraux (LAPA), une méthode non supervisée pour pré-entraîner des modèles Vision-Langage-Action (VLA) sans étiquettes d'actions de robots de vérité terrain. Les modèles existants Vision-Langage-Action nécessitent généralement des étiquettes d'actions collectées par des téléopérateurs humains lors du pré-entraînement, ce qui limite considérablement les sources de données possibles et l'échelle. Dans ce travail, nous proposons une méthode pour apprendre à partir de vidéos à l'échelle d'Internet qui n'ont pas d'étiquettes d'actions de robots. Nous entraînons d'abord un modèle de quantification des actions en exploitant un objectif basé sur VQ-VAE pour apprendre des actions latentes discrètes entre les images, puis pré-entraînons un modèle VLA latent pour prédire ces actions latentes à partir des observations et des descriptions des tâches, et enfin affinons le VLA sur des données de manipulation de robots à petite échelle pour mapper des actions latentes aux actions de robots. Les résultats expérimentaux démontrent que notre méthode surpasse significativement les techniques existantes qui entraînent des politiques de manipulation de robots à partir de vidéos à grande échelle. De plus, elle surpasse le modèle VLA de pointe entraîné avec des étiquettes d'actions robotiques sur des tâches de manipulation du monde réel qui nécessitent une condition linguistique, une généralisation à des objets non vus auparavant, et une généralisation sémantique à des instructions non vues auparavant. L'entraînement uniquement sur des vidéos de manipulation humaine montre également un transfert positif, ouvrant la voie à l'exploitation du potentiel des données à l'échelle du web pour les modèles fondamentaux en robotique.