Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Cambrian-1, une famille de modèles de langage multimodaux (MLLMs) conçus avec une approche centrée sur la vision. Bien que des modèles de langage plus puissants puissent améliorer les capacités multimodales, les choix de conception pour les composants visuels sont souvent insuffisamment explorés et déconnectés des recherches sur l'apprentissage de représentations visuelles. Cet écart entrave l'ancrage sensoriel précis dans des scénarios réels. Notre étude utilise des LLMs et le réglage par instructions visuelles comme interface pour évaluer diverses représentations visuelles, offrant de nouvelles perspectives sur différents modèles et architectures — auto-supervisés, fortement supervisés, ou des combinaisons des deux — basées sur des expériences avec plus de 20 encodeurs visuels. Nous examinons de manière critique les benchmarks MLLM existants, en abordant les difficultés liées à la consolidation et à l'interprétation des résultats provenant de diverses tâches, et introduisons un nouveau benchmark centré sur la vision, CV-Bench. Pour améliorer davantage l'ancrage visuel, nous proposons le Spatial Vision Aggregator (SVA), un connecteur dynamique et spatialement conscient qui intègre des caractéristiques visuelles à haute résolution avec les LLMs tout en réduisant le nombre de tokens. De plus, nous discutons de la curation de données de réglage par instructions visuelles de haute qualité à partir de sources publiquement disponibles, en mettant l'accent sur l'importance de l'équilibrage des sources de données et du ratio de distribution. Collectivement, Cambrian-1 non seulement atteint des performances de pointe, mais sert également de guide complet et ouvert pour les MLLMs réglés par instructions. Nous fournissons les poids des modèles, le code, les outils de support, les ensembles de données, ainsi que des recettes détaillées pour le réglage par instructions et l'évaluation. Nous espérons que notre publication inspirera et accélérera les avancées dans les systèmes multimodaux et l'apprentissage de représentations visuelles.
La génération d'images personnalisées offre un grand potentiel pour assister les humains dans leur travail et leur vie quotidienne grâce à sa capacité impressionnante à créer du contenu personnalisé de manière créative. Cependant, les évaluations actuelles sont soit automatisées mais mal alignées avec les jugements humains, soit nécessitent des évaluations humaines qui sont chronophages et coûteuses. Dans ce travail, nous présentons DreamBench++, un benchmark aligné sur les humains et automatisé grâce à des modèles GPT multimodaux avancés. Plus précisément, nous concevons systématiquement des prompts pour que GPT soit à la fois aligné sur les humains et sur lui-même, renforcé par une spécialisation aux tâches. De plus, nous construisons un ensemble de données complet comprenant des images et des prompts variés. En évaluant 7 modèles génératifs modernes, nous démontrons que DreamBench++ produit des évaluations significativement plus alignées sur les humains, contribuant ainsi à faire progresser la communauté avec des découvertes innovantes.
L'ingénierie logicielle automatisée a été grandement renforcée par les récents progrès des modèles de langage de grande taille (LLMs) pour la programmation. Bien que les benchmarks actuels aient montré que les LLMs peuvent accomplir diverses tâches d'ingénierie logicielle comme les développeurs humains, la majorité de leurs évaluations se limitent à des tâches algorithmiques courtes et autonomes. Résoudre des tâches de programmation complexes et pratiques nécessite la capacité d'utiliser divers appels de fonction comme outils pour implémenter efficacement des fonctionnalités telles que l'analyse de données et le développement web. De plus, l'utilisation de plusieurs outils pour résoudre une tâche nécessite un raisonnement compositionnel en comprenant avec précision des instructions complexes. Réunir ces deux caractéristiques peut représenter un défi majeur pour les LLMs. Pour évaluer dans quelle mesure les LLMs peuvent résoudre des tâches de programmation complexes et pratiques, nous introduisons Bench, un benchmark qui met les LLMs au défi d'invoquer plusieurs appels de fonction comme outils provenant de 139 bibliothèques et 7 domaines pour 1 140 tâches de programmation granulaires. Pour évaluer rigoureusement les LLMs, chaque tâche de programmation comprend 5,6 cas de test avec une couverture de branches moyenne de 99 %. De plus, nous proposons une variante de Bench orientée langage naturel, Benchi, qui transforme automatiquement les docstrings originaux en instructions courtes ne contenant que les informations essentielles. Notre évaluation approfondie de 60 LLMs montre que les LLMs ne sont pas encore capables de suivre des instructions complexes pour utiliser les appels de fonction avec précision, avec des scores allant jusqu'à 60 %, nettement inférieurs à la performance humaine de 97 %. Les résultats soulignent la nécessité de progrès supplémentaires dans ce domaine.
Les modèles de recherche d'information sont souvent évalués sur des ensembles de données partiellement annotés. Chaque requête est associée à quelques textes pertinents, tandis que le reste du corpus est supposé non pertinent. Par conséquent, les modèles qui parviennent à retrouver des faux négatifs sont pénalisés lors de l'évaluation. Malheureusement, annoter complètement tous les textes pour chaque requête n'est pas efficace en termes de ressources. Dans ce travail, nous montrons que l'utilisation d'ensembles de données partiellement annotés pour l'évaluation peut donner une image déformée. Nous avons constitué D-MERIT, un ensemble d'évaluation pour la recherche de passages extraits de Wikipédia, visant à inclure tous les passages pertinents pour chaque requête. Les requêtes décrivent un groupe (par exemple, "revues sur la linguistique") et les passages pertinents sont des preuves que des entités appartiennent à ce groupe (par exemple, un passage indiquant que Language est une revue sur la linguistique). Nous montrons qu'évaluer sur un ensemble de données contenant des annotations pour seulement un sous-ensemble des passages pertinents peut conduire à un classement trompeur des systèmes de recherche, et qu'à mesure que davantage de textes pertinents sont inclus dans l'ensemble d'évaluation, les classements convergent. Nous proposons notre ensemble de données comme ressource pour l'évaluation et notre étude comme une recommandation pour trouver un équilibre entre l'efficacité des ressources et une évaluation fiable lors de l'annotation d'ensembles d'évaluation pour la recherche de textes.
Les séquences vidéo offrent des informations temporelles précieuses, mais les grands modèles multimodaux (LMM) existants peinent à comprendre les vidéos extrêmement longues. De nombreux travaux abordent ce problème en réduisant le nombre de tokens visuels à l'aide de rééchantillonneurs visuels. Alternativement, dans cet article, nous abordons ce problème du point de vue du modèle de langage. En extrapolant simplement la longueur de contexte du modèle de langage de base, nous permettons aux LMM de comprendre un ordre de grandeur de tokens visuels supplémentaires sans aucun entraînement vidéo. Nous appelons ce phénomène le transfert de contexte long et étudions attentivement ses propriétés. Pour mesurer efficacement la capacité des LMM à généraliser à des contextes longs dans la modalité visuelle, nous développons V-NIAH (Visual Needle-In-A-Haystack), un benchmark visuel long purement synthétique inspiré du test NIAH des modèles de langage. Notre Assistant Vidéo Long (LongVA) proposé peut traiter 2000 images ou plus de 200K tokens visuels sans complexités supplémentaires. Avec sa longueur de contexte étendue, LongVA atteint des performances de pointe sur Video-MME parmi les modèles de taille 7B en échantillonnant de manière dense plus d'images d'entrée. Notre travail est open-source à l'adresse https://github.com/EvolvingLMMs-Lab/LongVA.
Les modèles de diffusion ont récemment obtenu des résultats remarquables en génération de vidéos. Malgré ces performances encourageantes, les vidéos générées sont généralement limitées à un petit nombre d'images, produisant des clips ne durant que quelques secondes. Les principaux défis pour produire des vidéos plus longues incluent les besoins substantiels en mémoire et le temps de traitement prolongé requis sur un seul GPU. Une solution simple consisterait à répartir la charge de travail sur plusieurs GPU, ce qui, cependant, entraîne deux problèmes : (1) garantir que tous les GPU communiquent efficacement pour partager les informations de timing et de contexte, et (2) modifier les modèles de diffusion vidéo existants, généralement entraînés sur de courtes séquences, pour créer des vidéos plus longues sans entraînement supplémentaire. Pour résoudre ces problèmes, nous présentons dans cet article Video-Infinity, un pipeline d'inférence distribué qui permet un traitement parallèle sur plusieurs GPU pour la génération de vidéos longues. Plus précisément, nous proposons deux mécanismes cohérents : le parallélisme de clips et l'attention à double portée. Le parallélisme de clips optimise la collecte et le partage des informations de contexte entre les GPU, minimisant ainsi les surcharges de communication, tandis que l'attention à double portée module l'auto-attention temporelle pour équilibrer efficacement les contextes locaux et globaux entre les appareils. Ensemble, ces deux mécanismes unissent leurs forces pour répartir la charge de travail et permettre la génération rapide de vidéos longues. Dans une configuration de 8 x Nvidia 6000 Ada GPU (48G), notre méthode génère des vidéos jusqu'à 2 300 images en environ 5 minutes, permettant une génération de vidéos longues à une vitesse 100 fois supérieure aux méthodes précédentes.
Les récents progrès des modèles de langage multimodaux de grande taille (MLLMs) ont étendu leurs capacités à la compréhension vidéo. Cependant, ces modèles sont souvent affectés par des "hallucinations", où un contenu non pertinent ou absurde est généré, s'écartant du contexte réel de la vidéo. Ce travail présente VideoHallucer, le premier benchmark complet pour la détection d'hallucinations dans les grands modèles vidéo-langage (LVLMs). VideoHallucer catégorise les hallucinations en deux types principaux : intrinsèques et extrinsèques, offrant des sous-catégories supplémentaires pour une analyse détaillée, incluant les hallucinations d'objet-relation, temporelles, de détails sémantiques, factuelles extrinsèques et non factuelles extrinsèques. Nous adoptons une méthode de question-réponse vidéo binaire et antagoniste pour une évaluation complète, où des paires de questions basiques et hallucinées sont élaborées stratégiquement. En évaluant onze LVLMs sur VideoHallucer, nous révélons que i) la majorité des modèles actuels présentent des problèmes significatifs avec les hallucinations ; ii) bien que l'augmentation des jeux de données et des paramètres améliore la capacité des modèles à détecter les indices visuels basiques et les contre-factuels, cela apporte un bénéfice limité pour la détection des hallucinations factuelles extrinsèques ; iii) les modèles existants sont plus aptes à détecter les faits qu'à identifier les hallucinations. En sous-produit, ces analyses guident également le développement de notre cadre auto-PEP, atteignant une amélioration moyenne de 5,38 % dans la résistance aux hallucinations pour toutes les architectures de modèles.
L'apprentissage par renforcement à partir de retours humains (RLHF) aligne les grands modèles de langage (LLMs) en encourageant leurs générations à obtenir des récompenses élevées, grâce à un modèle de récompense entraîné sur les préférences humaines. Pour éviter l'oubli des connaissances pré-entraînées, le RLHF intègre généralement une régularisation KL ; celle-ci contraint la politique à rester proche de son initialisation par fine-tuning supervisé, bien qu'elle entrave l'optimisation des récompenses. Pour résoudre ce compromis entre KL et récompense, nous introduisons dans cet article une nouvelle stratégie d'alignement nommée Weight Averaged Rewarded Policies (WARP). WARP fusionne les politiques dans l'espace des poids à trois étapes distinctes. Premièrement, elle utilise la moyenne mobile exponentielle de la politique comme ancre dynamique dans la régularisation KL. Deuxièmement, elle applique une interpolation sphérique pour fusionner des politiques indépendamment fine-tunées en une nouvelle politique améliorée. Troisièmement, elle effectue une interpolation linéaire entre ce modèle fusionné et l'initialisation, afin de récupérer des caractéristiques issues du pré-entraînement. Cette procédure est ensuite appliquée de manière itérative, le modèle final de chaque itération servant d'initialisation avancée pour la suivante, affinant progressivement le front de Pareto KL-récompense et obtenant des récompenses supérieures à KL fixe. Des expériences avec des politiques GEMMA valident que WARP améliore leur qualité et leur alignement, surpassant d'autres LLMs open-source.
L'intérêt pour les modèles à complexité linéaire dans le domaine des grands modèles de langage est en hausse, bien que leur capacité de mise à l'échelle reste incertaine. Dans cette étude, nous présentons les lois de mise à l'échelle pour les modèles de langage à complexité linéaire afin d'établir une base pour leur scalabilité. Plus précisément, nous examinons les comportements de mise à l'échelle de trois architectures linéaires efficaces. Celles-ci incluent TNL, un modèle d'attention linéaire avec décroissance indépendante des données ; HGRN2, un RNN linéaire avec décroissance dépendante des données ; et cosFormer2, un modèle d'attention linéaire sans décroissance. Nous incluons également LLaMA comme architecture de référence pour l'attention softmax à des fins de comparaison. Ces modèles ont été entraînés avec six variantes, allant de 70M à 7B de paramètres sur un corpus de 300B de tokens, et évalués avec un total de 1 376 points de contrôle intermédiaires sur diverses tâches en aval. Ces tâches incluent la perte de validation, le raisonnement de bon sens, ainsi que la recherche d'information et la génération. L'étude révèle que les modèles de langage à complexité linéaire existants présentent des capacités de mise à l'échelle similaires à celles des modèles conventionnels basés sur des transformateurs, tout en démontrant une compétence linguistique et une rétention de connaissances supérieures.
Les grands modèles de langage (LLM) ont révolutionné le traitement du langage naturel et élargi leur applicabilité à divers usages commerciaux. Cependant, le déploiement de ces modèles est limité par des temps d'inférence élevés dans des contextes multilingues. Pour atténuer ce défi, cet article explore une méthode d'entraînement d'un modèle assistant dans le cadre du décodage spéculatif, où ce dernier est utilisé pour générer des propositions de tokens qui sont ensuite vérifiés par le LLM cible. Nous démontrons que des modèles de proposition spécifiques à chaque langue, optimisés grâce à une stratégie ciblée de pré-entraînement et de fine-tuning, permettent d'accélérer significativement le temps d'inférence par rapport aux méthodes précédentes. Nous validons ces modèles sur plusieurs langues en mesurant le temps d'inférence, l'accélération hors domaine et l'évaluation par GPT-4o.
Le pré-entraînement continu est devenu une approche prédominante pour adapter les grands modèles de langage (LLMs) à de nouveaux domaines. Ce processus consiste à mettre à jour le LLM pré-entraîné avec un corpus provenant d'un nouveau domaine, entraînant ainsi un changement dans la distribution d'entraînement. Pour étudier le comportement des LLMs pendant ce changement, nous avons mesuré la performance du modèle tout au long du processus de pré-entraînement continu. Nous avons observé une baisse temporaire de performance au début, suivie d'une phase de récupération, un phénomène connu sous le nom de "stabilité gap", précédemment observé dans les modèles de vision classifiant de nouvelles classes. Pour résoudre ce problème et améliorer la performance des LLMs dans un budget de calcul fixe, nous proposons trois stratégies efficaces : (1) Pré-entraîner continuellement le LLM sur un sous-ensemble de taille appropriée pendant plusieurs époques, ce qui permet une récupération plus rapide de la performance que le pré-entraînement sur un grand corpus en une seule époque ; (2) Pré-entraîner le LLM uniquement sur un sous-corpus de haute qualité, ce qui améliore rapidement la performance dans le domaine ; et (3) Utiliser un mélange de données similaire aux données de pré-entraînement pour réduire l'écart de distribution. Nous menons diverses expériences sur les modèles de la famille Llama pour valider l'efficacité de nos stratégies dans le pré-entraînement continu médical et le réglage par instruction. Par exemple, nos stratégies améliorent la performance moyenne des tâches médicales du modèle OpenLlama-3B de 36,2 % à 40,7 % avec seulement 40 % du budget d'entraînement initial et améliorent la performance moyenne des tâches générales sans causer d'oubli. De plus, nous appliquons nos stratégies au modèle Llama-3-8B. Le modèle résultant, Llama-3-Physician, atteint la meilleure performance médicale parmi les modèles open-source actuels et performe de manière comparable ou même supérieure à GPT-4 sur plusieurs benchmarks médicaux. Nous publions nos modèles à l'adresse https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
L'intégration efficace de longues séquences dans les Transformers autorégressifs, en particulier dans une fenêtre de contexte étendue, présente des défis majeurs en raison de la complexité computationnelle quadratique et des exigences substantielles en mémoire KV inhérentes aux mécanismes d'auto-attention. Dans ce travail, nous introduisons SPARSEK Attention, un nouveau mécanisme d'attention sparse conçu pour surmonter ces obstacles computationnels et de mémoire tout en maintenant les performances. Notre approche intègre un réseau de scoring et un opérateur de masque top-k différentiable, SPARSEK, pour sélectionner un nombre constant de paires KV pour chaque requête, permettant ainsi une optimisation basée sur les gradients. En conséquence, SPARSEK Attention offre une complexité temporelle linéaire et une empreinte mémoire constante lors de la génération. Les résultats expérimentaux montrent que SPARSEK Attention surpasse les méthodes d'attention sparse précédentes et apporte des améliorations significatives en termes de vitesse lors de l'entraînement et de l'inférence, en particulier dans la modélisation du langage et les tâches en aval. De plus, notre méthode peut être intégrée de manière transparente dans les modèles de langage pré-entraînés (LLMs) avec un ajustement minimal, offrant une solution pratique pour gérer efficacement les dépendances à longue portée dans diverses applications.
Nous proposons les sondes d'entropie sémantique (SEPs), une méthode économique et fiable pour la quantification de l'incertitude dans les grands modèles de langage (LLMs). Les hallucinations, qui sont des générations de modèles plausibles mais factuellement incorrectes et arbitraires, représentent un défi majeur pour l'adoption pratique des LLMs. Les travaux récents de Farquhar et al. (2024) proposent l'entropie sémantique (SE), qui peut détecter les hallucinations en estimant l'incertitude dans l'espace de signification sémantique pour un ensemble de générations de modèles. Cependant, l'augmentation de 5 à 10 fois du coût de calcul associé à la SE entrave son adoption pratique. Pour remédier à cela, nous proposons les SEPs, qui approximent directement la SE à partir des états cachés d'une seule génération. Les SEPs sont simples à entraîner et ne nécessitent pas d'échantillonner plusieurs générations de modèles au moment du test, réduisant ainsi la surcharge de la quantification de l'incertitude sémantique à presque zéro. Nous montrons que les SEPs conservent des performances élevées pour la détection des hallucinations et généralisent mieux aux données hors distribution que les méthodes de sondage précédentes qui prédisent directement la précision du modèle. Nos résultats à travers les modèles et les tâches suggèrent que les états cachés des modèles capturent la SE, et nos études d'ablation fournissent des informations supplémentaires sur les positions des tokens et les couches du modèle pour lesquelles cela est le cas.
Alors que les grands modèles de langage (LLMs) s'intègrent de plus en plus dans la vie quotidienne, la demande d'interactions en temps réel qui imitent les conversations humaines ne cesse de croître. Les systèmes de chat traditionnels basés sur des tours de parole, pilotés par des LLMs, empêchent les utilisateurs d'interagir verbalement avec le système pendant qu'il génère des réponses. Pour surmonter ces limitations, nous adaptons les LLMs existants en modèles duplex afin que ces LLMs puissent écouter les utilisateurs tout en générant des réponses et s'ajuster dynamiquement pour fournir un retour instantané. Plus précisément, nous divisons les requêtes et les réponses des conversations en plusieurs tranches temporelles, puis adoptons une stratégie de codage-décodage par multiplexage temporel (TDM) pour traiter ces tranches de manière pseudo-simultanée. De plus, pour rendre les LLMs suffisamment compétents pour gérer des conversations en temps réel, nous construisons un ensemble de données de fine-tuning composé de tranches temporelles alternées de requêtes et de réponses, couvrant également les types de feedback typiques des interactions instantanées. Nos expériences montrent que bien que les requêtes et les réponses des conversations soient segmentées en tranches incomplètes pour le traitement, les LLMs peuvent préserver leurs performances originales sur des benchmarks standards avec quelques étapes de fine-tuning sur notre ensemble de données. Les évaluations automatiques et humaines indiquent que les modèles duplex rendent les interactions utilisateur-IA plus naturelles et humaines, et améliorent considérablement la satisfaction des utilisateurs par rapport aux LLMs classiques. Notre modèle duplex et l'ensemble de données seront rendus publics.
La détoxification des modèles de langage multilingues de grande taille (LLMs) est devenue cruciale en raison de leur utilisation croissante à l'échelle mondiale. Dans ce travail, nous explorons la généralisation cross-lingue en zero-shot du réglage des préférences pour détoxifier les LLMs. Contrairement aux études précédentes qui montrent une généralisation cross-lingue limitée pour d'autres tâches de sécurité, nous démontrons que l'optimisation directe des préférences (DPO) avec uniquement des données en anglais peut réduire significativement la toxicité dans les générations ouvertes multilingues. Par exemple, la probabilité que mGPT-1.3B génère des continuations toxiques passe de 46,8 % à 3,9 % dans 17 langues différentes après l'entraînement. Nos résultats s'étendent également à d'autres LLMs multilingues, tels que BLOOM, Llama3 et Aya-23. En utilisant des outils d'interprétation mécaniste comme l'intervention causale et l'analyse des activations, nous avons identifié la propriété de dualité multilingue des couches MLP dans les LLMs, ce qui explique la généralisation cross-lingue de la DPO. Enfin, nous montrons que la récupération de phrases bilingues peut prédire la transférabilité cross-lingue du réglage des préférences par DPO.
Bien que les modèles de langage à grande échelle (LLMs) deviennent de plus en plus puissants, ils présentent encore des faiblesses significatives mais subtiles, telles que des erreurs dans le suivi d'instructions ou les tâches de codage. Comme ces erreurs inattendues pourraient avoir des conséquences graves dans des déploiements pratiques, il est crucial d'étudier systématiquement les limites des LLMs. Les approches traditionnelles de benchmarking ne peuvent pas identifier de manière exhaustive les déficiences spécifiques des modèles, tandis que les inspections manuelles sont coûteuses et non extensibles. Dans cet article, nous introduisons un cadre unifié, AutoDetect, pour exposer automatiquement les faiblesses des LLMs à travers diverses tâches. Inspiré par le processus d'évaluation éducative qui mesure les résultats d'apprentissage des étudiants, AutoDetect se compose de trois agents alimentés par des LLMs : Examinateur, Questionneur et Évaluateur. La collaboration entre ces trois agents est conçue pour réaliser une identification approfondie et complète des faiblesses. Notre cadre démontre un succès significatif dans la découverte de défauts, avec un taux de réussite d'identification dépassant 30% dans des modèles renommés tels que ChatGPT et Claude. Plus important encore, ces faiblesses identifiées peuvent guider des améliorations spécifiques des modèles, s'avérant plus efficaces que des méthodes d'augmentation de données non ciblées comme Self-Instruct. Notre approche a conduit à des améliorations substantielles dans des LLMs populaires, y compris la série Llama et Mistral-7b, augmentant leurs performances de plus de 10% sur plusieurs benchmarks. Le code et les données sont disponibles publiquement à l'adresse https://github.com/thu-coai/AutoDetect.
Malgré leur utilisation généralisée, les mécanismes par lesquels les grands modèles de langage (LLMs) représentent et régulent l'incertitude dans les prédictions de tokens suivants restent largement inexplorés. Cette étude examine deux composants critiques censés influencer cette incertitude : les neurones d'entropie récemment découverts et un nouvel ensemble de composants que nous appelons neurones de fréquence de tokens. Les neurones d'entropie se caractérisent par une norme de poids inhabituellement élevée et influencent l'échelle de normalisation de la couche finale (LayerNorm) pour réduire efficacement les logits. Notre travail montre que les neurones d'entropie opèrent en écrivant sur un espace nul de désintégration, leur permettant d'affecter la norme du flux résiduel avec un effet direct minimal sur les logits eux-mêmes. Nous observons la présence de neurones d'entropie dans une gamme de modèles, allant jusqu'à 7 milliards de paramètres. D'autre part, les neurones de fréquence de tokens, que nous découvrons et décrivons ici pour la première fois, augmentent ou suppriment le logit de chaque token proportionnellement à sa fréquence logarithmique, déplaçant ainsi la distribution de sortie vers ou loin de la distribution unigramme. Enfin, nous présentons une étude de cas détaillée où les neurones d'entropie gèrent activement la confiance dans le contexte de l'induction, c'est-à-dire la détection et la continuation de sous-séquences répétées.
Qu'est-ce qui fait un bon modèle de langage à grande échelle (LLM) ? Qu'il obtienne de bons résultats sur les benchmarks pertinents - qui, espérons-le, mesurent avec une certaine validité la présence de capacités également mises à l'épreuve dans des applications réelles. Mais qu'est-ce qui permet au modèle de bien performer ? Qu'est-ce qui confère à un modèle ses capacités ? Nous prenons un type de benchmark récemment introduit, conçu pour tester les capacités dans un contexte orienté vers un objectif et agentif à travers des jeux conversationnels en auto-joué, et nous analysons comment la performance évolue en fonction des caractéristiques du modèle, comme le nombre de paramètres ou le type d'entraînement. Nous constatons que, bien qu'il existe une relation claire entre le nombre de paramètres et la performance, il y a encore une grande dispersion des points de performance au sein d'une tranche de taille donnée, ce qui s'explique par des paramètres d'entraînement tels que la qualité et la méthode de fine-tuning des données. D'un point de vue plus pratique, nous observons également un certain degré d'imprévisibilité concernant la performance selon les méthodes d'accès, possiblement dû à des paramètres d'échantillonnage non exposés, ainsi qu'une stabilité de performance, très appréciable, face à au moins une quantification modérée des poids lors de l'inférence.
La synthèse de vêtements 3D haute fidélité à partir de texte est souhaitable mais complexe pour la création d'avatars numériques. Les approches récentes basées sur la diffusion via l'échantillonnage par distillation de score (SDS) ont ouvert de nouvelles possibilités, mais elles sont soit étroitement couplées au corps humain, soit peinent à être réutilisées. Nous présentons ClotheDreamer, une méthode basée sur les Gaussiennes 3D pour générer des vêtements 3D prêts à l'emploi à partir de prompts textuels. Nous proposons une nouvelle représentation, le Disentangled Clothe Gaussian Splatting (DCGS), permettant une optimisation séparée. DCGS représente un avatar habillé comme un modèle Gaussien unique tout en gelant les splats Gaussien du corps. Pour améliorer la qualité et l'exhaustivité, nous intégrons un SDS bidirectionnel pour superviser les rendus RGBD de l'avatar habillé et des vêtements respectivement, avec des conditions de pose, et proposons une nouvelle stratégie d'élagage pour les vêtements amples. Notre approche peut également prendre en charge des modèles de vêtements personnalisés en entrée. Grâce à notre conception, le vêtement 3D synthétique peut être facilement appliqué à l'essayage virtuel et supporter des animations physiquement précises. Des expériences approfondies démontrent la performance supérieure et compétitive de notre méthode. Notre page de projet est disponible à l'adresse https://ggxxii.github.io/clothedreamer.
Les grands modèles de langage (LLM), même lorsqu'ils sont spécifiquement entraînés à traiter des contextes d'entrée longs, peinent à capturer les informations pertinentes situées au milieu de leur entrée. Ce phénomène est connu sous le nom de problème de "perte au milieu". Dans ce travail, nous apportons trois contributions. Premièrement, nous cherchons à comprendre les facteurs qui causent ce phénomène. Ce faisant, nous établissons un lien entre la "perte au milieu" et le biais d'attention intrinsèque des LLM : les LLM présentent un biais d'attention en forme de U où les tokens au début et à la fin de leur entrée reçoivent une attention plus élevée, indépendamment de leur pertinence. Deuxièmement, nous atténuons ce biais positionnel grâce à un mécanisme de calibration, appelé "trouvé au milieu", qui permet au modèle de prêter attention aux contextes de manière fidèle selon leur pertinence, même lorsqu'ils se situent au milieu. Troisièmement, nous montrons que "trouvé au milieu" non seulement améliore les performances dans la localisation des informations pertinentes au sein d'un contexte long, mais conduit également à une amélioration des performances de génération augmentée par récupération (RAG) sur diverses tâches, surpassant les méthodes existantes jusqu'à 15 points de pourcentage. Ces résultats ouvrent de nouvelles perspectives pour comprendre le biais d'attention des LLM et ses conséquences potentielles.
L'apprentissage robotique scalable dans le monde réel est limité par les coûts et les problèmes de sécurité liés aux robots physiques. De plus, le déploiement de trajectoires robotiques dans le monde réel peut être chronophage et laborieux. Dans cet article, nous proposons d'apprendre un simulateur d'actions robotiques interactif comme alternative. Nous introduisons une nouvelle méthode, IRASim, qui exploite la puissance des modèles génératifs pour produire des vidéos extrêmement réalistes d'un bras robotique exécutant une trajectoire d'action donnée, à partir d'une image initiale. Pour valider l'efficacité de notre méthode, nous créons un nouveau benchmark, IRASim Benchmark, basé sur trois jeux de données de robots physiques et menons des expériences approfondies sur ce benchmark. Les résultats montrent qu'IRASim surpasse toutes les méthodes de référence et est préféré dans les évaluations humaines. Nous espérons qu'IRASim pourra servir d'approche efficace et scalable pour améliorer l'apprentissage robotique dans le monde réel. Pour promouvoir la recherche sur les simulateurs d'actions robotiques génératifs, nous mettons à disposition le code, le benchmark et les points de contrôle à l'adresse suivante : https://gen-irasim.github.io.
La compréhension de la parole en tant qu'élément de la compréhension vidéo plus générique à l'aide de modèles de langage audio-visuels de grande échelle (av-LLMs) est un aspect crucial mais encore peu étudié. Cet article propose video-SALMONN, un av-LLM unique de bout en bout pour le traitement vidéo, capable de comprendre non seulement les séquences d'images visuelles, les événements audio et la musique, mais aussi la parole. Pour obtenir l'information temporelle fine nécessaire à la compréhension de la parole, tout en restant efficace pour les autres éléments vidéo, cet article propose une nouvelle structure multi-résolution causale Q-Former (MRC Q-Former) pour connecter les encodeurs audio-visuels pré-entraînés et le modèle de langage de grande échelle principal. De plus, des approches d'entraînement dédiées, incluant la perte de diversité et le schéma d'entraînement mixte audio-visuel non apparié, sont proposées pour éviter la dominance des images ou des modalités. Sur le benchmark d'évaluation parole-audio-visuel introduit, video-SALMONN obtient des améliorations absolues de précision de plus de 25 % sur la tâche de question-réponse vidéo (video-QA) et de plus de 30 % sur les tâches de question-réponse audio-visuelles impliquant la parole humaine. En outre, video-SALMONN démontre des capacités remarquables de compréhension et de raisonnement vidéo sur des tâches sans précédent par rapport à d'autres av-LLMs. Notre code d'entraînement et les points de contrôle du modèle sont disponibles à l'adresse \url{https://github.com/bytedance/SALMONN/}.
Malgré les récents progrès des modèles de langage à grande échelle (LLMs), leurs performances sur les tâches impliquant des contextes longs restent sous-optimales. L'apprentissage en contexte (In-Context Learning, ICL) avec quelques exemples peut sembler une solution attrayante pour améliorer les performances des LLMs dans ce scénario ; cependant, l'ajout naïf d'exemples ICL avec un contexte long introduit des défis, notamment une surcharge substantielle de tokens pour chaque exemple et un décalage contextuel entre les démonstrations et la requête cible. Dans ce travail, nous proposons de générer automatiquement des exemples pour les tâches de question-réponse (QA) à contexte long en recyclant les contextes. Plus précisément, étant donné un contexte d'entrée long (1-3k tokens) et une requête, nous générons des paires requête-réponse supplémentaires à partir du contexte donné comme exemples, tout en introduisant le contexte une seule fois. Cela garantit que les démonstrations exploitent le même contexte que la requête cible tout en n'ajoutant qu'un petit nombre de tokens à l'invite. Nous améliorons également chaque démonstration en demandant au modèle d'identifier explicitement les paragraphes pertinents avant la réponse, ce qui améliore les performances tout en fournissant une attribution fine à la source de la réponse. Nous appliquons notre méthode sur plusieurs LLMs et obtenons des améliorations substantielles (+23\% en moyenne sur les modèles) sur divers ensembles de données QA à contexte long, en particulier lorsque la réponse se situe au milieu du contexte. Étonnamment, bien que nous introduisions uniquement des exemples ICL à saut unique, les LLMs généralisent également avec succès aux QA à contexte long multi-sauts grâce à notre approche.
L'échantillonnage par distillation de scores a joué un rôle central dans l'intégration des modèles de diffusion pour la génération de visuels complexes. Malgré des résultats impressionnants, il souffre d'un effondrement des modes et d'un manque de diversité. Pour relever ce défi, nous exploitons l'interprétation par flux de gradient de la distillation de scores pour proposer la Distillation de Scores Répulsive (RSD). En particulier, nous proposons un cadre variationnel basé sur la répulsion d'un ensemble de particules qui favorise la diversité. En utilisant une approximation variationnelle qui intègre un couplage entre les particules, la répulsion apparaît comme une simple régularisation permettant l'interaction des particules en fonction de leur similarité relative par paires, mesurée par exemple via des noyaux à base radiale. Nous concevons RSD pour des scénarios d'échantillonnage à la fois non contraints et contraints. Pour l'échantillonnage contraint, nous nous concentrons sur les problèmes inverses dans l'espace latent, ce qui conduit à une formulation variationnelle augmentée, offrant un bon équilibre entre calcul, qualité et diversité. Nos expériences approfondies sur la génération texte-image et les problèmes inverses démontrent que RSD atteint un compromis supérieur entre diversité et qualité par rapport aux alternatives de pointe.
Dans ce rapport, nous posons la question suivante : Quel est le modèle d'IA le plus intelligent à ce jour, mesuré par l'OlympicArena (un benchmark de niveau olympique, multidisciplinaire et multimodal pour l'IA superintelligente) ? Nous nous concentrons spécifiquement sur les modèles les plus récemment publiés : Claude-3.5-Sonnet, Gemini-1.5-Pro et GPT-4o. Pour la première fois, nous proposons d'utiliser une approche de tableau des médailles olympiques pour classer les modèles d'IA en fonction de leurs performances globales dans diverses disciplines. Les résultats empiriques révèlent : (1) Claude-3.5-Sonnet montre une performance globale très compétitive par rapport à GPT-4o, surpassant même GPT-4o dans quelques matières (c'est-à-dire la physique, la chimie et la biologie). (2) Gemini-1.5-Pro et GPT-4V se classent consécutivement juste derrière GPT-4o et Claude-3.5-Sonnet, mais avec un écart de performance clair entre eux. (3) La performance des modèles d'IA de la communauté open source est nettement inférieure à celle de ces modèles propriétaires. (4) La performance de ces modèles sur ce benchmark a été moins que satisfaisante, indiquant que nous avons encore un long chemin à parcourir avant d'atteindre la superintelligence. Nous restons déterminés à suivre et à évaluer continuellement les performances des derniers modèles puissants sur ce benchmark (disponible à l'adresse https://github.com/GAIR-NLP/OlympicArena).