Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous étudions dans quelle mesure les modèles de langage de grande taille (LLM) contemporains peuvent s'engager dans l'exploration, une capacité fondamentale en apprentissage par renforcement et en prise de décision. Nous nous concentrons sur les performances natives des LLM existants, sans interventions de formation. Nous déployons des LLM en tant qu'agents dans des environnements simples de bandits manchots, en spécifiant la description de l'environnement et l'historique des interactions entièrement dans le contexte, c'est-à-dire dans l'invite du LLM. Nous expérimentons avec GPT-3.5, GPT-4 et Llama2, en utilisant une variété de conceptions d'invites, et constatons que les modèles ne s'engagent pas de manière robuste dans l'exploration sans interventions substantielles : i) Dans toutes nos expériences, une seule configuration a donné lieu à un comportement exploratoire satisfaisant : GPT-4 avec un raisonnement en chaîne de pensée et un historique d'interaction résumé de manière externe, présenté sous forme de statistiques suffisantes ; ii) Toutes les autres configurations n'ont pas donné lieu à un comportement exploratoire robuste, y compris celles avec un raisonnement en chaîne de pensée mais un historique non résumé. Bien que ces résultats puissent être interprétés de manière positive, ils suggèrent que la synthèse externe -- qui pourrait ne pas être possible dans des contextes plus complexes -- est importante pour obtenir un comportement souhaitable des agents LLM. Nous concluons que des interventions algorithmiques non triviales, telles que le réglage fin ou la curation de données, pourraient être nécessaires pour renforcer les agents de décision basés sur les LLM dans des contextes complexes.
Les grands modèles de langage pré-entraînés (LLM) constituent actuellement l'état de l'art pour résoudre la grande majorité des tâches de traitement du langage naturel. Bien que de nombreuses applications réelles nécessitent encore un ajustement fin pour atteindre des niveaux de performance satisfaisants, beaucoup d'entre elles se trouvent dans un régime de faible quantité de données, rendant l'ajustement fin difficile. Pour remédier à cela, nous proposons LLM2LLM, une stratégie d'augmentation de données ciblée et itérative qui utilise un LLM enseignant pour enrichir un petit ensemble de données initial en générant des données supplémentaires pouvant être utilisées pour l'ajustement fin sur une tâche spécifique. LLM2LLM (1) ajuste finement un LLM étudiant de base sur les données initiales, (2) évalue et extrait les points de données que le modèle classe incorrectement, et (3) utilise un LLM enseignant pour générer des données synthétiques basées sur ces points de données incorrects, qui sont ensuite réintégrés dans les données d'entraînement. Cette approche amplifie le signal des points de données mal prédits par le LLM pendant l'entraînement et les réintègre dans le jeu de données pour se concentrer sur des exemples plus difficiles pour le LLM. Nos résultats montrent que LLM2LLM améliore significativement les performances des LLM dans le régime de faible quantité de données, surpassant à la fois l'ajustement fin traditionnel et d'autres méthodes de référence en augmentation de données. LLM2LLM réduit la dépendance à la curation de données laborieuse et ouvre la voie à des solutions LLM plus évolutives et performantes, nous permettant de nous attaquer à des domaines et tâches contraints en données. Nous obtenons des améliorations allant jusqu'à 24,2 % sur le jeu de données GSM8K, 32,6 % sur CaseHOLD, 32,0 % sur SNIPS, 52,6 % sur TREC et 39,8 % sur SST-2 par rapport à l'ajustement fin régulier dans le régime de faible quantité de données en utilisant un modèle étudiant LLaMA2-7B.
Nous présentons InternVideo2, un nouveau modèle de base pour la vidéo (ViFM) qui atteint des performances de pointe en reconnaissance d'actions, tâches vidéo-texte et dialogue centré sur la vidéo. Notre approche utilise un paradigme d'entraînement progressif qui unifie différents cadres d'apprentissage auto-supervisé ou faiblement supervisé, incluant la reconstruction de tokens vidéo masqués, l'apprentissage contrastif intermodal et la prédiction du token suivant. Différentes étapes d'entraînement guident notre modèle pour capturer différents niveaux de structure et d'information sémantique à travers diverses tâches prétextes. Au niveau des données, nous privilégions la cohérence spatiotemporelle en segmentant sémantiquement les vidéos et en générant des légendes vidéo-audio-parole. Cela améliore l'alignement entre la vidéo et le texte. Nous augmentons à la fois la taille des données et du modèle pour notre InternVideo2. À travers des expériences approfondies, nous validons nos conceptions et démontrons des performances de pointe sur plus de 60 tâches vidéo et audio. Notamment, notre modèle surpasse les autres sur divers benchmarks de légendage, dialogue et compréhension de vidéos longues, mettant en avant sa capacité à raisonner et à comprendre des contextes temporels étendus. Le code et les modèles sont disponibles à l'adresse https://github.com/OpenGVLab/InternVideo2/.
Dans cette étude, nous présentons une méthodologie pour l'animation d'images humaines en exploitant un modèle paramétrique humain 3D au sein d'un cadre de diffusion latente afin d'améliorer l'alignement des formes et le guidage du mouvement dans les techniques actuelles de génération humaine. La méthodologie utilise le modèle SMPL (Skinned Multi-Person Linear) comme modèle paramétrique humain 3D pour établir une représentation unifiée de la forme corporelle et de la posture. Cela facilite la capture précise de la géométrie humaine complexe et des caractéristiques de mouvement à partir de vidéos sources. Plus précisément, nous intégrons des images de profondeur rendues, des cartes normales et des cartes sémantiques obtenues à partir de séquences SMPL, ainsi qu'un guidage de mouvement basé sur le squelette, pour enrichir les conditions du modèle de diffusion latente avec une forme 3D complète et des attributs de posture détaillés. Un module de fusion de mouvement multicouche, intégrant des mécanismes d'auto-attention, est utilisé pour fusionner les représentations latentes de la forme et du mouvement dans le domaine spatial. En représentant le modèle paramétrique humain 3D comme guide de mouvement, nous pouvons effectuer un alignement paramétrique de la forme du corps humain entre l'image de référence et le mouvement de la vidéo source. Les évaluations expérimentales menées sur des ensembles de données de référence démontrent la capacité supérieure de la méthodologie à générer des animations humaines de haute qualité qui capturent avec précision les variations de posture et de forme. De plus, notre approche montre également des capacités de généralisation supérieures sur le jeu de données proposé en conditions réelles. Page du projet : https://fudan-generative-vision.github.io/champ.
Les applications réelles nécessitent souvent une vaste collection d'assets 3D partageant un thème cohérent. Bien que des avancées remarquables aient été réalisées dans la création générale de contenu 3D à partir de texte ou d'images, la synthèse d'assets 3D personnalisés suivant le thème partagé d'exemplaires 3D d'entrée reste un problème ouvert et complexe. Dans ce travail, nous présentons ThemeStation, une approche novatrice pour la génération 3D-à-3D consciente du thème. ThemeStation synthétise des assets 3D personnalisés à partir de quelques exemplaires donnés, avec deux objectifs : 1) l'unité, pour générer des assets 3D alignés thématiquement avec les exemplaires fournis, et 2) la diversité, pour générer des assets 3D présentant un haut degré de variations. Pour ce faire, nous concevons un framework en deux étapes qui dessine d'abord une image conceptuelle, suivie d'une étape de modélisation 3D informée par référence. Nous proposons une nouvelle fonction de perte de distillation à double score (DSD) pour exploiter conjointement les connaissances a priori des exemplaires d'entrée et de l'image conceptuelle synthétisée. Des expériences approfondies et des études utilisateurs confirment que ThemeStation surpasse les travaux antérieurs en produisant des modèles 3D diversifiés et conscients du thème, avec une qualité impressionnante. ThemeStation permet également diverses applications, telles que la génération 3D-à-3D contrôlable.
Dans cet article, nous proposons VidLA, une approche pour l'alignement vidéo-langue à grande échelle. Les approches précédentes d'alignement vidéo-langue présentent deux limitations majeures. Premièrement, elles ne capturent pas à la fois les dépendances temporelles à court et à long terme et emploient généralement des architectures de réseaux profonds hiérarchiques complexes, difficiles à intégrer avec les modèles de base pré-entraînés image-texte existants. Pour résoudre efficacement cette limitation, nous optons plutôt pour une architecture de réseau simple et utilisons un ensemble de tokens de données opérant à différentes résolutions temporelles de manière hiérarchique, tenant compte de la nature temporellement hiérarchique des vidéos. En employant une architecture simple à deux tours, nous pouvons initialiser notre modèle vidéo-langue avec des modèles de base image-texte pré-entraînés, améliorant ainsi les performances finales. Deuxièmement, les travaux existants sur l'alignement vidéo-langue peinent en raison du manque de données d'entraînement à grande échelle sémantiquement alignées. Pour surmonter cela, nous exploitons les récents LLM pour constituer le plus grand ensemble de données vidéo-langue à ce jour, avec un meilleur ancrage visuel. De plus, contrairement aux ensembles de données vidéo-texte existants qui ne contiennent que de courts clips, notre ensemble de données est enrichi de clips vidéo de durées variées pour aider nos tokens de données temporellement hiérarchiques à extraire de meilleures représentations à différentes échelles temporelles. Globalement, les résultats empiriques montrent que notre approche proposée surpasse les méthodes de pointe sur plusieurs benchmarks de recherche, en particulier sur les vidéos plus longues, et performe de manière compétitive sur les benchmarks de classification.
Les Transformers ont largement adopté les réseaux d'attention pour le mélange de séquences et les MLPs (Multi-Layer Perceptrons) pour le mélange de canaux, jouant un rôle central dans la réalisation de percées à travers divers domaines. Cependant, la littérature récente met en lumière des problèmes liés aux réseaux d'attention, notamment un faible biais inductif et une complexité quadratique par rapport à la longueur de la séquence d'entrée. Les modèles d'état d'espace (SSMs) tels que S4 et d'autres (Hippo, Global Convolutions, liquid S4, LRU, Mega et Mamba) ont émergé pour résoudre ces problèmes et permettre de gérer des séquences plus longues. Mamba, bien qu'étant le SSM le plus avancé, présente un problème de stabilité lorsqu'il est mis à l'échelle pour de grands réseaux sur des ensembles de données de vision par ordinateur. Nous proposons SiMBA, une nouvelle architecture qui introduit la transformée de Fourier rapide d'Einstein (EinFFT) pour la modélisation des canaux via des calculs spécifiques de valeurs propres et utilise le bloc Mamba pour la modélisation des séquences. Des études de performance approfondies sur des benchmarks d'images et de séries temporelles démontrent que SiMBA surpasse les SSM existants, comblant ainsi l'écart de performance avec les Transformers de pointe. Notamment, SiMBA s'impose comme le nouveau SSM de référence sur ImageNet ainsi que sur des benchmarks de transfert d'apprentissage tels que Stanford Car et Flower, ainsi que sur des benchmarks d'apprentissage de tâches et sept ensembles de données de séries temporelles. La page du projet est disponible sur ce site web : ~https://github.com/badripatro/Simba.
Nous présentons DragAPart, une méthode qui, à partir d'une image et d'un ensemble de déplacements en entrée, peut générer une nouvelle image du même objet dans un nouvel état, compatible avec l'action des déplacements. Contrairement aux travaux antérieurs axés sur le repositionnement d'objets, DragAPart prédit des interactions au niveau des parties, comme l'ouverture et la fermeture d'un tiroir. Nous étudions ce problème comme un proxy pour l'apprentissage d'un modèle de mouvement généraliste, non restreint à une structure cinématique ou une catégorie d'objet spécifique. Pour ce faire, nous partons d'un générateur d'images pré-entraîné que nous affinons sur un nouveau jeu de données synthétique, Drag-a-Move, que nous introduisons. Combiné avec un nouvel encodage des déplacements et une randomisation du jeu de données, le nouveau modèle généralise bien aux images réelles et à différentes catégories. Par rapport aux générateurs contrôlés par le mouvement précédents, nous démontrons une bien meilleure compréhension du mouvement au niveau des parties.
Les modèles de langage de grande taille (LLM) modernes sont capables de suivre des instructions longues et complexes, permettant ainsi une diversité de tâches utilisateur. Cependant, bien que les modèles de recherche d'information (IR) utilisent les LLM comme fondement de leurs architectures, la quasi-totalité d'entre eux ne prennent encore que des requêtes en entrée, sans instructions. Pour les quelques modèles récents qui intègrent des instructions, il n'est pas clair comment ils les utilisent. Nous présentons notre ensemble de données FollowIR, qui comprend un benchmark rigoureux d'évaluation des instructions ainsi qu'un ensemble d'entraînement pour aider les modèles IR à mieux suivre les instructions du monde réel. FollowIR s'appuie sur la longue histoire des conférences TREC : de la même manière que TREC fournit aux annotateurs humains des instructions (également appelées narrations) pour déterminer la pertinence des documents, les modèles IR devraient être capables de comprendre et de décider de la pertinence en se basant sur ces instructions détaillées. Notre benchmark d'évaluation commence avec trois collections TREC profondément annotées et modifie les instructions des annotateurs, en ré-annotant les documents pertinents. Grâce à ce processus, nous pouvons mesurer dans quelle mesure les modèles IR suivent les instructions, à travers un nouveau cadre d'évaluation par paires. Nos résultats indiquent que les modèles de recherche existants échouent à utiliser correctement les instructions, les utilisant pour des mots-clés de base et peinant à comprendre les informations longues et détaillées. Cependant, nous montrons qu'il est possible pour les modèles IR d'apprendre à suivre des instructions complexes : notre nouveau modèle FollowIR-7B montre des améliorations significatives (plus de 13 %) après un fine-tuning sur notre ensemble d'entraînement.
Les retours verbatim constituent un précieux réservoir d'expériences utilisateur, d'opinions et de besoins essentiels au développement logiciel. Extraire efficacement et de manière efficiente des insights pertinents de ces données représente une tâche complexe. Cet article présente Allhands, un cadre d'analyse innovant conçu pour l'analyse à grande échelle des retours via une interface en langage naturel, exploitant les modèles de langage de grande taille (LLMs). Allhands suit un flux de travail conventionnel d'analyse des retours, commençant par effectuer une classification et une modélisation thématique sur les retours pour les convertir en un format structurellement enrichi, intégrant des LLMs pour améliorer la précision, la robustesse, la généralisation et la convivialité. Ensuite, un agent LLM est utilisé pour interpréter les diverses questions des utilisateurs en langage naturel sur les retours, les traduire en code Python pour exécution, et fournir des réponses multimodales complètes, incluant du texte, du code, des tableaux et des images. Nous évaluons Allhands sur trois ensembles de données de retours variés. Les expériences démontrent qu'Allhands atteint une efficacité supérieure à toutes les étapes de l'analyse, y compris la classification et la modélisation thématique, offrant finalement aux utilisateurs une expérience « demandez-moi n'importe quoi » avec des réponses complètes, correctes et lisibles par un humain. À notre connaissance, Allhands se positionne comme le premier cadre d'analyse de retours complet qui prend en charge des besoins divers et personnalisés pour l'extraction d'insights via une interface en langage naturel.
Les approches récentes de génération de texte-à-3D produisent des résultats 3D impressionnants, mais nécessitent une optimisation longue pouvant prendre jusqu'à une heure par requête. Les méthodes amorties comme ATT3D optimisent simultanément plusieurs requêtes pour améliorer l'efficacité, permettant une synthèse rapide de texte-à-3D. Cependant, elles ne parviennent pas à capturer les détails géométriques et texturaux à haute fréquence et peinent à s'adapter à de grands ensembles de requêtes, ce qui limite leur généralisation. Nous présentons LATTE3D, qui surmonte ces limitations pour réaliser une génération rapide et de haute qualité sur un ensemble de requêtes significativement plus large. Les clés de notre méthode sont 1) la construction d'une architecture évolutive et 2) l'exploitation de données 3D pendant l'optimisation grâce à des préalables de diffusion 3D, une régularisation de la forme et une initialisation du modèle pour assurer une robustesse face à des requêtes d'entraînement diverses et complexes. LATTE3D amortit à la fois la génération de champs neuronaux et de surfaces texturées pour produire des maillages texturés hautement détaillés en une seule passe avant. LATTE3D génère des objets 3D en 400 ms et peut être encore amélioré par une optimisation rapide au moment du test.
Nous introduisons un nouveau paradigme dans l'optimisation de compilateurs, alimenté par des modèles de langage de grande taille (LLM) avec rétroaction du compilateur pour optimiser la taille du code en assembleur LLVM. Le modèle prend en entrée un IR LLVM non optimisé et produit un IR optimisé, les meilleures passes d'optimisation, ainsi que les comptes d'instructions des IR non optimisé et optimisé. Ensuite, nous compilons l'entrée avec les passes d'optimisation générées et évaluons si le compte d'instructions prédit est correct, si l'IR généré est compilable et correspond au code compilé. Nous renvoyons cette rétroaction au LLM et lui donnons une autre chance d'optimiser le code. Cette approche apporte une amélioration supplémentaire de 0,53 % par rapport à -Oz au modèle original. Bien que l'ajout de plus d'informations via la rétroaction semble intuitif, des techniques d'échantillonnage simples atteignent des performances bien supérieures avec 10 échantillons ou plus.