Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

LP-MusicCaps : Génération pseudo-automatique de descriptions musicales basée sur des modèles de langage
LP-MusicCaps: LLM-Based Pseudo Music Captioning

Jul 31, 2023

SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam

381

La génération automatique de descriptions musicales, qui produit des descriptions en langage naturel pour des morceaux de musique donnés, présente un potentiel significatif pour améliorer la compréhension et l'organisation de grands volumes de données musicales. Malgré son importance, les chercheurs rencontrent des défis liés au processus coûteux et chronologique de collecte des jeux de données existants associant musique et langage, qui sont de taille limitée. Pour résoudre ce problème de pénurie de données, nous proposons d'utiliser des modèles de langage de grande taille (LLMs) pour générer artificiellement des phrases descriptives à partir de jeux de données d'étiquettes à grande échelle. Cela aboutit à environ 2,2 millions de descriptions associées à 0,5 millions d'extraits audio. Nous nommons cet ensemble de données Large Language Model based Pseudo music caption dataset, ou en abrégé, LP-MusicCaps. Nous réalisons une évaluation systématique de ce jeu de données à grande échelle en utilisant diverses métriques d'évaluation quantitatives issues du domaine du traitement du langage naturel ainsi qu'une évaluation humaine. Par ailleurs, nous avons entraîné un modèle de génération de descriptions musicales basé sur des transformers avec ce jeu de données et l'avons évalué dans des configurations de zéro-shot et d'apprentissage par transfert. Les résultats démontrent que notre approche proposée surpasse le modèle de référence supervisé.

RT-2 : Les modèles vision-langage-action transfèrent les connaissances du web au contrôle robotique
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Jul 28, 2023

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich

303

Nous étudions comment les modèles vision-langage entraînés sur des données à l'échelle d'Internet peuvent être intégrés directement dans le contrôle robotique de bout en bout pour améliorer la généralisation et permettre un raisonnement sémantique émergent. Notre objectif est de permettre à un seul modèle entraîné de bout en bout d'apprendre à la fois à mapper les observations du robot en actions et de bénéficier des avantages d'un pré-entraînement à grande échelle sur des données de langage et vision-langage provenant du web. Pour ce faire, nous proposons de co-affiner des modèles vision-langage de pointe à la fois sur des données de trajectoires robotiques et sur des tâches vision-langage à l'échelle d'Internet, telles que la réponse à des questions visuelles. Contrairement à d'autres approches, nous proposons une recette simple et générale pour atteindre cet objectif : afin de faire correspondre à la fois les réponses en langage naturel et les actions robotiques dans le même format, nous exprimons les actions sous forme de tokens textuels et les intégrons directement dans l'ensemble d'entraînement du modèle de la même manière que les tokens de langage naturel. Nous qualifions cette catégorie de modèles de modèles vision-langage-action (VLA) et en instancions un exemple, que nous appelons RT-2. Notre évaluation approfondie (6 000 essais d'évaluation) montre que notre approche conduit à des politiques robotiques performantes et permet à RT-2 d'acquérir une gamme de capacités émergentes grâce à l'entraînement à l'échelle d'Internet. Cela inclut une amélioration significative de la généralisation à de nouveaux objets, la capacité à interpréter des commandes absentes des données d'entraînement du robot (comme placer un objet sur un nombre ou une icône particulière), et la capacité à effectuer un raisonnement rudimentaire en réponse aux commandes de l'utilisateur (comme ramasser le plus petit ou le plus grand objet, ou celui le plus proche d'un autre objet). Nous montrons en outre que l'intégration d'un raisonnement en chaîne de pensée permet à RT-2 d'effectuer un raisonnement sémantique en plusieurs étapes, par exemple déterminer quel objet ramasser pour l'utiliser comme un marteau improvisé (une pierre), ou quel type de boisson est le mieux adapté à quelqu'un qui est fatigué (une boisson énergisante).

LLM-Rec : Recommandation personnalisée via l'utilisation de prompts avec des modèles de langage de grande taille
LLM-Rec: Personalized Recommendation via Prompting Large Language Models

Jul 24, 2023

Hanjia Lyu, Song Jiang, Hanqing Zeng, Yinglong Xia, Jiebo Luo

274

Nous étudions diverses stratégies de prompting pour améliorer les performances de recommandation de contenu personnalisé avec des modèles de langage de grande taille (LLM) grâce à l'augmentation des entrées. Notre approche proposée, appelée LLM-Rec, englobe quatre stratégies de prompting distinctes : (1) prompting de base, (2) prompting orienté recommandation, (3) prompting guidé par l'engagement, et (4) prompting orienté recommandation + guidé par l'engagement. Nos expériences empiriques montrent que la combinaison de la description originale du contenu avec le texte d'entrée augmenté généré par le LLM à l'aide de ces stratégies de prompting conduit à une amélioration des performances de recommandation. Cette découverte souligne l'importance d'incorporer des prompts diversifiés et des techniques d'augmentation des entrées pour renforcer les capacités de recommandation des modèles de langage de grande taille dans le cadre de la recommandation de contenu personnalisé.

L'Effet Hydre : Autoréparation émergente dans les calculs des modèles de langage
The Hydra Effect: Emergent Self-repair in Language Model Computations

Jul 28, 2023

Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg

190

Nous étudions la structure interne des calculs des modèles de langage en utilisant une analyse causale et démontrons deux motifs : (1) une forme de calcul adaptatif où les ablations d'une couche d'attention d'un modèle de langage entraînent la compensation par une autre couche (que nous nommons l'effet Hydre) et (2) une fonction de contrebalancement des couches MLP tardives qui agissent pour réguler à la baisse le token de maximum de vraisemblance. Nos études d'ablation montrent que les couches des modèles de langage sont généralement relativement faiblement couplées (les ablations d'une couche n'affectent qu'un petit nombre de couches en aval). Étonnamment, ces effets se produisent même dans les modèles de langage entraînés sans aucune forme de dropout. Nous analysons ces effets dans le contexte de la récupération de faits et considérons leurs implications pour l'attribution au niveau des circuits dans les modèles de langage.

Orienter les modèles de génération de légendes d'images vers des descriptions plus spécifiques
Guiding Image Captioning Models Toward More Specific Captions

Jul 31, 2023

Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen

162

La génération de légendes d'images est traditionnellement formulée comme la tâche de produire des descriptions d'images correspondant à la distribution des paires image-légende de référence. Cependant, les légendes de référence dans les jeux de données standards sont souvent courtes et peuvent ne pas identifier de manière unique les images qu'elles décrivent. Ces problèmes sont encore exacerbés lorsque les modèles sont entraînés directement sur des paires image-texte alternatif collectées sur internet. Dans ce travail, nous montrons qu'il est possible de générer des légendes plus spécifiques avec des modifications minimales du processus d'entraînement. Nous mettons en œuvre le guidage sans classifieur pour un modèle de génération de légendes autoregressif en l'affinant pour estimer à la fois les distributions conditionnelles et inconditionnelles sur les légendes. L'échelle de guidage appliquée lors du décodage contrôle un compromis entre la maximisation de p(légende|image) et p(image|légende). Par rapport au décodage glouton standard, le décodage avec une échelle de guidage de 2 améliore considérablement les métriques sans référence telles que le CLIPScore (0,808 contre 0,775) et la performance de récupération d'images à partir de légendes dans l'espace d'embedding CLIP (rappel@1 44,6 % contre 26,5 %), mais dégrade les métriques standard de génération de légendes basées sur la référence (par exemple, CIDEr 78,6 contre 126,1). Nous explorons également l'utilisation de modèles de langage pour guider le processus de décodage, obtenant de légères améliorations par rapport à la frontière de Pareto des métriques sans référence versus basées sur la référence résultant du guidage sans classifieur, et améliorant significativement la qualité des légendes générées par un modèle entraîné uniquement sur des données web minimalement curées.

MovieChat : Des tokens denses à la mémoire éparse pour la compréhension de vidéos longues
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Jul 31, 2023

Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang

160

Récemment, l'intégration de modèles de base pour la vidéo et de grands modèles de langage a permis de construire un système de compréhension vidéo surmontant les limitations des tâches visuelles prédéfinies spécifiques. Cependant, les systèmes existants ne peuvent traiter que des vidéos avec très peu d'images. Pour les vidéos longues, la complexité computationnelle, le coût en mémoire et la connexion temporelle à long terme restent des défis majeurs. Inspirés par le modèle de mémoire d'Atkinson-Shiffrin, nous développons un mécanisme de mémoire incluant une mémoire à court terme mise à jour rapidement et une mémoire à long terme compacte et donc durable. Nous utilisons les tokens dans les Transformers comme supports de mémoire. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues.

Modèle unifié pour les tâches d'image, vidéo, audio et langage
Unified Model for Image, Video, Audio and Language Tasks

Jul 30, 2023

Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord

151

Les modèles de langage de grande taille (LLMs) ont rapproché la quête ambitieuse d'agents généralistes de la réalité. Un obstacle majeur à la construction de tels modèles généraux réside dans la diversité et l'hétérogénéité des tâches et des modalités. Une solution prometteuse est l'unification, permettant de supporter une multitude de tâches et de modalités dans un cadre unifié. Bien que quelques grands modèles (par exemple, Flamingo (Alayrac et al., 2022), entraînés sur des ensembles de données massifs, puissent supporter plus de deux modalités, les modèles unifiés de petite à moyenne échelle actuels sont encore limités à 2 modalités, généralement image-texte ou vidéo-texte. La question que nous posons est : est-il possible de construire efficacement un modèle unifié capable de supporter toutes les modalités ? Pour y répondre, nous proposons UnIVAL, un pas de plus vers cet objectif ambitieux. Sans s'appuyer sur des ensembles de données gigantesques ou des modèles avec des milliards de paramètres, le modèle UnIVAL de ~ 0,25 milliard de paramètres va au-delà de deux modalités et unifie le texte, les images, la vidéo et l'audio dans un seul modèle. Notre modèle est efficacement pré-entraîné sur de nombreuses tâches, basé sur l'équilibrage des tâches et l'apprentissage curriculaire multimodal. UnIVAL montre des performances compétitives par rapport aux approches de pointe existantes, à travers les tâches image-texte et vidéo-texte. Les représentations de caractéristiques apprises à partir des modalités image et vidéo-texte permettent au modèle d'atteindre des performances compétitives lorsqu'il est affiné sur des tâches audio-texte, malgré l'absence de pré-entraînement sur l'audio. Grâce au modèle unifié, nous proposons une nouvelle étude sur la fusion de modèles multimodaux via l'interpolation de poids de modèles entraînés sur différentes tâches multimodales, montrant leurs avantages notamment pour la généralisation hors distribution. Enfin, nous motivons l'unification en montrant la synergie entre les tâches. Les poids du modèle et le code sont disponibles ici : https://github.com/mshukor/UnIVAL.

AntGPT : Les grands modèles de langage peuvent-ils contribuer à l'anticipation d'actions à long terme à partir de vidéos ?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

Jul 31, 2023

Qi Zhao, Ce Zhang, Shijie Wang, Changcheng Fu, Nakul Agarwal, Kwonjoon Lee, Chen Sun

120

Peut-on mieux anticiper les actions futures d'un acteur (par exemple, mélanger des œufs) en connaissant ce qui se produit couramment après son action actuelle (par exemple, casser des œufs) ? Et si nous connaissons également l'objectif à long terme de l'acteur (par exemple, préparer un riz frit aux œufs) ? La tâche d'anticipation d'actions à long terme (LTA) vise à prédire le comportement futur d'un acteur à partir d'observations vidéo sous forme de séquences de verbes et de noms, et elle est cruciale pour l'interaction homme-machine. Nous proposons de formuler la tâche LTA selon deux perspectives : une approche ascendante (bottom-up) qui prédit les actions suivantes de manière autorégressive en modélisant la dynamique temporelle ; et une approche descendante (top-down) qui infère l'objectif de l'acteur et planifie la procédure nécessaire pour l'atteindre. Nous émettons l'hypothèse que les grands modèles de langage (LLMs), pré-entraînés sur des données textuelles de procédures (par exemple, recettes, tutoriels), ont le potentiel d'aider la LTA sous ces deux angles. Ils peuvent fournir des connaissances préalables sur les actions suivantes possibles et inférer l'objectif à partir de la partie observée d'une procédure. Pour exploiter les LLMs, nous proposons un framework en deux étapes, AntGPT. Il reconnaît d'abord les actions déjà effectuées dans les vidéos observées, puis demande à un LLM de prédire les actions futures via une génération conditionnée, ou d'inférer l'objectif et de planifier l'ensemble de la procédure par un enchaînement de pensées (chain-of-thought prompting). Les résultats empiriques sur les benchmarks Ego4D LTA v1 et v2, EPIC-Kitchens-55, ainsi que EGTEA GAZE+ démontrent l'efficacité de notre approche proposée. AntGPT atteint des performances de pointe sur tous ces benchmarks et parvient à inférer l'objectif, permettant ainsi une prédiction "contrefactuelle" conditionnée par l'objectif via une analyse qualitative. Le code et le modèle seront disponibles à l'adresse suivante : https://brown-palm.github.io/AntGPT.

UniVTG : Vers un ancrage temporel unifié pour les vidéos et le langage
UniVTG: Towards Unified Video-Language Temporal Grounding

Jul 31, 2023

Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou

112

Le repérage temporel dans les vidéos (Video Temporal Grounding, VTG), qui vise à localiser des clips cibles dans des vidéos (tels que des intervalles consécutifs ou des plans disjoints) en fonction de requêtes linguistiques personnalisées (par exemple, des phrases ou des mots), est essentiel pour la navigation vidéo sur les réseaux sociaux. La plupart des méthodes dans ce domaine développent des modèles spécifiques à une tâche, entraînés avec des étiquettes spécifiques à un type, comme la récupération de moments (intervalle temporel) et la détection de moments forts (courbe de pertinence), ce qui limite leur capacité à généraliser à diverses tâches et étiquettes de VTG. Dans cet article, nous proposons d'unifier les différentes étiquettes et tâches de VTG, appelé UniVTG, selon trois axes : Premièrement, nous revisitons un large éventail d'étiquettes et de tâches de VTG et définissons une formulation unifiée. Sur cette base, nous développons des schémas d'annotation de données pour créer une supervision pseudo-scalable. Deuxièmement, nous développons un modèle de repérage efficace et flexible capable de traiter chaque tâche et d'utiliser pleinement chaque étiquette. Enfin, grâce au cadre unifié, nous sommes en mesure de débloquer le pré-entraînement de repérage temporel à partir d'étiquettes diversifiées à grande échelle et de développer des capacités de repérage plus fortes, par exemple, le repérage zero-shot. Des expériences approfondies sur trois tâches (récupération de moments, détection de moments forts et résumé vidéo) à travers sept jeux de données (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum et QFVS) démontrent l'efficacité et la flexibilité de notre cadre proposé. Les codes sont disponibles à l'adresse https://github.com/showlab/UniVTG.

Injection de prompts virtuels pour les grands modèles de langage ajustés par instructions
Virtual Prompt Injection for Instruction-Tuned Large Language Models

Jul 31, 2023

Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin

Nous présentons l'Injection Virtuelle de Prompt (Virtual Prompt Injection, VPI) pour les modèles de langage de grande taille (Large Language Models, LLMs) ajustés par instruction. La VPI permet à un prompt virtuel spécifié par un attaquant d'orienter le comportement du modèle dans des scénarios déclencheurs spécifiques, sans aucune injection explicite dans l'entrée du modèle. Par exemple, si un LLM est compromis avec le prompt virtuel "Décrivez Joe Biden de manière négative." pour les instructions liées à Joe Biden, alors tout service déployant ce modèle propagera des points de vue biaisés lors du traitement des requêtes des utilisateurs concernant Joe Biden. La VPI est particulièrement nuisible pour deux raisons principales. Premièrement, l'attaquant peut exercer un contrôle granulaire sur les comportements des LLMs en définissant divers prompts virtuels, exploitant ainsi la capacité des LLMs à suivre des instructions. Deuxièmement, ce contrôle est réalisé sans aucune interaction de l'attaquant pendant que le modèle est en service, ce qui conduit à une attaque persistante. Pour démontrer la menace, nous proposons une méthode simple pour réaliser la VPI en empoisonnant les données d'ajustement par instruction du modèle. Nous constatons que notre méthode proposée est très efficace pour orienter le LLM avec la VPI. Par exemple, en injectant seulement 52 exemples empoisonnés (0,1 % de la taille des données d'entraînement) dans les données d'ajustement par instruction, le pourcentage de réponses négatives données par le modèle entraîné sur les requêtes liées à Joe Biden passe de 0 % à 40 %. Nous soulignons donc la nécessité de garantir l'intégrité des données d'ajustement par instruction, car une petite quantité de données empoisonnées peut causer un préjudice furtif et persistant au modèle déployé. Nous explorons également les défenses possibles et identifions le filtrage des données comme un moyen efficace de se protéger contre les attaques par empoisonnement. Notre page de projet est disponible à l'adresse https://poison-llm.github.io.

SEED-Bench : Évaluation des LLM multimodaux par compréhension générative
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Jul 30, 2023

Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan

Fondés sur des modèles de langage de grande envergure (LLMs) puissants, les récents modèles génératifs multimodaux de langage de grande envergure (MLLMs) ont gagné en importance en tant que domaine de recherche clé, démontrant des capacités remarquables à la fois en compréhension et en génération. Dans ce travail, nous abordons l'évaluation de la compréhension générative dans les MLLMs comme une étape préliminaire vers une évaluation complète des modèles génératifs, en introduisant un benchmark nommé SEED-Bench. SEED-Bench se compose de 19 000 questions à choix multiples avec des annotations humaines précises (6 fois plus que les benchmarks existants), couvrant 12 dimensions d'évaluation incluant la compréhension des modalités image et vidéo. Nous développons un pipeline avancé pour générer des questions à choix multiples ciblant des dimensions d'évaluation spécifiques, intégrant à la fois des processus de filtrage automatique et de vérification manuelle. Les questions à choix multiples avec des options de référence dérivées d'annotations humaines permettent une évaluation objective et efficace des performances des modèles, éliminant le besoin d'intervention humaine ou de GPT lors de l'évaluation. Nous évaluons en outre les performances de 18 modèles à travers les 12 dimensions, couvrant à la fois la compréhension spatiale et temporelle. En révélant les limites des MLLMs existants à travers les résultats d'évaluation, nous visons à ce que SEED-Bench fournisse des insights pour motiver les recherches futures. Nous lancerons et maintiendrons régulièrement un tableau de classement pour offrir une plateforme à la communauté afin d'évaluer et d'étudier les capacités des modèles.

Découvrir des algorithmes symboliques adaptables à partir de zéro
Discovering Adaptable Symbolic Algorithms from Scratch

Jul 31, 2023

Stephen Kelly, Daniel S. Park, Xingyou Song, Mitchell McIntire, Pranav Nashikkar, Ritam Guha, Wolfgang Banzhaf, Kalyanmoy Deb, Vishnu Naresh Boddeti, Jie Tan, Esteban Real

Les robots autonomes déployés dans le monde réel auront besoin de politiques de contrôle capables de s'adapter rapidement aux changements environnementaux. À cette fin, nous proposons AutoRobotics-Zero (ARZ), une méthode basée sur AutoML-Zero qui découvre des politiques adaptables en zero-shot à partir de zéro. Contrairement aux politiques d'adaptation basées sur les réseaux de neurones, où seuls les paramètres du modèle sont optimisés, ARZ peut construire des algorithmes de contrôle avec toute la puissance expressive d'une machine à registres linéaires. Nous faisons évoluer des politiques modulaires qui ajustent leurs paramètres de modèle et modifient leur algorithme d'inférence à la volée pour s'adapter aux changements environnementaux soudains. Nous démontrons notre méthode sur un robot quadrupède simulé réaliste, pour lequel nous faisons évoluer des politiques de contrôle sûres qui évitent les chutes lorsque des membres individuels se brisent soudainement. Il s'agit d'une tâche difficile dans laquelle deux modèles de référence populaires basés sur les réseaux de neurones échouent. Enfin, nous menons une analyse détaillée de notre méthode sur une nouvelle tâche de contrôle non stationnaire et difficile appelée Cataclysmic Cartpole. Les résultats confirment nos conclusions qu'ARZ est significativement plus robuste aux changements environnementaux soudains et peut construire des politiques de contrôle simples et interprétables.

RT-2 : Les modèles vision-langage-action transfèrent les connaissances du web au contrôle robotique
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Jul 28, 2023

303

Papers Quotidiens

LP-MusicCaps : Génération pseudo-automatique de descriptions musicales basée sur des modèles de langage
LP-MusicCaps: LLM-Based Pseudo Music Captioning

RT-2 : Les modèles vision-langage-action transfèrent les connaissances du web au contrôle robotique
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

LLM-Rec : Recommandation personnalisée via l'utilisation de prompts avec des modèles de langage de grande taille
LLM-Rec: Personalized Recommendation via Prompting Large Language Models

L'Effet Hydre : Autoréparation émergente dans les calculs des modèles de langage
The Hydra Effect: Emergent Self-repair in Language Model Computations

Orienter les modèles de génération de légendes d'images vers des descriptions plus spécifiques
Guiding Image Captioning Models Toward More Specific Captions

MovieChat : Des tokens denses à la mémoire éparse pour la compréhension de vidéos longues
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Modèle unifié pour les tâches d'image, vidéo, audio et langage
Unified Model for Image, Video, Audio and Language Tasks

AntGPT : Les grands modèles de langage peuvent-ils contribuer à l'anticipation d'actions à long terme à partir de vidéos ?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

UniVTG : Vers un ancrage temporel unifié pour les vidéos et le langage
UniVTG: Towards Unified Video-Language Temporal Grounding

Injection de prompts virtuels pour les grands modèles de langage ajustés par instructions
Virtual Prompt Injection for Instruction-Tuned Large Language Models

SEED-Bench : Évaluation des LLM multimodaux par compréhension générative
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Découvrir des algorithmes symboliques adaptables à partir de zéro
Discovering Adaptable Symbolic Algorithms from Scratch

Support

Support

Papers Quotidiens

LP-MusicCaps : Génération pseudo-automatique de descriptions musicales basée sur des modèles de langage
LP-MusicCaps: LLM-Based Pseudo Music Captioning

RT-2 : Les modèles vision-langage-action transfèrent les connaissances du web au contrôle robotique
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

LLM-Rec : Recommandation personnalisée via l'utilisation de prompts avec des modèles de langage de grande taille
LLM-Rec: Personalized Recommendation via Prompting Large Language Models

L'Effet Hydre : Autoréparation émergente dans les calculs des modèles de langage
The Hydra Effect: Emergent Self-repair in Language Model Computations

Orienter les modèles de génération de légendes d'images vers des descriptions plus spécifiques
Guiding Image Captioning Models Toward More Specific Captions

MovieChat : Des tokens denses à la mémoire éparse pour la compréhension de vidéos longues
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

Modèle unifié pour les tâches d'image, vidéo, audio et langage
Unified Model for Image, Video, Audio and Language Tasks

AntGPT : Les grands modèles de langage peuvent-ils contribuer à l'anticipation d'actions à long terme à partir de vidéos ?
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos?

UniVTG : Vers un ancrage temporel unifié pour les vidéos et le langage
UniVTG: Towards Unified Video-Language Temporal Grounding

Injection de prompts virtuels pour les grands modèles de langage ajustés par instructions
Virtual Prompt Injection for Instruction-Tuned Large Language Models

SEED-Bench : Évaluation des LLM multimodaux par compréhension générative
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Découvrir des algorithmes symboliques adaptables à partir de zéro
Discovering Adaptable Symbolic Algorithms from Scratch