Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles vision-langage (VLMs) existants reposent principalement sur des encodeurs visuels pour extraire des caractéristiques visuelles, suivis de grands modèles de langage (LLMs) pour les tâches vision-langage. Cependant, les encodeurs visuels imposent un fort biais inductif dans l'abstraction de la représentation visuelle, par exemple en termes de résolution, de rapport d'aspect et de préjugés sémantiques, ce qui pourrait entraver la flexibilité et l'efficacité des VLMs. L'entraînement de VLMs purs qui acceptent des entrées visuelles et linguistiques sans discontinuité, c'est-à-dire sans encodeurs visuels, reste un défi et est rarement exploré. Des observations empiriques révèlent qu'un entraînement direct sans encodeurs entraîne une convergence lente et des écarts de performance importants. Dans ce travail, nous comblons le fossé entre les modèles basés sur des encodeurs et les modèles sans encodeurs, et présentons une recette d'entraînement simple mais efficace pour des VLMs purs. Plus précisément, nous dévoilons les aspects clés de l'entraînement efficace de VLMs sans encodeurs grâce à des expériences approfondies : (1) Combler la représentation vision-langage au sein d'un décodeur unifié ; (2) Améliorer la capacité de reconnaissance visuelle via une supervision supplémentaire. Avec ces stratégies, nous lançons EVE, un modèle vision-langage sans encodeur qui peut être entraîné et utilisé efficacement. Notamment, en utilisant uniquement 35 millions de données accessibles au public, EVE peut rivaliser de manière impressionnante avec les VLMs basés sur des encodeurs de capacités similaires sur plusieurs benchmarks vision-langage. Il surpasse significativement le modèle Fuyu-8B, dont les procédures d'entraînement mystérieuses et les données d'entraînement non divulguées. Nous croyons qu'EVE offre une voie transparente et efficace pour développer une architecture purement basée sur un décodeur à travers les modalités. Notre code et nos modèles sont disponibles publiquement à l'adresse : https://github.com/baaivision/EVE.
Ce rapport présente FunAudioLLM, une famille de modèles conçue pour améliorer les interactions vocales naturelles entre les humains et les grands modèles de langage (LLM). Au cœur de cette famille se trouvent deux modèles innovants : SenseVoice, qui gère la reconnaissance vocale multilingue, la reconnaissance des émotions et la détection d'événements audio ; et CosyVoice, qui facilite la génération de parole naturelle avec un contrôle sur plusieurs langues, le timbre, le style de parole et l'identité du locuteur. SenseVoice-Small offre une reconnaissance vocale automatique (ASR) à très faible latence pour 5 langues, tandis que SenseVoice-Large prend en charge une ASR de haute précision pour plus de 50 langues. CosyVoice excelle dans la génération vocale multilingue, l'apprentissage contextuel zero-shot, le clonage vocal translingue et les capacités de suivi d'instructions. Les modèles liés à SenseVoice et CosyVoice ont été open-sourcés sur Modelscope et Huggingface, avec les codes correspondants pour l'entraînement, l'inférence et le fine-tuning publiés sur GitHub. En intégrant ces modèles avec des LLM, FunAudioLLM permet des applications telles que la traduction parole-à-parole, les conversations vocales émotionnelles, les podcasts interactifs et la narration expressive de livres audio, repoussant ainsi les limites de la technologie d'interaction vocale. Des démonstrations sont disponibles sur https://fun-audio-llm.github.io, et le code est accessible sur https://github.com/FunAudioLLM.
L'auto-attention performe bien dans des contextes longs mais présente une complexité quadratique. Les couches RNN existantes ont une complexité linéaire, mais leur performance dans des contextes longs est limitée par la puissance expressive de leur état caché. Nous proposons une nouvelle classe de couches de modélisation de séquences avec une complexité linéaire et un état caché expressif. L'idée clé est de faire de l'état caché un modèle d'apprentissage automatique lui-même, et de la règle de mise à jour une étape d'apprentissage auto-supervisé. Comme l'état caché est mis à jour par entraînement même sur des séquences de test, nos couches sont appelées couches d'Entraînement au Moment du Test (TTT). Nous considérons deux instanciations : TTT-Linéaire et TTT-MLP, dont l'état caché est respectivement un modèle linéaire et un MLP à deux couches. Nous évaluons nos instanciations à l'échelle de 125M à 1,3B de paramètres, en les comparant à un Transformer robuste et à Mamba, un RNN moderne. TTT-Linéaire et TTT-MLP égalent ou surpassent les bases de référence. Similairement au Transformer, ils peuvent continuer à réduire la perplexité en se conditionnant sur plus de tokens, alors que Mamba ne le peut pas après un contexte de 16k. Avec une optimisation préliminaire des systèmes, TTT-Linéaire est déjà plus rapide que le Transformer à un contexte de 8k et égalise Mamba en temps réel. TTT-MLP rencontre encore des défis en termes d'entrée/sortie mémoire, mais montre un potentiel plus important dans des contextes longs, indiquant une direction prometteuse pour de futures recherches.
Les avancées en IA générative ont élargi les applications potentielles des modèles de langage de grande taille (LLMs) dans le développement d'agents autonomes. Atteindre une véritable autonomie nécessite d'accumuler et de mettre à jour les connaissances acquises grâce aux interactions avec l'environnement, ainsi que de les utiliser efficacement. Les approches actuelles basées sur les LLMs exploitent les expériences passées en utilisant un historique complet des observations, des résumés ou une augmentation par récupération. Cependant, ces représentations de mémoire non structurées ne facilitent pas le raisonnement et la planification essentiels pour une prise de décision complexe. Dans notre étude, nous introduisons AriGraph, une méthode novatrice dans laquelle l'agent construit un graphe de mémoire qui intègre des souvenirs sémantiques et épisodiques tout en explorant l'environnement. Cette structure de graphe facilite une récupération associative efficace de concepts interconnectés, pertinents pour l'état actuel et les objectifs de l'agent, servant ainsi de modèle environnemental efficace qui améliore les capacités d'exploration et de planification de l'agent. Nous démontrons que notre agent LLM Ariadne, équipé de cette architecture de mémoire proposée, augmentée par la planification et la prise de décision, gère efficacement des tâches complexes en mode zero-shot dans l'environnement TextWorld. Notre approche surpasse nettement les méthodes établies telles que l'historique complet, le résumé et la génération augmentée par récupération dans diverses tâches, y compris le défi culinaire de la compétition First TextWorld Problems et des tâches inédites comme le nettoyage de maison et la chasse au trésor sous forme de puzzle.
L'émergence récente des modèles médicaux de vision et langage à grande échelle (Med-LVLMs) a amélioré le diagnostic médical. Cependant, les Med-LVLMs actuels rencontrent fréquemment des problèmes de factualité, générant souvent des réponses qui ne correspondent pas aux faits médicaux établis. La Génération Augmentée par Récupération (RAG), qui utilise des connaissances externes, peut améliorer la précision factuelle de ces modèles mais introduit deux défis majeurs. Premièrement, les contextes récupérés limités pourraient ne pas couvrir toutes les informations nécessaires, tandis qu'une récupération excessive peut introduire des références non pertinentes et inexactes, interférant avec la génération du modèle. Deuxièmement, dans les cas où le modèle répond initialement correctement, l'application de la RAG peut entraîner une dépendance excessive aux contextes récupérés, aboutissant à des réponses incorrectes. Pour résoudre ces problèmes, nous proposons RULE, qui se compose de deux éléments. Premièrement, nous introduisons une stratégie prouvée efficace pour contrôler le risque de factualité grâce à la sélection calibrée du nombre de contextes récupérés. Deuxièmement, en nous basant sur des échantillons où une dépendance excessive aux contextes récupérés a conduit à des erreurs, nous constituons un ensemble de données de préférences pour affiner le modèle, équilibrant sa dépendance aux connaissances intrinsèques et aux contextes récupérés pour la génération. Nous démontrons l'efficacité de RULE sur trois ensembles de données de questions-réponses médicales, obtenant une amélioration moyenne de 20,8 % en précision factuelle. Nous rendons public notre benchmark et notre code sur https://github.com/richard-peng-xia/RULE.
Étant donné l'omniprésence des graphiques comme outils d'analyse de données, de visualisation et de prise de décision dans divers secteurs et disciplines scientifiques, il y a un intérêt croissant pour le développement de modèles de base pré-entraînés ainsi que de modèles polyvalents ajustés par instruction pour la compréhension et le raisonnement sur les graphiques. Cependant, les méthodes existantes présentent des lacunes cruciales sur deux axes essentiels affectant les performances des modèles de représentation des graphiques : elles sont entraînées sur des données générées à partir des tableaux sous-jacents des graphiques, ignorant ainsi les tendances et motifs visuels présents dans les images de graphiques, et utilisent des modèles de base vision-langage faiblement alignés pour un entraînement spécifique au domaine, limitant leur généralisabilité face à des graphiques variés. Nous abordons ces lacunes importantes et présentons ChartGemma, un nouveau modèle de compréhension et de raisonnement sur les graphiques développé à partir de PaliGemma. Plutôt que de s'appuyer sur les tableaux de données sous-jacents, ChartGemma est entraîné sur des données d'ajustement par instruction générées directement à partir d'images de graphiques, capturant ainsi à la fois les tendances de haut niveau et les informations visuelles de bas niveau provenant d'un ensemble diversifié de graphiques. Notre approche simple atteint des résultats de pointe sur 5 benchmarks couvrant la synthèse de graphiques, la réponse à des questions et la vérification des faits, et nos études qualitatives approfondies sur des graphiques réels montrent que ChartGemma génère des résumés plus réalistes et factuellement corrects par rapport à ses contemporains. Nous mettons à disposition le code, les points de contrôle du modèle, le jeu de données et les démonstrations sur https://github.com/vis-nlp/ChartGemma.
Les humains partagent une grande variété d'images liées à leurs expériences personnelles dans le cadre de conversations via des outils de messagerie instantanée. Cependant, les travaux existants se concentrent sur (1) le comportement de partage d'images dans des sessions uniques, ce qui limite les interactions sociales à long terme, et (2) un manque de personnalisation dans le comportement de partage d'images. Dans ce travail, nous présentons Stark, un jeu de données de conversations multimodales à grande échelle et à long terme, qui couvre un large éventail de personnalités sociales dans un format multimodal, avec des intervalles de temps et des images. Pour construire Stark automatiquement, nous proposons un nouveau cadre de contextualisation multimodale, Mcu, qui génère des dialogues multimodaux à long terme distillés à partir de ChatGPT et de notre aligneur d'images Plan-and-Execute. En utilisant Stark, nous entraînons un modèle de conversation multimodale, Ultron 7B, qui démontre une impressionnante capacité d'imagination visuelle. De plus, nous démontrons l'efficacité de notre jeu de données à travers une évaluation humaine. Nous mettons notre code source et notre jeu de données à disposition du public.
Les grands modèles de langage (LLMs) ont réalisé des progrès impressionnants dans la résolution de problèmes mathématiques simples, mais ils rencontrent encore des difficultés face à des tâches mathématiques plus complexes et exigeantes. Dans cet article, nous présentons une série de LLMs qui utilisent la Décomposition de la pensée avec assistance par code et auto-correction pour le raisonnement mathématique, nommée DotaMath. Les modèles DotaMath abordent les tâches mathématiques complexes en les décomposant en sous-tâches logiques plus simples, en exploitant le code pour résoudre ces sous-tâches, en obtenant un retour d'information granulaire de l'interpréteur de code, et en engageant une réflexion et une correction autonomes. En annotant diverses trajectoires interactives d'utilisation d'outils et en employant l'évolution des requêtes sur les ensembles de données GSM8K et MATH, nous générons un ensemble de données de fine-tuning d'instructions appelé DotaMathQA, contenant 574 000 paires requête-réponse. Nous entraînons une série de LLMs de base en utilisant l'apprentissage par imitation sur DotaMathQA, ce qui donne lieu aux modèles DotaMath qui obtiennent des performances remarquables par rapport aux LLMs open-source sur divers benchmarks in-domain et out-of-domain. Notamment, DotaMath-deepseek-7B démontre une performance exceptionnelle de 64,8 % sur le dataset compétitif MATH et de 86,7 % sur GSM8K. De plus, DotaMath-deepseek-7B maintient une forte compétitivité sur une série de benchmarks in-domain et out-of-domain (moyenne de 80,1 %). Pour l'avenir, nous anticipons que le paradigme DotaMath ouvrira de nouvelles voies pour résoudre des problèmes mathématiques complexes. Notre code est disponible publiquement à l'adresse https://github.com/ChengpengLi1003/DotaMath.
Cet article présente LLM-jp, un projet inter-organisationnel dédié à la recherche et au développement de grands modèles de langage (LLM) japonais. LLM-jp vise à développer des LLM japonais open-source et performants, et à la date de rédaction de cet article, plus de 1 500 participants issus du monde universitaire et industriel collaborent à cet objectif. Ce document expose le contexte de la création de LLM-jp, un résumé de ses activités, ainsi que des rapports techniques sur les LLM développés par LLM-jp. Pour les dernières actualités, consultez https://llm-jp.nii.ac.jp/en/.
Tirant parti des avancées des grands modèles de langage et de l'alignement intermodal, les méthodes existantes de compréhension vidéo multimodale ont obtenu des performances remarquables dans des scénarios hors ligne. Cependant, les flux vidéo en ligne, l'une des formes de médias les plus courantes dans le monde réel, ont rarement été étudiés. Par rapport aux vidéos hors ligne, la nature 'dynamique' des flux vidéo en ligne pose des défis pour l'application directe des modèles existants et introduit de nouveaux problèmes, tels que le stockage d'informations à très long terme et l'interaction entre le contenu visuel continu et les questions 'asynchrones' des utilisateurs. Par conséquent, dans cet article, nous présentons Flash-VStream, un modèle vidéo-langage qui simule le mécanisme de mémoire humaine. Notre modèle est capable de traiter des flux vidéo extrêmement longs en temps réel et de répondre simultanément aux requêtes des utilisateurs. Par rapport aux modèles existants, Flash-VStream permet des réductions significatives de la latence d'inférence et de la consommation de VRAM, ce qui est intimement lié à la compréhension des flux vidéo en ligne. De plus, étant donné que les benchmarks existants de compréhension vidéo se concentrent principalement sur des scénarios hors ligne, nous proposons VStream-QA, un nouveau benchmark de question-réponse spécifiquement conçu pour la compréhension des flux vidéo en ligne. Les comparaisons avec les méthodes populaires existantes sur le benchmark proposé démontrent la supériorité de notre méthode dans un tel contexte difficile. Pour vérifier la généralisabilité de notre approche, nous l'évaluons également sur des benchmarks existants de compréhension vidéo et obtenons des performances de pointe dans des scénarios hors ligne. Tous les codes, modèles et jeux de données sont disponibles à l'adresse https://invinciblewyq.github.io/vstream-page/.
Les protocoles de supervision scalable visent à permettre aux humains de superviser avec précision des IA surhumaines. Dans cet article, nous étudions le débat, où deux IA rivalisent pour convaincre un juge ; le conseil, où une seule IA tente de convaincre un juge qui pose des questions ; et nous comparons ces approches à une base de référence de réponse directe aux questions, où le juge répond directement sans l'intervention de l'IA. Nous utilisons des modèles de langage de grande taille (LLMs) à la fois comme agents IA et comme substituts de juges humains, en considérant que les modèles de juges sont moins performants que les modèles d'agents. Nous évaluons ces approches sur une gamme variée d'asymétries entre juges et agents, étendant les travaux précédents qui se concentraient sur une seule tâche de question-réponse extractive avec asymétrie d'information, pour inclure également les asymétries en mathématiques, en codage, en logique et en raisonnement multimodal. Nous constatons que le débat surpasse le conseil dans toutes les tâches lorsque le consultant est assigné aléatoirement à défendre une réponse correcte ou incorrecte. En comparant le débat à la réponse directe aux questions, les résultats dépendent du type de tâche : dans les tâches de question-réponse extractive avec asymétrie d'information, le débat surpasse la réponse directe, mais dans d'autres tâches sans asymétrie d'information, les résultats sont mitigés. Les travaux précédents assignaient aux débateurs/conseillers une réponse à défendre. Lorsque nous leur permettons de choisir quelle réponse défendre, nous constatons que les juges sont moins souvent convaincus par la mauvaise réponse dans le débat que dans le conseil. De plus, nous observons que des modèles de débateurs plus performants augmentent la précision des juges, bien que de manière plus modeste que dans les études précédentes.
Les LLM sont connus pour être vulnérables aux attaques de jailbreak, même après un alignement de sécurité. Une observation importante est que, bien que différents types d'attaques de jailbreak puissent générer des requêtes significativement différentes, elles aboutissent principalement à des réponses similaires qui sont ancrées dans les mêmes connaissances nuisibles (par exemple, des étapes détaillées pour fabriquer une bombe). Par conséquent, nous conjecturons que le désapprentissage direct des connaissances nuisibles dans le LLM peut être une méthode plus efficace pour se défendre contre les attaques de jailbreak que les approches principales basées sur le fine-tuning supervisé (SFT). Nos expériences approfondies ont confirmé notre intuition et suggèrent une généralisabilité surprenante de notre approche basée sur le désapprentissage : en utilisant seulement 20 questions nuisibles brutes sans aucun prompt de jailbreak pendant l'entraînement, notre solution a réduit le taux de réussite des attaques (ASR) dans Vicuna-7B sur des questions nuisibles hors distribution (OOD) enveloppées de divers prompts de jailbreak complexes de 82,6 % à 7,7 %. Cela surpasse significativement Llama2-7B-Chat, qui est fine-tuné sur environ 0,1 million d'échantillons d'alignement de sécurité mais présente toujours un ASR de 21,9 % même avec l'aide d'un prompt de système de sécurité supplémentaire. Une analyse plus approfondie révèle que la capacité de généralisation de notre solution découle de la relation intrinsèque entre les réponses nuisibles à travers les questions nuisibles (par exemple, les modèles de réponse, les étapes et actions partagées, et la similarité entre leurs représentations apprises dans le LLM). Notre code est disponible à l'adresse https://github.com/thu-coai/SafeUnlearning.
Les modèles de fondation multimodaux capables de traiter de manière holistique le texte aux côtés des images, des vidéos, de l'audio et d'autres modalités sensorielles sont de plus en plus utilisés dans une variété d'applications réelles. Cependant, il est difficile de caractériser et d'étudier les progrès dans les modèles de fondation multimodaux, étant donné la diversité des décisions de modélisation, des tâches et des domaines possibles. Dans cet article, nous introduisons l'Évaluation Holistique des Modèles Multimodaux (HEMM) pour évaluer systématiquement les capacités des modèles de fondation multimodaux selon trois dimensions : les compétences de base, le flux d'information et les cas d'utilisation réels. Les compétences multimodales de base sont des capacités internes nécessaires pour résoudre des problèmes, telles que l'apprentissage des interactions entre modalités, l'alignement fin, le raisonnement en plusieurs étapes et la capacité à gérer des connaissances externes. Le flux d'information étudie comment le contenu multimodal évolue au cours d'une tâche à travers l'interrogation, la traduction, l'édition et la fusion. Les cas d'utilisation couvrent les défis spécifiques à des domaines introduits dans les applications multimédias, l'informatique affective, les sciences naturelles, la santé et l'interaction homme-machine. Grâce à des expériences approfondies sur les 30 tâches de HEMM, nous (1) identifions les dimensions clés des ensembles de données (par exemple, les compétences de base, les flux d'information et les cas d'utilisation) qui posent des défis aux modèles actuels, et (2) dégageons les tendances de performance concernant l'influence de différentes dimensions de modélisation (par exemple, l'échelle, les données de pré-entraînement, l'alignement multimodal, les objectifs de pré-entraînement et de réglage par instruction) sur les performances. Nos conclusions concernant les interactions multimodales complexes, les cas d'utilisation et les tâches nécessitant un raisonnement et des connaissances externes, les avantages de l'échelle des données et des modèles, ainsi que les impacts du réglage par instruction, fournissent des insights actionnables pour les travaux futurs sur les modèles de fondation multimodaux.
Les champs de radiance neuronaux (NeRFs) ont suscité une attention considérable en raison de leur capacité à générer des vues nouvelles de haute qualité, stimulant ainsi la recherche pour aborder divers cas d'utilisation réels. Un défi majeur est le flou de mouvement de la caméra causé par le déplacement de celle-ci pendant le temps d'exposition, ce qui empêche une reconstruction précise de la scène 3D. Dans cette étude, nous proposons une méthode de projection gaussienne continue prenant en compte le mouvement rigide (CRiM-GS) pour reconstruire avec précision une scène 3D à partir d'images floues tout en offrant une vitesse de rendu en temps réel. En considérant le processus réel de flou de mouvement de la caméra, qui implique des motifs de mouvement complexes, nous prédisons le mouvement continu de la caméra en nous basant sur des équations différentielles ordinaires (EDO) neuronales. Plus précisément, nous utilisons des transformations de corps rigides pour modéliser le mouvement de la caméra avec une régularisation appropriée, préservant ainsi la forme et la taille de l'objet. De plus, nous introduisons une transformation 3D continue déformable dans le champ SE(3) pour adapter la transformation de corps rigide aux problèmes du monde réel en assurant un degré de liberté plus élevé. En revisitant la théorie fondamentale de la caméra et en employant des techniques avancées d'entraînement de réseaux neuronaux, nous parvenons à modéliser avec précision les trajectoires continues de la caméra. Nous menons des expériences approfondies, démontrant des performances de pointe à la fois quantitativement et qualitativement sur des ensembles de données de référence.
Les modèles de vision et langage (VLMs) progressent rapidement dans leur capacité à répondre à des questions de recherche d'information. Alors que ces modèles sont largement déployés dans des applications grand public, ils pourraient engendrer de nouveaux risques pour la vie privée en raison de leurs capacités émergentes à identifier des personnes sur des photos, à géolocaliser des images, etc. Comme nous le démontrons, de manière quelque peu surprenante, les VLMs open-source et propriétaires actuels sont très performants en matière de géolocalisation d'images, faisant de la géolocalisation généralisée via les VLMs un risque immédiat pour la vie privée, plutôt qu'une simple préoccupation théorique future. Pour relever ce défi, nous développons un nouveau benchmark, GPTGeoChat, afin de tester la capacité des VLMs à modérer les dialogues de géolocalisation avec les utilisateurs. Nous collectons un ensemble de 1 000 conversations de géolocalisation d'images entre des annotateurs internes et GPT-4v, annotées avec la granularité des informations de localisation révélées à chaque tour. En utilisant ce nouveau jeu de données, nous évaluons la capacité de divers VLMs à modérer les conversations de géolocalisation de GPT-4v en déterminant quand trop d'informations de localisation ont été divulguées. Nous constatons que les modèles personnalisés fine-tunés performaient aussi bien que les modèles basés sur des API avec prompts pour identifier les fuites d'informations de localisation au niveau du pays ou de la ville ; cependant, un fine-tuning sur des données supervisées semble nécessaire pour modérer avec précision des granularités plus fines, comme le nom d'un restaurant ou d'un bâtiment.