Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage à grande vision polyvalent qui prend en charge des entrées et sorties contextuelles longues. IXC-2.5 excelle dans diverses applications de compréhension et de composition texte-image, atteignant des capacités comparables à GPT-4V avec seulement un backend LLM de 7B. Entraîné avec 24K contextes texte-image entrelacés, il peut s'étendre de manière fluide à des contextes longs de 96K via une extrapolation RoPE. Cette capacité de contexte long permet à IXC-2.5 de briller dans des tâches nécessitant des contextes d'entrée et de sortie étendus. Par rapport à sa version précédente 2.0, InternLM-XComposer-2.5 propose trois améliorations majeures en compréhension vision-langage : (1) Compréhension à Ultra-Haute Résolution, (2) Compréhension Fine des Vidéos, et (3) Dialogue Multi-Tours Multi-Images. En plus de la compréhension, IXC-2.5 s'étend à deux applications convaincantes utilisant des paramètres LoRA supplémentaires pour la composition texte-image : (1) Création de Pages Web et (2) Composition d'Articles Texte-Image de Haute Qualité. IXC-2.5 a été évalué sur 28 benchmarks, surpassant les modèles open-source de pointe existants sur 16 benchmarks. Il dépasse ou rivalise également de près avec GPT-4V et Gemini Pro sur 16 tâches clés. InternLM-XComposer-2.5 est disponible publiquement à l'adresse https://github.com/InternLM/InternLM-XComposer.
Les benchmarks qui reflètent étroitement les scénarios d'application en aval sont essentiels pour l'adoption fluide des nouvelles recherches en apprentissage automatique (ML) sur données tabulaires. Dans ce travail, nous examinons les benchmarks tabulaires existants et identifions deux caractéristiques communes des données tabulaires de qualité industrielle qui sont sous-représentées dans les ensembles de données disponibles pour la communauté académique. Premièrement, les données tabulaires évoluent souvent dans le temps dans les scénarios de déploiement réels. Cela impacte les performances des modèles et nécessite des divisions temporelles des ensembles d'entraînement et de test pour une évaluation correcte des modèles. Pourtant, les ensembles de données tabulaires académiques existants manquent souvent de métadonnées temporelles pour permettre une telle évaluation. Deuxièmement, une part considérable des ensembles de données dans les environnements de production provient de pipelines étendus d'acquisition de données et d'ingénierie des caractéristiques. Pour chaque ensemble de données spécifique, cela peut avoir un impact différent sur le nombre absolu et relatif de caractéristiques prédictives, non informatives et corrélées, ce qui peut à son tour affecter la sélection des modèles. Pour combler les lacunes susmentionnées dans les benchmarks académiques, nous introduisons TabReD — une collection de huit ensembles de données tabulaires de qualité industrielle couvrant un large éventail de domaines, de la finance aux services de livraison de nourriture. Nous évaluons un grand nombre de modèles de ML tabulaires dans le contexte de données riches en caractéristiques et évoluant dans le temps, facilité par TabReD. Nous démontrons que l'évaluation sur des divisions temporelles des données conduit à un classement différent des méthodes, par rapport à l'évaluation sur des divisions aléatoires plus courantes dans les benchmarks académiques. De plus, sur les ensembles de données TabReD, les architectures de type MLP et GBDT montrent les meilleurs résultats, tandis que les modèles DL plus sophistiqués doivent encore prouver leur efficacité.
Le guidage sans classifieur (Classifier-Free Guidance, CFG) est devenu la méthode standard pour améliorer la qualité des modèles de diffusion conditionnels. Cependant, l'utilisation du CFG nécessite soit l'entraînement d'un modèle non conditionnel parallèlement au modèle de diffusion principal, soit la modification de la procédure d'entraînement en insérant périodiquement une condition nulle. De plus, il n'existe pas d'extension claire du CFG aux modèles non conditionnels. Dans cet article, nous revisitons les principes fondamentaux du CFG et introduisons une nouvelle méthode, le guidage par condition indépendante (Independent Condition Guidance, ICG), qui offre les avantages du CFG sans nécessiter de procédures d'entraînement spécifiques. Notre approche simplifie le processus d'entraînement des modèles de diffusion conditionnels et peut également être appliquée lors de l'inférence sur tout modèle conditionnel pré-entraîné. Par ailleurs, en exploitant l'information temporelle encodée dans tous les réseaux de diffusion, nous proposons une extension du CFG, appelée guidage par pas de temps (Time-Step Guidance, TSG), qui peut être appliquée à tout modèle de diffusion, y compris les modèles non conditionnels. Nos techniques de guidage sont faciles à implémenter et ont le même coût d'échantillonnage que le CFG. À travers des expériences approfondies, nous démontrons que l'ICG atteint les performances du CFG standard sur divers modèles de diffusion conditionnels. De plus, nous montrons que le TSG améliore la qualité de génération de manière similaire au CFG, sans s'appuyer sur aucune information conditionnelle.
Le projecteur visuel sert de pont essentiel entre l'encodeur visuel et le modèle de langage à grande échelle (LLM) dans un modèle de langage multimodal (MLLM). Typiquement, les MLLM adoptent un simple MLP pour préserver tous les contextes visuels via une transformation un-à-un. Cependant, les tokens visuels sont redondants et peuvent augmenter considérablement lors du traitement d'images haute résolution, ce qui nuit significativement à l'efficacité des MLLM. Certains travaux récents ont introduit un rééchantillonneur ou un abstracteur pour réduire le nombre de tokens visuels résultants. Malheureusement, ils ne parviennent pas à capturer les détails plus fins et compromettent les capacités de raisonnement visuel des MLLM. Dans ce travail, nous proposons un nouveau projecteur visuel, qui adopte un schéma grossier-à-fin pour injecter les caractéristiques enrichies afin de générer des tokens visuels condensés. Plus précisément, nous interpolons d'abord les caractéristiques visuelles comme une requête de points à basse résolution, fournissant la représentation visuelle globale comme fondation. Ensuite, nous introduisons un module d'injection région-à-point qui utilise des indices régionaux multi-niveaux à haute résolution comme clés et valeurs de référence fines, permettant leur absorption complète dans la région contextuelle locale correspondante. Cette étape met efficacement à jour la requête de points grossière, la transformant en une requête enrichie pour le raisonnement LLM ultérieur. Des expériences approfondies démontrent que notre approche compresse les tokens visuels de 75 % à 89 %, tout en atteignant des performances comparables ou même supérieures sur divers benchmarks avec une efficacité significativement plus élevée. Les codes sources peuvent être trouvés à l'adresse https://github.com/CircleRadon/TokenPacker.
Récemment, les tâches de génération audio ont suscité un intérêt considérable dans la recherche. Un contrôle temporel précis est essentiel pour intégrer la génération audio dans des applications réelles. Dans ce travail, nous proposons un cadre de génération audio à contrôle temporel, PicoAudio. PicoAudio intègre des informations temporelles pour guider la génération audio grâce à une conception de modèle adaptée. Il exploite le crawling de données, la segmentation, le filtrage et la simulation de données audio-texte alignées temporellement à un niveau fin. Les évaluations subjectives et objectives démontrent que PicoAudio surpasse de manière significative les modèles de génération actuels les plus avancés en termes de contrôle des timestamps et de la fréquence d'occurrence. Les échantillons générés sont disponibles sur le site de démonstration https://PicoAudio.github.io.
Les modèles de diffusion (DMs) ont révolutionné l'apprentissage génératif. Ils utilisent un processus de diffusion pour encoder les données dans une distribution gaussienne simple. Cependant, encoder une distribution de données complexe, potentiellement multimodale, dans une seule distribution gaussienne continue représente sans doute un problème d'apprentissage inutilement difficile. Nous proposons les modèles de diffusion à variables latentes discrètes-continues (DisCo-Diff) pour simplifier cette tâche en introduisant des variables latentes discrètes complémentaires. Nous enrichissons les DMs avec des variables latentes discrètes apprenables, inférées par un encodeur, et entraînons le DM et l'encodeur de bout en bout. DisCo-Diff ne repose pas sur des réseaux pré-entraînés, ce qui rend le cadre universellement applicable. Les variables latentes discrètes simplifient considérablement l'apprentissage de la transformation complexe bruit-vers-données du DM en réduisant la courbure de l'équation différentielle ordinaire (ODE) générative du DM. Un transformeur autorégressif supplémentaire modélise la distribution des variables latentes discrètes, une étape simple car DisCo-Diff ne nécessite que peu de variables discrètes avec des petits codebooks. Nous validons DisCo-Diff sur des données jouets, plusieurs tâches de synthèse d'images ainsi que sur le docking moléculaire, et constatons que l'introduction de variables latentes discrètes améliore systématiquement les performances du modèle. Par exemple, DisCo-Diff atteint des scores FID de pointe sur les ensembles de données ImageNet-64/128 conditionnés par classe avec un échantillonneur ODE.
Les grands modèles de langage (LLMs), reconnus pour leurs exceptionnelles capacités de raisonnement, leur généralisabilité et leur fluidité dans divers domaines, représentent une voie prometteuse pour améliorer les tâches liées à la parole. Dans cet article, nous nous concentrons sur l'intégration de LLMs de type décodeur uniquement à la tâche de traduction parole-texte (S2TT). Nous proposons une architecture de type décodeur uniquement qui permet au LLM de consommer directement la représentation encodée de la parole et de générer la traduction textuelle. De plus, nous étudions les effets de différentes techniques de fine-tuning paramétriquement efficaces et de formulation de la tâche. Notre modèle atteint des performances de pointe sur CoVoST 2 et FLEURS parmi les modèles entraînés sans données propriétaires. Nous menons également des analyses pour valider les choix de conception de notre modèle proposé et apporter des insights sur l'intégration des LLMs à la S2TT.
Les modèles de langage de grande taille (LLMs) sont vulnérables aux jailbreaks – des méthodes visant à provoquer des réponses nuisibles ou généralement interdites. Les mesures de sécurité sont développées et évaluées en fonction de leur efficacité à se défendre contre les attaques de jailbreak, ce qui suggère une croyance selon laquelle la sécurité équivaut à la robustesse. Nous affirmons que les mécanismes de défense actuels, tels que les filtres de sortie et le réglage fin d'alignement, sont et resteront fondamentalement insuffisants pour garantir la sécurité des modèles. Ces défenses ne parviennent pas à traiter les risques découlant des requêtes à double intention et de la capacité à composer des sorties anodines pour atteindre des objectifs nuisibles. Pour combler cette lacune critique, nous introduisons un modèle de menace informationnelle appelé adversaires inférentiels, qui exploitent les fuites d'informations interdites dans les sorties des modèles pour atteindre des objectifs malveillants. Nous les distinguons des adversaires de sécurité couramment étudiés, qui cherchent uniquement à forcer les modèles victimes à générer des sorties spécifiques interdites. Nous démontrons la faisabilité d'automatiser les adversaires inférentiels par la décomposition des questions et l'agrégation des réponses. Pour garantir la sécurité, nous définissons un critère de censure informationnelle pour les mécanismes de censure, limitant la fuite d'informations interdites. Nous proposons un mécanisme de défense qui assure cette limite et révélons un compromis intrinsèque entre sécurité et utilité. Notre travail fournit la première compréhension théoriquement fondée des exigences pour la publication de LLMs sûrs et des coûts d'utilité impliqués.
Le biais de position s'est avéré être un problème prévalent dans les modèles de langage modernes (LMs), où les modèles privilégient le contenu en fonction de sa position dans le contexte donné. Ce biais entraîne souvent des échecs inattendus du modèle et nuit aux performances, à la robustesse et à la fiabilité dans diverses applications. Notre analyse mécanistique attribue ce biais de position à deux composants utilisés dans presque tous les LMs de pointe : l'attention causale et les encodages positionnels relatifs. Plus précisément, nous constatons que l'attention causale amène généralement les modèles à favoriser le contenu distant, tandis que les encodages positionnels relatifs comme RoPE privilégient le contenu proche, selon l'analyse de la question-réponse augmentée par récupération (QA). De plus, notre étude empirique sur la détection d'objets révèle que le biais de position est également présent dans les modèles vision-langage (VLMs). Sur la base des analyses ci-dessus, nous proposons d'ÉLIMINER le biais de position causé par différents ordres de segments d'entrée (par exemple, les options dans LM-as-a-judge, les documents récupérés en QA) de manière ZERO-SHOT et SANS ENTRAÎNEMENT. Notre méthode remplace l'attention causale par une attention bidirectionnelle entre les segments et utilise les valeurs d'attention du modèle pour décider de l'ordre relatif des segments au lieu d'utiliser l'ordre fourni dans les prompts d'entrée, permettant ainsi une inférence INVARIANTE à la POSITION (PINE) au niveau des segments. En éliminant le biais de position, les modèles obtiennent de meilleures performances et une plus grande fiabilité dans les tâches en aval où ce biais est largement présent, comme dans LM-as-a-judge et la QA augmentée par récupération. Notamment, PINE est particulièrement utile lors de l'adaptation des LMs pour évaluer des paires de raisonnement : il apporte systématiquement des gains de performance de 8 à 10 points de pourcentage dans la plupart des cas, et permet à Llama-3-70B-Instruct de surpasser GPT-4-0125-preview sur le sous-ensemble de raisonnement de RewardBench.