Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les benchmarks actuels à long contexte se concentrent principalement sur des tests basés sur la récupération, nécessitant que les Grands Modèles de Langue (GML) localisent des informations spécifiques au sein de contextes d'entrée étendus, tels que le benchmark aiguille dans une botte de foin (NIAH). La génération à long contexte fait référence à la capacité d'un modèle de langue à générer un texte cohérent et contextuellement précis qui s'étend sur de longs passages ou documents. Alors que des études récentes montrent de bonnes performances sur NIAH et d'autres benchmarks à long contexte basés sur la récupération, il existe un manque significatif de benchmarks pour évaluer les capacités de génération à long contexte. Pour combler cette lacune et offrir une évaluation complète, nous introduisons un benchmark synthétique, LongGenBench, qui permet des configurations flexibles de longueurs de contexte de génération personnalisées. LongGenBench va au-delà des benchmarks traditionnels en redéfinissant le format des questions et en exigeant que les GML répondent avec une seule réponse longue et cohérente. Après une évaluation approfondie en utilisant LongGenBench, nous observons que : (1) à la fois les modèles accessibles par API et les modèles open source présentent une dégradation des performances dans des scénarios de génération à long contexte, allant de 1,2% à 47,1% ; (2) différentes séries de GML présentent des tendances variables de dégradation des performances, le modèle Gemini-1.5-Flash montrant la moins de dégradation parmi les modèles accessibles par API, et la série Qwen2 présentant la moins de dégradation dans LongGenBench parmi les modèles open source.
Comprendre et suivre précisément les instructions est crucial pour que les grands modèles de langage (LLMs) soient efficaces dans diverses tâches. Dans ce travail, nous examinons rigoureusement les principaux facteurs qui permettent aux modèles de généraliser à des instructions non vues, fournissant des perspectives pour guider la collecte de données pour l'ajustement des instructions. À travers des expériences contrôlées, inspirées par l'algorithme de Markov Turing-complet, nous démontrons que cette généralisation n'émerge que lorsque les données d'entraînement sont suffisamment diversifiées à travers les domaines sémantiques. Nos résultats révèlent également que la simple diversification au sein de domaines limités ne garantit pas une généralisation robuste. En revanche, la diversification des données entre domaines, même avec des budgets de données contraints, améliore significativement l'adaptabilité d'un modèle. Nous étendons ensuite notre analyse à des scénarios réels, incluant le fine-tuning de modèles spécialisés et généralistes. Dans les deux cas, nous démontrons que 1) de meilleures performances peuvent être obtenues en augmentant la diversité d'un ensemble de données établi tout en maintenant la taille des données constante, et 2) lors de l'augmentation des données, diversifier les sémantiques des instructions est plus efficace que simplement augmenter la quantité de données similaires. Notre recherche offre des perspectives importantes pour la collecte de données, en particulier lors de l'optimisation des performances des modèles en élargissant les données d'entraînement pour les scénarios spécialisés et généralistes. Nous montrons qu'une considération attentive de la diversification des données est essentielle : entraîner des modèles spécialisés avec des données s'étendant au-delà de leur domaine principal conduit à des améliorations significatives des performances, tandis que les modèles généralistes bénéficient de mélanges de données diversifiés qui renforcent leurs capacités globales à suivre les instructions dans une large gamme d'applications. Nos résultats soulignent le rôle crucial de la diversification stratégique et offrent des lignes directrices claires pour améliorer la qualité des données.
Ce travail aborde le goulot d'étranglement de perte d'information de la génération d'images autoregressive par quantification vectorielle (VQ) en introduisant une nouvelle architecture de modèle appelée Transformateur d'Autorégression 2-Dimensionnel (DnD). Le DnD-Transformer prédit davantage de codes pour une image en introduisant une nouvelle direction d'autorégression, une profondeur de modèle, ainsi que la direction de la longueur de séquence. Comparé à l'autorégression 1D traditionnelle et aux travaux précédents utilisant une décomposition d'image 2D similaire telle que le RQ-Transformer, le DnD-Transformer est un modèle de bout en bout capable de générer des images de meilleure qualité avec la même taille de modèle de base et la même longueur de séquence, ouvrant une nouvelle perspective d'optimisation pour la génération d'images autoregressive. De plus, nos expériences révèlent que le potentiel du DnD-Transformer s'étend au-delà de la génération d'images naturelles. Il peut même générer des images avec du texte riche et des éléments graphiques de manière auto-supervisée, démontrant une compréhension de ces modalités combinées. Cela n'avait pas été démontré auparavant pour des modèles génératifs de vision populaires tels que les modèles de diffusion, montrant une étincelle d'intelligence vision-langage lorsqu'ils sont entraînés uniquement sur des images. Le code, les ensembles de données et les modèles sont disponibles sur https://github.com/chenllliang/DnD-Transformer.
Avec des efforts significatifs dans les études récentes, LLM-en-tant-que-Juge est devenu une alternative rentable à l'évaluation humaine pour évaluer la qualité de la génération de texte dans une large gamme de tâches. Cependant, il subsiste encore un écart de fiabilité entre LLM-en-tant-que-Juge et l'évaluation humaine. Une raison importante est le manque d'oracles guidés dans le processus d'évaluation. Motivés par le rôle de la référence largement utilisée dans l'évaluation classique de texte, nous introduisons RevisEval, un nouveau paradigme d'évaluation de génération de texte via les références adaptées à la réponse. RevisEval est basé sur l'observation clé qu'une référence idéale devrait maintenir la pertinence nécessaire à la réponse à évaluer. Plus précisément, RevisEval tire parti des capacités de révision de texte des grands modèles de langage (LLMs) pour réviser de manière adaptative la réponse, puis traiter le texte révisé comme la référence (référence adaptée à la réponse) pour l'évaluation ultérieure. Des expériences approfondies démontrent que RevisEval surpasse les paradigmes d'évaluation traditionnels sans référence et basés sur la référence qui utilisent LLM-en-tant-que-Juge à travers les tâches de génération de langage naturel (NLG) et les tâches de suivi d'instructions ouvertes. Plus important encore, nos références adaptées à la réponse peuvent renforcer davantage les mesures de texte classiques, par exemple BLEU et BERTScore, par rapport aux références traditionnelles et même rivaliser avec LLM-en-tant-que-Juge. Une analyse détaillée est également menée pour confirmer l'efficacité de RevisEval dans la réduction des biais, l'impact du coût d'inférence et la pertinence de la référence.
Améliorer la capacité des grands modèles de langage (GML) dans le raisonnement a suscité un intérêt significatif ces dernières années. Des études antérieures ont démontré l'efficacité de diverses stratégies de sollicitation pour aider les GML dans le raisonnement (appelées "actions de raisonnement"), telles que la réflexion étape par étape, la réflexion avant de répondre, la résolution avec des programmes et leurs combinaisons. Cependant, ces approches appliquaient souvent des actions de raisonnement statiques et prédéfinies de manière uniforme à toutes les questions, sans tenir compte des caractéristiques spécifiques de chaque question ou de la capacité du GML à résoudre la tâche. Dans cet article, nous proposons DOTS, une approche permettant aux GML de raisonner de manière dynamique via une recherche de trajectoire de raisonnement optimale, adaptée aux caractéristiques spécifiques de chaque question et à la capacité inhérente du GML à résoudre la tâche. Notre approche comprend trois étapes clés : i) définir des modules d'actions de raisonnement atomiques qui peuvent être composés en différentes trajectoires d'actions de raisonnement ; ii) rechercher la trajectoire d'action optimale pour chaque question d'entraînement par une exploration itérative et une évaluation pour le GML résolvant la tâche spécifique ; et iii) utiliser les trajectoires optimales collectées pour entraîner un GML à planifier les trajectoires de raisonnement des questions non vues. En particulier, nous proposons deux paradigmes d'apprentissage, à savoir, affiner un GML externe en tant que planificateur pour guider le GML résolvant la tâche, ou affiner directement le GML résolvant la tâche avec une capacité internalisée pour la planification des actions de raisonnement. Nos expériences sur huit tâches de raisonnement montrent que notre méthode surpasse de manière constante les techniques de raisonnement statiques et l'approche de réglage d'instructions de base. Une analyse plus approfondie révèle que notre méthode permet aux GML d'ajuster leur calcul en fonction de la complexité du problème, en allouant une réflexion et un raisonnement plus approfondis aux problèmes plus difficiles.
Les modèles autorégressifs (AR) ont reformulé la génération d'images en tant que prédiction du prochain jeton, démontrant un potentiel remarquable et émergeant comme de solides concurrents aux modèles de diffusion. Cependant, la génération d'images à partir de contrôles, similaire à ControlNet, reste largement inexplorée au sein des modèles AR. Bien qu'une approche naturelle, inspirée par les avancées des grands modèles de langage, consiste à tokeniser les images de contrôle en jetons et à les pré-remplir dans le modèle autorégressif avant de décoder les jetons d'image, cela reste insuffisant en termes de qualité de génération par rapport à ControlNet et souffre d'inefficacité. À cette fin, nous introduisons ControlAR, un cadre efficace et efficace pour intégrer des contrôles spatiaux dans les modèles de génération d'images autorégressifs. Tout d'abord, nous explorons le codage des contrôles pour les modèles AR et proposons un encodeur de contrôle léger pour transformer les entrées spatiales (par exemple, les bords de Canny ou les cartes de profondeur) en jetons de contrôle. Ensuite, ControlAR exploite la méthode de décodage conditionnel pour générer le prochain jeton d'image conditionné à la fusion par jeton entre les jetons de contrôle et d'image, similaire aux encodages positionnels. Par rapport au pré-remplissage des jetons, l'utilisation du décodage conditionnel renforce considérablement la capacité de contrôle des modèles AR tout en maintenant l'efficacité du modèle. De plus, le ControlAR proposé renforce de manière surprenante les modèles AR avec une génération d'images à résolution arbitraire via le décodage conditionnel et des contrôles spécifiques. Des expériences approfondies peuvent démontrer la contrôlabilité du ControlAR proposé pour la génération d'images de contrôle à image autorégressive à travers diverses entrées, y compris les bords, les profondeurs et les masques de segmentation. De plus, les résultats quantitatifs et qualitatifs indiquent que ControlAR surpasse les modèles de diffusion contrôlables précédents de pointe, par exemple, ControlNet++. Le code, les modèles et la démo seront bientôt disponibles sur https://github.com/hustvl/ControlAR.
L'échelle de calcul d'inférence a débloqué le potentiel des grands modèles de langage à long contexte (LLMs) dans divers contextes. Pour les tâches intensives en connaissances, la puissance de calcul accrue est souvent allouée pour incorporer davantage de connaissances externes. Cependant, sans utiliser efficacement de telles connaissances, l'expansion du contexte seule n'améliore pas toujours les performances. Dans ce travail, nous étudions l'échelle de calcul d'inférence pour la génération augmentée par récupération (RAG), explorant des stratégies allant au-delà de simplement augmenter la quantité de connaissances. Nous nous concentrons sur deux stratégies d'échelle d'inférence : l'apprentissage en contexte et les invitations itératives. Ces stratégies offrent une flexibilité supplémentaire pour augmenter le calcul au moment du test (par exemple, en augmentant les documents récupérés ou les étapes de génération), améliorant ainsi la capacité des LLMs à acquérir et utiliser efficacement des informations contextuelles. Nous abordons deux questions clés : (1) Comment les performances de RAG bénéficient-elles de l'échelle de calcul d'inférence lorsqu'elles sont configurées de manière optimale ? (2) Pouvons-nous prédire l'allocation de calcul optimale au moment du test pour un budget donné en modélisant la relation entre les performances de RAG et les paramètres d'inférence ? Nos observations révèlent qu'augmenter le calcul d'inférence entraîne des gains presque linéaires en performances de RAG lorsqu'il est alloué de manière optimale, une relation que nous décrivons comme les lois d'échelle d'inférence pour RAG. Sur cette base, nous développons davantage le modèle d'allocation de calcul pour estimer les performances de RAG à travers différentes configurations d'inférence. Le modèle prédit les paramètres d'inférence optimaux sous diverses contraintes de calcul, qui correspondent étroitement aux résultats expérimentaux. En appliquant ces configurations optimales, nous démontrons que l'augmentation du calcul d'inférence sur les LLMs à long contexte permet d'obtenir jusqu'à 58,9 % de gains sur des ensembles de données de référence par rapport à RAG standard.
Les grands modèles de langage (LLM) ont entraîné des avancées significatives dans diverses tâches de traitement automatique du langage naturel (TALN), les modèles à long contexte gagnant en importance pour traiter des entrées étendues. Cependant, l'augmentation de la taille du cache clé-valeur (KV) requise par les architectures Transformer intensifie les contraintes de mémoire, en particulier lors de la phase de décodage, créant un goulot d'étranglement significatif. Les mécanismes d'attention épars existants conçus pour résoudre ce goulot d'étranglement présentent deux limitations : (1) ils échouent souvent à identifier de manière fiable les jetons les plus pertinents pour l'attention, et (2) ils négligent la cohérence spatiale de la sélection de jetons à travers les couches Transformer consécutives, ce qui peut entraîner une dégradation des performances et des frais généraux substantiels dans la sélection de jetons. Cet article présente TidalDecode, un algorithme et un système simples mais efficaces pour un décodage rapide et précis des LLM grâce à une attention épars persistante en position. TidalDecode exploite la cohérence spatiale des jetons sélectionnés par les méthodes d'attention éparses existantes et introduit quelques couches de sélection de jetons qui effectuent une attention complète pour identifier les jetons avec les scores d'attention les plus élevés, tandis que toutes les autres couches effectuent une attention éparses avec les jetons pré-sélectionnés. Cette conception permet à TidalDecode de réduire considérablement les frais généraux de la sélection de jetons pour l'attention éparses sans sacrifier la qualité des résultats générés. L'évaluation sur un ensemble diversifié de LLM et de tâches montre que TidalDecode correspond étroitement aux performances génératives des méthodes à attention complète tout en réduisant la latence de décodage des LLM jusqu'à 2,1 fois.
L'apprentissage par renforcement à partir des retours humains (RLHF) a démontré son efficacité pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. Cependant, le RLHF au niveau du jeton souffre du problème d'attribution de crédit sur de longues séquences, où les récompenses retardées rendent difficile pour le modèle de discerner quelles actions ont contribué aux résultats réussis. Cela entrave l'efficacité de l'apprentissage et ralentit la convergence. Dans cet article, nous proposons MA-RLHF, un cadre RLHF simple mais efficace qui intègre des macro-actions - séquences de jetons ou des constructions linguistiques de niveau supérieur - dans le processus d'apprentissage. En opérant à ce niveau plus élevé d'abstraction, notre approche réduit la distance temporelle entre les actions et les récompenses, facilitant une attribution de crédit plus rapide et plus précise. Cela se traduit par des estimations de gradient de politique plus stables et améliore l'efficacité de l'apprentissage au sein de chaque épisode, le tout sans augmenter la complexité computationnelle pendant l'entraînement ou l'inférence. Nous validons notre approche à travers des expériences approfondies sur diverses tailles de modèles et tâches, y compris la résumé de texte, la génération de dialogues, la réponse à des questions et la synthèse de programmes. Notre méthode atteint des améliorations de performance substantielles par rapport au RLHF standard, avec des gains de performance allant jusqu'à 30% dans la résumé de texte et la génération de code, 18% dans les dialogues, et 8% dans les tâches de réponse à des questions. Notamment, notre approche atteint la parité avec le RLHF classique 1,7 à 2 fois plus rapidement en termes de temps d'entraînement et continue à le surpasser avec un entraînement supplémentaire. Nous rendrons notre code et nos données publiquement disponibles sur https://github.com/ernie-research/MA-RLHF.
Les modèles linguistiques à long contexte (LCLC), caractérisés par leur fenêtre contextuelle étendue, gagnent en popularité. En même temps, de nombreux bancs d'essai à long contexte présentent des tâches complexes auxquelles même les LCLC les plus avancés ont du mal à répondre. Cependant, les sources sous-jacentes des diverses tâches complexes à long contexte ont rarement été étudiées. Pour combler cette lacune, nous menons des expériences pour indiquer que leur difficulté découle principalement de deux problèmes fondamentaux : le "récupération multi-correspondance", qui nécessite la récupération simultanée de plusieurs éléments, et la "récupération basée sur la logique", qui exige un jugement logique dans les critères de récupération. Ces deux problèmes, bien qu'apparemment simples, dépassent en réalité les capacités des LCLC car ils sont prouvés être hyper-multi-étapes (exigeant de nombreuses étapes pour être résolus) par nature. Cette découverte pourrait expliquer pourquoi les LCLC ont du mal avec des tâches à long contexte plus avancées, offrant une perspective plus précise pour repenser les solutions les concernant.
Dans la modélisation générative, la tokenisation simplifie les données complexes en représentations structurées et compactes, créant ainsi un espace d'apprentissage plus efficace. Pour les données visuelles de haute dimension, elle réduit la redondance et met en avant les caractéristiques clés pour une génération de haute qualité. Les méthodes actuelles de tokenisation visuelle reposent sur un cadre autoencodeur traditionnel, où l'encodeur compresse les données en représentations latentes, et le décodeur reconstruit l'entrée d'origine. Dans ce travail, nous proposons une nouvelle perspective en suggérant le débruitage comme décodage, passant de la reconstruction en une seule étape à un raffinement itératif. Plus précisément, nous remplaçons le décodeur par un processus de diffusion qui affine de manière itérative le bruit pour récupérer l'image d'origine, guidé par les latents fournis par l'encodeur. Nous évaluons notre approche en évaluant à la fois la reconstruction (rFID) et la qualité de génération (FID), en la comparant à une approche autoencodeur de pointe. Nous espérons que ce travail apportera de nouvelles perspectives sur l'intégration de la génération itérative et de l'autoencodage pour une compression et une génération améliorées.
Les séquences d'événements, caractérisées par des intervalles d'échantillonnage irréguliers et un mélange de caractéristiques catégorielles et numériques, sont des structures de données courantes dans divers domaines du monde réel tels que la santé, la finance et les journaux d'interactions utilisateur. Malgré les avancées dans les techniques de modélisation des données temporelles, il n'existe pas de référentiels standardisés pour évaluer leurs performances sur les séquences d'événements. Cela complique la comparaison des résultats entre différents articles en raison de protocoles d'évaluation variables, pouvant potentiellement induire en erreur les progrès dans ce domaine. Nous présentons EBES, un outil complet d'évaluation avec des scénarios et des protocoles d'évaluation standardisés, axés sur les problèmes de régression et de classification avec des cibles au niveau de la séquence. Notre bibliothèque simplifie l'évaluation comparative, l'ajout de jeux de données et l'intégration de méthodes grâce à une interface unifiée. Elle comprend un jeu de données synthétique novateur et fournit des jeux de données du monde réel prétraités, y compris le plus grand jeu de données bancaires disponible publiquement. Nos résultats fournissent une analyse approfondie des jeux de données, identifiant certains comme inadaptés à la comparaison de modèles. Nous étudions l'importance de la modélisation des composantes temporelles et séquentielles, ainsi que les propriétés de robustesse et d'échelle des modèles. Ces résultats mettent en évidence des orientations potentielles pour les recherches futures. Notre objectif de référentiel est de faciliter la recherche reproductible, d'accélérer les progrès et d'accroître les impacts dans le monde réel.
Les grands modèles de langage vidéo (Video-LLMs) ont démontré des capacités remarquables dans la compréhension vidéo à gros grains, cependant, ils rencontrent des difficultés avec l'ancrage temporel à grain fin. Dans cet article, nous présentons Grounded-VideoLLM, un nouveau Video-LLM capable de percevoir et de raisonner sur des moments vidéo spécifiques de manière à grain fin. Nous identifions que les Video-LLMs actuels ont des limitations pour la compréhension vidéo à grain fin car ils manquent d'une modélisation temporelle efficace et d'une représentation des horodatages. En tenant compte de cela, nous affinons notre modèle en incorporant (1) un flux temporel supplémentaire pour encoder les relations entre les images et (2) des jetons temporels discrets enrichis de connaissances temporelles spécifiques pour représenter les horodatages. Pour optimiser l'entraînement de Grounded-VideoLLM, nous utilisons un schéma d'entraînement multi-étapes, en commençant par des tâches simples de légendage vidéo et en introduisant progressivement des tâches d'ancrage temporel vidéo de complexité croissante. Pour renforcer davantage la capacité de raisonnement temporel de Grounded-VideoLLM, nous constituons également un ensemble de données VideoQA ancré par un pipeline d'annotation automatique. Des expériences approfondies démontrent que Grounded-VideoLLM excelle non seulement dans les tâches d'ancrage à grain fin telles que l'ancrage temporel de phrases, le légendage vidéo dense et le VideoQA ancré, mais montre également un grand potentiel en tant qu'assistant vidéo polyvalent pour la compréhension vidéo générale.