Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les progrès rapides des Modèles de Langage de Grande Taille (LLMs) ont démontré des avancées remarquables dans les tâches de raisonnement complexe. Cependant, une disparité significative persiste entre les performances des références et les applications du monde réel. Nous identifions cette lacune comme provenant principalement des protocoles d'évaluation et des métriques actuels, qui capturent de manière inadéquate l'ensemble des capacités des LLM, en particulier dans les tâches de raisonnement complexe où à la fois l'exactitude et la cohérence sont cruciales. Ce travail apporte deux contributions majeures. Tout d'abord, nous introduisons G-Pass@k, une nouvelle métrique d'évaluation qui fournit une évaluation continue des performances du modèle à travers de multiples tentatives d'échantillonnage, quantifiant à la fois le potentiel de performance maximale du modèle et sa stabilité. Ensuite, nous présentons LiveMathBench, un banc d'essai dynamique comprenant des problèmes mathématiques contemporains et stimulants conçus pour minimiser les risques de fuite de données lors de l'évaluation. À travers des expériences approfondies en utilisant G-Pass@k sur des LLMs de pointe avec LiveMathBench, nous fournissons des aperçus complets à la fois de leurs capacités maximales et de leur cohérence opérationnelle. Nos résultats révèlent un espace substantiel pour l'amélioration des capacités de raisonnement "réaliste" des LLMs, soulignant le besoin de méthodes d'évaluation plus robustes. Le banc d'essai et les résultats détaillés sont disponibles sur : https://github.com/open-compass/GPassK.
En tant qu'application typique et pratique des Modèles de Langage de Grande Taille (LLMs), les techniques de Génération Augmentée par Récupération (RAG) ont suscité une attention considérable, notamment dans les domaines verticaux où les LLMs peuvent manquer de connaissances spécifiques au domaine. Dans cet article, nous présentons un banc d'essai RAG omnidirectionnel et automatique, OmniEval, dans le domaine financier. Notre banc d'essai se caractérise par son cadre d'évaluation multidimensionnel, comprenant (1) un système d'évaluation de scénarios RAG basé sur des matrices qui catégorise les requêtes en cinq classes de tâches et 16 sujets financiers, permettant une évaluation structurée de divers scénarios de requêtes ; (2) une approche de génération de données d'évaluation multidimensionnelle, combinant la génération automatique basée sur GPT-4 et l'annotation humaine, atteignant un taux d'acceptation de 87,47\% dans les évaluations humaines sur les instances générées ; (3) un système d'évaluation multi-étapes évaluant à la fois la performance de la récupération et de la génération, aboutissant à une évaluation complète du pipeline RAG ; et (4) des métriques d'évaluation robustes dérivées de règles et basées sur des LLMs, améliorant la fiabilité des évaluations grâce à des annotations manuelles et un ajustement supervisé d'un évaluateur LLM. Nos expériences démontrent l'exhaustivité d'OmniEval, qui comprend des ensembles de données de test étendus et met en évidence les variations de performance des systèmes RAG sur des sujets et des tâches divers, révélant des opportunités significatives pour les modèles RAG d'améliorer leurs capacités dans les domaines verticaux. Nous mettons le code de notre banc d'essai en open source sur https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}.
Le domaine en rapide évolution des grands modèles multimodaux (LMM) a conduit à l'émergence de modèles divers avec des capacités remarquables. Cependant, les benchmarks existants échouent à évaluer de manière exhaustive, objective et précise si les LMM répondent aux divers besoins des humains dans des scénarios du monde réel. Pour combler cette lacune, nous proposons le benchmark des Perspectives Multi-Dimensionnelles (MDI), qui comprend plus de 500 images couvrant six scénarios communs de la vie humaine. Notamment, le MDI-Benchmark offre deux avantages significatifs par rapport aux évaluations existantes : (1) Chaque image est accompagnée de deux types de questions : des questions simples pour évaluer la compréhension du modèle de l'image, et des questions complexes pour évaluer la capacité du modèle à analyser et raisonner au-delà du contenu de base. (2) Reconnaissant que les personnes de différents groupes d'âge ont des besoins et des perspectives variés lorsqu'elles sont confrontées au même scénario, notre benchmark stratifie les questions en trois catégories d'âge : les jeunes, les personnes d'âge moyen et les personnes âgées. Cette conception permet une évaluation détaillée des capacités des LMM à répondre aux préférences et aux besoins des différents groupes d'âge. Avec le MDI-Benchmark, un modèle puissant comme GPT-4o atteint une précision de 79 % sur les tâches liées à l'âge, ce qui indique que les LMM existants ont encore un potentiel d'amélioration considérable pour répondre aux applications du monde réel. En regardant vers l'avenir, nous anticipons que le MDI-Benchmark ouvrira de nouvelles voies pour aligner la personnalisation du monde réel dans les LMM. Les données et le code d'évaluation du MDI-Benchmark sont disponibles sur https://mdi-benchmark.github.io/
Le décodage en chaîne de pensée (CoT) permet aux modèles de langage d'améliorer leurs performances de raisonnement au détriment d'une latence élevée dans le décodage. Des propositions récentes ont exploré des variantes de jetons de contemplation, un terme que nous introduisons pour désigner des jetons spéciaux utilisés lors de l'inférence pour permettre un calcul supplémentaire. Les travaux antérieurs ont envisagé des séquences de longueur fixe tirées d'un ensemble discret d'incorporations en tant que jetons de contemplation. Nous proposons ici la Chaîne-de-Pensée Compressée (CCoT), un cadre pour générer des jetons de contemplation significatifs et continus de longueur de séquence variable. Les jetons de contemplation générés sont des représentations compressées de chaînes de raisonnement explicites, et notre méthode peut être appliquée aux modèles de langage de décodeur prêts à l'emploi. À travers des expériences, nous illustrons comment CCoT permet un raisonnement supplémentaire sur des représentations denses et significatives pour obtenir des améliorations correspondantes en termes de précision. De plus, les améliorations de raisonnement peuvent être modifiées de manière adaptative sur demande en contrôlant le nombre de jetons de contemplation générés.
Les humains distillent des expériences complexes en abstractions fondamentales qui permettent un apprentissage et une adaptation rapides. De manière similaire, les transformateurs autorégressifs présentent un apprentissage adaptatif à travers l'apprentissage en contexte (ICL), ce qui soulève la question du comment. Dans cet article, nous proposons un mécanisme d'encodage-décodage de concepts pour expliquer l'ICL en étudiant comment les transformateurs forment et utilisent des abstractions internes dans leurs représentations. Sur des tâches ICL synthétiques, nous analysons la dynamique d'entraînement d'un petit transformateur et rapportons l'émergence conjointe de l'encodage et du décodage de concepts. Alors que le modèle apprend à encoder différents concepts latents (par exemple, "Trouver le premier nom dans une phrase.") en des représentations distinctes et séparables, il construit simultanément des algorithmes de décodage conditionnel et améliore ses performances en ICL. Nous validons l'existence de ce mécanisme à travers des modèles pré-entraînés de différentes échelles (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). De plus, à travers des interventions mécanistes et un fine-tuning contrôlé, nous démontrons que la qualité de l'encodage de concepts est causalement liée et prédictive des performances en ICL. Nos observations empiriques éclairent une meilleure compréhension des modes de succès et d'échec des grands modèles de langage via leurs représentations.
La compréhension des informations provenant d'une collection de plusieurs documents, en particulier ceux contenant des éléments visuellement riches, est importante pour la réponse aux questions ancrées dans les documents. Cet article présente VisDoMBench, le premier banc d'essai complet conçu pour évaluer les systèmes de question-réponse dans des contextes multi-documents avec un contenu multimodal riche, comprenant des tableaux, des graphiques et des diapositives de présentation. Nous proposons VisDoMRAG, une nouvelle approche de Génération Augmentée par Récupération (GAR) multimodale qui utilise simultanément la GAR visuelle et textuelle, combinant des capacités robustes de récupération visuelle avec un raisonnement linguistique sophistiqué. VisDoMRAG utilise un processus de raisonnement en plusieurs étapes englobant la curation des preuves et le raisonnement en chaîne pour des pipelines de GAR textuelle et visuelle simultanés. Une nouveauté clé de VisDoMRAG est son mécanisme de fusion de modalités contraint par la cohérence, qui aligne les processus de raisonnement entre les modalités au moment de l'inférence pour produire une réponse finale cohérente. Cela conduit à une précision améliorée dans les scénarios où les informations critiques sont réparties entre les modalités et à une meilleure vérifiabilité des réponses grâce à une attribution contextuelle implicite. À travers des expériences approfondies impliquant des modèles de langage larges open-source et propriétaires, nous évaluons les méthodes de réponse aux questions documentaires de pointe sur VisDoMBench. Les résultats étendus montrent que VisDoMRAG surpasse les références basées sur des modèles de langage unimodaux et à long contexte pour la réponse aux questions documentaires multimodales de bout en bout de 12 à 20%.
Les travaux récents sur l'accélération des modèles Vision-Language montrent que de bonnes performances peuvent être maintenues sur une variété de tâches vision-language malgré une compression importante de l'information visuelle. Dans ce travail, nous examinons l'approche d'accélération populaire de la taille initiale des jetons visuels à l'intérieur du modèle de langage et constatons que ses bonnes performances sur de nombreuses tâches ne sont pas dues à une capacité exceptionnelle à compresser l'information visuelle, mais plutôt à la capacité limitée des références à évaluer les capacités visuelles fines. En particulier, nous mettons en évidence un problème central avec l'approche d'accélération où la plupart des jetons vers le haut de l'image sont élagués. Cependant, ce problème n'est reflété que dans les performances pour un petit sous-ensemble de tâches telles que la localisation. Pour les autres tâches évaluées, de bonnes performances sont maintenues avec la stratégie d'élagage défectueuse. Notant les capacités visuelles limitées de la technique d'accélération étudiée, nous proposons FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), une approche simple qui (1) résout le problème identifié avec l'élagage des couches initiales, (2) intègre un échantillonnage uniforme pour garantir une couverture de toutes les régions de l'image, et (3) applique l'élagage en deux étapes pour permettre aux critères de devenir plus efficaces à une couche ultérieure tout en réalisant une accélération significative grâce à l'élagage des couches initiales. Avec des économies computationnelles comparables, nous constatons que FEATHER présente une amélioration des performances de plus de 5 fois sur les références de localisation centrées sur la vision par rapport à l'approche d'accélération originale.
La vision d'un agent largement capable et dirigé vers un objectif, tel qu'un agent de navigation Internet dans le monde numérique et un humanoïde domestique dans le monde physique, a progressé rapidement, grâce à la capacité de généralisation des modèles de base. Un tel agent généraliste doit disposer d'un répertoire de compétences vaste et diversifié, tel que la recherche d'itinéraires entre deux lieux de voyage et l'achat d'articles spécifiques sur Internet. Si chaque compétence doit être spécifiée manuellement à travers un ensemble fixe d'instructions annotées par des humains, le répertoire de compétences de l'agent sera nécessairement limité en raison de la quantité et de la diversité des instructions annotées par des humains. Dans ce travail, nous relevons ce défi en proposant Proposer-Agent-Evaluateur, un système d'apprentissage efficace qui permet aux agents de modèles de base de découvrir et de pratiquer autonomement des compétences dans la nature. Au cœur de PAE se trouve un proposant de tâches conscient du contexte qui propose automatiquement des tâches à l'agent à pratiquer avec des informations de contexte de l'environnement telles que des démonstrations d'utilisateurs ou même juste le nom du site Web lui-même pour les agents de navigation Internet. Ensuite, la politique de l'agent tente ces tâches avec des réflexions et des opérations concrètes dans le monde réel avec des trajectoires résultantes évaluées par un évaluateur de succès basé sur VLM autonome. L'évaluation du succès sert de signal de récompense pour l'agent afin de peaufiner ses politiques à travers l'apprentissage par renforcement. Nous validons PAE sur une navigation web basée sur la vision, en utilisant à la fois des sites Web du monde réel et auto-hébergés de WebVoyager et WebArena. À notre connaissance, ce travail représente le premier système d'apprentissage efficace à appliquer une proposition de tâches autonome avec RL pour des agents qui généralisent des références annotées par des humains du monde réel avec des performances de pointe. Nos points de contrôle et code open-source peuvent être trouvés sur https://yanqval.github.io/PAE/
La complétion de profondeur améliore les mesures de profondeur clairsemées en cartes de profondeur denses guidées par une image conventionnelle. Les méthodes existantes pour cette tâche hautement mal posée opèrent dans des paramètres strictement contraints et ont tendance à rencontrer des difficultés lorsqu'elles sont appliquées à des images en dehors du domaine d'entraînement ou lorsque les mesures de profondeur disponibles sont clairsemées, distribuées de manière irrégulière ou de densité variable. Inspirés par les avancées récentes en estimation de profondeur monoculaire, nous reformulons la complétion de profondeur comme une génération de carte de profondeur conditionnée par une image guidée par des mesures clairsemées. Notre méthode, Marigold-DC, s'appuie sur un modèle de diffusion latente pré-entraîné pour l'estimation de profondeur monoculaire et injecte les observations de profondeur en tant que guidage au moment du test via un schéma d'optimisation qui s'exécute en parallèle avec l'inférence itérative de la diffusion de débruitage. La méthode présente une excellente généralisation zéro-shot à travers une gamme diversifiée d'environnements et gère même efficacement un guidage extrêmement clairsemé. Nos résultats suggèrent que les a priori de profondeur monoculaire contemporains renforcent considérablement la complétion de profondeur : il peut être préférable de considérer la tâche comme la récupération de profondeur dense à partir de pixels d'image (denses), guidée par une profondeur clairsemée ; plutôt que comme un remplissage de profondeur (clairsemée), guidé par une image. Site web du projet : https://MarigoldDepthCompletion.github.io/
Dans le développement de logiciels du monde réel, une gestion incorrecte ou manquante des exceptions peut avoir un impact sévère sur la robustesse et la fiabilité du code. Les mécanismes de gestion des exceptions exigent des développeurs qu'ils détectent, capturent et gèrent les exceptions selon des normes élevées, mais de nombreux développeurs éprouvent des difficultés avec ces tâches, ce qui conduit à un code fragile. Ce problème est particulièrement évident dans les projets open source et affecte la qualité globale de l'écosystème logiciel. Pour relever ce défi, nous explorons l'utilisation de grands modèles de langage (GML) pour améliorer la gestion des exceptions dans le code. À travers une analyse approfondie, nous identifions trois problèmes clés : Détection Insensible du Code Fragile, Capture Inexacte du Bloc d'Exception, et Solution de Gestion Distordue. Ces problèmes sont répandus dans les dépôts du monde réel, suggérant que les pratiques robustes de gestion des exceptions sont souvent négligées ou mal gérées. En réponse, nous proposons Seeker, un cadre multi-agent inspiré des stratégies de développeurs experts pour la gestion des exceptions. Seeker utilise des agents : Scanner, Détecteur, Prédateur, Classeur et Gestionnaire pour aider les GML à détecter, capturer et résoudre les exceptions de manière plus efficace. Notre travail est la première étude systématique sur l'exploitation des GML pour améliorer les pratiques de gestion des exceptions dans des scénarios de développement réels, offrant des perspectives précieuses pour des améliorations futures dans la fiabilité du code.
Nous présentons SUGAR, une méthode de personnalisation vidéo pilotée par le sujet sans nécessiter d'apprentissage spécifique à l'exécution. À partir d'une image d'entrée, SUGAR est capable de générer des vidéos pour le sujet contenu dans l'image et d'aligner la génération avec des attributs visuels arbitraires tels que le style et le mouvement spécifiés par un texte saisi par l'utilisateur. Contrairement aux méthodes précédentes, qui nécessitent un ajustement fin à l'exécution ou échouent à générer des vidéos alignées sur le texte, SUGAR obtient des résultats supérieurs sans coût supplémentaire à l'exécution. Pour permettre la capacité de zéro-shot, nous introduisons un pipeline évolutif pour construire un ensemble de données synthétiques spécifiquement conçu pour la personnalisation pilotée par le sujet, conduisant à 2,5 millions de triplets image-vidéo-texte. De plus, nous proposons plusieurs méthodes pour améliorer notre modèle, y compris des conceptions d'attention spéciales, des stratégies d'entraînement améliorées et un algorithme d'échantillonnage affiné. Des expériences approfondies sont menées. Comparé aux méthodes précédentes, SUGAR atteint des résultats de pointe en préservation de l'identité, en dynamique vidéo et en alignement vidéo-texte pour la personnalisation vidéo pilotée par le sujet, démontrant l'efficacité de notre méthode proposée.
Les récentes avancées en matière de montage vidéo basé sur l'IA ont permis aux utilisateurs de modifier des vidéos à l'aide de simples instructions textuelles, simplifiant considérablement le processus de montage. Cependant, les techniques récentes de montage vidéo sans apprentissage préalable se concentrent principalement sur des modifications globales ou sur des objets uniques, ce qui peut entraîner des changements non intentionnels dans d'autres parties de la vidéo. Lorsque plusieurs objets nécessitent des modifications localisées, les méthodes existantes sont confrontées à des défis tels que des modifications non fidèles, des fuites de montage et un manque d'ensembles de données et de mesures d'évaluation adaptés. Pour surmonter ces limitations, nous proposons un cadre de montage vidéo multi-instance sans apprentissage préalable, appelé MIVE. MIVE est un cadre basé sur des masques à usage général, non dédié à des objets spécifiques (par exemple, des personnes). MIVE introduit deux modules clés : (i) l'Échantillonnage Multi-instance Désentrelacé (DMS) pour prévenir les fuites de montage et (ii) la Redistribution Probabiliste Centrée sur les Instances (IPR) pour assurer une localisation précise et un montage fidèle. De plus, nous présentons notre nouveau jeu de données MIVE comprenant divers scénarios vidéo et introduisons le Score de Précision Inter-Instances (CIA) pour évaluer les fuites de montage dans les tâches de montage vidéo multi-instance. Nos évaluations approfondies qualitatives, quantitatives et d'études utilisateur démontrent que MIVE surpasse significativement les méthodes récentes de pointe en termes de fidélité de montage, de précision et de prévention des fuites, établissant ainsi une nouvelle référence pour le montage vidéo multi-instance. La page du projet est disponible sur https://kaist-viclab.github.io/mive-site/
Les grands modèles de langage (LLM) démontrent des performances exceptionnelles dans diverses tâches en exploitant à la fois les connaissances pré-entraînées (c'est-à-dire, les connaissances paramétriques) et les connaissances externes (c'est-à-dire, les connaissances contextuelles). Alors que des efforts considérables ont été déployés pour exploiter ces deux formes de connaissances, les scénarios dans lesquels le modèle manque de connaissances pertinentes restent peu explorés. De telles limitations peuvent entraîner des problèmes tels que des hallucinations, entraînant une fiabilité réduite et des risques potentiels dans des applications à enjeux élevés. Pour remédier à ces limitations, cet article élargit le champ d'application de la tâche pour englober les cas où la demande de l'utilisateur ne peut être satisfaite en raison du manque de connaissances pertinentes. À cette fin, nous introduisons le Décodage Contrastif avec Abstention (CDA), une méthode de décodage sans entraînement qui permet aux LLM de générer des réponses lorsque des connaissances pertinentes sont disponibles et de s'abstenir sinon. Le CDA évalue la pertinence de chaque connaissance pour une requête donnée, déterminant de manière adaptative quelles connaissances privilégier ou ignorer complètement. Des expériences approfondies avec quatre LLM sur trois ensembles de données de questions-réponses démontrent que le CDA peut effectivement réaliser une génération précise et une abstention simultanément. Ces résultats mettent en lumière le potentiel du CDA à élargir l'applicabilité des LLM, améliorant la fiabilité et préservant la confiance de l'utilisateur.