Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les benchmarks sont des outils importants pour suivre les avancées rapides dans les capacités des grands modèles de langage (LLM). Cependant, les benchmarks ne progressent pas en termes de difficulté : les LLM atteignent désormais plus de 90\% de précision sur des benchmarks populaires comme MMLU, limitant la mesure informée des capacités de pointe des LLM. En réponse, nous introduisons l'Examen Dernier de l'Humanité (HLE), un benchmark multi-modal à la frontière de la connaissance humaine, conçu pour être le dernier benchmark académique fermé de ce type avec une large couverture de sujets. HLE se compose de 3 000 questions dans des dizaines de matières, comprenant les mathématiques, les sciences humaines et les sciences naturelles. HLE est développé à l'échelle mondiale par des experts en la matière et comprend des questions à choix multiples et à réponses courtes adaptées à une évaluation automatisée. Chaque question a une solution connue, non ambiguë et facilement vérifiable, mais ne peut pas être rapidement répondue par une recherche sur internet. Les LLM de pointe démontrent une faible précision et calibration sur HLE, soulignant un écart significatif entre les capacités actuelles des LLM et la frontière humaine experte sur des questions académiques fermées. Pour informer la recherche et l'élaboration de politiques sur une compréhension claire des capacités des modèles, nous publions publiquement HLE sur https://lastexam.ai.
Cet article présente une approche pour entraîner des modèles RAG de type o1 qui récupèrent et raisonnent sur des informations pertinentes étape par étape avant de générer la réponse finale. Les méthodes RAG classiques effectuent généralement une seule étape de récupération avant le processus de génération, ce qui limite leur efficacité pour répondre à des requêtes complexes en raison de résultats de récupération imparfaits. En revanche, notre méthode proposée, CoRAG (Génération Augmentée par Chaîne de Récupération), permet au modèle de reformuler dynamiquement la requête en fonction de l'état évolutif. Pour entraîner efficacement CoRAG, nous utilisons l'échantillonnage par rejet pour générer automatiquement des chaînes de récupération intermédiaires, augmentant ainsi les ensembles de données RAG existants qui ne fournissent que la réponse finale correcte. Au moment des tests, nous proposons diverses stratégies de décodage pour adapter le calcul du modèle en fonction de la longueur et du nombre de chaînes de récupération échantillonnées. Les résultats expérimentaux sur plusieurs benchmarks valident l'efficacité de CoRAG, en particulier dans les tâches de question-réponse multi-sauts, où nous observons une amélioration de plus de 10 points du score EM par rapport aux références solides. Sur le benchmark KILT, CoRAG établit une nouvelle performance de pointe dans une gamme diversifiée de tâches intensives en connaissances. De plus, nous proposons des analyses approfondies pour comprendre le comportement à l'échelle de CoRAG, posant ainsi les bases pour de futures recherches visant à développer des modèles de base factuels et fondés.
Les critiques sont importantes pour améliorer les performances des Modèles de Langage Géants (LLMs), permettant à la fois l'auto-amélioration et des retours constructifs pour les autres en identifiant les défauts et en suggérant des améliorations. Cependant, évaluer les capacités de critique des LLMs présente un défi significatif en raison de la nature ouverte de la tâche. Dans ce travail, nous introduisons un nouveau banc d'essai conçu pour évaluer les capacités de critique des LLMs. Contrairement aux bancs d'essai existants, qui fonctionnent généralement de manière en boucle ouverte, notre approche utilise une méthodologie en boucle fermée qui évalue la qualité des corrections générées à partir des critiques. De plus, le banc d'essai intègre des fonctionnalités telles que l'auto-critique, la critique croisée et la critique itérative, qui sont cruciales pour distinguer les capacités des modèles de raisonnement avancés des modèles plus classiques. Nous mettons en œuvre ce banc d'essai en utilisant huit tâches de raisonnement difficiles. Nous avons plusieurs résultats intéressants. Tout d'abord, malgré des performances comparables dans la génération directe de chaînes de pensée, les LLMs classiques accusent un retard significatif par rapport au modèle basé sur le raisonnement avancé o1-mini dans tous les scénarios de critique. Deuxièmement, dans les paramètres d'auto-critique et de critique itérative, les LLMs classiques peuvent même sous-performer par rapport à leurs capacités de base. Nous espérons que ce banc d'essai servira de ressource précieuse pour orienter les futures avancées. Le code et les données sont disponibles sur https://github.com/tangzhy/RealCritic.
Avec l'itération rapide des Modèles de Langage Multimodaux de Grande Taille (MLLMs) et les exigences évolutives du domaine, le nombre de références produites annuellement a explosé pour atteindre des centaines. Cette croissance rapide a inévitablement entraîné une redondance significative parmi les références. Il est donc crucial de prendre du recul et d'évaluer de manière critique l'état actuel de la redondance, et de proposer des principes ciblés pour la construction de références MLLM efficaces. Dans cet article, nous nous concentrons sur la redondance selon trois perspectives clés : 1) la redondance des dimensions de capacité des références, 2) la redondance dans le nombre de questions de test, et 3) la redondance entre références au sein de domaines spécifiques. À travers une analyse approfondie de la performance de centaines de MLLMs sur plus de 20 références, nous visons à mesurer quantitativement le niveau de redondance présent dans les évaluations de MLLM existantes, à fournir des perspectives précieuses pour orienter le futur développement des références MLLM, et à proposer des stratégies pour affiner et résoudre efficacement les problèmes de redondance.
Et si l'intelligence artificielle pouvait non seulement résoudre les problèmes pour lesquels elle a été entraînée, mais aussi apprendre à s'enseigner elle-même à résoudre de nouveaux problèmes (c'est-à-dire, méta-apprentissage) ? Dans cette étude, nous démontrons qu'un transformeur pré-entraîné, affiné par l'apprentissage par renforcement sur plusieurs épisodes, développe la capacité de résoudre des problèmes auxquels il n'a jamais été confronté auparavant - une capacité émergente appelée Apprentissage par Renforcement en Contexte (ICRL). Ce puissant méta-apprenant excelle non seulement dans la résolution d'environnements non vus auparavant avec une efficacité d'échantillonnage remarquable, mais montre également de bonnes performances dans des environnements hors distribution. De plus, nous montrons qu'il fait preuve de robustesse face à la qualité de ses données d'entraînement, assemble de manière transparente des comportements de son contexte, et s'adapte à des environnements non stationnaires. Ces comportements démontrent qu'un transformeur entraîné par RL peut améliorer de manière itérative ses propres solutions, ce qui en fait un excellent résolveur de problèmes polyvalent.
Nous proposons des avatars gaussiens à corps entier reconfigurables, une nouvelle approche pour modéliser des avatars à corps entier reconfigurables avec des détails fins incluant le visage et les mains. Le défi unique pour le reéclairage des avatars à corps entier réside dans les grandes déformations causées par l'articulation du corps et l'impact résultant sur l'apparence causé par le transport de la lumière. Les changements de posture du corps peuvent changer radicalement l'orientation des surfaces du corps par rapport aux lumières, entraînant à la fois des changements d'apparence locaux dus aux changements dans les fonctions locales de transport de la lumière, ainsi que des changements non-locaux dus à l'occultation entre les parties du corps. Pour résoudre cela, nous décomposons le transport de la lumière en effets locaux et non-locaux. Les changements d'apparence locaux sont modélisés en utilisant des harmoniques zonales apprenables pour le transfert de la radiance diffuse. Contrairement aux harmoniques sphériques, les harmoniques zonales sont hautement efficaces pour pivoter sous l'articulation. Cela nous permet d'apprendre le transfert de la radiance diffuse dans un cadre de coordonnées local, ce qui démêle le transfert de la radiance local de l'articulation du corps. Pour tenir compte des changements d'apparence non-locaux, nous introduisons un réseau d'ombres qui prédit les ombres étant donné l'irradiance entrante précalculée sur un maillage de base. Cela facilite l'apprentissage de l'ombrage non-local entre les parties du corps. Enfin, nous utilisons une approche de rendu différé pour modéliser le transfert de la radiance spéculaire et capturer plus précisément les réflexions et les points lumineux tels que les reflets dans les yeux. Nous démontrons que notre approche modélise avec succès à la fois le transport de la lumière local et non-local requis pour les avatars à corps entier reconfigurables, avec une capacité de généralisation supérieure sous des conditions d'éclairage nouvelles et des poses inédites.
Les systèmes de santé génèrent continuellement d'énormes quantités de dossiers médicaux électroniques (DME), couramment stockés dans la norme des Ressources d'Interopérabilité Rapide des Soins de Santé (FHIR). Malgré la richesse d'informations contenue dans ces dossiers, leur complexité et leur volume rendent difficile la récupération et l'interprétation d'informations de santé cruciales pour les utilisateurs. Les récents progrès des Grands Modèles de Langage (LLM) offrent une solution, permettant la réponse sémantique à des questions (QA) sur des données médicales, permettant aux utilisateurs d'interagir de manière plus efficace avec leurs dossiers de santé. Cependant, garantir la confidentialité et la conformité nécessite le déploiement d'LLM en périphérie et en privé. Cet article propose une approche novatrice pour la réponse sémantique à des questions sur les DME en identifiant d'abord les ressources FHIR les plus pertinentes pour une requête utilisateur (Tâche 1) et en répondant ensuite à la requête en se basant sur ces ressources (Tâche 2). Nous explorons les performances d'LLM finement réglés hébergés de manière privée, les évaluant par rapport à des modèles de référence tels que GPT-4 et GPT-4o. Nos résultats démontrent que les LLM finement réglés, bien que 250 fois plus petits en taille, surpassent les modèles de la famille GPT-4 de 0,55% en score F1 sur la Tâche 1 et de 42% sur la Tâche Meteor de la Tâche 2. De plus, nous examinons des aspects avancés de l'utilisation des LLM, y compris le réglage fin séquentiel, l'auto-évaluation du modèle (évaluation narcissique) et l'impact de la taille des données d'entraînement sur les performances. Les modèles et ensembles de données sont disponibles ici : https://huggingface.co/genloop
Les récentes avancées dans les grands modèles multimodaux (LMM) ont reconnu le ciblage détaillé comme un facteur impératif de la compréhension visuelle et du dialogue. Cependant, les avantages d'une telle représentation dans les LMM sont limités au domaine des images naturelles, et ces modèles fonctionnent mal pour la télédétection (RS). La vue aérienne distincte, les variations d'échelle et la présence d'objets de petite taille dans les images de RS haute résolution posent un défi unique pour la compréhension au niveau régional. De plus, le développement de la capacité de conversation ciblée des LMM dans le domaine de la RS est entravé par le manque de données granulaires spécifiques au domaine de la RS. Pour répondre à ces limitations, nous proposons GeoPixel - le premier RS-LMM haute résolution de bout en bout qui prend en charge le ciblage au niveau des pixels. Cette capacité permet une perception visuelle détaillée en générant des masques entrelacés dans la conversation. GeoPixel prend en charge une résolution HD jusqu'à 4K dans n'importe quel rapport d'aspect, idéal pour l'analyse d'images de RS de haute précision. Pour soutenir la génération de conversation ciblée (GCG) dans les images de RS, nous avons créé un ensemble de données visuellement ciblées, GeoPixelD, à travers un pipeline semi-automatisé qui utilise des incitations de jeu de marques et des priorités spatiales adaptées aux données de RS pour contrôler méthodiquement le processus de génération de données. GeoPixel démontre des performances supérieures en termes de compréhension au niveau des pixels, dépassant les LMM existants dans les tâches de segmentation à cible unique et à cibles multiples. Nos études d'ablation méthodologiques valident l'efficacité de chaque composant dans l'architecture globale. Notre code et nos données seront publiés publiquement.
Les modèles fondamentaux de vision, en particulier la famille ViT, ont révolutionné la compréhension des images en fournissant des caractéristiques sémantiques riches. Cependant, malgré leur succès dans la compréhension en 2D, leurs capacités à appréhender les relations spatiales en 3D restent encore floues. Dans ce travail, nous évaluons et améliorons la conscience en 3D des modèles basés sur ViT. Nous commençons par évaluer systématiquement leur capacité à apprendre des caractéristiques 3D équivariantes, examinant spécifiquement la cohérence des plongements sémantiques à travers différents points de vue. Nos résultats indiquent qu'une meilleure équivariance en 3D conduit à de meilleures performances sur diverses tâches ultérieures, notamment l'estimation de la pose, le suivi et le transfert sémantique. En nous appuyant sur cette observation, nous proposons une stratégie de fine-tuning simple mais efficace basée sur des correspondances 3D, qui améliore significativement la compréhension des correspondances 3D des modèles de vision existants. Remarquablement, même un fine-tuning sur un seul objet pour une seule itération entraîne des gains de performance substantiels. Tout le code et les ressources seront rendus publiquement disponibles pour soutenir de nouvelles avancées dans les modèles de vision conscients en 3D. Notre code est disponible sur https://github.com/qq456cvb/3DCorrEnhance.
La technologie d'essayage virtuel (VTON) a attiré l'attention en raison de son potentiel de transformer le commerce en ligne en permettant une visualisation réaliste des vêtements sur des images et des vidéos. Cependant, la plupart des méthodes existantes peinent à obtenir des résultats de haute qualité pour les tâches d'essayage d'images et de vidéos, en particulier dans des scénarios de longues vidéos. Dans ce travail, nous introduisons CatV2TON, une méthode d'essayage virtuel (V2TON) basée sur la vision, simple et efficace, qui prend en charge à la fois les tâches d'essayage d'images et de vidéos avec un seul modèle de transformateur de diffusion. En concaténant temporellement les entrées de vêtements et de personnes et en s'entraînant sur un mélange de jeux de données d'images et de vidéos, CatV2TON atteint des performances d'essayage robustes dans des environnements statiques et dynamiques. Pour une génération efficace de longues vidéos, nous proposons une stratégie d'inférence basée sur des clips superposés qui utilise un guidage par trame séquentielle et une Normalisation Adaptative des Clips (AdaCN) pour maintenir une cohérence temporelle avec des exigences en ressources réduites. Nous présentons également ViViD-S, un ensemble de données d'essayage vidéo affiné, obtenu en filtrant les trames tournées vers l'arrière et en appliquant un lissage de masque 3D pour une cohérence temporelle améliorée. Des expériences approfondies démontrent que CatV2TON surpasse les méthodes existantes dans les tâches d'essayage d'images et de vidéos, offrant une solution polyvalente et fiable pour des essayages virtuels réalistes dans divers scénarios.
Dans le processus d'acquisition d'images, diverses formes de dégradation, telles que le bruit, le brouillard et la pluie, sont fréquemment introduites. Ces dégradations découlent généralement des limitations inhérentes des caméras ou de conditions ambiantes défavorables. Pour récupérer des images nettes à partir de versions dégradées, de nombreuses méthodes de restauration spécialisées ont été développées, chacune ciblant un type spécifique de dégradation. Récemment, les algorithmes tout-en-un ont suscité une attention significative en traitant différents types de dégradations au sein d'un seul modèle sans nécessiter d'informations préalables sur le type de dégradation en entrée. Cependant, ces méthodes opèrent uniquement dans le domaine spatial et ne s'aventurent pas dans les variations de fréquence distinctes inhérentes aux différents types de dégradations. Pour combler cette lacune, nous proposons un réseau adaptatif de restauration d'images tout-en-un basé sur l'exploration et la modulation de fréquences. Notre approche est motivée par l'observation selon laquelle différents types de dégradations impactent le contenu de l'image sur différentes sous-bandes de fréquence, nécessitant ainsi des traitements différents pour chaque tâche de restauration. Plus précisément, nous extrayons d'abord des informations de basses et hautes fréquences à partir des caractéristiques en entrée, guidés par les spectres adaptativement découplés de l'image dégradée. Les caractéristiques extraites sont ensuite modulées par un opérateur bidirectionnel pour faciliter les interactions entre les différents composants de fréquence. Enfin, les caractéristiques modulées sont fusionnées avec l'entrée d'origine pour une restauration guidée de manière progressive. Avec cette approche, le modèle parvient à une reconstruction adaptative en accentuant les sous-bandes de fréquence informatives selon les différentes dégradations en entrée. Des expériences approfondies démontrent que la méthode proposée atteint des performances de pointe sur différentes tâches de restauration d'images, notamment le débruitage, le désembuage, le dépluviage, le désfloutage de mouvement et l'amélioration d'images en basse lumière. Notre code est disponible sur https://github.com/c-yn/AdaIR.
Bien que les méthodes de restauration d'images basées sur l'apprentissage aient réalisé des progrès significatifs, elles peinent toujours à généraliser de manière limitée aux scénarios du monde réel en raison de l'écart de domaine substantiel causé par l'entraînement sur des données synthétiques. Les méthodes existantes abordent ce problème en améliorant les pipelines de synthèse de données, en estimant les noyaux de dégradation, en utilisant l'apprentissage interne profond, et en effectuant l'adaptation de domaine et la régularisation. Les méthodes précédentes d'adaptation de domaine ont cherché à combler l'écart de domaine en apprenant des connaissances invariantes de domaine soit dans l'espace des caractéristiques, soit dans l'espace des pixels. Cependant, ces techniques ont souvent du mal à s'étendre aux tâches de vision de bas niveau dans un cadre stable et compact. Dans cet article, nous montrons qu'il est possible d'effectuer une adaptation de domaine via l'espace du bruit en utilisant des modèles de diffusion. En particulier, en exploitant la propriété unique de la manière dont les entrées conditionnelles auxiliaires influencent le processus de débruitage à plusieurs étapes, nous dérivons une perte de diffusion significative qui guide le modèle de restauration dans l'alignement progressif des sorties restaurées synthétiques et du monde réel avec une distribution propre cible. Nous appelons cette méthode débruitage par adaptation. Pour éviter les raccourcis lors de l'entraînement conjoint, nous présentons des stratégies cruciales telles que la couche de permutation de canaux et l'apprentissage contrastif d'échange résiduel dans le modèle de diffusion. Ils brouillent implicitement les frontières entre les données synthétiques conditionnées et réelles et empêchent le modèle de se reposer sur des caractéristiques facilement discernables. Les résultats expérimentaux sur trois tâches classiques de restauration d'images, à savoir le débruitage, le défloutage et le dépluie, démontrent l'efficacité de la méthode proposée.