Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) présentent des capacités prometteuses pour résoudre des problèmes scientifiques simples, mais produisent souvent des hallucinations pour des problèmes complexes. Bien que l'intégration des LLM avec des outils puisse accroître la fiabilité, cette approche entraîne généralement une surdépendance aux outils, diminuant la capacité du modèle à résoudre des problèmes simples par un raisonnement de base. En revanche, les experts humains évaluent d'abord la complexité du problème en utilisant leurs connaissances du domaine avant de choisir une approche de solution appropriée. Inspirés par ce processus humain de résolution de problèmes, nous proposons une nouvelle méthode de fine-tuning en deux composants. Dans le premier composant de Distillation des Connaissances Mondiales (WKD), les LLM apprennent directement à partir des solutions générées en utilisant les informations des outils pour intérioriser les connaissances du domaine. Dans le deuxième composant d'Adaptation de l'Utilisation des Outils (TUA), nous divisons les problèmes en catégories faciles et difficiles en fonction de la précision de réponse directe du modèle. Tout en maintenant le même objectif d'alignement pour les problèmes faciles que dans WKD, nous entraînons le modèle à basculer intelligemment vers l'utilisation des outils pour les problèmes plus difficiles. Nous validons notre méthode sur six ensembles de données de référence scientifiques, couvrant les mathématiques, les sciences du climat et l'épidémiologie. En moyenne, nos modèles présentent une amélioration de 28,18% de la précision des réponses et une augmentation de 13,89% de la précision de l'utilisation des outils sur l'ensemble des ensembles de données, surpassant les modèles de pointe, y compris GPT-4o et Claude-3.5.
Les efforts actuels pour construire des agents GUI reposent fortement sur la disponibilité de modèles Vision-Language commerciaux robustes (VLM) tels que GPT-4o et GeminiProVision. Les praticiens sont souvent réticents à utiliser des VLM open-source en raison de leur important retard de performance par rapport à leurs homologues en source fermée, notamment dans la localisation GUI et les scénarios Out-Of-Distribution (OOD). Pour faciliter les futures recherches dans ce domaine, nous avons développé OS-Atlas - un modèle d'action GUI fondamental qui excelle dans la localisation GUI et les tâches agentiques OOD grâce à des innovations à la fois dans les données et la modélisation. Nous avons investi des efforts d'ingénierie significatifs dans le développement d'une trousse à outils open-source pour la synthèse de données de localisation GUI sur plusieurs plateformes, y compris Windows, Linux, MacOS, Android et le web. En exploitant cette trousse à outils, nous publions le plus grand corpus de localisation GUI open-source multiplateforme à ce jour, qui contient plus de 13 millions d'éléments GUI. Ce jeu de données, combiné à des innovations dans l'entraînement du modèle, fournit une base solide pour OS-Atlas afin de comprendre les captures d'écran GUI et de généraliser à des interfaces non vues. À travers une évaluation approfondie sur six benchmarks couvrant trois plateformes différentes (mobile, bureau et web), OS-Atlas démontre des améliorations significatives de performance par rapport aux modèles de pointe précédents. Notre évaluation révèle également des informations précieuses pour améliorer et étendre en continu les capacités agentiques des VLM open-source.
La personnalisation des grands modèles de langage (LLM) est récemment devenue de plus en plus importante avec une large gamme d'applications. Malgré l'importance et les progrès récents, la plupart des travaux existants sur les LLM personnalisés se sont concentrés soit entièrement sur (a) la génération de texte personnalisé, soit sur (b) l'exploitation des LLM pour des applications de personnalisation, telles que les systèmes de recommandation. Dans ce travail, nous comblons le fossé entre ces deux principales directions distinctes pour la première fois en introduisant une taxonomie pour l'utilisation des LLM personnalisés et en résumant les principales différences et défis. Nous proposons une formalisation des fondements des LLM personnalisés qui consolide et étend les notions de personnalisation des LLM, en définissant et en discutant de nouveaux aspects de la personnalisation, de l'utilisation et des desiderata des LLM personnalisés. Nous unifions ensuite la littérature à travers ces domaines divers et ces scénarios d'utilisation en proposant des taxonomies systématiques pour la granularité de la personnalisation, les techniques de personnalisation, les ensembles de données, les méthodes d'évaluation et les applications des LLM personnalisés. Enfin, nous mettons en lumière les défis et les problèmes ouverts importants qui restent à résoudre. En unifiant et en passant en revue les recherches récentes en utilisant les taxonomies proposées, nous visons à fournir un guide clair sur la littérature existante et les différents aspects de la personnalisation dans les LLM, permettant ainsi aux chercheurs et aux praticiens de s'émanciper.
Les procédures de flux rectifié et de reflux ont considérablement fait progresser la génération rapide en redressant progressivement les flux d'équations différentielles ordinaires (ODE). Elles opèrent en supposant que les paires d'images et de bruit, appelées couplages, peuvent être approximées par des trajectoires rectilignes à vitesse constante. Cependant, nous observons que la modélisation avec une vitesse constante et l'utilisation de procédures de reflux présentent des limites dans l'apprentissage précis des trajectoires rectilignes entre les paires, ce qui se traduit par des performances sous-optimales dans la génération en quelques étapes. Pour remédier à ces limitations, nous introduisons le Flux à Accélération Constante (CAF), un nouveau cadre basé sur une simple équation d'accélération constante. Le CAF introduit l'accélération en tant que variable d'apprentissage supplémentaire, permettant une estimation plus expressive et précise du flux ODE. De plus, nous proposons deux techniques pour améliorer davantage la précision de l'estimation : la condition de vitesse initiale pour le modèle d'accélération et un processus de reflux pour la vitesse initiale. Nos études approfondies sur des ensembles de données jouets, CIFAR-10 et ImageNet 64x64, démontrent que le CAF surpasse les références de pointe pour la génération en une étape. Nous montrons également que le CAF améliore considérablement la préservation des couplages en quelques étapes et l'inversion par rapport au flux rectifié. Le code est disponible sur https://github.com/mlvlab/CAF.
Les benchmarks existants mettent souvent en avant les performances remarquables obtenues par les Modèles Fondamentaux Multimodaux (MFM) de pointe dans l'exploitation du contexte temporel pour la compréhension vidéo. Cependant, dans quelle mesure ces modèles réussissent-ils réellement le raisonnement temporel visuel ? Notre étude des benchmarks existants montre que cette capacité des MFMs est probablement surestimée car de nombreuses questions peuvent être résolues en utilisant un seul, quelques, ou des images hors séquence. Pour examiner systématiquement les tâches actuelles de raisonnement temporel visuel, nous proposons trois principes avec des métriques correspondantes : (1) Gain Multi-Images, (2) Sensibilité à l'Ordre des Images, et (3) Disparité de l'Information des Images. En suivant ces principes, nous introduisons TOMATO, Évaluation Multimodale du Raisonnement Temporel, un nouveau benchmark conçu pour évaluer rigoureusement les capacités de raisonnement temporel des MFMs dans la compréhension vidéo. TOMATO comprend 1 484 questions soigneusement sélectionnées et annotées par des humains couvrant six tâches (c'est-à-dire, comptage d'actions, direction, rotation, forme et tendance, vitesse et fréquence, et indices visuels), appliquées à 1 417 vidéos, comprenant 805 vidéos auto-enregistrées et générées, qui englobent des scénarios centrés sur l'humain, réels et simulés. Notre évaluation complète révèle un écart de performance de 57,3% entre l'humain et le meilleur modèle. De plus, notre analyse approfondie révèle des limitations plus fondamentales au-delà de cet écart dans les MFMs actuels. Alors qu'ils peuvent reconnaître avec précision des événements dans des images isolées, ils échouent à interpréter ces images comme une séquence continue. Nous pensons que TOMATO servira de banc d'essai crucial pour évaluer les MFMs de prochaine génération et comme un appel à la communauté pour développer des systèmes d'IA capables de comprendre la dynamique du monde humain à travers la modalité vidéo.
Cet article présente la modélisation auto-régressive randomisée (RAR) pour la génération visuelle, qui établit une nouvelle performance de pointe dans la tâche de génération d'images tout en maintenant une compatibilité totale avec les cadres de modélisation de langage. Le RAR proposé est simple : pendant un processus d'entraînement auto-régressif standard avec un objectif de prédiction du prochain jeton, la séquence d'entrée - généralement ordonnée sous forme de raster - est aléatoirement permutée dans différents ordres de factorisation avec une probabilité r, où r commence à 1 et décroît linéairement jusqu'à 0 au cours de l'entraînement. Cette stratégie d'entraînement par recuit permet au modèle d'apprendre à maximiser la probabilité attendue sur tous les ordres de factorisation et ainsi d'améliorer efficacement la capacité du modèle à modéliser les contextes bidirectionnels. Importamment, le RAR préserve l'intégrité du cadre de modélisation auto-régressive, garantissant une compatibilité totale avec la modélisation de langage tout en améliorant significativement les performances en génération d'images. Sur le banc d'essai ImageNet-256, le RAR atteint un score FID de 1,48, dépassant non seulement les générateurs d'images auto-régressifs de pointe précédents, mais surpassant également les méthodes basées sur la diffusion et les transformateurs masqués. Le code et les modèles seront disponibles sur https://github.com/bytedance/1d-tokenizer
Nous avons découvert la physique sous-jacente de la Prédiction du Prochain Token (PPT). Nous avons identifié la loi de conservation de l'information au sein de la PPT et avons proposé la Première Loi de Capacité d'Information (CI-1), démontrant que l'émergence de l'intelligence dans les modèles autorégressifs est fondamentalement un processus de transfert d'information. Nous avons également introduit le Principe de Landauer dans la PPT, formulant la Deuxième Loi de Capacité d'Information (CI-2), qui établit la relation entre l'entraînement des modèles autorégressifs et la consommation d'énergie. De plus, nous avons présenté plusieurs corollaires, qui ont une signification pratique pour les pratiques de production. Enfin, nous avons validé la compatibilité et la complémentarité de nos découvertes avec les théories existantes.
Nous présentons une manière simple de fusionner la modélisation de langage masquée avec la modélisation de langage causale. Cet objectif d'entraînement hybride donne lieu à un modèle qui combine les forces des deux paradigmes de modélisation au sein d'une seule pile de transformateurs : GPT-BERT peut être utilisé de manière transparente comme n'importe quel modèle de langage causale ou masquée standard. Nous testons le processus de pré-entraînement qui permet ce comportement flexible sur le défi BabyLM 2024. Les résultats montrent que le pré-entraînement hybride surpasse les modèles uniquement masqués ou uniquement causaux. Nous publions ouvertement les modèles, les corpus d'entraînement et le code.
Les applications de l'IA générative sont devenues extrêmement impressionnantes, et l'interaction entre les utilisateurs et l'IA l'est encore plus. La littérature actuelle sur l'interaction humain-IA examine de manière générale comment les humains interagissent avec l'IA générative, mais elle manque de spécificité en ce qui concerne les conceptions et les modèles d'interface utilisateur utilisés pour créer ces applications. Par conséquent, nous présentons une enquête qui présente de manière exhaustive des taxonomies sur la manière dont un humain interagit avec l'IA et les modèles d'interaction utilisateur conçus pour répondre aux besoins de divers cas d'utilisation pertinents. Nous nous concentrons principalement sur les interactions guidées par l'utilisateur, en examinant les interactions initiées par l'utilisateur et n'incluant aucun signal implicite donné par l'utilisateur. Avec cette enquête, nous visons à créer un recueil de différents modèles d'interaction utilisateur pouvant servir de référence aux concepteurs et développeurs. Ce faisant, nous cherchons également à abaisser la barrière à l'entrée pour ceux qui cherchent à en savoir plus sur la conception d'applications d'IA générative.
Nous présentons Fashion-VDM, un modèle de diffusion vidéo (VDM) pour générer des vidéos d'essayage virtuel. Étant donné une image de vêtement en entrée et une vidéo de personne, notre méthode vise à générer une vidéo d'essayage de haute qualité de la personne portant le vêtement donné, tout en préservant l'identité et le mouvement de la personne. L'essayage virtuel basé sur l'image a montré des résultats impressionnants; cependant, les méthodes d'essayage virtuel vidéo (VVT) existantes manquent encore de détails de vêtements et de cohérence temporelle. Pour résoudre ces problèmes, nous proposons une architecture basée sur la diffusion pour l'essayage virtuel vidéo, un guidage sans classificateur fractionné pour un contrôle accru sur les entrées de conditionnement, et une stratégie d'entraînement temporel progressif pour la génération de vidéos de 64 images en une seule passe, de 512px. Nous démontrons également l'efficacité de l'entraînement conjoint image-vidéo pour l'essayage vidéo, en particulier lorsque les données vidéo sont limitées. Nos expériences qualitatives et quantitatives montrent que notre approche établit le nouvel état de l'art pour l'essayage virtuel vidéo. Pour des résultats supplémentaires, visitez notre page de projet: https://johannakarras.github.io/Fashion-VDM.
Une recherche récente arXiv:2410.15027 a exploré l'utilisation des transformateurs de diffusion (DiTs) pour la génération d'images sans tâche spécifique en concaténant simplement des jetons d'attention à travers les images. Cependant, malgré des ressources computationnelles substantielles, la fidélité des images générées reste suboptimale. Dans cette étude, nous réévaluons et rationalisons ce cadre en émettant l'hypothèse que les DiTs texte-image possèdent intrinsèquement des capacités de génération contextuelle, nécessitant seulement un réglage minimal pour les activer. À travers diverses expériences de tâches, nous démontrons qualitativement que les DiTs texte-image existants peuvent effectivement réaliser une génération contextuelle sans aucun réglage. S'appuyant sur cette observation, nous proposons un pipeline remarquablement simple pour exploiter les capacités contextuelles des DiTs : (1) concaténer des images au lieu de jetons, (2) réaliser une légende commune de plusieurs images, et (3) appliquer un réglage LoRA spécifique à la tâche en utilisant de petits ensembles de données (par exemple, 20 à 100 échantillons) au lieu d'un réglage de paramètres complet avec de grands ensembles de données. Nous nommons nos modèles In-Context LoRA (IC-LoRA). Cette approche ne nécessite aucune modification des modèles DiT originaux, seulement des changements aux données d'entraînement. Remarquablement, notre pipeline génère des ensembles d'images de haute fidélité qui respectent mieux les instructions. Bien que spécifique à la tâche en termes de données de réglage, notre cadre reste agnostique à la tâche en termes d'architecture et de pipeline, offrant un outil puissant pour la communauté et fournissant des perspectives précieuses pour de futures recherches sur les systèmes de génération sans tâche au niveau du produit. Nous mettons à disposition notre code, nos données et nos modèles sur https://github.com/ali-vilab/In-Context-LoRA.
Récemment, le Splatting Gaussien en 3D (3DGS) a révolutionné la reconstruction de champs de radiance, se manifestant par une synthèse de nouvelle vue efficace et de haute fidélité. Cependant, la représentation précise des surfaces, notamment dans des scénarios vastes et complexes, reste un défi majeur en raison de la nature non structurée du 3DGS. Dans cet article, nous présentons CityGaussianV2, une nouvelle approche pour la reconstruction de scènes à grande échelle qui aborde les défis critiques liés à la précision géométrique et à l'efficacité. En capitalisant sur les capacités de généralisation favorables du Splatting Gaussien en 2D (2DGS), nous traitons ses problèmes de convergence et de scalabilité. Plus précisément, nous mettons en œuvre une technique de densification basée sur le gradient décomposé et une technique de régression de profondeur pour éliminer les artefacts flous et accélérer la convergence. Pour augmenter l'échelle, nous introduisons un filtre d'allongement qui atténue l'explosion du nombre gaussien causée par la dégénérescence du 2DGS. De plus, nous optimisons le pipeline CityGaussian pour un entraînement parallèle, atteignant une compression jusqu'à 10 fois, au moins 25% d'économies de temps d'entraînement, et une réduction de 50% de l'utilisation de la mémoire. Nous avons également établi des références géométriques standard pour des scènes à grande échelle. Les résultats expérimentaux démontrent que notre méthode trouve un équilibre prometteur entre la qualité visuelle, la précision géométrique, ainsi que les coûts de stockage et d'entraînement. La page du projet est disponible sur https://dekuliutesla.github.io/CityGaussianV2/.
L'espace d'incorporation de mots dans les modèles neuronaux est biaisé, et corriger cela peut améliorer les performances des tâches. Nous soulignons que la plupart des approches pour modéliser, corriger et mesurer la symétrie d'un espace d'incorporation supposent implicitement que les fréquences des mots sont uniformes ; en réalité, les fréquences des mots suivent une distribution hautement non uniforme, connue sous le nom de loi de Zipf. De manière surprenante, simplement effectuer un blanchiment PCA pondéré par la fréquence empirique des mots qui suit la loi de Zipf améliore significativement les performances des tâches, dépassant les baselines établies. D'un point de vue théorique, notre approche et les méthodes existantes peuvent être clairement catégorisées : les représentations des mots sont distribuées selon une famille exponentielle avec des mesures de base uniformes ou zipfiennes. En adoptant la dernière approche, nous pouvons naturellement mettre l'accent sur les mots informatifs à faible fréquence en termes de leur norme vectorielle, ce qui devient évident du point de vue information-géométrique, et en termes de fonctions de perte pour la classification déséquilibrée. De plus, notre théorie corrobore que des méthodes populaires de traitement du langage naturel, telles que l'échantillonnage négatif skip-gram, WhiteningBERT et les modèles de langage sans tête, fonctionnent bien simplement parce que leurs incorporations de mots encodent la fréquence empirique des mots dans le modèle probabiliste sous-jacent.
Nous proposons une méthode efficace pour insérer des adaptateurs dans les modèles fondamentaux texte-image, ce qui permet d'exécuter des tâches complexes en aval tout en préservant la capacité de généralisation du modèle de base. L'idée principale de cette méthode est d'optimiser le mécanisme d'attention lié aux cartes de caractéristiques 2D, ce qui améliore les performances de l'adaptateur. Cette approche a été validée sur la tâche de génération de vidéos mèmes et a obtenu des résultats significatifs. Nous espérons que ce travail pourra fournir des perspectives pour les tâches post-entraînement des grands modèles texte-image. De plus, comme cette méthode démontre une bonne compatibilité avec les modèles dérivés SD1.5, elle présente une certaine valeur pour la communauté open-source. Par conséquent, nous publierons le code associé (https://songkey.github.io/hellomeme).
Les techniques actuelles d'anonymisation des visages dépendent souvent de la perte d'identité calculée par des modèles de reconnaissance faciale, qui peuvent être inexactes et peu fiables. De plus, de nombreuses méthodes nécessitent des données supplémentaires telles que des repères faciaux et des masques pour guider le processus de synthèse. En revanche, notre approche utilise des modèles de diffusion avec uniquement une perte de reconstruction, éliminant le besoin de repères faciaux ou de masques tout en produisant des images avec des détails complexes et fins. Nous avons validé nos résultats sur deux référentiels publics à travers des évaluations à la fois quantitatives et qualitatives. Notre modèle atteint des performances de pointe dans trois domaines clés : l'anonymisation de l'identité, la préservation des attributs faciaux et la qualité de l'image. Au-delà de sa fonction principale d'anonymisation, notre modèle peut également effectuer des tâches d'échange de visages en incorporant une image faciale supplémentaire en entrée, démontrant sa polyvalence et son potentiel pour des applications diverses. Notre code et nos modèles sont disponibles sur https://github.com/hanweikung/face_anon_simple.
Les grands modèles de langage (LLM) se sont distingués dans la réponse à des questions à plusieurs niveaux (M-QA) en raison de leurs capacités de raisonnement avancées. Cependant, l'impact des structures de raisonnement inhérentes sur les performances de M-QA des LLM reste flou, principalement en raison de l'absence de jeux de données de questions-réponses fournissant des structures de raisonnement détaillées. Pour combler cette lacune, nous introduisons l'Ensemble de données de questions-réponses structurées par raisonnement graphique (GRS-QA), qui inclut à la fois des contextes sémantiques et des structures de raisonnement pour les paires de questions-réponses. Contrairement aux ensembles de données M-QA existants, où différentes structures de raisonnement sont entremêlées, GRS-QA capture explicitement des chemins de raisonnement complexes en construisant des graphes de raisonnement, où les nœuds représentent des contextes textuels et les arêtes indiquent des flux logiques. Ces graphes de raisonnement de différentes structures permettent une évaluation détaillée des capacités de raisonnement des LLM à travers diverses structures de raisonnement. Notre analyse empirique révèle que les LLM se comportent différemment lorsqu'ils traitent des questions avec des structures de raisonnement variables. Cette découverte facilite l'exploration des structures textuelles par rapport à la sémantique.
L'état de santé (SOH) d'une batterie Li-ion est un paramètre critique qui détermine la capacité restante et la durée de vie restante de la batterie. Dans cet article, nous proposons SambaMixer, un nouveau modèle structuré d'espace d'état (SSM) pour prédire l'état de santé des batteries Li-ion. Le SSM proposé est basé sur l'architecture MambaMixer, conçue pour traiter des signaux temporels multivariés. Nous évaluons notre modèle sur l'ensemble de données de décharge de batterie de la NASA et montrons que notre modèle surpasse l'état de l'art sur cet ensemble de données. Nous introduisons en outre une nouvelle méthode de rééchantillonnage basée sur des ancres qui garantit que les signaux temporels ont la longueur attendue tout en servant de technique d'augmentation. Enfin, nous conditionnons la prédiction sur le temps d'échantillonnage et la différence de temps de cycle en utilisant des encodages positionnels pour améliorer les performances de notre modèle et apprendre les effets de récupération. Nos résultats prouvent que notre modèle est capable de prédire l'état de santé des batteries Li-ion avec une grande précision et robustesse.
Le complément de code au niveau du référentiel a attiré une grande attention dans le domaine du génie logiciel, et plusieurs ensembles de données de référence ont été introduits. Cependant, les ensembles de données de référence existants pour le complément de code au niveau du référentiel se concentrent généralement sur un nombre limité de langages (<5), ce qui ne permet pas d'évaluer les capacités générales d'intelligence de code à travers différentes langues pour les grands modèles de langage de code existants (LLM). De plus, les ensembles de données de référence existants rapportent généralement des scores moyens globaux pour différentes langues, où les capacités fines dans différents scénarios de complétion sont ignorées. Par conséquent, pour faciliter la recherche des LLM de code dans des scénarios multilingues, nous proposons un ensemble de données de référence pour le complément de code au niveau du référentiel massivement multilingue couvrant 18 langages de programmation (appelé M2RC-EVAL), et deux types d'annotations fines (c'est-à-dire, au niveau du seau et au niveau sémantique) sur différents scénarios de complétion sont fournis, où nous obtenons ces annotations en fonction de l'arbre de syntaxe abstraite analysé. De plus, nous élaborons également un corpus d'instructions massivement multilingue, l'ensemble de données M2RC-INSTRUCT, pour améliorer les capacités de complément de code au niveau du référentiel des LLM de code existants. Des résultats expérimentaux complets démontrent l'efficacité de notre M2RC-EVAL et M2RC-INSTRUCT.
Dans cet article, nous abordons la qualité du corpus WikiNER, un corpus de reconnaissance d'entités nommées multilingue, et fournissons une version consolidée de celui-ci. L'annotation de WikiNER a été réalisée de manière semi-supervisée, c'est-à-dire qu'aucune vérification manuelle n'a été effectuée a posteriori. Un tel corpus est appelé norme argent. Dans cet article, nous proposons WikiNER-fr-gold, qui est une version révisée de la partie française de WikiNER. Notre corpus se compose d'un échantillon aléatoire de 20 % du sous-corpus français d'origine (26 818 phrases avec 700 000 jetons). Nous commençons par résumer les types d'entités inclus dans chaque catégorie afin de définir un guide d'annotation, puis nous procédons à la révision du corpus. Enfin, nous présentons une analyse des erreurs et des incohérences observées dans le corpus WikiNER-fr, et nous discutons des orientations potentielles pour les travaux futurs.