Articles de recherche en IA sélectionnés quotidiennement avec traductions
Avec la prolifération croissante des grands modèles de langage dans le secteur financier, il est urgent de disposer d'une méthode normalisée pour évaluer de manière exhaustive leurs performances. Cependant, les benchmarks financiers existants souffrent souvent d'une couverture linguistique et de tâches limitée, ainsi que de défis tels que des ensembles de données de faible qualité et une adaptabilité insuffisante pour l'évaluation des LLM. Pour remédier à ces limitations, nous proposons "Golden Touchstone", le premier benchmark bilingue complet pour les LLM financiers, qui intègre des ensembles de données représentatifs en chinois et en anglais sur huit tâches NLP financières essentielles. Développé à partir d'une vaste collecte de données open source et des exigences spécifiques de l'industrie, ce benchmark comprend une variété de tâches financières visant à évaluer de manière approfondie la compréhension et la génération de langage des modèles. À travers une analyse comparative des principaux modèles sur le benchmark, tels que GPT-4o Llama3, FinGPT et FinMA, nous révélons leurs forces et leurs limites dans le traitement d'informations financières complexes. De plus, nous avons mis en open source Touchstone-GPT, un LLM financier entraîné par un pré-entraînement continu et un réglage d'instructions financières, qui démontre de bonnes performances sur le benchmark bilingue mais présente encore des limites dans des tâches spécifiques. Cette recherche fournit non seulement aux grands modèles de langage financiers un outil d'évaluation pratique, mais guide également le développement et l'optimisation des futures recherches. Le code source de Golden Touchstone et les poids du modèle de Touchstone-GPT ont été rendus publiquement disponibles sur https://github.com/IDEA-FinAI/Golden-Touchstone, contribuant à l'évolution continue des FinLLMs et favorisant de nouvelles recherches dans ce domaine critique.
Intégrer des objets dans des images en se basant sur des instructions textuelles est une tâche complexe en édition d'images sémantique, nécessitant un équilibre entre la préservation de la scène originale et l'intégration harmonieuse du nouvel objet à un emplacement approprié. Malgré des efforts considérables, les modèles existants ont souvent du mal à trouver cet équilibre, en particulier pour trouver un emplacement naturel pour ajouter un objet dans des scènes complexes. Nous présentons Add-it, une approche sans entraînement qui étend les mécanismes d'attention des modèles de diffusion pour incorporer des informations provenant de trois sources clés : l'image de la scène, l'indication textuelle et l'image générée elle-même. Notre mécanisme d'attention étendu pondéré maintient la cohérence structurelle et les détails fins tout en garantissant un placement naturel de l'objet. Sans un accordage fin spécifique à la tâche, Add-it obtient des résultats de pointe à la fois sur des benchmarks d'insertion d'images réelles et générées, y compris notre nouveau "Banc d'essai d'ajout d'objets" pour évaluer la plausibilité du placement des objets, surpassant les méthodes supervisées. Les évaluations humaines montrent qu'Add-it est préféré dans plus de 80 % des cas, et il démontre également des améliorations dans diverses mesures automatisées.
Les méthodes d'édition d'images guidées par des instructions ont démontré un potentiel significatif en entraînant des modèles de diffusion sur des paires d'édition d'images synthétisées automatiquement ou annotées manuellement. Cependant, ces méthodes restent loin d'être pratiques pour des applications réelles. Nous identifions trois défis principaux contribuant à cet écart. Premièrement, les modèles existants ont des compétences d'édition limitées en raison du processus de synthèse biaisé. Deuxièmement, ces méthodes sont entraînées avec des ensembles de données contenant un volume élevé de bruit et d'artefacts. Cela est dû à l'application de méthodes de filtrage simples comme le score CLIP. Troisièmement, tous ces ensembles de données sont limités à une seule résolution basse et à un rapport d'aspect fixe, limitant la polyvalence pour traiter des cas d'utilisation du monde réel. Dans cet article, nous présentons \omniedit, qui est un éditeur omnipotent pour gérer sept tâches différentes d'édition d'images avec n'importe quel rapport d'aspect de manière transparente. Notre contribution se décline en quatre volets : (1) \omniedit est entraîné en utilisant la supervision de sept modèles spécialisés différents pour garantir la couverture des tâches. (2) nous utilisons l'échantillonnage d'importance basé sur les scores fournis par de grands modèles multimodaux (comme GPT-4o) au lieu du score CLIP pour améliorer la qualité des données. (3) nous proposons une nouvelle architecture d'édition appelée EditNet pour augmenter considérablement le taux de réussite de l'édition, (4) nous fournissons des images avec différents rapports d'aspect pour garantir que notre modèle peut gérer n'importe quelle image dans la nature. Nous avons constitué un ensemble de tests contenant des images de différents rapports d'aspect, accompagnées d'instructions diverses pour couvrir différentes tâches. Les évaluations automatiques et humaines démontrent que \omniedit peut surpasser de manière significative tous les modèles existants. Notre code, ensemble de données et modèle seront disponibles sur https://tiger-ai-lab.github.io/OmniEdit/
La capacité de comprendre et de répondre à des questions sur des documents peut être utile dans de nombreuses applications commerciales et pratiques. Cependant, les documents contiennent souvent des contenus multimodaux longs et divers tels que des textes, des figures et des tableaux, qui sont très chronophages pour les humains à lire en détail. Par conséquent, il est urgent de développer des méthodes efficaces et automatisées pour aider les humains dans cette tâche. Dans ce travail, nous introduisons M-LongDoc, un ensemble de données de 851 échantillons, et un cadre automatisé pour évaluer les performances des grands modèles multimodaux. Nous proposons en outre une approche d'ajustement conscient de la recherche pour une lecture efficace et efficace de documents multimodaux. Comparé aux travaux existants, notre ensemble de données se compose de documents plus récents et plus longs avec des centaines de pages, tout en exigeant des solutions ouvertes et non seulement des réponses extractives. À notre connaissance, notre cadre d'entraînement est le premier à aborder directement le contexte de recherche pour les longs documents multimodaux. Pour permettre l'ajustement des modèles open-source, nous construisons un corpus d'entraînement de manière entièrement automatique pour la tâche de question-réponse sur de tels documents. Les expériences montrent que notre approche d'ajustement permet d'obtenir une amélioration relative de 4,6 % pour la justesse des réponses du modèle, par rapport aux modèles open-source de référence. Nos données, code et modèles sont disponibles sur https://multimodal-documents.github.io.
De nouveaux critères d'évaluation des LLM sont importants pour s'aligner sur le développement rapide des grands modèles de langage (LLM). Dans ce travail, nous présentons le Chinese SimpleQA, le premier banc d'essai chinois complet pour évaluer la capacité factuelle des modèles linguistiques à répondre à des questions courtes. Le Chinese SimpleQA présente principalement cinq caractéristiques (c'est-à-dire chinois, diversifié, de haute qualité, statique, facile à évaluer). Plus précisément, nous nous concentrons d'abord sur la langue chinoise sur 6 grands sujets avec 99 sous-sujets diversifiés. Ensuite, nous menons un processus complet de contrôle de la qualité pour obtenir des questions et des réponses de haute qualité, où les réponses de référence sont statiques et ne peuvent pas être modifiées dans le temps. Troisièmement, suivant le modèle SimpleQA, les questions et réponses sont très courtes, et le processus de notation est facile à évaluer en se basant sur l'API OpenAI. En nous basant sur le Chinese SimpleQA, nous réalisons une évaluation complète des capacités factuelles des LLM existants. Enfin, nous espérons que le Chinese SimpleQA pourra guider les développeurs pour mieux comprendre les capacités factuelles chinoises de leurs modèles et faciliter la croissance des modèles de base.
Nous présentons Edify Image, une famille de modèles de diffusion capables de générer du contenu d'image photoréaliste avec une précision pixel par pixel. Edify Image utilise des modèles de diffusion dans l'espace des pixels en cascade, entraînés à l'aide d'un processus de diffusion laplacien novateur, dans lequel les signaux d'image à différentes bandes de fréquence sont atténués à des taux variables. Edify Image prend en charge une large gamme d'applications, notamment la synthèse texte-image, l'augmentation en 4K, les ControlNets, la génération de panoramas HDR à 360 degrés et le peaufinage pour la personnalisation d'images.
Les méthodes de tatouage d'image ne sont pas adaptées pour gérer de petites zones tatouées. Cela limite les applications dans des scénarios réels où des parties de l'image peuvent provenir de différentes sources ou avoir été modifiées. Nous présentons un modèle d'apprentissage profond pour le tatouage localisé d'images, appelé le Modèle Watermark Anything (WAM). L'incrusteur WAM modifie de manière imperceptible l'image d'entrée, tandis que l'extracteur segmente l'image reçue en zones tatouées et non tatouées et récupère un ou plusieurs messages cachés des zones identifiées comme tatouées. Les modèles sont entraînés conjointement à basse résolution et sans contraintes perceptuelles, puis post-entraînés pour l'imperceptibilité et les multiples tatouages. Les expériences montrent que WAM est compétitif avec les méthodes de pointe en termes d'imperceptibilité et de robustesse, notamment contre l'effacement et le montage, même sur des images haute résolution. De plus, il offre de nouvelles capacités : WAM peut localiser les zones tatouées dans les images montées et extraire des messages distincts de 32 bits avec moins d'une erreur de 1 bit à partir de plusieurs petites régions - pas plus grandes que 10% de la surface de l'image - même pour de petites images de 256 x 256 pixels.
La rapide évolution des bibliothèques logicielles constitue un défi majeur pour les modèles de génération de code, qui doivent s'adapter aux mises à jour fréquentes des versions tout en maintenant la compatibilité avec les versions précédentes. Les benchmarks existants d'achèvement de code négligent souvent cet aspect dynamique, et celui qui le prend en compte repose sur des tâches statiques de prédiction de code sans évaluation basée sur l'exécution, offrant une perspective limitée sur l'utilisabilité pratique d'un modèle. Pour combler cette lacune, nous présentons \GitChameleon{}, un ensemble de données novateur et manuellement élaboré comprenant 116 problèmes d'achèvement de code Python, chacun conditionné par des versions spécifiques de bibliothèques et accompagné de tests unitaires exécutables. Il est conçu pour évaluer rigoureusement la capacité des modèles de langage de grande taille (LLM) modernes à générer du code spécifique à une version qui soit non seulement syntaxiquement correct, mais aussi fonctionnellement précis lors de l'exécution. Nos évaluations approfondies révèlent que les LLM de pointe peinent avec cette tâche ; par exemple, GPT-4o n'atteint qu'un taux de réussite de 39,9\% (43,7\% avec des retours d'erreur), mettant en évidence la complexité du problème et les limites des modèles actuels. En fournissant un benchmark basé sur l'exécution qui met l'accent sur la nature dynamique des bibliothèques de code, \GitChameleon{} se positionne comme un outil critique pour faire progresser le développement de modèles de génération de code plus adaptables et fiables. Pour faciliter davantage l'exploration de la génération de code conditionnée par la version, nous rendons notre dépôt de code accessible publiquement à l'adresse https://github.com/NizarIslah/GitChameleon.
Dans le domaine des grands modèles de langage (GML), la capacité des modèles à suivre précisément les instructions est primordiale alors que de plus en plus d'agents et d'applications exploitent les GML pour la construction, où la complexité des instructions augmente rapidement. Cependant, d'une part, il n'y a qu'une certaine quantité de données d'évaluation d'instructions complexes ; d'autre part, il n'existe pas d'algorithmes dédiés pour améliorer la capacité à suivre des instructions complexes. À cette fin, cet article présente TRACE, un banc d'essai pour améliorer et évaluer la capacité à suivre des instructions complexes, qui comprend 120 000 données d'entraînement et 1 000 données d'évaluation. De plus, nous proposons la méthode d'alignement IOPO (Optimisation des Préférences Entrée-Sortie) qui prend en compte à la fois les paires de préférences d'entrée et de sortie, où les GML s'alignent non seulement rapidement avec les préférences de réponse mais explorent également méticuleusement les préférences d'instructions. Des expériences approfondies sur des ensembles de données à la fois dans le domaine et hors domaine confirment l'efficacité de IOPO, montrant des améliorations de 8,15 %, 2,18 % sur les données dans le domaine et de 6,29 %, 3,13 % sur les données hors domaine par rapport à SFT et DPO respectivement.
La modélisation autorégressive a connu un immense succès dans le domaine du traitement du langage naturel (NLP). Récemment, les modèles autorégressifs ont émergé comme un domaine d'intérêt majeur en vision par ordinateur, où ils excellent dans la production de contenus visuels de haute qualité. Les modèles autorégressifs en NLP opèrent généralement sur des jetons de sous-mots. Cependant, la stratégie de représentation en vision par ordinateur peut varier à différents niveaux, c'est-à-dire au niveau des pixels, au niveau des jetons ou au niveau de l'échelle, reflétant la nature diverse et hiérarchique des données visuelles par rapport à la structure séquentielle du langage. Cette étude examine de manière exhaustive la littérature sur les modèles autorégressifs appliqués à la vision. Pour améliorer la lisibilité pour les chercheurs de différents horizons de recherche, nous commençons par une représentation séquentielle préliminaire et la modélisation en vision. Ensuite, nous divisons les cadres fondamentaux des modèles autorégressifs visuels en trois sous-catégories générales, comprenant des modèles basés sur les pixels, les jetons et l'échelle en fonction de la stratégie de représentation. Nous explorons ensuite les interconnexions entre les modèles autorégressifs et d'autres modèles génératifs. De plus, nous présentons une catégorisation multifacette des modèles autorégressifs en vision, comprenant la génération d'images, la génération de vidéos, la génération 3D et la génération multi-modale. Nous détaillons également leurs applications dans divers domaines, y compris des domaines émergents tels que l'IA incarnée et l'IA médicale 3D, avec environ 250 références connexes. Enfin, nous mettons en évidence les défis actuels des modèles autorégressifs en vision avec des suggestions sur les orientations de recherche potentielles. Nous avons également mis en place un référentiel Github pour organiser les articles inclus dans cette étude à l'adresse suivante : https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
Cet article examine la rationalité des grands modèles de langage (LLMs) dans des contextes de prise de décision stratégique, en particulier dans le cadre de la théorie des jeux. Nous évaluons plusieurs LLMs de pointe à travers un spectre de jeux à information complète et incomplète. Nos résultats révèlent que les LLMs s'écartent fréquemment des stratégies rationnelles, en particulier lorsque la complexité du jeu augmente avec des matrices de paiement plus grandes ou des arbres séquentiels plus profonds. Pour remédier à ces limitations, nous concevons plusieurs flux de travail de théorie des jeux qui guident les processus de raisonnement et de prise de décision des LLMs. Ces flux de travail visent à améliorer la capacité des modèles à calculer les équilibres de Nash et à prendre des décisions rationnelles, même dans des conditions d'incertitude et d'information incomplète. Les résultats expérimentaux montrent que l'adoption de ces flux de travail améliore significativement la rationalité et la robustesse des LLMs dans les tâches de théorie des jeux. En particulier, avec le flux de travail, les LLMs présentent des améliorations notables dans l'identification des stratégies optimales, l'atteinte d'allocations quasi-optimales dans des scénarios de négociation, et la réduction de la susceptibilité à l'exploitation lors des négociations. De plus, nous explorons les considérations méta-stratégiques sur la question de savoir s'il est rationnel pour les agents d'adopter de tels flux de travail, en reconnaissant que la décision d'utiliser ou de renoncer au flux de travail constitue en soi une question de théorie des jeux. Notre recherche contribue à une compréhension plus approfondie des capacités de prise de décision des LLMs dans des contextes stratégiques et offre des perspectives pour améliorer leur rationalité grâce à des flux de travail structurés. Les conclusions ont des implications pour le développement d'agents IA plus robustes et stratégiquement solides capables de naviguer dans des environnements interactifs complexes. Le code et les données soutenant cette étude sont disponibles sur https://github.com/Wenyueh/game_theory.
Comprendre et manipuler les mécanismes de génération causale dans les modèles de langage est essentiel pour contrôler leur comportement. Les travaux précédents se sont principalement appuyés sur des techniques telles que la chirurgie de représentation - par exemple, des ablations de modèle ou la manipulation de sous-espaces linéaires liés à des concepts spécifiques - pour intervenir sur ces modèles. Pour comprendre précisément l'impact des interventions, il est utile d'examiner les contre-factuels - par exemple, comment une phrase donnée aurait apparu si elle avait été générée par le modèle suivant une intervention spécifique. Nous soulignons que le raisonnement contre-factuel est conceptuellement distinct des interventions, tel qu'articulé dans la hiérarchie causale de Pearl. Sur la base de cette observation, nous proposons un cadre pour générer de vrais contre-factuels de chaînes en reformulant les modèles de langage en tant que modèles d'équations structurelles généralisées utilisant l'astuce Gumbel-max. Cela nous permet de modéliser la distribution conjointe sur les chaînes originales et leurs contre-factuels résultant de la même instantiation du bruit d'échantillonnage. Nous développons un algorithme basé sur l'échantillonnage Gumbel rétrospectif qui nous permet d'inférer les variables de bruit latentes et de générer des contre-factuels de chaînes observées. Nos expériences démontrent que l'approche produit des contre-factuels significatifs tout en montrant en même temps que les techniques d'intervention couramment utilisées ont des effets secondaires indésirables considérables.
La génération de mouvements humains est un domaine de recherche de pointe en vision par ordinateur générative, avec des applications prometteuses dans la création de vidéos, le développement de jeux et la manipulation robotique. L'architecture récente Mamba montre des résultats prometteurs dans la modélisation efficace de séquences longues et complexes, cependant deux défis importants subsistent : Premièrement, l'application directe de Mamba à la génération de mouvements étendus est inefficace, car la capacité limitée de la mémoire implicite entraîne une dégradation de la mémoire. Deuxièmement, Mamba rencontre des difficultés avec la fusion multimodale par rapport aux Transformers, et manque d'alignement avec les requêtes textuelles, confondant souvent les directions (gauche ou droite) ou omettant des parties de requêtes textuelles plus longues. Pour relever ces défis, notre article présente trois contributions clés : Tout d'abord, nous introduisons KMM, une architecture novatrice présentant une modélisation par Masquage des Images Clés, conçue pour renforcer la focalisation de Mamba sur les actions clés dans les segments de mouvement. Cette approche résout le problème de dégradation de la mémoire et représente une méthode pionnière dans la personnalisation du masquage stratégique au niveau des images clés dans les SSMs. De plus, nous avons conçu un paradigme d'apprentissage contrastif pour résoudre le problème de fusion multimodale dans Mamba et améliorer l'alignement mouvement-texte. Enfin, nous avons mené des expériences approfondies sur l'ensemble de données de référence, BABEL, atteignant des performances de pointe avec une réduction de plus de 57 % en FID et 70 % des paramètres par rapport aux méthodes de pointe précédentes. Voir le site du projet : https://steve-zeyu-zhang.github.io/KMM
Les algorithmes de peaufinage de la sécurité sont couramment utilisés pour affiner les modèles de langage afin de réduire les sorties nuisibles, mais les mécanismes internes exacts par lesquels ces modèles y parviennent restent flous. En étudiant l'optimisation des préférences directes (OPD) pour la réduction de la toxicité, les explications actuelles affirment que l'OPD fonctionne en atténuant les neurones MLP les plus toxiques pour apprendre un décalage afin d'éviter les régions toxiques dans le flux résiduel. Cependant, en ablatant les neurones les plus toxiques et en appliquant un patch d'activation, nous constatons que cette explication est incomplète. En projetant les changements d'activation des neurones sur une sonde de toxicité, nous constatons que seuls 31,8\% de la réduction de la toxicité proviennent des neurones toxiques atténués. Au lieu de cela, l'OPD réduit la toxicité en accumulant les effets à travers plusieurs groupes de neurones, à la fois en réduisant l'écriture dans la direction toxique et en favorisant l'anti-toxicité dans le flux résiduel. De plus, l'OPD apporte des ajustements bruyants aux activations des neurones, de nombreux neurones augmentant en fait la toxicité. Cela indique que l'OPD est un processus d'équilibrage entre les effets opposés des neurones pour parvenir à une réduction de la toxicité.
Les grands modèles de langage (LLM) ont démontré un succès significatif dans le traitement automatique du langage naturel (TALN) et ont montré des résultats prometteurs dans d'autres domaines tels que la génération de séquences protéiques. Cependant, il existe des différences saillantes entre les LLM utilisés pour le TALN, qui gèrent efficacement plusieurs tâches et sont disponibles en petites tailles, et les modèles de langage protéique qui sont souvent spécialisés pour des tâches spécifiques et n'existent qu'en tailles plus grandes. Dans ce travail, nous introduisons deux petits modèles de langage protéique, basés sur Llama-3-8B et Phi-3-mini, capables à la fois de générer des protéines de manière incontrôlée et contrôlée. Pour la tâche de génération incontrôlée, notre meilleur modèle atteint un score pLDDT moyen de 69,75, démontrant des performances robustes dans la génération de structures protéiques viables. Pour la tâche de génération contrôlée, dans laquelle le modèle génère des protéines selon les propriétés spécifiées dans la consigne, nous obtenons un remarquable score TM-Score moyen de 0,84, indiquant une grande similarité structurelle avec les protéines cibles. Nous avons choisi 10 propriétés, dont six classes d'enzymes, pour étendre les capacités des modèles de langage protéique précédents. Notre approche utilise la technique de l'Adaptateur à Faible Rang (LoRA), réduisant les paramètres entraînables à seulement 4% de la taille initiale du modèle, réduisant les exigences computationnelles. En utilisant un sous-ensemble de l'ensemble de données UniRef50 et de petits modèles, nous avons réduit le temps global d'entraînement de 70% sans compromettre les performances. Notamment, Phi-3-mini a réduit les paramètres entraînables de 60%, diminuant le coût d'entraînement de 30% par rapport à Llama 3. En conséquence, Phi-3 a obtenu un score TM-Score comparable de 0,81, démontrant que des modèles plus petits peuvent égaler les performances de modèles plus grands, comme Llama 3. Nous démontrons également le déploiement de nos modèles sur la puce écoénergétique ET-SoC-1, améliorant significativement le TPS/W d'un facteur de 3.
La construction d'un correcteur d'erreurs post-reconnaissance généraliste pose une question cruciale : comment pouvons-nous entraîner de manière plus efficace un modèle sur un large mélange d'ensembles de données de domaine ? La réponse résiderait dans l'apprentissage des caractéristiques spécifiques à chaque ensemble de données et dans l'assimilation de leurs connaissances dans un seul modèle. Les méthodes précédentes parviennent à cela en ayant des modèles de langage de correction distincts, ce qui entraîne une augmentation significative des paramètres. Dans ce travail, nous présentons le Mélange d'Experts comme solution, en soulignant que les MoEs sont bien plus qu'un outil de scalabilité. Nous proposons un MoE de Correction Multi-Tâches, où nous entraînons les experts à devenir un "expert" des ensembles de données de la parole au texte, du langage au texte et de la vision au texte en apprenant à acheminer les jetons de chaque ensemble de données vers son expert associé. Les expériences menées sur le tableau de classement Open ASR montrent que nous explorons un nouveau niveau de performance en atteignant une réduction moyenne relative de 5,0 % du WER et des améliorations substantielles des scores BLEU pour les tâches de parole et de traduction. Lors de l'évaluation sans données, NeKo surpasse GPT-3.5 et Claude-Opus avec une réduction relative du WER de 15,5 % à 27,6 % dans le banc d'essai Hyporadise. NeKo se comporte de manière compétitive en correction de grammaire et post-OCR en tant que modèle multi-tâches.