Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous introduisons la série MiniMax-01, comprenant MiniMax-Text-01 et MiniMax-VL-01, qui sont comparables aux modèles de premier plan tout en offrant des capacités supérieures dans le traitement de contextes plus longs. Le cœur réside dans l'attention éclair et son mise à l'échelle efficace. Pour maximiser la capacité de calcul, nous l'intégrons avec le Mélange d'Experts (MoE), créant un modèle avec 32 experts et 456 milliards de paramètres au total, dont 45,9 milliards sont activés pour chaque jeton. Nous développons une stratégie parallèle optimisée et des techniques de chevauchement calcul-communication hautement efficaces pour le MoE et l'attention éclair. Cette approche nous permet de mener un entraînement et une inférence efficaces sur des modèles avec des centaines de milliards de paramètres à travers des contextes couvrant des millions de jetons. La fenêtre de contexte de MiniMax-Text-01 peut atteindre jusqu'à 1 million de jetons pendant l'entraînement et s'extrapoler à 4 millions de jetons lors de l'inférence à un coût abordable. Notre modèle vision-langage, MiniMax-VL-01, est construit grâce à un entraînement continu avec 512 milliards de jetons vision-langage. Des expériences sur des benchmarks standard et internes montrent que nos modèles correspondent aux performances des modèles de pointe tels que GPT-4o et Claude-3.5-Sonnet tout en offrant une fenêtre de contexte 20 à 32 fois plus longue. Nous publions publiquement MiniMax-01 sur https://github.com/MiniMax-AI.
Dérivé des modèles de diffusion, MangaNinjia se spécialise dans la tâche de colorisation d'art en ligne guidée par référence. Nous incorporons deux conceptions réfléchies pour assurer une transcription précise des détails des personnages, notamment un module de mélange de patchs pour faciliter l'apprentissage de la correspondance entre l'image couleur de référence et l'art en ligne cible, et un schéma de contrôle basé sur des points pour permettre un appariement des couleurs finement détaillé. Des expériences sur un banc d'essai auto-collecté démontrent la supériorité de notre modèle par rapport aux solutions actuelles en termes de colorisation précise. Nous mettons en avant le potentiel du contrôle interactif par points proposé pour traiter des cas difficiles, la colorisation entre personnages, l'harmonisation multi-références, au-delà de la portée des algorithmes existants.
La demande croissante de sorties contrôlables dans la génération de texte vers image a conduit à des avancées significatives dans la génération multi-instance (GMI), permettant aux utilisateurs de définir à la fois les mises en page des instances et les attributs. Actuellement, les méthodes de pointe en GMI sont principalement basées sur des adaptateurs. Cependant, ces méthodes nécessitent de ré-entraîner un nouvel adaptateur à chaque fois qu'un modèle plus avancé est publié, entraînant une consommation significative de ressources. Une méthodologie nommée Synthèse d'Instances Découplées Pilotée par la Profondeur (3DIS) a été introduite, qui découple la GMI en deux phases distinctes : 1) construction de scène basée sur la profondeur et 2) rendu de détails avec des modèles de contrôle de profondeur largement pré-entraînés. La méthode 3DIS nécessite l'entraînement de l'adaptateur uniquement pendant la phase de construction de scène, tout en permettant à divers modèles d'effectuer un rendu de détails sans entraînement. Initialement, 3DIS se concentrait sur des techniques de rendu utilisant des architectures U-Net telles que SD1.5, SD2 et SDXL, sans explorer le potentiel des modèles récents basés sur DiT comme FLUX. Dans cet article, nous présentons 3DIS-FLUX, une extension du cadre 3DIS qui intègre le modèle FLUX pour des capacités de rendu améliorées. Plus précisément, nous utilisons le modèle FLUX.1-Depth-dev pour la génération d'images contrôlée par carte de profondeur et introduisons un rendu de détails qui manipule le Masque d'Attention dans le mécanisme d'Attention Conjoints de FLUX en fonction des informations de mise en page. Cette approche permet le rendu précis des attributs fins de chaque instance. Nos résultats expérimentaux indiquent que 3DIS-FLUX, en tirant parti du modèle FLUX, surpasse la méthode originale 3DIS, qui utilisait SD2 et SDXL, et dépasse les méthodes de pointe basées sur des adaptateurs actuelles en termes de performances et de qualité d'image. Page du projet : https://limuloo.github.io/3DIS/.
Nous présentons Omni-RGPT, un grand modèle de langage multimodal conçu pour faciliter la compréhension au niveau régional pour les images et les vidéos. Pour obtenir une représentation régionale cohérente à travers les dimensions spatio-temporelles, nous introduisons Token Mark, un ensemble de jetons mettant en évidence les régions cibles dans l'espace des caractéristiques visuelles. Ces jetons sont directement intégrés dans les régions spatiales à l'aide de prompts régionaux (par exemple, des boîtes ou des masques) et incorporés simultanément dans le prompt textuel pour spécifier la cible, établissant une connexion directe entre les jetons visuels et textuels. Pour soutenir davantage la compréhension robuste des vidéos sans nécessiter de tracklets, nous introduisons une tâche auxiliaire qui guide Token Mark en exploitant la cohérence des jetons, permettant une interprétation stable des régions à travers la vidéo. De plus, nous introduisons un ensemble de données d'instructions vidéo au niveau régional à grande échelle (RegVID-300k). Omni-RGPT obtient des résultats de pointe sur des bancs d'essai de raisonnement basé sur le bon sens pour les images et les vidéos tout en montrant de solides performances dans les tâches de légendage et de compréhension des expressions de référence.
Les modèles de diffusion sont largement utilisés pour la génération d'images et de vidéos, mais leur processus itératif de génération est lent et coûteux. Alors que les approches de distillation existantes ont démontré le potentiel d'une génération en une seule étape dans le domaine de l'image, elles souffrent encore d'une dégradation significative de la qualité. Dans ce travail, nous proposons l'Entraînement Post-Adversarial (APT) contre des données réelles suivant la pré-formation par diffusion pour la génération de vidéos en une seule étape. Pour améliorer la stabilité et la qualité de l'entraînement, nous introduisons plusieurs améliorations à l'architecture du modèle et aux procédures d'entraînement, ainsi qu'un objectif de régularisation R1 approximatif. Empiriquement, nos expériences montrent que notre modèle post-entraîné de manière adversariale, Seaweed-APT, peut générer des vidéos de 2 secondes, 1280x720, 24 images par seconde en temps réel en utilisant une seule étape d'évaluation directe. De plus, notre modèle est capable de générer des images de 1024px en une seule étape, atteignant une qualité comparable aux méthodes de pointe.
Les modèles de diffusion texte-image (T2I) reposent sur des instructions encodées pour guider le processus de génération d'images. En général, ces instructions sont étendues à une longueur fixe en ajoutant des jetons de rembourrage avant l'encodage du texte. Bien que cela soit une pratique courante, l'influence des jetons de rembourrage sur le processus de génération d'images n'a pas été étudiée. Dans ce travail, nous menons la première analyse approfondie du rôle des jetons de rembourrage dans les modèles T2I. Nous développons deux techniques causales pour analyser comment les informations sont encodées dans la représentation des jetons à travers les différents composants du pipeline T2I. En utilisant ces techniques, nous examinons quand et comment les jetons de rembourrage influencent le processus de génération d'images. Nos résultats révèlent trois scénarios distincts : les jetons de rembourrage peuvent affecter la sortie du modèle pendant l'encodage du texte, pendant le processus de diffusion, ou être effectivement ignorés. De plus, nous identifions des relations clés entre ces scénarios et l'architecture du modèle (attention croisée ou auto-attention) et son processus d'entraînement (encodeur de texte figé ou entraîné). Ces insights contribuent à une compréhension plus approfondie des mécanismes des jetons de rembourrage, pouvant potentiellement guider la conception de modèles futurs et les pratiques d'entraînement dans les systèmes T2I.
Les grands modèles de langage excellent dans l'interprétation d'instructions complexes en langage naturel, ce qui leur permet d'accomplir une large gamme de tâches. Dans les sciences de la vie, les données de séquençage d'ARN de cellules uniques (scRNA-seq) servent de "langage de la biologie cellulaire", capturant des schémas complexes d'expression génique au niveau de la cellule individuelle. Cependant, interagir avec ce "langage" à travers des outils conventionnels est souvent inefficace et peu intuitif, posant des défis aux chercheurs. Pour répondre à ces limitations, nous présentons InstructCell, un copilote AI multimodal qui exploite le langage naturel comme un moyen pour une analyse de cellules individuelles plus directe et flexible. Nous construisons un ensemble de données d'instructions multimodal complet qui associe des instructions basées sur du texte à des profils scRNA-seq provenant de divers tissus et espèces. En nous appuyant sur cela, nous développons une architecture de langage cellulaire multimodal capable d'interpréter et de traiter simultanément les deux modalités. InstructCell permet aux chercheurs d'accomplir des tâches critiques telles que l'annotation des types de cellules, la génération conditionnelle de pseudo-cellules et la prédiction de la sensibilité aux médicaments en utilisant des commandes simples en langage naturel. Des évaluations approfondies démontrent qu'InstructCell répond de manière constante ou dépasse les performances des modèles de base de données de cellules uniques existants, tout en s'adaptant à des conditions expérimentales diverses. Plus important encore, InstructCell fournit un outil accessible et intuitif pour explorer des données complexes de cellules individuelles, réduisant les barrières techniques et permettant des insights biologiques plus approfondis.
L'édition interactive d'images permet aux utilisateurs de modifier des images grâce à des opérations d'interaction visuelle telles que le dessin, le clic et le glisser-déposer. Les méthodes existantes construisent de tels signaux de supervision à partir de vidéos, car elles capturent comment les objets changent avec diverses interactions physiques. Cependant, ces modèles sont généralement basés sur des modèles de diffusion texte-image, ce qui nécessite (i) des échantillons d'entraînement massifs et (ii) un encodeur de référence supplémentaire pour apprendre la dynamique du monde réel et la cohérence visuelle. Dans cet article, nous reformulons cette tâche en un problème de génération d'images-vidéos, afin d'hériter de puissantes connaissances préalables à la diffusion vidéo pour réduire les coûts d'entraînement et garantir la cohérence temporelle. Plus précisément, nous présentons FramePainter comme une instantiation efficace de cette formulation. Initié avec la Diffusion Vidéo Stable, il utilise uniquement un encodeur de contrôle léger et clairsemé pour injecter des signaux d'édition. En tenant compte des limites de l'attention temporelle dans la gestion des grands mouvements entre deux images, nous proposons en outre une attention correspondante pour agrandir le champ réceptif tout en favorisant une correspondance dense entre les jetons d'image édités et source. Nous mettons en avant l'efficacité et l'efficience de FramePainter à travers divers signaux d'édition : il surpasse nettement les méthodes précédentes de pointe avec beaucoup moins de données d'entraînement, atteignant une édition hautement fluide et cohérente des images, par exemple, ajuster automatiquement le reflet de la tasse. De plus, FramePainter présente également une généralisation exceptionnelle dans des scénarios non présents dans les vidéos du monde réel, par exemple, transformer le poisson-clown en une forme semblable à un requin. Notre code sera disponible sur https://github.com/YBYBZhang/FramePainter.
Nous présentons PokerBench - un banc d'essai pour évaluer les capacités de jeu de poker des grands modèles de langage (LLM). Comme les LLM excellent dans les tâches de traitement du langage naturel traditionnelles, leur application à des jeux stratégiques complexes comme le poker pose un nouveau défi. Le poker, un jeu d'information incomplète, exige une multitude de compétences telles que les mathématiques, le raisonnement, la planification, la stratégie et une compréhension approfondie de la théorie des jeux et de la psychologie humaine. Cela fait du poker la prochaine frontière idéale pour les grands modèles de langage. PokerBench se compose d'une compilation complète de 11 000 scénarios les plus importants, répartis entre le jeu préflop et postflop, développés en collaboration avec des joueurs de poker expérimentés. Nous évaluons des modèles éminents tels que GPT-4, ChatGPT 3.5, ainsi que divers modèles des séries Llama et Gemma, constatant que tous les LLM de pointe sous-performent dans le jeu de poker optimal. Cependant, après un ajustement fin, ces modèles montrent des améliorations marquées. Nous validons PokerBench en faisant concourir des modèles avec des scores différents les uns contre les autres, démontrant que des scores plus élevés sur PokerBench entraînent des taux de victoire plus élevés dans les jeux de poker réels. À travers le jeu entre notre modèle affiné et GPT-4, nous identifions également les limites de l'ajustement fin supervisé simple pour apprendre une stratégie de jeu optimale, suggérant la nécessité de méthodologies plus avancées pour former efficacement les modèles de langage à exceller dans les jeux. PokerBench présente ainsi un banc d'essai unique pour une évaluation rapide et fiable de la capacité de jeu de poker des LLM ainsi qu'un banc d'essai complet pour étudier les progrès des LLM dans des scénarios de jeu complexes. Le jeu de données et le code seront disponibles sur : https://github.com/pokerllm/pokerbench.
Malgré leur impressionnante capacité à générer un texte de haute qualité et fluide, les grands modèles de langage génératif produisent également des hallucinations : des affirmations qui ne sont pas en accord avec les connaissances mondiales établies ou le contexte d'entrée fourni. Cependant, mesurer l'hallucination peut être difficile, car faire vérifier les générations de modèles par des humains en temps réel est à la fois coûteux et chronophage. Dans ce travail, nous présentons HALoGEN, un banc d'essai exhaustif sur l'hallucination comprenant : (1) 10 923 stimuli pour les modèles génératifs couvrant neuf domaines incluant la programmation, l'attribution scientifique et la résumé, et (2) des vérificateurs automatiques à haute précision pour chaque cas d'utilisation qui décomposent les générations de LLM en unités atomiques, et vérifient chaque unité par rapport à une source de connaissances de haute qualité. Nous utilisons ce cadre pour évaluer environ 150 000 générations de 14 modèles de langage, constatant que même les modèles les plus performants sont truffés d'hallucinations (parfois jusqu'à 86 % des faits atomiques générés selon le domaine). Nous définissons en outre une nouvelle classification d'erreurs pour les hallucinations de LLM basée sur le fait qu'elles proviennent probablement d'une mauvaise mémorisation des données d'entraînement (erreurs de type A), d'une connaissance incorrecte des données d'entraînement (erreurs de type B), ou sont une fabrication (erreurs de type C). Nous espérons que notre cadre fournira une base pour permettre l'étude raisonnée des raisons pour lesquelles les modèles génératifs hallucinent, et fera progresser le développement de grands modèles de langage fiables.
Les tokenizers d'image forment la base des modèles génératifs modernes de texte vers image, mais ils sont réputés difficiles à entraîner. De plus, la plupart des modèles existants de texte vers image reposent sur des ensembles de données privées à grande échelle et de haute qualité, ce qui les rend difficiles à reproduire. Dans ce travail, nous introduisons Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), un tokenizer d'image efficace et puissant qui peut utiliser des tokens 1-dimensionnels discrets ou continus. TA-TiTok intègre de manière unique les informations textuelles lors de l'étape de décodage du tokenizer (c'est-à-dire la détokenisation), accélérant la convergence et améliorant les performances. TA-TiTok bénéficie également d'un processus d'entraînement simplifié mais efficace en une seule étape, éliminant le besoin de la distillation en deux étapes complexe utilisée dans les tokenizers 1-dimensionnels précédents. Cette conception permet une évolutivité transparente vers de grands ensembles de données. En s'appuyant sur cela, nous introduisons une famille de modèles génératifs masqués texte-vers-image (MaskGen), entraînés exclusivement sur des données ouvertes tout en atteignant des performances comparables à celles des modèles entraînés sur des données privées. Nous visons à mettre à disposition à la fois les tokenizers TA-TiTok efficaces et solides et les modèles MaskGen à données ouvertes et poids ouverts pour promouvoir un accès plus large et démocratiser le domaine des modèles génératifs masqués texte-vers-image.
Nous présentons Tarsier2, un modèle de vision-langage de pointe (LVLM) conçu pour générer des descriptions vidéo détaillées et précises, tout en présentant des capacités supérieures de compréhension générale des vidéos. Tarsier2 réalise des avancées significatives grâce à trois mises à niveau clés : (1) l'augmentation des données de pré-entraînement de 11M à 40M de paires vidéo-texte, enrichissant à la fois le volume et la diversité ; (2) l'alignement temporel fin pendant le fine-tuning supervisé ; (3) l'utilisation de l'échantillonnage basé sur le modèle pour construire automatiquement des données de préférence et l'application de l'entraînement DPO pour l'optimisation. Des expériences approfondies montrent que Tarsier2-7B surpasse systématiquement les modèles propriétaires de premier plan, y compris GPT-4o et Gemini 1.5 Pro, dans les tâches de description vidéo détaillée. Sur le banc d'essai DREAM-1K, Tarsier2-7B améliore le score F1 de 2,8\% par rapport à GPT-4o et de 5,8\% par rapport à Gemini-1.5-Pro. Dans les évaluations humaines côte à côte, Tarsier2-7B présente un avantage de performance de +8,6\% par rapport à GPT-4o et de +24,9\% par rapport à Gemini-1.5-Pro. Tarsier2-7B établit également de nouveaux résultats de pointe sur 15 bancs d'essai publics, couvrant des tâches telles que la réponse aux questions vidéo, l'ancrage vidéo, le test d'hallucination et la réponse aux questions incarnées, démontrant sa polyvalence en tant que modèle de vision-langage généraliste robuste.
Les pipelines d'interprétabilité automatisée génèrent des descriptions en langage naturel des concepts représentés par les caractéristiques des grands modèles de langage (LLM), tels que des plantes ou le premier mot dans une phrase. Ces descriptions sont dérivées en utilisant des entrées qui activent la caractéristique, qui peut être une dimension ou une direction dans l'espace de représentation du modèle. Cependant, l'identification des entrées activantes est coûteuse, et le rôle mécaniste d'une caractéristique dans le comportement du modèle est déterminé à la fois par la manière dont les entrées provoquent l'activation d'une caractéristique et par la manière dont l'activation de la caractéristique affecte les sorties. En utilisant des évaluations de direction, nous révélons que les pipelines actuels fournissent des descriptions qui ne parviennent pas à capturer l'effet causal de la caractéristique sur les sorties. Pour remédier à cela, nous proposons des méthodes efficaces et centrées sur les sorties pour générer automatiquement des descriptions de caractéristiques. Ces méthodes utilisent les jetons pondérés plus élevés après la stimulation de la caractéristique ou les jetons de poids le plus élevé après l'application de la tête "désembarquement" du vocabulaire directement à la caractéristique. Nos descriptions centrées sur les sorties capturent mieux l'effet causal d'une caractéristique sur les sorties du modèle que les descriptions centrées sur les entrées, mais la combinaison des deux conduit aux meilleures performances tant pour les évaluations d'entrée que de sortie. Enfin, nous montrons que les descriptions centrées sur les sorties peuvent être utilisées pour trouver des entrées qui activent des caractéristiques précédemment considérées comme "inactives".
Les grands modèles de langage (LLM) ont démontré des capacités remarquables, mais leur succès dépend fortement de la qualité des corpus de pré-entraînement. Pour les LLM chinois, la rareté des ensembles de données chinois de haute qualité constitue un défi majeur, limitant souvent leurs performances. Pour résoudre ce problème, nous proposons le Corpus Chinois OpenCSG, une série d'ensembles de données de haute qualité spécifiquement conçus pour le pré-entraînement, le post-entraînement et le fine-tuning des LLM. Ce corpus comprend Fineweb-edu-chinois, Fineweb-edu-chinois-v2, Cosmopedia-chinois et Smoltalk-chinois, chacun présentant des caractéristiques distinctes : les ensembles de données Fineweb-edu se concentrent sur un contenu filtré et de haute qualité provenant de diverses sources web chinoises ; Cosmopedia-chinois fournit des données synthétiques de style manuel scolaire pour un entraînement intensif en connaissances ; et Smoltalk-chinois met l'accent sur des données de style chat stylistique et varié. Le Corpus Chinois OpenCSG se distingue par la qualité de son texte, sa couverture diversifiée à travers différents domaines, et ses processus de curation de données évolutifs et reproductibles. De plus, nous avons mené des analyses expérimentales approfondies, y compris des évaluations sur des modèles à paramètres réduits, qui ont démontré des améliorations significatives des performances dans des tâches telles que C-Eval, mettant en avant l'efficacité du corpus pour l'entraînement des LLM chinois.
Les discours de haine et le langage abusif sont des phénomènes mondiaux qui nécessitent une connaissance du contexte socioculturel pour être compris, identifiés et modérés. Cependant, dans de nombreuses régions du Sud global, on a documenté plusieurs cas de (1) absence de modération et (2) censure en raison de la dépendance à la détection de mots-clés hors contexte. De plus, des personnalités de haut niveau ont fréquemment été au centre du processus de modération, tandis que de vastes campagnes de discours de haine ciblées contre les minorités ont été négligées. Ces limitations sont principalement dues au manque de données de haute qualité dans les langues locales et à l'omission des communautés locales dans les processus de collecte, d'annotation et de modération. Pour résoudre ce problème, nous présentons AfriHate : une collection multilingue de jeux de données sur les discours de haine et le langage abusif dans 15 langues africaines. Chaque instance dans AfriHate est annotée par des locuteurs natifs familiers de la culture locale. Nous rapportons les défis liés à la construction des jeux de données et présentons divers résultats de classification de base avec et sans utilisation de LLM (Language Model Models). Les jeux de données, les annotations individuelles et les lexiques de discours de haine et de langage offensant sont disponibles sur https://github.com/AfriHate/AfriHate
Les progrès rapides dans les grands modèles de langage ont débloqué des capacités remarquables en matière de traitement et de résumé des données textuelles non structurées. Cela a des implications pour l'analyse de jeux de données riches et ouverts, tels que les réponses à des enquêtes, où les GPT offrent la promesse de distiller efficacement les thèmes clés et les sentiments. Cependant, à mesure que les organisations se tournent de plus en plus vers ces puissants systèmes d'IA pour donner un sens aux retours textuels, une question critique se pose : pouvons-nous faire confiance aux GPT pour représenter avec précision les perspectives contenues dans ces ensembles de données textuelles ? Alors que les GPT excellent dans la génération de résumés semblables à ceux des humains, il existe un risque que leurs sorties divergent involontairement de la véritable substance des réponses originales. Les divergences entre les sorties générées par les GPT et les thèmes réels présents dans les données pourraient entraîner une prise de décision défectueuse, avec des conséquences importantes pour les organisations. Cette recherche étudie l'efficacité des GPT en tant que modèles juges pour évaluer l'alignement thématique des résumés générés par d'autres GPT. Nous avons utilisé un modèle Claude anthropique pour générer des résumés thématiques à partir des réponses ouvertes à des enquêtes, avec Titan Express d'Amazon, Nova Pro et Llama de Meta servant de juges GPT. L'approche des GPT en tant que juges a été comparée à des évaluations humaines en utilisant le kappa de Cohen, le rho de Spearman et l'alpha de Krippendorff, validant une alternative évolutive aux méthodes d'évaluation traditionnellement centrées sur l'humain. Nos résultats révèlent que bien que les GPT en tant que juges offrent une solution évolutive comparable aux évaluateurs humains, les humains peuvent toujours exceller dans la détection de nuances subtiles et contextuelles. Cette recherche contribue au corpus croissant de connaissances sur l'analyse de texte assistée par l'IA. Nous discutons des limitations et fournissons des recommandations pour les futures recherches, en soulignant la nécessité de prendre soigneusement en compte la généralisation des modèles juges GPT dans divers contextes et cas d'utilisation.
La correspondance d'images, qui vise à identifier les emplacements de pixels correspondants entre les images, est cruciale dans un large éventail de disciplines scientifiques, aidant à l'enregistrement, la fusion et l'analyse d'images. Ces dernières années, les algorithmes de correspondance d'images basés sur l'apprentissage profond ont largement surpassé les humains en trouvant rapidement et avec précision de grandes quantités de correspondances. Cependant, lorsqu'il s'agit d'images capturées sous différentes modalités d'imagerie entraînant des changements d'apparence significatifs, les performances de ces algorithmes se détériorent souvent en raison de la rareté des données d'entraînement croisées annotées. Cette limitation entrave les applications dans divers domaines qui dépendent de plusieurs modalités d'image pour obtenir des informations complémentaires. Pour relever ce défi, nous proposons un cadre de pré-entraînement à grande échelle qui utilise des signaux d'entraînement croisés synthétiques, incorporant des données diverses de différentes sources, pour entraîner des modèles à reconnaître et à mettre en correspondance des structures fondamentales à travers les images. Cette capacité est transférable à des tâches de correspondance d'images croisées du monde réel et non vues. Notre découverte clé est que le modèle de correspondance entraîné avec notre cadre atteint une remarquable généralisabilité à travers plus de huit tâches de recalage croisé de modalités non vues en utilisant le même poids de réseau, surpassant considérablement les méthodes existantes, qu'elles soient conçues pour la généralisation ou adaptées à des tâches spécifiques. Cette avancée améliore significativement l'applicabilité des technologies de correspondance d'images dans diverses disciplines scientifiques et ouvre la voie à de nouvelles applications dans l'analyse multi-modalité de l'intelligence humaine et artificielle, et au-delà.
La poursuite de la découverte scientifique automatisée a alimenté le progrès de la logique symbolique à l'IA moderne, ouvrant de nouvelles frontières dans le raisonnement et la reconnaissance de motifs. Les transformateurs fonctionnent comme des systèmes potentiels, où chaque relation possible reste une potentialité latente jusqu'à ce que les tâches imposent des contraintes, semblables à une mesure. Cependant, affiner leur échantillonnage nécessite plus qu'une sélection probabiliste : les solutions doivent se conformer à des structures ou des règles spécifiques, garantissant la cohérence et l'invocation de principes généraux. Nous présentons Graph-PReFLexOR (Modélisation linguistique récursive basée sur les préférences pour l'optimisation exploratoire du raisonnement), un cadre qui associe le raisonnement graphique à l'abstraction symbolique pour étendre dynamiquement les connaissances du domaine. Inspiré par l'apprentissage par renforcement, Graph-PReFLexOR définit le raisonnement comme une cartographie structurée, où les tâches produisent des graphes de connaissances, des motifs abstraits et finalement, des réponses finales. Inspiré par la théorie des catégories, il code les concepts en tant que nœuds et leurs relations en tant qu'arêtes, soutenant l'inférence hiérarchique et l'apprentissage adaptatif à travers des représentations isomorphes. Les démonstrations incluent la génération d'hypothèses, la conception de matériaux et le raisonnement créatif, comme la découverte de relations entre des concepts mythologiques tels que les "lieux minces" avec la science des matériaux. Nous proposons une stratégie de "croissance du jardin de connaissances" qui intègre des idées à travers les domaines, favorisant les connexions interdisciplinaires. Les résultats avec un modèle Graph-PReFLexOR de 3 milliards de paramètres montrent une profondeur de raisonnement et une adaptabilité supérieures, soulignant le potentiel de découverte transparente et multidisciplinaire pilotée par l'IA. Cela pose les bases pour des solutions de raisonnement autonome général.