papers.title

papers.description

MiniMax-01 : Mise à l'échelle des modèles de base avec Attention Éclair.
MiniMax-01: Scaling Foundation Models with Lightning Attention

Jan 14

ByMiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu

300

Nous introduisons la série MiniMax-01, comprenant MiniMax-Text-01 et MiniMax-VL-01, qui sont comparables aux modèles de premier plan tout en offrant des capacités supérieures dans le traitement de contextes plus longs. Le cœur réside dans l'attention éclair et son mise à l'échelle efficace. Pour maximiser la capacité de calcul, nous l'intégrons avec le Mélange d'Experts (MoE), créant un modèle avec 32 experts et 456 milliards de paramètres au total, dont 45,9 milliards sont activés pour chaque jeton. Nous développons une stratégie parallèle optimisée et des techniques de chevauchement calcul-communication hautement efficaces pour le MoE et l'attention éclair. Cette approche nous permet de mener un entraînement et une inférence efficaces sur des modèles avec des centaines de milliards de paramètres à travers des contextes couvrant des millions de jetons. La fenêtre de contexte de MiniMax-Text-01 peut atteindre jusqu'à 1 million de jetons pendant l'entraînement et s'extrapoler à 4 millions de jetons lors de l'inférence à un coût abordable. Notre modèle vision-langage, MiniMax-VL-01, est construit grâce à un entraînement continu avec 512 milliards de jetons vision-langage. Des expériences sur des benchmarks standard et internes montrent que nos modèles correspondent aux performances des modèles de pointe tels que GPT-4o et Claude-3.5-Sonnet tout en offrant une fenêtre de contexte 20 à 32 fois plus longue. Nous publions publiquement MiniMax-01 sur https://github.com/MiniMax-AI.

MangaNinja : Colorisation de l'art en ligne avec suivi précis des références.
MangaNinja: Line Art Colorization with Precise Reference Following

Jan 14

ByZhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo

Dérivé des modèles de diffusion, MangaNinjia se spécialise dans la tâche de colorisation d'art en ligne guidée par référence. Nous incorporons deux conceptions réfléchies pour assurer une transcription précise des détails des personnages, notamment un module de mélange de patchs pour faciliter l'apprentissage de la correspondance entre l'image couleur de référence et l'art en ligne cible, et un schéma de contrôle basé sur des points pour permettre un appariement des couleurs finement détaillé. Des expériences sur un banc d'essai auto-collecté démontrent la supériorité de notre modèle par rapport aux solutions actuelles en termes de colorisation précise. Nous mettons en avant le potentiel du contrôle interactif par points proposé pour traiter des cas difficiles, la colorisation entre personnages, l'harmonisation multi-références, au-delà de la portée des algorithmes existants.

3DIS-FLUX : génération simple et efficace de multiples instances avec rendu DiT.
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Jan 9

ByDewei Zhou, Ji Xie, Zongxin Yang, Yi Yang

La demande croissante de sorties contrôlables dans la génération de texte vers image a conduit à des avancées significatives dans la génération multi-instance (GMI), permettant aux utilisateurs de définir à la fois les mises en page des instances et les attributs. Actuellement, les méthodes de pointe en GMI sont principalement basées sur des adaptateurs. Cependant, ces méthodes nécessitent de ré-entraîner un nouvel adaptateur à chaque fois qu'un modèle plus avancé est publié, entraînant une consommation significative de ressources. Une méthodologie nommée Synthèse d'Instances Découplées Pilotée par la Profondeur (3DIS) a été introduite, qui découple la GMI en deux phases distinctes : 1) construction de scène basée sur la profondeur et 2) rendu de détails avec des modèles de contrôle de profondeur largement pré-entraînés. La méthode 3DIS nécessite l'entraînement de l'adaptateur uniquement pendant la phase de construction de scène, tout en permettant à divers modèles d'effectuer un rendu de détails sans entraînement. Initialement, 3DIS se concentrait sur des techniques de rendu utilisant des architectures U-Net telles que SD1.5, SD2 et SDXL, sans explorer le potentiel des modèles récents basés sur DiT comme FLUX. Dans cet article, nous présentons 3DIS-FLUX, une extension du cadre 3DIS qui intègre le modèle FLUX pour des capacités de rendu améliorées. Plus précisément, nous utilisons le modèle FLUX.1-Depth-dev pour la génération d'images contrôlée par carte de profondeur et introduisons un rendu de détails qui manipule le Masque d'Attention dans le mécanisme d'Attention Conjoints de FLUX en fonction des informations de mise en page. Cette approche permet le rendu précis des attributs fins de chaque instance. Nos résultats expérimentaux indiquent que 3DIS-FLUX, en tirant parti du modèle FLUX, surpasse la méthode originale 3DIS, qui utilisait SD2 et SDXL, et dépasse les méthodes de pointe basées sur des adaptateurs actuelles en termes de performances et de qualité d'image. Page du projet : https://limuloo.github.io/3DIS/.

Diffusion Adversarial Post-Training pour la Génération Vidéo en Une Étape
Diffusion Adversarial Post-Training for One-Step Video Generation

Jan 14

ByShanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang

Les modèles de diffusion sont largement utilisés pour la génération d'images et de vidéos, mais leur processus itératif de génération est lent et coûteux. Alors que les approches de distillation existantes ont démontré le potentiel d'une génération en une seule étape dans le domaine de l'image, elles souffrent encore d'une dégradation significative de la qualité. Dans ce travail, nous proposons l'Entraînement Post-Adversarial (APT) contre des données réelles suivant la pré-formation par diffusion pour la génération de vidéos en une seule étape. Pour améliorer la stabilité et la qualité de l'entraînement, nous introduisons plusieurs améliorations à l'architecture du modèle et aux procédures d'entraînement, ainsi qu'un objectif de régularisation R1 approximatif. Empiriquement, nos expériences montrent que notre modèle post-entraîné de manière adversariale, Seaweed-APT, peut générer des vidéos de 2 secondes, 1280x720, 24 images par seconde en temps réel en utilisant une seule étape d'évaluation directe. De plus, notre modèle est capable de générer des images de 1024px en une seule étape, atteignant une qualité comparable aux méthodes de pointe.

Omni-RGPT : Unification de la compréhension au niveau des régions d'images et de vidéos via des jetons marqueurs.
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Jan 14

ByMiran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma

Nous présentons Omni-RGPT, un grand modèle de langage multimodal conçu pour faciliter la compréhension au niveau régional pour les images et les vidéos. Pour obtenir une représentation régionale cohérente à travers les dimensions spatio-temporelles, nous introduisons Token Mark, un ensemble de jetons mettant en évidence les régions cibles dans l'espace des caractéristiques visuelles. Ces jetons sont directement intégrés dans les régions spatiales à l'aide de prompts régionaux (par exemple, des boîtes ou des masques) et incorporés simultanément dans le prompt textuel pour spécifier la cible, établissant une connexion directe entre les jetons visuels et textuels. Pour soutenir davantage la compréhension robuste des vidéos sans nécessiter de tracklets, nous introduisons une tâche auxiliaire qui guide Token Mark en exploitant la cohérence des jetons, permettant une interprétation stable des régions à travers la vidéo. De plus, nous introduisons un ensemble de données d'instructions vidéo au niveau régional à grande échelle (RegVID-300k). Omni-RGPT obtient des résultats de pointe sur des bancs d'essai de raisonnement basé sur le bon sens pour les images et les vidéos tout en montrant de solides performances dans les tâches de légendage et de compréhension des expressions de référence.

Tonalité de Remplissage : Une Analyse Mécaniste des Jetons de Remplissage dans les Modèles T2I
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Jan 12

ByMichael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov

Les modèles de diffusion texte-image (T2I) reposent sur des instructions encodées pour guider le processus de génération d'images. En général, ces instructions sont étendues à une longueur fixe en ajoutant des jetons de rembourrage avant l'encodage du texte. Bien que cela soit une pratique courante, l'influence des jetons de rembourrage sur le processus de génération d'images n'a pas été étudiée. Dans ce travail, nous menons la première analyse approfondie du rôle des jetons de rembourrage dans les modèles T2I. Nous développons deux techniques causales pour analyser comment les informations sont encodées dans la représentation des jetons à travers les différents composants du pipeline T2I. En utilisant ces techniques, nous examinons quand et comment les jetons de rembourrage influencent le processus de génération d'images. Nos résultats révèlent trois scénarios distincts : les jetons de rembourrage peuvent affecter la sortie du modèle pendant l'encodage du texte, pendant le processus de diffusion, ou être effectivement ignorés. De plus, nous identifions des relations clés entre ces scénarios et l'architecture du modèle (attention croisée ou auto-attention) et son processus d'entraînement (encodeur de texte figé ou entraîné). Ces insights contribuent à une compréhension plus approfondie des mécanismes des jetons de rembourrage, pouvant potentiellement guider la conception de modèles futurs et les pratiques d'entraînement dans les systèmes T2I.

Un Copilote AI Multi-Modal pour l'Analyse de Cellules Simples avec Instruction Suivante
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Jan 14

ByYin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen

Les grands modèles de langage excellent dans l'interprétation d'instructions complexes en langage naturel, ce qui leur permet d'accomplir une large gamme de tâches. Dans les sciences de la vie, les données de séquençage d'ARN de cellules uniques (scRNA-seq) servent de "langage de la biologie cellulaire", capturant des schémas complexes d'expression génique au niveau de la cellule individuelle. Cependant, interagir avec ce "langage" à travers des outils conventionnels est souvent inefficace et peu intuitif, posant des défis aux chercheurs. Pour répondre à ces limitations, nous présentons InstructCell, un copilote AI multimodal qui exploite le langage naturel comme un moyen pour une analyse de cellules individuelles plus directe et flexible. Nous construisons un ensemble de données d'instructions multimodal complet qui associe des instructions basées sur du texte à des profils scRNA-seq provenant de divers tissus et espèces. En nous appuyant sur cela, nous développons une architecture de langage cellulaire multimodal capable d'interpréter et de traiter simultanément les deux modalités. InstructCell permet aux chercheurs d'accomplir des tâches critiques telles que l'annotation des types de cellules, la génération conditionnelle de pseudo-cellules et la prédiction de la sensibilité aux médicaments en utilisant des commandes simples en langage naturel. Des évaluations approfondies démontrent qu'InstructCell répond de manière constante ou dépasse les performances des modèles de base de données de cellules uniques existants, tout en s'adaptant à des conditions expérimentales diverses. Plus important encore, InstructCell fournit un outil accessible et intuitif pour explorer des données complexes de cellules individuelles, réduisant les barrières techniques et permettant des insights biologiques plus approfondis.

PokerBench : Entraîner de grands modèles de langage pour devenir des joueurs de poker professionnels
PokerBench: Training Large Language Models to become Professional Poker Players

Jan 14

ByRichard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli

Nous présentons PokerBench - un banc d'essai pour évaluer les capacités de jeu de poker des grands modèles de langage (LLM). Comme les LLM excellent dans les tâches de traitement du langage naturel traditionnelles, leur application à des jeux stratégiques complexes comme le poker pose un nouveau défi. Le poker, un jeu d'information incomplète, exige une multitude de compétences telles que les mathématiques, le raisonnement, la planification, la stratégie et une compréhension approfondie de la théorie des jeux et de la psychologie humaine. Cela fait du poker la prochaine frontière idéale pour les grands modèles de langage. PokerBench se compose d'une compilation complète de 11 000 scénarios les plus importants, répartis entre le jeu préflop et postflop, développés en collaboration avec des joueurs de poker expérimentés. Nous évaluons des modèles éminents tels que GPT-4, ChatGPT 3.5, ainsi que divers modèles des séries Llama et Gemma, constatant que tous les LLM de pointe sous-performent dans le jeu de poker optimal. Cependant, après un ajustement fin, ces modèles montrent des améliorations marquées. Nous validons PokerBench en faisant concourir des modèles avec des scores différents les uns contre les autres, démontrant que des scores plus élevés sur PokerBench entraînent des taux de victoire plus élevés dans les jeux de poker réels. À travers le jeu entre notre modèle affiné et GPT-4, nous identifions également les limites de l'ajustement fin supervisé simple pour apprendre une stratégie de jeu optimale, suggérant la nécessité de méthodologies plus avancées pour former efficacement les modèles de langage à exceller dans les jeux. PokerBench présente ainsi un banc d'essai unique pour une évaluation rapide et fiable de la capacité de jeu de poker des LLM ainsi qu'un banc d'essai complet pour étudier les progrès des LLM dans des scénarios de jeu complexes. Le jeu de données et le code seront disponibles sur : https://github.com/pokerllm/pokerbench.

FramePainter : Doter l'édition d'images interactive de la diffusion vidéo Priors
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Jan 14

ByYabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo

L'édition interactive d'images permet aux utilisateurs de modifier des images grâce à des opérations d'interaction visuelle telles que le dessin, le clic et le glisser-déposer. Les méthodes existantes construisent de tels signaux de supervision à partir de vidéos, car elles capturent comment les objets changent avec diverses interactions physiques. Cependant, ces modèles sont généralement basés sur des modèles de diffusion texte-image, ce qui nécessite (i) des échantillons d'entraînement massifs et (ii) un encodeur de référence supplémentaire pour apprendre la dynamique du monde réel et la cohérence visuelle. Dans cet article, nous reformulons cette tâche en un problème de génération d'images-vidéos, afin d'hériter de puissantes connaissances préalables à la diffusion vidéo pour réduire les coûts d'entraînement et garantir la cohérence temporelle. Plus précisément, nous présentons FramePainter comme une instantiation efficace de cette formulation. Initié avec la Diffusion Vidéo Stable, il utilise uniquement un encodeur de contrôle léger et clairsemé pour injecter des signaux d'édition. En tenant compte des limites de l'attention temporelle dans la gestion des grands mouvements entre deux images, nous proposons en outre une attention correspondante pour agrandir le champ réceptif tout en favorisant une correspondance dense entre les jetons d'image édités et source. Nous mettons en avant l'efficacité et l'efficience de FramePainter à travers divers signaux d'édition : il surpasse nettement les méthodes précédentes de pointe avec beaucoup moins de données d'entraînement, atteignant une édition hautement fluide et cohérente des images, par exemple, ajuster automatiquement le reflet de la tasse. De plus, FramePainter présente également une généralisation exceptionnelle dans des scénarios non présents dans les vidéos du monde réel, par exemple, transformer le poisson-clown en une forme semblable à un requin. Notre code sera disponible sur https://github.com/YBYBZhang/FramePainter.

Démocratiser les modèles génératifs masqués texte-image avec des jetons unidimensionnels compacts sensibles au texte.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Jan 13

ByDongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen

Les tokenizers d'image forment la base des modèles génératifs modernes de texte vers image, mais ils sont réputés difficiles à entraîner. De plus, la plupart des modèles existants de texte vers image reposent sur des ensembles de données privées à grande échelle et de haute qualité, ce qui les rend difficiles à reproduire. Dans ce travail, nous introduisons Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), un tokenizer d'image efficace et puissant qui peut utiliser des tokens 1-dimensionnels discrets ou continus. TA-TiTok intègre de manière unique les informations textuelles lors de l'étape de décodage du tokenizer (c'est-à-dire la détokenisation), accélérant la convergence et améliorant les performances. TA-TiTok bénéficie également d'un processus d'entraînement simplifié mais efficace en une seule étape, éliminant le besoin de la distillation en deux étapes complexe utilisée dans les tokenizers 1-dimensionnels précédents. Cette conception permet une évolutivité transparente vers de grands ensembles de données. En s'appuyant sur cela, nous introduisons une famille de modèles génératifs masqués texte-vers-image (MaskGen), entraînés exclusivement sur des données ouvertes tout en atteignant des performances comparables à celles des modèles entraînés sur des données privées. Nous visons à mettre à disposition à la fois les tokenizers TA-TiTok efficaces et solides et les modèles MaskGen à données ouvertes et poids ouverts pour promouvoir un accès plus large et démocratiser le domaine des modèles génératifs masqués texte-vers-image.

HALoGEN : Hallucinations LLM Fantastiques et Où les Trouver
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Jan 14

ByAbhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi

Malgré leur impressionnante capacité à générer un texte de haute qualité et fluide, les grands modèles de langage génératif produisent également des hallucinations : des affirmations qui ne sont pas en accord avec les connaissances mondiales établies ou le contexte d'entrée fourni. Cependant, mesurer l'hallucination peut être difficile, car faire vérifier les générations de modèles par des humains en temps réel est à la fois coûteux et chronophage. Dans ce travail, nous présentons HALoGEN, un banc d'essai exhaustif sur l'hallucination comprenant : (1) 10 923 stimuli pour les modèles génératifs couvrant neuf domaines incluant la programmation, l'attribution scientifique et la résumé, et (2) des vérificateurs automatiques à haute précision pour chaque cas d'utilisation qui décomposent les générations de LLM en unités atomiques, et vérifient chaque unité par rapport à une source de connaissances de haute qualité. Nous utilisons ce cadre pour évaluer environ 150 000 générations de 14 modèles de langage, constatant que même les modèles les plus performants sont truffés d'hallucinations (parfois jusqu'à 86 % des faits atomiques générés selon le domaine). Nous définissons en outre une nouvelle classification d'erreurs pour les hallucinations de LLM basée sur le fait qu'elles proviennent probablement d'une mauvaise mémorisation des données d'entraînement (erreurs de type A), d'une connaissance incorrecte des données d'entraînement (erreurs de type B), ou sont une fabrication (erreurs de type C). Nous espérons que notre cadre fournira une base pour permettre l'étude raisonnée des raisons pour lesquelles les modèles génératifs hallucinent, et fera progresser le développement de grands modèles de langage fiables.

Tarsier2 : Faire progresser les grands modèles de vision-langage de la description vidéo détaillée à la compréhension vidéo complète
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Jan 14

ByLiping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin

Nous présentons Tarsier2, un modèle de vision-langage de pointe (LVLM) conçu pour générer des descriptions vidéo détaillées et précises, tout en présentant des capacités supérieures de compréhension générale des vidéos. Tarsier2 réalise des avancées significatives grâce à trois mises à niveau clés : (1) l'augmentation des données de pré-entraînement de 11M à 40M de paires vidéo-texte, enrichissant à la fois le volume et la diversité ; (2) l'alignement temporel fin pendant le fine-tuning supervisé ; (3) l'utilisation de l'échantillonnage basé sur le modèle pour construire automatiquement des données de préférence et l'application de l'entraînement DPO pour l'optimisation. Des expériences approfondies montrent que Tarsier2-7B surpasse systématiquement les modèles propriétaires de premier plan, y compris GPT-4o et Gemini 1.5 Pro, dans les tâches de description vidéo détaillée. Sur le banc d'essai DREAM-1K, Tarsier2-7B améliore le score F1 de 2,8\% par rapport à GPT-4o et de 5,8\% par rapport à Gemini-1.5-Pro. Dans les évaluations humaines côte à côte, Tarsier2-7B présente un avantage de performance de +8,6\% par rapport à GPT-4o et de +24,9\% par rapport à Gemini-1.5-Pro. Tarsier2-7B établit également de nouveaux résultats de pointe sur 15 bancs d'essai publics, couvrant des tâches telles que la réponse aux questions vidéo, l'ancrage vidéo, le test d'hallucination et la réponse aux questions incarnées, démontrant sa polyvalence en tant que modèle de vision-langage généraliste robuste.

Amélioration de l'interprétabilité automatisée avec des descriptions de fonctionnalités centrées sur la sortie
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Jan 14

ByYoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva

Les pipelines d'interprétabilité automatisée génèrent des descriptions en langage naturel des concepts représentés par les caractéristiques des grands modèles de langage (LLM), tels que des plantes ou le premier mot dans une phrase. Ces descriptions sont dérivées en utilisant des entrées qui activent la caractéristique, qui peut être une dimension ou une direction dans l'espace de représentation du modèle. Cependant, l'identification des entrées activantes est coûteuse, et le rôle mécaniste d'une caractéristique dans le comportement du modèle est déterminé à la fois par la manière dont les entrées provoquent l'activation d'une caractéristique et par la manière dont l'activation de la caractéristique affecte les sorties. En utilisant des évaluations de direction, nous révélons que les pipelines actuels fournissent des descriptions qui ne parviennent pas à capturer l'effet causal de la caractéristique sur les sorties. Pour remédier à cela, nous proposons des méthodes efficaces et centrées sur les sorties pour générer automatiquement des descriptions de caractéristiques. Ces méthodes utilisent les jetons pondérés plus élevés après la stimulation de la caractéristique ou les jetons de poids le plus élevé après l'application de la tête "désembarquement" du vocabulaire directement à la caractéristique. Nos descriptions centrées sur les sorties capturent mieux l'effet causal d'une caractéristique sur les sorties du modèle que les descriptions centrées sur les entrées, mais la combinaison des deux conduit aux meilleures performances tant pour les évaluations d'entrée que de sortie. Enfin, nous montrons que les descriptions centrées sur les sorties peuvent être utilisées pour trouver des entrées qui activent des caractéristiques précédemment considérées comme "inactives".

Corpus chinois OpenCSG : une série de jeux de données chinois de haute qualité pour l'entraînement de LLM.
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Jan 14

ByYijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei

Les grands modèles de langage (LLM) ont démontré des capacités remarquables, mais leur succès dépend fortement de la qualité des corpus de pré-entraînement. Pour les LLM chinois, la rareté des ensembles de données chinois de haute qualité constitue un défi majeur, limitant souvent leurs performances. Pour résoudre ce problème, nous proposons le Corpus Chinois OpenCSG, une série d'ensembles de données de haute qualité spécifiquement conçus pour le pré-entraînement, le post-entraînement et le fine-tuning des LLM. Ce corpus comprend Fineweb-edu-chinois, Fineweb-edu-chinois-v2, Cosmopedia-chinois et Smoltalk-chinois, chacun présentant des caractéristiques distinctes : les ensembles de données Fineweb-edu se concentrent sur un contenu filtré et de haute qualité provenant de diverses sources web chinoises ; Cosmopedia-chinois fournit des données synthétiques de style manuel scolaire pour un entraînement intensif en connaissances ; et Smoltalk-chinois met l'accent sur des données de style chat stylistique et varié. Le Corpus Chinois OpenCSG se distingue par la qualité de son texte, sa couverture diversifiée à travers différents domaines, et ses processus de curation de données évolutifs et reproductibles. De plus, nous avons mené des analyses expérimentales approfondies, y compris des évaluations sur des modèles à paramètres réduits, qui ont démontré des améliorations significatives des performances dans des tâches telles que C-Eval, mettant en avant l'efficacité du corpus pour l'entraînement des LLM chinois.

MatchAnything : Appariement d'Images Universel Intermodalités avec Pré-Entraînement à Grande Échelle
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Jan 13

ByXingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou

La correspondance d'images, qui vise à identifier les emplacements de pixels correspondants entre les images, est cruciale dans un large éventail de disciplines scientifiques, aidant à l'enregistrement, la fusion et l'analyse d'images. Ces dernières années, les algorithmes de correspondance d'images basés sur l'apprentissage profond ont largement surpassé les humains en trouvant rapidement et avec précision de grandes quantités de correspondances. Cependant, lorsqu'il s'agit d'images capturées sous différentes modalités d'imagerie entraînant des changements d'apparence significatifs, les performances de ces algorithmes se détériorent souvent en raison de la rareté des données d'entraînement croisées annotées. Cette limitation entrave les applications dans divers domaines qui dépendent de plusieurs modalités d'image pour obtenir des informations complémentaires. Pour relever ce défi, nous proposons un cadre de pré-entraînement à grande échelle qui utilise des signaux d'entraînement croisés synthétiques, incorporant des données diverses de différentes sources, pour entraîner des modèles à reconnaître et à mettre en correspondance des structures fondamentales à travers les images. Cette capacité est transférable à des tâches de correspondance d'images croisées du monde réel et non vues. Notre découverte clé est que le modèle de correspondance entraîné avec notre cadre atteint une remarquable généralisabilité à travers plus de huit tâches de recalage croisé de modalités non vues en utilisant le même poids de réseau, surpassant considérablement les méthodes existantes, qu'elles soient conçues pour la généralisation ou adaptées à des tâches spécifiques. Cette avancée améliore significativement l'applicabilité des technologies de correspondance d'images dans diverses disciplines scientifiques et ouvre la voie à de nouvelles applications dans l'analyse multi-modalité de l'intelligence humaine et artificielle, et au-delà.

AfriHate : Une collection multilingue de discours de haine et de langage abusif pour les langues africaines
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Jan 14

ByShamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum

Les discours de haine et le langage abusif sont des phénomènes mondiaux qui nécessitent une connaissance du contexte socioculturel pour être compris, identifiés et modérés. Cependant, dans de nombreuses régions du Sud global, on a documenté plusieurs cas de (1) absence de modération et (2) censure en raison de la dépendance à la détection de mots-clés hors contexte. De plus, des personnalités de haut niveau ont fréquemment été au centre du processus de modération, tandis que de vastes campagnes de discours de haine ciblées contre les minorités ont été négligées. Ces limitations sont principalement dues au manque de données de haute qualité dans les langues locales et à l'omission des communautés locales dans les processus de collecte, d'annotation et de modération. Pour résoudre ce problème, nous présentons AfriHate : une collection multilingue de jeux de données sur les discours de haine et le langage abusif dans 15 langues africaines. Chaque instance dans AfriHate est annotée par des locuteurs natifs familiers de la culture locale. Nous rapportons les défis liés à la construction des jeux de données et présentons divers résultats de classification de base avec et sans utilisation de LLM (Language Model Models). Les jeux de données, les annotations individuelles et les lexiques de discours de haine et de langage offensant sont disponibles sur https://github.com/AfriHate/AfriHate

Raisonnement graphique in situ et expansion des connaissances en utilisant Graph-PReFLexOR
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Jan 14

ByMarkus J. Buehler

La poursuite de la découverte scientifique automatisée a alimenté le progrès de la logique symbolique à l'IA moderne, ouvrant de nouvelles frontières dans le raisonnement et la reconnaissance de motifs. Les transformateurs fonctionnent comme des systèmes potentiels, où chaque relation possible reste une potentialité latente jusqu'à ce que les tâches imposent des contraintes, semblables à une mesure. Cependant, affiner leur échantillonnage nécessite plus qu'une sélection probabiliste : les solutions doivent se conformer à des structures ou des règles spécifiques, garantissant la cohérence et l'invocation de principes généraux. Nous présentons Graph-PReFLexOR (Modélisation linguistique récursive basée sur les préférences pour l'optimisation exploratoire du raisonnement), un cadre qui associe le raisonnement graphique à l'abstraction symbolique pour étendre dynamiquement les connaissances du domaine. Inspiré par l'apprentissage par renforcement, Graph-PReFLexOR définit le raisonnement comme une cartographie structurée, où les tâches produisent des graphes de connaissances, des motifs abstraits et finalement, des réponses finales. Inspiré par la théorie des catégories, il code les concepts en tant que nœuds et leurs relations en tant qu'arêtes, soutenant l'inférence hiérarchique et l'apprentissage adaptatif à travers des représentations isomorphes. Les démonstrations incluent la génération d'hypothèses, la conception de matériaux et le raisonnement créatif, comme la découverte de relations entre des concepts mythologiques tels que les "lieux minces" avec la science des matériaux. Nous proposons une stratégie de "croissance du jardin de connaissances" qui intègre des idées à travers les domaines, favorisant les connexions interdisciplinaires. Les résultats avec un modèle Graph-PReFLexOR de 3 milliards de paramètres montrent une profondeur de raisonnement et une adaptabilité supérieures, soulignant le potentiel de découverte transparente et multidisciplinaire pilotée par l'IA. Cela pose les bases pour des solutions de raisonnement autonome général.

Potentiel et dangers des grands modèles de langage en tant que juges de données textuelles non structurées
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Jan 14

ByRewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar

Les progrès rapides dans les grands modèles de langage ont débloqué des capacités remarquables en matière de traitement et de résumé des données textuelles non structurées. Cela a des implications pour l'analyse de jeux de données riches et ouverts, tels que les réponses à des enquêtes, où les GPT offrent la promesse de distiller efficacement les thèmes clés et les sentiments. Cependant, à mesure que les organisations se tournent de plus en plus vers ces puissants systèmes d'IA pour donner un sens aux retours textuels, une question critique se pose : pouvons-nous faire confiance aux GPT pour représenter avec précision les perspectives contenues dans ces ensembles de données textuelles ? Alors que les GPT excellent dans la génération de résumés semblables à ceux des humains, il existe un risque que leurs sorties divergent involontairement de la véritable substance des réponses originales. Les divergences entre les sorties générées par les GPT et les thèmes réels présents dans les données pourraient entraîner une prise de décision défectueuse, avec des conséquences importantes pour les organisations. Cette recherche étudie l'efficacité des GPT en tant que modèles juges pour évaluer l'alignement thématique des résumés générés par d'autres GPT. Nous avons utilisé un modèle Claude anthropique pour générer des résumés thématiques à partir des réponses ouvertes à des enquêtes, avec Titan Express d'Amazon, Nova Pro et Llama de Meta servant de juges GPT. L'approche des GPT en tant que juges a été comparée à des évaluations humaines en utilisant le kappa de Cohen, le rho de Spearman et l'alpha de Krippendorff, validant une alternative évolutive aux méthodes d'évaluation traditionnellement centrées sur l'humain. Nos résultats révèlent que bien que les GPT en tant que juges offrent une solution évolutive comparable aux évaluateurs humains, les humains peuvent toujours exceller dans la détection de nuances subtiles et contextuelles. Cette recherche contribue au corpus croissant de connaissances sur l'analyse de texte assistée par l'IA. Nous discutons des limitations et fournissons des recommandations pour les futures recherches, en soulignant la nécessité de prendre soigneusement en compte la généralisation des modèles juges GPT dans divers contextes et cas d'utilisation.