HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

17 papers found

MJ-Bench : Votre modèle de récompense multimodale est-il vraiment un bon juge pour la génération de texte à image ?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Jul 5

ByZhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao

Alors que les modèles de génération d'images à partir de texte comme DALLE-3 et Stable Diffusion se multiplient rapidement, ils rencontrent souvent des défis tels que l'hallucination, les biais et la production de sorties de faible qualité ou potentiellement dangereuses. Pour résoudre efficacement ces problèmes, il est crucial d'aligner ces modèles sur des comportements souhaités en s'appuyant sur les retours d'un juge multimodal. Malgré leur importance, les juges multimodaux actuels font souvent l'objet d'une évaluation insuffisante de leurs capacités et limites, ce qui peut entraîner un désalignement et des résultats de fine-tuning non sécurisés. Pour remédier à cela, nous introduisons MJ-Bench, un nouveau benchmark qui intègre un ensemble de données de préférences complet pour évaluer les juges multimodaux dans leur capacité à fournir des retours pour les modèles de génération d'images selon quatre perspectives clés : l'alignement, la sécurité, la qualité de l'image et les biais. Plus précisément, nous évaluons une grande variété de juges multimodaux, incluant des modèles de scoring de petite taille basés sur CLIP, des modèles de langage visuel (VLMs) open-source (par exemple, la famille LLaVA) et des VLMs propriétaires (par exemple, GPT-4o, Claude 3) sur chaque sous-catégorie décomposée de notre ensemble de données de préférences. Les expériences révèlent que les VLMs propriétaires fournissent généralement de meilleurs retours, avec GPT-4o surpassant les autres juges en moyenne. Comparés aux VLMs open-source, les modèles de scoring de petite taille peuvent fournir de meilleurs retours concernant l'alignement texte-image et la qualité de l'image, tandis que les VLMs offrent des retours plus précis concernant la sécurité et les biais de génération grâce à leurs capacités de raisonnement plus fortes. Des études supplémentaires sur l'échelle des retours montrent que les juges VLMs peuvent généralement fournir des retours plus précis et stables en langage naturel (échelle de Likert) qu'en échelles numériques. Notamment, les évaluations humaines sur des modèles fine-tunés de bout en bout utilisant des retours séparés de ces juges multimodaux aboutissent à des conclusions similaires, confirmant davantage l'efficacité de MJ-Bench. Toutes les données, le code et les modèles sont disponibles à l'adresse https://huggingface.co/MJ-Bench.

LLaMAX : Élargir les horizons linguistiques des LLM en renforçant les capacités de traduction au-delà de 100 langues
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Jul 8

ByYinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan

Les grands modèles de langage (LLMs) démontrent des capacités de traduction remarquables pour les tâches impliquant des langues riches en ressources, mais leurs performances pour les langues peu dotées sont limitées par un manque de données multilingues lors du pré-entraînement. Pour remédier à cela, nous consacrons 35 000 heures de GPU A100-SXM4-80GB à un pré-entraînement multilingue continu approfondi sur les modèles de la série LLaMA, permettant ainsi une prise en charge de la traduction pour plus de 100 langues. À travers une analyse approfondie des stratégies d'entraînement, telles que l'expansion du vocabulaire et l'augmentation des données, nous développons LLaMAX. De manière notable, sans sacrifier sa capacité de généralisation, LLaMAX atteint des performances de traduction significativement supérieures à celles des LLMs open-source existants (avec une amélioration de plus de 10 points spBLEU) et rivalise avec un modèle de traduction spécialisé (M2M-100-12B) sur le benchmark Flores-101. Des expériences approfondies indiquent que LLaMAX peut servir de modèle de base multilingue robuste. Le code~\url{https://github.com/CONE-MT/LLaMAX/.} et les modèles~\url{https://huggingface.co/LLaMAX/.} sont disponibles publiquement.

Transformeur à Mémoire Associative Récurrente
Associative Recurrent Memory Transformer

Jul 5

ByIvan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev

Cet article aborde le défi de créer une architecture neuronale pour des séquences très longues qui nécessite un temps constant pour traiter de nouvelles informations à chaque étape temporelle. Notre approche, le Transformer à Mémoire Récurrente Associative (ARMT), repose sur l'auto-attention des transformers pour le contexte local et sur la récurrence au niveau des segments pour le stockage d'informations spécifiques à la tâche réparties sur un long contexte. Nous démontrons qu'ARMT surpasse les alternatives existantes dans les tâches de récupération associative et établit un nouveau record de performance sur le récent benchmark multi-tâches BABILong pour les contextes longs, en répondant à des questions à un seul fait sur plus de 50 millions de tokens avec une précision de 79,9%. Le code source pour l'entraînement et l'évaluation est disponible sur github.

Apprentissage de l'édition d'images centrée sur les actions et le raisonnement à partir de vidéos et de simulations
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

Jul 3

ByBenno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy

Un modèle d'édition d'images devrait être capable d'effectuer des modifications variées, allant du remplacement d'objets, à la modification d'attributs ou de styles, jusqu'à l'exécution d'actions ou de mouvements, ce qui nécessite de nombreuses formes de raisonnement. Les modèles d'édition guidés par instructions générales actuels présentent des lacunes importantes pour les modifications centrées sur les actions et le raisonnement. Les changements d'objets, d'attributs ou de styles peuvent être appris à partir de jeux de données visuellement statiques. En revanche, les données de haute qualité pour les modifications centrées sur les actions et le raisonnement sont rares et doivent provenir de sources entièrement différentes qui couvrent, par exemple, la dynamique physique, la temporalité et le raisonnement spatial. À cette fin, nous avons méticuleusement constitué le jeu de données AURORA (Action-Raisonnement-Objet-Attribut), une collection de données d'entraînement de haute qualité, annotées et sélectionnées manuellement à partir de vidéos et de moteurs de simulation. Nous nous concentrons sur un aspect clé des données d'entraînement de qualité : les triplets (image source, prompt, image cible) contiennent un seul changement visuel significatif décrit par le prompt, c'est-à-dire des modifications véritablement minimales entre les images source et cible. Pour démontrer la valeur de notre jeu de données, nous évaluons un modèle affiné avec AURORA sur un nouveau benchmark expert (AURORA-Bench) couvrant 8 tâches d'édition diverses. Notre modèle surpasse significativement les modèles d'édition précédents selon les évaluations humaines. Pour les évaluations automatiques, nous identifions des défauts importants dans les métriques précédentes et mettons en garde contre leur utilisation pour les tâches d'édition sémantiquement complexes. À la place, nous proposons une nouvelle métrique automatique qui se concentre sur la compréhension discriminative. Nous espérons que nos efforts : (1) la constitution d'un jeu de données d'entraînement de qualité et d'un benchmark d'évaluation, (2) le développement d'évaluations critiques, et (3) la publication d'un modèle de pointe, stimuleront les progrès futurs dans le domaine de l'édition d'images généraliste.

ANOLE : Un modèle multimodal natif, autoregressif et ouvert pour la génération entrelacée d'images et de texte
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

Jul 8

ByEthan Chern, Jiadi Su, Yan Ma, Pengfei Liu

Les précédents modèles multimodaux de grande taille (LMMs) open source ont rencontré plusieurs limitations : (1) ils manquent souvent d'intégration native, nécessitant des adaptateurs pour aligner les représentations visuelles avec des modèles de langage de grande taille (LLMs) pré-entraînés ; (2) beaucoup sont limités à la génération unimodale ; (3) bien que certains supportent la génération multimodale, ils reposent sur des modèles de diffusion séparés pour la modélisation et la génération visuelles. Pour atténuer ces limitations, nous présentons Anole, un modèle multimodal de grande taille, ouvert, autorégressif et natif, conçu pour la génération entrelacée d'images et de texte. Nous avons construit Anole à partir de Chameleon de Meta AI, en adoptant une stratégie de fine-tuning innovante, à la fois économe en données et en paramètres. Anole démontre des capacités de génération multimodale de haute qualité et cohérente. Nous avons rendu open source notre modèle, notre cadre d'entraînement et nos données de réglage par instruction.

Évaluation des fenêtres contextuelles des modèles de langage : un test de "mémoire de travail" et une correction au moment de l'inférence
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Jul 4

ByAmanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala

Les grands modèles de langage sont largement utilisés dans des applications réelles, souvent chargés de raisonner sur de grands volumes de documents. Un développement passionnant dans ce domaine est l'émergence de modèles dotés de capacités de contexte étendu, certains pouvant traiter plus de 2 millions de tokens. Cependant, les performances de ces modèles à contexte long restent incertaines dans les systèmes de production, ce qui motive la nécessité de les évaluer sur des cas d'utilisation réels. Nous relevons ce défi en proposant SWiM, un cadre d'évaluation qui pallie les limites des tests standards. En testant ce cadre sur huit modèles à contexte long, nous constatons que même des modèles performants comme GPT-4 et Claude 3 Opus voient leurs performances se dégrader lorsque l'information se situe au milieu de la fenêtre de contexte (effet "perdu au milieu"). Par ailleurs, en complément de notre benchmark, nous proposons le vote médioïde, une approche simple mais efficace, ne nécessitant pas d'entraînement, qui aide à atténuer cet effet en générant plusieurs réponses, chaque fois en permutant aléatoirement les documents dans le contexte, puis en sélectionnant la réponse médioïde. Nous évaluons le vote médioïde sur des tâches de question-réponse sur un seul document, obtenant une amélioration allant jusqu'à 24 % en termes de précision.

UltraEdit : Édition d'images granulaire à grande échelle basée sur des instructions
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

Jul 7

ByHaozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang

Cet article présente UltraEdit, un jeu de données à grande échelle (environ 4 millions d'échantillons d'édition) généré automatiquement pour l'édition d'images basée sur des instructions. Notre idée principale est de pallier les lacunes des jeux de données existants pour l'édition d'images, tels qu'InstructPix2Pix et MagicBrush, et de proposer une approche systématique pour produire des échantillons d'édition d'images massifs et de haute qualité. UltraEdit offre plusieurs avantages distincts : 1) Il propose une gamme plus large d'instructions d'édition en exploitant la créativité des grands modèles de langage (LLMs) ainsi que des exemples d'édition en contexte évalués par des humains ; 2) Ses sources de données sont basées sur des images réelles, incluant des photographies et des œuvres d'art, offrant ainsi une plus grande diversité et un biais réduit par rapport aux jeux de données générés uniquement par des modèles texte-à-image ; 3) Il prend également en charge l'édition basée sur des régions, améliorée par des annotations de régions de haute qualité produites automatiquement. Nos expériences montrent que les modèles de référence basés sur la diffusion, entraînés sur UltraEdit, établissent de nouveaux records sur les benchmarks MagicBrush et Emu-Edit. Notre analyse confirme en outre le rôle crucial des ancrages d'images réelles et des données d'édition basées sur des régions. Le jeu de données, le code et les modèles sont disponibles sur https://ultra-editing.github.io.

Tailor3D : Édition et génération d'actifs 3D personnalisés avec des images bidirectionnelles
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Jul 8

ByZhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao

Les récentes avancées dans le domaine de la génération de contenu 3D par IA (3D AIGC) ont montré un potentiel prometteur pour créer directement des objets 3D à partir de textes et d'images, offrant ainsi des économies significatives dans les domaines de l'animation et de la conception de produits. Cependant, l'édition détaillée et la personnalisation des assets 3D restent un défi de longue date. Plus précisément, les méthodes de génération 3D manquent de la capacité à suivre des instructions minutieuses avec la même précision que leurs homologues en création d'images 2D. Imaginez obtenir un jouet via la 3D AIGC, mais avec des accessoires et des vêtements non désirés. Pour relever ce défi, nous proposons une nouvelle pipeline appelée Tailor3D, qui crée rapidement des assets 3D personnalisés à partir d'images modifiables des deux côtés. Notre objectif est d'imiter la capacité d'un tailleur à modifier localement des objets ou à effectuer un transfert de style global. Contrairement à la création d'assets 3D à partir de multiples vues, l'utilisation d'images des deux côtés élimine les conflits dans les zones de chevauchement qui surviennent lors de l'édition de vues individuelles. Plus précisément, le processus commence par l'édition de la vue de face, puis génère la vue arrière de l'objet via une diffusion multi-vues. Ensuite, il procède à l'édition des vues arrière. Enfin, un modèle LRM double-face est proposé pour assembler de manière fluide les caractéristiques 3D de la face avant et de la face arrière, à la manière d'un tailleur qui assemble les parties avant et arrière d'un vêtement. Le LRM double-face corrige les imperfections de cohérence entre les vues avant et arrière, améliorant les capacités d'édition et réduisant les charges de mémoire, tout en les intégrant de manière fluide dans une représentation 3D unifiée grâce au LoRA Triplane Transformer. Les résultats expérimentaux démontrent l'efficacité de Tailor3D dans diverses tâches de génération et d'édition 3D, y compris le remplissage génératif 3D et le transfert de style. Il offre une solution conviviale et efficace pour l'édition d'assets 3D, chaque étape d'édition ne prenant que quelques secondes à s'exécuter.

Génération vidéo compositionnelle comme égalisation de flux
Compositional Video Generation as Flow Equalization

Jun 10

ByXingyi Yang, Xinchao Wang

Les modèles de diffusion à grande échelle pour la génération de vidéos à partir de texte (Text-to-Video, T2V) ont récemment démontré une capacité sans précédent à transformer des descriptions en langage naturel en vidéos spectaculaires et photoréalistes. Malgré ces résultats prometteurs, un défi majeur persiste : ces modèles peinent à saisir pleinement les interactions compositionnelles complexes entre plusieurs concepts et actions. Ce problème survient lorsque certains mots influencent de manière dominante la vidéo finale, éclipsant ainsi d'autres concepts. Pour résoudre ce problème, nous introduisons Vico, un cadre générique pour la génération de vidéos compositionnelles qui garantit explicitement que tous les concepts sont correctement représentés. Au cœur de Vico, l'analyse de l'influence des tokens d'entrée sur la vidéo générée permet d'ajuster le modèle pour empêcher qu'un seul concept ne domine. Plus précisément, Vico extrait les poids d'attention de toutes les couches pour construire un graphe d'attention spatio-temporel, puis estime l'influence comme le flux maximal du token source du texte au token cible de la vidéo. Bien que le calcul direct du flux d'attention dans les modèles de diffusion soit généralement irréalisable, nous proposons une approximation efficace basée sur les flux de sous-graphes et utilisons une implémentation rapide et vectorisée, ce qui rend le calcul du flux gérable et différentiable. En mettant à jour le latent bruité pour équilibrer ces flux, Vico capture des interactions complexes et produit ainsi des vidéos qui adhèrent étroitement aux descriptions textuelles. Nous appliquons notre méthode à plusieurs modèles de vidéo basés sur la diffusion pour le T2V compositionnel et l'édition de vidéos. Les résultats empiriques montrent que notre cadre améliore significativement la richesse compositionnelle et la précision des vidéos générées. Visitez notre site web à l'adresse suivante : https://adamdad.github.io/vico/.

InverseCoder : Libérer la puissance des modèles de langage de code ajustés par instructions avec Inverse-Instruct
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Jul 8

ByYutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen

Les récentes avancées dans les modèles de langage de grande taille (LLMs) open-source pour le code ont démontré des capacités de codage remarquables grâce à un ajustement fin sur les données générées par des LLMs propriétaires puissants tels que GPT-3.5 et GPT-4 pour le réglage d'instructions. Cet article explore comment améliorer davantage un LLM de code réglé sur des instructions en générant des données à partir de lui-même plutôt qu'en interrogeant des LLMs propriétaires. Notre observation clé est le désalignement entre la traduction des langages formels et informels : traduire un langage formel (c'est-à-dire le code) en langage informel (c'est-à-dire le langage naturel) est plus simple que l'inverse. Sur la base de cette observation, nous proposons INVERSE-INSTRUCT, qui résume les instructions à partir d'extraits de code plutôt que l'inverse. Concrètement, étant donné un corpus de réglage d'instructions pour le code et le LLM de code réglé sur des instructions qui en résulte, nous demandons au LLM de code de générer des instructions supplémentaires de haute qualité pour le corpus original à travers la synthèse de code et l'auto-évaluation. Ensuite, nous ajustons finement le LLM de base sur la combinaison du corpus original et de celui généré automatiquement, ce qui produit un LLM réglé sur des instructions plus performant. Nous présentons une série de LLMs de code nommés InverseCoder, qui surpassent les performances des LLMs de code originaux sur un large éventail de benchmarks, incluant la génération de code à partir de texte en Python, le codage multilingue et la génération de code pour la science des données.

Hallucination multi-objets dans les modèles vision-langage
Multi-Object Hallucination in Vision-Language Models

Jul 8

ByXuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai

Les grands modèles de langage visuel (LVLMs) souffrent souvent d'hallucinations d'objets, générant des objets absents des images fournies. Alors que les benchmarks actuels pour les hallucinations d'objets se concentrent principalement sur la présence d'une seule classe d'objets plutôt que sur des entités individuelles, ce travail étudie systématiquement les hallucinations multi-objets, examinant comment les modèles perçoivent de manière erronée (par exemple, inventent des objets inexistants ou se laissent distraire) lorsqu'ils sont chargés de se concentrer sur plusieurs objets simultanément. Nous introduisons l'évaluation par sondage d'objets basée sur la reconnaissance (ROPE), un protocole d'évaluation automatisé qui prend en compte la distribution des classes d'objets dans une seule image lors des tests et utilise des invites visuelles référentielles pour éliminer les ambiguïtés. Grâce à des études empiriques approfondies et à l'analyse des facteurs potentiels conduisant aux hallucinations multi-objets, nous avons constaté que (1) les LVLMs souffrent de plus d'hallucinations lorsqu'ils se concentrent sur plusieurs objets par rapport à un seul objet. (2) La distribution des classes d'objets testées affecte les comportements d'hallucination, indiquant que les LVLMs peuvent suivre des raccourcis et des corrélations fallacieuses. (3) Les comportements hallucinatoires sont influencés par des facteurs spécifiques aux données, la saillance et la fréquence, ainsi que par les comportements intrinsèques des modèles. Nous espérons permettre aux LVLMs de reconnaître et de raisonner sur plusieurs objets qui se produisent souvent dans des scènes visuelles réalistes, fournir des insights et quantifier nos progrès vers l'atténuation de ces problèmes.

PAS : Système d'Augmentation de Prompt Plug-and-Play à Faible Consommation de Données
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System

Jul 8

ByMiao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Yozhen Wu, Kun Li, Yanjun Sheng, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou

Ces dernières années, l'essor des modèles de langage de grande taille (LLMs) a stimulé une demande croissante pour des systèmes d'IA prêts à l'emploi. Parmi les diverses techniques d'IA, l'ingénierie des prompts se distingue comme particulièrement significative. Cependant, les utilisateurs rencontrent souvent des difficultés à rédiger des prompts en raison de la courbe d'apprentissage abrupte et du temps d'investissement important, et les modèles existants d'ingénierie automatique des prompts (APE) peuvent être difficiles à utiliser. Pour résoudre ce problème, nous proposons PAS, un système APE prêt à l'emploi basé sur des LLMs. PAS utilise des LLMs entraînés sur des ensembles de données complémentaires de prompts générés automatiquement et de haute qualité, ce qui se traduit par des performances exceptionnelles. Dans des benchmarks complets, PAS atteint des résultats de pointe (SoTA) par rapport aux modèles APE précédents, avec une amélioration moyenne de 6,09 points. De plus, PAS est très efficace, atteignant des performances SoTA avec seulement 9000 points de données. En outre, PAS peut générer de manière autonome des données d'augmentation de prompts sans nécessiter de travail humain supplémentaire. Sa flexibilité lui permet également d'être compatible avec tous les LLMs existants et applicable à un large éventail de tâches. PAS excelle dans les évaluations humaines, soulignant son adéquation en tant que module complémentaire pour les utilisateurs. Cette combinaison de haute performance, d'efficacité et de flexibilité fait de PAS un système précieux pour améliorer l'utilisabilité et l'efficacité des LLMs grâce à une meilleure ingénierie des prompts.

Formation d'experts en tâches par distillation basée sur la récupération
Training Task Experts through Retrieval Based Distillation

Jul 7

ByJiaxin Ge, Xueying Jia, Vijay Viswanathan, Hongyin Luo, Graham Neubig

L'une des méthodes les plus fiables pour créer des modèles déployables pour des tâches spécialisées consiste à obtenir une quantité adéquate de données spécifiques de haute qualité. Cependant, pour les tâches spécialisées, de tels ensembles de données n'existent souvent pas. Les méthodes existantes abordent ce problème en générant ces données à partir de grands modèles de langage (LLMs), puis en distillant ces connaissances dans des modèles plus petits. Cependant, ces méthodes sont limitées par la qualité des sorties des LLMs et ont tendance à générer des données répétitives ou incorrectes. Dans ce travail, nous présentons la Distillation Basée sur la Récupération (ReBase), une méthode qui récupère d'abord des données à partir de sources en ligne riches, puis les transforme en données spécifiques à un domaine. Cette méthode améliore considérablement la diversité des données. De plus, ReBase génère un raisonnement en chaîne de pensée (Chain-of-Thought) et distille la capacité de raisonnement des LLMs. Nous testons notre méthode sur 4 benchmarks, et les résultats montrent que notre méthode améliore significativement les performances jusqu'à 7,8 % sur SQuAD, 1,37 % sur MNLI et 1,94 % sur BigBench-Hard.

Comprendre la dépendance aux caractéristiques visuelles à travers le prisme de la complexité
Understanding Visual Feature Reliance through the Lens of Complexity

Jul 8

ByThomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann

Les études récentes suggèrent que le biais inductif des modèles d'apprentissage profond en faveur de caractéristiques plus simples pourrait être l'une des sources de l'apprentissage par raccourci. Cependant, il y a eu peu d'attention portée à la compréhension de la complexité des innombrables caractéristiques que les modèles apprennent. Dans ce travail, nous introduisons une nouvelle métrique pour quantifier la complexité des caractéristiques, basée sur la V-information et capturant si une caractéristique nécessite des transformations computationnelles complexes pour être extraite. En utilisant cette métrique de V-information, nous analysons les complexités de 10 000 caractéristiques, représentées comme des directions dans l'avant-dernière couche, extraites d'un modèle de vision standard entraîné sur ImageNet. Notre étude aborde quatre questions clés : Premièrement, nous examinons à quoi ressemblent les caractéristiques en fonction de leur complexité et trouvons un spectre de caractéristiques allant du simple au complexe présentes dans le modèle. Deuxièmement, nous cherchons à savoir quand les caractéristiques sont apprises pendant l'entraînement. Nous constatons que les caractéristiques plus simples dominent au début de l'entraînement, et que les caractéristiques plus complexes émergent progressivement. Troisièmement, nous investiguons où, dans le réseau, les caractéristiques simples et complexes circulent, et trouvons que les caractéristiques plus simples ont tendance à contourner la hiérarchie visuelle via les connexions résiduelles. Quatrièmement, nous explorons le lien entre la complexité des caractéristiques et leur importance dans la prise de décision du réseau. Nous constatons que les caractéristiques complexes ont tendance à être moins importantes. Étonnamment, les caractéristiques importantes deviennent accessibles dans les couches antérieures pendant l'entraînement, comme un processus de sédimentation, permettant au modèle de s'appuyer sur ces éléments fondamentaux.

PartCraft : Création d'objets créatifs par composants
PartCraft: Crafting Creative Objects by Parts

Jul 5

ByKam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang

Cet article fait progresser le contrôle créatif dans l'IA générative visuelle en permettant aux utilisateurs de "sélectionner". S'écartant des méthodes traditionnelles basées sur le texte ou le croquis, nous permettons pour la première fois aux utilisateurs de choisir des concepts visuels par parties pour leurs projets créatifs. Le résultat est une génération fine qui capture précisément les concepts visuels sélectionnés, garantissant un résultat globalement fidèle et plausible. Pour y parvenir, nous décomposons d'abord les objets en parties grâce à un clustering de caractéristiques non supervisé. Ensuite, nous encodons les parties en tokens textuels et introduisons une perte d'attention normalisée basée sur l'entropie qui opère sur ces tokens. Cette conception de la perte permet à notre modèle d'apprendre des connaissances topologiques génériques sur la composition des parties d'un objet, et de généraliser à de nouvelles compositions de parties pour garantir que la génération semble globalement fidèle. Enfin, nous utilisons un encodeur à goulot d'étranglement pour projeter les tokens de parties. Cela améliore non seulement la fidélité, mais accélère également l'apprentissage, en exploitant les connaissances partagées et en facilitant l'échange d'informations entre les instances. Les résultats visuels dans l'article et le matériel supplémentaire démontrent la puissance convaincante de PartCraft dans la création d'œuvres hautement personnalisées et innovantes, illustrées par les oiseaux "charmants" et créatifs. Le code est disponible à l'adresse https://github.com/kamwoh/partcraft.

LLMAEL : Les grands modèles de langage sont d'excellents amplificateurs de contexte pour la liaison d'entités
LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking

Jul 4

ByAmy Xin, Yunjia Qi, Zijun Yao, Fangwei Zhu, Kaisheng Zeng, Xu Bin, Lei Hou, Juanzi Li

Les modèles de liaison d'entités (Entity Linking, EL) sont bien entraînés à associer des mentions à leurs entités correspondantes selon un contexte donné. Cependant, ces modèles peinent à désambiguïser les entités de longue traîne en raison de leurs données d'entraînement limitées. Par ailleurs, les grands modèles de langage (Large Language Models, LLMs) sont plus robustes pour interpréter des mentions peu communes. Néanmoins, en l'absence d'un entraînement spécialisé, les LLMs ont des difficultés à générer des identifiants d'entités corrects. De plus, entraîner un LLM pour effectuer la liaison d'entités est coûteux. En nous appuyant sur ces constats, nous présentons LLM-Augmented Entity Linking (LLMAEL), une approche plug-and-play visant à améliorer la liaison d'entités par augmentation de données via les LLMs. Nous exploitons les LLMs comme des enrichisseurs de contexte experts, générant des descriptions centrées sur les mentions comme entrées supplémentaires, tout en conservant les modèles EL traditionnels pour le traitement spécifique à la tâche. Les expériences menées sur 6 jeux de données standards montrent que la version de base de LLMAEL surpasse les modèles EL de référence dans la plupart des cas, tandis que la version fine-tunée de LLMAEL établit de nouveaux records de performance sur l'ensemble des 6 benchmarks.

ANAH-v2 : Mise à l'échelle de l'annotation des hallucinations analytiques pour les grands modèles de langage
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

Jul 5

ByYuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen

Les grands modèles de langage (LLMs) présentent des hallucinations dans les tâches de réponse à des questions longues et complexes, couvrant divers domaines et applications. Les ensembles de données actuels pour la détection et l'atténuation des hallucinations sont limités en termes de domaines et de taille, peinant à s'étendre en raison des coûts de main-d'œuvre prohibitifs et de la fiabilité insuffisante des annotateurs existants. Pour faciliter la supervision évolutive des hallucinations des LLMs, cet article introduit un cadre d'auto-apprentissage itératif qui permet de développer simultanément et progressivement l'ensemble de données d'annotation des hallucinations et d'améliorer la précision de l'annotateur d'hallucinations. Basé sur l'algorithme d'Espérance-Maximisation (EM), à chaque itération, le cadre applique d'abord un pipeline d'annotation des hallucinations pour annoter un ensemble de données mis à l'échelle, puis entraîne un annotateur d'hallucinations plus précis sur cet ensemble de données. Ce nouvel annotateur est ensuite intégré dans le pipeline d'annotation utilisé pour l'itération suivante. Les résultats expérimentaux approfondis montrent que l'annotateur d'hallucinations final, avec seulement 7 milliards de paramètres, surpasse les performances de GPT-4 et établit de nouveaux records en matière de détection d'hallucinations sur HaluEval et HalluQA par inférence zero-shot. Un tel annotateur peut non seulement évaluer les niveaux d'hallucination de divers LLMs sur un ensemble de données à grande échelle, mais aussi contribuer à atténuer les hallucinations dans les générations de LLMs, avec une augmentation de la métrique d'Inférence en Langage Naturel (NLI) de 25% à 37% sur HaluEval.

MJ-Bench : Votre modèle de récompense multimodale est-il vraiment un bon juge pour la génération de texte à image ?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Jul 5