papers.description
La génération d'images basée sur le sujet vise à produire des images d'un nouveau sujet dans un contexte souhaité en capturant avec précision à la fois les caractéristiques visuelles du sujet et le contenu sémantique d'une instruction textuelle. Les méthodes traditionnelles reposent sur un ajustement fin intensif en temps et en ressources pour l'alignement du sujet, tandis que les approches récentes de type zéro-shot exploitent la génération d'images à la volée, sacrifiant souvent l'alignement du sujet. Dans cet article, nous introduisons le Prompting Diptyque, une nouvelle approche zéro-shot qui réinterprète une tâche de détourage avec un alignement précis du sujet en exploitant la propriété émergente de la génération de diptyques dans les modèles d'images textuelles à grande échelle. Le Prompting Diptyque dispose un diptyque incomplet avec l'image de référence dans le panneau de gauche, et réalise un détourage conditionné par le texte sur le panneau de droite. Nous empêchons en outre les fuites de contenu indésirables en supprimant l'arrière-plan dans l'image de référence et en améliorant les détails fins du sujet généré en renforçant les poids d'attention entre les panneaux pendant le détourage. Les résultats expérimentaux confirment que notre approche surpasse significativement les méthodes de génération d'images zéro-shot, donnant lieu à des images visuellement préférées par les utilisateurs. De plus, notre méthode prend en charge non seulement la génération basée sur le sujet, mais aussi la génération d'images stylisées et l'édition d'images basée sur le sujet, démontrant ainsi sa polyvalence dans diverses applications de génération d'images. Page du projet : https://diptychprompting.github.io/
Cette recherche présente un nouveau cadre d'évaluation conçu pour évaluer la capacité des grands modèles de langage (GML) à reconnaître l'incertitude sur 675 problèmes fondamentalement insolubles. En utilisant un ensemble de données sélectionné de questions de défis de niveau universitaire avec des réponses intentionnellement inconnues, nous avons évalué douze GML de pointe, comprenant à la fois des modèles open source et propriétaires, sur leur propension à admettre l'ignorance plutôt que de générer des réponses plausibles mais incorrectes. Les meilleurs modèles ont obtenu des scores dans des plages de précision de 62 à 68 % pour reconnaître que la solution au problème était inconnue dans des domaines allant de la biologie à la philosophie et aux mathématiques. Nous avons observé une relation inverse entre la difficulté du problème et la précision du modèle, GPT-4 montrant des taux plus élevés de reconnaissance de l'incertitude sur des problèmes plus difficiles (35,8 %) par rapport à des problèmes plus simples (20,0 %). Ce schéma indique que les modèles peuvent être plus enclins à générer des réponses spéculatives lorsque les problèmes semblent plus abordables. L'étude a également révélé des variations significatives selon les catégories de problèmes, les modèles montrant des difficultés à reconnaître l'incertitude dans les problèmes d'invention et NP-difficiles tout en performant relativement mieux sur les défis philosophiques et psychologiques. Ces résultats contribuent au corpus croissant de recherches sur l'évaluation de l'intelligence artificielle générale (IAG) en soulignant l'importance de la reconnaissance de l'incertitude comme composante critique de l'évaluation future de l'intelligence artificielle. Ce test d'impossibilité étend ainsi les cadres théoriques précédents pour les tests d'intelligence universelle en fournissant des preuves empiriques des limitations actuelles dans la capacité des GML à reconnaître leurs propres limites de connaissance, suggérant de nouvelles orientations pour améliorer les architectures d'entraînement des modèles et les approches d'évaluation.
Nous présentons Material Anything, un cadre de diffusion unifié entièrement automatisé conçu pour générer des matériaux physiquement réalistes pour des objets 3D. Contrairement aux méthodes existantes qui reposent sur des pipelines complexes ou des optimisations spécifiques à des cas, Material Anything offre une solution robuste de bout en bout adaptable aux objets dans des conditions d'éclairage diverses. Notre approche exploite un modèle de diffusion d'images pré-entraîné, amélioré avec une architecture à trois têtes et une perte de rendu pour améliorer la stabilité et la qualité des matériaux. De plus, nous introduisons des masques de confiance en tant que commutateur dynamique au sein du modèle de diffusion, lui permettant de gérer efficacement à la fois des objets texturés et sans texture dans des conditions d'éclairage variables. En utilisant une stratégie de génération de matériaux progressive guidée par ces masques de confiance, ainsi qu'un affineur de matériaux dans l'espace UV, notre méthode garantit des sorties de matériaux cohérentes et prêtes pour l'UV. Des expériences approfondies démontrent que notre approche surpasse les méthodes existantes dans une large gamme de catégories d'objets et de conditions d'éclairage.
Cet article présente un examen critique des approches actuelles pour reproduire les capacités du modèle O1 d'OpenAI, en mettant particulièrement l'accent sur l'utilisation répandue mais souvent non divulguée des techniques de distillation des connaissances. Alors que notre travail précédent explorait le chemin technique fondamental vers la reproduction d'O1, cette étude révèle comment une distillation simple à partir de l'API d'O1, combinée à un fine-tuning supervisé, peut atteindre des performances supérieures sur des tâches complexes de raisonnement mathématique. À travers des expériences approfondies, nous montrons qu'un modèle de base fine-tuné sur simplement des dizaines de milliers d'échantillons distillés d'O1 surpasse les performances d'O1 sur l'Examen de Mathématiques Invitational Américain (AIME) avec une complexité technique minimale. De plus, notre investigation s'étend au-delà du raisonnement mathématique pour explorer les capacités de généralisation des modèles distillés d'O1 à travers diverses tâches : hallucination, sécurité et QA de domaine ouvert. Notamment, malgré l'entraînement uniquement sur des données de résolution de problèmes mathématiques, nos modèles ont démontré une forte capacité de généralisation aux tâches de QA ouvertes et sont devenus significativement moins susceptibles à la flagornerie après le fine-tuning. Nous rendons délibérément cette découverte publique pour promouvoir la transparence dans la recherche en IA et pour remettre en question la tendance actuelle des affirmations techniques obscurcies dans le domaine. Notre travail comprend : (1) Une exposition technique détaillée du processus de distillation et de son efficacité, (2) Un cadre de référence complet pour évaluer et catégoriser les tentatives de reproduction d'O1 en fonction de leur transparence technique et de leur reproductibilité, (3) Une discussion critique des limitations et des risques potentiels de trop compter sur les approches de distillation, notre analyse aboutit à une leçon amère cruciale : alors que la poursuite de systèmes IA plus capables est importante, le développement de chercheurs ancrés dans une pensée de premiers principes est primordial.
L'évaluation et l'analyse ont longtemps été des défis critiques en intelligence artificielle (IA) et en traitement du langage naturel (NLP). Cependant, les méthodes traditionnelles, qu'elles soient basées sur la correspondance ou sur l'incorporation, peinent souvent à évaluer des attributs subtils et à fournir des résultats satisfaisants. Les récentes avancées dans les Modèles de Langage de Grande Taille (LLMs) inspirent le paradigme "LLM-comme-juge", où les LLMs sont exploités pour effectuer des évaluations, des classements ou des sélections dans diverses tâches et applications. Cet article propose une étude complète de l'évaluation et de l'analyse basées sur les LLMs, offrant un aperçu approfondi pour faire progresser ce domaine émergent. Nous commençons par donner des définitions détaillées des perspectives d'entrée et de sortie. Ensuite, nous introduisons une taxonomie complète pour explorer le "LLM-comme-juge" selon trois dimensions : quoi évaluer, comment évaluer et où évaluer. Enfin, nous compilons des références pour évaluer le "LLM-comme-juge" et mettons en lumière les principaux défis et les orientations prometteuses, dans le but de fournir des perspectives précieuses et d'inspirer de futures recherches dans ce domaine de recherche prometteur. La liste des articles et plus de ressources sur le "LLM-comme-juge" peuvent être trouvées sur https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge et https://llm-as-a-judge.github.io.
Malgré les avancées significatives en intelligence artificielle générale, telles que GPT-4, leur efficacité dans le domaine médical (intelligence artificielle médicale générale, IAMG) reste limitée en raison de l'absence de connaissances médicales spécialisées. Pour relever ce défi, nous présentons IAMG-VL-5.5M, un ensemble de données médicales multimodal complet créé en convertissant des centaines d'ensembles de données médicales spécialisées en paires image-texte méticuleusement construites. Cet ensemble de données offre une couverture de tâches complète, des modalités diverses et des données image-texte de haute qualité. En s'appuyant sur cet ensemble de données multimodal, nous proposons IAMG-VL, un modèle de vision-langage médical général avec une stratégie d'entraînement en trois étapes progressives. Cette approche améliore significativement les capacités du modèle en intégrant des informations visuelles et textuelles, améliorant ainsi sa capacité à traiter des données multimodales et à soutenir un diagnostic précis et la prise de décision clinique. Les évaluations expérimentales montrent qu'IAMG-VL atteint des résultats de pointe dans une large gamme de tâches médicales multimodales, telles que la réponse à des questions visuelles et le diagnostic d'images médicales. Nos contributions comprennent le développement de l'ensemble de données IAMG-VL-5.5M, l'introduction du modèle IAMG-VL et l'établissement de nouveaux benchmarks dans plusieurs domaines médicaux. Le code et l'ensemble de données seront publiés sur https://github.com/uni-medical/GMAI-VL.
Nous présentons ici les résultats du deuxième Hackathon de Modèles de Langage Géants (LLM) pour les Applications en Science des Matériaux et en Chimie, qui a impliqué des participants de divers endroits hybrides à l'échelle mondiale, aboutissant à 34 soumissions d'équipes. Les soumissions couvraient sept domaines d'application clés et ont démontré l'utilité variée des LLM pour les applications en (1) prédiction de propriétés moléculaires et matérielles ; (2) conception moléculaire et matérielle ; (3) automatisation et nouvelles interfaces ; (4) communication scientifique et éducation ; (5) gestion des données de recherche et automatisation ; (6) génération et évaluation d'hypothèses ; et (7) extraction de connaissances et raisonnement à partir de la littérature scientifique. Chaque soumission d'équipe est présentée dans un tableau récapitulatif avec des liens vers le code et de brefs articles en annexe. En plus des résultats des équipes, nous discutons de l'événement du hackathon et de son format hybride, qui comprenait des centres physiques à Toronto, Montréal, San Francisco, Berlin, Lausanne et Tokyo, ainsi qu'un centre en ligne mondial pour permettre la collaboration locale et virtuelle. Dans l'ensemble, l'événement a mis en lumière des améliorations significatives des capacités des LLM depuis le hackathon de l'année précédente, suggérant une expansion continue des LLM pour les applications en recherche en science des matériaux et en chimie. Ces résultats démontrent l'utilité double des LLM en tant que modèles polyvalents pour diverses tâches d'apprentissage automatique et plates-formes pour le prototypage rapide d'applications personnalisées en recherche scientifique.
Nous présentons OneDiffusion, un modèle de diffusion polyvalent à grande échelle qui prend en charge de manière transparente la synthèse et la compréhension d'images bidirectionnelles à travers diverses tâches. Il permet la génération conditionnelle à partir d'entrées telles que du texte, de la profondeur, de la pose, de la mise en page et des cartes sémantiques, tout en traitant également des tâches telles que le défloutage d'images, l'agrandissement, et des processus inverses tels que l'estimation de profondeur et la segmentation d'images. De plus, OneDiffusion permet la génération multi-vues, l'estimation de la pose de la caméra, et la personnalisation instantanée en utilisant des entrées d'images séquentielles. Notre modèle adopte une approche simple mais efficace en traitant toutes les tâches comme des séquences d'images avec des échelles de bruit variables pendant l'entraînement, permettant à n'importe quelle image de servir d'image conditionnelle au moment de l'inférence. Notre cadre d'entraînement unifié élimine le besoin d'architectures spécialisées, prend en charge l'entraînement multi-tâches évolutif, et s'adapte en douceur à n'importe quelle résolution, améliorant à la fois la généralisation et la scalabilité. Les résultats expérimentaux démontrent des performances compétitives à travers les tâches en génération et prédiction telles que le texte vers l'image, la génération multi-vues, la préservation de l'identifiant, l'estimation de profondeur et l'estimation de la pose de la caméra malgré un ensemble de données d'entraînement relativement petit. Notre code et notre point de contrôle sont disponibles gratuitement sur https://github.com/lehduong/OneDiffusion
Le modèle Multi-Head Mixture-of-Experts (MH-MoE) démontre des performances supérieures en utilisant le mécanisme multi-têtes pour collectivement prendre en compte les informations provenant de différents espaces de représentation au sein de différents experts. Dans cet article, nous présentons une nouvelle implémentation de MH-MoE qui maintient à la fois les FLOPs et la parité des paramètres avec les modèles Mixture of Experts épars. Les résultats expérimentaux sur les modèles de langage montrent que la nouvelle implémentation apporte des améliorations de qualité par rapport aux modèles MoE classiques et MoE à granularité fine. De plus, nos expériences démontrent que MH-MoE est compatible avec les Modèles de Langage Large (LLM) à 1 bit tels que BitNet.
La segmentation interactive d'images médicales (IMIS) a longtemps été limitée par la disponibilité limitée de jeux de données larges, diversifiés et densément annotés, ce qui entrave la généralisation des modèles et l'évaluation cohérente entre différents modèles. Dans cet article, nous présentons l'ensemble de données de référence IMed-361M, une avancée significative dans la recherche générale sur l'IMIS. Tout d'abord, nous collectons et normalisons plus de 6,4 millions d'images médicales et leurs masques de vérité terrain correspondants à partir de plusieurs sources de données. Ensuite, en exploitant les fortes capacités de reconnaissance d'objets d'un modèle visionnel fondamental, nous avons automatiquement généré des masques interactifs denses pour chaque image et assuré leur qualité grâce à un contrôle qualité rigoureux et une gestion de la granularité. Contrairement aux ensembles de données précédents, qui sont limités par des modalités spécifiques ou des annotations clairsemées, IMed-361M couvre 14 modalités et 204 cibles de segmentation, totalisant 361 millions de masques - soit une moyenne de 56 masques par image. Enfin, nous avons développé un réseau de base IMIS sur cet ensemble de données qui prend en charge la génération de masques de haute qualité grâce à des entrées interactives, comprenant des clics, des boîtes englobantes, des invites textuelles et leurs combinaisons. Nous évaluons ses performances sur des tâches de segmentation d'images médicales sous plusieurs perspectives, démontrant une précision et une évolutivité supérieures par rapport aux modèles de segmentation interactive existants. Pour faciliter la recherche sur les modèles fondamentaux en vision par ordinateur médicale, nous publions l'IMed-361M et le modèle sur https://github.com/uni-medical/IMIS-Bench.
La Tomographie par Ordinateur (CT) est l'une des modalités les plus populaires pour l'imagerie médicale. De loin, les images CT ont contribué aux ensembles de données volumétriques les plus importants disponibles publiquement pour les tâches de segmentation médicale, couvrant les structures anatomiques du corps entier. De grandes quantités d'images CT du corps entier offrent la possibilité de pré-entraîner des modèles puissants, par exemple, STU-Net pré-entraîné de manière supervisée, pour segmenter de nombreuses structures anatomiques. Cependant, il reste incertain dans quelles conditions ces modèles pré-entraînés peuvent être transférés à diverses tâches de segmentation médicale ultérieures, en particulier pour segmenter d'autres modalités et diverses cibles. Pour résoudre ce problème, un benchmark à grande échelle pour une évaluation complète est crucial pour trouver ces conditions. Ainsi, nous avons collecté 87 ensembles de données publics variant en modalité, cible et taille d'échantillon pour évaluer la capacité de transfert des modèles pré-entraînés CT du corps entier. Nous avons ensuite utilisé un modèle représentatif, STU-Net avec plusieurs échelles de modèles, pour réaliser un apprentissage par transfert entre modalités et cibles. Nos résultats expérimentaux montrent que (1) il peut y avoir un effet de goulot d'étranglement concernant la taille de l'ensemble de données lors du fine-tuning, avec une amélioration plus importante à la fois sur les ensembles de données de petite et grande taille que sur ceux de taille moyenne. (2) Les modèles pré-entraînés sur le CT du corps entier démontrent un transfert de modalité efficace, s'adaptant bien à d'autres modalités telles que l'IRM. (3) Le pré-entraînement sur le CT du corps entier soutient non seulement de bonnes performances en matière de détection de structures, mais montre également une efficacité dans la détection de lésions, démontrant une adaptabilité à travers les tâches cibles. Nous espérons que cette évaluation ouverte à grande échelle de l'apprentissage par transfert pourra orienter les futures recherches en segmentation d'images médicales volumétriques.
AdamW a été l'optimiseur par défaut pour la pré-formation des transformers. Pendant de nombreuses années, notre communauté recherche des optimiseurs plus rapides et plus stables n'ayant que des résultats positifs. Dans ce travail, nous proposons une modification en une seule ligne dans Pytorch pour tout optimiseur basé sur le momentum, que nous renommons Optimiseur Prudent, par exemple C-AdamW et C-Lion. Notre résultat théorique montre que cette modification préserve la fonction hamiltonienne d'Adam et ne rompt pas la garantie de convergence selon l'analyse de Lyapunov. De plus, une toute nouvelle famille d'optimiseurs est révélée par notre compréhension théorique. Parmi eux, nous choisissons le plus simple pour des expériences empiriques, montrant une accélération de la pré-formation de Llama et MAE jusqu'à 1,47 fois. Le code est disponible sur https://github.com/kyleliang919/C-Optim
La génération de vidéos narratives (SVG) a récemment émergé en tant que tâche visant à créer des vidéos longues, multi-mouvements, multi-scènes qui représentent de manière cohérente l'histoire décrite dans le script texte d'entrée. Le SVG présente un grand potentiel pour la création de contenus divers dans les médias et le divertissement; cependant, il présente également des défis significatifs : (1) les objets doivent présenter une gamme de mouvements complexes et détaillés, (2) plusieurs objets doivent apparaître de manière cohérente à travers les scènes, et (3) les sujets peuvent nécessiter plusieurs mouvements avec des transitions fluides au sein d'une seule scène. Pour relever ces défis, nous proposons DreamRunner, une méthode novatrice de génération de vidéos à partir d'histoires : Tout d'abord, nous structurons le script d'entrée en utilisant un grand modèle de langage (LLM) pour faciliter à la fois la planification des scènes à gros grains et la planification détaillée de la disposition et des mouvements au niveau des objets. Ensuite, DreamRunner propose une adaptation à l'épreuve du temps augmentée par la récupération pour capturer les priorités de mouvement cibles pour les objets dans chaque scène, soutenant une personnalisation de mouvement diversifiée basée sur des vidéos récupérées, facilitant ainsi la génération de nouvelles vidéos avec des mouvements scriptés complexes. Enfin, nous proposons un module d'attention 3D basé sur des régions spatiales-temporelles et une injection de priorité SR3AI pour la liaison détaillée des mouvements des objets et le contrôle sémantique image par image. Nous comparons DreamRunner avec diverses références SVG, démontrant des performances de pointe en termes de cohérence des personnages, d'alignement du texte et de transitions fluides. De plus, DreamRunner présente une forte capacité à suivre de manière détaillée les conditions dans la génération compositionnelle de texte en vidéo, surpassant significativement les références sur T2V-ComBench. Enfin, nous validons la capacité robuste de DreamRunner à générer des interactions multi-objets avec des exemples qualitatifs.
Les tokenizers visuels sont fondamentaux pour la génération d'images. Ils convertissent les données visuelles en jetons discrets, permettant aux modèles basés sur les transformateurs d'exceller dans la génération d'images. Malgré leur succès, les tokenizers basés sur VQ tels que VQGAN rencontrent des limitations significatives en raison de tailles de vocabulaire restreintes. Étendre simplement le codebook conduit souvent à une instabilité d'entraînement et à des gains de performance décroissants, rendant la scalabilité un défi critique. Dans ce travail, nous introduisons la Quantification Factorisée (FQ), une approche novatrice qui revitalise les tokenizers basés sur VQ en décomposant un grand codebook en plusieurs sous-codebooks indépendants. Cette factorisation réduit la complexité de recherche des grands codebooks, permettant une tokenisation visuelle plus efficace et évolutive. Pour garantir que chaque sous-codebook capture des informations distinctes et complémentaires, nous proposons une régularisation de la désentrelacement qui réduit explicitement la redondance, favorisant la diversité à travers les sous-codebooks. De plus, nous intégrons l'apprentissage de représentation dans le processus d'entraînement, en tirant parti des modèles de vision pré-entraînés tels que CLIP et DINO pour infuser une richesse sémantique dans les représentations apprises. Cette conception garantit que notre tokenizer capture divers niveaux sémantiques, conduisant à des représentations plus expressives et désentrelacées. Les expériences montrent que le modèle FQGAN proposé améliore considérablement la qualité de reconstruction des tokenizers visuels, atteignant des performances de pointe. Nous démontrons en outre que ce tokenizer peut être efficacement adapté à la génération d'images auto-régressive. https://showlab.github.io/FQGAN
Nous émettons l'hypothèse qu'un historique visuel d'un utilisateur avec des images reflétant sa vie quotidienne offre des informations précieuses sur ses centres d'intérêt et préférences, et peut être exploité pour la personnalisation. Parmi les nombreux défis à relever pour atteindre cet objectif, le principal est la diversité et les bruits dans l'historique visuel, contenant des images qui ne sont pas nécessairement liées à une tâche de recommandation, ne reflétant pas nécessairement l'intérêt de l'utilisateur, voire n'étant pas nécessairement pertinents pour ses préférences. Les systèmes de recommandation existants reposent soit sur des journaux d'interaction utilisateur spécifiques à la tâche, tels que l'historique d'achats en ligne pour des recommandations d'achats, soit se concentrent sur des signaux textuels. Nous proposons une approche novatrice, VisualLens, qui extrait, filtre et affine les représentations d'images, et exploite ces signaux pour la personnalisation. Nous avons créé deux nouveaux bancs d'essai avec des historiques visuels agnostiques à la tâche, et montrons que notre méthode améliore les recommandations de pointe de 5 à 10 % sur Hit@3, et s'améliore par rapport au GPT-4o de 2 à 5 %. Notre approche ouvre la voie à des recommandations personnalisées dans des scénarios où les méthodes traditionnelles échouent.
Nous présentons une méthode pour apprendre de nouveaux concepts en utilisant uniquement leur description textuelle. Nous appelons cette méthode Transfert de Connaissances. De manière similaire à la perception humaine, nous exploitons l'interaction multimodale pour introduire de nouveaux concepts. Nous émettons l'hypothèse qu'un codeur visuel pré-entraîné contient suffisamment de caractéristiques de bas niveau déjà apprises (par exemple, forme, apparence, couleur) qui peuvent être utilisées pour décrire des concepts de haut niveau inconnus. En fournissant une description textuelle du concept nouveau, notre méthode fonctionne en alignant les caractéristiques de bas niveau connues du codeur visuel sur sa description textuelle de haut niveau. Nous montrons que le Transfert de Connaissances peut introduire avec succès de nouveaux concepts dans des modèles multimodaux, de manière très efficace, en ne nécessitant qu'une seule description du concept cible. Notre approche est compatible à la fois avec des codeurs textuels et visuels séparés (par exemple, CLIP) et des paramètres partagés entre les modalités. Nous montrons également que, en suivant le même principe, le Transfert de Connaissances peut améliorer les concepts déjà connus par le modèle. En exploitant le Transfert de Connaissances, nous améliorons les performances en zéro-shot sur différentes tâches telles que la classification, la segmentation, la recherche d'images-texte et la légende.
La transition de l'architecture x86 à l'architecture ARM devient de plus en plus courante dans divers domaines, principalement en raison de l'efficacité énergétique d'ARM et des performances améliorées dans des secteurs traditionnels. Cependant, ce changement d'ISA pose des défis significatifs, principalement en raison de l'importante écosystème hérité de logiciels x86 et du manque de portabilité entre les écosystèmes propriétaires et les piles logicielles. Cet article présente CRT, un transpileur léger basé sur LLM qui convertit automatiquement l'assembleur x86 en assembleur ARM. Notre approche comble l'écart architectural fondamental entre le CISC de x86 et le RISC d'ARM tout en préservant la sémantique des programmes et en optimisant les performances. Nous évaluons CRT sur diverses applications du monde réel, atteignant une précision de traduction de 79,25% de x86 vers ARMv5 sur notre suite de tests complète, et une précision de 88,68% de x86 vers RISC-V. Dans des déploiements pratiques sur le matériel Apple M2 (ARMv8), notre code transpilé obtient un gain de vitesse de 1,73 fois par rapport au moteur de virtualisation Rosetta 2 d'Apple, tout en offrant une efficacité mémoire 2,41 fois supérieure et une consommation d'énergie 1,47 fois meilleure. À travers des tests et des analyses, nous montrons que CRT navigue avec succès entre la division CISC/RISC et génère un code RISC correctement exécutable malgré les barrières du "langage" machine. Nous mettons à disposition notre code, nos modèles, nos ensembles de données d'entraînement et nos benchmarks sur : https://ahmedheakl.github.io/asm2asm/.
Les modèles multimodaux de grande taille (LMM), existants, se concentrent généralement sur seulement quelques régions et langues. Alors que les LMM continuent de s'améliorer, il est de plus en plus important de veiller à ce qu'ils comprennent les contextes culturels, respectent les sensibilités locales et soutiennent les langues à faibles ressources, tout en intégrant efficacement les indices visuels correspondants. Dans le but de créer des modèles multimodaux mondiaux culturellement diversifiés, notre proposition de Banc d'Évaluation Toutes Langues Comptent (ALM-bench) représente le plus grand et le plus complet effort à ce jour pour évaluer les LMM à travers 100 langues. ALM-bench met au défi les modèles existants en testant leur capacité à comprendre et raisonner sur des images culturellement diverses associées à du texte dans différentes langues, y compris de nombreuses langues à faibles ressources traditionnellement sous-représentées dans la recherche sur les LMM. Le banc d'essai offre un cadre d'évaluation robuste et nuancé comprenant divers formats de questions, y compris vrai/faux, choix multiples et questions ouvertes, qui sont ensuite divisées en catégories de réponses courtes et longues. La conception d'ALM-bench garantit une évaluation complète de la capacité d'un modèle à gérer des niveaux variés de difficulté dans le raisonnement visuel et linguistique. Pour capturer la riche diversité des cultures mondiales, ALM-bench sélectionne soigneusement du contenu provenant de 13 aspects culturels distincts, allant des traditions et rituels aux personnalités célèbres et aux célébrations. Ainsi, ALM-bench offre non seulement un terrain d'essai rigoureux pour les LMM open source et propriétaires de pointe, mais met également en lumière l'importance de l'inclusivité culturelle et linguistique, encourageant le développement de modèles capables de servir efficacement les populations mondiales diverses. Notre banc d'essai est disponible publiquement.
La génération et l'édition de scènes 3D basées sur du texte présentent un potentiel significatif pour rationaliser la création de contenu grâce à des interactions utilisateur intuitives. Alors que les avancées récentes exploitent le Splatting Gaussien 3D (3DGS) pour un rendu haute fidélité et en temps réel, les méthodes existantes sont souvent spécialisées et axées sur des tâches spécifiques, manquant d'un cadre unifié pour la génération et l'édition. Dans cet article, nous présentons SplatFlow, un cadre complet qui comble cette lacune en permettant la génération et l'édition directes en 3DGS. SplatFlow comprend deux composants principaux : un modèle de flux rectifié multi-vues (RF) et un décodeur de Splatting Gaussien (GSDecoder). Le modèle RF multi-vues opère dans l'espace latent, générant des images multi-vues, des profondeurs et des poses de caméra simultanément, conditionnés par des instructions textuelles, abordant ainsi des défis tels que les échelles de scène diverses et les trajectoires de caméra complexes dans des environnements réels. Ensuite, le GSDecoder traduit efficacement ces sorties latentes en représentations 3DGS à travers une méthode 3DGS à propagation avant. En exploitant des techniques d'inversion et d'inpainting sans entraînement, SplatFlow permet une édition 3DGS transparente et prend en charge une large gamme de tâches 3D, notamment l'édition d'objets, la synthèse de nouvelles vues et l'estimation de la pose de la caméra, au sein d'un cadre unifié sans nécessiter de pipelines complexes supplémentaires. Nous validons les capacités de SplatFlow sur les ensembles de données MVImgNet et DL3DV-7K, démontrant sa polyvalence et son efficacité dans diverses tâches de génération, d'édition et d'inpainting en 3D.
Il est bien connu que la Chaîne de Pensée peut considérablement améliorer les performances des LLMs sur des tâches complexes. Cependant, étant donné qu'elle entraîne également des vitesses d'inférence plus lentes et des coûts computationnels plus élevés, de nombreuses recherches ont tenté d'utiliser la Chaîne de Pensée implicite, qui ne nécessite pas que les LLMs génèrent explicitement les étapes intermédiaires. Cependant, il existe encore un écart entre leur efficacité et les méthodes typiques de Chaîne de Pensée explicite. Cela nous amène à douter : la Chaîne de Pensée implicite est-elle vraiment équivalente à la Chaîne de Pensée explicite ? Par conséquent, dans cette étude, nous abordons cette question à travers des expériences. Nous examinons les informations des étapes intermédiaires à partir des états cachés du modèle lorsqu'il effectue une Chaîne de Pensée implicite. Les résultats indiquent de manière surprenante que les LLMs réfléchissent à peine aux étapes intermédiaires, suggérant qu'ils peuvent simplement se fier à l'expérience plutôt qu'à un raisonnement strict étape par étape. De plus, nous constatons que les capacités de raisonnement implicite des LLMs sont sujettes à des fluctuations et instables, ce qui confirme la nécessité d'une Chaîne de Pensée explicite pour soutenir efficacement des tâches complexes.
Un défi ouvert fondamental dans l'échelle moderne des LLM est le manque de compréhension autour des capacités émergentes. En particulier, il est connu que la perte de pré-entraînement des modèles de langage est hautement prévisible en fonction du calcul. Cependant, les capacités en aval sont bien moins prévisibles - parfois même en montrant des sauts émergents - ce qui rend difficile d'anticiper les capacités des futurs modèles. Dans ce travail, nous posons d'abord la tâche de prédiction de l'émergence : en ayant accès à des LLM actuels qui ont une précision aléatoire en quelques essais sur une tâche, pouvons-nous prédire si les futurs modèles (GPT-N+1) auront une précision non négligeable sur cette tâche ? Nous découvrons ensuite un aperçu simple pour ce problème : le fine-tuning des LLM sur une tâche donnée peut déplacer le point d'émergence dans l'échelle vers des modèles moins capables. Pour opérationnaliser cet aperçu, nous pouvons affiner les LLM avec des quantités variables de données et ajuster une fonction paramétrique qui prédit quand l'émergence se produira (c'est-à-dire, "les lois de l'émergence"). Nous validons cette approche en utilisant quatre bancs d'essai NLP standard où des LLM open-source à grande échelle démontrent déjà l'émergence (MMLU, GSM8K, CommonsenseQA et CoLA). En n'utilisant que des LLM à petite échelle, nous constatons que, dans certains cas, nous pouvons prédire avec précision si des modèles entraînés avec jusqu'à 4 fois plus de calcul ont émergé. Enfin, nous présentons une étude de cas de deux utilisations réalistes pour la prédiction de l'émergence.
Les modèles de séquence modernes (par exemple, les Transformers, les RNN linéaires, etc.) ont émergé en tant que colonne vertébrale dominante des récents cadres d'apprentissage profond, principalement en raison de leur efficacité, de leur puissance de représentation et/ou de leur capacité à capturer des dépendances à longue portée. L'adoption de ces modèles de séquence pour les données structurées en graphe a récemment gagné en popularité en tant qu'alternative aux Réseaux Neuronaux à Passage de Messages (MPNNs). Cependant, il existe un manque de fondement commun sur ce qui constitue un bon modèle de séquence de graphe, ainsi qu'une description mathématique des avantages et des lacunes liés à l'adoption de différents modèles de séquence pour l'apprentissage sur les graphes. À cette fin, nous présentons d'abord le Modèle de Séquence de Graphe (GSM), un cadre unificateur pour l'adoption de modèles de séquence pour les graphes, composé de trois étapes principales : (1) Tokenisation, qui traduit le graphe en un ensemble de séquences ; (2) Encodage Local, qui code les voisinages locaux autour de chaque nœud ; et (3) Encodage Global, qui utilise un modèle de séquence évolutif pour capturer les dépendances à longue portée au sein des séquences. Ce cadre nous permet de comprendre, d'évaluer et de comparer la puissance des différentes colonnes vertébrales de modèles de séquence dans les tâches sur les graphes. Nos évaluations théoriques de la puissance de représentation des Transformers et des modèles récurrents modernes à travers le prisme des tâches de graphe globales et locales montrent qu'il existe à la fois des aspects négatifs et positifs pour les deux types de modèles. S'appuyant sur cette observation, nous présentons GSM++, un modèle hybride rapide qui utilise l'algorithme de Clustering d'Affinité Hiérarchique (HAC) pour tokeniser le graphe en séquences hiérarchiques, puis utilise une architecture hybride de Transformer pour coder ces séquences. Nos résultats théoriques et expérimentaux soutiennent la conception de GSM++, montrant que GSM++ surpasse les références dans la plupart des évaluations de référence.
Nous étudions la segmentation de parties en monde ouvert en 3D : segmenter n'importe quelle partie de n'importe quel objet en fonction de n'importe quelle requête textuelle. Les méthodes précédentes sont limitées en termes de catégories d'objets et de vocabulaires de parties. Les récents progrès en IA ont démontré des capacités efficaces de reconnaissance en monde ouvert en 2D. Inspirés par ces avancées, nous proposons un modèle de prédiction directe en monde ouvert pour la segmentation de parties en 3D qui peut être appliqué en zéro-shot à n'importe quel objet. Notre approche, appelée Find3D, entraîne un modèle d'incorporation de points de catégorie générale sur des actifs 3D à grande échelle provenant d'Internet sans aucune annotation humaine. Elle combine un moteur de données, alimenté par des modèles de base pour l'annotation des données, avec une méthode d'entraînement contrastive. Nous obtenons de bonnes performances et une généralisation sur plusieurs ensembles de données, avec une amélioration allant jusqu'à 3 fois de l'indice mIoU par rapport à la méthode suivante. Notre modèle est de 6 à plus de 300 fois plus rapide que les références existantes. Pour encourager la recherche en segmentation de parties 3D en monde ouvert de catégorie générale, nous publions également un banc d'essai pour les objets et parties générales. Site du projet : https://ziqi-ma.github.io/find3dsite/
L'estimation de pose agnostique à la catégorie (CAPE) localise des points clés à travers diverses catégories d'objets avec un seul modèle, en utilisant une ou quelques images de support annotées. Des travaux récents ont montré que l'utilisation d'un graphe de pose (c'est-à-dire, traiter les points clés comme des nœuds dans un graphe plutôt que des points isolés) aide à gérer les occlusions et à rompre la symétrie. Cependant, ces méthodes supposent un graphe de pose statique avec des arêtes de poids égal, ce qui conduit à des résultats sous-optimaux. Nous introduisons EdgeCape, un nouveau cadre qui surmonte ces limitations en prédisant les poids des arêtes du graphe, ce qui optimise la localisation. Pour exploiter davantage les connaissances a priori structurales, nous proposons d'intégrer un Biais Structurel Markovien, qui module l'interaction d'auto-attention entre les nœuds en fonction du nombre de sauts entre eux. Nous montrons que cela améliore la capacité du modèle à capturer les dépendances spatiales globales. Évalué sur le benchmark MP-100, qui comprend 100 catégories et plus de 20 000 images, EdgeCape atteint des résultats de pointe dans le cadre 1-shot et se classe parmi les méthodes de taille similaire dans le cadre 5-shot, améliorant significativement la précision de la localisation des points clés. Notre code est disponible publiquement.