Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
1197
Nous présentons phi-4, un modèle de langage de 14 milliards de paramètres développé avec une recette d'entraînement centrée principalement sur la qualité des données. Contrairement à la plupart des modèles de langage, où la pré-formation est principalement basée sur des sources de données organiques telles que le contenu web ou le code, phi-4 intègre stratégiquement des données synthétiques tout au long du processus d'entraînement. Alors que les modèles précédents de la famille Phi distillaient largement les capacités d'un modèle enseignant (notamment GPT-4), phi-4 dépasse considérablement son modèle enseignant en ce qui concerne les capacités de questions-réponses axées sur les STEM, apportant la preuve que nos techniques de génération de données et de post-entraînement vont au-delà de la distillation. Malgré des changements minimes dans l'architecture de phi-3, phi-4 obtient de solides performances par rapport à sa taille - en particulier sur des référentiels axés sur le raisonnement - grâce à l'amélioration des données, du programme d'entraînement et des innovations dans le schéma de post-entraînement.
Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
993
La création de systèmes d'IA capables d'interagir avec des environnements sur de longues périodes, similaire à la cognition humaine, est un objectif de recherche de longue date. Les récents progrès dans les modèles de langage multimodaux de grande taille (MLLM) ont réalisé des avancées significatives dans la compréhension du monde ouvert. Cependant, le défi de la perception en continu et simultanée en flux, de la mémoire et du raisonnement reste largement inexploré. Les MLLM actuels sont limités par leur architecture de séquence à séquence, ce qui restreint leur capacité à traiter les entrées et générer des réponses simultanément, semblable à l'incapacité de penser tout en percevant. De plus, se reposer sur de longs contextes pour stocker des données historiques est impraticable pour des interactions à long terme, car conserver toutes les informations devient coûteux et inefficace. Par conséquent, au lieu de s'appuyer sur un modèle de base unique pour effectuer toutes les fonctions, ce projet s'inspire du concept d'IA généraliste spécialisée et introduit des mécanismes de perception, de raisonnement et de mémoire en flux désenchevêtrés, permettant une interaction en temps réel avec des entrées vidéo et audio en flux. Le cadre proposé, InternLM-XComposer2.5-OmniLive (IXC2.5-OL), se compose de trois modules clés : (1) Module de Perception en Flux : Traite les informations multimodales en temps réel, stocke les détails clés en mémoire et déclenche le raisonnement en réponse aux requêtes de l'utilisateur. (2) Module de Mémoire Longue Multi-modale : Intègre la mémoire à court terme et à long terme, comprime les souvenirs à court terme en souvenirs à long terme pour une récupération efficace et une précision améliorée. (3) Module de Raisonnement : Répond aux requêtes et exécute des tâches de raisonnement, en coordination avec les modules de perception et de mémoire. Ce projet simule une cognition semblable à celle humaine, permettant aux modèles de langage multimodaux de grande taille de fournir un service continu et adaptatif au fil du temps.
Les grands modèles de langage multimodaux (MLLM) ont connu des progrès rapides ces dernières années, mais continuent de rencontrer des difficultés en perception visuelle de bas niveau (LLVP) - en particulier en ce qui concerne la capacité à décrire avec précision les détails géométriques d'une image. Cette capacité est cruciale pour des applications dans des domaines tels que la robotique, l'analyse d'images médicales et la fabrication. Dans cet article, nous introduisons d'abord Geoperception, une référence conçue pour évaluer la capacité d'un MLLM à retranscrire avec précision des informations géométriques 2D à partir d'une image. En utilisant cette référence, nous démontrons les limites des principaux MLLMs, puis menons une étude empirique approfondie pour explorer des stratégies visant à améliorer leurs performances sur des tâches géométriques. Nos résultats mettent en lumière les avantages de certaines architectures de modèles, techniques d'entraînement et stratégies de données, notamment l'utilisation de données synthétiques haute fidélité et d'un entraînement multi-étapes avec un programme de données. Notamment, nous constatons qu'un programme de données permet aux modèles d'apprendre des tâches complexes de compréhension de la géométrie qu'ils échouent à apprendre à partir de zéro. En exploitant ces enseignements, nous développons Euclide, une famille de modèles spécifiquement optimisés pour une forte perception géométrique de bas niveau. Bien que purement entraîné sur des données multimodales synthétiques, Euclide montre une forte capacité de généralisation à des formes géométriques nouvelles. Par exemple, Euclide surpasse le meilleur modèle propriétaire, Gemini-1.5-Pro, jusqu'à 58,56% sur certaines tâches de référence Geoperception et de 10,65% en moyenne sur l'ensemble des tâches.
Alors que les Modèles de Langage Multi-Modaux (MLLMs) évoluent, il est essentiel de développer des capacités au-delà d'un seul domaine pour répondre à la demande croissante d'une IA plus polyvalente et efficace. Cependant, les omni-modèles précédents ont insuffisamment exploré la parole, négligeant son intégration avec la multi-modalité. Nous présentons Lyra, un MLLM efficace qui améliore les capacités multi-modales, y compris la compréhension avancée des longues conversations, la compréhension du son, l'efficacité inter-modale et l'interaction vocale fluide. Pour atteindre l'efficacité et les capacités centrées sur la parole, Lyra utilise trois stratégies : (1) en tirant parti des modèles larges open-source existants et d'un LoRA multi-modal proposé pour réduire les coûts de formation et les besoins en données ; (2) en utilisant un régulariseur et extracteur latent multi-modal pour renforcer la relation entre la parole et les autres modalités, améliorant ainsi les performances du modèle ; et (3) en construisant un ensemble de données de haute qualité et étendu comprenant 1,5 million d'échantillons de données multi-modaux (langage, vision, audio) et 12 000 échantillons de longues conversations, permettant à Lyra de traiter des entrées de longues conversations complexes et d'atteindre une cognition omni plus robuste. Comparé à d'autres méthodes omni, Lyra atteint des performances de pointe sur divers benchmarks de vision-langage, vision-parole et parole-langage, tout en utilisant moins de ressources computationnelles et moins de données d'entraînement.
Les modèles génératifs multimodaux nécessitent une approche unifiée pour traiter à la fois les données discrètes (par exemple, texte et code) et les données continues (par exemple, image, audio, vidéo). Dans ce travail, nous proposons le Modèle de Langage Latent (LatentLM), qui intègre de manière transparente les données continues et discrètes en utilisant des Transformateurs causaux. Plus précisément, nous utilisons un autoencodeur variationnel (VAE) pour représenter les données continues sous forme de vecteurs latents et introduisons la diffusion du jeton suivant pour la génération autorégressive de ces vecteurs. De plus, nous développons le sigma-VAE pour relever les défis de l'effondrement de la variance, ce qui est crucial pour la modélisation autorégressive. Des expériences approfondies démontrent l'efficacité de LatentLM à travers diverses modalités. Dans la génération d'images, LatentLM dépasse les Transformateurs de Diffusion à la fois en performance et en extensibilité. Lorsqu'il est intégré dans de grands modèles de langage multimodaux, LatentLM fournit une interface polyvalente qui unifie la génération et la compréhension multimodales. Les résultats expérimentaux montrent que LatentLM atteint des performances favorables par rapport à Transfusion et aux modèles quantifiés par vecteurs dans le cadre de l'augmentation des jetons d'entraînement. Dans la synthèse texte-parole, LatentLM surpasse le modèle VALL-E 2 de pointe en similitude et en robustesse des locuteurs, tout en nécessitant 10 fois moins d'étapes de décodage. Les résultats établissent LatentLM comme une approche hautement efficace et évolutive pour faire progresser les grands modèles multimodaux.
Les agents d'Interface Graphique Utilisateur (GUI) ont un grand potentiel pour automatiser des tâches complexes dans divers environnements numériques, des applications web aux logiciels de bureau. Cependant, le développement de tels agents est entravé par le manque de données de trajectoire multi-étapes de haute qualité nécessaires pour un entraînement efficace. Les approches existantes reposent sur des annotations humaines coûteuses et intensives en main-d'œuvre, les rendant non durables à grande échelle. Pour relever ce défi, nous proposons AgentTrek, un pipeline de synthèse de données évolutif qui génère des trajectoires d'agents GUI de haute qualité en exploitant des tutoriels web. Notre méthode rassemble automatiquement des textes de type tutoriel sur internet, les transforme en objectifs de tâche avec des instructions étape par étape, et utilise un agent de modèle de langage visuel pour simuler leur exécution dans un environnement numérique réel. Un évaluateur basé sur le VLM garantit la correction des trajectoires générées. Nous démontrons que l'entraînement des agents GUI avec ces trajectoires synthétisées améliore significativement leur ancrage et leurs performances de planification par rapport aux modèles actuels. De plus, notre approche est plus rentable par rapport aux méthodes traditionnelles d'annotation humaine. Ce travail souligne le potentiel de la relecture guidée avec des tutoriels web comme stratégie viable pour l'entraînement à grande échelle des agents GUI, ouvrant la voie à des agents numériques plus capables et autonomes.
Les modèles de diffusion texte-vers-image (T2I) existants rencontrent plusieurs limitations, notamment des tailles de modèle importantes, des temps d'exécution lents et une génération de faible qualité sur les appareils mobiles. Cet article vise à relever tous ces défis en développant un modèle T2I extrêmement petit et rapide qui génère des images haute résolution et de haute qualité sur les plateformes mobiles. Nous proposons plusieurs techniques pour atteindre cet objectif. Tout d'abord, nous examinons systématiquement les choix de conception de l'architecture du réseau pour réduire les paramètres du modèle et la latence, tout en garantissant une génération de haute qualité. Ensuite, pour améliorer encore la qualité de la génération, nous utilisons la distillation des connaissances entre architectures à partir d'un modèle beaucoup plus grand, en utilisant une approche multi-niveaux pour guider l'entraînement de notre modèle à partir de zéro. Troisièmement, nous permettons une génération en quelques étapes en intégrant un guidage adversarial avec la distillation des connaissances. Pour la première fois, notre modèle SnapGen démontre la génération d'images de 1024x1024 px sur un appareil mobile en environ 1,4 seconde. Sur ImageNet-1K, notre modèle, avec seulement 372M de paramètres, atteint un FID de 2,06 pour une génération de 256x256 px. Sur les bancs d'essai T2I (c'est-à-dire GenEval et DPG-Bench), notre modèle, avec seulement 379M de paramètres, surpasse des modèles à grande échelle avec des milliards de paramètres, tout en étant significativement plus petit (par exemple, 7 fois plus petit que SDXL, 14 fois plus petit que IF-XL).
Des réalisations significatives dans la personnalisation des modèles de diffusion ont été observées. Les méthodes conventionnelles sans réglage encodent principalement plusieurs images de référence en moyennant leurs plongements d'image comme condition d'injection, mais une telle opération indépendante de l'image ne peut pas interagir entre les images pour capturer des éléments visuels cohérents parmi les multiples références. Bien que l'adaptation à faible rang basée sur le réglage (LoRA) puisse extraire efficacement des éléments cohérents parmi plusieurs images tout au long du processus d'entraînement, elle nécessite un affinage spécifique pour chaque groupe d'images distinct. Cet article présente EasyRef, une nouvelle méthode d'adaptation plug-and-play qui permet aux modèles de diffusion d'être conditionnés par plusieurs images de référence et la consigne textuelle. Pour exploiter efficacement des éléments visuels cohérents parmi plusieurs images, nous exploitons les capacités de compréhension multi-images et de suivi des instructions du modèle de langage multimodal large (MLLM), le poussant à capturer des éléments visuels cohérents en fonction de l'instruction. De plus, injecter les représentations du MLLM dans le processus de diffusion à travers des adaptateurs peut facilement se généraliser à des domaines non vus, en extrayant les éléments visuels cohérents au sein de données non vues. Pour atténuer les coûts computationnels et améliorer la préservation des détails fins, nous introduisons une stratégie efficace d'agrégation de références et un schéma d'entraînement progressif. Enfin, nous présentons MRBench, un nouveau banc d'essai de génération d'images multi-références. Les résultats expérimentaux démontrent qu'EasyRef surpasse à la fois les méthodes sans réglage comme IP-Adapter et les méthodes basées sur le réglage comme LoRA, atteignant une qualité esthétique supérieure et une généralisation zéro-shot robuste à travers des domaines divers.
Étant donné les progrès rapides de l'IA générative, il est urgent de comparer et de choisir systématiquement entre les nombreux modèles et configurations disponibles. L'ampleur et la polyvalence de telles évaluations rendent l'utilisation de juges basés sur les LLM une solution convaincante pour ce défi. De manière cruciale, cette approche nécessite d'abord de valider la qualité du juge LLM lui-même. Les travaux antérieurs se sont concentrés sur l'évaluation basée sur des instances des juges LLM, où un juge est évalué sur un ensemble de réponses, ou de paires de réponses, tout en étant agnostique quant à leurs systèmes sources. Nous soutenons que ce cadre néglige des facteurs critiques affectant le classement au niveau du système, tels que le biais positif ou négatif d'un juge envers certains systèmes. Pour combler cette lacune, nous menons la première étude à grande échelle des juges LLM en tant que classeurs de systèmes. Les scores des systèmes sont générés en agrégeant les scores de jugement sur plusieurs sorties système, et la qualité du juge est évaluée en comparant le classement des systèmes résultant à un classement basé sur des humains. Au-delà de l'évaluation globale du juge, notre analyse fournit une caractérisation détaillée du comportement du juge, y compris leur caractère décisif et leur biais.
Zexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu
184
La récupération de la géométrie et des matériaux d'objets à partir d'une seule image est complexe en raison de sa nature sous-contrainte. Dans cet article, nous présentons Neural LightRig, un nouveau cadre qui améliore l'estimation intrinsèque en exploitant des conditions d'éclairage auxiliaires à partir de priors de diffusion 2D. Plus précisément, 1) nous utilisons d'abord des priors d'éclairage à partir de modèles de diffusion à grande échelle pour construire notre modèle de diffusion multi-éclairage sur un ensemble de données de rééclairage synthétique avec des conceptions dédiées. Ce modèle de diffusion génère plusieurs images cohérentes, chacune éclairée par des sources lumineuses ponctuelles dans différentes directions. 2) En utilisant ces images d'éclairage variées pour réduire l'incertitude de l'estimation, nous entraînons un grand modèle de tampon G avec une architecture U-Net pour prédire avec précision les normales de surface et les matériaux. Des expériences approfondies valident que notre approche surpasse significativement les méthodes de pointe, permettant une estimation précise des normales de surface et des matériaux PBR avec des effets de rééclairage saisissants. Le code et l'ensemble de données sont disponibles sur notre page de projet à l'adresse https://projects.zxhezexin.com/neural-lightrig.
Namgyu Kang, Jaemin Oh, Youngjoon Hong, Eunbyung Park
182
L'approximation des Équations aux Dérivées Partielles (EDP) à l'aide de réseaux neuronaux a connu des avancées significatives grâce aux Réseaux Neuronaux Informés par la Physique (PINNs). Malgré leur cadre d'optimisation simple et leur flexibilité pour implémenter diverses EDP, les PINNs souffrent souvent d'une précision limitée en raison du biais spectral des Perceptrons Multi-Couches (MLPs), qui ont du mal à apprendre efficacement les composantes haute fréquence et non linéaires. Récemment, les représentations de maillage paramétrique combinées avec des réseaux neuronaux ont été étudiées comme une approche prometteuse pour éliminer les biais inductifs des réseaux neuronaux. Cependant, elles nécessitent généralement des grilles de très haute résolution et un grand nombre de points de collocation pour atteindre une grande précision tout en évitant les problèmes de surajustement. De plus, les positions fixes des paramètres de maillage limitent leur flexibilité, rendant difficile l'approximation précise d'EDP complexes. Pour surmonter ces limitations, nous proposons les Gaussiennes Informées par la Physique (PIGs), qui combinent des plongements de caractéristiques en utilisant des fonctions gaussiennes avec un réseau neuronal léger. Notre approche utilise des paramètres entraînables pour la moyenne et la variance de chaque gaussienne, permettant un ajustement dynamique de leurs positions et formes pendant l'entraînement. Cette adaptabilité permet à notre modèle d'approximer de manière optimale les solutions d'EDP, contrairement aux modèles avec des positions de paramètres fixes. De plus, l'approche proposée maintient le même cadre d'optimisation utilisé dans les PINNs, nous permettant de bénéficier de leurs excellentes propriétés. Les résultats expérimentaux montrent les performances compétitives de notre modèle sur diverses EDP, démontrant son potentiel en tant qu'outil robuste pour résoudre des EDP complexes. Notre page de projet est disponible sur https://namgyukang.github.io/Physics-Informed-Gaussians/
Les capteurs modernes produisent des flux de données haute résolution de plus en plus riches. En raison de contraintes de ressources, les systèmes d'apprentissage automatique rejettent la grande majorité de ces informations en réduisant la résolution. L'apprentissage dans le domaine compressé permet aux modèles de fonctionner sur des représentations latentes compactes, offrant ainsi une résolution effective plus élevée pour le même budget. Cependant, les systèmes de compression existants ne sont pas idéaux pour l'apprentissage compressé. La codage de transformée linéaire et les systèmes de compression appris de bout en bout réduisent le débit binaire, mais ne réduisent pas uniformément la dimensionnalité ; par conséquent, ils n'augmentent pas efficacement l'efficacité. Les autoencodeurs génératifs réduisent la dimensionnalité, mais leurs objectifs adversaires ou perceptuels entraînent une perte d'informations significative. Pour remédier à ces limitations, nous présentons WaLLoC (Compression Lossy Apprise par Ondelettes), une architecture de codec neuronal qui combine le codage de transformée linéaire avec des autoencodeurs non linéaires réducteurs de dimensionnalité. WaLLoC insère un autoencodeur asymétrique peu profond et un goulot d'étranglement d'entropie entre une transformée en paquets d'ondelettes inversible. Sur plusieurs mesures clés, WaLLoC surpasse les autoencodeurs utilisés dans les modèles de diffusion latente de pointe. WaLLoC ne nécessite pas de pertes perceptuelles ou adverses pour représenter les détails haute fréquence, offrant ainsi une compatibilité avec des modalités au-delà des images RVB et de l'audio stéréo. L'encodeur de WaLLoC se compose presque entièrement d'opérations linéaires, le rendant exceptionnellement efficace et adapté au calcul mobile, à la télédétection et à l'apprentissage direct à partir de données compressées. Nous démontrons la capacité de WaLLoC pour l'apprentissage dans le domaine compressé à travers plusieurs tâches, notamment la classification d'images, la colorisation, la compréhension de documents et la séparation des sources musicales. Notre code, nos expériences et nos codecs audio et image pré-entraînés sont disponibles sur https://ut-sysml.org/walloc.
Cette étude présente une nouvelle technique de super-résolution d'images basée sur l'inversion de la diffusion, visant à exploiter les riches connaissances a priori d'images encapsulées dans de grands modèles de diffusion pré-entraînés pour améliorer les performances de la super-résolution. Nous concevons une stratégie de Prédiction partielle du bruit pour construire un état intermédiaire du modèle de diffusion, qui sert de point d'échantillonnage initial. Au cœur de notre approche se trouve un prédicteur de bruit profond pour estimer les cartes de bruit optimales pour le processus de diffusion en avant. Une fois entraîné, ce prédicteur de bruit peut être utilisé pour initialiser partiellement le processus d'échantillonnage le long de la trajectoire de diffusion, générant le résultat haute résolution souhaité. Comparé aux approches existantes, notre méthode offre un mécanisme d'échantillonnage flexible et efficace qui prend en charge un nombre arbitraire d'étapes d'échantillonnage, allant d'une à cinq. Même avec une seule étape d'échantillonnage, notre méthode démontre des performances supérieures ou comparables aux approches récentes de pointe. Le code et le modèle sont disponibles publiquement sur https://github.com/zsyOAOA/InvSR.
Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang
133
Avec l'adoption croissante et les capacités des modèles vision-langage (VLM), il est nécessaire de disposer de références qui captent les interactions authentiques entre l'utilisateur et les VLM. En réponse, nous avons créé VisionArena, un ensemble de données de 230 000 conversations du monde réel entre les utilisateurs et les VLM. Collectées à partir de Chatbot Arena - une plateforme open-source où les utilisateurs interagissent avec les VLM et soumettent des votes de préférence - VisionArena couvre 73 000 utilisateurs uniques, 45 VLM et 138 langues. Notre ensemble de données contient trois sous-ensembles : VisionArena-Chat, 200 000 conversations simples et multi-tours entre un utilisateur et un VLM ; VisionArena-Battle, 30 000 conversations comparant deux VLM anonymes avec des votes de préférence des utilisateurs ; et VisionArena-Bench, une référence automatique de 500 prompts d'utilisateurs divers qui approximent efficacement les classements des modèles en direct de Chatbot Arena. De plus, nous mettons en lumière les types de questions posées par les utilisateurs, l'influence du style de réponse sur les préférences, et les domaines où les modèles échouent souvent. Nous constatons que les tâches ouvertes telles que la légende et l'humour dépendent fortement du style, et que les VLM actuels ont du mal avec le raisonnement spatial et les tâches de planification. Enfin, nous montrons que le fine-tuning du même modèle de base sur VisionArena-Chat surpasse Llava-Instruct-158K, avec un gain de 17 points sur MMMU et un gain de 46 points sur le banc d'essai WildVision. Ensemble de données disponible sur https://huggingface.co/lmarena-ai.
Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
112
La pratique standard pour développer les MLLM contemporains est de fournir des caractéristiques des encodeurs de vision dans le LLM et de les entraîner avec une supervision en langage naturel. Dans ce travail, nous postulons une opportunité négligée d'optimiser les représentations intermédiaires du LLM à travers une perspective de vision (objectif), c'est-à-dire que la supervision uniquement en langage naturel est sous-optimale pour la capacité de compréhension visuelle du MLLM. À cette fin, nous proposons OLA-VLM, la première approche qui distille des connaissances dans les représentations cachées du LLM à partir d'un ensemble de représentations visuelles cibles. Tout d'abord, nous formulons l'objectif lors de la phase de pré-entraînement dans les MLLM comme une optimisation couplée de l'incorporation visuelle prédictive et de la prédiction du prochain jeton de texte. Ensuite, nous étudions les MLLM entraînés uniquement avec une supervision en langage naturel et identifions une corrélation positive entre la qualité des représentations visuelles au sein de ces modèles et leurs performances ultérieures. De plus, en sondant notre OLA-VLM, nous observons une amélioration de la qualité de représentation grâce à l'optimisation de l'incorporation. Ensuite, nous démontrons que notre OLA-VLM surpasse les références à encodeur unique et à encodeurs multiples, prouvant la supériorité de notre approche par rapport à l'alimentation explicite des caractéristiques correspondantes au LLM. En particulier, OLA-VLM améliore les performances de manière significative, avec une marge moyenne allant jusqu'à 2,5% sur divers benchmarks, avec une amélioration notable de 8,7% sur la tâche de Profondeur dans CV-Bench. Notre code est disponible en open source sur https://github.com/SHI-Labs/OLA-VLM.
Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
102
Cet article présente RuleArena, un nouveau et stimulant banc d'essai conçu pour évaluer la capacité des grands modèles de langage (GML) à suivre des règles complexes du monde réel en matière de raisonnement. Couvrant trois domaines pratiques - les frais de bagages aériens, les transactions de la NBA et les réglementations fiscales - RuleArena évalue la compétence des GML à traiter des instructions complexes en langage naturel exigeant une compréhension de long contexte, un raisonnement logique et des calculs mathématiques précis. Deux caractéristiques clés distinguent RuleArena des bancs d'essai traditionnels de raisonnement basé sur des règles : (1) il va au-delà des représentations logiques du premier ordre standard, et (2) il est ancré dans des scénarios authentiques et pratiques, offrant des perspectives sur l'adéquation et la fiabilité des GML pour des applications du monde réel. Nos résultats révèlent plusieurs limitations notables des GML : (1) ils ont du mal à identifier et appliquer les règles appropriées, étant fréquemment perturbés par des réglementations similaires mais distinctes, (2) ils ne peuvent pas effectuer de manière cohérente des calculs mathématiques précis, même lorsqu'ils identifient correctement les règles pertinentes, et (3) en général, ils obtiennent de mauvais résultats dans le banc d'essai. Ces résultats mettent en lumière des défis importants pour améliorer les capacités de raisonnement guidé par les règles des GML dans des applications de la vie réelle.
Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre
92
L'utilisation de matériaux protégés par des droits d'auteur dans la formation de modèles de langage génératif soulève des questions juridiques et éthiques cruciales. Cet article présente un cadre et les résultats de l'évaluation empirique de l'impact des matériaux protégés par des droits d'auteur sur les performances des grands modèles de langage (LLM) pour le norvégien. Nous avons constaté que les livres et les journaux contribuent de manière positive lorsque les modèles sont évalués sur un ensemble diversifié de référentiels norvégiens, tandis que les œuvres de fiction peuvent entraîner une baisse des performances. Nos expériences pourraient éclairer la création d'un système de compensation pour les auteurs dont les œuvres contribuent au développement de l'IA.
Andrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli
92
La désambiguïsation de sens des mots (WSD) est la tâche qui consiste à associer un mot dans un contexte donné à sa signification la plus appropriée parmi un ensemble de candidats possibles. Alors que cette tâche a récemment suscité un regain d'intérêt, avec des systèmes atteignant des performances supérieures à l'accord inter-annotateurs estimé, au moment de la rédaction, elle peine encore à trouver des applications concrètes. Nous soutenons qu'une des raisons derrière cela est la difficulté d'appliquer le WSD au texte brut. En effet, dans la formulation standard, les modèles travaillent en supposant que a) tous les segments à désambiguïser ont déjà été identifiés, et b) toutes les significations candidates possibles de chaque segment sont fournies, deux exigences qui sont loin d'être triviales. Dans ce travail, nous présentons une nouvelle tâche appelée Liaison de Sens des Mots (WSL) où, étant donné un texte en entrée et un inventaire de sens de référence, les systèmes doivent à la fois identifier quels segments désambiguïser et ensuite les relier à leur signification la plus appropriée. Nous proposons une architecture basée sur les transformers pour cette tâche et évaluons en détail à la fois ses performances et celles des systèmes WSD de pointe adaptés au WSL, en assouplissant de manière itérative les hypothèses du WSD. Nous espérons que notre travail favorisera une intégration plus facile de la sémantique lexicale dans les applications concrètes.
Les Flots Normalisés (NF) sont des modèles basés sur la vraisemblance pour des entrées continues. Ils ont démontré des résultats prometteurs à la fois en estimation de densité et en modélisation générative, mais ont reçu relativement peu d'attention ces dernières années. Dans ce travail, nous démontrons que les NF sont plus puissants que ce qui était précédemment admis. Nous présentons TarFlow : une architecture simple et évolutive qui permet des modèles NF très performants. TarFlow peut être considéré comme une variante basée sur les Transformers des Flots Autoregressifs Masqués (MAFs) : il se compose d'une pile de blocs Transformers autoregressifs sur des patchs d'image, alternant la direction de l'autorégression entre les couches. TarFlow est facile à entraîner de bout en bout et capable de modéliser et de générer directement des pixels. Nous proposons également trois techniques clés pour améliorer la qualité des échantillons : l'augmentation du bruit gaussien pendant l'entraînement, une procédure de débruitage post-entraînement et une méthode de guidage efficace pour les paramètres conditionnels de classe et inconditionnels. En combinant ces éléments, TarFlow établit de nouveaux résultats de pointe en termes d'estimation de vraisemblance pour les images, surpassant largement les méthodes précédentes, et génère des échantillons avec une qualité et une diversité comparables aux modèles de diffusion, pour la première fois avec un modèle NF autonome. Nous mettons notre code à disposition sur https://github.com/apple/ml-tarflow.
Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
82
Les récentes avancées dans la personnalisation texte-image ont permis une génération de haute fidélité et riche en contexte d'images personnalisées, permettant à des concepts spécifiques d'apparaître dans une variété de scénarios. Cependant, les méthodes actuelles peinent à combiner plusieurs modèles personnalisés, entraînant souvent un enchevêtrement d'attributs ou nécessitant un entraînement séparé pour préserver la distinction des concepts. Nous présentons LoRACLR, une approche novatrice pour la génération d'images multi-concepts qui fusionne plusieurs modèles LoRA, chacun affiné pour un concept distinct, en un seul modèle unifié sans entraînement individuel supplémentaire. LoRACLR utilise un objectif contrastif pour aligner et fusionner les espaces de poids de ces modèles, garantissant la compatibilité tout en minimisant les interférences. En imposant des représentations distinctes mais cohérentes pour chaque concept, LoRACLR permet une composition de modèle efficace et évolutive pour une synthèse d'images multi-concepts de haute qualité. Nos résultats mettent en évidence l'efficacité de LoRACLR dans la fusion précise de plusieurs concepts, faisant progresser les capacités de génération d'images personnalisées.
Les modèles de reconstruction à faible nombre de vues existants dépendent fortement de poses de caméra précises connues. Cependant, dériver les extrinsèques et intrinsèques de la caméra à partir d'images à faible nombre de vues présente des défis importants. Dans ce travail, nous présentons FreeSplatter, un cadre de reconstruction à propagation avant hautement évolutif capable de générer des Gaussiennes 3D de haute qualité à partir d'images à faible nombre de vues non calibrées et de récupérer leurs paramètres de caméra en quelques secondes seulement. FreeSplatter est construit sur une architecture de transformateur rationalisée, comprenant des blocs d'auto-attention séquentiels qui facilitent l'échange d'informations entre les jetons d'image multi-vues et les décodent en primitives Gaussiennes 3D pixel par pixel. Les primitives Gaussiennes prédites sont situées dans un cadre de référence unifié, permettant une modélisation 3D de haute fidélité et une estimation instantanée des paramètres de la caméra à l'aide de solveurs prêts à l'emploi. Pour répondre à la fois à la reconstruction centrée sur l'objet et au niveau de la scène, nous entraînons deux variantes de modèle de FreeSplatter sur des ensembles de données étendus. Dans les deux scénarios, FreeSplatter surpasse les références de pointe en termes de qualité de reconstruction et de précision d'estimation de pose. De plus, nous mettons en avant le potentiel de FreeSplatter pour améliorer la productivité des applications aval, telles que la création de contenu texte/image en 3D.
L'animation d'image humaine contrôlable vise à générer des vidéos à partir d'images de référence en utilisant des vidéos de pilotage. En raison des signaux de contrôle limités fournis par des directives clairsemées (par exemple, pose squelettique), des travaux récents ont tenté d'introduire des conditions denses supplémentaires (par exemple, carte de profondeur) pour garantir l'alignement des mouvements. Cependant, de telles directives denses strictes nuisent à la qualité de la vidéo générée lorsque la forme du corps du personnage de référence diffère significativement de celle de la vidéo de pilotage. Dans cet article, nous présentons DisPose pour extraire des signaux de contrôle plus généralisables et efficaces sans entrée dense supplémentaire, qui démêle la pose squelettique clairsemée dans l'animation d'image humaine en guidage de champ de mouvement et correspondance des points clés. Plus précisément, nous générons un champ de mouvement dense à partir d'un champ de mouvement clairsemé et de l'image de référence, ce qui fournit un guidage dense au niveau de la région tout en maintenant la généralisation du contrôle de pose clairsemé. Nous extrayons également des caractéristiques de diffusion correspondant aux points clés de la pose de l'image de référence, et ces caractéristiques ponctuelles sont ensuite transférées à la pose cible pour fournir des informations d'identité distinctes. Pour s'intégrer de manière transparente dans les modèles existants, nous proposons un hybride ControlNet plug-and-play qui améliore la qualité et la cohérence des vidéos générées tout en gelant les paramètres du modèle existant. De vastes expériences qualitatives et quantitatives démontrent la supériorité de DisPose par rapport aux méthodes actuelles. Code : https://github.com/lihxxx/DisPose.
Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
62
Les ensembles de tests fixes traditionnels sont insuffisants pour évaluer les capacités ouvertes des modèles de base. Pour remédier à cela, nous proposons ONEBench (OpeN-Ended Benchmarking), un nouveau paradigme de test qui consolide des ensembles de données d'évaluation individuels dans un pool d'échantillons unifié et en expansion continue. ONEBench permet aux utilisateurs de générer des benchmarks d'évaluation ouverts personnalisés à partir de ce pool, correspondant à des capacités spécifiques d'intérêt. En agrégeant des échantillons à travers des ensembles de tests, ONEBench permet l'évaluation de capacités diverses au-delà de celles couvertes par les ensembles de tests originaux, tout en atténuant le surajustement et les biais des ensembles de données. Surtout, il encadre l'évaluation des modèles comme un processus collectif de sélection et d'agrégation des tests au niveau des échantillons.
Le passage des benchmarks spécifiques aux tâches à ONEBench introduit deux défis : (1) l'hétérogénéité et (2) l'incomplétude. L'hétérogénéité fait référence à l'agrégation de diverses mesures, tandis que l'incomplétude décrit la comparaison de modèles évalués sur différents sous-ensembles de données. Pour relever ces défis, nous explorons des algorithmes pour agréger des mesures dispersées en scores fiables de modèles. Notre algorithme d'agrégation garantit l'identifiabilité (récupération asymptotique des scores réels) et une convergence rapide, permettant un classement précis des modèles avec moins de données. Sur des ensembles de données homogènes, nous montrons que notre algorithme d'agrégation fournit des classements fortement corrélés avec ceux produits par des scores moyens. Nous démontrons également une robustesse à environ 95 % de mesures manquantes, réduisant le coût de l'évaluation jusqu'à 20 fois avec peu ou pas de changement dans les classements des modèles. Nous introduisons ONEBench-LLM pour les modèles de langage et ONEBench-LMM pour les modèles de vision-langage, unifiant les évaluations dans ces domaines. Dans l'ensemble, nous présentons une technique d'évaluation ouverte, capable d'agréger des mesures au niveau des échantillons incomplètes et hétérogènes pour faire évoluer continuellement un benchmark aux côtés des modèles de base en développement rapide.
Le domaine académique de la navigation visuelle guidée par l'apprentissage peut être généralement catégorisé en recherche spécifique de catégorie de haut niveau et en navigation guidée par le langage de bas niveau, en fonction de la granularité de l'instruction linguistique, dans lequel le premier met l'accent sur le processus d'exploration, tandis que le second se concentre sur le suivi de commandes textuelles détaillées. Malgré les objectifs différents de ces tâches, les exigences sous-jacentes d'interprétation des instructions, de compréhension de l'environnement et d'inférence des décisions d'action restent cohérentes. Cet article consolide diverses tâches de navigation dans un cadre unifié et générique -- nous étudions les difficultés fondamentales de partage des connaissances générales et d'exploitation des capacités spécifiques à la tâche dans l'apprentissage de la navigation et proposons un nouveau modèle State-Adaptive Mixture of Experts (SAME) qui permet efficacement à un agent d'inférer des décisions basées sur un langage de granularité différente et des observations dynamiques. Alimenté par SAME, nous présentons un agent polyvalent capable de traiter simultanément sept tâches de navigation qui surpasse ou atteint des performances très comparables à celles des agents spécifiques à la tâche.
Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
52
Nous abordons le problème de l'estimation de la cible du regard, qui vise à prédire où une personne regarde dans une scène. Prédire la cible du regard d'une personne nécessite de raisonner à la fois sur l'apparence de la personne et le contenu de la scène. Les travaux antérieurs ont développé des pipelines de plus en plus complexes et conçus manuellement pour l'estimation de la cible du regard, fusionnant soigneusement des caractéristiques provenant d'encodeurs de scène distincts, d'encodeurs de tête et de modèles auxiliaires pour des signaux tels que la profondeur et la pose. Motivés par le succès des extracteurs de caractéristiques polyvalents sur diverses tâches visuelles, nous proposons Gaze-LLE, un nouveau cadre de transformateur qui rationalise l'estimation de la cible du regard en exploitant les caractéristiques d'un encodeur DINOv2 figé. Nous extrayons une seule représentation de caractéristiques pour la scène et appliquons un indicateur de position spécifique à la personne pour décoder le regard avec un module léger. Nous démontrons des performances de pointe sur plusieurs référentiels de regard et fournissons une analyse approfondie pour valider nos choix de conception. Notre code est disponible sur : http://github.com/fkryan/gazelle.
Les modèles de traduction neuronale (NMT) sont généralement entraînés sur des ensembles de données avec une exposition limitée aux domaines scientifiques, techniques et éducatifs. Les modèles de traduction ont donc généralement du mal avec les tâches impliquant une compréhension scientifique ou un jargon technique. Leur performance est même pire pour les langues indiennes à faibles ressources. Trouver un ensemble de données de traduction adapté à ces domaines en particulier représente un défi difficile. Dans cet article, nous abordons ce problème en créant un corpus parallèle multilingue contenant plus de 2,8 millions de lignes de paires de traduction de haute qualité de l'anglais vers l'indo-aryen et de l'indo-aryen vers l'indo-aryen à travers 8 langues indiennes. Nous parvenons à cela en extrayant des textes bilingues à partir des transcriptions traduites par des humains des conférences vidéo NPTEL. Nous affinons également et évaluons des modèles NMT en utilisant ce corpus et surpassons tous les autres modèles disponibles publiquement pour les tâches dans le domaine. Nous démontrons également le potentiel de généralisation aux tâches de traduction hors domaine en améliorant la référence de plus de 2 BLEU en moyenne pour ces langues indiennes sur le banc d'essai Flores+. Nous sommes heureux de rendre notre modèle et notre ensemble de données disponibles via ce lien : https://huggingface.co/SPRINGLab.