Articles de recherche en IA sélectionnés quotidiennement avec traductions
La retouche d'images implique une variété de tâches complexes et nécessite des techniques de manipulation efficaces et précises. Dans cet article, nous présentons MagicQuill, un système intégré de retouche d'images qui permet la concrétisation rapide d'idées créatives. Notre système présente une interface rationalisée mais fonctionnellement robuste, permettant l'articulation d'opérations de retouche (par exemple, insertion d'éléments, effacement d'objets, modification de la couleur) avec une saisie minimale. Ces interactions sont surveillées par un grand modèle de langage multimodal (MLLM) pour anticiper les intentions de retouche en temps réel, contournant le besoin d'une saisie explicite de la commande. Enfin, nous appliquons une puissante priorité de diffusion, renforcée par un module plug-in à deux branches soigneusement appris, pour traiter les demandes de retouche avec un contrôle précis. Les résultats expérimentaux démontrent l'efficacité de MagicQuill dans la réalisation de retouches d'images de haute qualité. Veuillez visiter https://magic-quill.github.io pour essayer notre système.
Ce travail explore l'expansion des capacités des grands modèles de langage (LLM) pré-entraînés sur du texte pour générer des maillages 3D au sein d'un modèle unifié. Cela offre des avantages clés : (1) exploiter les connaissances spatiales déjà intégrées dans les LLM, provenant de sources textuelles telles que des tutoriels 3D, et (2) permettre la génération conversationnelle 3D et la compréhension des maillages. Un défi principal est de tokeniser efficacement les données de maillage 3D en tokens discrets que les LLM peuvent traiter de manière transparente. Pour y remédier, nous introduisons LLaMA-Mesh, une approche novatrice qui représente les coordonnées des sommets et les définitions des faces des maillages 3D sous forme de texte brut, permettant une intégration directe avec les LLM sans étendre le vocabulaire. Nous construisons un ensemble de données de fine-tuning supervisé (SFT) permettant aux LLM pré-entraînés de (1) générer des maillages 3D à partir de consignes textuelles, (2) produire des sorties textuelles et de maillage 3D entrelacées selon les besoins, et (3) comprendre et interpréter les maillages 3D. Notre travail est le premier à démontrer que les LLM peuvent être fine-tunés pour acquérir des connaissances spatiales complexes pour la génération de maillages 3D dans un format basé sur le texte, unifiant efficacement les modalités 3D et textuelles. LLaMA-Mesh atteint une qualité de génération de maillage comparable à celle des modèles entraînés à partir de zéro tout en maintenant de solides performances en génération de texte.
À mesure que les modèles linguistiques deviennent de plus en plus grands, leurs vocabulaires s'élargissent également. Cela a déplacé de manière disproportionnée l'empreinte mémoire des LLMs pendant l'entraînement vers une seule couche : l'entropie croisée dans le calcul de la perte. L'entropie croisée construit une matrice de logit avec des entrées pour chaque paire de jetons d'entrée et d'éléments de vocabulaire et, pour les petits modèles, consomme un ordre de grandeur de mémoire plus important que le reste du LLM combiné. Nous proposons Cut Cross-Entropy (CCE), une méthode qui calcule la perte d'entropie croisée sans matérialiser les logit pour tous les jetons dans la mémoire globale. Au lieu de cela, CCE ne calcule que le logit pour le jeton correct et évalue le log-sum-exp sur tous les logit à la volée. Nous mettons en œuvre un noyau personnalisé qui effectue les multiplications de matrices et la réduction log-sum-exp sur le vocabulaire en mémoire flash, rendant la consommation de mémoire globale pour le calcul de l'entropie croisée négligeable. Cela a un effet spectaculaire. En prenant le modèle Gemma 2 (2B) comme exemple, CCE réduit l'empreinte mémoire du calcul de la perte de 24 Go à 1 Mo, et la consommation totale de mémoire pendant le temps d'entraînement de la tête de classification de 28 Go à 1 Go. Pour améliorer le débit de CCE, nous exploitons la sparsité inhérente de softmax et proposons de sauter les éléments du calcul du gradient qui ont une contribution négligeable (c'est-à-dire inférieure à la précision numérique) au gradient. Les expériences démontrent que la réduction spectaculaire de la consommation de mémoire est accomplie sans sacrifier la vitesse d'entraînement ou la convergence.
Les grands modèles de langage (LLM) offrent de grandes promesses pour révolutionner les systèmes cliniques actuels en raison de leurs capacités supérieures dans les tâches de traitement de texte médical et les examens de licence médicale. Pendant ce temps, des modèles ML traditionnels tels que SVM et XGBoost ont encore principalement été adoptés dans les tâches de prédiction clinique. Une question émergente est de savoir si les LLM peuvent surpasser les modèles ML traditionnels en matière de prédiction clinique. Ainsi, nous avons mis en place un nouveau banc d'essai, ClinicalBench, pour étudier de manière exhaustive les capacités de modélisation prédictive clinique des LLM à usage général et médicaux, et les comparer aux modèles ML traditionnels. ClinicalBench englobe trois tâches courantes de prédiction clinique, deux bases de données, 14 LLM à usage général, 8 LLM médicaux et 11 modèles ML traditionnels. À travers une investigation empirique approfondie, nous découvrons que tant les LLM à usage général que les LLM médicaux, même avec des échelles de modèle différentes, des stratégies de formulation de requêtes ou de fine-tuning diverses, ne peuvent toujours pas surpasser les modèles ML traditionnels en matière de prédiction clinique, mettant en lumière leurs éventuelles lacunes en matière de raisonnement clinique et de prise de décision. Nous appelons à la prudence lorsque les praticiens adoptent les LLM dans les applications cliniques. ClinicalBench peut être utilisé pour combler le fossé entre le développement des LLM pour les soins de santé et la pratique clinique réelle.
Les enregistrements vidéo des activités des utilisateurs, en particulier les enregistrements de bureau, offrent une source riche de données pour comprendre les comportements des utilisateurs et automatiser les processus. Cependant, malgré les avancées dans les modèles Vision-Language (VLM) et leur utilisation croissante dans l'analyse vidéo, l'extraction des actions des utilisateurs à partir des enregistrements de bureau reste un domaine peu exploré. Cet article comble cette lacune en proposant deux nouvelles méthodes basées sur les VLM pour l'extraction des actions des utilisateurs : l'Approche Directe Basée sur les Images (DF), qui introduit directement des images échantillonnées dans les VLM, et l'Approche Différentielle Basée sur les Images (DiffF), qui intègre des différences d'images explicites détectées via des techniques de vision par ordinateur. Nous évaluons ces méthodes en utilisant un ensemble de données auto-créé de base et un benchmark avancé adapté de travaux antérieurs. Nos résultats montrent que l'approche DF atteint une précision de 70% à 80% dans l'identification des actions des utilisateurs, les séquences d'actions extraites étant rejouables via l'automatisation des processus robotiques. Nous constatons que bien que les VLM montrent un potentiel, l'incorporation de changements d'interface utilisateur explicites peut dégrader les performances, rendant l'approche DF plus fiable. Ce travail représente la première application des VLM pour l'extraction des séquences d'actions des utilisateurs à partir d'enregistrements de bureau, apportant de nouvelles méthodes, benchmarks et perspectives pour la recherche future.
Bien que les modèles de diffusion puissent générer des échantillons de qualité remarquablement élevée, ils sont intrinsèquement limités par leur coûteuse procédure d'échantillonnage itérative. Les modèles de cohérence (CM) ont récemment émergé comme une méthode prometteuse de distillation de modèles de diffusion, réduisant le coût de l'échantillonnage en générant des échantillons de haute fidélité en seulement quelques itérations. La distillation de modèles de cohérence vise à résoudre l'équation différentielle ordinaire (ODE) de flux de probabilité définie par un modèle de diffusion existant. Les CM ne sont pas directement formés pour minimiser l'erreur par rapport à un solveur d'ODE, mais utilisent plutôt un objectif plus facilement calculable. Pour étudier comment les CM résolvent efficacement l'ODE de flux de probabilité et l'effet de toute erreur induite sur la qualité des échantillons générés, nous introduisons les CM directs, qui minimisent directement cette erreur. De manière intrigante, nous constatons que les CM directs réduisent l'erreur de résolution de l'ODE par rapport aux CM, mais entraînent également une qualité d'échantillon nettement inférieure, remettant en question la raison pour laquelle les CM fonctionnent bien en premier lieu. Le code complet est disponible sur : https://github.com/layer6ai-labs/direct-cms.
La tendance à automatiser les opérations des réseaux cellulaires a augmenté avec la complexité croissante de ces systèmes. Malgré les progrès réalisés, une autonomie complète reste actuellement hors de portée en raison de la dépendance à l'intervention humaine pour la modélisation des comportements du réseau et la définition des politiques pour répondre aux exigences cibles. Les jumeaux numériques de réseau (NDTs) ont montré des promesses pour améliorer l'intelligence du réseau, mais la mise en œuvre réussie de cette technologie est limitée par des architectures spécifiques aux cas d'utilisation, limitant ainsi son rôle dans l'avancement de l'autonomie du réseau. Une intelligence réseau plus capable, ou "cerveau des télécommunications", est nécessaire pour permettre une gestion cellulaire autonome et sans faille du réseau. Les grands modèles de langage (LLMs) ont émergé comme des facilitateurs potentiels pour cette vision, mais font face à des défis dans la modélisation du réseau, en particulier dans le raisonnement et la manipulation de divers types de données. Pour combler ces lacunes, nous présentons Hermes, une chaîne d'agents LLM qui utilise des "plans" pour construire des instances de NDT à travers des étapes logiques structurées et explicables. Hermes permet la modélisation automatique, fiable et précise du réseau pour divers cas d'utilisation et configurations, marquant ainsi des progrès vers des opérations de réseau entièrement autonomes.