Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que les modèles de langage de grande taille (LLMs) sont devenus plus avancés, ils ont dépassé nos capacités à évaluer avec précision leur qualité. Non seulement il est difficile de trouver des données pour sonder adéquatement des propriétés spécifiques des modèles, mais évaluer la justesse d'une génération libre d'un modèle constitue en soi un défi. Pour remédier à cela, de nombreuses évaluations reposent désormais sur l'utilisation des LLMs eux-mêmes comme juges pour noter la qualité des sorties d'autres LLMs. Les évaluations utilisent le plus souvent un seul grand modèle comme GPT4. Bien que cette méthode ait gagné en popularité, elle est coûteuse, s'est avérée introduire un biais intramodèle, et dans ce travail, nous constatons que les très grands modèles sont souvent inutiles. Nous proposons plutôt d'évaluer les modèles en utilisant un Panel d'évaluateurs LLM (PoLL). À travers trois configurations distinctes de juges et couvrant six ensembles de données différents, nous constatons que l'utilisation d'un PoLL composé d'un plus grand nombre de modèles plus petits surpasse un seul grand juge, présente moins de biais intramodèle grâce à sa composition de familles de modèles disjointes, et ce tout en étant plus de sept fois moins coûteux.
Le décodage spéculatif a démontré son efficacité pour accélérer l'inférence des grands modèles de langage tout en maintenant une distribution d'échantillonnage cohérente. Cependant, l'approche conventionnelle consistant à entraîner un modèle de brouillon séparé pour atteindre un taux d'acceptation de jetons satisfaisant peut s'avérer coûteuse. S'inspirant de la sortie anticipée, nous proposons un nouveau cadre de décodage auto-spéculatif, Kangaroo, qui utilise un sous-réseau peu profond fixe comme modèle de brouillon auto-généré, les couches restantes servant de modèle cible plus large. Nous entraînons un module d'adaptation léger et efficace sur ce sous-réseau pour combler l'écart entre les capacités de représentation du sous-réseau et celles du modèle complet. Il est à noter que la latence d'inférence du modèle de brouillon auto-généré peut ne plus être négligeable par rapport au grand modèle, nécessitant des stratégies pour augmenter le taux d'acceptation des jetons tout en minimisant les étapes de génération du petit modèle. Pour relever ce défi, nous introduisons un mécanisme supplémentaire de sortie anticipée pour générer les jetons de brouillon. Plus précisément, nous interrompons la prédiction ultérieure du petit modèle pendant la phase de génération une fois que le niveau de confiance pour le jeton actuel tombe en dessous d'un certain seuil. Des expériences approfondies sur le Spec-Bench démontrent l'efficacité de Kangaroo. Sous vérification de séquence unique, Kangaroo atteint des accélérations allant jusqu'à 1,68 fois sur Spec-Bench, surpassant Medusa-1 avec 88,7 % de paramètres supplémentaires en moins (67M contre 591M). Le code de Kangaroo est disponible à l'adresse https://github.com/Equationliu/Kangaroo.
L'excellence dans une grande variété d'applications médicales représente un défi considérable pour l'IA, nécessitant un raisonnement avancé, un accès à des connaissances médicales à jour et une compréhension de données multimodales complexes. Les modèles Gemini, dotés de solides capacités générales en raisonnement multimodal et à contexte étendu, offrent des perspectives prometteuses dans le domaine médical. En s'appuyant sur ces atouts fondamentaux de Gemini, nous présentons Med-Gemini, une famille de modèles multimodaux hautement performants spécialisés en médecine, capables d'utiliser de manière fluide la recherche sur le web et pouvant être efficacement adaptés à de nouvelles modalités grâce à des encodeurs personnalisés. Nous évaluons Med-Gemini sur 14 benchmarks médicaux, établissant de nouvelles performances de pointe (state-of-the-art, SoTA) sur 10 d'entre eux, et surpassons la famille de modèles GPT-4 sur chaque benchmark où une comparaison directe est possible, souvent avec une marge significative. Sur le benchmark populaire MedQA (USMLE), notre modèle Med-Gemini le plus performant atteint une précision de 91,1 %, grâce à une nouvelle stratégie de recherche guidée par l'incertitude. Sur 7 benchmarks multimodaux, dont les NEJM Image Challenges et MMMU (santé et médecine), Med-Gemini améliore les performances de GPT-4V avec une marge relative moyenne de 44,5 %. Nous démontrons l'efficacité des capacités de contexte étendu de Med-Gemini grâce à des performances SoTA sur une tâche de recherche d'aiguille dans une botte de foin dans de longs dossiers de santé anonymisés et sur des questions-réponses basées sur des vidéos médicales, surpassant les méthodes spécialisées antérieures en utilisant uniquement l'apprentissage en contexte. Enfin, les performances de Med-Gemini suggèrent une utilité pratique en surpassant les experts humains sur des tâches telles que la synthèse de textes médicaux, tout en démontrant un potentiel prometteur pour le dialogue médical multimodal, la recherche médicale et l'éducation. Pris ensemble, nos résultats offrent des preuves convaincantes du potentiel de Med-Gemini, bien qu'une évaluation rigoureuse supplémentaire sera cruciale avant un déploiement réel dans ce domaine critique pour la sécurité.
Malgré les avancées des modèles de langage à grande échelle (LLMs) et des modèles multimodaux à grande échelle (LMMs), leur intégration dans des agents incarnés ancrés dans le langage et ressemblant à des humains reste incomplète, entravant la réalisation de tâches complexes dans des environnements physiques réels. Les intégrations existantes présentent souvent une limitation en matière de mise à disposition en open source, ce qui freine les progrès collectifs dans ce domaine. Nous présentons LEGENT, une plateforme ouverte et évolutive pour développer des agents incarnés utilisant des LLMs et des LMMs. LEGENT propose une double approche : un environnement 3D interactif et riche avec des agents communicatifs et actionnables, couplé à une interface conviviale, ainsi qu'un pipeline sophistiqué de génération de données exploitant des algorithmes avancés pour tirer parti de la supervision à grande échelle dans des mondes simulés. Dans nos expériences, un modèle embryonnaire vision-langage-action entraîné sur des données générées par LEGENT surpasse GPT-4V dans des tâches incarnées, démontrant des capacités de généralisation prometteuses.
La conception graphique est cruciale pour diverses applications, notamment la production cinématographique et la conception de jeux. Pour créer une scène de haute qualité, les designers doivent généralement passer des heures dans des logiciels comme Blender, où ils peuvent être amenés à intercaler et répéter des opérations, telles que la connexion de nœuds de matériaux, des centaines de fois. De plus, des objectifs de conception légèrement différents peuvent nécessiter des séquences complètement distinctes, rendant l'automatisation difficile. Dans cet article, nous proposons un système qui exploite les modèles vision-langage (VLMs), comme GPT-4V, pour explorer intelligemment l'espace des actions de conception afin d'arriver à une solution satisfaisant l'intention de l'utilisateur. Plus précisément, nous concevons un générateur de modifications basé sur la vision et un évaluateur d'état qui travaillent ensemble pour trouver la séquence d'actions correcte permettant d'atteindre l'objectif. Inspirés par le rôle de l'imagination visuelle dans le processus de conception humaine, nous complétons les capacités de raisonnement visuel des VLMs avec des images de référence "imaginées" générées par des modèles de génération d'images, fournissant ainsi un ancrage visuel aux descriptions langagières abstraites. Dans cet article, nous fournissons des preuves empiriques suggérant que notre système peut produire des séquences d'édition simples mais fastidieuses dans Blender pour des tâches telles que la modification de matériaux procéduraux à partir de textes et/ou d'images de référence, ainsi que l'ajustement des configurations d'éclairage pour des rendus de produits dans des scènes complexes.
Au-delà de la mise à l'échelle des modèles de base avec davantage de données ou de paramètres, les adaptateurs fine-tunés offrent une alternative pour générer des images personnalisées de haute fidélité à moindre coût. Ainsi, les adaptateurs ont été largement adoptés par les communautés open-source, accumulant une base de données de plus de 100 000 adaptateurs - dont la plupart sont hautement personnalisés avec des descriptions insuffisantes. Cet article explore le problème de l'appariement d'une instruction (prompt) à un ensemble d'adaptateurs pertinents, en s'appuyant sur des travaux récents qui mettent en avant les gains de performance obtenus par la composition d'adaptateurs. Nous présentons Stylus, qui sélectionne efficacement et compose automatiquement des adaptateurs spécifiques à une tâche en fonction des mots-clés d'une instruction. Stylus propose une approche en trois étapes : d'abord, il résume les adaptateurs avec des descriptions et des embeddings améliorés, puis il récupère les adaptateurs pertinents, et enfin il assemble davantage les adaptateurs en fonction des mots-clés de l'instruction en vérifiant leur adéquation à celle-ci. Pour évaluer Stylus, nous avons développé StylusDocs, un ensemble de données soigneusement sélectionné comprenant 75 000 adaptateurs avec des embeddings pré-calculés. Dans notre évaluation sur des points de contrôle populaires de Stable Diffusion, Stylus atteint une meilleure efficacité Pareto CLIP-FID et est deux fois plus préféré, tant par des évaluateurs humains que par des modèles multimodaux, par rapport au modèle de base. Consultez stylus-diffusion.github.io pour en savoir plus.
Les systèmes robotiques autonomes capables d'apprendre de nouvelles tâches de manipulation sont en passe de transformer des secteurs allant de la fabrication à l'automatisation des services. Cependant, les méthodes modernes (par exemple, VIP et R3M) rencontrent encore des obstacles significatifs, notamment l'écart de domaine entre les différentes incarnations robotiques et la rareté des exécutions réussies de tâches dans des espaces d'action spécifiques, ce qui entraîne des représentations de tâches mal alignées et ambiguës. Nous présentons Ag2Manip (Représentations Agent-Agnostiques pour la Manipulation), un cadre visant à surmonter ces défis grâce à deux innovations clés : une nouvelle représentation visuelle agent-agnostique dérivée de vidéos de manipulation humaine, où les spécificités des incarnations sont masquées pour améliorer la généralisation ; et une représentation d'action agent-agnostique qui abstrait la cinématique d'un robot en un proxy universel, mettant l'accent sur les interactions cruciales entre l'effecteur terminal et l'objet. La validation empirique d'Ag2Manip sur des benchmarks simulés comme FrankaKitchen, ManiSkill et PartManip montre une augmentation de 325 % des performances, obtenue sans démonstrations spécifiques au domaine. Les études d'ablation soulignent les contributions essentielles des représentations visuelles et d'action à ce succès. En étendant nos évaluations au monde réel, Ag2Manip améliore significativement les taux de réussite de l'apprentissage par imitation de 50 % à 77,5 %, démontrant son efficacité et sa généralisation à la fois dans des environnements simulés et physiques.
Le rôle significatif des vêtements dans l'apparence humaine souligne l'importance de la numérisation des vêtements pour la création d'humains numériques. Les récents progrès dans la création de contenu 3D sont essentiels pour la création d'humains numériques. Néanmoins, la génération de vêtements à partir de directives textuelles en est encore à ses débuts. Nous présentons un cadre de génération de vêtements 3D piloté par texte, DressCode, qui vise à démocratiser la conception pour les novices et offre un potentiel immense dans la conception de mode, l'essayage virtuel et la création d'humains numériques. Pour notre cadre, nous introduisons d'abord SewingGPT, une architecture basée sur GPT intégrant une attention croisée avec un embedding conditionné par le texte pour générer des patrons de couture avec des directives textuelles. Nous avons également adapté un modèle Stable Diffusion pré-entraîné pour la génération de textures PBR de haute qualité basées sur des tuiles. En exploitant un modèle de langage de grande taille, notre cadre génère des vêtements adaptés à l'infographie grâce à une interaction en langage naturel. Notre méthode facilite également la complétion de patrons et l'édition de textures, simplifiant le processus pour les concepteurs grâce à une interaction conviviale. Avec des évaluations complètes et des comparaisons avec d'autres méthodes de pointe, notre méthode démontre la meilleure qualité et l'alignement avec les invites d'entrée. Des études utilisateurs valident en outre nos résultats de rendu de haute qualité, mettant en évidence son utilité pratique et son potentiel dans des environnements de production.