Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Chameleon, une famille de modèles mixtes multimodaux basés sur des tokens et utilisant une fusion précoce, capables de comprendre et de générer des images et du texte dans n'importe quelle séquence arbitraire. Nous décrivons une approche d'entraînement stable dès la conception, une recette d'alignement et une paramétrisation architecturale adaptée au cadre mixte multimodal basé sur des tokens et utilisant une fusion précoce. Les modèles sont évalués sur un large éventail de tâches, incluant la réponse à des questions visuelles, la génération de légendes d'images, la génération de texte, la génération d'images et la génération mixte multimodale de long format. Chameleon démontre des capacités étendues et générales, incluant des performances de pointe dans les tâches de génération de légendes d'images, surpasse Llama-2 dans les tâches textuelles tout en étant compétitif avec des modèles tels que Mixtral 8x7B et Gemini-Pro, et réalise une génération d'images non triviale, le tout dans un seul modèle. Il égal ou dépasse également les performances de modèles beaucoup plus grands, incluant Gemini Pro et GPT-4V, selon les jugements humains sur une nouvelle évaluation de génération mixte multimodale de long format, où soit l'invite soit les sorties contiennent des séquences mixtes d'images et de texte. Chameleon représente une avancée significative dans la modélisation unifiée de documents multimodaux complets.
L'adaptation à faible rang (LoRA) est une méthode largement utilisée pour le réglage fin efficace en paramètres des grands modèles de langage. LoRA économise de la mémoire en entraînant uniquement des perturbations de faible rang sur des matrices de poids sélectionnées. Dans ce travail, nous comparons les performances de LoRA et du réglage fin complet sur deux domaines cibles, la programmation et les mathématiques. Nous considérons à la fois le réglage fin par instruction (environ 100 000 paires de prompts-réponses) et le pré-entraînement continu (environ 10 milliards de tokens non structurés). Nos résultats montrent que, dans la plupart des configurations, LoRA est nettement moins performant que le réglage fin complet. Néanmoins, LoRA présente une forme de régularisation souhaitable : il préserve mieux les performances du modèle de base sur des tâches en dehors du domaine cible. Nous montrons que LoRA offre une régularisation plus forte par rapport aux techniques courantes telles que la décroissance de poids et le dropout ; il contribue également à maintenir des générations plus diversifiées. Nous montrons que le réglage fin complet apprend des perturbations dont le rang est 10 à 100 fois supérieur aux configurations typiques de LoRA, ce qui pourrait expliquer une partie des écarts observés. Nous concluons en proposant des bonnes pratiques pour le réglage fin avec LoRA.
Les avancées en reconstruction 3D ont permis une capture 3D de haute qualité, mais nécessitent qu'un utilisateur collecte des centaines à des milliers d'images pour créer une scène 3D. Nous présentons CAT3D, une méthode pour créer n'importe quoi en 3D en simulant ce processus de capture du monde réel avec un modèle de diffusion multi-vues. Étant donné un nombre quelconque d'images d'entrée et un ensemble de nouvelles perspectives cibles, notre modèle génère des vues nouvelles hautement cohérentes d'une scène. Ces vues générées peuvent être utilisées comme entrée pour des techniques robustes de reconstruction 3D afin de produire des représentations 3D pouvant être rendues depuis n'importe quelle perspective en temps réel. CAT3D peut créer des scènes 3D entières en aussi peu qu'une minute, et surpasse les méthodes existantes pour la création de scènes 3D à partir d'une seule image ou de quelques vues. Consultez notre page de projet pour les résultats et les démonstrations interactives sur https://cat3d.github.io.
Les grands modèles de langage sont reconnus pour leur efficacité dans l'apprentissage en contexte avec peu d'exemples (ICL, in-context learning). Les avancées récentes dans les modèles fondationnels multimodaux ont permis des fenêtres de contexte d'une longueur sans précédent, offrant ainsi l'opportunité d'explorer leur capacité à réaliser l'ICL avec un nombre bien plus élevé d'exemples démonstratifs. Dans ce travail, nous évaluons la performance des modèles fondationnels multimodaux en passant de l'ICL avec peu d'exemples à l'ICL avec de nombreux exemples. Nous comparons GPT-4o et Gemini 1.5 Pro sur 10 jeux de données couvrant plusieurs domaines (imagerie naturelle, imagerie médicale, télédétection et imagerie moléculaire) et tâches (classification multi-classes, multi-labels et fine). Nous observons que l'ICL avec de nombreux exemples, incluant jusqu'à près de 2 000 exemples multimodaux, entraîne des améliorations substantielles par rapport à l'ICL avec peu d'exemples (<100 exemples) sur tous les jeux de données. De plus, la performance de Gemini 1.5 Pro continue de s'améliorer de manière log-linéaire jusqu'au nombre maximal d'exemples testés sur de nombreux jeux de données. Étant donné les coûts d'inférence élevés associés aux longs prompts requis pour l'ICL avec de nombreux exemples, nous explorons également l'impact du regroupement de plusieurs requêtes dans un seul appel API. Nous montrons que le regroupement de jusqu'à 50 requêtes peut entraîner des améliorations de performance dans les contextes zéro-shot et many-shot ICL, avec des gains substantiels dans le cadre zéro-shot sur plusieurs jeux de données, tout en réduisant drastiquement le coût et la latence par requête. Enfin, nous mesurons l'efficacité des modèles en termes de données ICL, c'est-à-dire la vitesse à laquelle les modèles apprennent à partir de plus d'exemples démonstratifs. Nous constatons que si GPT-4o et Gemini 1.5 Pro atteignent des performances similaires en zéro-shot sur les jeux de données, Gemini 1.5 Pro présente une efficacité des données ICL supérieure à celle de GPT-4o sur la plupart des jeux de données. Nos résultats suggèrent que l'ICL avec de nombreux exemples pourrait permettre aux utilisateurs d'adapter efficacement les modèles fondationnels multimodaux à de nouvelles applications et domaines. Notre codebase est disponible publiquement à l'adresse suivante : https://github.com/stanfordmlgroup/ManyICL.
Ce document présente Grounding DINO 1.5, une suite de modèles avancés de détection d'objets en ensemble ouvert développés par IDEA Research, visant à repousser les limites de la détection d'objets en ensemble ouvert. La suite comprend deux modèles : Grounding DINO 1.5 Pro, un modèle haute performance conçu pour une meilleure capacité de généralisation dans un large éventail de scénarios, et Grounding DINO 1.5 Edge, un modèle optimisé pour une vitesse accrue, répondant aux exigences de nombreuses applications nécessitant un déploiement en périphérie. Le modèle Grounding DINO 1.5 Pro améliore son prédécesseur en augmentant l'architecture du modèle, en intégrant un backbone visuel amélioré et en élargissant le jeu de données d'entraînement à plus de 20 millions d'images avec des annotations de grounding, permettant ainsi une compréhension sémantique plus riche. Le modèle Grounding DINO 1.5 Edge, bien que conçu pour l'efficacité avec des échelles de caractéristiques réduites, maintient des capacités de détection robustes grâce à son entraînement sur le même jeu de données complet. Les résultats empiriques démontrent l'efficacité de Grounding DINO 1.5, avec le modèle Grounding DINO 1.5 Pro atteignant un AP de 54,3 sur le benchmark de détection COCO et un AP de 55,7 sur le benchmark de transfert zero-shot LVIS-minival, établissant ainsi de nouveaux records pour la détection d'objets en ensemble ouvert. Par ailleurs, le modèle Grounding DINO 1.5 Edge, optimisé avec TensorRT, atteint une vitesse de 75,2 FPS tout en obtenant une performance zero-shot de 36,2 AP sur le benchmark LVIS-minival, le rendant plus adapté aux scénarios de calcul en périphérie. Des exemples de modèles et des démonstrations avec API seront disponibles sur https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
Dans ce travail, nous reconstruisons la structure 3D sous-jacente de scènes non géométriquement cohérentes. Nous concentrons notre analyse sur des images dessinées à la main provenant de dessins animés et d'anime. De nombreux dessins animés sont créés par des artistes sans moteur de rendu 3D, ce qui signifie que chaque nouvelle image d'une scène est dessinée à la main. Ces images dessinées à la main sont généralement des représentations fidèles du monde, mais uniquement dans un sens qualitatif, car il est difficile pour les humains de dessiner plusieurs perspectives d'un objet ou d'une scène de manière cohérente en 3D. Néanmoins, les gens peuvent facilement percevoir des scènes 3D à partir d'entrées incohérentes ! Dans ce travail, nous corrigeons les incohérences des dessins 2D pour reconstruire une structure 3D plausible, de sorte que les dessins déformés soient cohérents entre eux. Notre pipeline comprend un outil d'annotation convivial, une estimation de la pose de la caméra et une déformation d'image pour reconstruire une structure dense. Notre méthode déforme les images pour qu'elles respectent un modèle de caméra en perspective, permettant à nos résultats alignés d'être intégrés dans des méthodes de reconstruction de synthèse de nouvelles vues, afin de découvrir les dessins animés sous des angles jamais dessinés auparavant. Notre page de projet est https://toon3d.studio/.
Nous présentons Dual3D, un nouveau cadre de génération de texte-à-3D qui produit des actifs 3D de haute qualité à partir de textes en seulement 1 minute. L'élément clé est un modèle de diffusion latente multi-vues à double mode. Étant donné les latents multi-vues bruités, le mode 2D peut les débruiter efficacement avec un seul réseau de débruitage latent, tandis que le mode 3D peut générer une surface neuronale en tri-plan pour un débruitage cohérent basé sur le rendu. La plupart des modules pour les deux modes sont ajustés à partir d'un modèle de diffusion latente texte-à-image pré-entraîné pour éviter le coût élevé de l'entraînement à partir de zéro. Pour surmonter le coût élevé du rendu lors de l'inférence, nous proposons la stratégie d'inférence à basculement double mode pour n'utiliser que 1/10 des étapes de débruitage avec le mode 3D, générant ainsi un actif 3D en seulement 10 secondes sans sacrifier la qualité. La texture de l'actif 3D peut être encore améliorée par notre processus de raffinement de texture efficace en un temps court. Des expériences approfondies démontrent que notre méthode offre des performances de pointe tout en réduisant considérablement le temps de génération. Notre page de projet est disponible à l'adresse https://dual3d.github.io.
L'apprentissage en simulation et le transfert de la politique apprise vers le monde réel ont le potentiel de permettre la création de robots généralistes. Le défi majeur de cette approche est de combler les écarts entre la simulation et la réalité (sim-to-real). Les méthodes précédentes nécessitent souvent des connaissances spécifiques au domaine a priori. Nous soutenons qu'une manière simple d'obtenir ces connaissances est de demander à des humains d'observer et d'assister l'exécution des politiques des robots dans le monde réel. Les robots peuvent ainsi apprendre des humains pour combler divers écarts sim-to-real. Nous proposons TRANSIC, une approche basée sur les données pour permettre un transfert réussi de la simulation à la réalité, fondée sur un cadre humain-dans-la-boucle. TRANSIC permet aux humains d'augmenter les politiques de simulation pour surmonter divers écarts sim-to-real non modélisés de manière holistique, grâce à l'intervention et à la correction en ligne. Des politiques résiduelles peuvent être apprises à partir des corrections humaines et intégrées aux politiques de simulation pour une exécution autonome. Nous montrons que notre approche peut réaliser un transfert réussi de la simulation à la réalité dans des tâches de manipulation complexes et riches en contacts, comme l'assemblage de meubles. Grâce à l'intégration synergique des politiques apprises en simulation et des humains, TRANSIC est efficace comme approche holistique pour traiter divers écarts sim-to-real, souvent coexistants. Il présente des propriétés attrayantes, comme la capacité à évoluer avec l'effort humain. Les vidéos et le code sont disponibles à l'adresse https://transic-robot.github.io/