Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'optimisation des instructions a été largement adoptée pour garantir que les grands modèles de langage (LLM) suivent efficacement les instructions des utilisateurs. Les capacités de suivi des instructions résultantes des LLM dépendent fortement des ensembles de données d'instructions utilisés pour l'optimisation. Récemment, des ensembles de données d'instructions synthétiques ont émergé comme une solution économiquement viable pour fournir aux LLM des instructions diverses et de haute qualité. Cependant, les approches existantes supposent généralement que des modèles plus grands ou plus puissants sont de meilleurs enseignants pour l'optimisation des instructions, et adoptent donc simplement ces modèles comme générateurs de réponses aux instructions synthétiques. Dans cet article, nous remettons en question cette hypothèse couramment adoptée. Nos expériences approfondies sur cinq modèles de base et vingt générateurs de réponses révèlent que des modèles plus grands et plus puissants ne sont pas nécessairement de meilleurs enseignants pour les modèles plus petits. Nous appelons ce phénomène le Paradoxe des Modèles Plus Grands. Nous observons que les métriques existantes ne peuvent pas prédire précisément l'efficacité des générateurs de réponses car elles ignorent la compatibilité entre les enseignants et les modèles de base en cours de réglage fin. Nous développons donc une nouvelle métrique, appelée Récompense Ajustée pour la Compatibilité (RAC), pour mesurer l'efficacité des générateurs de réponses. Nos expériences sur cinq modèles de base démontrent que le RAC surpasse presque toutes les références.
Nous présentons JanusFlow, un cadre puissant qui unifie la compréhension et la génération d'images dans un seul modèle. JanusFlow introduit une architecture minimaliste qui intègre des modèles de langage autorégressifs avec un flux rectifié, une méthode de pointe en modélisation générative. Notre découverte clé démontre que le flux rectifié peut être entraîné de manière simple dans le cadre du grand modèle de langage, éliminant ainsi le besoin de modifications architecturales complexes. Pour améliorer davantage les performances de notre modèle unifié, nous adoptons deux stratégies clés : (i) découpler les encodeurs de compréhension et de génération, et (ii) aligner leurs représentations lors de l'entraînement unifié. Des expériences approfondies montrent que JanusFlow atteint des performances comparables ou supérieures aux modèles spécialisés dans leurs domaines respectifs, tout en surpassant significativement les approches unifiées existantes sur les bancs d'essai standard. Ce travail représente une avancée vers des modèles vision-langage plus efficaces et polyvalents.
La segmentation de pièces en 3D est une tâche cruciale et complexe en perception 3D, jouant un rôle vital dans des applications telles que la robotique, la génération 3D et l'édition 3D. Les méthodes récentes exploitent les puissants Modèles de Langage Vision (VLM) pour la distillation des connaissances de 2D à 3D, permettant d'atteindre une segmentation de pièces en 3D sans étiquetage. Cependant, ces méthodes sont limitées par leur dépendance aux instructions textuelles, ce qui restreint la scalabilité aux ensembles de données non étiquetés à grande échelle et la flexibilité dans la gestion des ambiguïtés de pièces. Dans ce travail, nous introduisons SAMPart3D, un cadre de segmentation de pièces en 3D sans étiquetage et scalable qui segmente tout objet 3D en parties sémantiques à plusieurs granularités, sans nécessiter d'ensembles d'étiquettes de pièces prédéfinis comme instructions textuelles. Pour la scalabilité, nous utilisons des modèles de vision fondamentaux agnostiques au texte pour distiller une colonne vertébrale d'extraction de caractéristiques 3D, permettant de passer à des ensembles de données 3D non étiquetés à grande échelle pour apprendre des connaissances 3D riches. Pour la flexibilité, nous distillons des caractéristiques 3D conscientes de la taille et des parties pour la segmentation de pièces en 3D à plusieurs granularités. Une fois que les parties segmentées sont obtenues à partir des caractéristiques 3D conscientes de la taille et des parties, nous utilisons des VLM pour attribuer des étiquettes sémantiques à chaque partie en fonction des rendus multi-vues. Comparé aux méthodes précédentes, notre SAMPart3D peut s'adapter à l'ensemble de données d'objets 3D à grande échelle récente Objaverse et gérer des objets complexes et non ordinaires. De plus, nous contribuons à un nouveau banc d'essai de segmentation de pièces en 3D pour pallier le manque de diversité et de complexité des objets et des pièces dans les bancs d'essai existants. Les expériences montrent que notre SAMPart3D surpasse significativement les méthodes existantes de segmentation de pièces en 3D sans étiquetage, et peut faciliter diverses applications telles que l'édition au niveau des pièces et la segmentation interactive.
Nous présentons BLIP3-KALE, un ensemble de données de 218 millions de paires image-texte qui comble l'écart entre les légendes synthétiques descriptives et les textes alternatifs factuels à l'échelle du web. KALE enrichit les légendes d'images synthétiques denses avec des textes alternatifs à l'échelle du web pour générer des légendes d'images ancrées dans les faits. Notre approche en deux étapes exploite de grands modèles de vision-langage et des modèles linguistiques pour créer des légendes augmentées de connaissances, qui sont ensuite utilisées pour entraîner un VLM spécialisé afin de mettre à l'échelle l'ensemble de données. Nous entraînons des modèles de vision-langage sur KALE et démontrons des améliorations sur des tâches de vision-langage. Nos expériences montrent l'utilité de KALE pour entraîner des modèles multimodaux plus capables et informés. Nous publions l'ensemble de données KALE sur https://huggingface.co/datasets/Salesforce/blip3-kale
Dans cet article, nous soutenons que le calcul itératif avec des modèles de diffusion offre un paradigme puissant non seulement pour la génération mais aussi pour les tâches de perception visuelle. Nous unifions des tâches telles que l'estimation de la profondeur, le flux optique et la segmentation sous la traduction d'image à image, et montrons comment les modèles de diffusion bénéficient de la mise à l'échelle de l'entraînement et du calcul au moment du test pour ces tâches de perception. À travers une analyse minutieuse de ces comportements de mise à l'échelle, nous présentons diverses techniques pour entraîner efficacement des modèles de diffusion pour les tâches de perception visuelle. Nos modèles atteignent des performances améliorées ou comparables aux méthodes de pointe en utilisant significativement moins de données et de calcul. Pour utiliser notre code et nos modèles, consultez https://scaling-diffusion-perception.github.io.
Les modèles génératifs 3D à grande échelle nécessitent des ressources computationnelles substantielles mais ont souvent du mal à capturer les détails fins et les géométries complexes à haute résolution. Nous attribuons cette limitation à l'inefficacité des représentations actuelles, qui manquent de la compacité nécessaire pour modéliser efficacement les modèles génératifs. Pour remédier à cela, nous introduisons une nouvelle approche appelée Diffusion Latente Ondelette, ou WaLa, qui code les formes 3D en encodages latents compacts basés sur les ondelettes. Plus précisément, nous compressons un champ de distance signée de 256^3 en une grille latente de 12^3 fois 4, atteignant un impressionnant ratio de compression de 2427x avec une perte minimale de détails. Ce haut niveau de compression permet à notre méthode de former efficacement des réseaux génératifs à grande échelle sans augmenter le temps d'inférence. Nos modèles, à la fois conditionnels et inconditionnels, contiennent environ un milliard de paramètres et génèrent avec succès des formes 3D de haute qualité à une résolution de 256^3. De plus, WaLa offre une inférence rapide, produisant des formes en deux à quatre secondes selon la condition, malgré l'échelle du modèle. Nous démontrons des performances de pointe sur plusieurs ensembles de données, avec des améliorations significatives en termes de qualité de génération, de diversité et d'efficacité computationnelle. Nous rendons notre code open-source et, à notre connaissance, publions les plus grands modèles génératifs 3D pré-entraînés dans différentes modalités.
La synthèse audio réaliste qui capture de manière précise les phénomènes acoustiques est essentielle pour créer des expériences immersives en réalité virtuelle et augmentée. La synthèse du son reçu en tout point repose sur l'estimation de la réponse impulsionnelle (RI), qui caractérise comment le son se propage dans une scène le long de différents chemins avant d'arriver à la position de l'auditeur. Dans cet article, nous présentons le Rendu de Volume Acoustique (AVR), une approche novatrice qui adapte les techniques de rendu de volume pour modéliser les réponses impulsionnelles acoustiques. Alors que le rendu de volume a été couronné de succès dans la modélisation des champs de radiance pour les images et les représentations de scènes neuronales, les RI présentent des défis uniques en tant que signaux temporels. Pour relever ces défis, nous introduisons le rendu de volume dans le domaine fréquentiel et utilisons l'intégration sphérique pour ajuster les mesures de RI. Notre méthode construit un champ de réponse impulsionnelle qui encode intrinsèquement les principes de propagation des ondes et atteint des performances de pointe dans la synthèse des réponses impulsionnelles pour des poses nouvelles. Les expériences montrent que l'AVR surpasse de manière significative les méthodes actuelles leaders. De plus, nous avons développé une plateforme de simulation acoustique, AcoustiX, qui fournit des simulations de RI plus précises et réalistes que les simulateurs existants. Le code pour l'AVR et AcoustiX est disponible sur https://zitonglan.github.io/avr.
Il est désormais courant dans le monde des affaires d'acheter l'accès à de grands modèles linguistiques (LLM) plutôt que de les héberger soi-même, en raison des coûts initiaux importants liés à l'infrastructure matérielle et à l'énergie. Cependant, en tant qu'acheteur, il n'existe aucun mécanisme pour vérifier l'authenticité du service annoncé, y compris la plateforme matérielle utilisée, par exemple, s'il est réellement servi à l'aide d'un NVIDIA H100. De plus, il existe des rapports suggérant que les fournisseurs de modèles peuvent livrer des modèles légèrement différents de ceux annoncés, souvent pour les faire fonctionner sur du matériel moins coûteux. De cette manière, un client paie un supplément pour accéder à un modèle performant sur un matériel plus coûteux, mais se retrouve finalement servi par un modèle moins performant (potentiellement) moins cher sur un matériel moins cher. Dans cet article, nous introduisons l'inférence de la plateforme matérielle et logicielle (HSPI) - une méthode permettant d'identifier l'architecture sous-jacente et la pile logicielle d'un modèle d'apprentissage automatique (boîte noire) uniquement sur la base de son comportement entrée-sortie. Notre méthode exploite les différences inhérentes entre les différentes architectures et compilateurs pour distinguer entre différents types et piles logicielles. En analysant les motifs numériques des sorties du modèle, nous proposons un cadre de classification capable d'identifier avec précision le matériel utilisé pour l'inférence du modèle ainsi que la configuration logicielle sous-jacente. Nos résultats démontrent la faisabilité d'inférer le type de matériel à partir de modèles boîte noire. Nous évaluons HSPI par rapport à des modèles servis sur différents matériels réels et constatons que dans un environnement de boîte blanche, nous pouvons distinguer entre différents types avec une précision allant de 83,9 % à 100 %. Même dans un environnement de boîte noire, nous parvenons à obtenir des résultats jusqu'à trois fois supérieurs à la précision d'une supposition aléatoire.