Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous étudions l'efficacité d'une approche simple pour développer un petit modèle de langage de base (LM) à partir d'un grand modèle de langage existant : d'abord hériter de quelques blocs de transformateurs du modèle plus grand, puis entraîner ce modèle plus petit sur un très petit sous-ensemble (0,1 %) des données brutes de pré-entraînement du modèle plus grand. Nous appelons notre recette simple Inheritune et la démontrons d'abord pour construire un petit modèle de langage de base avec 1,5 milliard de paramètres en utilisant 1 milliard de tokens (et quelques couches initiales d'un modèle plus grand de 3 milliards de paramètres) ; nous le faisons en utilisant un seul GPU A6000 pendant moins d'une demi-journée. Sur 9 ensembles de données d'évaluation divers ainsi que le benchmark MMLU, le modèle résultant se compare favorablement aux modèles de base disponibles publiquement de taille 1 à 2 milliards de paramètres, certains ayant été entraînés avec 50 à 1000 fois plus de tokens. Nous explorons Inheritune dans un contexte légèrement différent où nous entraînons de petits modèles de langage en utilisant des modèles plus grands et leur ensemble complet de données de pré-entraînement. Ici, nous montrons que des modèles de langage plus petits entraînés en utilisant certaines couches de GPT2-medium (355 millions) et GPT-2-large (770 millions) peuvent efficacement égaler la perte de validation de leurs homologues plus grands lorsqu'ils sont entraînés à partir de zéro pour le même nombre d'étapes d'entraînement sur le jeu de données OpenWebText avec 9 milliards de tokens. Nous analysons notre recette avec des expériences approfondies et démontrons son efficacité dans divers contextes. Notre code est disponible à l'adresse https://github.com/sanyalsunny111/LLM-Inheritune.
Au cours des dernières décennies, la communauté de la vision par ordinateur a assisté à des progrès remarquables en matière de reconnaissance visuelle, en partie grâce aux avancées dans les benchmarks de jeux de données. Notamment, le benchmark établi de COCO a propulsé le développement des systèmes modernes de détection et de segmentation. Cependant, le benchmark de segmentation de COCO a connu une amélioration relativement lente au cours de la dernière décennie. Initialement équipé d'annotations polygonales grossières pour les instances d'objets, il a progressivement intégré des annotations de superpixels grossières pour les régions de fond, qui ont ensuite été amalgamées de manière heuristique pour produire des annotations de segmentation panoptique. Ces annotations, réalisées par différents groupes d'annotateurs, ont non seulement abouti à des masques de segmentation grossiers, mais aussi à des incohérences entre les types de segmentation. Dans cette étude, nous entreprenons une réévaluation complète des annotations de segmentation de COCO. En améliorant la qualité des annotations et en étendant le jeu de données pour inclure 383K images avec plus de 5,18 millions de masques panoptiques, nous introduisons COCONut, le COCO Next Universal segmenTation dataset. COCONut harmonise les annotations de segmentation à travers la segmentation sémantique, d'instance et panoptique avec des masques de haute qualité soigneusement élaborés, et établit un benchmark robuste pour toutes les tâches de segmentation. À notre connaissance, COCONut est le premier jeu de données de segmentation universelle à grande échelle, vérifié par des annotateurs humains. Nous anticipons que la publication de COCONut contribuera de manière significative à la capacité de la communauté à évaluer les progrès des nouveaux réseaux neuronaux.
Cet article étudie les performances du pré-entraînement contrastif texte-image (CLIP) lorsqu'il est adapté à des budgets de calcul limités. Nous explorons CLIP selon trois dimensions : les données, l'architecture et les stratégies d'entraînement. Concernant les données, nous démontrons l'importance de données d'entraînement de haute qualité et montrons qu'un ensemble de données plus petit mais de meilleure qualité peut surpasser un ensemble de données plus volumineux mais de moindre qualité. Nous examinons également comment les performances du modèle varient en fonction de la taille des ensembles de données, suggérant que les modèles ViT plus petits sont mieux adaptés aux ensembles de données réduits, tandis que les modèles plus grands performent mieux sur des ensembles de données plus vastes avec un calcul fixe. De plus, nous fournissons des conseils sur le choix entre une architecture basée sur CNN ou une architecture basée sur ViT pour l'entraînement de CLIP. Nous comparons quatre stratégies d'entraînement de CLIP - SLIP, FLIP, CLIP et CLIP+Augmentation de données - et montrons que le choix de la stratégie d'entraînement dépend des ressources de calcul disponibles. Notre analyse révèle que CLIP+Augmentation de données peut atteindre des performances comparables à CLIP en utilisant seulement la moitié des données d'entraînement. Ce travail offre des perspectives pratiques sur la manière d'entraîner et de déployer efficacement des modèles CLIP, les rendant plus accessibles et abordables pour une utilisation pratique dans diverses applications.
Les récentes avancées dans le pré-entraînement à grande échelle ont donné naissance à des modèles de fondation visuelle dotés de capacités impressionnantes. Non seulement les modèles récents peuvent généraliser à des images arbitraires pour leur tâche d'entraînement, mais leurs représentations intermédiaires sont également utiles pour d'autres tâches visuelles telles que la détection et la segmentation. Étant donné que ces modèles peuvent classer, délimiter et localiser des objets en 2D, nous nous demandons s'ils représentent également leur structure 3D. Dans ce travail, nous analysons la conscience 3D des modèles de fondation visuelle. Nous postulons que la conscience 3D implique que les représentations (1) encodent la structure 3D de la scène et (2) représentent de manière cohérente la surface à travers différentes vues. Nous menons une série d'expériences en utilisant des sondes spécifiques à la tâche et des procédures d'inférence zero-shot sur des caractéristiques figées. Nos expériences révèlent plusieurs limitations des modèles actuels. Notre code et notre analyse sont disponibles à l'adresse suivante : https://github.com/mbanani/probe3d.
Les récents progrès en matière d'estimation de profondeur monoculaire ont été réalisés en intégrant le langage naturel comme guide supplémentaire. Bien que ces approches produisent des résultats impressionnants, l'impact du préalable linguistique, notamment en termes de généralisation et de robustesse, reste inexploré. Dans cet article, nous comblons cette lacune en quantifiant l'impact de ce préalable et en introduisant des méthodes pour évaluer son efficacité dans divers contextes. Nous générons des phrases "de bas niveau" qui expriment des relations spatiales tridimensionnelles centrées sur les objets, les intégrons comme préalables linguistiques supplémentaires et évaluons leur impact sur l'estimation de profondeur. Notre principale découverte est que les estimateurs de profondeur guidés par le langage actuels fonctionnent de manière optimale uniquement avec des descriptions au niveau de la scène et, contre-intuitivement, obtiennent de moins bons résultats avec des descriptions de bas niveau. Malgré l'exploitation de données supplémentaires, ces méthodes ne sont pas robustes aux attaques adversaires ciblées et voient leurs performances diminuer avec un accroissement du décalage de distribution. Enfin, pour poser les bases de recherches futures, nous identifions les points de défaillance et proposons des insights pour mieux comprendre ces lacunes. Avec un nombre croissant de méthodes utilisant le langage pour l'estimation de profondeur, nos résultats mettent en lumière les opportunités et les pièges qui nécessitent une attention particulière pour un déploiement efficace dans des contextes réels.
L'apprentissage par renforcement (Reinforcement Learning, RL) basé sur les préférences humaines est un paradigme populaire pour le réglage fin des modèles génératifs, ayant produit des modèles impressionnants tels que GPT-4 et Claude3 Opus. Ce cadre se compose généralement de deux étapes : l'apprentissage d'un modèle de récompense à partir d'un ensemble de données de préférences hors ligne, suivi de l'exécution d'un RL en ligne pour optimiser le modèle de récompense appris. Dans ce travail, en exploitant l'idée de réinitialisation, nous proposons un nouvel algorithme RLHF avec des garanties théoriques. Motivés par le fait que l'ensemble de données de préférences hors ligne fournit des états informatifs (c'est-à-dire des données préférées par les annotateurs), notre nouvel algorithme, Dataset Reset Policy Optimization (DR-PO), intègre l'ensemble de données de préférences existant dans la procédure d'entraînement de la politique en ligne via une réinitialisation de l'ensemble de données : il réinitialise directement l'optimiseur de politique aux états de l'ensemble de données hors ligne, au lieu de toujours partir de la distribution d'état initiale. Théoriquement, nous montrons que DR-PO apprend à performer au moins aussi bien que toute politique couverte par l'ensemble de données hors ligne, sous approximation de fonction générale avec une complexité d'échantillonnage finie. Expérimentalement, nous démontrons que sur les ensembles de données de résumé TL;DR et Anthropic Helpful Harmful (HH), la génération de DR-PO est meilleure que celle de Proximal Policy Optimization (PPO) et Direction Preference Optimization (DPO), selon la métrique du taux de victoire GPT4. Le code de ce travail est disponible à l'adresse https://github.com/Cornell-RL/drpo.
Les dernières approches régularisées de Neural Radiance Field (NeRF) produisent une géométrie et une extrapolation de vue médiocres pour les benchmarks de stéréo multivue (MVS) tels qu'ETH3D. Dans cet article, nous visons à créer des modèles 3D qui fournissent une géométrie précise et une synthèse de vue, réduisant partiellement l'écart de performance géométrique important entre NeRF et les méthodes MVS traditionnelles. Nous proposons une approche basée sur des patches qui exploite efficacement les prédictions de normales de surface monoculaires et de profondeur relative. L'échantillonnage de rayons basé sur des patches permet également la régularisation de l'apparence par corrélation croisée normalisée (NCC) et similarité structurelle (SSIM) entre des vues virtuelles et d'entraînement échantillonnées aléatoirement. Nous montrons en outre que des "restrictions de densité" basées sur des points de structure-from-motion épars peuvent grandement améliorer la précision géométrique avec une légère baisse des métriques de synthèse de nouvelles vues. Nos expériences montrent une performance 4 fois supérieure à celle de RegNeRF et 8 fois supérieure à celle de FreeNeRF en moyenne F1@2cm pour le benchmark MVS ETH3D, suggérant une direction de recherche prometteuse pour améliorer la précision géométrique des modèles basés sur NeRF, et éclairant une approche future potentielle pour permettre à l'optimisation basée sur NeRF de surpasser finalement les méthodes MVS traditionnelles.