Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) ont obtenu des succès impressionnants sur de nombreux benchmarks de raisonnement mathématique. Cependant, une préoccupation croissante émerge quant au fait qu'une partie de cette performance pourrait refléter une contamination des données, où des données ressemblant étroitement aux questions des benchmarks se retrouvent dans les données d'entraînement, plutôt qu'une véritable capacité de raisonnement. Pour étudier cette affirmation de manière rigoureuse, nous avons créé Grade School Math 1000 (GSM1k). GSM1k est conçu pour refléter le style et la complexité du benchmark établi GSM8k, considéré comme la référence pour mesurer le raisonnement mathématique élémentaire. Nous veillons à ce que les deux benchmarks soient comparables sur des métriques importantes telles que les taux de résolution humaine, le nombre d'étapes dans la solution, l'ampleur des réponses, et plus encore. Lors de l'évaluation des principaux LLM open-source et propriétaires sur GSM1k, nous observons des baisses de précision allant jusqu'à 13 %, avec plusieurs familles de modèles (par exemple, Phi et Mistral) montrant des signes de surajustement systématique pour presque toutes les tailles de modèles. Parallèlement, de nombreux modèles, en particulier ceux à la pointe (par exemple, Gemini/GPT/Claude), montrent des signes minimes de surajustement. Une analyse plus approfondie suggère une relation positive (r² de Spearman = 0,32) entre la probabilité qu'un modèle génère un exemple de GSM8k et son écart de performance entre GSM8k et GSM1k, indiquant que de nombreux modèles pourraient avoir partiellement mémorisé GSM8k.
L'édition d'images a considérablement progressé avec l'introduction des modèles de diffusion conditionnés par le texte. Malgré ces avancées, l'ajout fluide d'objets dans des images à partir d'instructions textuelles, sans nécessiter de masques fournis par l'utilisateur, reste un défi. Nous abordons ce problème en exploitant l'idée que la suppression d'objets (Inpaint) est nettement plus simple que son processus inverse d'ajout (Paint), en raison de l'utilisation de jeux de données de masques de segmentation associés à des modèles de réparation qui opèrent à l'intérieur de ces masques. En capitalisant sur cette réalisation, nous mettons en place un pipeline automatisé et étendu pour constituer un jeu de données d'images à grande échelle filtré, contenant des paires d'images et leurs versions avec objets supprimés. En utilisant ces paires, nous entraînons un modèle de diffusion à inverser le processus de réparation, ajoutant ainsi efficacement des objets dans les images. Contrairement à d'autres jeux de données d'édition, le nôtre présente des images cibles naturelles plutôt que synthétiques ; de plus, il maintient une cohérence entre les images source et cible par construction. Par ailleurs, nous utilisons un grand modèle vision-langage pour fournir des descriptions détaillées des objets supprimés et un grand modèle de langage pour convertir ces descriptions en instructions variées et naturelles. Nous démontrons que le modèle entraîné surpasse les modèles existants à la fois qualitativement et quantitativement, et nous mettons à disposition le jeu de données à grande échelle ainsi que les modèles entraînés pour la communauté.
Les approches traditionnelles d'apprentissage par renforcement à partir de retours humains (RLHF) reposant sur des modèles paramétriques comme le modèle de Bradley-Terry échouent à capturer l'intransitivité et l'irrationalité des préférences humaines. Les avancées récentes suggèrent que travailler directement avec des probabilités de préférence peut offrir une représentation plus fidèle des préférences humaines, permettant un alignement des modèles de langage plus flexible et précis. Dans cet article, nous proposons une méthode basée sur l'auto-joueur pour l'alignement des modèles de langage, qui traite le problème comme un jeu à somme constante à deux joueurs visant à identifier la politique d'équilibre de Nash. Notre approche, nommée Optimisation des Préférences par Auto-Joueur (SPPO), approxime l'équilibre de Nash à travers des mises à jour itératives de la politique et bénéficie d'une garantie théorique de convergence. Notre méthode peut efficacement augmenter la log-vraisemblance de la réponse choisie et diminuer celle de la réponse rejetée, ce qui ne peut être trivialement réalisé par des fonctions de perte symétriques par paire telles que l'Optimisation Directe des Préférences (DPO) et l'Optimisation des Préférences d'Identité (IPO). Dans nos expériences, en utilisant seulement 60k prompts (sans réponses) du jeu de données UltraFeedback et sans aucune augmentation de prompt, en exploitant un modèle de préférence pré-entraîné PairRM avec seulement 0,4 milliard de paramètres, SPPO permet d'obtenir un modèle issu du fine-tuning de Mistral-7B-Instruct-v0.2 qui atteint un taux de victoire contrôlé par la longueur de pointe de 28,53 % contre GPT-4-Turbo sur AlpacaEval 2.0. Il surpasse également les versions (itératives) de DPO et IPO sur MT-Bench et le classement Open LLM Leaderboard. Notamment, la forte performance de SPPO est atteinte sans supervision externe supplémentaire (par exemple, réponses, préférences, etc.) de GPT-4 ou d'autres modèles de langage plus puissants.
Cette étude présente une analyse ciblée de l'édition de modèles, axée sur le dernier modèle de langage de grande taille, Llama-3. Nous explorons l'efficacité des techniques populaires d'édition de modèles - ROME, MEMIT et EMMET, conçues pour des interventions précises au niveau des couches. Nous identifions les couches les plus efficaces pour les modifications ciblées grâce à une évaluation qui englobe jusqu'à 4096 modifications selon trois stratégies distinctes : l'édition séquentielle, l'édition par lots, et une approche hybride que nous appelons édition séquentielle-par lots. Nos résultats indiquent qu'augmenter la taille des lots de modifications peut dégrader plus significativement les performances du modèle que l'utilisation de lots de modifications plus petits de manière séquentielle pour un nombre égal de modifications. Ainsi, nous soutenons que l'édition séquentielle de modèles est un élément important pour la mise à l'échelle des méthodes d'édition de modèles, et que les recherches futures devraient se concentrer sur des méthodes combinant à la fois l'édition par lots et l'édition séquentielle. Cette observation suggère une limitation potentielle des méthodes actuelles d'édition de modèles qui tendent vers des tailles de lots de modifications plus importantes, et nous espérons qu'elle ouvre la voie à des investigations futures sur l'optimisation des tailles de lots et des performances de l'édition de modèles.
Les grands modèles de langage (LLMs) ont considérablement fait progresser le traitement audio grâce à des codecs audio qui convertissent l'audio en jetons discrets, permettant ainsi l'application de techniques de modélisation du langage aux données audio. Cependant, les codecs traditionnels fonctionnent souvent à des débits binaires élevés ou dans des domaines restreints comme la parole, et manquent des indices sémantiques nécessaires pour une modélisation du langage efficace. Pour relever ces défis, nous présentons SemantiCodec, un nouveau codec conçu pour compresser l'audio en moins d'une centaine de jetons par seconde sur divers types d'audio, y compris la parole, l'audio général et la musique, sans compromettre la qualité. SemantiCodec intègre une architecture à double encodeur : un encodeur sémantique utilisant un AudioMAE auto-supervisé, discrétisé par clustering k-means sur de vastes données audio, et un encodeur acoustique pour capturer les détails restants. Les sorties des encodeurs sémantique et acoustique sont utilisées pour reconstruire l'audio via un décodeur basé sur un modèle de diffusion. SemantiCodec est proposé en trois variantes avec des taux de jetons de 25, 50 et 100 par seconde, supportant une gamme de débits binaires ultra-faibles entre 0,31 kbps et 1,43 kbps. Les résultats expérimentaux montrent que SemantiCodec surpasse significativement le codec Descript, l'état de l'art, en termes de qualité de reconstruction. Nos résultats suggèrent également que SemantiCodec contient des informations sémantiques nettement plus riches que tous les codecs audio évalués, même à des débits binaires bien inférieurs. Notre code et nos démonstrations sont disponibles à l'adresse https://haoheliu.github.io/SemantiCodec/.
Les grands modèles de langage (LLMs) souffrent d'une faible efficacité en raison de l'inadéquation entre les exigences du décodage auto-régressif et la conception de la plupart des GPU contemporains. Plus précisément, des milliards à des billions de paramètres doivent être chargés dans le cache du GPU via sa bande passante mémoire limitée pour le calcul, mais seule une petite quantité de tokens est réellement calculée. Par conséquent, le GPU passe la majeure partie de son temps à transférer des données plutôt qu'à effectuer des calculs. Récemment, le décodage parallèle, un type d'algorithme de décodage spéculatif, gagne en popularité et a démontré une amélioration impressionnante de l'efficacité dans la génération. Il introduit des têtes de décodage supplémentaires aux grands modèles, leur permettant de prédire plusieurs tokens suivants simultanément et de vérifier ces candidats de continuation en une seule étape de décodage. Cependant, cette approche s'écarte de l'objectif d'entraînement de prédiction du token suivant utilisé lors du pré-entraînement, ce qui entraîne un faible taux de réussite pour les tokens candidats. Dans cet article, nous proposons un nouvel algorithme de décodage spéculatif, Clover, qui intègre des connaissances séquentielles dans le processus de décodage parallèle. Cette amélioration augmente le taux de réussite des spéculateurs et ainsi booste l'efficacité globale. Clover transmet les connaissances séquentielles des tokens pré-spéculés via la Connexion Régressive, puis utilise un Décodeur d'Attention pour intégrer ces tokens spéculés. De plus, Clover intègre un Bloc d'Augmentation qui modifie les états cachés pour mieux les aligner avec l'objectif de génération spéculative plutôt que de prédiction du token suivant. Les résultats des expériences montrent que Clover surpasse la référence jusqu'à 91% sur Baichuan-Small et 146% sur Baichuan-Large, respectivement, et dépasse les performances de la méthode précédemment la plus performante, Medusa, jusqu'à 37% sur Baichuan-Small et 57% sur Baichuan-Large, respectivement.
Récemment, le 3D Gaussian Splatting, en tant que nouvelle représentation 3D, a attiré l'attention pour sa rapidité de rendu et sa qualité de rendu élevée. Cependant, cela s'accompagne d'une consommation de mémoire élevée, par exemple, un champ de Gaussien bien entraîné peut utiliser trois millions de primitives gaussiennes et plus de 700 Mo de mémoire. Nous attribuons cette empreinte mémoire élevée au manque de prise en compte de la relation entre les primitives. Dans cet article, nous proposons un champ de Gaussien économe en mémoire nommé SUNDAE avec élagage spectral et compensation neuronale. D'une part, nous construisons un graphe sur l'ensemble des primitives gaussiennes pour modéliser leur relation et concevons un module de sous-échantillonnage spectral pour éliminer les primitives tout en préservant les signaux souhaités. D'autre part, pour compenser la perte de qualité due à l'élagage des Gaussiennes, nous exploitons une tête de réseau neuronal légère pour mélanger les caractéristiques projetées, ce qui compense efficacement les pertes de qualité tout en capturant la relation entre les primitives dans ses poids. Nous démontrons les performances de SUNDAE avec des résultats approfondis. Par exemple, SUNDAE peut atteindre 26,80 PSNR à 145 FPS en utilisant 104 Mo de mémoire, tandis que l'algorithme de Gaussian splatting classique atteint 25,60 PSNR à 160 FPS en utilisant 523 Mo de mémoire, sur le jeu de données Mip-NeRF360. Les codes sont disponibles publiquement à l'adresse https://runyiyang.github.io/projects/SUNDAE/.
Le suivi d'objets dans un espace tridimensionnel est essentiel pour la conduite autonome. Pour garantir la sécurité pendant la conduite, le système de suivi doit être capable de suivre de manière fiable les objets d'une image à l'autre et d'estimer avec précision leurs états, tels que la vitesse et l'accélération, dans le présent. Les travaux existants se concentrent souvent sur la tâche d'association tout en négligeant les performances du modèle sur l'estimation des états ou en déployant des heuristiques complexes pour prédire ces états. Dans cet article, nous proposons STT, un modèle de suivi avec état construit à l'aide de Transformers, qui peut suivre de manière cohérente les objets dans les scènes tout en prédisant également leurs états avec précision. STT intègre des signaux riches d'apparence, de géométrie et de mouvement grâce à l'historique à long terme des détections et est optimisé conjointement pour les tâches d'association de données et d'estimation des états. Étant donné que les métriques de suivi standard comme MOTA et MOTP ne capturent pas la performance combinée des deux tâches dans le spectre plus large des états des objets, nous les étendons avec de nouvelles métriques appelées S-MOTA et MOTPS qui pallient cette limitation. STT atteint des performances compétitives en temps réel sur le jeu de données Waymo Open.
Les développeurs d'applications font la promotion de leurs applications en créant des pages produits avec des images d'applications et en enchérissant sur des termes de recherche. Il est donc crucial que les images des applications soient hautement pertinentes par rapport aux termes de recherche. Les solutions à ce problème nécessitent un modèle de correspondance image-texte pour prédire la qualité de la correspondance entre l'image choisie et les termes de recherche. Dans ce travail, nous présentons une nouvelle approche pour associer une image d'application à des termes de recherche en affinant un modèle LXMERT pré-entraîné. Nous montrons que, par rapport au modèle CLIP et à une base utilisant un modèle Transformer pour les termes de recherche et un modèle ResNet pour les images, nous améliorons significativement la précision de la correspondance. Nous évaluons notre approche en utilisant deux ensembles d'étiquettes : des paires (image, terme de recherche) associées par les annonceurs pour une application donnée, et des évaluations humaines sur la pertinence des paires (image, terme de recherche). Notre approche atteint un score AUC de 0,96 pour les données de référence associées par les annonceurs, surpassant la base Transformer+ResNet et le modèle CLIP affiné de 8 % et 14 %. Pour les données de référence étiquetées par des humains, notre approche atteint un score AUC de 0,95, surpassant la base Transformer+ResNet et le modèle CLIP affiné de 16 % et 17 %.