Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons l'Agent K v1.0, un agent autonome de science des données de bout en bout conçu pour automatiser, optimiser et généraliser à travers diverses tâches de science des données. Entièrement automatisé, l'Agent K v1.0 gère l'ensemble du cycle de vie de la science des données en apprenant de l'expérience. Il exploite un cadre de raisonnement structuré hautement flexible pour lui permettre de traiter dynamiquement la mémoire dans une structure imbriquée, apprenant efficacement des expériences accumulées stockées pour gérer des tâches de raisonnement complexes. Il optimise la mémoire à long et court terme en stockant et en récupérant sélectivement des informations clés, guidant les décisions futures en fonction des récompenses environnementales. Cette approche itérative lui permet d'affiner les décisions sans ajustement fin ou rétropropagation, atteignant une amélioration continue grâce à l'apprentissage expérientiel. Nous évaluons les capacités de notre agent en utilisant les compétitions Kaggle comme étude de cas. Suivant un protocole entièrement automatisé, l'Agent K v1.0 aborde systématiquement des tâches complexes et multimodales de science des données, en utilisant l'optimisation bayésienne pour l'ajustement des hyperparamètres et l'ingénierie des fonctionnalités. Notre nouveau cadre d'évaluation évalue rigoureusement les capacités de bout en bout de l'Agent K v1.0 pour générer et envoyer des soumissions à partir d'une URL de compétition Kaggle. Les résultats démontrent que l'Agent K v1.0 atteint un taux de réussite de 92,5\% à travers les tâches, couvrant les domaines tabulaire, vision par ordinateur, NLP et multimodal. Lors de la comparaison avec 5 856 concurrents humains de Kaggle en calculant les scores Elo-MMR pour chacun, l'Agent K v1.0 se classe dans le top 38\%, démontrant un niveau de compétence global comparable à celui des utilisateurs de niveau Expert. Notamment, son score Elo-MMR se situe entre le premier et le troisième quartile des scores atteints par les Grands Maîtres humains. De plus, nos résultats indiquent que l'Agent K v1.0 a atteint un niveau de performance équivalent à celui de Grand Maître Kaggle, avec un record de 6 médailles d'or, 3 d'argent et 7 de bronze, tel que défini par le système de progression de Kaggle.
La rapide progression des grands modèles de langage multimodaux (GMLM) a démontré des performances supérieures sur divers bancs d'essai multimodaux. Cependant, le problème de la contamination des données pendant l'entraînement crée des défis dans l'évaluation des performances et des comparaisons. Alors que de nombreuses méthodes existent pour détecter la contamination des ensembles de données dans les grands modèles de langage (LLM), elles sont moins efficaces pour les GMLM en raison de leurs différentes modalités et de leurs multiples phases d'entraînement. Dans cette étude, nous introduisons un cadre de détection de contamination des données multimodal, MM-Detect, conçu pour les GMLM. Nos résultats expérimentaux indiquent que MM-Detect est sensible à différents degrés de contamination et peut mettre en évidence des améliorations significatives des performances dues à des fuites de l'ensemble d'entraînement des bancs d'essai multimodaux. De plus, nous explorons également la possibilité d'une contamination provenant de la phase de pré-entraînement des LLM utilisés par les GMLM et de la phase de fine-tuning des GMLM, offrant de nouvelles perspectives sur les étapes auxquelles la contamination peut être introduite.
Les transformers ont trouvé de nombreuses applications dans divers domaines en raison de leurs puissantes capacités d'ajustement. Ce succès peut être partiellement attribué à leur non-linéarité inhérente. Ainsi, en plus de la fonction ReLU utilisée dans l'architecture originale du transformer, les chercheurs ont exploré des modules alternatifs tels que GeLU et SwishGLU pour améliorer la non-linéarité et ainsi augmenter la capacité de représentation. Dans cet article, nous proposons une nouvelle catégorie d'activations de composition polynomiale (PolyCom), conçue pour optimiser la dynamique des transformers. Théoriquement, nous fournissons une analyse mathématique complète de PolyCom, mettant en évidence son expressivité et son efficacité améliorées par rapport à d'autres fonctions d'activation. Notamment, nous démontrons que les réseaux incorporant PolyCom atteignent le taux d'approximation optimal, indiquant que les réseaux PolyCom nécessitent un nombre minimal de paramètres pour approximer des fonctions lisses générales dans les espaces de Sobolev. Nous menons des expériences empiriques sur les configurations de pré-entraînement des grands modèles de langage (LLM), comprenant à la fois des architectures denses et clairsemées. En remplaçant les fonctions d'activation conventionnelles par PolyCom, nous permettons aux LLM de capturer des interactions d'ordre supérieur au sein des données, améliorant ainsi les mesures de performance en termes de précision et de taux de convergence. Des résultats expérimentaux approfondis démontrent l'efficacité de notre méthode, montrant des améliorations substantielles par rapport à d'autres fonctions d'activation. Le code est disponible sur https://github.com/BryceZhuo/PolyCom.
L'auto-alignement, par lequel les modèles apprennent à s'améliorer sans annotation humaine, est un domaine de recherche en pleine expansion. Cependant, les techniques existantes échouent souvent à améliorer les tâches de raisonnement complexe en raison de la difficulté d'attribuer des récompenses correctes. Une approche orthogonale connue pour améliorer la justesse est l'auto-consistance, une méthode appliquée au moment de l'inférence basée sur de multiples échantillonnages afin de trouver la réponse la plus cohérente. Dans ce travail, nous étendons le concept d'auto-consistance pour aider à entraîner les modèles. Nous introduisons ainsi l'optimisation des préférences d'auto-consistance (ScPO), qui entraîne de manière itérative des réponses cohérentes à être préférées aux réponses incohérentes sur de nouveaux problèmes non supervisés. Nous montrons que ScPO entraîne de grandes améliorations par rapport à l'entraînement de modèles de récompense conventionnels sur des tâches de raisonnement telles que GSM8K et MATH, comblant l'écart avec l'entraînement supervisé avec des réponses ou des préférences de référence, et que la combinaison de ScPO avec l'apprentissage supervisé standard améliore encore davantage les résultats. Sur ZebraLogic, ScPO affine Llama-3 8B pour être supérieur à Llama-3 70B, Gemma-2 27B et Claude-3 Haiku.
Les stratégies de pilotage en temps d'exécution telles que Medprompt sont précieuses pour guider les grands modèles de langage (LLM) vers des performances optimales sur des tâches complexes. Medprompt démontre qu'un LLM général peut être ciblé pour offrir des performances de pointe dans des domaines spécialisés tels que la médecine en utilisant une invitation pour susciter une stratégie en temps d'exécution impliquant un raisonnement en chaîne et un ensemble de pensées. Le modèle o1-preview d'OpenAI représente un nouveau paradigme, où un modèle est conçu pour effectuer un raisonnement en temps d'exécution avant de générer des réponses finales. Nous cherchons à comprendre le comportement de o1-preview sur un ensemble diversifié de défis médicaux. En suivant l'étude Medprompt avec GPT-4, nous évaluons systématiquement le modèle o1-preview sur divers benchmarks de problèmes médicaux. Notamment, même sans techniques d'invitation, o1-preview surpasse largement la série GPT-4 avec Medprompt. Nous étudions ensuite systématiquement l'efficacité des stratégies classiques d'ingénierie d'invitation, telles que représentées par Medprompt, dans le nouveau paradigme des modèles de raisonnement. Nous avons constaté que l'invitation en quelques exemples nuit aux performances de o1, suggérant que l'apprentissage en contexte pourrait ne plus être une approche efficace pour les modèles natifs de raisonnement. Bien que l'ensemble reste viable, il est gourmand en ressources et nécessite une optimisation minutieuse des coûts et des performances. Notre analyse des coûts et de la précision des stratégies en temps d'exécution révèle une frontière de Pareto, avec GPT-4o représentant une option plus abordable et o1-preview atteignant des performances de pointe à un coût plus élevé. Bien que o1-preview offre des performances optimales, GPT-4o avec des stratégies de pilotage comme Medprompt conserve sa valeur dans des contextes spécifiques. De plus, nous notons que le modèle o1-preview a atteint une saturation sur de nombreux benchmarks médicaux existants, soulignant le besoin de nouveaux benchmarks stimulants. Nous concluons en réfléchissant aux orientations générales pour le calcul en temps d'inférence avec les LLM.