Articles de recherche en IA sélectionnés quotidiennement avec traductions
À l'ère des modèles linguistiques à grande échelle, des benchmarks comme le Massive Multitask Language Understanding (MMLU) ont joué un rôle crucial pour repousser les limites de ce que l'IA peut accomplir en matière de compréhension et de raisonnement linguistiques à travers divers domaines. Cependant, à mesure que les modèles continuent de s'améliorer, leurs performances sur ces benchmarks commencent à plafonner, rendant de plus en plus difficile la distinction des différences de capacités entre les modèles. Cet article présente MMLU-Pro, un ensemble de données amélioré conçu pour étendre le benchmark MMLU, principalement axé sur les connaissances, en intégrant des questions plus complexes centrées sur le raisonnement et en élargissant le choix des réponses de quatre à dix options. De plus, MMLU-Pro élimine les questions triviales et bruyantes présentes dans MMLU. Nos résultats expérimentaux montrent que MMLU-Pro non seulement relève le défi, entraînant une baisse significative de la précision de 16 % à 33 % par rapport à MMLU, mais démontre également une plus grande stabilité face à différentes formulations de prompts. Avec 24 styles de prompts testés, la sensibilité des scores des modèles aux variations de prompts est passée de 4-5 % dans MMLU à seulement 2 % dans MMLU-Pro. Par ailleurs, nous avons constaté que les modèles utilisant le raisonnement en chaîne de pensée (Chain of Thought, CoT) obtenaient de meilleures performances sur MMLU-Pro par rapport aux réponses directes, ce qui contraste fortement avec les observations sur le MMLU original, indiquant que MMLU-Pro inclut des questions de raisonnement plus complexes. Nos évaluations confirment que MMLU-Pro est un benchmark plus discriminant pour mieux suivre les progrès dans le domaine.
Les modèles de langage sont alignés pour imiter la voix collective de nombreux individus, ce qui donne lieu à des sorties qui ne correspondent à personne en particulier. Il est possible de guider les LLM (modèles de langage de grande taille) pour éviter des sorties génériques grâce à un ajustement supervisé ou à l'apprentissage par renforcement avec feedback humain (RLHF), mais cela nécessite des jeux de données prohibitivement volumineux pour de nouvelles tâches ad hoc. Nous soutenons qu'il est possible d'aligner un LLM sur un contexte spécifique en exploitant un très petit nombre (<10) de démonstrations comme feedback. Notre méthode, l'Optimisation Itérative de Tâche par Démonstration (DITTO), aligne directement les sorties du modèle de langage sur les comportements démontrés par un utilisateur. Inspirée des idées de l'apprentissage par imitation en ligne, DITTO génère de manière économique des données de comparaison en ligne en considérant les démonstrations des utilisateurs comme préférables aux sorties du LLM et à ses points de contrôle intermédiaires. Nous évaluons la capacité de DITTO à apprendre un alignement fin du style et de la tâche dans des domaines tels que les articles de presse, les e-mails et les billets de blog. De plus, nous menons une étude utilisateur sollicitant une variété de démonstrations de la part des participants (N=16). À travers nos benchmarks et notre étude utilisateur, nous constatons que les taux de victoire de DITTO surpassent ceux de l'incitation en few-shot, de l'ajustement supervisé et d'autres méthodes de jeu autonome par une moyenne de 19 points de pourcentage. En utilisant directement les démonstrations comme feedback, DITTO offre une méthode novatrice pour la personnalisation efficace des LLM.
Ce travail aborde le défi de l'estimation de la profondeur vidéo, qui nécessite non seulement une précision par image, mais surtout une cohérence inter-images. Plutôt que de développer directement un estimateur de profondeur à partir de zéro, nous reformulons la tâche de prédiction en un problème de génération conditionnelle. Cela nous permet de tirer parti des connaissances préalables intégrées dans les modèles existants de génération vidéo, réduisant ainsi la difficulté d'apprentissage et améliorant la généralisabilité. Concrètement, nous étudions comment adapter le modèle public Stable Video Diffusion (SVD) pour prédire une profondeur fiable à partir de vidéos d'entrée en utilisant un mélange de jeux de données de profondeur d'images et de profondeur vidéo. Nous confirmons empiriquement qu'une stratégie d'entraînement procédurale - optimisant d'abord les couches spatiales de SVD puis optimisant les couches temporelles tout en gardant les couches spatiales gelées - donne les meilleurs résultats en termes de précision spatiale et de cohérence temporelle. Nous examinons également la stratégie de fenêtre glissante pour l'inférence sur des vidéos de longueur arbitraire. Nos observations indiquent un compromis entre efficacité et performance, avec un chevauchement d'une image produisant déjà des résultats favorables. Les résultats expérimentaux approfondis démontrent la supériorité de notre approche, nommée ChronoDepth, par rapport aux alternatives existantes, notamment en termes de cohérence temporelle de la profondeur estimée. De plus, nous mettons en avant les avantages d'une profondeur vidéo plus cohérente dans deux applications pratiques : la génération de vidéos conditionnée par la profondeur et la synthèse de nouvelles vues. Notre page de projet est disponible à l'adresse https://jhaoshao.github.io/ChronoDepth/{this http URL}.
L'accumulation culturelle est à l'origine des progrès ouverts et diversifiés dans les capacités qui jalonnent l'histoire humaine. Elle construit un corpus de connaissances et de compétences en expansion en combinant l'exploration individuelle avec la transmission intergénérationnelle d'informations. Malgré son succès répandu chez les humains, la capacité des agents d'apprentissage artificiels à accumuler de la culture reste peu explorée. En particulier, les approches d'apprentissage par renforcement visent généralement des améliorations sur une seule durée de vie. Les algorithmes générationnels existants ne parviennent pas à capturer la nature ouverte et émergente de l'accumulation culturelle, qui permet aux individus de faire des compromis entre innovation et imitation. En nous appuyant sur la capacité précédemment démontrée des agents d'apprentissage par renforcement à effectuer un apprentissage social, nous constatons que les configurations d'entraînement qui équilibrent cela avec un apprentissage indépendant donnent lieu à une accumulation culturelle. Ces agents accumulant surpassent ceux entraînés pour une seule durée de vie avec la même expérience cumulative. Nous explorons cette accumulation en construisant deux modèles sous deux notions distinctes de génération : des générations épisodiques, où l'accumulation se fait via un apprentissage en contexte, et des générations d'entraînement, où l'accumulation se fait via un apprentissage en poids. L'accumulation culturelle en contexte et en poids peut être interprétée comme analogue à l'accumulation de connaissances et de compétences, respectivement. À notre connaissance, ce travail est le premier à présenter des modèles généraux qui réalisent une accumulation culturelle émergente en apprentissage par renforcement, ouvrant de nouvelles voies vers des systèmes d'apprentissage plus ouverts, tout en offrant de nouvelles opportunités pour modéliser la culture humaine.
Les optimiseurs appris (LOs) peuvent réduire considérablement le temps d'entraînement en temps réel des réseaux de neurones, diminuant ainsi substantiellement les coûts de formation. Cependant, ils souffrent souvent d'une mauvaise méta-généralisation, en particulier lors de l'entraînement de réseaux plus grands que ceux rencontrés pendant la méta-formation. Pour remédier à cela, nous utilisons la Paramétrisation de Mise à Jour Maximale (muP) récemment proposée, qui permet une généralisation à zéro coup des hyperparamètres de l'optimiseur des modèles plus petits vers les modèles plus grands. Nous étendons la théorie muP aux optimiseurs appris, en traitant le problème de méta-formation comme la recherche de l'optimiseur appris sous muP. Notre évaluation montre que les LOs méta-formés avec muP améliorent considérablement la méta-généralisation par rapport aux LOs entraînés sous paramétrisation standard (SP). Notamment, lorsqu'ils sont appliqués à des modèles de grande largeur, notre meilleur muLO, entraîné pendant 103 heures GPU, égale ou dépasse les performances de VeLO, le plus grand optimiseur appris publiquement disponible, méta-formé avec 4000 mois TPU de calcul. De plus, les muLOs démontrent une meilleure généralisation que leurs homologues SP pour des réseaux plus profonds et pour des horizons d'entraînement beaucoup plus longs (25 fois plus longs) que ceux rencontrés pendant la méta-formation.
La génération vidéo a réalisé des progrès remarquables ces dernières années, en particulier depuis l'avènement des modèles de diffusion vidéo. De nombreux modèles de génération vidéo peuvent produire des vidéos synthétiques plausibles, comme le Stable Video Diffusion (SVD). Cependant, la plupart des modèles vidéo ne peuvent générer que des vidéos à faible taux de rafraîchissement en raison de la mémoire GPU limitée ainsi que de la difficulté à modéliser un grand nombre d'images. Les vidéos d'entraînement sont toujours échantillonnées de manière uniforme à un intervalle spécifié pour la compression temporelle. Les méthodes précédentes augmentent le taux de rafraîchissement soit en entraînant un modèle d'interpolation vidéo dans l'espace pixel comme étape de post-traitement, soit en entraînant un modèle d'interpolation dans l'espace latent pour un modèle vidéo de base spécifique. Dans cet article, nous proposons une méthode d'interpolation vidéo sans entraînement pour les modèles de diffusion vidéo génératifs, qui est généralisable à différents modèles de manière plug-and-play. Nous étudions la non-linéarité dans l'espace des caractéristiques des modèles de diffusion vidéo et transformons un modèle vidéo en un modèle de diffusion vidéo auto-cascadé en intégrant des modules de correction d'état caché conçus. L'architecture auto-cascadée et le module de correction sont proposés pour préserver la cohérence temporelle entre les images clés et les images interpolées. Des évaluations approfondies sont effectuées sur plusieurs modèles vidéo populaires pour démontrer l'efficacité de la méthode proposée, en particulier que notre méthode sans entraînement est même comparable aux modèles d'interpolation entraînés soutenus par d'importantes ressources de calcul et des jeux de données à grande échelle.