Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) ont réalisé des progrès substantiels dans le traitement de longs contextes, mais rencontrent encore des difficultés en matière de raisonnement sur de longs contextes. Les approches existantes impliquent généralement le fine-tuning des LLM avec des données synthétiques, qui dépendent d'annotations d'experts humains ou de modèles avancés comme le GPT-4, limitant ainsi les avancées ultérieures. Pour résoudre ce problème, nous étudions le potentiel d'amélioration automatique des LLM en matière de raisonnement sur de longs contextes et proposons \textit{notre approche}, spécifiquement conçue à cet effet. Cette approche est simple : nous échantillonnons plusieurs sorties pour chaque question, les évaluons avec le Risque Bayésien Minimum, puis appliquons un fine-tuning supervisé ou une optimisation des préférences basée sur ces sorties. Des expériences approfondies menées sur plusieurs LLM de premier plan démontrent l'efficacité de \textit{notre approche}, avec une amélioration absolue de 4,2 points pour Llama-3.1-8B-Instruct. De plus, \textit{notre approche} obtient des performances supérieures par rapport aux approches antérieures qui dépendent de données produites par des experts humains ou des modèles avancés. Nous anticipons que ce travail ouvrira de nouvelles voies pour les techniques d'auto-amélioration dans des scénarios de longs contextes, essentielles pour l'avancement continu des LLM.
La génération de vidéos est apparue comme un outil prometteur pour la simulation du monde, exploitant des données visuelles pour reproduire des environnements réels. Dans ce contexte, la génération de vidéos égocentriques, qui se concentre sur la perspective humaine, présente un potentiel significatif pour améliorer les applications en réalité virtuelle, réalité augmentée et jeux vidéo. Cependant, la génération de vidéos égocentriques présente des défis substantiels en raison de la nature dynamique des points de vue égocentriques, de la diversité complexe des actions et de la variété complexe des scènes rencontrées. Les ensembles de données existants sont insuffisants pour relever efficacement ces défis. Pour combler cette lacune, nous présentons EgoVid-5M, le premier ensemble de données de haute qualité spécifiquement conçu pour la génération de vidéos égocentriques. EgoVid-5M comprend 5 millions de clips vidéo égocentriques et est enrichi d'annotations d'actions détaillées, comprenant un contrôle cinématique détaillé et des descriptions textuelles de haut niveau. Pour garantir l'intégrité et la facilité d'utilisation de l'ensemble de données, nous mettons en œuvre un pipeline sophistiqué de nettoyage des données conçu pour maintenir la cohérence des images, la cohérence des actions et la fluidité des mouvements dans des conditions égocentriques. De plus, nous introduisons EgoDreamer, capable de générer des vidéos égocentriques entraînées simultanément par des descriptions d'actions et des signaux de contrôle cinématique. L'ensemble de données EgoVid-5M, les annotations d'actions associées et toutes les métadonnées de nettoyage des données seront publiés pour faire progresser la recherche en génération de vidéos égocentriques.
L'alignement des grands modèles de langage (LLM) avec les préférences humaines reste un défi majeur. Alors que des techniques post-entraînement telles que l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) et l'Optimisation Directe des Préférences (DPO) ont connu un succès notable, elles introduisent souvent des inefficacités computationnelles et une instabilité d'entraînement. Dans cet article, nous proposons l'Optimisation des Préférences au Niveau des Caractéristiques (FPO), une méthode novatrice conçue pour simplifier le processus d'alignement tout en garantissant la stabilité. FPO exploite des Autoencodeurs Épars (SAEs) pré-entraînés et introduit des contraintes au niveau des caractéristiques, permettant un alignement efficace et contrôlé par la parcimonie. Notre approche bénéficie de l'efficacité en utilisant des caractéristiques éparses activées dans un autoencodeur épars bien entraîné et de la qualité de la divergence KL séquentielle en utilisant la référence hors ligne au niveau des caractéristiques. Les résultats expérimentaux sur des ensembles de données de référence montrent que FPO atteint une amélioration absolue du taux de victoire de 5,08 % avec un coût computationnel bien inférieur par rapport aux références de pointe, en faisant une solution prometteuse pour des alignements de LLM efficaces et contrôlables.
Les modèles de langue en français, tels que CamemBERT, ont été largement adoptés dans divers secteurs pour des tâches de traitement du langage naturel (NLP), avec des modèles comme CamemBERT enregistrant plus de 4 millions de téléchargements par mois. Cependant, ces modèles sont confrontés à des défis dus à la dérive conceptuelle temporelle, où des données d'entraînement obsolètes entraînent une baisse de performance, notamment lors de la rencontre de nouveaux sujets et terminologies. Cette problématique souligne le besoin de modèles actualisés reflétant les tendances linguistiques actuelles. Dans cet article, nous présentons deux nouvelles versions du modèle de base CamemBERT - CamemBERTav2 et CamemBERTv2 - conçues pour relever ces défis. CamemBERTav2 est basé sur l'architecture DeBERTaV3 et utilise l'objectif de Détection de Token Remplacé (RTD) pour une meilleure compréhension contextuelle, tandis que CamemBERTv2 est construit sur RoBERTa, qui utilise l'objectif de Modélisation de Langue Masquée (MLM). Les deux modèles sont entraînés sur un ensemble de données significativement plus grand et plus récent, avec une longueur de contexte accrue et un tokenizer mis à jour améliorant les performances de tokenization pour le français. Nous évaluons les performances de ces modèles à la fois sur des tâches de NLP de domaine général et des applications spécifiques à un domaine, telles que des tâches médicales, démontrant leur polyvalence et leur efficacité dans une gamme de cas d'utilisation. Nos résultats montrent que ces modèles actualisés surpassent largement leurs prédécesseurs, en faisant des outils précieux pour les systèmes de NLP modernes. Tous nos nouveaux modèles, ainsi que les points de contrôle intermédiaires, sont rendus disponibles publiquement sur Huggingface.
Les vecteurs de direction sont une approche prometteuse pour contrôler le comportement des grands modèles de langage. Cependant, leurs mécanismes sous-jacents restent mal compris. Alors que les autoencodeurs parcimonieux (SAEs) peuvent offrir une méthode potentielle pour interpréter les vecteurs de direction, des découvertes récentes montrent que les vecteurs reconstruits par les SAE manquent souvent des propriétés de direction des vecteurs originaux. Cet article examine pourquoi l'application directe des SAE aux vecteurs de direction produit des décompositions trompeuses, identifiant deux raisons : (1) les vecteurs de direction se situent en dehors de la distribution d'entrée pour laquelle les SAE sont conçus, et (2) les vecteurs de direction peuvent avoir des projections négatives significatives dans les directions des caractéristiques, que les SAE ne sont pas conçus pour accommoder. Ces limitations entravent l'utilisation directe des SAE pour interpréter les vecteurs de direction.
La génération de musique a progressé de manière significative, en particulier dans le domaine de la génération audio. Cependant, générer de la musique symbolique à la fois structurée sur le long terme et expressive reste un défi majeur. Dans cet article, nous proposons PerceiverS (Segmentation et Échelle), une nouvelle architecture conçue pour relever ce défi en exploitant à la fois des mécanismes de Segmentation Efficace et d'attention Multi-Échelle. Notre approche améliore la génération de musique symbolique en apprenant simultanément les dépendances structurelles à long terme et les détails expressifs à court terme. En combinant l'attention croisée et l'auto-attention dans un cadre Multi-Échelle, PerceiverS capture la structure musicale à longue portée tout en préservant les nuances de performance. Le modèle proposé, évalué sur des ensembles de données comme Maestro, montre des améliorations dans la génération de musique cohérente et variée, avec à la fois une cohérence structurelle et une variation expressive. Les démonstrations du projet et les échantillons de musique générée sont accessibles via le lien : https://perceivers.github.io.
Les modèles de conversion texte-vidéo (T2V) existants ont souvent du mal à générer des vidéos avec des actions suffisamment prononcées ou complexes. Une limitation clé réside dans l'incapacité de l'indication textuelle à transmettre précisément les détails des mouvements complexes. Pour remédier à cela, nous proposons un cadre novateur, MVideo, conçu pour produire des vidéos de longue durée avec des actions précises et fluides. MVideo surmonte les limitations des indications textuelles en incorporant des séquences de masques en tant qu'entrée de condition de mouvement supplémentaire, offrant une représentation plus claire et plus précise des actions prévues. En tirant parti de modèles de vision fondamentaux tels que GroundingDINO et SAM2, MVideo génère automatiquement des séquences de masques, améliorant à la fois l'efficacité et la robustesse. Nos résultats montrent qu'après l'entraînement, MVideo aligne efficacement les indications textuelles avec les conditions de mouvement pour produire des vidéos répondant simultanément aux deux critères. Ce mécanisme de contrôle double permet une génération de vidéos plus dynamique en permettant des modifications soit de l'indication textuelle, soit de la condition de mouvement de manière indépendante, ou des deux en tandem. De plus, MVideo prend en charge l'édition et la composition des conditions de mouvement, facilitant la génération de vidéos avec des actions plus complexes. Ainsi, MVideo fait progresser la génération de mouvement T2V, établissant une référence solide pour une meilleure représentation des actions dans les modèles actuels de diffusion vidéo. Notre page de projet est disponible sur https://mvideo-v1.github.io/.