Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons le champ de déformation de contenu CoDeF comme un nouveau type de représentation vidéo, qui consiste en un champ de contenu canonique agrégeant les contenus statiques de la vidéo entière et un champ de déformation temporelle enregistrant les transformations de l'image canonique (c'est-à-dire rendue à partir du champ de contenu canonique) vers chaque image individuelle le long de l'axe temporel. Étant donné une vidéo cible, ces deux champs sont conjointement optimisés pour la reconstruire à travers un pipeline de rendu soigneusement conçu. Nous introduisons judicieusement certaines régularisations dans le processus d'optimisation, incitant le champ de contenu canonique à hériter de la sémantique (par exemple, la forme de l'objet) de la vidéo. Avec une telle conception, CoDeF supporte naturellement l'élévation d'algorithmes d'image pour le traitement vidéo, dans le sens où l'on peut appliquer un algorithme d'image à l'image canonique et propager sans effort les résultats à l'ensemble de la vidéo avec l'aide du champ de déformation temporelle. Nous montrons expérimentalement que CoDeF est capable d'élever la traduction d'image à image à la traduction de vidéo à vidéo et d'élever la détection de points clés au suivi de points clés sans aucun entraînement. Plus important encore, grâce à notre stratégie d'élévation qui déploie les algorithmes sur une seule image, nous obtenons une cohérence inter-images supérieure dans les vidéos traitées par rapport aux approches existantes de traduction vidéo à vidéo, et parvenons même à suivre des objets non rigides comme l'eau et la fumée. La page du projet peut être trouvée à l'adresse https://qiuyu96.github.io/CoDeF/.
Les récents progrès des grands modèles de langage (LLMs) tels que GPT-4 et PaLM-2 ont permis des avancées significatives dans la résolution de problèmes de raisonnement mathématique. En particulier, la dernière version de GPT-4 d'OpenAI, connue sous le nom de GPT-4 Code Interpreter, démontre des performances remarquables sur des ensembles de données mathématiques complexes. Dans cet article, nous explorons l'effet du code sur l'amélioration des capacités de raisonnement des LLMs en introduisant différentes contraintes sur la fréquence d'utilisation du code de GPT-4 Code Interpreter. Nous avons constaté que son succès peut être largement attribué à ses compétences puissantes dans la génération et l'exécution de code, l'évaluation des résultats de l'exécution du code, et la correction de sa solution lorsqu'il reçoit des résultats déraisonnables. Sur la base de cette observation, nous proposons une nouvelle méthode d'incitation efficace, la vérification explicite basée sur le code (CSV), pour stimuler davantage le potentiel de raisonnement mathématique de GPT-4 Code Interpreter. Cette méthode utilise une incitation zero-shot sur GPT-4 Code Interpreter pour l'encourager à utiliser le code pour vérifier ses propres réponses. Dans les cas où l'état de vérification est enregistré comme « Faux », le modèle doit automatiquement corriger sa solution, de manière similaire à notre approche de correction des erreurs lors d'un examen de mathématiques. De plus, nous reconnaissons que les états du résultat de la vérification indiquent la confiance dans une solution, ce qui peut améliorer l'efficacité du vote majoritaire. Avec GPT-4 Code Interpreter et CSV, nous obtenons une précision zero-shot impressionnante sur le jeu de données MATH (de 53,9 % à 84,3 %).
Dans cet article, nous étudions la capacité d'apprentissage en contexte des modèles de langage encodeur-décodeur augmentés par récupération d'information. Nous commençons par réaliser une analyse approfondie du modèle ATLAS, considéré comme l'état de l'art, et identifions ses limitations en matière d'apprentissage en contexte, principalement dues à un décalage entre le pré-entraînement et les tests, ainsi qu'à une longueur de contexte restreinte. Pour résoudre ces problèmes, nous proposons RAVEN, un modèle qui combine la modélisation de langage masquée augmentée par récupération et la modélisation de langage par préfixe. Nous introduisons également l'apprentissage par fusion en contexte pour améliorer les performances en few-shot, permettant au modèle d'exploiter davantage d'exemples en contexte sans nécessiter d'entraînement supplémentaire ou de modifications du modèle. À travers des expériences approfondies, nous démontrons que RAVEN surpasse significativement ATLAS et obtient des résultats comparables aux modèles de langage les plus avancés dans certains scénarios, malgré un nombre de paramètres nettement inférieur. Notre travail met en lumière le potentiel des modèles de langage encodeur-décodeur augmentés par récupération pour l'apprentissage en contexte et encourage des recherches supplémentaires dans cette direction.
La capacité à apprendre à partir du contexte avec des concepts nouveaux et à fournir des réponses appropriées est essentielle dans les conversations humaines. Malgré les modèles de langage multimodaux de grande taille (MLLMs) et les modèles de langage de grande taille (LLMs) actuels, qui sont entraînés sur des ensembles de données à très grande échelle, la reconnaissance d'images inédites ou la compréhension de concepts nouveaux de manière sans apprentissage reste un défi. L'apprentissage en contexte (In-Context Learning, ICL) explore l'apprentissage en quelques coups sans entraînement, où les modèles sont encouragés à « apprendre à apprendre » à partir de tâches limitées et à généraliser à des tâches inédites. Dans ce travail, nous proposons l'apprentissage par lien contextuel (Link-Context Learning, LCL), qui met l'accent sur le « raisonnement à partir de la cause et de l'effet » pour renforcer les capacités d'apprentissage des MLLMs. LCL va au-delà de l'ICL traditionnel en renforçant explicitement la relation causale entre l'ensemble de support et l'ensemble de requêtes. En fournissant des démonstrations avec des liens causaux, LCL guide le modèle à discerner non seulement l'analogie mais aussi les associations causales sous-jacentes entre les points de données, ce qui permet aux MLLMs de reconnaître des images inédites et de comprendre des concepts nouveaux de manière plus efficace. Pour faciliter l'évaluation de cette nouvelle approche, nous introduisons le jeu de données ISEKAI, composé exclusivement de paires image-étiquette générées inédites conçues pour l'apprentissage par lien contextuel. Des expériences approfondies montrent que notre LCL-MLLM présente de solides capacités d'apprentissage par lien contextuel pour des concepts nouveaux par rapport aux MLLMs classiques. Le code et les données seront disponibles à l'adresse https://github.com/isekai-portal/Link-Context-Learning.
Cet article aborde le défi de créer des avatars neuronaux relightables et animables à partir de vidéos à vues éparses (voire monoculaires) d'humains dynamiques sous un éclairage inconnu. Comparé aux environnements de studio, ce contexte est plus pratique et accessible, mais pose un problème mal posé extrêmement complexe. Les méthodes précédentes de reconstruction neuronale d'humains sont capables de reconstruire des avatars animables à partir de vues éparses en utilisant des champs de distance signée déformés (SDF), mais ne peuvent pas récupérer les paramètres de matériaux pour le relighting. Bien que les méthodes basées sur le rendu inverse différentiable aient réussi à récupérer les matériaux d'objets statiques, il n'est pas simple de les étendre aux humains dynamiques, car il est intensif en calcul de déterminer l'intersection pixel-surface et la visibilité de la lumière sur des SDF déformés pour le rendu inverse. Pour résoudre ce défi, nous proposons un algorithme de requête de distance hiérarchique (HDQ) pour approximer les distances dans l'espace monde sous des poses humaines arbitraires. Plus précisément, nous estimons les distances grossières basées sur un modèle humain paramétrique et calculons les distances fines en exploitant l'invariance locale de la déformation des SDF. Sur la base de l'algorithme HDQ, nous utilisons le sphere tracing pour estimer efficacement l'intersection de surface et la visibilité de la lumière. Cela nous permet de développer le premier système capable de récupérer des avatars neuronaux animables et relightables à partir d'entrées à vues éparses (ou monoculaires). Les expériences démontrent que notre approche produit des résultats supérieurs par rapport aux méthodes de pointe. Notre code sera publié pour assurer la reproductibilité.
Les travaux récents sur l'apprentissage par renforcement profond (DRL) ont montré que des informations algorithmiques sur les bonnes politiques peuvent être extraites de données hors ligne qui ne contiennent pas d'informations explicites sur les actions exécutées. Par exemple, des vidéos d'humains ou de robots peuvent véhiculer beaucoup d'informations implicites sur les séquences d'actions récompensées, mais une machine DRL qui souhaite tirer profit de l'observation de telles vidéos doit d'abord apprendre par elle-même à identifier et à reconnaître les états/actions/récompenses pertinents. Sans s'appuyer sur des annotations de référence, notre nouvelle méthode, appelée Deep State Identifier, apprend à prédire les retours à partir d'épisodes encodés sous forme de vidéos. Elle utilise ensuite une sorte d'analyse de sensibilité basée sur des masques pour extraire/identifier les états critiques importants. Des expériences approfondies mettent en lumière le potentiel de notre méthode pour comprendre et améliorer le comportement des agents. Le code source et les ensembles de données générés sont disponibles à l'adresse suivante : https://github.com/AI-Initiative-KAUST/VideoRLCS.
L'injection de texte pour la reconnaissance automatique de la parole (ASR), où des données textuelles non appariées sont utilisées pour compléter des données audio-texte appariées, a montré des améliorations prometteuses en termes de taux d'erreur sur les mots. Cette étude examine l'utilisation de l'injection de texte pour des tâches auxiliaires, qui sont les tâches non liées à l'ASR souvent effectuées par un modèle de bout en bout (E2E). Dans ce travail, nous utilisons l'entraînement conjoint de bout en bout et du modèle de langage interne (JEIT) comme algorithme d'injection de texte pour entraîner un modèle ASR qui exécute deux tâches auxiliaires. La première est la capitalisation, qui est une tâche de dénormalisation. La seconde est la prédiction de prise de parole, qui tente d'identifier si un utilisateur a terminé son tour de parole lors d'une interaction avec un assistant numérique. Nous présentons des résultats démontrant que notre méthode d'injection de texte améliore les performances de capitalisation pour les données de longue traîne et augmente le rappel de détection de prise de parole.