papers.title

papers.description

ReCapture : Contrôles génératifs de caméra vidéo pour des vidéos fournies par l'utilisateur grâce à un réglage fin vidéo masqué
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Récemment, des avancées dans la modélisation vidéo ont permis de contrôler les trajectoires de caméra dans les vidéos générées. Cependant, ces méthodes ne peuvent pas être directement appliquées à des vidéos fournies par l’utilisateur qui ne sont pas générées par un modèle vidéo. Dans cet article, nous présentons ReCapture, une méthode pour générer de nouvelles vidéos avec des trajectoires de caméra innovantes à partir d’une seule vidéo fournie par l’utilisateur. Notre méthode permet de régénérer la vidéo de référence, avec tous ses mouvements de scène existants, sous des angles radicalement différents et avec des mouvements de caméra cinématographiques. De manière notable, en utilisant notre méthode, nous pouvons également halluciner de manière plausible des parties de la scène qui n’étaient pas visibles dans la vidéo de référence. Notre méthode fonctionne en (1) générant une vidéo d’ancrage bruitée avec une nouvelle trajectoire de caméra en utilisant des modèles de diffusion multivues ou le rendu de nuages de points basé sur la profondeur, puis en (2) régénérant la vidéo d’ancrage en une vidéo propre et temporellement cohérente avec un nouvel angle, grâce à notre technique proposée de fine-tuning vidéo masquée.

Les grands modèles de langage orchestrant un raisonnement structuré atteignent le niveau de Grandmaster sur Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Nous présentons l'Agent K v1.0, un agent autonome de science des données de bout en bout conçu pour automatiser, optimiser et généraliser à travers diverses tâches de science des données. Entièrement automatisé, l'Agent K v1.0 gère l'ensemble du cycle de vie de la science des données en apprenant de l'expérience. Il exploite un cadre de raisonnement structuré hautement flexible pour lui permettre de traiter dynamiquement la mémoire dans une structure imbriquée, apprenant efficacement des expériences accumulées stockées pour gérer des tâches de raisonnement complexes. Il optimise la mémoire à long et court terme en stockant et en récupérant sélectivement des informations clés, guidant les décisions futures en fonction des récompenses environnementales. Cette approche itérative lui permet d'affiner les décisions sans ajustement fin ou rétropropagation, atteignant une amélioration continue grâce à l'apprentissage expérientiel. Nous évaluons les capacités de notre agent en utilisant les compétitions Kaggle comme étude de cas. Suivant un protocole entièrement automatisé, l'Agent K v1.0 aborde systématiquement des tâches complexes et multimodales de science des données, en utilisant l'optimisation bayésienne pour l'ajustement des hyperparamètres et l'ingénierie des fonctionnalités. Notre nouveau cadre d'évaluation évalue rigoureusement les capacités de bout en bout de l'Agent K v1.0 pour générer et envoyer des soumissions à partir d'une URL de compétition Kaggle. Les résultats démontrent que l'Agent K v1.0 atteint un taux de réussite de 92,5\% à travers les tâches, couvrant les domaines tabulaire, vision par ordinateur, NLP et multimodal. Lors de la comparaison avec 5 856 concurrents humains de Kaggle en calculant les scores Elo-MMR pour chacun, l'Agent K v1.0 se classe dans le top 38\%, démontrant un niveau de compétence global comparable à celui des utilisateurs de niveau Expert. Notamment, son score Elo-MMR se situe entre le premier et le troisième quartile des scores atteints par les Grands Maîtres humains. De plus, nos résultats indiquent que l'Agent K v1.0 a atteint un niveau de performance équivalent à celui de Grand Maître Kaggle, avec un record de 6 médailles d'or, 3 d'argent et 7 de bronze, tel que défini par le système de progression de Kaggle.

Texte et images divulgués ! Une analyse systématique de la contamination des données multimodales de LLM
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

La rapide progression des grands modèles de langage multimodaux (GMLM) a démontré des performances supérieures sur divers bancs d'essai multimodaux. Cependant, le problème de la contamination des données pendant l'entraînement crée des défis dans l'évaluation des performances et des comparaisons. Alors que de nombreuses méthodes existent pour détecter la contamination des ensembles de données dans les grands modèles de langage (LLM), elles sont moins efficaces pour les GMLM en raison de leurs différentes modalités et de leurs multiples phases d'entraînement. Dans cette étude, nous introduisons un cadre de détection de contamination des données multimodal, MM-Detect, conçu pour les GMLM. Nos résultats expérimentaux indiquent que MM-Detect est sensible à différents degrés de contamination et peut mettre en évidence des améliorations significatives des performances dues à des fuites de l'ensemble d'entraînement des bancs d'essai multimodaux. De plus, nous explorons également la possibilité d'une contamination provenant de la phase de pré-entraînement des LLM utilisés par les GMLM et de la phase de fine-tuning des GMLM, offrant de nouvelles perspectives sur les étapes auxquelles la contamination peut être introduite.

Activations de Composition Polynomiale : Libérer la Dynamique des Grands Modèles de Langage
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Les transformers ont trouvé de nombreuses applications dans divers domaines en raison de leurs puissantes capacités d'ajustement. Ce succès peut être partiellement attribué à leur non-linéarité inhérente. Ainsi, en plus de la fonction ReLU utilisée dans l'architecture originale du transformer, les chercheurs ont exploré des modules alternatifs tels que GeLU et SwishGLU pour améliorer la non-linéarité et ainsi augmenter la capacité de représentation. Dans cet article, nous proposons une nouvelle catégorie d'activations de composition polynomiale (PolyCom), conçue pour optimiser la dynamique des transformers. Théoriquement, nous fournissons une analyse mathématique complète de PolyCom, mettant en évidence son expressivité et son efficacité améliorées par rapport à d'autres fonctions d'activation. Notamment, nous démontrons que les réseaux incorporant PolyCom atteignent le taux d'approximation optimal, indiquant que les réseaux PolyCom nécessitent un nombre minimal de paramètres pour approximer des fonctions lisses générales dans les espaces de Sobolev. Nous menons des expériences empiriques sur les configurations de pré-entraînement des grands modèles de langage (LLM), comprenant à la fois des architectures denses et clairsemées. En remplaçant les fonctions d'activation conventionnelles par PolyCom, nous permettons aux LLM de capturer des interactions d'ordre supérieur au sein des données, améliorant ainsi les mesures de performance en termes de précision et de taux de convergence. Des résultats expérimentaux approfondis démontrent l'efficacité de notre méthode, montrant des améliorations substantielles par rapport à d'autres fonctions d'activation. Le code est disponible sur https://github.com/BryceZhuo/PolyCom.

TIP-I2V : Un jeu de données à grande échelle d'un million de prompts texte et image réels pour la génération vidéo à partir d'images
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Les modèles de génération vidéo révolutionnent la création de contenu, avec les modèles image-à-vidéo qui attirent une attention croissante grâce à leur contrôlabilité accrue, leur cohérence visuelle et leurs applications pratiques. Cependant, malgré leur popularité, ces modèles s'appuient sur des invites textuelles et visuelles fournies par les utilisateurs, et il n'existe actuellement aucun jeu de données dédié à l'étude de ces invites. Dans cet article, nous présentons TIP-I2V, le premier jeu de données à grande échelle comprenant plus de 1,70 million d'invites textuelles et visuelles uniques fournies par les utilisateurs, spécifiquement conçu pour la génération image-à-vidéo. Nous fournissons également les vidéos générées correspondantes issues de cinq modèles image-à-vidéo de pointe. Nous commençons par décrire le processus long et coûteux de curation de ce jeu de données à grande échelle. Ensuite, nous comparons TIP-I2V à deux jeux de données d'invites populaires, VidProM (texte-à-vidéo) et DiffusionDB (texte-à-image), en mettant en évidence les différences dans les informations de base et sémantiques. Ce jeu de données permet des avancées dans la recherche sur la génération image-à-vidéo. Par exemple, pour développer de meilleurs modèles, les chercheurs peuvent utiliser les invites de TIP-I2V pour analyser les préférences des utilisateurs et évaluer les performances multidimensionnelles de leurs modèles entraînés ; et pour améliorer la sécurité des modèles, ils peuvent se concentrer sur la résolution du problème de désinformation causé par les modèles image-à-vidéo. Les nouvelles recherches inspirées par TIP-I2V et les différences avec les jeux de données existants soulignent l'importance d'un jeu de données d'invites spécialisé pour la génération image-à-vidéo. Le projet est accessible publiquement à l'adresse https://tip-i2v.github.io.

Optimisation de la Préférence de l'Auto-Consistance
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

L'auto-alignement, par lequel les modèles apprennent à s'améliorer sans annotation humaine, est un domaine de recherche en pleine expansion. Cependant, les techniques existantes échouent souvent à améliorer les tâches de raisonnement complexe en raison de la difficulté d'attribuer des récompenses correctes. Une approche orthogonale connue pour améliorer la justesse est l'auto-consistance, une méthode appliquée au moment de l'inférence basée sur de multiples échantillonnages afin de trouver la réponse la plus cohérente. Dans ce travail, nous étendons le concept d'auto-consistance pour aider à entraîner les modèles. Nous introduisons ainsi l'optimisation des préférences d'auto-consistance (ScPO), qui entraîne de manière itérative des réponses cohérentes à être préférées aux réponses incohérentes sur de nouveaux problèmes non supervisés. Nous montrons que ScPO entraîne de grandes améliorations par rapport à l'entraînement de modèles de récompense conventionnels sur des tâches de raisonnement telles que GSM8K et MATH, comblant l'écart avec l'entraînement supervisé avec des réponses ou des préférences de référence, et que la combinaison de ScPO avec l'apprentissage supervisé standard améliore encore davantage les résultats. Sur ZebraLogic, ScPO affine Llama-3 8B pour être supérieur à Llama-3 70B, Gemma-2 27B et Claude-3 Haiku.

De Medprompt à o1 : Exploration des Stratégies d'Exécution pour les Problèmes de Défis Médicaux et Au-delà
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Les stratégies de pilotage en temps d'exécution telles que Medprompt sont précieuses pour guider les grands modèles de langage (LLM) vers des performances optimales sur des tâches complexes. Medprompt démontre qu'un LLM général peut être ciblé pour offrir des performances de pointe dans des domaines spécialisés tels que la médecine en utilisant une invitation pour susciter une stratégie en temps d'exécution impliquant un raisonnement en chaîne et un ensemble de pensées. Le modèle o1-preview d'OpenAI représente un nouveau paradigme, où un modèle est conçu pour effectuer un raisonnement en temps d'exécution avant de générer des réponses finales. Nous cherchons à comprendre le comportement de o1-preview sur un ensemble diversifié de défis médicaux. En suivant l'étude Medprompt avec GPT-4, nous évaluons systématiquement le modèle o1-preview sur divers benchmarks de problèmes médicaux. Notamment, même sans techniques d'invitation, o1-preview surpasse largement la série GPT-4 avec Medprompt. Nous étudions ensuite systématiquement l'efficacité des stratégies classiques d'ingénierie d'invitation, telles que représentées par Medprompt, dans le nouveau paradigme des modèles de raisonnement. Nous avons constaté que l'invitation en quelques exemples nuit aux performances de o1, suggérant que l'apprentissage en contexte pourrait ne plus être une approche efficace pour les modèles natifs de raisonnement. Bien que l'ensemble reste viable, il est gourmand en ressources et nécessite une optimisation minutieuse des coûts et des performances. Notre analyse des coûts et de la précision des stratégies en temps d'exécution révèle une frontière de Pareto, avec GPT-4o représentant une option plus abordable et o1-preview atteignant des performances de pointe à un coût plus élevé. Bien que o1-preview offre des performances optimales, GPT-4o avec des stratégies de pilotage comme Medprompt conserve sa valeur dans des contextes spécifiques. De plus, nous notons que le modèle o1-preview a atteint une saturation sur de nombreux benchmarks médicaux existants, soulignant le besoin de nouveaux benchmarks stimulants. Nous concluons en réfléchissant aux orientations générales pour le calcul en temps d'inférence avec les LLM.

papers.title

papers.description

ReCapture : Contrôles génératifs de caméra vidéo pour des vidéos fournies par l'utilisateur grâce à un réglage fin vidéo masqué
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

Les grands modèles de langage orchestrant un raisonnement structuré atteignent le niveau de Grandmaster sur Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

Texte et images divulgués ! Une analyse systématique de la contamination des données multimodales de LLM
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Activations de Composition Polynomiale : Libérer la Dynamique des Grands Modèles de Langage
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V : Un jeu de données à grande échelle d'un million de prompts texte et image réels pour la génération vidéo à partir d'images
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Optimisation de la Préférence de l'Auto-Consistance
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

De Medprompt à o1 : Exploration des Stratégies d'Exécution pour les Problèmes de Défis Médicaux et Au-delà
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz