papers.description
Les modèles de diffusion d'images ont été adaptés pour la super-résolution vidéo en monde réel afin de résoudre les problèmes de lissage excessif rencontrés dans les méthodes basées sur les GAN. Cependant, ces modèles ont du mal à maintenir une cohérence temporelle, car ils sont entraînés sur des images statiques, ce qui limite leur capacité à capturer efficacement les dynamiques temporelles. L'intégration de modèles texte-vidéo (T2V) dans la super-résolution vidéo pour une modélisation temporelle améliorée est simple. Cependant, deux défis clés subsistent : les artefacts introduits par des dégradations complexes dans des scénarios du monde réel, et la compromission de la fidélité en raison de la forte capacité générative des puissants modèles T2V (par exemple, CogVideoX-5B). Pour améliorer la qualité spatio-temporelle des vidéos restaurées, nous présentons \name (Augmentation Spatio-Temporelle avec des modèles T2V pour la super-résolution vidéo en monde réel), une approche novatrice qui exploite les modèles T2V pour la super-résolution vidéo en monde réel, permettant d'obtenir des détails spatiaux réalistes et une cohérence temporelle robuste. Plus précisément, nous introduisons un Module d'Amélioration de l'Information Locale (LIEM) avant le bloc d'attention global pour enrichir les détails locaux et atténuer les artefacts de dégradation. De plus, nous proposons une Perte de Fréquence Dynamique (DF) pour renforcer la fidélité, guidant le modèle pour se concentrer sur différentes composantes de fréquence à travers les étapes de diffusion. Des expériences approfondies démontrent que \name surpasse les méthodes de pointe sur des ensembles de données synthétiques et du monde réel.
La performance remarquable du modèle o1 en raisonnement complexe démontre que l'augmentation du calcul au moment du test peut encore libérer le potentiel du modèle, permettant ainsi une pensée puissante de type Système-2. Cependant, il existe toujours un manque d'enquêtes exhaustives sur l'augmentation du calcul au moment du test. Nous retrouvons le concept d'augmentation du calcul au moment du test dans les modèles de type Système-1. Dans les modèles de type Système-1, l'augmentation du calcul au moment du test aborde les changements de distribution et améliore la robustesse et la généralisation grâce à la mise à jour des paramètres, la modification des entrées, l'édition de la représentation et l'étalonnage des sorties. Dans les modèles de type Système-2, cela améliore la capacité de raisonnement du modèle pour résoudre des problèmes complexes grâce à des échantillonnages répétés, des auto-corrections et des recherches arborescentes. Nous organisons cette enquête en fonction de l'évolution de la pensée du Système-1 au Système-2, mettant en avant le rôle clé de l'augmentation du calcul au moment du test dans la transition des modèles de type Système-1 aux modèles de type Système-2 faibles, puis aux modèles de type Système-2 forts. Nous soulignons également quelques orientations futures possibles.
Les modèles de langage de grande taille (LLMs) de pointe démontrent des performances prometteuses dans la résolution de problèmes mathématiques complexes avec un pipeline de diviser-pour-régner et l'assistance d'exemples d'apprentissage en contexte (ICL). Cependant, leur potentiel d'amélioration est limité par deux problèmes critiques au sein de leurs exemples ICL : le désaccord de granularité et le problème de bruit d'effet négatif qui en découle. Plus précisément, les LLMs sont capables du processus de division mais échouent principalement en raison de raisonnements inexactes dans quelques étapes de conquête, tandis que les exemples ICL récupérés parfois manquent d'étapes pertinentes pour une étape de raisonnement difficile spécifique. De plus, ce désaccord peut entraver le raisonnement correct en raison de son manque de pertinence. Dans cette optique, nous nous concentrons sur l'amélioration de la qualité du raisonnement à chaque étape et présentons BoostStep. BoostStep aligne la granularité entre la récupération et le raisonnement sur une base d'étape, et fournit des exemples ICL hautement pertinents pour chaque étape de raisonnement avec une nouvelle stratégie de « premier essai ». BoostStep fournit des exemples plus pertinents que la stratégie grossière basée sur les questions, améliorant ainsi progressivement la qualité du raisonnement du modèle à chaque étape. BoostStep est une méthode d'amélioration du raisonnement générale et robuste qui non seulement améliore les performances de raisonnement autonomes, mais s'intègre également de manière transparente avec les méthodes de recherche arborescente Monte Carlo (MCTS) pour affiner à la fois la génération de candidats et la prise de décision. Quantitativement, il améliore GPT-4o et Qwen2.5-Math-72B de 3,6 % et 2,0 % respectivement sur divers benchmarks mathématiques, et de 7,5 % combiné avec MCTS.
L'interaction active en temps réel avec les modèles de langage sur vidéo introduit un nouveau paradigme pour l'interaction homme-machine, où le modèle comprend non seulement l'intention de l'utilisateur mais répond également tout en traitant en continu la vidéo en streaming à la volée. Contrairement aux modèles de langage sur vidéo hors ligne, qui analysent l'intégralité de la vidéo avant de répondre aux questions, l'interaction active en temps réel nécessite trois capacités : 1) Perception : surveillance vidéo en temps réel et capture d'interaction. 2) Décision : déclenchement d'interactions proactives dans des situations appropriées. 3) Réaction : interaction continue avec les utilisateurs. Cependant, des conflits inhérents existent entre les capacités souhaitées. La Décision et la Réaction nécessitent une échelle et une granularité de Perception contraires, et le décodage autorégressif bloque la Perception et la Décision en temps réel pendant la Réaction. Pour unifier les capacités en conflit au sein d'un système harmonieux, nous présentons Dispider, un système qui démêle la Perception, la Décision et la Réaction. Dispider présente un module de traitement vidéo en streaming proactif léger qui suit le flux vidéo et identifie les moments optimaux pour l'interaction. Une fois l'interaction déclenchée, un module d'interaction asynchrone fournit des réponses détaillées, tandis que le module de traitement continue de surveiller la vidéo en attendant. Notre conception désenchevêtrée et asynchrone garantit des réponses opportunes, précises sur le plan contextuel et efficaces sur le plan computationnel, ce qui rend Dispider idéal pour l'interaction active en temps réel sur des flux vidéo de longue durée. Les expériences montrent que Dispider maintient non seulement de bonnes performances dans les tâches classiques de questions-réponses sur vidéo, mais dépasse également de manière significative les modèles en ligne précédents dans les réponses en scénario de streaming, validant ainsi l'efficacité de notre architecture. Le code et le modèle sont disponibles sur https://github.com/Mark12Ding/Dispider.
À mesure que les grands modèles de langage (GML) évoluent, leur capacité à fournir des réponses personnalisées et contextuelles offre un potentiel transformateur pour améliorer les expériences utilisateur. Cependant, les approches de personnalisation existantes se basent souvent uniquement sur l'historique de l'utilisateur pour enrichir la requête, limitant leur efficacité dans la génération de sorties adaptées, notamment dans des scénarios de démarrage à froid avec des données clairsemées. Pour remédier à ces limitations, nous proposons Retrieval-Augmented Generation basée sur un graphe personnalisé (PGraphRAG), un cadre qui exploite les graphes de connaissances centrés sur l'utilisateur pour enrichir la personnalisation. En intégrant directement les connaissances structurées de l'utilisateur dans le processus de recherche et en augmentant les requêtes avec un contexte pertinent pour l'utilisateur, PGraphRAG améliore la compréhension contextuelle et la qualité des sorties. Nous introduisons également le Benchmark basé sur un graphe personnalisé pour la génération de texte, conçu pour évaluer les tâches de génération de texte personnalisé dans des environnements réels où l'historique de l'utilisateur est clairsemé ou non disponible. Les résultats expérimentaux montrent que PGraphRAG surpasse significativement les méthodes de personnalisation de pointe sur diverses tâches, démontrant les avantages uniques de la recherche basée sur un graphe pour la personnalisation.
Les modèles génératifs texte-vidéo ont fait des progrès significatifs, permettant diverses applications dans le domaine du divertissement, de la publicité et de l'éducation. Cependant, la génération de vidéos RGBA, qui inclut des canaux alpha pour la transparence, reste un défi en raison de jeux de données limités et de la difficulté d'adapter les modèles existants. Les canaux alpha sont cruciaux pour les effets visuels (VFX), permettant à des éléments transparents tels que la fumée et les reflets de se fondre harmonieusement dans les scènes. Nous présentons TransPixar, une méthode pour étendre les modèles vidéo pré-entraînés à la génération RGBA tout en conservant les capacités RGB d'origine. TransPixar exploite une architecture de transformateur de diffusion (DiT), incorporant des jetons spécifiques à l'alpha et utilisant un ajustement fin LoRA pour générer conjointement les canaux RGB et alpha avec une grande cohérence. En optimisant les mécanismes d'attention, TransPixar préserve les forces du modèle RGB d'origine et réalise un alignement solide entre les canaux RGB et alpha malgré des données d'entraînement limitées. Notre approche génère efficacement des vidéos RGBA diverses et cohérentes, ouvrant de nouvelles perspectives pour les effets visuels et la création de contenu interactif.
L'entraînement à faible précision est considéré comme une stratégie efficace pour réduire à la fois les coûts d'entraînement et d'inférence en aval. Les lois d'échelle précédentes pour la précision se concentrent principalement sur la quantification en nombres entiers, accordant moins d'attention aux composants de la quantification en virgule flottante et ne s'adaptant donc pas bien aux pertes LLM dans ce scénario. En revanche, bien que l'entraînement par quantification en virgule flottante soit plus couramment mis en œuvre en production, la recherche à ce sujet a été relativement superficielle. Dans cet article, nous explorons en détail les effets des cibles de quantification en virgule flottante, des bits d'exposant, des bits de mantisse et de la granularité de calcul du facteur d'échelle dans les performances d'entraînement des modèles LLM par quantification en virgule flottante. Tout en présentant une loi d'échelle unifiée précise pour la quantification en virgule flottante, nous fournissons également des suggestions précieuses pour la communauté : (1) Les bits d'exposant contribuent légèrement plus aux performances du modèle que les bits de mantisse. Nous fournissons le rapport optimal entre les bits d'exposant et de mantisse pour différents nombres de bits, disponible pour référence future par les fabricants de matériel ; (2) Nous découvrons la formation de la taille critique des données dans l'entraînement LLM à faible précision. Trop de données d'entraînement dépassant la taille critique des données entraînera inversement une dégradation des performances du LLM ; (3) La précision optimale de la quantification en virgule flottante est directement proportionnelle à la puissance de calcul, mais dans une large plage de puissance de calcul, nous estimons que la meilleure précision en termes de coût-performance se situe entre 4 et 8 bits.
Nous considérons la tâche de génération Image-vers-Vidéo (I2V), qui implique de transformer des images statiques en séquences vidéo réalistes basées sur une description textuelle. Alors que les récents progrès produisent des sorties photoréalistes, ils ont souvent du mal à créer des vidéos avec un mouvement d'objets précis et cohérent, surtout dans des scénarios multi-objets. Pour remédier à ces limitations, nous proposons un cadre compositionnel en deux étapes qui décompose la génération I2V en : (i) Une étape de génération d'une représentation intermédiaire explicite, suivie par (ii) Une étape de génération de vidéo conditionnée par cette représentation. Notre innovation clé est l'introduction d'une trajectoire de mouvement basée sur un masque en tant que représentation intermédiaire, qui capture à la fois les informations sémantiques des objets et le mouvement, permettant une représentation expressive mais compacte du mouvement et de la sémantique. Pour incorporer la représentation apprise dans la deuxième étape, nous utilisons des objectifs d'attention au niveau des objets. Plus précisément, nous considérons un objectif d'attention croisée masquée spatial, par objet, intégrant des indications spécifiques à l'objet dans les régions correspondantes de l'espace latent et un objectif d'auto-attention spatio-temporelle masquée, assurant la cohérence image par image pour chaque objet. Nous évaluons notre méthode sur des benchmarks exigeants avec des scénarios multi-objets et à mouvement élevé et démontrons empiriquement que la méthode proposée atteint des résultats de pointe en termes de cohérence temporelle, de réalisme du mouvement et de fidélité à la description textuelle. De plus, nous introduisons \benchmark, un nouveau benchmark exigeant pour la génération I2V d'objets simples et multi-objets, et démontrons la supériorité de notre méthode sur ce benchmark. La page du projet est disponible sur https://guyyariv.github.io/TTM/.
Nous préentraînons METAGENE-1, un modèle autoregressif transformer de 7 milliards de paramètres, que nous désignons comme un modèle fondamental métagénomique, sur un corpus novateur de séquences d'ADN et d'ARN métagénomiques diverses comprenant plus de 1,5 trillion de paires de bases. Ce jeu de données provient d'une large collection d'échantillons d'eaux usées humaines, traités et séquencés à l'aide de méthodes de séquençage métagénomique en profondeur (next-generation). Contrairement aux modèles génomiques qui se concentrent sur des génomes individuels ou des ensembles spécifiques d'espèces, l'objectif de METAGENE-1 est de capturer la distribution complète des informations génomiques présentes dans ces eaux usées, afin d'aider dans des tâches liées à la surveillance des pandémies et à la détection des agents pathogènes. Nous réalisons une tokenisation par codage binaire de paires (BPE) sur notre jeu de données, adaptée aux séquences métagénomiques, puis préentraînons notre modèle. Dans cet article, nous détaillons d'abord le jeu de données de préentraînement, la stratégie de tokenisation et l'architecture du modèle, mettant en lumière les considérations et les choix de conception permettant la modélisation efficace des données métagénomiques. Nous présentons ensuite les résultats de la préentraînement de ce modèle sur notre jeu de données métagénomiques, en fournissant des détails sur nos pertes, les métriques système et la stabilité de l'entraînement tout au long du préentraînement. Enfin, nous démontrons les performances de METAGENE-1, qui atteint des résultats de pointe sur un ensemble de références génomiques et de nouvelles évaluations axées sur la détection des agents pathogènes humains et l'encastrement de séquences génomiques, mettant en valeur son potentiel pour les applications de santé publique dans la surveillance des pandémies, la biosurveillance et la détection précoce des menaces sanitaires émergentes.
La simulation automatisée d'attaques, également appelée red-teaming automatisé, est devenue une approche cruciale pour découvrir les vulnérabilités des grands modèles de langage (LLMs). Cependant, la plupart des méthodes existantes se concentrent sur des failles de sécurité isolées, limitant leur capacité à s'adapter aux défenses dynamiques et à découvrir efficacement des vulnérabilités complexes. Pour relever ce défi, nous proposons Auto-RT, un cadre d'apprentissage par renforcement qui explore et optimise automatiquement des stratégies d'attaque complexes pour découvrir efficacement les vulnérabilités de sécurité à travers des requêtes malveillantes. Plus précisément, nous introduisons deux mécanismes clés pour réduire la complexité de l'exploration et améliorer l'optimisation de la stratégie : 1) Exploration à arrêt précoce, qui accélère l'exploration en se concentrant sur les stratégies d'attaque à fort potentiel ; et 2) Algorithme de suivi de récompense progressive avec des modèles de régression intermédiaires, qui affinent dynamiquement la trajectoire de recherche vers l'exploitation réussie des vulnérabilités. Des expériences approfondies menées sur divers LLMs démontrent qu'en améliorant significativement l'efficacité de l'exploration et en optimisant automatiquement les stratégies d'attaque, Auto-RT détecte un éventail plus large de vulnérabilités, atteignant une vitesse de détection plus rapide et des taux de réussite supérieurs de 16,63\% par rapport aux méthodes existantes.
Le contrôle vidéo en 4D est essentiel dans la génération de vidéos car il permet l'utilisation de techniques sophistiquées de lentilles, telles que le tournage multi-caméras et le zoom à la dolly, actuellement non pris en charge par les méthodes existantes. Entraîner un Transformateur de Diffusion Vidéo (DiT) directement pour contrôler du contenu en 4D nécessite des vidéos multi-vues coûteuses. Inspirés par la Synthèse de Nouvelles Vues Dynamiques Monoculaires (MDVS) qui optimise une représentation en 4D et rend des vidéos selon différents éléments en 4D, tels que la pose de la caméra et l'édition du mouvement de l'objet, nous introduisons des champs gaussiens pseudo 4D dans la génération de vidéos. Plus précisément, nous proposons un nouveau cadre qui construit un champ gaussien pseudo 4D avec un suivi dense de points 3D et rend le champ gaussien pour tous les cadres vidéo. Ensuite, nous affinons un DiT pré-entraîné pour générer des vidéos en suivant les indications de la vidéo rendue, appelé GS-DiT. Pour améliorer l'entraînement du GS-DiT, nous proposons également une méthode efficace de Suivi de Points 3D Denses (D3D-PT) pour la construction du champ gaussien pseudo 4D. Notre D3D-PT surpasse SpatialTracker, la méthode de suivi de points 3D épars de pointe, en précision et accélère la vitesse d'inférence de deux ordres de grandeur. Pendant l'étape d'inférence, GS-DiT peut générer des vidéos avec le même contenu dynamique tout en respectant différents paramètres de la caméra, résolvant une limitation significative des modèles actuels de génération de vidéos. GS-DiT démontre de solides capacités de généralisation et étend la contrôlabilité en 4D du Gaussian Splatting à la génération de vidéos au-delà des seules poses de caméra. Il prend en charge des effets cinématographiques avancés grâce à la manipulation du champ gaussien et des intrinsèques de la caméra, en faisant un outil puissant pour la production vidéo créative. Des démonstrations sont disponibles sur https://wkbian.github.io/Projects/GS-DiT/.
L'estimation de profondeur monoculaire dans le cadre de la débruitage par diffusion démontre une impressionnante capacité de généralisation mais souffre d'une faible vitesse d'inférence. Les méthodes récentes adoptent un paradigme déterministe en une seule étape pour améliorer l'efficacité de l'inférence tout en maintenant des performances comparables. Cependant, elles négligent l'écart entre les caractéristiques génératives et discriminatives, conduisant à des résultats sous-optimaux. Dans ce travail, nous proposons DepthMaster, un modèle de diffusion en une seule étape conçu pour adapter les caractéristiques génératives à la tâche d'estimation de profondeur discriminative. Tout d'abord, pour atténuer le surajustement aux détails de texture introduits par les caractéristiques génératives, nous proposons un module d'Alignement des Caractéristiques, qui intègre des caractéristiques sémantiques de haute qualité pour améliorer la capacité de représentation du réseau de débruitage. Deuxièmement, pour pallier le manque de détails fins dans le cadre déterministe en une seule étape, nous proposons un module d'Amélioration de Fourier pour équilibrer de manière adaptative la structure à basse fréquence et les détails à haute fréquence. Nous adoptons une stratégie d'entraînement en deux étapes pour exploiter pleinement le potentiel des deux modules. Dans la première étape, nous nous concentrons sur l'apprentissage de la structure de scène globale avec le module d'Alignement des Caractéristiques, tandis que dans la deuxième étape, nous exploitons le module d'Amélioration de Fourier pour améliorer la qualité visuelle. Grâce à ces efforts, notre modèle atteint des performances de pointe en termes de généralisation et de préservation des détails, surpassant les autres méthodes basées sur la diffusion à travers divers ensembles de données. Notre page de projet est disponible sur https://indu1ge.github.io/DepthMaster_page.
Les Modèles de Récompense au Niveau du Processus (PRM) sont cruciaux pour les tâches de raisonnement et de prise de décision complexes, où chaque étape intermédiaire joue un rôle important dans le processus de raisonnement. Étant donné que les modèles linguistiques sont sujets à divers types d'erreurs pendant le processus de raisonnement, les PRM doivent posséder des capacités nuancées pour détecter divers types d'erreurs implicites dans des scénarios du monde réel. Cependant, les référentiels actuels se concentrent principalement sur la correction des étapes, échouant à évaluer de manière systématique les performances des PRM. Pour combler cette lacune, nous introduisons PRMBench, un référentiel au niveau du processus spécifiquement conçu pour évaluer les capacités de détection d'erreurs fines des PRM. PRMBench comprend 6 216 problèmes soigneusement conçus et 83 456 étiquettes au niveau des étapes, évaluant les modèles selon plusieurs dimensions, y compris la simplicité, la solidité et la sensibilité. Dans nos expériences sur 15 modèles, couvrant à la fois des PRM open-source et des grands modèles linguistiques propriétaires sollicités en tant que modèles critiques, nous mettons en évidence des faiblesses significatives dans les PRM actuels. Ces résultats soulignent les défis inhérents à l'évaluation au niveau du processus et mettent en lumière des orientations clés pour la recherche future. Nous espérons que PRMBench pourra être un banc d'essai robuste pour faire progresser la recherche sur l'évaluation et le développement des PRM.
L'évaluation efficace de l'utilisation d'outils multi-sauts est cruciale pour analyser la compréhension, le raisonnement et les capacités d'appel de fonctions des grands modèles de langage (LLM). Cependant, les progrès ont été entravés par un manque de jeux de données d'évaluation fiables. Pour remédier à cela, nous présentons ToolHop, un ensemble de données comprenant 995 requêtes utilisateur et 3 912 outils associés, spécifiquement conçu pour une évaluation rigoureuse de l'utilisation d'outils multi-sauts. ToolHop garantit des requêtes diverses, des interdépendances significatives, des outils exécutables localement, des retours détaillés et des réponses vérifiables grâce à une approche novatrice de construction de données pilotée par les requêtes qui inclut la création d'outils, l'affinement des documents et la génération de code. Nous évaluons 14 LLM à travers cinq familles de modèles (c'est-à-dire LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 et GPT), mettant en lumière des défis significatifs dans la gestion de scénarios d'utilisation d'outils multi-sauts. Le modèle leader, GPT-4o, atteint une précision de 49,04 %, soulignant un important potentiel d'amélioration. Une analyse plus poussée révèle des variations dans les stratégies d'utilisation d'outils pour différentes familles, offrant des perspectives exploitables pour orienter le développement d'approches plus efficaces. Le code et les données sont disponibles sur https://huggingface.co/bytedance-research/ToolHop.
Nous proposons Samba ASR, le premier modèle de Reconnaissance Automatique de la Parole (ASR) de pointe exploitant l'architecture novatrice Mamba à la fois comme encodeur et décodeur, construit sur la base des modèles d'espace d'états (SSM). Contrairement aux modèles ASR basés sur des transformateurs, qui reposent sur des mécanismes d'auto-attention pour capturer les dépendances, Samba ASR modélise efficacement à la fois les dépendances temporelles locales et globales en utilisant des dynamiques d'espace d'états efficaces, réalisant des gains de performance remarquables. En abordant les limitations des transformateurs, tels que l'augmentation quadratique avec la longueur de l'entrée et la difficulté à gérer les dépendances à longue portée, Samba ASR atteint une précision et une efficacité supérieures. Les résultats expérimentaux démontrent que Samba ASR surpasse les modèles ASR basés sur des transformateurs open source existants à travers divers benchmarks standard, l'établissant comme le nouvel état de l'art en ASR. Des évaluations approfondies sur des ensembles de données de référence montrent des améliorations significatives du Taux d'Erreur de Mots (WER), avec des performances compétitives même dans des scénarios à ressources limitées. De plus, l'efficacité computationnelle et l'optimisation des paramètres de l'architecture Mamba font de Samba ASR une solution évolutive et robuste pour diverses tâches ASR. Nos contributions comprennent : une nouvelle architecture Samba ASR démontrant la supériorité des SSM par rapport aux modèles basés sur des transformateurs pour le traitement des séquences vocales. Une évaluation complète sur des benchmarks publics mettant en valeur des performances de pointe. Une analyse de l'efficacité computationnelle, de la robustesse au bruit et de la généralisation des séquences. Ce travail met en lumière la viabilité des SSM Mamba en tant qu'alternative sans transformateur pour une ASR efficace et précise. En exploitant les avancées de la modélisation d'espaces d'états, Samba ASR établit une nouvelle référence en termes de performances ASR et de recherche future.
Cet article présente un cadre puissant pour personnaliser les créations vidéo en incorporant plusieurs photos d'identité spécifiques, avec des Transformers de diffusion vidéo, appelés Ingrédients. En général, notre méthode se compose de trois modules principaux : (i) un extracteur facial qui capture des traits faciaux polyvalents et précis pour chaque identifiant humain à la fois d'un point de vue global et local ; (ii) un projecteur multi-échelle qui cartographie les plongements faciaux dans l'espace contextuel de la requête d'image dans les Transformers de diffusion vidéo ; (iii) un routeur d'identifiant qui combine et alloue dynamiquement plusieurs plongements d'identifiant aux régions espace-temps correspondantes. En exploitant un ensemble de données texte-vidéo méticuleusement organisé et un protocole d'entraînement multi-étapes, Ingrédients démontre des performances supérieures pour transformer des photos personnalisées en contenu vidéo dynamique et personnalisé. Les évaluations qualitatives mettent en avant les avantages de la méthode proposée, la positionnant comme une avancée significative vers des outils de contrôle vidéo génératif plus efficaces dans une architecture basée sur les Transformers, par rapport aux méthodes existantes. Les données, le code et les poids du modèle sont disponibles publiquement sur : https://github.com/feizc/Ingredients.
La conception de visuels structurés tels que des diapositives de présentation est essentielle pour les besoins de communication, nécessitant à la fois la création de contenu et des compétences en planification visuelle. Dans ce travail, nous abordons le défi de la génération automatisée de diapositives, où les modèles produisent des présentations de diapositives à partir d'instructions en langage naturel (NL). Nous introduisons d'abord le benchmark SlidesBench, le premier benchmark pour la génération de diapositives avec 7k exemples d'entraînement et 585 exemples de test dérivés de 310 jeux de diapositives à travers 10 domaines. SlidesBench prend en charge des évaluations qui sont (i) basées sur des références pour mesurer la similarité avec une diapositive cible, et (ii) sans référence pour mesurer la qualité de conception des diapositives générées seules. Nous évaluons la génération d'images de bout en bout et les méthodes de génération de programmes avec une variété de modèles, et constatons que les méthodes programmatiques produisent des diapositives de meilleure qualité dans des formats interactifs pour l'utilisateur. S'appuyant sur le succès de la génération de programmes, nous créons AutoPresent, un modèle basé sur Llama 8B entraîné sur 7k paires d'instructions associées à du code pour la génération de diapositives, et obtenons des résultats comparables au modèle GPT-4o en source fermée. Nous explorons en outre le raffinement itératif de la conception où le modèle est chargé d'améliorer lui-même sa propre sortie, et nous avons constaté que ce processus améliore la qualité de la diapositive. Nous espérons que notre travail servira de base pour les futures recherches sur la génération de visuels structurés.
Le développement rapide des modèles de langage visuel (VLM) exige une évaluation rigoureuse et fiable. Cependant, les référentiels actuels de questions-réponses visuelles (VQA) dépendent souvent de questions ouvertes, ce qui rend l'évaluation précise difficile en raison de la variabilité des réponses en langage naturel. Pour remédier à cela, nous introduisons AutoConverter, un cadre agentique qui convertit automatiquement ces questions ouvertes en format à choix multiples, permettant une évaluation objective tout en réduisant le processus coûteux de création de questions. Nos expériences démontrent qu'AutoConverter peut générer des questions à choix multiples correctes et stimulantes, les VLM montrant une précision systématiquement similaire ou inférieure sur ces questions par rapport à celles créées par des humains. En utilisant AutoConverter, nous construisons VMCBench, un référentiel créé en transformant 20 ensembles de données VQA existants en un format unifié à choix multiples, totalisant 9 018 questions. Nous évaluons de manière exhaustive 33 VLM de pointe sur VMCBench, établissant ainsi une nouvelle norme pour l'évaluation évolutive, cohérente et reproductible des VLM.
Dans cet article, nous proposons ProTracker, un nouveau cadre pour un suivi dense à long terme robuste et précis de points arbitraires dans des vidéos. L'idée clé de notre méthode est d'incorporer une intégration probabiliste pour affiner plusieurs prédictions à la fois à partir du flux optique et des caractéristiques sémantiques pour un suivi robuste à court et long terme. Plus précisément, nous intégrons les estimations du flux optique de manière probabiliste, produisant des trajectoires fluides et précises en maximisant la vraisemblance de chaque prédiction. Pour relocaliser efficacement des points difficiles qui disparaissent et réapparaissent en raison d'occultations, nous incorporons en outre une correspondance de caractéristiques à long terme dans nos prédictions de flux pour une génération de trajectoires continue. Des expériences approfondies montrent que ProTracker atteint des performances de pointe parmi les approches non supervisées et auto-supervisées, et surpasse même les méthodes supervisées sur plusieurs benchmarks. Notre code et notre modèle seront publiquement disponibles dès la publication.