papers.description
Malgré leurs performances remarquables, le développement des Grands Modèles de Langage (GML) est confronté à un défi critique en matière de supervision évolutive : fournir des retours efficaces pour des tâches où l'évaluation humaine est difficile ou où les GML surpassent les humains. Alors qu'il existe un intérêt croissant pour l'utilisation des GML pour la critique, les approches actuelles reposent encore sur des annotations humaines ou des modèles plus puissants, laissant en suspens la question de l'amélioration des capacités de critique sans supervision externe. Nous présentons SCRIT (CRITique auto-évolutive), un cadre qui permet une véritable auto-évolution des capacités de critique. Techniquement, SCRIT s'améliore en s'entraînant sur des données synthétiques, générées par un auto-critique basé sur le contraste qui utilise des solutions de référence pour la critique étape par étape, et un mécanisme d'auto-validation qui garantit la qualité de la critique grâce aux résultats de correction. Implémenté avec Qwen2.5-72B-Instruct, l'un des GML les plus puissants, SCRIT atteint jusqu'à une amélioration de 10,3\% sur les benchmarks de correction de critique et d'identification d'erreurs. Notre analyse révèle que les performances de SCRIT évoluent positivement avec la taille des données et du modèle, surpassent les approches alternatives, et bénéficient de manière critique de son composant d'auto-validation.
La Génération Augmentée par Récupération (RAG) est une stratégie puissante pour résoudre le problème de la génération de sorties incorrectes sur le plan factuel dans les modèles de base en récupérant des connaissances externes pertinentes pour les requêtes et en les incorporant dans leur processus de génération. Cependant, les approches RAG existantes se sont principalement concentrées sur les informations textuelles, avec quelques avancées récentes commençant à considérer les images, et elles négligent largement les vidéos, une source riche de connaissances multimodales capable de représenter des événements, des processus et des détails contextuels de manière plus efficace que toute autre modalité. Alors que quelques études récentes explorent l'intégration de vidéos dans le processus de génération de réponses, elles pré-définissent soit des vidéos associées à des requêtes sans les récupérer selon les requêtes, soit convertissent des vidéos en descriptions textuelles sans exploiter leur richesse multimodale. Pour relever ces défis, nous présentons VideoRAG, un nouveau cadre qui non seulement récupère dynamiquement des vidéos pertinentes en fonction de leur pertinence avec les requêtes, mais utilise également à la fois les informations visuelles et textuelles des vidéos dans la génération de sortie. De plus, pour opérationnaliser cela, notre méthode s'appuie sur l'avancée récente des Grands Modèles de Langage Vidéo (LVLMs), qui permettent le traitement direct du contenu vidéo pour le représenter en vue de la récupération et de l'intégration transparente des vidéos récupérées conjointement avec les requêtes. Nous validons expérimentalement l'efficacité de VideoRAG, démontrant qu'il est supérieur aux bases de référence pertinentes.
Le raisonnement est une capacité fondamentale pour résoudre des problèmes complexes à plusieurs étapes, en particulier dans des contextes visuels où une compréhension séquentielle étape par étape est essentielle. Les approches existantes manquent d'un cadre complet pour évaluer le raisonnement visuel et ne mettent pas l'accent sur la résolution de problèmes étape par étape. À cette fin, nous proposons un cadre complet pour faire progresser le raisonnement visuel étape par étape dans de grands modèles de langage (LMMs) à travers trois contributions clés. Tout d'abord, nous introduisons un banc d'essai de raisonnement visuel spécifiquement conçu pour évaluer des tâches de raisonnement à plusieurs étapes. Le banc d'essai présente un ensemble diversifié de défis avec huit catégories différentes allant de la perception visuelle complexe au raisonnement scientifique avec plus de 4k étapes de raisonnement au total, permettant une évaluation robuste des capacités des LLMs à effectuer un raisonnement visuel précis et interprétable à travers plusieurs étapes. Deuxièmement, nous proposons une nouvelle métrique qui évalue la qualité du raisonnement visuel au niveau des étapes individuelles, mettant l'accent à la fois sur la correction et la cohérence logique. La métrique proposée offre des insights plus approfondis sur les performances de raisonnement par rapport aux métriques traditionnelles de précision de fin de tâche. Troisièmement, nous présentons un nouveau modèle de raisonnement visuel multimodal, nommé LlamaV-o1, formé en utilisant une approche d'apprentissage par curriculum à plusieurs étapes, où les tâches sont progressivement organisées pour faciliter l'acquisition de compétences incrémentielle et la résolution de problèmes. Le LlamaV-o1 proposé est conçu pour le raisonnement à plusieurs étapes et apprend étape par étape à travers un paradigme d'entraînement structuré. Des expériences approfondies montrent que notre LlamaV-o1 surpasse les modèles open-source existants et se comporte favorablement par rapport aux modèles propriétaires close-source. Comparé au récent Llava-CoT, notre LlamaV-o1 atteint un score moyen de 67,3 avec un gain absolu de 3,8\% à travers six bancs d'essai tout en étant 5 fois plus rapide lors de l'échelle d'inférence. Notre banc d'essai, modèle et code sont disponibles publiquement.
Le développement de systèmes robotiques généraux capables de manipuler dans des environnements non structurés est un défi significatif. Alors que les Modèles Vision-Language (VLM) excellent dans le raisonnement de bon sens de haut niveau, ils manquent de la compréhension spatiale 3D détaillée nécessaire pour des tâches de manipulation précises. Le réglage fin des VLM sur des ensembles de données robotiques pour créer des Modèles Vision-Language-Action (VLA) est une solution potentielle, mais elle est entravée par des coûts élevés de collecte de données et des problèmes de généralisation. Pour relever ces défis, nous proposons une représentation novatrice centrée sur les objets qui comble le fossé entre le raisonnement de haut niveau des VLM et la précision de bas niveau requise pour la manipulation. Notre idée clé est qu'un espace canonique d'objet, défini par ses affordances fonctionnelles, fournit un moyen structuré et sémantiquement significatif de décrire des primitives d'interaction, telles que des points et des directions. Ces primitives agissent comme un pont, traduisant le raisonnement de bon sens des VLM en contraintes spatiales 3D actionnables. Dans ce contexte, nous introduisons un système de manipulation robotique à double boucle fermée, à vocabulaire ouvert : une boucle pour la planification de haut niveau à travers le rééchantillonnage primitif, le rendu d'interaction et la vérification des VLM, et une autre pour l'exécution de bas niveau via le suivi de la pose 6D. Cette conception garantit un contrôle robuste et en temps réel sans nécessiter de réglage fin des VLM. Des expériences approfondies démontrent une forte généralisation sans apprentissage préalable sur une variété de tâches de manipulation robotique, mettant en évidence le potentiel de cette approche pour automatiser la génération de données de simulation à grande échelle.
La Conscience Temporelle, la capacité de raisonner de manière dynamique en fonction de l'horodatage au moment où une question est posée, est la distinction clé entre les LLM vidéo hors ligne et en ligne. Contrairement aux modèles hors ligne, qui se basent sur des vidéos complètes pour une analyse statique et a posteriori, les modèles en ligne traitent les flux vidéo de manière incrémentielle et adaptent dynamiquement leurs réponses en fonction de l'horodatage auquel la question est posée. Malgré son importance, la conscience temporelle n'a pas été évaluée de manière adéquate dans les benchmarks existants. Pour combler cette lacune, nous présentons OVO-Bench (Online-VideO-Benchmark), un nouveau benchmark vidéo qui met l'accent sur l'importance des horodatages pour l'évaluation des capacités avancées de compréhension vidéo en ligne. OVO-Bench évalue la capacité des LLM vidéo à raisonner et à répondre aux événements se produisant à des horodatages spécifiques dans trois scénarios distincts : (1) Traçage en arrière : remonter aux événements passés pour répondre à la question. (2) Compréhension en temps réel : comprendre et répondre aux événements au fur et à mesure qu'ils se déroulent à l'horodatage actuel. (3) Réponse active anticipée : retarder la réponse jusqu'à ce que des informations futures suffisantes soient disponibles pour répondre à la question de manière précise. OVO-Bench comprend 12 tâches, présentant 644 vidéos uniques et environ 2 800 méta-annotations fines, soigneusement sélectionnées par des humains, avec des horodatages précis. Nous combinons des pipelines de génération automatisée avec une curation humaine. Avec ces échantillons de haute qualité, nous avons développé un pipeline d'évaluation pour interroger systématiquement les LLM vidéo le long de la chronologie vidéo. Les évaluations de neuf LLM vidéo révèlent que, malgré les avancées sur les benchmarks traditionnels, les modèles actuels rencontrent des difficultés avec la compréhension vidéo en ligne, montrant un écart significatif par rapport aux agents humains. Nous espérons qu'OVO-Bench stimulera les progrès dans les LLM vidéo et inspirera de futures recherches sur le raisonnement vidéo en ligne. Notre benchmark et notre code sont accessibles sur https://github.com/JoeLeelyf/OVO-Bench.
Les récents progrès des Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont considérablement amélioré leur perception fine des images individuelles et leur compréhension générale à travers plusieurs images. Cependant, les MLLM existants rencontrent encore des défis pour parvenir à un ancrage précis dans des scénarios complexes impliquant plusieurs images. Pour remédier à cela, nous explorons d'abord un cadre de Chaîne de Pensée (CoT) qui intègre l'ancrage des images individuelles avec la compréhension des images multiples. Bien que partiellement efficace, il reste instable et peine à capturer des informations visuelles abstraites en raison de sa nature non bout-à-bout. Par conséquent, nous introduisons Migician, le premier modèle d'ancrage multi-images capable d'effectuer un ancrage libre et précis à travers plusieurs images. Pour soutenir cela, nous présentons l'ensemble de données MGrounding-630k, qui comprend des données pour plusieurs tâches d'ancrage multi-images dérivées d'ensembles de données existants, ainsi que des données d'instructions d'ancrage libre nouvellement générées. De plus, nous proposons MIG-Bench, une référence complète spécifiquement conçue pour évaluer les capacités d'ancrage multi-images. Les résultats expérimentaux montrent que notre modèle atteint des capacités d'ancrage multi-images nettement supérieures, surpassant les meilleurs MLLM existants de 21,61% et dépassant même des modèles beaucoup plus grands de 70B. Notre code, modèle, ensemble de données et référentiel sont entièrement open source.
Les grands modèles de langage (LLM) ont atteint des performances remarquables ces dernières années, mais sont fondamentalement limités par les données d'entraînement sous-jacentes. Pour améliorer les modèles au-delà des données d'entraînement, des travaux récents ont exploré comment les LLM peuvent être utilisés pour générer des données synthétiques en vue d'une amélioration autonome. Cependant, les étapes successives d'amélioration autonome peuvent atteindre un point de rendements décroissants. Dans ce travail, nous proposons une approche complémentaire vers l'amélioration autonome où le fine-tuning est appliqué à une société multi-agents de modèles de langage. Un groupe de modèles de langage, tous partant du même modèle de base, est spécialisé de manière indépendante en mettant à jour chacun d'eux à l'aide de données générées par des interactions multi-agents entre les modèles. En formant chaque modèle sur des ensembles de données indépendants, nous illustrons comment cette approche permet la spécialisation à travers les modèles et la diversification sur l'ensemble des modèles. En conséquence, notre système global est capable de préserver des chaînes de raisonnement diverses et de s'améliorer de manière autonome sur de nombreux cycles de fine-tuning de plus que les méthodes d'amélioration autonome à agent unique. Nous illustrons quantitativement l'efficacité de l'approche à travers une large gamme de tâches de raisonnement.
La compréhension structurée des images, telle que l'interprétation des tableaux et des graphiques, nécessite de se recentrer stratégiquement sur diverses structures et textes au sein d'une image, formant une séquence de raisonnement pour parvenir à la réponse finale. Cependant, les modèles de langage multimodaux actuels (LLM) manquent de cette capacité d'attention sélective multi-sauts. Dans ce travail, nous introduisons ReFocus, un cadre simple mais efficace qui dote les LLM multimodaux de la capacité de générer des "pensées visuelles" en effectuant une édition visuelle sur l'image d'entrée via du code, déplaçant et affinant leurs centres d'intérêt visuels. Plus précisément, ReFocus permet aux LLM multimodaux de générer des codes Python pour appeler des outils et modifier l'image d'entrée, en dessinant séquentiellement des encadrés, en surlignant des sections et en masquant des zones, améliorant ainsi le processus de raisonnement visuel. Nous expérimentons sur une large gamme de tâches de compréhension d'images structurées impliquant des tableaux et des graphiques. ReFocus améliore largement les performances sur toutes les tâches par rapport à GPT-4o sans édition visuelle, offrant un gain moyen de 11,0% sur les tâches de tableau et de 6,8% sur les tâches de graphique. Nous présentons une analyse approfondie des effets des différentes éditions visuelles, et des raisons pour lesquelles ReFocus peut améliorer les performances sans introduire d'informations supplémentaires. De plus, nous collectons un ensemble d'entraînement de 14k en utilisant ReFocus, et prouvons qu'une telle chaîne de pensée visuelle avec des informations intermédiaires offre une meilleure supervision que les données VQA standard, atteignant un gain moyen de 8,0% par rapport au même modèle entraîné avec des paires de questions-réponses et de 2,6% par rapport à CoT.
La génération de vidéos à partir de texte a fait d'importants progrès grâce aux modèles de diffusion. Cependant, la Personnalisation Vidéo Multi-Concept (MCVC) reste un défi majeur. Nous identifions deux défis clés dans cette tâche : 1) le problème de découplage d'identité, où l'adoption directe des méthodes de personnalisation existantes mélange inévitablement les attributs lors du traitement de plusieurs concepts simultanément, et 2) la rareté des paires vidéo-entité de haute qualité, essentielle pour l'entraînement d'un tel modèle qui représente et découple efficacement divers concepts. Pour relever ces défis, nous introduisons ConceptMaster, un cadre innovant qui aborde efficacement les problèmes critiques de découplage d'identité tout en maintenant la fidélité conceptuelle dans les vidéos personnalisées. Plus précisément, nous introduisons une stratégie novatrice d'apprentissage d'incorporations multi-concepts découplées qui sont injectées dans les modèles de diffusion de manière autonome, garantissant ainsi efficacement la qualité des vidéos personnalisées avec de multiples identités, même pour des concepts visuels très similaires. Pour surmonter davantage la rareté des données MCVC de haute qualité, nous établissons soigneusement un pipeline de construction de données, permettant la collecte systématique de données vidéo-entité multi-concepts précises à travers divers concepts. Un benchmark complet est conçu pour valider l'efficacité de notre modèle selon trois dimensions critiques : la fidélité conceptuelle, la capacité de découplage d'identité et la qualité de génération vidéo à travers six scénarios de composition conceptuelle différents. Des expériences approfondies démontrent que notre ConceptMaster surpasse significativement les approches précédentes pour cette tâche, ouvrant la voie à la génération de vidéos personnalisées et sémantiquement précises à travers plusieurs concepts.
Les méthodes de personnalisation vidéo nous permettent de synthétiser des vidéos avec des concepts spécifiques tels que des personnes, des animaux de compagnie et des lieux. Cependant, les méthodes existantes se concentrent souvent sur des domaines limités, nécessitent une optimisation fastidieuse par sujet, ou ne prennent en charge qu'un seul sujet. Nous présentons Video Alchemist - un modèle vidéo doté de capacités de personnalisation multi-sujets en open-set intégrées pour à la fois les objets en premier plan et l'arrière-plan, éliminant ainsi le besoin d'une optimisation fastidieuse au moment du test. Notre modèle repose sur un nouveau module de Transformer de Diffusion qui fusionne chaque image de référence conditionnelle et son prompt textuel de niveau sujet correspondant avec des couches d'attention croisée. Le développement d'un tel modèle de grande taille présente deux principaux défis : l'ensemble de données et l'évaluation. Tout d'abord, étant donné que les ensembles de données appariés d'images de référence et de vidéos sont extrêmement difficiles à collecter, nous échantillonnons des images vidéo sélectionnées en tant qu'images de référence et synthétisons un extrait de la vidéo cible. Cependant, bien que les modèles puissent facilement débruiter les vidéos d'entraînement à partir de trames de référence, ils échouent à généraliser à de nouveaux contextes. Pour atténuer ce problème, nous concevons un nouveau pipeline de construction de données automatique avec des augmentations d'image étendues. Deuxièmement, évaluer la personnalisation vidéo en open-set est un défi en soi. Pour y remédier, nous introduisons un banc d'essai de personnalisation qui se concentre sur la fidélité de sujet précise et prend en charge divers scénarios de personnalisation. Enfin, nos expériences approfondies montrent que notre méthode surpasse significativement les méthodes de personnalisation existantes tant en termes d'évaluations quantitatives que qualitatives.
Cette étude présente une approche novatrice pour tester les limites de sécurité des Modèles de Langage à Grande Échelle Vision (VLM/LLM) en utilisant le fichier de test EICAR intégré dans des images JPEG. Nous avons exécuté avec succès quatre protocoles distincts sur plusieurs plateformes LLM, notamment OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro et Anthropic Claude 3.5 Sonnet. Les expériences ont validé qu'un JPEG modifié contenant la signature EICAR pouvait être téléchargé, manipulé et potentiellement exécuté dans les espaces de travail virtuels LLM. Les principales conclusions incluent : 1) la capacité constante de masquer la chaîne EICAR dans les métadonnées de l'image sans détection, 2) l'extraction réussie du fichier de test en utilisant une manipulation basée sur Python dans les environnements LLM, et 3) la démonstration de multiples techniques d'obfuscation incluant le codage en base64 et l'inversion de chaîne. Cette recherche étend le cadre "Règles d'Engagement des Tests de Pénétration" de Microsoft Research pour évaluer les limites de sécurité des IA génératives basées sur le cloud et des LLM, en se concentrant particulièrement sur la manipulation de fichiers et les capacités d'exécution dans des environnements conteneurisés.
Le processus de production traditionnel de l'animation Celluloïd (Cel) comprend plusieurs étapes essentielles, telles que le storyboard, la conception de la mise en page, l'animation par images clés, l'interpolation et la colorisation, qui exigent un effort manuel substantiel, une expertise technique et un investissement en temps significatif. Ces défis ont historiquement entravé l'efficacité et la scalabilité de la production d'animations Cel. L'avènement de l'intelligence artificielle générative (GenAI), englobant de grands modèles de langage, des modèles multimodaux et des modèles de diffusion, offre des solutions innovantes en automatisant des tâches telles que la génération d'images intermédiaires, la colorisation et la création de storyboards. Cette étude explore comment l'intégration de la GenAI révolutionne les flux de travail traditionnels de l'animation en réduisant les barrières techniques, en élargissant l'accessibilité à un plus large éventail de créateurs à travers des outils tels que AniDoc, ToonCrafter et AniSora, et en permettant aux artistes de se concentrer davantage sur l'expression créative et l'innovation artistique. Malgré son potentiel, des problèmes tels que le maintien de la cohérence visuelle, la garantie de la cohérence stylistique et la prise en compte des considérations éthiques continuent de poser des défis. De plus, cet article aborde les orientations futures et explore les avancées potentielles dans l'animation assistée par l'IA. Pour une exploration plus approfondie et des ressources, veuillez visiter notre dépôt GitHub : https://github.com/yunlong10/Awesome-AI4Animation
L'adaptation de domaine post-entraînement des grands modèles de langage (LLM) est apparue comme une approche prometteuse pour des domaines spécialisés tels que la médecine et la finance. Cependant, des défis importants persistent dans l'identification des critères d'adaptation optimaux et des stratégies d'entraînement adaptées à différentes configurations de données et de modèles. Pour relever ces défis, nous introduisons FINDAP, une investigation systématique et détaillée de l'adaptation de domaine post-entraînement des LLM pour le domaine financier. Notre approche commence par identifier les capacités essentielles requises pour le domaine cible et concevoir une suite d'évaluation complète alignée sur ces besoins. Nous analysons ensuite l'efficacité des étapes clés du post-entraînement, y compris le pré-entraînement continu, l'ajustement des instructions et l'alignement des préférences. En nous appuyant sur ces connaissances, nous proposons une recette d'entraînement efficace centrée sur une nouvelle méthode de distillation des données de préférence, qui exploite les signaux de processus d'un modèle de récompense génératif. Le modèle résultant, Llama-Fin, atteint des performances de pointe sur une large gamme de tâches financières. Notre analyse met également en lumière comment chaque étape de post-entraînement contribue à des capacités distinctes, révélant des défis spécifiques et des solutions efficaces, offrant des perspectives précieuses pour l'adaptation de domaine des LLM. Page du projet : https://github.com/SalesforceAIResearch/FinDap