Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les méthodes de chimie quantique computationnelle fournissent des approximations précises des propriétés moléculaires essentielles pour la découverte de médicaments assistée par ordinateur et d'autres domaines des sciences chimiques. Cependant, leur complexité computationnelle élevée limite l'évolutivité de leurs applications. Les potentiels de réseaux neuronaux (NNPs) constituent une alternative prometteuse aux méthodes de chimie quantique, mais ils nécessitent des ensembles de données volumineux et diversifiés pour leur entraînement. Ce travail présente un nouvel ensemble de données et un benchmark appelé nabla^2DFT, basé sur nablaDFT. Il contient deux fois plus de structures moléculaires, trois fois plus de conformations, de nouveaux types de données et tâches, ainsi que des modèles de pointe. L'ensemble de données inclut les énergies, les forces, 17 propriétés moléculaires, les matrices hamiltoniennes et de recouvrement, ainsi qu'un objet de fonction d'onde. Tous les calculs ont été effectués au niveau DFT (omegaB97X-D/def2-SVP) pour chaque conformation. De plus, nabla^2DFT est le premier ensemble de données à inclure des trajectoires de relaxation pour un nombre substantiel de molécules de type médicament. Nous introduisons également un nouveau benchmark pour évaluer les NNPs dans les tâches de prédiction de propriétés moléculaires, de prédiction hamiltonienne et d'optimisation conformationnelle. Enfin, nous proposons un cadre extensible pour l'entraînement des NNPs et y implémentons 10 modèles.
Le pré-entraînement multitâche non supervisé a été la méthode clé derrière le succès récent des modèles de langage (LMs). Cependant, l'apprentissage multitâche supervisé conserve un potentiel significatif, car son passage à l'échelle lors de l'étape post-entraînement tend à améliorer la généralisation. Dans cet article, nous explorons le pré-entraînement multitâche supervisé en proposant Instruction Pre-Training, un cadre qui enrichit de manière évolutive des corpus bruts massifs avec des paires instruction-réponse pour pré-entraîner les LMs. Les paires instruction-réponse sont générées par un synthétiseur d'instructions efficace construit sur des modèles open-source. Dans nos expériences, nous synthétisons 200 millions de paires instruction-réponse couvrant plus de 40 catégories de tâches pour vérifier l'efficacité d'Instruction Pre-Training. Dans le pré-entraînement à partir de zéro, Instruction Pre-Training améliore non seulement de manière constante les modèles de base pré-entraînés, mais bénéficie également davantage d'un réglage ultérieur par instruction. Dans le pré-entraînement continu, Instruction Pre-Training permet à Llama3-8B d'être comparable, voire supérieur, à Llama3-70B. Notre modèle, code et données sont disponibles à l'adresse https://github.com/microsoft/LMOps.
La tâche de manipulation des attributs d'images réelles via l'inversion de StyleGAN a fait l'objet de nombreuses recherches. Ce processus consiste à rechercher des variables latentes à partir d'un générateur StyleGAN bien entraîné qui peut synthétiser une image réelle, à modifier ces variables latentes, puis à synthétiser une image avec les modifications souhaitées. Un équilibre doit être trouvé entre la qualité de la reconstruction et la capacité à effectuer des modifications. Les premières études ont utilisé l'espace latent de faible dimension W pour la recherche latente, ce qui a facilité des modifications efficaces mais a rencontré des difficultés pour reconstruire des détails complexes. Des recherches plus récentes se sont tournées vers l'espace de caractéristiques de haute dimension F, qui inverse avec succès l'image d'entrée mais perd une grande partie des détails lors de la modification. Dans cet article, nous présentons StyleFeatureEditor -- une nouvelle méthode qui permet des modifications à la fois dans les latents W et F. Cette technique permet non seulement de reconstruire des détails d'image plus fins, mais assure également leur préservation lors de la modification. Nous présentons également un nouveau pipeline d'entraînement spécialement conçu pour entraîner notre modèle à modifier avec précision les latents F. Notre méthode est comparée aux approches d'encodage de pointe, démontrant que notre modèle excelle en termes de qualité de reconstruction et est capable de modifier même des exemples difficiles hors domaine. Le code est disponible à l'adresse suivante : https://github.com/AIRI-Institute/StyleFeatureEditor.
Les connaissances a priori humaines jouent un rôle crucial dans l'utilisation efficace des données en apprentissage profond. Cependant, avec le développement des grands modèles de langage (LLM), l'accent est de plus en plus mis sur l'augmentation à la fois de la taille des modèles et du volume de données, ce qui tend à diminuer l'importance des connaissances a priori humaines dans la construction des données. Influencés par ces tendances, les petits modèles de langage (SLM) existants reposent principalement sur des données d'entraînement massives extraites du web, négligeant l'intégration appropriée des connaissances a priori humaines. Cette négligence limite l'efficacité de l'entraînement des modèles de langage dans des contextes où les ressources sont limitées. Dans cet article, nous proposons un principe pour exploiter les connaissances a priori humaines dans la construction des données. Ce principe met l'accent sur l'obtention de SLM performants en s'entraînant sur un ensemble de données concis qui allie diversité sémantique et cohérence de qualité des données, tout en évitant les fuites de données de référence. En suivant ce principe, nous entraînons un SLM nommé HARE-1.1B. Des expériences approfondies sur des ensembles de données de référence à grande échelle montrent que HARE-1.1B surpasse les SLM de pointe, validant ainsi l'efficacité du principe proposé. De plus, cela offre de nouvelles perspectives sur l'entraînement efficace des modèles de langage dans des environnements à ressources limitées, du point de vue des connaissances a priori humaines.
Les modèles de vision et langage (VLMs) démontrent une remarquable compétence dans la résolution d'un large éventail de questions visuelles, ce qui nécessite de solides facultés de perception et de raisonnement. Évaluer ces deux compétences de manière indépendante est crucial pour l'amélioration des modèles, malgré la difficulté inhérente due à la nature entrelacée de la vision et du raisonnement dans les VLMs existants. Pour résoudre ce problème, nous présentons Prism, un cadre innovant conçu pour dissocier les processus de perception et de raisonnement impliqués dans la résolution de questions visuelles. Prism comprend deux étapes distinctes : une étape de perception qui utilise un VLM pour extraire et formuler des informations visuelles sous forme textuelle, et une étape de raisonnement qui formule des réponses basées sur les informations visuelles extraites en utilisant un modèle de langage de grande taille (LLM). Cette conception modulaire permet la comparaison et l'évaluation systématiques des VLMs propriétaires et open-source pour leurs forces en perception et en raisonnement. Notre cadre analytique fournit plusieurs insights précieux, soulignant le potentiel de Prism en tant que solution rentable pour les tâches de vision et langage. En combinant un VLM simplifié axé sur la perception avec un LLM puissant adapté au raisonnement, Prism obtient des résultats supérieurs dans les tâches générales de vision et langage tout en réduisant considérablement les coûts de formation et d'exploitation. Les évaluations quantitatives montrent que Prism, configuré avec un LLaVA 2B standard et un GPT-3.5 librement accessible, offre des performances comparables à celles de VLMs 10 fois plus grands sur le benchmark multimodal rigoureux MMStar. Le projet est disponible à l'adresse : https://github.com/SparksJoe/Prism.
L'émergence des grands modèles vision-langage (LVLMs) a stimulé la recherche sur leurs applications dans des contextes multimodaux, en particulier dans la compréhension vidéo. Les benchmarks traditionnels de VideoQA, bien qu'ils fournissent des métriques quantitatives, échouent souvent à englober l'ensemble du spectre du contenu vidéo et évaluent insuffisamment la compréhension temporelle des modèles. Pour pallier ces limitations, nous introduisons MMBench-Video, un benchmark quantitatif conçu pour évaluer rigoureusement la compétence des LVLMs dans la compréhension vidéo. MMBench-Video intègre des vidéos longues provenant de YouTube et utilise des questions libres, reflétant des cas d'utilisation pratiques. Le benchmark est méticuleusement élaboré pour tester les compétences de raisonnement temporel des modèles, avec toutes les questions annotées manuellement selon une taxonomie des capacités soigneusement construite. Nous utilisons GPT-4 pour l'évaluation automatisée, démontrant une précision et une robustesse supérieures par rapport aux évaluations antérieures basées sur des LLM. En utilisant MMBench-Video, nous avons mené des évaluations exhaustives incluant à la fois des LVLMs propriétaires et open-source pour les images et les vidéos. MMBench-Video constitue une ressource précieuse pour la communauté de recherche, facilitant une meilleure évaluation des LVLMs et catalysant les progrès dans le domaine de la compréhension vidéo. Le code d'évaluation de MMBench-Video sera intégré dans VLMEvalKit : https://github.com/open-compass/VLMEvalKit.
La fusion de grands modèles de langage (LLM) est une technique rentable pour combiner plusieurs LLM experts en un seul modèle polyvalent, tout en conservant l'expertise des modèles originaux. Cependant, les approches actuelles négligent souvent l'importance de l'alignement en matière de sécurité lors de la fusion, ce qui conduit à des modèles fortement désalignés. Ce travail étudie les effets de la fusion de modèles sur l'alignement. Nous évaluons plusieurs techniques populaires de fusion de modèles, démontrant que les méthodes existantes ne transfèrent pas seulement l'expertise du domaine, mais propagent également le désalignement. Nous proposons une approche simple en deux étapes pour résoudre ce problème : (i) générer des données synthétiques liées à la sécurité et spécifiques au domaine, et (ii) intégrer ces données générées dans le processus d'optimisation des techniques de fusion de modèles existantes qui prennent en compte les données. Cela nous permet de traiter l'alignement comme une compétence qui peut être maximisée dans le LLM fusionné résultant. Nos expériences illustrent l'efficacité de l'intégration de données liées à l'alignement lors de la fusion, produisant des modèles qui excellent à la fois en expertise du domaine et en alignement.
Face à des questions nécessitant une pensée visuelle, les humains changent naturellement de modalités de raisonnement, formant souvent des images mentales ou dessinant des aides visuelles. Les grands modèles de langage ont montré des résultats prometteurs en arithmétique et en raisonnement symbolique en exprimant leur raisonnement intermédiaire sous forme de chaîne de pensée textuelle, mais peinent à étendre cette capacité pour répondre à des requêtes textuelles facilement résolues par un raisonnement visuel, même avec un pré-entraînement multimodal étendu. Nous introduisons une méthode simple, le *whiteboard-of-thought prompting*, pour débloquer les capacités de raisonnement visuel des grands modèles de langage multimodaux à travers différentes modalités. Cette approche fournit aux modèles un « tableau blanc » métaphorique pour dessiner les étapes de raisonnement sous forme d'images, puis renvoie ces images au modèle pour un traitement ultérieur. Nous constatons que cela peut être réalisé sans démonstrations ni modules spécialisés, en exploitant simplement la capacité existante des modèles à écrire du code avec des bibliothèques comme Matplotlib et Turtle. Cette méthode simple obtient des résultats de pointe sur quatre tâches difficiles en langage naturel impliquant un raisonnement visuel et spatial. Nous identifions plusieurs situations où GPT-4o utilisant la chaîne de pensée échoue de manière spectaculaire, y compris des cas où il atteint une précision de 0 %, tandis que le *whiteboard-of-thought* permet d'atteindre jusqu'à 92 % de précision dans ces mêmes contextes. Nous explorons en détail les succès de cette technique ainsi que ses sources d'erreur.
La distillation par diffusion représente une direction très prometteuse pour réaliser une génération fidèle d'images à partir de texte en quelques étapes d'échantillonnage. Cependant, malgré les récents succès, les modèles distillés existants ne fournissent toujours pas l'ensemble complet des capacités de diffusion, telles que l'inversion d'images réelles, qui permet de nombreuses méthodes de manipulation d'images précises. Ce travail vise à enrichir les modèles de diffusion distillés pour la génération d'images à partir de texte avec la capacité d'encoder efficacement des images réelles dans leur espace latent. À cette fin, nous introduisons la distillation de consistance inversible (iCD), un cadre généralisé de distillation de consistance qui facilite à la fois la synthèse d'images de haute qualité et l'encodage précis d'images en seulement 3-4 étapes d'inférence. Bien que le problème d'inversion pour les modèles de diffusion d'images à partir de texte soit exacerbé par des échelles élevées de guidage sans classifieur, nous remarquons qu'un guidage dynamique réduit significativement les erreurs de reconstruction sans dégradation notable des performances de génération. En conséquence, nous démontrons que l'iCD équipée d'un guidage dynamique peut servir d'outil très efficace pour l'édition d'images guidée par texte en zero-shot, rivalisant avec des alternatives plus coûteuses de pointe.
Les tâches d'extraction d'information nécessitent des modèles à la fois précis, efficaces et généralisables. Les approches classiques d'apprentissage profond supervisé peuvent atteindre les performances requises, mais elles nécessitent de grands ensembles de données et sont limitées dans leur capacité à s'adapter à différentes tâches. D'autre part, les grands modèles de langage (LLMs) démontrent une bonne généralisation, ce qui signifie qu'ils peuvent s'adapter à de nombreuses tâches différentes en fonction des demandes des utilisateurs. Cependant, les LLMs sont coûteux en termes de calcul et ont tendance à échouer dans la génération de sorties structurées. Dans cet article, nous présenterons un nouveau type de modèle GLiNER qui peut être utilisé pour diverses tâches d'extraction d'information tout en étant un petit modèle encodeur. Notre modèle a atteint des performances de pointe (SoTA) sur des benchmarks de reconnaissance d'entités nommées (NER) en zero-shot et des performances de premier plan sur des tâches de question-réponse, de résumé et d'extraction de relations. De plus, dans cet article, nous aborderons les résultats expérimentaux sur les approches d'auto-apprentissage pour la reconnaissance d'entités nommées utilisant des modèles GLiNER.
Les récents progrès des modèles multimodaux de grande taille (LMMs) ont tiré parti de vastes ensembles de données multimodales pour améliorer leurs capacités dans des tâches complexes nécessitant des connaissances. Cependant, des défis persistants liés aux erreurs perceptuelles et de raisonnement limitent leur efficacité, en particulier dans l'interprétation de données visuelles complexes et la déduction de relations multimodales. Pour résoudre ces problèmes, nous introduisons un nouveau format de données, PIN (Paired and INterleaved multimodal documents), conçu pour améliorer significativement la profondeur et l'étendue de l'entraînement multimodal. Le format PIN repose sur trois principes fondamentaux : l'intensité des connaissances, l'évolutivité et le support de diverses modalités d'entraînement. Ce format innovant combine des fichiers markdown et des images détaillées pour enrichir les données d'entraînement avec une structure de connaissances dense et des stratégies d'entraînement polyvalentes. Nous présentons PIN-14M, un ensemble de données open-source comprenant 14 millions d'échantillons issus d'une variété de sources chinoises et anglaises, conçu pour inclure des contenus web et scientifiques complexes. Cet ensemble de données est méticuleusement construit pour garantir la qualité des données et l'intégrité éthique, visant à faciliter des stratégies d'entraînement avancées et à améliorer la robustesse des modèles face aux pièges courants de l'entraînement multimodal. Nos résultats initiaux, qui constituent la base de ce rapport technique, suggèrent un potentiel significatif du format PIN pour affiner les performances des LMMs, avec des plans pour des extensions futures et des évaluations détaillées de son impact sur les capacités des modèles.
Les corpus d'entraînement pour les modèles de vision et langage (VLMs) manquent généralement de données centrées sur la prise de décision. Cela rend les VLMs prêts à l'emploi sous-optimaux pour les tâches de prise de décision, telles que le contrôle d'appareils dans des environnements réels via des interfaces graphiques (GUIs). Bien que l'entraînement avec des démonstrations statiques ait montré un certain potentiel, nous démontrons que ces méthodes sont insuffisantes pour contrôler des GUIs réelles en raison de leur incapacité à gérer la stochasticité et la non-stationnarité du monde réel, non capturées dans les données d'observation statiques. Cet article introduit une nouvelle approche autonome d'apprentissage par renforcement (RL), appelée DigiRL, pour entraîner des agents de contrôle d'appareils dans des environnements réels en affinant un VLM pré-entraîné en deux étapes : un RL hors ligne pour initialiser le modèle, suivi d'un RL hors ligne à en ligne. Pour ce faire, nous construisons un environnement d'apprentissage Android scalable et parallélisable équipé d'un évaluateur basé sur un VLM, et développons une approche RL simple mais efficace pour l'apprentissage dans ce domaine. Notre approche exécute un RL pondéré par l'avantage avec des estimateurs d'avantage améliorés pour tenir compte de la stochasticité, ainsi qu'un curriculum automatique pour maximiser le signal d'apprentissage. Nous démontrons l'efficacité de DigiRL en utilisant le jeu de données Android-in-the-Wild (AitW), où notre VLM de 1,3 milliard de paramètres entraîné avec RL atteint une amélioration absolue de 49,5 % — passant de 17,7 % à 67,2 % de taux de réussite — par rapport à l'affinage supervisé avec des données de démonstration humaine statiques. Ces résultats surpassent non seulement les meilleurs agents précédents, y compris AppAgent avec GPT-4V (8,3 % de taux de réussite) et le CogAgent de 17 milliards de paramètres entraîné avec les données AitW (38,5 %), mais aussi la meilleure approche autonome de RL basée sur le clonage comportemental filtré (57,8 %), établissant ainsi un nouvel état de l'art pour les agents numériques de contrôle d'appareils dans des environnements réels.
Une capacité fondamentale des grands modèles de langage (LLMs) est de suivre des instructions en langage naturel. Cependant, la question de la construction automatique de données d'entraînement de haute qualité pour améliorer les capacités complexes de suivi d'instructions des LLMs sans annotation manuelle reste non résolue. Dans cet article, nous présentons AutoIF, la première méthode évolutive et fiable pour générer automatiquement des données d'entraînement pour le suivi d'instructions. AutoIF transforme la validation de la qualité des données de suivi d'instructions en une vérification de code, exigeant que les LLMs génèrent des instructions, le code correspondant pour vérifier l'exactitude des réponses aux instructions, et des échantillons de tests unitaires pour vérifier la correction du code. Ensuite, un échantillonnage par rejet basé sur les retours d'exécution peut générer des données pour l'affinage supervisé (SFT) et l'apprentissage par renforcement à partir de retours humains (RLHF). AutoIF obtient des améliorations significatives à travers trois algorithmes d'entraînement, SFT, DPO hors ligne et DPO en ligne, lorsqu'il est appliqué aux meilleurs LLMs open-source, Qwen2 et LLaMA3, dans des contextes d'auto-alignement et de distillation fort-vers-faible. Notre code est disponible publiquement à l'adresse https://github.com/QwenLM/AutoIF.
Dans cet article, nous présentons un nouveau cadre d'inférence à faible latence pour les grands modèles de langage (LLMs), permettant à ces derniers d'effectuer des inférences avec des prompts incomplets. En réallouant les processus de calcul à la phase de saisie du prompt, nous obtenons une réduction significative de la latence, améliorant ainsi considérablement l'expérience interactive des utilisateurs des LLMs. Ce cadre gère habilement la visibilité du prompt en flux continu pour le modèle, lui permettant d'inférer à partir de prompts incomplets ou d'attendre des prompts supplémentaires. Par rapport aux méthodes d'inférence traditionnelles utilisant des prompts complets, notre approche démontre une réduction moyenne de 59 % de la latence de réponse sur le jeu de données MMLU-Pro, tout en maintenant une précision comparable. De plus, notre cadre facilite l'inférence collaborative et la production de résultats entre différents modèles. En utilisant un LLM pour l'inférence et un petit modèle de langage (SLM) pour la production, nous obtenons une réduction moyenne de 68 % de la latence de réponse, ainsi qu'une amélioration de 5,5 % de la précision sur le jeu de données MMLU-Pro par rapport au SLM de référence. Pour les prompts longs dépassant 20 phrases, la latence de réponse peut être réduite jusqu'à 93 %.
Le raisonnement de bon sens repose fondamentalement sur des connaissances multimodales. Cependant, les grands modèles de langage (LLMs) existants sont principalement entraînés à l'aide de données textuelles uniquement, ce qui limite leur capacité à intégrer des informations visuelles essentielles. En revanche, les modèles de langage visuel, qui excellent dans les tâches orientées visuellement, échouent souvent dans des tâches non visuelles telles que le raisonnement de bon sens de base. Cette divergence met en lumière un défi critique : l'intégration d'une compréhension visuelle robuste avec un raisonnement linguistique textuel fondamental. À cette fin, nous introduisons une méthode visant à améliorer le bon sens visuel des LLMs. Plus précisément, notre méthode génère plusieurs images à partir de l'invite textuelle d'entrée et les intègre dans le processus de prise de décision du modèle en mélangeant leurs probabilités de prédiction. Pour faciliter la modélisation linguistique multimodale ancrée, nous utilisons une couche de fusion tardive qui combine les caractéristiques visuelles projetées avec la sortie d'un LLM pré-entraîné conditionné uniquement sur le texte. Cette couche de fusion tardive permet des prédictions basées sur une connaissance complète image-texte ainsi que sur le texte uniquement lorsque cela est nécessaire. Nous évaluons notre approche à l'aide de plusieurs tâches de raisonnement de bon sens visuel ainsi que de tâches NLP traditionnelles, y compris le raisonnement de bon sens et la compréhension de lecture. Nos résultats expérimentaux démontrent une supériorité significative par rapport aux bases de référence existantes. Lorsqu'elle est appliquée aux LLMs récents de pointe (par exemple, Llama3), nous observons des améliorations non seulement dans le bon sens visuel mais aussi dans les benchmarks NLP traditionnels. Le code et les modèles sont disponibles sous https://github.com/guyyariv/vLMIG.
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO), une méthode standard pour aligner les modèles de langage avec les préférences humaines, est traditionnellement appliquée à des préférences hors ligne. Des études récentes montrent que la DPO bénéficie d'un entraînement itératif avec des préférences en ligne étiquetées par un modèle de récompense entraîné. Dans ce travail, nous identifions un écueil de la DPO itérative classique : l'amélioration de la qualité des réponses peut entraîner une augmentation de la verbosité. Pour remédier à cela, nous introduisons la DPO itérative régularisée par la longueur (iterative length-regularized DPO, iLR-DPO) pour pénaliser la longueur des réponses. Nos résultats empiriques montrent que l'iLR-DPO peut améliorer un modèle de 7B pour qu'il performe au niveau de GPT-4 sans augmenter la verbosité. Plus précisément, notre modèle de 7B atteint un taux de victoire contrôlé par la longueur de 50,5 % contre GPT-4 Preview sur AlpacaEval 2.0, et excelle sur des benchmarks standards incluant MT-Bench, Arena-Hard et le classement OpenLLM. Ces résultats démontrent l'efficacité de la DPO itérative pour aligner les modèles de langage avec les retours humains.
La capacité des CodeLLMs à générer du code exécutable et fonctionnellement correct à l'échelle d'un dépôt de code reste largement inexplorée. Nous présentons RepoExec, un nouveau benchmark pour évaluer la génération de code à l'échelle d'un dépôt. RepoExec se concentre sur trois aspects principaux : l'exécutabilité, la correction fonctionnelle grâce à la génération automatisée de cas de test avec un taux de couverture élevé, et des contextes inter-fichiers soigneusement conçus pour générer du code avec précision. Notre travail explore un scénario contrôlé où les développeurs spécifient les dépendances de code nécessaires, mettant au défi le modèle d'intégrer ces éléments avec exactitude. Les expériences montrent que si les LLMs pré-entraînés surpassent les modèles ajustés par instruction en termes de correction, ces derniers excellent dans l'utilisation des dépendances fournies et démontrent des capacités de débogage. Nous introduisons également un nouveau jeu de données ajusté par instruction qui se concentre sur les dépendances de code et montrons que les CodeLLMs affinés sur notre jeu de données ont une meilleure capacité à exploiter ces dépendances de manière efficace. RepoExec vise à fournir une évaluation complète de la fonctionnalité du code et de son alignement avec l'intention des développeurs, ouvrant la voie à des CodeLLMs plus fiables et applicables dans des scénarios réels. Le jeu de données et le code source sont disponibles à l'adresse suivante : https://github.com/FSoft-AI4Code/RepoExec.
Récemment, les avancées en synthèse vidéo ont suscité une attention considérable. Des modèles de synthèse vidéo tels qu'AnimateDiff et Stable Video Diffusion ont démontré l'applicabilité pratique des modèles de diffusion dans la création de contenu visuel dynamique. L'émergence de SORA a encore mis en lumière le potentiel des technologies de génération vidéo. Néanmoins, l'extension de la durée des vidéos a été limitée par les contraintes en ressources computationnelles. La plupart des modèles de synthèse vidéo existants ne peuvent générer que de courts clips vidéo. Dans cet article, nous proposons une nouvelle méthodologie de post-ajustement pour les modèles de synthèse vidéo, appelée ExVideo. Cette approche est conçue pour améliorer la capacité des modèles de synthèse vidéo actuels, leur permettant de produire du contenu sur des durées temporelles prolongées tout en réduisant les coûts de formation. En particulier, nous concevons des stratégies d'extension pour différentes architectures de modèles temporels, incluant la convolution 3D, l'attention temporelle et l'incorporation positionnelle. Pour évaluer l'efficacité de notre approche de post-ajustement, nous effectuons une formation d'extension sur le modèle Stable Video Diffusion. Notre approche augmente la capacité du modèle à générer jusqu'à 5 fois plus de trames que son nombre original, nécessitant seulement 1,5k heures de formation sur GPU avec un ensemble de données comprenant 40k vidéos. Il est important de noter que l'augmentation substantielle de la durée vidéo ne compromet pas les capacités de généralisation intrinsèques du modèle, et celui-ci démontre ses avantages dans la génération de vidéos de styles et résolutions variés. Nous rendrons public le code source ainsi que le modèle amélioré.
Les benchmarks existants ne testent pas les agents linguistiques sur leur interaction avec les utilisateurs humains ni sur leur capacité à suivre des règles spécifiques à un domaine, deux aspects pourtant essentiels pour leur déploiement dans des applications réelles. Nous proposons tau-bench, un benchmark simulant des conversations dynamiques entre un utilisateur (simulé par des modèles de langage) et un agent linguistique doté d'outils API spécifiques au domaine et de directives de politique. Nous utilisons un processus d'évaluation efficace et fidèle qui compare l'état de la base de données à la fin d'une conversation avec l'état objectif annoté. Nous proposons également une nouvelle métrique (pass^k) pour évaluer la fiabilité du comportement de l'agent sur plusieurs essais. Nos expériences montrent que même les agents d'appel de fonction les plus avancés (comme gpt-4o) réussissent moins de 50 % des tâches et sont assez incohérents (pass^8 <25 % dans le secteur de la vente au détail). Nos résultats soulignent la nécessité de méthodes capables d'améliorer la capacité des agents à agir de manière cohérente et à suivre les règles de manière fiable.
Assurer la vérifiabilité des réponses des modèles constitue un défi fondamental pour la génération augmentée par récupération (RAG) dans le domaine des systèmes de question-réponse (QA). Récemment, l'incitation à l'autocitation a été proposée pour amener les grands modèles de langage (LLM) à générer des citations vers des documents de soutien en plus de leurs réponses. Cependant, les LLM pratiquant l'autocitation ont souvent du mal à respecter le format requis, se réfèrent à des sources inexistantes et ne parviennent pas à refléter fidèlement l'utilisation du contexte par les LLM tout au long de la génération. Dans ce travail, nous présentons MIRAGE -- Model Internals-based RAG Explanations -- une approche plug-and-play utilisant les internes du modèle pour une attribution fidèle des réponses dans les applications RAG. MIRAGE détecte les tokens de réponse sensibles au contexte et les associe aux documents récupérés contribuant à leur prédiction via des méthodes de salience. Nous évaluons notre approche proposée sur un jeu de données multilingue de QA extractive, constatant un fort accord avec l'attribution humaine des réponses. Sur le QA ouvert, MIRAGE atteint une qualité et une efficacité de citation comparables à l'autocitation tout en permettant un contrôle plus fin des paramètres d'attribution. Notre évaluation qualitative met en lumière la fidélité des attributions de MIRAGE et souligne l'application prometteuse des internes de modèle pour l'attribution des réponses RAG.
Comprendre la sémantique des scènes visuelles constitue un défi fondamental en vision par ordinateur. Un aspect clé de ce défi réside dans le fait que des objets partageant des significations ou fonctions sémantiques similaires peuvent présenter des différences visuelles marquées, rendant leur identification et catégorisation précises difficiles. Les récents progrès dans les frameworks de génération d'images à partir de texte ont conduit à des modèles qui capturent implicitement les statistiques naturelles des scènes. Ces frameworks prennent en compte la variabilité visuelle des objets, ainsi que les co-occurrences complexes d'objets et les sources de bruit telles que les conditions d'éclairage variées. En exploitant des jeux de données à grande échelle et un conditionnement par attention croisée, ces modèles génèrent des représentations de scènes détaillées et riches en contexte. Cette capacité ouvre de nouvelles perspectives pour améliorer la reconnaissance d'objets et la compréhension des scènes dans des environnements variés et complexes. Notre travail présente StableSemantics, un jeu de données comprenant 224 000 invites (prompts) sélectionnées par des humains, des légendes en langage naturel traitées, plus de 2 millions d'images synthétiques et 10 millions de cartes d'attention correspondant à des segments nominaux individuels. Nous exploitons explicitement des invites générées par des humains qui correspondent à des générations visuellement intéressantes par diffusion stable, fournissons 10 générations par phrase et extrayons des cartes d'attention croisée pour chaque image. Nous explorons la distribution sémantique des images générées, examinons la distribution des objets dans les images et évaluons des méthodes de légendage et de segmentation à vocabulaire ouvert sur nos données. À notre connaissance, nous sommes les premiers à publier un jeu de données de diffusion avec des attributions sémantiques. Nous espérons que notre jeu de données proposé catalysera les avancées dans la compréhension sémantique visuelle et fournira une base pour développer des modèles visuels plus sophistiqués et efficaces. Site web : https://stablesemantics.github.io/StableSemantics
La recherche en interprétabilité et analyse (IA) est un sous-domaine en pleine expansion au sein du traitement automatique des langues (TAL), visant à développer une compréhension plus approfondie du comportement ou du fonctionnement interne des systèmes et méthodes de TAL. Malgré l'intérêt croissant pour ce sous-domaine, une critique souvent exprimée est qu'il manque d'idées exploitables et a donc peu d'impact sur le TAL. Dans cet article, nous cherchons à quantifier l'impact de la recherche en IA sur le domaine plus large du TAL. Nous abordons cette question avec une analyse mixte : (1) un graphe de citations de plus de 185 000 articles construit à partir de tous les articles publiés aux conférences ACL et EMNLP entre 2018 et 2023, et (2) une enquête auprès de 138 membres de la communauté du TAL. Nos résultats quantitatifs montrent que les travaux en IA sont bien cités en dehors de l'IA et occupent une place centrale dans le graphe de citations du TAL. Grâce à une analyse qualitative des réponses à l'enquête et à une annotation manuelle de 556 articles, nous constatons que les chercheurs en TAL s'appuient sur les résultats des travaux en IA et perçoivent leur importance pour les progrès dans le TAL, ainsi que dans plusieurs sous-domaines, et utilisent leurs conclusions et leur terminologie pour leurs propres travaux. De nombreuses méthodes novatrices sont proposées sur la base des résultats de l'IA et sont fortement influencées par eux, mais les travaux non-IA très influents citent les résultats de l'IA sans en être directement motivés. Nous concluons en résumant ce qui manque actuellement dans les travaux en IA et en lançant un appel à l'action, afin de préparer le terrain pour un avenir plus impactant de la recherche en IA.
La recherche en résumé automatique de texte a connu plusieurs transformations majeures avec l'avènement des réseaux neuronaux profonds, des modèles de langage pré-entraînés (PLM) et des récents grands modèles de langage (LLM). Cette étude propose donc une revue complète des progrès et de l'évolution de la recherche en résumé de texte à travers le prisme de ces changements de paradigme. Elle est organisée en deux parties principales : (1) un aperçu détaillé des jeux de données, des métriques d'évaluation et des méthodes de résumé avant l'ère des LLM, englobant les méthodes statistiques traditionnelles, les approches d'apprentissage profond et les techniques de fine-tuning des PLM, et (2) la première analyse approfondie des avancées récentes en matière de benchmarking, de modélisation et d'évaluation du résumé dans l'ère des LLM. En synthétisant la littérature existante et en présentant une vue d'ensemble cohérente, cette étude aborde également les tendances de recherche, les défis ouverts et propose des directions de recherche prometteuses en résumé, visant à guider les chercheurs à travers le paysage en évolution de la recherche en résumé automatique.
Nous présentons un modèle de diffusion latente sur des scènes 3D, qui peut être entraîné en utilisant uniquement des données d'images 2D. Pour y parvenir, nous concevons d'abord un autoencodeur qui transforme des images multi-vues en splats gaussiens 3D, tout en construisant simultanément une représentation latente compressée de ces splats. Ensuite, nous entraînons un modèle de diffusion multi-vues sur l'espace latent pour apprendre un modèle génératif efficace. Ce pipeline ne nécessite ni masques d'objets ni informations de profondeur, et convient à des scènes complexes avec des positions de caméra arbitraires. Nous menons des expériences minutieuses sur deux ensembles de données à grande échelle de scènes réelles complexes -- MVImgNet et RealEstate10K. Nous montrons que notre approche permet de générer des scènes 3D en aussi peu que 0,2 seconde, soit à partir de zéro, d'une seule vue d'entrée, ou de vues d'entrée éparses. Elle produit des résultats diversifiés et de haute qualité tout en fonctionnant un ordre de grandeur plus rapidement que les modèles de diffusion non latents et les modèles génératifs basés sur NeRF antérieurs.