Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Sapiens, une famille de modèles pour quatre tâches de vision fondamentales centrées sur l'humain - estimation de la pose 2D, segmentation des parties du corps, estimation de la profondeur et prédiction de la normale de surface. Nos modèles prennent en charge nativement une inférence haute résolution de 1K et sont extrêmement faciles à adapter pour des tâches individuelles en simplement affinant les modèles pré-entraînés sur plus de 300 millions d'images humaines en conditions réelles. Nous observons que, avec le même budget computationnel, la pré-entraînement auto-supervisé sur un ensemble de données sélectionné d'images humaines améliore significativement les performances pour un ensemble diversifié de tâches centrées sur l'humain. Les modèles résultants présentent une généralisation remarquable aux données en conditions réelles, même lorsque les données étiquetées sont rares ou entièrement synthétiques. Notre conception de modèle simple permet également une scalabilité - les performances du modèle sur les tâches s'améliorent à mesure que nous augmentons le nombre de paramètres de 0,3 à 2 milliards. Sapiens surpasse de manière constante les références existantes sur divers bancs d'essai centrés sur l'humain. Nous obtenons des améliorations significatives par rapport à l'état de l'art précédent sur Humans-5K (pose) de 7,6 mAP, Humans-2K (segmentation des parties) de 17,1 mIoU, Hi4D (profondeur) de 22,4% d'EMRS relatif, et THuman2 (normale) de 53,5% d'erreur angulaire relative.
En Traitement Automatique du Langage Naturel (TALN), les Grands Modèles de Langage (GML) ont démontré une grande qualité de génération de texte. Cependant, dans les applications du monde réel, les GML doivent répondre à des exigences de plus en plus complexes. Au-delà d'éviter tout contenu trompeur ou inapproprié, les GML doivent également répondre à des besoins spécifiques des utilisateurs, tels que l'imitation de styles d'écriture particuliers ou la génération de texte avec une richesse poétique. Ces demandes variées ont conduit au développement de techniques de Génération de Texte Contrôlable (GTC), qui garantissent que les sorties respectent des conditions de contrôle prédéfinies, telles que la sécurité, le sentiment, la cohérence thématique et le style linguistique, tout en maintenant des normes élevées d'utilité, de fluidité et de diversité. Cet article passe en revue de manière systématique les dernières avancées en GTC pour les GML, offrant une définition complète de ses concepts fondamentaux et clarifiant les exigences en matière de conditions de contrôle et de qualité du texte. Nous catégorisons les tâches de GTC en deux types principaux : le contrôle de contenu et le contrôle d'attributs. Les principales méthodes sont discutées, notamment le retraitement du modèle, le fine-tuning, l'apprentissage par renforcement, l'ingénierie des prompts, la manipulation de l'espace latent et l'intervention au moment du décodage. Nous analysons les caractéristiques, les avantages et les limites de chaque méthode, fournissant des perspectives nuancées pour atteindre un contrôle de génération. De plus, nous passons en revue les méthodes d'évaluation de la GTC, résumons ses applications dans différents domaines et abordons les principaux défis de la recherche actuelle, notamment la réduction de la fluidité et de la praticité. Nous proposons également plusieurs recommandations, telles qu'accorder une plus grande importance aux applications du monde réel dans les futures recherches. Cet article vise à offrir des orientations précieuses aux chercheurs et développeurs dans le domaine. Notre liste de références et la version chinoise sont disponibles en open source sur https://github.com/IAAR-Shanghai/CTGSurvey.
Les grands modèles de langage (LLM) ont permis des avancées dans les applications financières, mais ils manquent souvent de connaissances financières suffisantes et rencontrent des difficultés avec les tâches impliquant des entrées multimodales telles que les tableaux et les séries temporelles. Pour pallier ces limitations, nous présentons Open-FinLLMs, une série de LLM financiers. Nous commençons avec FinLLaMA, pré-entraîné sur un corpus financier de 52 milliards de jetons, intégrant du texte, des tableaux et des données de séries temporelles pour incorporer des connaissances financières complètes. FinLLaMA est ensuite affiné par instruction avec 573 000 instructions financières, donnant FinLLaMA-instruct, qui améliore les performances des tâches. Enfin, nous présentons FinLLaVA, un LLM multimodal entraîné avec 1,43 million d'instructions image-texte pour traiter des types de données financières complexes. Des évaluations approfondies démontrent la performance supérieure de FinLLaMA par rapport à LLaMA3-8B, LLaMA3.1-8B et BloombergGPT, dans des configurations à zéro tir et à quelques tirs sur respectivement 19 et 4 ensembles de données. FinLLaMA-instruct surpasse GPT-4 et d'autres LLM financiers sur 15 ensembles de données. FinLLaVA excelle dans la compréhension des tableaux et des graphiques dans le cadre de 4 tâches multimodales. De plus, FinLLaMA obtient d'impressionnants ratios de Sharpe dans des simulations de trading, mettant en avant ses solides capacités d'application financière. Nous continuerons à entretenir et améliorer nos modèles et référentiels pour soutenir l'innovation continue dans le milieu académique et industriel.
Les modèles ajustés par instruction (ou "chat") sont devenus le principal moyen par lequel la plupart des gens interagissent avec de grands modèles de langage. Contrairement aux modèles "de base" ou "fondamentaux", les modèles ajustés par instruction sont optimisés pour répondre à des déclarations impératives. Nous présentons Hermes 3, un modèle généraliste aligné de manière neutre sur l'instruction et l'utilisation d'outils, doté de solides capacités de raisonnement et de créativité. Sa plus grande version, Hermes 3 405B, atteint des performances de pointe parmi les modèles à poids ouverts sur plusieurs benchmarks publics.
Nous présentons un transformeur unifié, c'est-à-dire Show-o, qui unifie la compréhension et la génération multimodales. Contrairement aux modèles entièrement autorégressifs, Show-o unifie la modélisation autorégressive et (discrète) de diffusion pour gérer de manière adaptative les entrées et les sorties de diverses modalités mixtes. Ce modèle unifié prend en charge de manière flexible une large gamme de tâches vision-langage, y compris la question-réponse visuelle, la génération de texte vers image, l'inpainting/extrapolation guidé par texte, et la génération de modalités mixtes. À travers divers benchmarks, il démontre des performances comparables ou supérieures aux modèles individuels existants avec un nombre équivalent ou supérieur de paramètres adaptés à la compréhension ou à la génération. Cela souligne significativement son potentiel en tant que modèle fondamental de prochaine génération. Le code et les modèles sont disponibles sur https://github.com/showlab/Show-o.
Nous présentons xGen-VideoSyn-1, un modèle de génération texte-vidéo (T2V) capable de produire des scènes réalistes à partir de descriptions textuelles. S'appuyant sur des avancées récentes, telles que Sora d'OpenAI, nous explorons l'architecture du modèle de diffusion latente (LDM) et introduisons un autoencodeur variationnel vidéo (VidVAE). VidVAE compresse les données vidéo à la fois spatialement et temporellement, réduisant significativement la longueur des jetons visuels et les exigences computationnelles associées à la génération de vidéos à longue séquence. Pour aborder davantage les coûts computationnels, nous proposons une stratégie de division et fusion qui maintient la cohérence temporelle entre les segments vidéo. Notre modèle de Transformer de Diffusion (DiT) intègre des couches d'auto-attention spatiale et temporelle, permettant une généralisation robuste à travers différents intervalles de temps et ratios d'aspect. Nous avons conçu un pipeline de traitement des données dès le début et collecté plus de 13 millions de paires vidéo-texte de haute qualité. Le pipeline comprend plusieurs étapes telles que le rognage, la détection de texte, l'estimation de mouvement, l'évaluation esthétique, et le sous-titrage dense basé sur notre modèle vidéo-LLM interne. L'entraînement des modèles VidVAE et DiT a nécessité environ 40 et 642 jours H100, respectivement. Notre modèle prend en charge la génération de vidéos 720p de plus de 14 secondes de manière intégrale et démontre des performances compétitives par rapport aux modèles T2V de pointe.
Nous présentons Jamba-1.5, de nouveaux modèles de langage de grande taille ajustés aux instructions basés sur notre architecture Jamba. Jamba est une architecture hybride mélangeant des experts Transformer-Mamba, offrant un débit élevé et une faible utilisation de la mémoire sur différentes longueurs de contexte, tout en conservant une qualité égale ou supérieure à celle des modèles Transformer. Nous proposons deux tailles de modèle : Jamba-1.5-Large, avec 94 milliards de paramètres actifs, et Jamba-1.5-Mini, avec 12 milliards de paramètres actifs. Les deux modèles sont affinés pour diverses capacités conversationnelles et de suivi des instructions, et ont une longueur de contexte effective de 256 000 jetons, la plus grande parmi les modèles à poids ouverts. Pour prendre en charge une inférence rentable, nous introduisons ExpertsInt8, une nouvelle technique de quantification qui permet d'adapter Jamba-1.5-Large sur une machine avec 8 GPU de 80 Go lors du traitement de contextes de 256 000 jetons sans perte de qualité. Lorsqu'évalués sur une série de références académiques et de chatbots, les modèles Jamba-1.5 obtiennent d'excellents résultats tout en offrant un débit élevé et surpassent d'autres modèles à poids ouverts sur des références de longs contextes. Les poids des modèles pour les deux tailles sont disponibles publiquement sous la licence de modèle ouvert Jamba et nous publions ExpertsInt8 en open source.
Nous vivons à l'ère florissante des médias numériques, où chacun a le potentiel de devenir un cinéaste personnel. Les recherches actuelles sur le transfert cinématographique permettent aux cinéastes de reproduire et de manipuler les éléments visuels (par exemple, la cinématographie et les comportements des personnages) à partir de plans classiques. Cependant, les personnages dans les films réimaginés dépendent toujours d'une fabrication manuelle, impliquant une complexité technique significative et des coûts élevés, ce qui le rend inaccessible aux utilisateurs ordinaires. De plus, leur cinématographie estimée manque de fluidité en raison d'une capture inadéquate du mouvement inter-trames et de la modélisation des trajectoires physiques. Heureusement, le succès remarquable de l'AIGC en 2D et 3D a ouvert la voie à la possibilité de générer efficacement des personnages adaptés aux besoins des utilisateurs, diversifiant ainsi la cinématographie. Dans cet article, nous proposons DreamCinema, un nouveau cadre de transfert cinématographique qui pionnie l'intégration de l'IA générative dans le paradigme de production cinématographique, visant à faciliter la création de films conviviaux. Plus précisément, nous extrayons d'abord les éléments cinématographiques (c'est-à-dire, la pose humaine et de la caméra) et optimisons la trajectoire de la caméra. Ensuite, nous appliquons un générateur de personnages pour créer efficacement des personnages 3D de haute qualité avec une structure humaine préalable. Enfin, nous développons une stratégie de transfert de mouvement guidée par la structure pour incorporer les personnages générés dans la création cinématographique et les transférer via des moteurs graphiques 3D en toute fluidité. Des expériences approfondies démontrent l'efficacité de notre méthode pour créer des films de haute qualité avec une caméra libre et des personnages en 3D.
Les modèles d'incorporation jouent un rôle crucial en Traitement Automatique du Langage Naturel (TAL) en créant des incorporations de texte utilisées dans diverses tâches telles que la recherche d'informations et l'évaluation de la similarité sémantique des textes. Cet article se concentre sur la recherche liée aux modèles d'incorporation dans la langue russe. Il présente un nouveau modèle d'incorporation axé sur le russe appelé ru-en-RoSBERTa et le banc d'essai ruMTEB, la version russe étendant le Massive Text Embedding Benchmark (MTEB). Notre banc d'essai comprend sept catégories de tâches, telles que la similarité textuelle sémantique, la classification de texte, le réarrangement et la recherche. La recherche évalue également un ensemble représentatif de modèles russes et multilingues sur le banc d'essai proposé. Les résultats indiquent que le nouveau modèle obtient des résultats comparables à ceux des modèles de pointe en russe. Nous publions le modèle ru-en-RoSBERTa, et le cadre ruMTEB est accompagné d'un code source ouvert, de son intégration dans le cadre original et d'un tableau de classement public.
Nous présentons AiM, un modèle génératif d'images autoregressif (AR) basé sur l'architecture Mamba. AiM utilise Mamba, un modèle d'espace d'états novateur caractérisé par ses performances exceptionnelles pour la modélisation de longues séquences avec une complexité temporelle linéaire, pour remplacer les Transformers couramment utilisés dans les modèles de génération d'images AR, dans le but d'obtenir à la fois une qualité de génération supérieure et une vitesse d'inférence améliorée. Contrairement aux méthodes existantes qui adaptent Mamba pour traiter les signaux bidimensionnels via un balayage multidirectionnel, AiM utilise directement le paradigme de prédiction du jeton suivant pour la génération d'images autoregressive. Cette approche contourne le besoin de modifications étendues pour permettre à Mamba d'apprendre des représentations spatiales 2D. En mettant en œuvre des modifications simples mais ciblées pour les tâches génératives visuelles, nous préservons la structure de base de Mamba, exploitant pleinement ses capacités efficaces de modélisation de longues séquences et de mise à l'échelle. Nous fournissons des modèles AiM à différentes échelles, avec des comptes de paramètres allant de 148M à 1.3B. Sur le banc d'essai ImageNet1K 256*256, notre meilleur modèle AiM atteint un FID de 2.21, surpassant tous les modèles AR existants de comptes de paramètres comparables et démontrant une compétitivité significative par rapport aux modèles de diffusion, avec une vitesse d'inférence de 2 à 10 fois plus rapide. Le code est disponible sur https://github.com/hp-l33/AiM
Dans ce rapport, nous présentons Vintern-1B, un modèle de langage multimodal large (MLLM) fiable de 1 milliard de paramètres pour les tâches de langue vietnamienne. En intégrant le modèle de langage Qwen2-0.5B-Instruct avec le modèle visuel InternViT-300M-448px, Vintern-1B est optimisé pour une gamme d'applications, y compris la reconnaissance optique de caractères (OCR), l'extraction de documents et la réponse à des questions générales dans un contexte vietnamien. Le modèle est affiné sur un ensemble de données étendu de plus de 3 millions de paires image-question-réponse, atteignant des performances robustes et des résultats fiables sur plusieurs référentiels de langue vietnamienne tels que OpenViVQA et ViTextVQA. Vintern-1B est suffisamment petit pour s'intégrer facilement dans diverses applications embarquées. De plus, nous avons rendu open source plusieurs ensembles de données vietnamiens de questions-réponses visuelles (VQA) pour du texte et des diagrammes, créés avec Gemini 1.5 Flash. Nos modèles sont disponibles sur : https://huggingface.co/5CD-AI/Vintern-1B-v2.
Nous présentons Pyramid Attention Broadcast (PAB), une approche en temps réel, de haute qualité et sans entraînement pour la génération de vidéos basée sur la diffusion itérative (DiT). Notre méthode repose sur l'observation selon laquelle la différence d'attention dans le processus de diffusion présente un schéma en forme de U, indiquant une redondance significative. Nous atténuons cela en diffusant les sorties d'attention aux étapes ultérieures de manière pyramidale. Nous appliquons différentes stratégies de diffusion à chaque attention en fonction de leur variance pour une efficacité optimale. Nous introduisons également une séquence de diffusion parallèle pour une inférence distribuée plus efficace. PAB démontre des résultats supérieurs à ceux des modèles de base, réalisant une génération en temps réel pour des vidéos allant jusqu'à 720p. Nous anticipons que notre méthode simple mais efficace servira de référence solide et facilitera les futures recherches et applications en matière de génération de vidéos.
Dans cet article, nous proposons une nouvelle méthode, appelée Stratégiste, qui utilise des LLM pour acquérir de nouvelles compétences dans le cadre de jeux multi-agents grâce à un processus d'auto-amélioration. Notre méthode recueille des retours de qualité grâce à des simulations en auto-jeu avec recherche arborescente Monte Carlo et réflexion basée sur des LLM, qui peuvent ensuite être utilisés pour apprendre des compétences stratégiques de haut niveau telles que l'évaluation des états qui guident l'exécution de bas niveau. Nous montrons comment notre méthode peut être utilisée à la fois dans la planification d'actions et la génération de dialogues dans le contexte des jeux, obtenant de bonnes performances dans les deux tâches. Plus précisément, nous démontrons que notre méthode peut aider à former des agents avec de meilleures performances que les approches traditionnelles basées sur l'apprentissage par renforcement et d'autres approches d'apprentissage de compétences basées sur des LLM dans des jeux tels que le Jeu de Stratégie Pure (GOPS) et The Resistance: Avalon.
Les Modèles Vision-Language à Grande Échelle (LVLM) ont considérablement progressé avec l'introduction d'entrées de vision alignées sur le texte. Ils ont réalisé des avancées remarquables dans les tâches de vision par ordinateur en alignant la modalité textuelle avec les entrées de vision. Il existe également des efforts pour incorporer des capteurs multi-vision au-delà du RGB, comprenant des images thermiques, de profondeur et des radiographies médicales. Cependant, nous observons que les LVLM actuels considèrent les images provenant de capteurs multi-vision comme si elles étaient dans le même domaine RGB sans tenir compte des caractéristiques physiques des capteurs multi-vision. Ils échouent à transmettre correctement les informations fondamentales des capteurs multi-vision provenant de l'ensemble de données et les connaissances contextuelles correspondantes. Par conséquent, l'alignement entre les informations de l'environnement physique réel et le texte n'est pas correctement réalisé, rendant difficile de répondre à des questions complexes liées aux capteurs qui prennent en compte l'environnement physique. Dans cet article, nous visons à établir un banc d'essai de Perception et Raisonnement des Capteurs multi-vision appelé SPARK qui peut réduire l'écart d'informations fondamentales des capteurs multi-vision entre les images et les capteurs multi-vision. Nous avons généré automatiquement 6 248 échantillons de test vision-langage pour étudier la perception sensorielle multi-vision et le raisonnement sensoriel multi-vision sur la compétence en connaissances des capteurs physiques à travers différents formats, couvrant différents types de questions liées aux capteurs. Nous avons utilisé ces échantillons pour évaluer dix principaux LVLM. Les résultats ont montré que la plupart des modèles présentaient des lacunes dans le raisonnement sensoriel multi-vision dans diverses mesures. Les codes et les données sont disponibles sur https://github.com/top-yun/SPARK
Les grands modèles de langage (LLM) ont réalisé des avancées impressionnantes dans de nombreuses disciplines, cependant la question critique des conflits de connaissances, une source majeure d'hallucinations, a rarement été étudiée. Seules quelques recherches ont exploré les conflits entre la connaissance inhérente des LLM et la connaissance contextuelle récupérée. Cependant, une évaluation approfondie des conflits de connaissances dans les LLM fait encore défaut. Motivés par cette lacune de recherche, nous présentons ConflictBank, le premier banc d'essai complet développé pour évaluer systématiquement les conflits de connaissances sous trois aspects : (i) les conflits rencontrés dans les connaissances récupérées, (ii) les conflits au sein des connaissances encodées des modèles, et (iii) l'interaction entre ces formes de conflit. Notre enquête explore quatre familles de modèles et douze instances de LLM, analysant méticuleusement les conflits découlant de la désinformation, des divergences temporelles et sémantiques. Sur la base de notre nouveau cadre de construction proposé, nous créons 7 453 853 paires revendication-preuve et 553 117 paires de questions-réponses. Nous présentons de nombreuses découvertes sur l'échelle des modèles, les causes de conflit et les types de conflit. Nous espérons que notre banc d'essai ConflictBank aidera la communauté à mieux comprendre le comportement des modèles en cas de conflits et à développer des LLM plus fiables.
Les Modèles de Langage Multimodaux de Grande Taille (MLMT) ont récemment démontré des capacités perceptuelles et de raisonnement remarquables, comprenant généralement un Encodeur de Vision, un Adaptateur et un Grand Modèle de Langage (GML). L'adaptateur sert de pont crucial entre les composantes visuelles et linguistiques. Cependant, l'entraînement des adaptateurs avec une supervision au niveau de l'image entraîne souvent un désalignement significatif, compromettant les capacités des GML et limitant le potentiel des Modèles de Langage Multimodaux. Pour remédier à cela, nous introduisons l'Alignement d'Incorporation Supervisé (AIS), une méthode d'alignement au niveau du jeton qui exploite des modèles pré-entraînés vision-langage, tels que CLIP, pour aligner les jetons visuels avec l'espace d'incorporation du GML à travers l'apprentissage par contraste. Cette approche garantit une intégration plus cohérente des représentations visuelles et linguistiques, améliorant les performances et l'interprétabilité des MLMT tout en préservant leurs capacités inhérentes. Des expériences approfondies montrent que l'AIS améliore efficacement les MLMT, en particulier pour les modèles plus petits, sans ajouter de données supplémentaires ou de calcul d'inférence. L'AIS pose également les bases pour le développement de solutions plus générales et adaptables visant à améliorer les systèmes multimodaux.
Les méthodes traditionnelles de génération d'animation dépendent de l'entraînement de modèles génératifs avec des données étiquetées par des humains, impliquant un pipeline sophistiqué à plusieurs étapes qui demande un effort humain substantiel et entraîne des coûts de formation élevés. En raison de plans de guidage limités, ces méthodes produisent généralement des animations brèves, pauvres en informations et incohérentes sur le plan contextuel. Pour surmonter ces limitations et automatiser le processus d'animation, nous introduisons en pionnier l'utilisation de grands modèles multimodaux (LMM) en tant que processeur central pour construire un agent autonome de création d'animation, nommé Anim-Director. Cet agent exploite principalement les capacités avancées de compréhension et de raisonnement des LMM et des outils d'IA générative pour créer des vidéos animées à partir de récits concis ou d'instructions simples. Plus précisément, il fonctionne en trois étapes principales : Tout d'abord, l'Anim-Director génère une intrigue cohérente à partir des entrées de l'utilisateur, suivie d'un script détaillé du réalisateur qui englobe les paramètres des profils de personnages et les descriptions intérieures/extérieures, ainsi que des descriptions de scènes cohérentes sur le plan contextuel qui incluent les personnages apparaissant, les intérieurs ou extérieurs, et les événements de scène. Ensuite, nous utilisons les LMM avec l'outil de génération d'images pour produire des images visuelles des paramètres et des scènes. Ces images sont conçues pour maintenir une cohérence visuelle à travers différentes scènes en utilisant une méthode de guidage visuel-langage qui combine les descriptions de scènes et les images des personnages et paramètres apparaissant. Enfin, les images de scène servent de base pour produire des vidéos animées, les LMM générant des instructions pour guider ce processus. L'ensemble du processus est remarquablement autonome sans intervention manuelle, car les LMM interagissent de manière transparente avec les outils génératifs pour produire des instructions, évaluer la qualité visuelle et sélectionner la meilleure pour optimiser la sortie finale.
La reconstruction 3D et le reéclairage d'objets fabriqués à partir de matériaux diffusants présentent un défi significatif en raison du transport de lumière complexe sous la surface. Le Splatting Gaussien en 3D a introduit une synthèse de nouvelle vue de haute qualité à des vitesses en temps réel. Bien que les Gaussiennes en 3D approximent efficacement la surface d'un objet, elles échouent à capturer les propriétés volumétriques de la diffusion sous-surface. Nous proposons un cadre pour optimiser la forme d'un objet conjointement avec le champ de transfert de radiance étant donné des données OLAT multi-vues (une lumière à la fois). Notre méthode décompose la scène en une surface explicite représentée par des Gaussiennes en 3D, avec un BRDF variant spatialement, et une représentation volumétrique implicite de la composante de diffusion. Un champ lumineux incident appris tient compte de l'ombrage. Nous optimisons tous les paramètres conjointement via un rendu différentiable tracé par rayons. Notre approche permet l'édition de matériaux, le reéclairage et la synthèse de nouvelles vues à des taux interactifs. Nous montrons une application réussie sur des données synthétiques et introduisons un ensemble de données multi-vues multi-lumière nouvellement acquis d'objets dans une configuration de scène lumineuse. Par rapport aux travaux précédents, nous obtenons des résultats comparables ou meilleurs en une fraction du temps d'optimisation et de rendu, tout en permettant un contrôle détaillé sur les attributs des matériaux. Page du projet https://sss.jdihlmann.com/
La synthèse sonore Foley est cruciale pour la production multimédia, améliorant l'expérience utilisateur en synchronisant l'audio et la vidéo à la fois temporellement et sémantiquement. Les études récentes sur l'automatisation de ce processus intensif en main-d'œuvre à travers la génération vidéo-son rencontrent des défis significatifs. Les systèmes dépourvus de caractéristiques temporelles explicites souffrent d'une faible contrôlabilité et d'un mauvais alignement, tandis que les modèles basés sur les horodatages nécessitent des annotations humaines coûteuses et subjectives. Nous proposons Video-Foley, un système vidéo-son utilisant la racine carrée de la moyenne des carrés (RMS) comme condition d'événement temporel avec des indications sémantiques de timbre (audio ou texte). Le RMS, une caractéristique d'enveloppe d'intensité au niveau des trames étroitement liée à la sémantique audio, garantit une grande contrôlabilité et synchronisation. Le cadre d'apprentissage auto-supervisé sans annotation se compose de deux étapes, Video2RMS et RMS2Sound, intégrant des idées novatrices incluant la discrétisation du RMS et RMS-ControlNet avec un modèle pré-entraîné texte-vers-audio. Notre évaluation approfondie montre que Video-Foley atteint des performances de pointe en matière d'alignement audio-visuel et de contrôlabilité pour le timing sonore, l'intensité, le timbre et la nuance. Le code, les poids des modèles et les démonstrations sont disponibles sur le site web associé. (https://jnwnlee.github.io/video-foley-demo)
Étant donnée la large diffusion de la désinformation sur les réseaux sociaux, la mise en place de mécanismes de vérification des faits pour les affirmations en ligne est essentielle. Vérifier manuellement chaque affirmation est extrêmement difficile, soulignant le besoin d'un système automatisé de vérification des faits. Cet article présente notre système conçu pour répondre à ce problème. Nous utilisons l'ensemble de données Averitec pour évaluer la véracité des affirmations. En plus de la prédiction de véracité, notre système fournit des preuves à l'appui, extraites de l'ensemble de données. Nous développons un pipeline de Récupération et Génération (RAG) pour extraire des phrases de preuves pertinentes à partir d'une base de connaissances, qui sont ensuite entrées avec l'affirmation dans un grand modèle de langage (LLM) pour la classification. Nous évaluons également les capacités d'apprentissage en contexte restreint (ICL) de plusieurs LLMs. Notre système atteint un score 'Averitec' de 0,33, ce qui représente une amélioration absolue de 22% par rapport à la référence. Tout le code sera disponible sur https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.