HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

Théorie générale de la ROC : Vers la ROC-2.0 via un modèle unifié de bout en bout
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Sep 3

ByHaoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang

Les systèmes OCR traditionnels (OCR-1.0) sont de plus en plus incapables de répondre aux besoins des utilisateurs en raison de la demande croissante de traitement intelligent des caractères optiques artificiels. Dans cet article, nous désignons collectivement tous les signaux optiques artificiels (par exemple, textes simples, formules mathématiques/moléculaires, tableaux, graphiques, partitions musicales, voire formes géométriques) sous le terme de "caractères" et proposons la Théorie OCR Générale ainsi qu'un excellent modèle, nommé GOT, pour promouvoir l'avènement de l'OCR-2.0. Le GOT, avec 580 millions de paramètres, est un modèle unifié, élégant et de bout en bout, composé d'un encodeur à haute compression et d'un décodeur à longs contextes. En tant que modèle OCR-2.0, le GOT peut traiter tous les "caractères" mentionnés dans diverses tâches OCR. Du côté de l'entrée, le modèle prend en charge les images de scène et de document couramment utilisées sous forme de tranches ou de pages entières. Du côté de la sortie, le GOT peut générer des résultats simples ou formatés (markdown/tikz/smiles/kern) via une invite facile. De plus, le modèle bénéficie de fonctionnalités OCR interactives, c'est-à-dire une reconnaissance au niveau des régions guidée par des coordonnées ou des couleurs. En outre, nous adaptons également des technologies de résolution dynamique et de traitement multi-pages à GOT pour une meilleure praticité. Dans nos expériences, nous fournissons des résultats suffisants pour prouver la supériorité de notre modèle.

OLMoE : Modèles de Langage à Mélange d'Experts Ouverts
OLMoE: Open Mixture-of-Experts Language Models

Sep 3

ByNiklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

Nous présentons OLMoE, un modèle de langue entièrement ouvert de pointe exploitant un Mélange d'Experts (MoE) clairsemé. OLMoE-1B-7B possède 7 milliards (B) de paramètres mais n'utilise que 1B par jeton d'entrée. Nous le pré-entraînons sur 5 billions de jetons et l'adaptions ensuite pour créer OLMoE-1B-7B-Instruct. Nos modèles surpassent tous les modèles disponibles avec des paramètres actifs similaires, dépassant même des modèles plus grands tels que Llama2-13B-Chat et DeepSeekMoE-16B. Nous présentons diverses expériences sur l'entraînement MoE, analysons le routage dans notre modèle montrant une grande spécialisation, et mettons en open source tous les aspects de notre travail : les poids du modèle, les données d'entraînement, le code et les journaux.

Kvasir-VQA : Un ensemble de données de paires texte-image du tractus gastro-intestinal
Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Sep 2

BySushant Gautam, Andrea Storås, Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Pål Halvorsen, Michael A. Riegler

Nous présentons Kvasir-VQA, un ensemble de données étendu dérivé des ensembles de données HyperKvasir et Kvasir-Instrument, augmenté d'annotations de questions-réponses pour faciliter les tâches avancées d'apprentissage automatique en diagnostics gastro-intestinaux. Cet ensemble de données comprend 6 500 images annotées couvrant diverses conditions du tractus gastro-intestinal et instruments chirurgicaux, et prend en charge plusieurs types de questions, notamment oui/non, choix, localisation et décompte numérique. L'ensemble de données est destiné à des applications telles que la génération de légendes d'images, la Réponse aux Questions Visuelles (VQA), la génération de textes pour des images médicales synthétiques, la détection d'objets et la classification. Nos expériences démontrent l'efficacité de l'ensemble de données dans la formation de modèles pour trois tâches sélectionnées, mettant en avant des applications significatives dans l'analyse d'images médicales et les diagnostics. Nous présentons également des métriques d'évaluation pour chaque tâche, soulignant l'utilité et la polyvalence de notre ensemble de données. L'ensemble de données et les artefacts de support sont disponibles sur https://datasets.simula.no/kvasir-vqa.

RecetteLongue: Recette pour une Généralisation Efficace des Longs Contextes dans les Grands Modèles de Langage
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Aug 31

ByZhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

Les grands modèles de langage (LLM) sont confrontés à des défis importants pour traiter les tâches à long contexte en raison de leur taille de fenêtre contextuelle effective limitée pendant la pré-entraînement, ce qui restreint leur capacité à généraliser sur des séquences étendues. En attendant, l'extension de la fenêtre contextuelle dans les LLM à travers le post-entraînement est très gourmande en ressources. Pour remédier à cela, nous introduisons **LongRecipe**, une stratégie d'entraînement efficace pour étendre la fenêtre contextuelle des LLM, comprenant une analyse d'impact sur les jetons, une transformation des index de position et des stratégies d'optimisation de l'entraînement. Il simule des entrées de longues séquences tout en maintenant l'efficacité de l'entraînement et améliore significativement la compréhension du modèle des dépendances à longue portée. Des expériences sur trois types de LLM montrent que LongRecipe peut utiliser de longues séquences tout en ne nécessitant que 30% de la taille de la fenêtre contextuelle cible, et réduit les ressources de calcul nécessaires à l'entraînement de plus de 85% par rapport à un entraînement sur la séquence complète. De plus, LongRecipe préserve également les capacités originales des LLM dans les tâches générales. En fin de compte, *nous pouvons étendre la fenêtre contextuelle effective des LLM open-source de 8k à 128k, atteignant des performances proches de GPT-4 avec seulement un jour d'entraînement dédié en utilisant un seul GPU avec 80G de mémoire.* Notre code est disponible sur le [lien](https://github.com/zhiyuanhubj/LongRecipe).

DepthCrafter : Génération de séquences de profondeur longues et cohérentes pour les vidéos en monde ouvert
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

Sep 3

ByWenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

Malgré les avancées significatives dans l'estimation de profondeur monoculaire pour les images statiques, estimer la profondeur vidéo dans le monde ouvert reste un défi, car les vidéos du monde ouvert sont extrêmement diverses en contenu, en mouvement, en mouvement de caméra et en longueur. Nous présentons DepthCrafter, une méthode innovante pour générer des séquences de profondeur longues et temporellement cohérentes avec des détails complexes pour les vidéos du monde ouvert, sans nécessiter d'informations supplémentaires telles que les poses de caméra ou le flux optique. DepthCrafter atteint une capacité de généralisation aux vidéos du monde ouvert en entraînant un modèle vidéo-vers-profondeur à partir d'un modèle de diffusion image-vers-vidéo pré-entraîné, grâce à notre stratégie d'entraînement en trois étapes méticuleusement conçue avec les ensembles de données vidéo-profondeur appariées compilées. Notre approche d'entraînement permet au modèle de générer des séquences de profondeur de longueurs variables en une seule fois, jusqu'à 110 images, et de recueillir à la fois des détails de profondeur précis et une diversité de contenu riche à partir d'ensembles de données réalistes et synthétiques. Nous proposons également une stratégie d'inférence qui traite les vidéos extrêmement longues par estimation par segments et assemblage sans couture. Des évaluations complètes sur plusieurs ensembles de données révèlent que DepthCrafter atteint des performances de pointe dans l'estimation de profondeur vidéo en monde ouvert dans des paramètres de zéro-shot. De plus, DepthCrafter facilite diverses applications aval, y compris les effets visuels basés sur la profondeur et la génération de vidéos conditionnelles.

LinFusion : 1 GPU, 1 minute, image de 16K
LinFusion: 1 GPU, 1 Minute, 16K Image

Sep 3

BySonghua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang

Les modèles de diffusion modernes, en particulier ceux utilisant un UNet basé sur un Transformer pour le débruitage, s'appuient fortement sur les opérations d'auto-attention pour gérer des relations spatiales complexes, permettant ainsi d'obtenir des performances de génération impressionnantes. Cependant, ce paradigme existant est confronté à des défis importants dans la génération de contenu visuel haute résolution en raison de sa complexité temporelle et de mémoire quadratique par rapport au nombre de jetons spatiaux. Pour remédier à cette limitation, nous proposons un nouveau mécanisme d'attention linéaire comme alternative dans cet article. Plus précisément, nous commençons notre exploration à partir de modèles récemment introduits avec une complexité linéaire, tels que Mamba, Mamba2 et Gated Linear Attention, et identifions deux caractéristiques clés - la normalisation de l'attention et l'inférence non causale - qui améliorent les performances de génération visuelle haute résolution. En nous appuyant sur ces observations, nous introduisons un paradigme d'attention linéaire généralisé, qui sert d'approximation de rang faible à un large éventail de mélangeurs de jetons linéaires populaires. Pour réduire le coût d'entraînement et mieux exploiter les modèles pré-entraînés, nous initialisons nos modèles et distillons les connaissances du StableDiffusion pré-entraîné (SD). Nous constatons que le modèle distillé, appelé LinFusion, atteint des performances comparables ou supérieures à celles du SD original après seulement un entraînement modeste, tout en réduisant considérablement la complexité temporelle et de mémoire. Des expériences approfondies sur SD-v1.5, SD-v2.1 et SD-XL montrent que LinFusion offre des performances satisfaisantes en génération inter-résolution sans apprentissage, générant des images haute résolution telles que la résolution 16K. De plus, il est hautement compatible avec les composants SD pré-entraînés, tels que ControlNet et IP-Adapter, ne nécessitant aucun effort d'adaptation. Les codes sont disponibles sur https://github.com/Huage001/LinFusion.

FLUX qui Joue de la Musique
FLUX that Plays Music

Sep 1

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

Cet article explore une extension simple du flux rectifié basé sur la diffusion pour la génération de musique à partir de texte, appelée FluxMusic. En général, en plus de la conception avancée du modèle Flux, nous le transférons dans un espace VAE latent du spectre mélodique. Cela implique d'appliquer d'abord une séquence d'attention indépendante au double flux texte-musique, suivie d'un flux musical unique empilé pour la prédiction de patch débruité. Nous utilisons plusieurs codeurs de texte pré-entraînés pour capturer suffisamment d'informations sémantiques de légende ainsi que de la flexibilité d'inférence. Entre-temps, les informations textuelles grossières, en conjonction avec les plongements des pas de temps, sont utilisées dans un mécanisme de modulation, tandis que les détails textuels fins sont concaténés avec la séquence de patchs musicaux en tant qu'entrées. À travers une étude approfondie, nous démontrons que l'entraînement par flux rectifié avec une architecture optimisée surpasse significativement les méthodes de diffusion établies pour la tâche de texte à musique, comme le montrent diverses mesures automatiques et évaluations de préférence humaine. Nos données expérimentales, le code et les poids du modèle sont rendus publiquement disponibles sur : https://github.com/feizc/FluxMusic.

VideoLLaMB : Compréhension de vidéos à long contexte avec mémoire récurrente
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng

Les récentes avancées dans les modèles vidéo-langage à grande échelle ont montré un potentiel significatif pour la planification en temps réel et les interactions détaillées. Cependant, leurs fortes exigences en termes de calcul et la rareté des ensembles de données annotés limitent leur praticité pour les chercheurs académiques. Dans ce travail, nous introduisons VideoLLaMB, un nouveau cadre qui utilise des jetons de mémoire temporelle au sein des couches de pont pour permettre l'encodage de séquences vidéo entières aux côtés de données visuelles historiques, préservant ainsi efficacement la continuité sémantique et améliorant les performances du modèle pour diverses tâches. Cette approche inclut des jetons de mémoire récurrents et un algorithme SceneTilling, qui segmente les vidéos en unités sémantiques indépendantes pour préserver l'intégrité sémantique. De manière empirique, VideoLLaMB surpasse significativement les modèles vidéo-langage existants, démontrant une amélioration de 5,5 points par rapport à ses concurrents à travers trois bancs d'essai VideoQA, et de 2,06 points en planification égocentrique. Des résultats complets sur le MVBench montrent que VideoLLaMB-7B obtient des résultats nettement meilleurs que les modèles 7B précédents du même LLM. De manière remarquable, il maintient des performances robustes même lorsque la longueur de la vidéo augmente jusqu'à 8 fois, tout comme PLLaVA. En outre, les résultats de recherche de trames sur notre banc d'essai spécialisé Needle in a Video Haystack (NIAVH) valident davantage l'efficacité de VideoLLaMB dans l'identification précise de trames spécifiques au sein de vidéos longues. Notre algorithme SceneTilling permet également la génération de légendes vidéo en continu directement, sans nécessiter de formation supplémentaire. En termes d'efficacité, VideoLLaMB, formé sur 16 trames, prend en charge jusqu'à 320 trames sur un seul GPU Nvidia A100 avec une mise à l'échelle linéaire de la mémoire GPU, garantissant à la fois des performances élevées et une rentabilité, établissant ainsi de nouvelles bases pour les modèles vidéo-langage à longue forme dans les applications académiques et pratiques.

Optimisation de la Politique de Diffusion
Diffusion Policy Policy Optimization

Sep 1

ByAllen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz

Nous présentons Diffusion Policy Policy Optimization, DPPO, un cadre algorithmique comprenant les meilleures pratiques pour le réglage fin des politiques basées sur la diffusion (par exemple, la Politique de Diffusion) dans des tâches d'apprentissage de contrôle continu et de robotique en utilisant la méthode du gradient de politique (PG) de l'apprentissage par renforcement (RL). Les méthodes PG sont omniprésentes dans l'entraînement des politiques RL avec d'autres paramétrisations de politiques; néanmoins, on avait supposé qu'elles étaient moins efficaces pour les politiques basées sur la diffusion. De manière surprenante, nous montrons que DPPO atteint les meilleures performances globales et l'efficacité pour le réglage fin dans des benchmarks courants par rapport à d'autres méthodes RL pour les politiques basées sur la diffusion et également par rapport au réglage fin PG d'autres paramétrisations de politiques. À travers des investigations expérimentales, nous constatons que DPPO tire parti des synergies uniques entre le réglage fin RL et la paramétrisation de la diffusion, conduisant à une exploration structurée et sur-manière, un entraînement stable et une forte robustesse de la politique. Nous démontrons en outre les forces de DPPO dans une gamme de contextes réalistes, y compris des tâches robotiques simulées avec des observations de pixels, et via le déploiement sans entraînement de politiques entraînées en simulation sur du matériel robotique dans une tâche de manipulation à long terme et à plusieurs étapes. Site web avec le code : diffusion-ppo.github.io

Génération vidéo 3D-aware compositionnelle avec le directeur LLM
Compositional 3D-aware Video Generation with LLM Director

Aug 31

ByHanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

Des progrès significatifs ont été réalisés dans la génération de texte en vidéo grâce à l'utilisation de modèles génératifs puissants et de données internet à grande échelle. Cependant, des défis importants subsistent dans le contrôle précis des concepts individuels au sein de la vidéo générée, tels que le mouvement et l'apparence de personnages spécifiques et le déplacement des points de vue. Dans ce travail, nous proposons un nouveau paradigme qui génère chaque concept dans une représentation 3D séparée, puis les compose avec des prédictions des Grands Modèles de Langage (GML) et des modèles de diffusion 2D. Plus précisément, en fonction d'une indication textuelle en entrée, notre schéma se compose de trois étapes : 1) Nous exploitons les GML en tant que directeur pour d'abord décomposer la requête complexe en plusieurs sous-indications qui indiquent les concepts individuels au sein de la vidéo (par exemple, scène, objets, mouvements), puis nous laissons les GML invoquer des modèles experts pré-entraînés pour obtenir les représentations 3D correspondantes des concepts. 2) Pour composer ces représentations, nous sollicitons des GML multimodaux pour produire des orientations grossières sur les échelles et les coordonnées des trajectoires des objets. 3) Pour que les images générées respectent la distribution naturelle des images, nous exploitons en outre des prédictions de diffusion 2D et utilisons l'échantillonnage de distillation de score pour affiner la composition. Des expériences approfondies démontrent que notre méthode peut générer des vidéos haute fidélité à partir de texte avec des mouvements variés et un contrôle flexible sur chaque concept. Page du projet : https://aka.ms/c3v.

ContextCite: Attribution de la génération de modèle au contexte
ContextCite: Attributing Model Generation to Context

Sep 1

ByBenjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry

Comment les modèles de langage utilisent-ils les informations fournies en tant que contexte lors de la génération d'une réponse ? Pouvons-nous déduire si une déclaration générée particulière est effectivement ancrée dans le contexte, une mauvaise interprétation ou fabriquée ? Pour aider à répondre à ces questions, nous introduisons le problème de l'attribution de contexte : identifier les parties du contexte (le cas échéant) qui ont conduit un modèle à générer une déclaration particulière. Nous présentons ensuite ContextCite, une méthode simple et évolutive pour l'attribution de contexte qui peut être appliquée par-dessus n'importe quel modèle de langage existant. Enfin, nous démontrons l'utilité de ContextCite à travers trois applications : (1) aider à vérifier les déclarations générées (2) améliorer la qualité des réponses en élaguant le contexte et (3) détecter les attaques de poison. Nous fournissons le code pour ContextCite sur https://github.com/MadryLab/context-cite.

OD-VAE : Un compresseur vidéo omni-dimensionnel pour améliorer le modèle de diffusion vidéo latent
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Sep 2

ByLiuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan

Les autoencodeurs variationnels (VAE), qui compressent des vidéos en représentations latentes, sont un composant crucial précédant les Modèles de Diffusion Vidéo Latente (LVDM). Avec la même qualité de reconstruction, plus la compression des vidéos par le VAE est suffisante, plus les LVDM sont efficaces. Cependant, la plupart des LVDM utilisent un VAE d'image 2D, dont la compression des vidéos se limite à la dimension spatiale et est souvent négligée dans la dimension temporelle. Comment réaliser une compression temporelle des vidéos dans un VAE pour obtenir des représentations latentes plus concises tout en garantissant une reconstruction précise est rarement exploré. Pour combler cette lacune, nous proposons un VAE de compression omni-dimensionnelle, nommé OD-VAE, capable de compresser temporellement et spatialement des vidéos. Bien que la compression plus suffisante de l'OD-VAE représente un grand défi pour la reconstruction vidéo, elle peut toujours atteindre une précision de reconstruction élevée grâce à notre conception fine. Pour obtenir un meilleur compromis entre la qualité de reconstruction vidéo et la vitesse de compression, quatre variantes d'OD-VAE sont introduites et analysées. De plus, une nouvelle initialisation de queue est conçue pour entraîner l'OD-VAE de manière plus efficace, et une nouvelle stratégie d'inférence est proposée pour permettre à l'OD-VAE de gérer des vidéos de longueur arbitraire avec une mémoire GPU limitée. Des expériences approfondies sur la reconstruction vidéo et la génération vidéo basée sur les LVDM démontrent l'efficacité et l'efficience de nos méthodes proposées.

Compression précise des modèles de diffusion texte-image via la quantification vectorielle
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Aug 31

ByVage Egiazarian, Denis Kuznedelev, Anton Voronov, Ruslan Svirschevski, Michael Goin, Daniil Pavlov, Dan Alistarh, Dmitry Baranchuk

Les modèles de diffusion texte-image ont émergé comme un cadre puissant pour la génération d'images de haute qualité à partir de descriptions textuelles. Leur succès a conduit au développement rapide de modèles de diffusion de qualité de production qui augmentent constamment en taille et contiennent déjà des milliards de paramètres. En conséquence, les modèles texte-image de pointe deviennent moins accessibles en pratique, notamment dans des environnements à ressources limitées. La quantification post-entraînement (PTQ) aborde ce problème en comprimant les poids du modèle pré-entraîné en représentations à moindre nombre de bits. Les techniques récentes de quantification de la diffusion reposent principalement sur une quantification scalaire uniforme, offrant des performances correctes pour les modèles compressés à 4 bits. Ce travail démontre que la quantification vectorielle (VQ) plus polyvalente peut permettre d'atteindre des taux de compression plus élevés pour les modèles de diffusion texte-image à grande échelle. Plus précisément, nous adaptons des méthodes de PTQ basées sur des vecteurs aux récents modèles texte-image à l'échelle du milliard (SDXL et SDXL-Turbo), et montrons que les modèles de diffusion de 2 milliards de paramètres compressés à environ 3 bits en utilisant la VQ présentent une qualité d'image similaire et un alignement textuel similaire aux techniques de compression précédentes à 4 bits.

GenAgent : Construire des Systèmes d'IA Collaboratifs avec un Flux de Travail Automatisé Génération -- Études de Cas sur ComfyUI
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI

Sep 2

ByXiangyuan Xue, Zeyu Lu, Di Huang, Wanli Ouyang, Lei Bai

De nombreuses recherches en intelligence artificielle antérieures se sont concentrées sur le développement de modèles monolithiques pour maximiser leur intelligence et leur capacité, dans le but principal d'améliorer les performances sur des tâches spécifiques. En revanche, cet article explore une approche alternative : des systèmes d'IA collaboratifs qui utilisent des flux de travail pour intégrer des modèles, des sources de données et des pipelines afin de résoudre des tâches complexes et diverses. Nous présentons GenAgent, un cadre basé sur les LLM qui génère automatiquement des flux de travail complexes, offrant une plus grande flexibilité et évolutivité par rapport aux modèles monolithiques. L'innovation principale de GenAgent réside dans la représentation des flux de travail avec du code, en plus de la construction des flux de travail avec des agents collaboratifs de manière pas à pas. Nous mettons en œuvre GenAgent sur la plateforme ComfyUI et proposons un nouveau banc d'essai, OpenComfy. Les résultats démontrent que GenAgent surpasse les approches de base à la fois au niveau de l'exécution et de la tâche, montrant sa capacité à générer des flux de travail complexes avec une efficacité et une stabilité supérieures.

Suivez-Votre-Toile : Restauration de Vidéo Haute Résolution avec Génération de Contenu Étendue
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Sep 2

ByQihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu

Cet article explore la génération de contenu vidéo à plus haute résolution avec un outillage étendu. Nous soulignons les problèmes courants rencontrés par les méthodes existantes lorsqu'elles tentent de générer largement des vidéos : la production de contenu de qualité médiocre et les limitations imposées par la mémoire GPU. Pour relever ces défis, nous proposons une méthode basée sur la diffusion appelée Follow-Your-Canvas. Elle repose sur deux conceptions fondamentales. Tout d'abord, au lieu d'adopter la pratique courante de l'outillage "à prise unique", nous répartissons la tâche à travers des fenêtres spatiales et les fusionnons de manière transparente. Cela nous permet de générer des vidéos de toute taille et résolution sans être limités par la mémoire GPU. Ensuite, la vidéo source et sa relation positionnelle relative sont injectées dans le processus de génération de chaque fenêtre. Cela permet à la disposition spatiale générée dans chaque fenêtre de s'harmoniser avec la vidéo source. La combinaison de ces deux conceptions nous permet de générer des vidéos d'outillage à plus haute résolution avec un contenu riche tout en maintenant une cohérence spatiale et temporelle. Follow-Your-Canvas excelle dans l'outillage vidéo à grande échelle, par exemple, de 512X512 à 1152X2048 (9X), tout en produisant des résultats de haute qualité et esthétiquement plaisants. Elle obtient les meilleurs résultats quantitatifs dans diverses configurations de résolution et d'échelle. Le code est disponible sur https://github.com/mayuelala/FollowYourCanvas

Réseau de traitement de la parole basé sur l'attention adaptative à la densité : Amélioration de la compréhension des caractéristiques pour les troubles de santé mentale
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

Aug 31

ByGeorgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins

La détection de la dépression basée sur la parole pose des défis importants pour la détection automatisée en raison de sa manifestation unique chez les individus et de la rareté des données. Pour relever ces défis, nous introduisons DAAMAudioCNNLSTM et DAAMAudioTransformer, deux modèles efficaces en termes de paramètres et explicatifs pour l'extraction des caractéristiques audio et la détection de la dépression. DAAMAudioCNNLSTM présente un cadre novateur CNN-LSTM avec un mécanisme d'attention adaptatif à densité multiple (DAAM), se concentrant dynamiquement sur les segments de parole informatifs. DAAMAudioTransformer, en utilisant un encodeur transformer à la place de l'architecture CNN-LSTM, intègre le même module DAAM pour une attention et une interprétabilité accrues. Ces approches améliorent non seulement la robustesse de la détection et son interprétabilité, mais atteignent également des performances de pointe : DAAMAudioCNNLSTM avec un score F1 macro de 0,702 et DAAMAudioTransformer avec un score F1 macro de 0,72 sur l'ensemble de données DAIC-WOZ, sans recourir à des informations supplémentaires telles que les positions des voyelles et les informations sur les locuteurs lors de l'entraînement/validation comme dans les approches précédentes. L'explicabilité significative et l'efficacité des deux modèles dans l'utilisation des signaux de parole pour la détection de la dépression représentent un pas en avant vers des outils de diagnostic plus fiables et cliniquement utiles, offrant des avancées prometteuses dans les domaines de la parole et de la santé mentale. Pour encourager davantage la recherche dans ce domaine, nous mettons notre code à disposition du public.

Savoir quand fusionner : Étude de la recherche hybride en langue non anglaise dans le domaine juridique
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Sep 2

ByAntoine Louis, Gijs van Dijck, Gerasimos Spanakis

La recherche hybride a émergé comme une stratégie efficace pour compenser les limitations des différents paradigmes de correspondance, en particulier dans des contextes hors domaine où des améliorations notables de la qualité de récupération ont été observées. Cependant, les recherches existantes se concentrent principalement sur un ensemble limité de méthodes de récupération, évaluées en paires sur des ensembles de données généraux exclusivement en anglais. Dans ce travail, nous étudions l'efficacité de la recherche hybride à travers une variété de modèles de récupération de premier plan dans le domaine inexploré du droit en langue française, évaluant à la fois des scénarios de zéro-shot et en domaine. Nos résultats révèlent que dans un contexte de zéro-shot, la fusion de différents modèles généraux de domaine améliore de manière constante les performances par rapport à l'utilisation d'un modèle autonome, quel que soit le méthode de fusion. De manière surprenante, lorsque les modèles sont entraînés en domaine, nous constatons que la fusion diminue généralement les performances par rapport à l'utilisation du meilleur système unique, sauf en fusionnant les scores avec des poids soigneusement ajustés. Ces nouvelles perspectives, entre autres, étendent l'applicabilité des résultats antérieurs à un nouveau domaine et une nouvelle langue, et contribuent à une compréhension plus approfondie de la recherche hybride dans les domaines spécialisés non anglophones.

L'ensemble de données MERIT : Modélisation et Rendu Efficace de Transcriptions Interprétables
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Aug 31

ByI. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez

Cet article présente le jeu de données MERIT, un jeu de données multimodal (texte + image + mise en page) entièrement étiqueté dans le contexte des rapports scolaires. Composé de plus de 400 étiquettes et 33 000 échantillons, le jeu de données MERIT est une ressource précieuse pour l'entraînement de modèles dans des tâches exigeantes de compréhension de documents riches en visuels (VrDU). Par sa nature (rapports de notes d'élèves), le jeu de données MERIT peut potentiellement inclure des biais de manière contrôlée, en faisant un outil précieux pour évaluer les biais induits dans les Modèles de Langage (LLMs). L'article décrit le processus de génération du jeu de données et met en avant ses principales caractéristiques dans les domaines textuel, visuel, de la mise en page et des biais. Pour démontrer l'utilité du jeu de données, nous présentons une évaluation avec des modèles de classification de jetons, montrant que le jeu de données représente un défi significatif même pour les modèles de pointe et que ces derniers bénéficieraient grandement de l'inclusion d'échantillons du jeu de données MERIT dans leur phase de pré-entraînement.

PrivacyLens : Évaluation de la conscience des normes de confidentialité des modèles de langage en action
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action

Aug 29

ByYijia Shao, Tianshi Li, Weiyan Shi, Yanchen Liu, Diyi Yang

Étant donné que les modèles de langage (LM) sont largement utilisés dans des scénarios de communication personnalisée (par exemple, l'envoi d'e-mails, la rédaction de publications sur les réseaux sociaux) et dotés d'un certain niveau d'agence, il est de plus en plus crucial de veiller à ce qu'ils agissent conformément aux normes de confidentialité contextuelles. Cependant, quantifier la sensibilisation des LM aux normes de confidentialité et le risque émergent pour la confidentialité dans la communication médiatisée par les LM est difficile en raison (1) de la nature contextuelle et à longue traîne des cas sensibles à la confidentialité, et (2) du manque d'approches d'évaluation qui captent des scénarios d'application réalistes. Pour relever ces défis, nous proposons PrivacyLens, un nouveau cadre conçu pour étendre des graines sensibles à la confidentialité en vignettes expressives, puis en trajectoires d'agents, permettant une évaluation multi-niveaux des fuites de confidentialité dans les actions des agents LM. Nous instancions PrivacyLens avec une collection de normes de confidentialité ancrées dans la littérature sur la confidentialité et des graines obtenues auprès du public. En utilisant cet ensemble de données, nous révélons une disparité entre les performances des LM pour répondre à des questions d'investigation et leur comportement réel lors de l'exécution d'instructions utilisateur dans un environnement d'agent. Les LM de pointe, tels que GPT-4 et Llama-3-70B, divulguent des informations sensibles dans 25,68 % et 38,69 % des cas, même lorsqu'ils sont sollicités avec des instructions renforçant la confidentialité. Nous démontrons également la nature dynamique de PrivacyLens en étendant chaque graine en plusieurs trajectoires pour évaluer le risque de fuite de confidentialité des LM. L'ensemble de données et le code sont disponibles sur https://github.com/SALT-NLP/PrivacyLens.

VideoLLaMB : Compréhension de vidéos à long contexte avec mémoire récurrente
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

Sep 2

ByYuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng