ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Loopy : Apprivoiser l'avatar de portrait audio-commandé avec une dépendance de mouvement à long terme
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4
ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
97
13

Avec l'introduction des techniques de génération vidéo basées sur la diffusion, la génération vidéo humaine conditionnée par l'audio a récemment réalisé des avancées significatives à la fois en termes de naturel du mouvement et de synthèse des détails du portrait. En raison du contrôle limité des signaux audio dans la conduite du mouvement humain, les méthodes existantes ajoutent souvent des signaux spatiaux auxiliaires pour stabiliser les mouvements, ce qui peut compromettre le naturel et la liberté du mouvement. Dans cet article, nous proposons un modèle de diffusion vidéo conditionné uniquement par l'audio de bout en bout nommé Loopy. Plus précisément, nous avons conçu un module temporel inter- et intra-clip ainsi qu'un module audio-vers-latents, permettant au modèle d'exploiter les informations de mouvement à long terme des données pour apprendre des motifs de mouvement naturels et améliorer la corrélation mouvement audio-portrait. Cette méthode élimine le besoin de modèles de mouvement spatial spécifiés manuellement utilisés dans les méthodes existantes pour contraindre le mouvement pendant l'inférence. Des expériences approfondies montrent que Loopy surpasse les récents modèles de diffusion de portrait pilotés par l'audio, offrant des résultats plus réalistes et de haute qualité dans divers scénarios.

2

LongLLaVA : Mise à l'échelle efficace des LLM multi-modaux à 1000 images via une architecture hybride
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4
ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
54
2

Étendre les capacités de long-contexte des Modèles de Langage Multimodaux à Grande Échelle (MLLM) est crucial pour la compréhension vidéo, la compréhension d'images haute résolution et les agents multimodaux. Cela implique une série d'optimisations systématiques, incluant l'architecture du modèle, la construction des données et la stratégie d'entraînement, en abordant notamment des défis tels que la dégradation des performances avec un plus grand nombre d'images et des coûts computationnels élevés. Dans cet article, nous adaptons l'architecture du modèle à un hybride de blocs Mamba et Transformeur, abordons la construction des données avec des dépendances temporelles et spatiales parmi plusieurs images, et utilisons une stratégie d'entraînement progressive. Le modèle publié, LongLLaVA (Long-Context Large Language and Vision Assistant), est le premier MLLM hybride, qui a atteint un meilleur équilibre entre efficacité et efficacité. LongLLaVA obtient non seulement des résultats compétitifs sur divers benchmarks, mais maintient également un débit élevé et une faible consommation de mémoire. En particulier, il peut traiter près d'un millier d'images sur un seul GPU A100 80 Go, montrant des perspectives d'application prometteuses pour une large gamme de tâches.

3

LongCite : Permettre aux LLM de générer des citations détaillées dans les questions-réponses à long contexte
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

Sep 4
Byjiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
47
3

Bien que les modèles de langage à grande échelle (LLM) actuels à long contexte aient démontré des capacités impressionnantes pour répondre aux questions des utilisateurs sur la base de textes étendus, le manque de citations dans leurs réponses rend la vérification par l'utilisateur difficile, suscitant des inquiétudes quant à leur fiabilité en raison de leurs éventuelles hallucinations. Dans ce travail, notre objectif est de permettre aux LLM à long contexte de générer des réponses avec des citations au niveau de la phrase, améliorant ainsi leur fidélité et leur vérifiabilité. Nous introduisons d'abord LongBench-Cite, un banc d'essai automatisé pour évaluer les performances des LLM actuels dans la réponse à des questions à long contexte avec des citations (LQAC), révélant un espace considérable pour l'amélioration. À cette fin, nous proposons CoF (Coarse to Fine), un pipeline novateur qui utilise des LLM prêts à l'emploi pour générer automatiquement des instances de questions-réponses à long contexte avec des citations précises au niveau de la phrase, et exploitons ce pipeline pour construire LongCite-45k, un ensemble de données à grande échelle pour LQAC. Enfin, nous entraînons LongCite-8B et LongCite-9B en utilisant l'ensemble de données LongCite-45k, leur permettant avec succès de générer des réponses précises et des citations au niveau de la phrase fines dans une seule sortie. Les résultats de l'évaluation sur LongBench-Cite montrent que nos modèles entraînés atteignent une qualité de citation de pointe, surpassant des modèles propriétaires avancés, y compris GPT-4o.

4

MMMU-Pro : un banc d'essai pour une compréhension multimodale multi-disciplinaire plus robuste
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Sep 4
ByXiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
31
3

Cet article présente MMMU-Pro, une version robuste du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro évalue rigoureusement la véritable compréhension et les capacités de raisonnement des modèles multimodaux à travers un processus en trois étapes basé sur MMMU : (1) filtrer les questions pouvant être répondues par des modèles basés uniquement sur du texte, (2) augmenter les options de réponse candidates, et (3) introduire un cadre d'entrée basé uniquement sur la vision où les questions sont intégrées dans des images. Ce cadre met l'IA au défi de "voir" et "lire" simultanément, testant une compétence cognitive humaine fondamentale consistant à intégrer de manière transparente des informations visuelles et textuelles. Les résultats montrent que les performances des modèles sont nettement inférieures sur MMMU-Pro par rapport à MMMU, avec des écarts allant de 16,8% à 26,9% entre les modèles. Nous explorons l'impact des incitations OCR et du raisonnement Chain of Thought (CoT), constatant que les incitations OCR ont un effet minimal tandis que CoT améliore généralement les performances. MMMU-Pro fournit un outil d'évaluation plus rigoureux, imitant étroitement des scénarios du monde réel et offrant des orientations précieuses pour les futures recherches en IA multimodale.

5

Manipulation de robot basée sur les affordances avec appariement de flux
Affordance-based Robot Manipulation with Flow Matching

Sep 2
ByFan Zhang, Michael Gienger
20
2

Nous présentons un cadre pour la manipulation assistée par robot, qui se concentre sur deux défis fondamentaux : premièrement, adapter efficacement des modèles à grande échelle pour des tâches de compréhension des affordances de scène en aval, notamment dans des scénarios de la vie quotidienne où la collecte de données multi-tâches impliquant des humains nécessite des efforts considérables ; deuxièmement, apprendre efficacement les trajectoires de robot en ancrant le modèle d'affordance visuelle. Nous abordons le premier défi en utilisant une méthode d'ajustement de prompteur efficace en termes de paramètres qui ajoute des prompts textuels apprenables au modèle de vision figé pour prédire les affordances de manipulation dans des scénarios multi-tâches. Ensuite, nous proposons d'apprendre les trajectoires de robot guidées par les affordances dans une méthode supervisée de correspondance de flux. La correspondance de flux représente une politique visuo-motrice de robot comme un processus conditionnel de faire circuler des points de passage aléatoires vers des trajectoires de robot souhaitées. Enfin, nous introduisons un ensemble de données du monde réel avec 10 tâches liées aux Activités de la Vie Quotidienne pour tester notre cadre. Notre évaluation approfondie met en évidence que la méthode d'ajustement de prompteur proposée pour apprendre l'affordance de manipulation avec un prompteur de langage atteint des performances compétitives et dépasse même d'autres protocoles de fine-tuning à travers des échelles de données, tout en satisfaisant l'efficacité des paramètres. Apprendre des trajectoires de robot multi-tâches avec une seule politique de correspondance de flux conduit également à des performances systématiquement meilleures que les méthodes alternatives de clonage de comportement, surtout étant donné les distributions d'actions de robot multimodales. Notre cadre unifie de manière transparente l'apprentissage du modèle d'affordance et la génération de trajectoires avec la correspondance de flux pour la manipulation de robot.

6

Arctic-SnowCoder : Démystification des données de haute qualité dans la préformation de code
Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

Sep 3
ByYuxiang Wei, Hojae Han, Rajhans Samdani
19
2

Des études récentes démontrent de plus en plus que des données de haute qualité sont cruciales pour un pré-entraînement efficace des modèles de langage. Cependant, la définition précise de "haute qualité" reste peu explorée. En se concentrant sur le domaine du code, nous introduisons Arctic-SnowCoder-1.3B, un modèle de code de base efficace en données pré-entraîné sur 555 milliards de jetons à travers trois phases de données progressivement affinées : (1) pré-entraînement général avec 500 milliards de jetons de code de qualité standard, prétraités par un filtrage de base, une déduplication et une décontamination, (2) poursuite du pré-entraînement avec 50 milliards de jetons de haute qualité, sélectionnés de la phase un par un annotateur de qualité de style BERT formé pour distinguer un bon code de données aléatoires, en utilisant des exemples positifs tirés de fichiers de code de haute qualité, ainsi que des données d'instructions de Magicoder et StarCoder2-Instruct, et (3) pré-entraînement amélioré avec 5 milliards de données synthétiques créées par Llama-3.1-70B en utilisant les données de la phase deux comme graines, en adaptant l'approche Magicoder pour le pré-entraînement. Malgré son entraînement sur un ensemble de données limité, Arctic-SnowCoder atteint des performances de pointe sur BigCodeBench, un banc d'essai de codage axé sur des tâches de programmation pratiques et difficiles, par rapport à des modèles de taille similaire entraînés sur pas plus de 1 billion de jetons, surpassant Phi-1.5-1.3B de 36%. Sur tous les bancs d'essai évalués, Arctic-SnowCoder-1.3B bat StarCoderBase-3B pré-entraîné sur 1 billion de jetons. De plus, il égale les performances des principaux petits modèles de code de base entraînés sur des billions de jetons. Par exemple, Arctic-SnowCoder-1.3B surpasse StarCoder2-3B, pré-entraîné sur plus de 3.3 billions de jetons, sur HumanEval+, un banc d'essai qui évalue la génération de code au niveau de la fonction, et reste compétitif sur BigCodeBench. Notre évaluation présente une analyse complète justifiant divers choix de conception pour Arctic-SnowCoder. Surtout, nous constatons que la clé de données de haute qualité est son alignement avec la distribution des applications en aval.

7

DÉBAT POLITIQUE : Classificateurs efficaces à zéro et à quelques tirs pour les textes politiques
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

Sep 3
ByMichael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
11
3

Les scientifiques sociaux ont rapidement adopté de grands modèles de langage en raison de leur capacité à annoter des documents sans entraînement supervisé, une capacité connue sous le nom d'apprentissage sans étiquette. Cependant, en raison de leurs exigences en calcul, de leur coût et de leur nature souvent propriétaire, ces modèles sont souvent en contradiction avec les normes de réplication et de science ouverte. Cet article présente les modèles de langage Political DEBATE (DeBERTa Algorithm for Textual Entailment) pour la classification sans étiquette et à faible nombre d'exemples de documents politiques. Ces modèles ne sont pas seulement aussi bons, voire meilleurs, que les grands modèles de langage de pointe en matière de classification sans étiquette et à faible nombre d'exemples, mais ils sont également beaucoup plus efficaces et entièrement open source. En formant les modèles sur un simple échantillon aléatoire de 10 à 25 documents, ils peuvent surpasser les classificateurs supervisés formés sur des centaines ou des milliers de documents et les modèles génératifs de pointe avec des invitations complexes et élaborées. De plus, nous publions l'ensemble de données PolNLI utilisé pour entraîner ces modèles - un corpus de plus de 200 000 documents politiques avec des étiquettes très précises sur plus de 800 tâches de classification.

8

FastVoiceGrad : Conversion de voix basée sur la diffusion en une étape avec distillation de diffusion conditionnelle adversaire
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3
ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
10
2

Les techniques de conversion vocale (VC) basées sur la diffusion, telles que VoiceGrad, ont suscité un intérêt en raison de leurs performances élevées en termes de qualité de la parole et de similarité des locuteurs. Cependant, une limitation notable est la lenteur de l'inférence causée par la diffusion inverse multi-étapes. Par conséquent, nous proposons FastVoiceGrad, une nouvelle VC basée sur la diffusion en une étape qui réduit le nombre d'itérations de dizaines à une seule tout en conservant les performances élevées de la VC basée sur la diffusion multi-étapes. Nous obtenons le modèle en utilisant la distillation de diffusion conditionnelle adversariale (ACDD), exploitant la capacité des réseaux antagonistes génératifs et des modèles de diffusion tout en réexaminant les états initiaux lors de l'échantillonnage. Les évaluations de la VC de tout-à-tout en une seule étape démontrent que FastVoiceGrad atteint des performances de VC supérieures ou comparables à celles des précédentes VC basées sur la diffusion multi-étapes tout en améliorant la vitesse d'inférence. Des échantillons audio sont disponibles sur https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.

Sep 4
Sep 5
Sep 6