ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

MLGym : Un nouveau cadre de référence et benchmark pour faire progresser les agents de recherche en IA
MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Feb 20, 2025
Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
1923

Nous présentons Meta MLGym et MLGym-Bench, un nouveau cadre et un benchmark pour évaluer et développer des agents LLM sur des tâches de recherche en IA. Il s'agit du premier environnement Gym dédié aux tâches de machine learning (ML), permettant la recherche sur les algorithmes d'apprentissage par renforcement (RL) pour entraîner de tels agents. MLGym-Bench comprend 13 tâches de recherche en IA variées et ouvertes, couvrant des domaines tels que la vision par ordinateur, le traitement du langage naturel, l'apprentissage par renforcement et la théorie des jeux. La résolution de ces tâches nécessite des compétences réelles en recherche en IA, telles que la génération de nouvelles idées et hypothèses, la création et le traitement de données, l'implémentation de méthodes de ML, l'entraînement de modèles, la conduite d'expériences, l'analyse des résultats et l'itération de ce processus pour améliorer une tâche donnée. Nous évaluons plusieurs modèles de langage de pointe (LLM) sur nos benchmarks, tels que Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview et Gemini-1.5 Pro. Notre cadre MLGym facilite l'ajout de nouvelles tâches, l'intégration et l'évaluation de modèles ou d'agents, la génération de données synthétiques à grande échelle, ainsi que le développement de nouveaux algorithmes d'apprentissage pour entraîner des agents sur des tâches de recherche en IA. Nous constatons que les modèles de pointe actuels peuvent améliorer les performances par rapport aux bases de référence, généralement en trouvant de meilleurs hyperparamètres, mais ne génèrent pas d'hypothèses, d'algorithmes, d'architectures ou d'améliorations substantielles novatrices. Nous rendons notre cadre et notre benchmark open-source pour faciliter les recherches futures visant à améliorer les capacités de recherche en IA des agents LLM.

SigLIP 2 : Encodeurs vision-langage multilingues avec une compréhension sémantique améliorée, une meilleure localisation et des caractéristiques denses
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Feb 20, 2025
Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
1467

Nous présentons SigLIP 2, une famille de nouveaux encodeurs multilingues vision-langage qui s'appuient sur le succès du SigLIP original. Dans cette deuxième itération, nous étendons l'objectif de formation image-texte initial en intégrant plusieurs techniques développées indépendamment en une recette unifiée — incluant un pré-entraînement basé sur la génération de légendes, des pertes auto-supervisées (auto-distillation, prédiction masquée) et une curation de données en ligne. Grâce à ces modifications, les modèles SigLIP 2 surpassent leurs homologues SigLIP à toutes les échelles de modèles dans les capacités fondamentales, notamment la classification zero-shot, la recherche image-texte et les performances de transfert lors de l'extraction de représentations visuelles pour les modèles vision-langage (VLMs). De plus, la nouvelle recette d'entraînement conduit à des améliorations significatives sur les tâches de localisation et de prédiction dense. Nous entraînons également des variantes qui prennent en charge plusieurs résolutions et préservent le ratio d'aspect natif de l'entrée. Enfin, nous entraînons sur un mélange de données plus diversifié incluant des techniques de débiaisage, ce qui améliore considérablement la compréhension multilingue et l'équité. Pour permettre aux utilisateurs de faire un compromis entre le coût d'inférence et les performances, nous publions des points de contrôle de modèles à quatre tailles : ViT-B (86M), L (303M), So400m (400M) et g (1B).

SuperGPQA : Évaluation des modèles de langage à grande échelle à travers 285 disciplines universitaires de niveau master
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Feb 20, 2025
M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
10510

Les grands modèles de langage (LLM) ont démontré une compétence remarquable dans les disciplines académiques principales telles que les mathématiques, la physique et l'informatique. Cependant, le savoir humain englobe plus de 200 disciplines spécialisées, dépassant largement le champ des benchmarks existants. Les capacités des LLM dans nombre de ces domaines spécialisés—en particulier dans les secteurs de l'industrie légère, de l'agriculture et des disciplines orientées services—restent insuffisamment évaluées. Pour combler cette lacune, nous présentons SuperGPQA, un benchmark complet qui évalue les connaissances et les capacités de raisonnement de niveau universitaire avancé à travers 285 disciplines. Notre benchmark utilise un mécanisme novateur de filtrage collaboratif Humain-LLM pour éliminer les questions triviales ou ambiguës grâce à un affinement itératif basé sur les réponses des LLM et les retours d'experts. Nos résultats expérimentaux révèlent une marge d'amélioration significative dans les performances des LLM actuels de pointe à travers divers domaines de connaissances (par exemple, le modèle axé sur le raisonnement DeepSeek-R1 a atteint la précision la plus élevée de 61,82 % sur SuperGPQA), soulignant l'écart considérable entre les capacités actuelles des modèles et l'intelligence artificielle générale. De plus, nous présentons des insights complets issus de la gestion d'un processus d'annotation à grande échelle, impliquant plus de 80 annotateurs experts et un système interactif de collaboration Humain-LLM, offrant ainsi des orientations méthodologiques précieuses pour les futures initiatives de recherche d'une envergure comparable.

Quelle quantité de connaissances peut-on intégrer dans un adaptateur LoRA sans nuire au LLM ?
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Feb 20, 2025
Sergey Pletenev, Maria Marina, Daniil Moskovskiy, Vasily Konovalov, Pavel Braslavski, Alexander Panchenko, Mikhail Salnikov
919

Les performances des modèles de langage de grande taille (LLMs) sur de nombreuses tâches sont fortement limitées par les connaissances acquises lors du pré-entraînement et stockées dans les paramètres du modèle. L'adaptation à faible rang (LoRA) est une technique d'entraînement populaire et efficace pour mettre à jour ou adapter les LLMs à des domaines spécifiques. Dans cette étude, nous examinons comment de nouveaux faits peuvent être intégrés dans un LLM en utilisant LoRA sans compromettre les connaissances précédemment acquises. Nous avons affiné le modèle Llama-3.1-8B-instruct en utilisant LoRA avec différentes quantités de nouvelles connaissances. Nos expériences ont montré que les meilleurs résultats sont obtenus lorsque les données d'entraînement contiennent un mélange de faits connus et nouveaux. Cependant, cette approche reste potentiellement problématique car les performances du modèle sur des benchmarks externes de question-réponse diminuent après un tel affinage. Lorsque les données d'entraînement sont biaisées en faveur de certaines entités, le modèle a tendance à régresser vers quelques réponses surreprésentées. De plus, nous avons constaté que le modèle devient plus confiant et refuse de fournir une réponse dans seulement quelques cas. Ces résultats mettent en lumière les pièges potentiels des mises à jour de LLM basées sur LoRA et soulignent l'importance de la composition des données d'entraînement et des paramètres d'ajustement pour équilibrer l'intégration de nouvelles connaissances et les capacités générales du modèle.

S* : Mise à l'échelle au moment du test pour la génération de code
S*: Test Time Scaling for Code Generation

Feb 20, 2025
Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
633

L'augmentation du calcul au moment des tests pour les LLM montre des résultats prometteurs dans divers domaines, mais reste peu explorée dans la génération de code, malgré des études approfondies en mathématiques. Dans cet article, nous proposons S*, le premier cadre d'échelle hybride au moment des tests qui améliore considérablement la couverture et la précision de sélection du code généré. S* étend le paradigme d'échelle parallèle existant avec une échelle séquentielle pour repousser les limites de performance. Il exploite en outre un mécanisme de sélection novateur qui génère de manière adaptative des entrées distinctives pour une comparaison par paires, combiné à des informations basées sur l'exécution pour identifier de manière robuste les solutions correctes. Nous évaluons 12 modèles de langage de grande taille (LLM) et un modèle de raisonnement de grande taille (LRM) et montrons : (1) S* améliore systématiquement les performances à travers les familles de modèles et leurs tailles, permettant à un modèle de 3B de surpasser GPT-4o-mini ; (2) S* permet aux modèles non spécialisés en raisonnement de surpasser les modèles de raisonnement - GPT-4o-mini avec S* surpasse o1-preview de 3,7 % sur LiveCodeBench ; (3) S* renforce encore les modèles de raisonnement de pointe - DeepSeek-R1-Distill-Qwen-32B avec S* atteint 85,7 % sur LiveCodeBench, approchant o1 (haut) à 88,5 %. Le code sera disponible sous https://github.com/NovaSky-AI/SkyThought.

Logic-RL : Libérer le raisonnement des LLM grâce à l'apprentissage par renforcement basé sur des règles
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Feb 20, 2025
Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
485

Inspirés par le succès de DeepSeek-R1, nous explorons le potentiel de l'apprentissage par renforcement basé sur des règles (RL) dans les modèles de raisonnement à grande échelle. Pour analyser la dynamique du raisonnement, nous utilisons des énigmes logiques synthétiques comme données d'entraînement en raison de leur complexité contrôlable et de la vérification directe des réponses. Nous apportons plusieurs contributions techniques clés qui conduisent à un entraînement RL efficace et stable : un prompt système qui met l'accent sur le processus de réflexion et de réponse, une fonction de récompense de format rigoureuse qui pénalise les sorties prenant des raccourcis, et une recette d'entraînement simple qui assure une convergence stable. Notre modèle de 7B développe des compétences de raisonnement avancées—telles que la réflexion, la vérification et la synthèse—qui sont absentes du corpus logique. De manière remarquable, après un entraînement sur seulement 5 000 problèmes logiques, il démontre des capacités de généralisation sur les benchmarks mathématiques difficiles AIME et AMC.

Découverte de codes quantiques de correction d'erreur légers et hautement efficaces grâce à l'apprentissage par renforcement
Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning

Feb 20, 2025
Austin Yubo He, Zi-Wen Liu
364

La réalisation d'un calcul quantique tolérant aux fautes et scalable repose essentiellement sur les codes quantiques de correction d'erreurs. Dans la quête d'une tolérance aux fautes quantique plus efficace, un paramètre clé des codes est le poids des mesures qui extraient des informations sur les erreurs pour permettre leur correction : comme des poids de mesure plus élevés nécessitent des coûts de mise en œuvre plus importants et introduisent plus d'erreurs, il est crucial dans la conception des codes d'optimiser le poids des mesures. Cela explique l'intérêt croissant pour les codes quantiques à faible densité de parité (qLDPC), dont l'étude s'est principalement concentrée sur les propriétés asymptotiques (limite des grands codes). Dans ce travail, nous présentons une approche polyvalente et efficace sur le plan computationnel pour la réduction du poids des codes stabilisateurs, basée sur l'apprentissage par renforcement (RL), qui produit de nouveaux codes à faible poids surpassant considérablement l'état de l'art dans des régimes de paramètres pertinents en pratique, dépassant significativement les petites distances précédemment accessibles. Par exemple, notre approche démontre des économies dans la surcharge en qubits physiques par rapport aux résultats existants d'un à deux ordres de grandeur pour les codes de poids 6 et ramène cette surcharge dans une plage réalisable pour les expériences futures proches. Nous étudions également l'interaction entre les paramètres des codes en utilisant notre cadre RL, offrant de nouvelles perspectives sur l'efficacité et la puissance potentielles des stratégies de codage viables en pratique. Globalement, nos résultats montrent comment l'apprentissage par renforcement peut efficacement faire progresser le problème crucial mais difficile de la découverte de codes quantiques, facilitant ainsi une voie plus rapide vers la mise en œuvre pratique des technologies quantiques tolérantes aux fautes.

S^2R : Enseigner aux LLM l'auto-vérification et l'auto-correction via l'apprentissage par renforcement
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Feb 18, 2025
Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
292

Des études récentes ont démontré l'efficacité de la mise à l'échelle des LLM (modèles de langage de grande taille) lors des tests. Cependant, les approches existantes pour stimuler les capacités de réflexion approfondie des LLM nécessitent généralement des données à grande échelle ou des efforts d'entraînement significatifs. Par ailleurs, il reste incertain comment améliorer les capacités de réflexion des modèles de base moins puissants. Dans ce travail, nous introduisons S^2R, un cadre efficace qui améliore le raisonnement des LLM en enseignant aux modèles à s'auto-vérifier et à s'auto-corriger lors de l'inférence. Plus précisément, nous initialisons d'abord les LLM avec des comportements itératifs d'auto-vérification et d'auto-correction grâce à un ajustement fin supervisé sur des données soigneusement sélectionnées. Les compétences d'auto-vérification et d'auto-correction sont ensuite renforcées par un apprentissage par renforcement à la fois au niveau des résultats et des processus, avec des exigences de ressources minimisées, permettant au modèle d'affiner de manière adaptative son processus de raisonnement lors de l'inférence. Nos résultats montrent qu'avec seulement 3,1k échantillons d'initialisation de comportements d'auto-vérification et d'auto-correction, Qwen2.5-math-7B améliore sa précision de 51,0 % à 81,6 %, surpassant les modèles entraînés sur une quantité équivalente de données distillées par CoT long. Des expériences approfondies et des analyses basées sur trois modèles de base à travers des benchmarks en domaine et hors domaine valident l'efficacité de S^2R. Notre code et nos données sont disponibles à l'adresse https://github.com/NineAbyss/S2R.

Le temps a-t-il sa place ? Les têtes temporelles : où les modèles de langage retrouvent des informations spécifiques au temps
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Feb 20, 2025
Yein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang
262

Bien que la capacité des modèles de langage à extraire des faits ait été largement étudiée, leur gestion des faits évoluant dans le temps reste peu explorée. Nous découvrons les "Temporal Heads", des têtes d'attention spécifiques principalement responsables du traitement des connaissances temporelles grâce à une analyse de circuits. Nous confirmons que ces têtes sont présentes dans plusieurs modèles, bien que leurs emplacements spécifiques puissent varier, et que leurs réponses diffèrent selon le type de connaissance et les années correspondantes. La désactivation de ces têtes dégrade la capacité du modèle à rappeler des connaissances spécifiques à une période tout en préservant ses capacités générales sans compromettre les performances invariantes dans le temps et en question-réponse. De plus, ces têtes sont activées non seulement par des conditions numériques ("En 2004") mais aussi par des alias textuels ("En l'année ..."), indiquant qu'elles encodent une dimension temporelle allant au-delà d'une simple représentation numérique. Enfin, nous élargissons le potentiel de nos découvertes en démontrant comment les connaissances temporelles peuvent être modifiées en ajustant les valeurs de ces têtes.

LongWriter-V : Permettant une génération ultra-longue et haute fidélité dans les modèles vision-langage
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Feb 20, 2025
Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
242

Les modèles de vision-langage de grande taille (LVLMs) existants peuvent traiter des entrées avec des contextes allant jusqu'à 128k tokens visuels et textuels, mais ils peinent à générer des sorties cohérentes dépassant 1 000 mots. Nous constatons que la principale limitation réside dans l'absence d'exemples de sorties longues lors du réglage fin supervisé (SFT). Pour résoudre ce problème, nous introduisons LongWriter-V-22k, un ensemble de données SFT comprenant 22 158 exemples, chacun avec plusieurs images d'entrée, une instruction et des sorties correspondantes allant de 0 à 10 000 mots. De plus, pour obtenir des sorties longues qui restent fidèles aux images d'entrée, nous appliquons l'Optimisation Directe des Préférences (DPO) au modèle SFT. Étant donné le coût élevé de la collecte de retours humains pour des sorties longues (par exemple, 3 000 mots), nous proposons IterDPO, qui découpe les sorties longues en segments et utilise des corrections itératives pour former des paires de préférences avec les sorties originales. Par ailleurs, nous développons MMLongBench-Write, un benchmark comprenant six tâches pour évaluer les capacités de génération longue des modèles de vision-langage (VLMs). Notre modèle de 7B paramètres, entraîné avec LongWriter-V-22k et IterDPO, obtient des performances impressionnantes sur ce benchmark, surpassant des modèles propriétaires plus grands comme GPT-4o. Code et données : https://github.com/THU-KEG/LongWriter-V

PC-Agent : Un cadre de collaboration multi-agent hiérarchique pour l'automatisation de tâches complexes sur PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Feb 20, 2025
Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
203

Dans le domaine des agents d'interface graphique basés sur les MLLM, par rapport aux smartphones, le scénario PC présente non seulement un environnement interactif plus complexe, mais implique également des flux de travail intra et inter-applications plus élaborés. Pour résoudre ces problèmes, nous proposons un cadre d'agent hiérarchique nommé PC-Agent. Plus précisément, du point de vue de la perception, nous concevons un module de perception active (APM) pour surmonter les capacités insuffisantes des MLLM actuels à percevoir le contenu des captures d'écran. Du point de vue de la prise de décision, pour gérer plus efficacement les instructions utilisateur complexes et les sous-tâches interdépendantes, nous proposons une architecture de collaboration multi-agent hiérarchique qui décompose les processus de décision en niveaux Instruction-Sous-tâche-Action. Au sein de cette architecture, trois agents (à savoir, Manager, Progress et Decision) sont mis en place pour respectivement la décomposition des instructions, le suivi de la progression et la prise de décision étape par étape. De plus, un agent de réflexion est adopté pour permettre un retour d'erreur et un ajustement ascendants en temps opportun. Nous introduisons également un nouveau benchmark PC-Eval avec 25 instructions complexes du monde réel. Les résultats empiriques sur PC-Eval montrent que notre PC-Agent obtient une amélioration absolue de 32 % du taux de réussite des tâches par rapport aux méthodes précédentes de pointe. Le code sera rendu public.

Comment faire en sorte que votre modèle de langage génère des problèmes complexes pour l'évaluation
How to Get Your LLM to Generate Challenging Problems for Evaluation

Feb 20, 2025
Arkil Patel, Siva Reddy, Dzmitry Bahdanau
182

Le rythme d'évolution des modèles de langage de grande taille (LLMs) nécessite de nouvelles approches pour une évaluation rigoureuse et exhaustive. L'annotation humaine traditionnelle devient de plus en plus impraticable en raison des complexités et des coûts associés à la génération de problèmes de haute qualité et difficiles. Dans ce travail, nous introduisons CHASE, un cadre unifié pour générer synthétiquement des problèmes complexes à l'aide de LLMs sans intervention humaine. Pour une tâche donnée, notre approche construit un problème difficile de manière ascendante à partir de composants plus simples. De plus, notre cadre décompose le processus de génération en sous-tâches vérifiables de manière indépendante, garantissant ainsi un niveau élevé de qualité et de justesse. Nous mettons en œuvre CHASE pour créer des benchmarks d'évaluation dans trois domaines variés : (1) la réponse à des questions basées sur des documents, (2) la complétion de code au niveau d'un dépôt, et (3) le raisonnement mathématique. La performance des LLMs de pointe sur ces benchmarks synthétiques se situe dans une plage de précision de 40 à 60 %, démontrant ainsi l'efficacité de notre cadre pour générer des problèmes difficiles. Nous rendons publics nos benchmarks et notre code.

Personnalisation dynamique des concepts à partir de vidéos uniques
Dynamic Concepts Personalization from Single Videos

Feb 20, 2025
Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
162

La personnalisation des modèles génératifs de texte-à-image a connu des progrès remarquables, mais son extension aux modèles de texte-à-vidéo présente des défis uniques. Contrairement aux concepts statiques, la personnalisation des modèles de texte-à-vidéo a le potentiel de capturer des concepts dynamiques, c'est-à-dire des entités définies non seulement par leur apparence, mais aussi par leur mouvement. Dans cet article, nous présentons Set-and-Sequence, un cadre novateur pour personnaliser les modèles génératifs de vidéo basés sur les Transformers de Diffusion (DiTs) avec des concepts dynamiques. Notre approche impose un espace de poids spatio-temporel au sein d'une architecture qui ne sépare pas explicitement les caractéristiques spatiales et temporelles. Cela est réalisé en deux étapes clés. Tout d'abord, nous affinons les couches d'Adaptation à Faible Rang (LoRA) en utilisant un ensemble non ordonné d'images de la vidéo pour apprendre une base LoRA d'identité qui représente l'apparence, sans interférence temporelle. Dans la deuxième étape, avec les LoRA d'identité figés, nous augmentons leurs coefficients avec des Résidus de Mouvement et les affinons sur la séquence vidéo complète, capturant ainsi la dynamique du mouvement. Notre cadre Set-and-Sequence aboutit à un espace de poids spatio-temporel qui intègre efficacement des concepts dynamiques dans le domaine de sortie du modèle vidéo, permettant une éditabilité et une compositionnalité sans précédent tout en établissant un nouveau standard pour la personnalisation des concepts dynamiques.

AlphaMaze : Amélioration de l'intelligence spatiale des grands modèles de langage via GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

Feb 20, 2025
Alan Dao, Dinh Bach Vu
142

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en traitement du langage, mais ils peinent souvent à accomplir des tâches nécessitant un véritable raisonnement visuel et spatial. Dans cet article, nous présentons un nouveau cadre d'apprentissage en deux étapes conçu pour doter les LLMs standards de capacités de raisonnement visuel pour la navigation dans des labyrinthes. Premièrement, nous utilisons un Fine-Tuning Supervisé (SFT) sur un ensemble de données soigneusement sélectionné de représentations tokenisées de labyrinthes pour enseigner au modèle à prédire des commandes de mouvement étape par étape. Ensuite, nous appliquons l'Optimisation de Politique Relative par Groupe (GRPO) — une technique utilisée dans DeepSeekR1 — avec une fonction de récompense minutieusement conçue pour affiner la prise de décision séquentielle du modèle et encourager l'émergence de comportements de chaîne de pensée. Les résultats expérimentaux sur des labyrinthes générés de manière synthétique montrent que, tandis qu'un modèle de base échoue à naviguer dans le labyrinthe, le modèle entraîné par SFT atteint une précision de 86 %, et un affinage supplémentaire par GRPO augmente cette précision à 93 %. Des analyses qualitatives révèlent que le GRPO favorise un raisonnement plus robuste et autocorrectif, soulignant le potentiel de notre approche pour combler le fossé entre les modèles de langage et les tâches visuelles et spatiales. Ces résultats offrent des implications prometteuses pour des applications en robotique, navigation autonome et d'autres domaines nécessitant un raisonnement intégré visuel et séquentiel.

LServe : Service efficace de modèles de langage à longues séquences avec une attention éparse unifiée
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

Feb 20, 2025
Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
132

Les grands modèles de langage (LLM) ont démontré un potentiel remarquable dans le traitement de longues séquences, mais servir efficacement ces modèles à contexte long reste un défi en raison de la complexité computationnelle quadratique de l'attention lors de l'étape de préremplissage et de l'empreinte mémoire importante du cache KV lors de l'étape de décodage. Pour résoudre ces problèmes, nous présentons LServe, un système efficace qui accélère le service des LLM à longues séquences via une attention hybride et parcimonieuse. Cette méthode unifie différents modèles de parcimonie structurée, adaptés au matériel, pour l'attention de préremplissage et de décodage dans un cadre unique, où les calculs sur les tokens moins importants sont ignorés par blocs. LServe démontre la compatibilité de la parcimonie statique et dynamique dans l'attention des LLM à contexte long. Cette conception permet des accélérations multiplicatives en combinant ces optimisations. Plus précisément, nous convertissons la moitié des têtes d'attention en têtes de streaming quasi gratuites lors des étapes de préremplissage et de décodage. De plus, nous constatons qu'un nombre constant de pages KV est suffisant pour préserver les capacités de contexte long, indépendamment de la longueur du contexte. Nous concevons ensuite une politique de sélection hiérarchique des pages KV qui élagage dynamiquement les pages KV en fonction de la similarité centrée sur la requête. En moyenne, LServe accélère le préremplissage des LLM jusqu'à 2,9x et le décodage de 1,3 à 2,1x par rapport à vLLM, tout en maintenant la précision du contexte long. Le code est disponible à l'adresse https://github.com/mit-han-lab/omniserve.

Mise à l'échelle de la compréhension d'images riches en texte via la génération synthétique de données multimodales guidée par code
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

Feb 20, 2025
Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
132

Le raisonnement sur des images contenant du texte riche, comme des graphiques et des documents, constitue une application cruciale des modèles vision-langage (VLMs). Cependant, les VLMs rencontrent souvent des difficultés dans ces domaines en raison de la rareté de données vision-langage diversifiées et riches en texte. Pour relever ce défi, nous présentons CoSyn, un cadre qui exploite les capacités de codage des grands modèles de langage (LLMs) textuels pour créer automatiquement des données multimodales synthétiques riches en texte. Étant donné un texte d'entrée décrivant un domaine cible (par exemple, "étiquettes de faits nutritionnels"), CoSyn incite un LLM à générer du code (Python, HTML, LaTeX, etc.) pour produire des images synthétiques. Avec le code sous-jacent comme représentation textuelle des images synthétiques, CoSyn peut générer des données de réglage d'instructions de haute qualité, en s'appuyant à nouveau sur un LLM textuel. En utilisant CoSyn, nous avons construit un ensemble de données comprenant 400 000 images et 2,7 millions de lignes de données de réglage d'instructions vision-langage. Des expériences approfondies sur sept benchmarks démontrent que les modèles entraînés sur nos données synthétiques atteignent des performances de pointe parmi les modèles open-source concurrents, y compris Llama 3.2, et surpassent des modèles propriétaires tels que GPT-4V et Gemini 1.5 Flash. De plus, CoSyn peut produire des données de pointage synthétiques, permettant aux VLMs de localiser des informations dans les images d'entrée, ce qui met en évidence son potentiel pour développer des agents multimodaux capables d'agir dans des environnements réels.

De RAG à la mémoire : Apprentissage continu non paramétrique pour les grands modèles de langage
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

Feb 20, 2025
Bernal Jiménez Gutiérrez, Yiheng Shu, Weijian Qi, Sizhe Zhou, Yu Su
132

Notre capacité à acquérir, organiser et exploiter continuellement des connaissances est une caractéristique essentielle de l'intelligence humaine que les systèmes d'IA doivent approcher pour débloquer leur plein potentiel. Face aux défis de l'apprentissage continu avec les grands modèles de langage (LLM), la génération augmentée par récupération (RAG) est devenue la méthode dominante pour introduire de nouvelles informations. Cependant, sa dépendance à la récupération vectorielle entrave sa capacité à imiter la nature dynamique et interconnectée de la mémoire à long terme humaine. Les approches RAG récentes enrichissent les embeddings vectoriels avec diverses structures, comme les graphes de connaissances, pour combler certaines lacunes, notamment la compréhension contextuelle et l'associativité. Pourtant, leur performance sur des tâches de mémoire factuelle plus basiques chute considérablement par rapport au RAG standard. Nous abordons cette détérioration involontaire et proposons HippoRAG 2, un cadre qui surpasse le RAG standard de manière exhaustive sur les tâches de mémoire factuelle, de compréhension contextuelle et de mémoire associative. HippoRAG 2 s'appuie sur l'algorithme Personalized PageRank utilisé dans HippoRAG et l'améliore avec une intégration plus profonde des passages et une utilisation en ligne plus efficace d'un LLM. Cette combinaison rapproche ce système RAG de l'efficacité de la mémoire à long terme humaine, obtenant une amélioration de 7 % sur les tâches de mémoire associative par rapport au modèle d'embedding de pointe, tout en démontrant des capacités supérieures en matière de connaissances factuelles et de mémoire de compréhension contextuelle. Ce travail ouvre la voie à l'apprentissage continu non paramétrique pour les LLM. Notre code et nos données seront publiés sur https://github.com/OSU-NLP-Group/HippoRAG.

RelaCtrl : Contrôle efficace guidé par la pertinence pour les transformateurs de diffusion
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Feb 20, 2025
Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang
122

Le Transformer de Diffusion joue un rôle central dans l'avancement de la génération texte-image et texte-vidéo, principalement grâce à son évolutivité intrinsèque. Cependant, les méthodes existantes de contrôle par Transformer de Diffusion entraînent des surcoûts significatifs en termes de paramètres et de calcul, et souffrent d'une allocation inefficace des ressources en raison de leur incapacité à prendre en compte la pertinence variable des informations de contrôle à travers les différentes couches du Transformer. Pour remédier à cela, nous proposons le cadre de génération contrôlée efficace et optimisée en ressources, RelaCtrl, permettant une intégration efficiente des signaux de contrôle dans le Transformer de Diffusion. Tout d'abord, nous évaluons la pertinence de chaque couche du Transformer de Diffusion par rapport aux informations de contrôle en mesurant le "Score de Pertinence ControlNet", c'est-à-dire l'impact de sauter chaque couche de contrôle sur la qualité de la génération et l'efficacité du contrôle lors de l'inférence. En fonction de la force de cette pertinence, nous ajustons ensuite le positionnement, l'échelle des paramètres et la capacité de modélisation des couches de contrôle pour réduire les paramètres inutiles et les calculs redondants. De plus, pour améliorer encore l'efficacité, nous remplaçons l'auto-attention et le FFN dans le bloc de copie couramment utilisé par le Two-Dimensional Shuffle Mixer (TDSM) soigneusement conçu, permettant une mise en œuvre efficace à la fois du mélangeur de tokens et du mélangeur de canaux. Les résultats expérimentaux qualitatifs et quantitatifs démontrent que notre approche atteint des performances supérieures avec seulement 15 % des paramètres et de la complexité de calcul par rapport à PixArt-delta. Plus d'exemples sont disponibles sur https://relactrl.github.io/RelaCtrl/.

NAVIG : Analyse guidée par le langage naturel avec des modèles vision-langage pour la géolocalisation d'images
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Feb 20, 2025
Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
112

La géolocalisation d'images consiste à prédire l'emplacement spécifique d'une image et nécessite un raisonnement complexe intégrant des contextes visuels, géographiques et culturels. Bien que les modèles vision-langage (VLMs) actuels offrent la meilleure précision pour cette tâche, il existe un manque de jeux de données et de modèles de haute qualité pour le raisonnement analytique. Nous créons d'abord NaviClues, un jeu de données de qualité supérieure dérivé de GeoGuessr, un jeu de géographie populaire, afin de fournir des exemples de raisonnement expert à partir du langage. En utilisant ce jeu de données, nous présentons Navig, un cadre complet de géolocalisation d'images intégrant des informations globales et fines sur les images. En raisonnant avec le langage, Navig réduit l'erreur de distance moyenne de 14 % par rapport aux modèles de pointe précédents, tout en nécessitant moins de 1000 échantillons d'entraînement. Notre jeu de données et notre code sont disponibles à l'adresse https://github.com/SparrowZheyuan18/Navig/.

CLIPPER : La compression permet la génération de données synthétiques à contexte long
CLIPPER: Compression enables long-context synthetic data generation

Feb 20, 2025
Chau Minh Pham, Yapei Chang, Mohit Iyyer
102

Les développeurs de LLM dépendent de plus en plus de données synthétiques, mais la génération de données de haute qualité pour des tâches complexes de raisonnement en contexte long reste un défi. Nous présentons CLIPPER, une approche basée sur la compression pour générer des données synthétiques adaptées à la vérification de revendications narratives - une tâche qui nécessite un raisonnement sur un livre pour vérifier une revendication donnée. Au lieu de générer directement des revendications à partir du texte brut du livre, ce qui produit des revendications truffées d'artefacts, CLIPPER compresse d'abord le livre en résumés de chapitres et en résumés du livre, puis utilise ces représentations intermédiaires pour générer des revendications complexes et les chaînes de raisonnement correspondantes. Par rapport aux approches naïves, CLIPPER produit des revendications plus valides, fondées et complexes. En utilisant CLIPPER, nous construisons un ensemble de données de 19K revendications synthétiques de livres, associées à leurs textes sources et à leurs chaînes de raisonnement, et l'utilisons pour affiner trois modèles à poids ouverts. Notre meilleur modèle obtient des résultats révolutionnaires en vérification de revendications narratives (passant de 28% à 76% de précision sur notre ensemble de test) et établit un nouvel état de l'art pour les modèles de moins de 10B sur le classement NoCha. Une analyse plus approfondie montre que nos modèles génèrent des chaînes de raisonnement plus détaillées et fondées, tout en améliorant les performances sur d'autres tâches de compréhension narrative (par exemple, NarrativeQA).

Amélioration de la cognition et de l'explicabilité des modèles de fondation multimodaux grâce à des données auto-synthétisées
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Feb 19, 2025
Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
83

Les grands modèles multimodaux (LMMs) ont démontré des capacités impressionnantes dans un large éventail de tâches visuelles. Cependant, ils éprouvent souvent des difficultés avec le raisonnement visuel fin, échouant à identifier des objectifs spécifiques à un domaine et à fournir des explications justifiables pour leurs prédictions. Pour remédier à cela, nous proposons un nouveau cadre de rejet visuel par échantillonnage afin d'améliorer la cognition et l'explicabilité des LMMs en utilisant des données auto-synthétisées. Plus précisément, l'affinage visuel nécessite des images, des requêtes et des réponses cibles. Notre approche commence par la synthèse de réponses interprétables qui incluent des caractéristiques visuelles vérifiables par l'homme. Ces caractéristiques sont basées sur des concepts définis par des experts, soigneusement sélectionnés en fonction de leur alignement avec le contenu de l'image. Après chaque cycle d'affinage, nous appliquons un mécanisme de filtrage sans modèle de récompense pour sélectionner les réponses interprétables de la plus haute qualité pour le prochain cycle d'ajustement. Ce processus itératif de synthèse de données et d'affinage améliore progressivement la capacité du modèle à générer des explications précises et raisonnables. Les résultats expérimentaux démontrent l'efficacité de notre méthode pour améliorer à la fois la précision et l'explicabilité des tâches de classification visuelle spécialisées.

Multimodal RewardBench : Évaluation holistique des modèles de récompense pour les modèles de vision et langage
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

Feb 20, 2025
Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
72

Les modèles de récompense jouent un rôle essentiel dans l'entraînement des modèles vision-langage (VLMs) en évaluant la qualité des sorties pour permettre un alignement avec les préférences humaines. Malgré leur importance, la communauté de recherche manque de benchmarks ouverts et complets pour évaluer les modèles de récompense multimodaux dans les VLMs. Pour combler cette lacune, nous introduisons Multimodal RewardBench, un benchmark annoté par des experts couvrant six domaines : exactitude générale, préférence, connaissances, raisonnement, sécurité et question-réponse visuelle. Notre ensemble de données comprend 5 211 triplets annotés (prompt, réponse choisie, réponse rejetée) collectés à partir de divers VLMs. En évaluant une gamme de juges VLMs, nous constatons que même les modèles les plus performants, Gemini 1.5 Pro et Claude 3.5 Sonnet, n'atteignent que 72 % de précision globale. Notamment, la plupart des modèles rencontrent des difficultés dans les domaines du raisonnement et de la sécurité. Ces résultats suggèrent que Multimodal RewardBench offre un banc d'essai stimulant pour faire progresser le développement des modèles de récompense à travers plusieurs domaines. Nous mettons à disposition le benchmark à l'adresse suivante : https://github.com/facebookresearch/multimodal_rewardbench.

Génération de jeux de données Skyline pour les modèles de science des données
Generating Skyline Datasets for Data Science Models

Feb 16, 2025
Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
72

La préparation de jeux de données de haute qualité, nécessaires à divers modèles d'IA et d'apprentissage automatique basés sur les données, est devenue une tâche fondamentale dans l'analyse pilotée par les données. Les méthodes conventionnelles de découverte de données intègrent généralement les jeux de données selon une seule mesure de qualité prédéfinie, ce qui peut introduire des biais pour les tâches en aval. Cet article présente MODis, un cadre qui découvre des jeux de données en optimisant plusieurs mesures de performance définies par l'utilisateur. Étant donné un ensemble de sources de données et un modèle, MODis sélectionne et intègre les sources de données en un jeu de données skyline, sur lequel le modèle est censé atteindre la performance souhaitée pour toutes les mesures de performance. Nous formulons MODis comme un transducteur d'états finis multi-objectifs et dérivons trois algorithmes réalisables pour générer des jeux de données skyline. Notre premier algorithme adopte une stratégie de "réduction à partir de l'universel", qui commence par un schéma universel et élimine itérativement les données peu prometteuses. Notre deuxième algorithme réduit davantage les coûts avec une stratégie bidirectionnelle qui alterne augmentation et réduction des données. Nous introduisons également un algorithme de diversification pour atténuer les biais dans les jeux de données skyline. Nous vérifions expérimentalement l'efficacité et l'efficience de nos algorithmes de découverte de données skyline et démontrons leurs applications dans l'optimisation des pipelines de science des données.

Gestion de profils utilisateurs basée sur LLM pour les systèmes de recommandation
LLM-based User Profile Management for Recommender System

Feb 20, 2025
Seunghwan Bang, Hwanjun Song
62

L'avancée rapide des modèles de langage de grande taille (LLMs) a ouvert de nouvelles opportunités dans les systèmes de recommandation en permettant des recommandations zero-shot sans entraînement conventionnel. Malgré leur potentiel, la plupart des travaux existants s'appuient uniquement sur les historiques d'achats des utilisateurs, laissant une marge d'amélioration significative en intégrant des données textuelles générées par les utilisateurs, telles que les avis et les descriptions de produits. Pour combler cette lacune, nous proposons PURE, un nouveau cadre de recommandation basé sur les LLMs qui construit et maintient des profils d'utilisateurs évolutifs en extrayant et en résumant systématiquement les informations clés des avis des utilisateurs. PURE se compose de trois éléments principaux : un Extracteur d'Avis pour identifier les préférences des utilisateurs et les caractéristiques clés des produits, un Mise à Jour de Profil pour affiner et mettre à jour les profils des utilisateurs, et un Recommandeur pour générer des recommandations personnalisées en utilisant le profil le plus récent. Pour évaluer PURE, nous introduisons une tâche de recommandation séquentielle continue qui reflète des scénarios réels en ajoutant des avis au fil du temps et en mettant à jour les prédictions de manière incrémentale. Nos résultats expérimentaux sur les ensembles de données d'Amazon montrent que PURE surpasse les méthodes existantes basées sur les LLMs, exploitant efficacement les informations à long terme des utilisateurs tout en gérant les limitations de tokens.

Génération de molécules π-fonctionnelles avec STGG+ et apprentissage actif
Generating π-Functional Molecules Using STGG+ with Active Learning

Feb 20, 2025
Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
42

La génération de nouvelles molécules présentant des propriétés hors distribution constitue un défi majeur dans la découverte moléculaire. Bien que les méthodes d'apprentissage supervisé produisent des molécules de haute qualité similaires à celles d'un jeu de données, elles peinent à généraliser aux propriétés hors distribution. L'apprentissage par renforcement peut explorer de nouveaux espaces chimiques, mais conduit souvent à du "hacking de récompense" et génère des molécules non synthétisables. Dans ce travail, nous abordons ce problème en intégrant une méthode d'apprentissage supervisé de pointe, STGG+, dans une boucle d'apprentissage actif. Notre approche génère, évalue et affine itérativement STGG+ pour étendre continuellement ses connaissances. Nous désignons cette approche par STGG+AL. Nous appliquons STGG+AL à la conception de matériaux organiques pi-fonctionnels, en particulier à deux tâches complexes : 1) générer des molécules hautement absorbantes caractérisées par une force d'oscillateur élevée et 2) concevoir des molécules absorbantes avec une force d'oscillateur raisonnable dans la gamme du proche infrarouge (NIR). Les molécules générées sont validées et rationalisées in silico par la théorie de la fonctionnelle de la densité dépendante du temps. Nos résultats démontrent que notre méthode est très efficace pour générer de nouvelles molécules avec une force d'oscillateur élevée, contrairement aux méthodes existantes telles que l'apprentissage par renforcement (RL). Nous mettons à disposition en open source notre code d'apprentissage actif ainsi que notre jeu de données Conjugated-xTB contenant 2,9 millions de molécules pi-conjuguées et la fonction d'approximation de la force d'oscillateur et de la longueur d'onde d'absorption (basée sur sTDA-xTB).

Optimisation Contrastive Visuelle Symétrique : Alignement des Modèles Vision-Langage avec un Nombre Minimal d'Images Contrastives
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Feb 19, 2025
Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
42

Des études récentes ont montré que les grands modèles vision-langage (VLMs) ont tendance à négliger le contenu des images et à trop s'appuyer sur les a priori des modèles de langage, ce qui entraîne des erreurs dans les tâches visuellement ancrées et des hallucinations. Nous émettons l'hypothèse que ce problème survient parce que les VLMs existants ne sont pas explicitement entraînés à générer des textes qui s'appuient de manière précise sur des détails fins des images. Pour améliorer le retour visuel lors de l'entraînement des VLMs, nous proposons S-VCO (Symmetrical Visual Contrastive Optimization), un nouvel objectif de fine-tuning qui guide le modèle pour capturer des détails visuels importants et les aligner avec les tokens de texte correspondants. Pour faciliter davantage cet alignement détaillé, nous introduisons MVC, un ensemble de données image-texte appariées construit en filtrant et en augmentant automatiquement des données visuelles contrefactuelles afin de confronter le modèle à des cas contrastifs difficiles impliquant des Contrastes Visuels Minimaux. Les expériences montrent que notre méthode améliore de manière constante les performances des VLMs sur divers benchmarks couvrant différentes capacités et domaines, atteignant jusqu'à une réduction de 22 % des hallucinations et des gains significatifs dans les tâches centrées sur la vision et les tâches générales. Notamment, ces améliorations deviennent de plus en plus prononcées dans les benchmarks ayant une plus grande dépendance visuelle. En résumé, S-VCO offre une amélioration significative des performances des VLMs dans les tâches dépendantes de la vision tout en conservant, voire en améliorant, les capacités générales du modèle. Nous mettons notre code en open source à l'adresse https://s-vco.github.io/

Géolocalisation avec des Données Réelles de Jeu Humain : Un Jeu de Données à Grande Échelle et un Cadre de Raisonnement Similaire à l'Humain
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

Feb 19, 2025
Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
42

La géolocalisation, qui consiste à identifier l'emplacement d'une image, nécessite un raisonnement complexe et est cruciale pour la navigation, la surveillance et la préservation culturelle. Cependant, les méthodes actuelles produisent souvent des localisations approximatives, imprécises et peu interprétables. Un défi majeur réside dans la qualité et l'échelle des ensembles de données de géolocalisation existants. Ces ensembles de données sont généralement de petite taille et construits automatiquement, ce qui entraîne des données bruyantes et une difficulté de tâche incohérente, avec des images qui révèlent trop facilement les réponses ou manquent d'indices suffisants pour une inférence fiable. Pour relever ces défis, nous introduisons un cadre complet de géolocalisation avec trois composants clés : GeoComp, un ensemble de données à grande échelle ; GeoCoT, une nouvelle méthode de raisonnement ; et GeoEval, une métrique d'évaluation, conçus ensemble pour répondre aux défis critiques et faire progresser la recherche en géolocalisation. Au cœur de ce cadre se trouve GeoComp (Geolocation Competition Dataset), un ensemble de données à grande échelle collecté à partir d'une plateforme de jeu de géolocalisation impliquant 740 000 utilisateurs sur deux ans. Il comprend 25 millions d'entrées de métadonnées et 3 millions d'emplacements géolocalisés couvrant une grande partie du globe, chaque emplacement étant annoté des milliers à des dizaines de milliers de fois par des utilisateurs humains. L'ensemble de données offre des niveaux de difficulté variés pour une analyse détaillée et met en lumière les lacunes clés des modèles actuels. S'appuyant sur cet ensemble de données, nous proposons Geographical Chain-of-Thought (GeoCoT), un nouveau cadre de raisonnement en plusieurs étapes conçu pour améliorer les capacités de raisonnement des grands modèles de vision (LVMs) dans les tâches de géolocalisation. GeoCoT améliore les performances en intégrant des indices contextuels et spatiaux à travers un processus en plusieurs étapes qui imite le raisonnement humain de géolocalisation. Enfin, en utilisant la métrique GeoEval, nous démontrons que GeoCoT augmente significativement la précision de la géolocalisation jusqu'à 25 % tout en améliorant l'interprétabilité.

Attribution des preuves non structurées pour la synthèse ciblée sur des requêtes dans des contextes longs
Unstructured Evidence Attribution for Long Context Query Focused Summarization

Feb 20, 2025
Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
32

Les grands modèles de langage (LLMs) sont capables de générer des résumés cohérents à partir de contextes très longs en réponse à une requête utilisateur. L'extraction et la citation appropriée de segments de preuve pourraient contribuer à améliorer la transparence et la fiabilité de ces résumés. Parallèlement, les LLMs souffrent de biais positionnels en termes de compréhension et d'attention portée à certaines informations, ce qui pourrait affecter la citation des preuves. Alors que les travaux précédents se sont concentrés sur la citation de preuves avec des niveaux de granularité prédéfinis (par exemple, phrase, paragraphe, document, etc.), nous proposons la tâche de résumé centré sur une requête dans un contexte long avec citation de preuves non structurées. Nous montrons comment les systèmes existants peinent à générer et à citer correctement des preuves non structurées à partir de leur contexte, et que les preuves ont tendance à être "perdues au milieu". Pour aider à atténuer ce problème, nous créons le jeu de données Summaries with Unstructured Evidence Text (SUnsET), un ensemble de données synthétiques généré à l'aide d'un pipeline novateur indépendant du domaine, qui peut être utilisé comme supervision pour adapter les LLMs à cette tâche. Nous démontrons, à travers 5 LLMs de tailles différentes et 4 jeux de données avec des types et des longueurs de documents variés, que les LLMs adaptés avec les données de SUnsET génèrent des preuves plus pertinentes et factuellement cohérentes que leurs modèles de base, extraient des preuves à partir d'emplacements plus diversifiés dans leur contexte, et peuvent produire des résumés plus pertinents et cohérents.

Dans quelle mesure les LLM hallucinent-ils à travers les langues ? Une estimation multilingue des hallucinations des LLM en conditions réelles
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

Feb 18, 2025
Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
32

À l'ère de la désinformation, l'hallucination -- la tendance des grands modèles de langage (LLM) à générer des réponses non factuelles ou infidèles -- représente le principal risque pour leur utilité globale. Bien que les LLM deviennent de plus en plus multilingues, la grande majorité des recherches sur la détection et la quantification des hallucinations des LLM sont (a) centrées sur l'anglais et (b) se concentrent sur la traduction automatique (MT) et la synthèse, des tâches moins courantes « dans la nature » que la recherche ouverte d'informations. En revanche, nous visons à quantifier l'étendue des hallucinations des LLM à travers les langues dans le cadre de la réponse à des questions longues et intensives en connaissances. Pour ce faire, nous entraînons un modèle multilingue de détection des hallucinations et menons une étude à grande échelle sur 30 langues et 6 familles de LLM open-source. Nous partons d'un ensemble de données de détection des hallucinations en anglais et nous appuyons sur la MT pour générer des données d'entraînement (bruitées) dans d'autres langues. Nous annotons également manuellement des données de référence pour cinq langues à ressources élevées ; nous démontrons ensuite, pour ces langues, que les estimations des taux d'hallucination sont similaires entre les ensembles de test argentés (générés par LLM) et les ensembles de test de référence, validant ainsi l'utilisation de données argentées pour estimer les taux d'hallucination pour d'autres langues. Pour l'estimation finale des taux, nous construisons un ensemble de données de questions-réponses intensives en connaissances pour 30 langues avec des invites générées par LLM et des articles de Wikipédia comme références. Nous constatons que, bien que les LLM génèrent des réponses plus longues avec plus de tokens hallucinés pour les langues à ressources élevées, il n'y a pas de corrélation entre les taux d'hallucination normalisés par la longueur des langues et leur représentation numérique. De plus, nous constatons que les LLM plus petits présentent des taux d'hallucination plus élevés que les modèles plus grands.

Feb 20
Feb 21
Feb 24