ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Guide-and-Rescale : Mécanisme d'auto-guidage pour une édition efficace d'images réelles sans réglage
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Sep 2
ByVadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
96
2

Malgré les récents progrès des modèles génératifs à grande échelle de texte à image, la manipulation d'images réelles avec ces modèles reste un problème complexe. Les principales limites des méthodes d'édition existantes sont qu'elles échouent soit à maintenir une qualité constante pour une large gamme de modifications d'images, soit nécessitent un réglage fastidieux des hyperparamètres ou un ajustement fin du modèle de diffusion pour préserver l'apparence spécifique de l'image d'entrée. Nous proposons une nouvelle approche basée sur un processus d'échantillonnage de diffusion modifié via un mécanisme de guidage. Dans ce travail, nous explorons la technique d'auto-guidage pour préserver la structure globale de l'image d'entrée ainsi que l'apparence des régions locales qui ne doivent pas être modifiées. En particulier, nous introduisons explicitement des fonctions d'énergie préservant la disposition, visant à sauvegarder les structures locales et globales de l'image source. De plus, nous proposons un mécanisme de rééchelonnement du bruit permettant de préserver la distribution du bruit en équilibrant les normes du guidage sans classifieur et de nos guides proposés pendant la génération. Une telle approche de guidage ne nécessite pas d'ajustement fin du modèle de diffusion ni de processus d'inversion exact. En conséquence, la méthode proposée offre un mécanisme d'édition rapide et de haute qualité. Dans nos expériences, nous montrons, grâce à une évaluation humaine et à une analyse quantitative, que la méthode proposée permet de produire des modifications souhaitées, préférées par les humains, et atteint également un meilleur compromis entre la qualité de l'édition et la préservation de l'image originale. Notre code est disponible à l'adresse https://github.com/FusionBrainLab/Guide-and-Rescale.

2

Têtes d'Attention dans les Grands Modèles de Langage : Une Étude
Attention Heads of Large Language Models: A Survey

Sep 5
ByZifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li
92
5

Depuis l'avènement de ChatGPT, les grands modèles de langage (LLM) excellent dans diverses tâches mais restent largement des systèmes boîte noire. Par conséquent, leur développement repose essentiellement sur des approches fondées sur les données, limitant l'amélioration des performances par des modifications de l'architecture interne et des chemins de raisonnement. En conséquence, de nombreux chercheurs ont commencé à explorer les mécanismes internes potentiels des LLM, visant à identifier l'origine de leurs goulots d'étranglement raisonnés, la plupart des études se concentrant sur les têtes d'attention. Notre étude vise à éclairer les processus de raisonnement interne des LLM en se concentrant sur l'interprétabilité et les mécanismes sous-jacents des têtes d'attention. Nous distillons d'abord le processus de pensée humain en un cadre à quatre étapes : Rappel des Connaissances, Identification Contextuelle, Raisonnement Latent et Préparation de l'Expression. En utilisant ce cadre, nous passons systématiquement en revue les recherches existantes pour identifier et catégoriser les fonctions de têtes d'attention spécifiques. De plus, nous résumons les méthodologies expérimentales utilisées pour découvrir ces têtes spéciales, les divisant en deux catégories : méthodes sans modélisation et méthodes nécessitant une modélisation. Nous décrivons également les méthodes d'évaluation pertinentes et les benchmarks. Enfin, nous discutons des limites de la recherche actuelle et proposons plusieurs orientations futures potentielles. Notre bibliographie est open-source à l'adresse https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.

3

FuzzCoder : Test de fuzzing au niveau des octets via un modèle de langage de grande taille
FuzzCoder: Byte-level Fuzzing Test via Large Language Model

Sep 3
ByLiqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li
45
3

Le fuzzing est une importante technique d'analyse dynamique de programmes conçue pour détecter les vulnérabilités dans les logiciels complexes. Il consiste à soumettre un programme cible à des entrées malveillantes élaborées afin de provoquer des plantages, des débordements de mémoire tampon, des erreurs mémoire et des exceptions. La conception efficace d'entrées malveillantes constitue un problème ouvert difficile, et les meilleures approches appliquent généralement des mutations aléatoires uniformes à des entrées valides préexistantes. Dans ce travail, nous proposons d'adopter des grands modèles de langage spécialisés (FuzzCoder) pour apprendre les motifs dans les fichiers d'entrée à partir d'attaques réussies afin de guider les explorations futures de fuzzing. Plus précisément, nous développons un cadre permettant d'exploiter les LLM de code pour guider le processus de mutation des entrées lors du fuzzing. Le processus de mutation est formulé comme un modèle séquence-à-séquence, où le LLM reçoit une séquence d'octets puis produit la séquence d'octets mutée. FuzzCoder est spécialisé sur un jeu de données d'instructions créé (Fuzz-Instruct), où l'historique de fuzzing réussi est collecté à partir d'un outil de fuzzing heuristique. FuzzCoder peut prédire les emplacements de mutation et les stratégies de localisation dans les fichiers d'entrée pour déclencher des comportements anormaux du programme. Les résultats expérimentaux montrent que FuzzCoder, basé sur AFL (American Fuzzy Lop), obtient des améliorations significatives en termes de proportion effective de mutation (EPM) et de nombre de plantages (NC) pour divers formats d'entrée, notamment ELF, JPG, MP3 et XML.

4

De MOOC à MAIC : Repenser l'enseignement et l'apprentissage en ligne grâce aux agents pilotés par les LLM
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents

Sep 5
ByJifan Yu, Zheyuan Zhang, Daniel Zhang-li, Shangqing Tu, Zhanxin Hao, Rui Miao Li, Haoxuan Li, Yuanchun Wang, Hanming Li, Linlu Gong, Jie Cao, Jiayin Lin, Jinchang Zhou, Fei Qin, Haohua Wang, Jianxiao Jiang, Lijun Deng, Yisi Zhan, Chaojun Xiao, Xusheng Dai, Xuan Yan, Nianyi Lin, Nan Zhang, Ruixin Ni, Yang Dang, Lei Hou, Yu Zhang, Xu Han, Manli Li, Juanzi Li, Zhiyuan Liu, Huiqin Liu, Maosong Sun
29
3

Dès les premières expériences d'enseignement en ligne, où les cours étaient mis en ligne sur des plateformes accessibles et partagées, cette forme d'élargissement de la diffusion du savoir humain pour toucher un public plus large a suscité des débats approfondis et une adoption généralisée. Conscient que l'apprentissage personnalisé recèle encore un potentiel d'amélioration significatif, de nouvelles technologies d'IA ont été continuellement intégrées à ce format d'apprentissage, donnant lieu à diverses applications éducatives basées sur l'IA, telles que la recommandation pédagogique et le tutorat intelligent. L'émergence de l'intelligence dans les grands modèles de langage (LLM) a permis de construire ces améliorations éducatives sur un modèle fondamental unifié, autorisant une intégration plus profonde. Dans ce contexte, nous proposons MAIC (Massive AI-empowered Course), une nouvelle forme d'enseignement en ligne qui exploite les systèmes multi-agents pilotés par des LLM pour construire une classe augmentée par l'IA, équilibrant extensibilité et adaptabilité. Au-delà de l'exploration du cadre conceptuel et des innovations techniques, nous menons des expériences préliminaires à l'Université de Tsinghua, l'une des principales universités chinoises. En nous appuyant sur plus de 100 000 enregistrements d'apprentissage provenant de plus de 500 étudiants, nous obtenons une série d'observations précieuses et des analyses initiales. Ce projet continuera d'évoluer, visant in fine à établir une plateforme ouverte complète qui soutienne et unifie la recherche, la technologie et les applications pour explorer les possibilités de l'enseignement en ligne à l'ère de l'IA des grands modèles. Nous envisageons cette plateforme comme un centre de collaboration, rassemblant éducateurs, chercheurs et innovateurs pour explorer collectivement l'avenir de l'enseignement en ligne piloté par l'IA.

5

Géométrie par Diffusion d'Images : Génération rapide et économe en données de texte vers 3D avec une représentation surfacique basée sur l'image
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

Sep 5
BySlava Elizarov, Ciara Rowles, Simon Donné
27
3

La génération d'objets 3D de haute qualité à partir de descriptions textuelles reste un problème difficile en raison du coût computationnel, de la rareté des données 3D et de la complexité des représentations 3D. Nous présentons GIMDiffusion (Geometry Image Diffusion), un nouveau modèle Texte-vers-3D qui utilise des images de géométrie pour représenter efficacement les formes 3D à l'aide d'images 2D, évitant ainsi le recours à des architectures complexes dédiées au 3D. En intégrant un mécanisme de Contrôle Collaboratif, nous exploitons les riches connaissances a priori des modèles existants Texte-vers-Image, tels que Stable Diffusion. Cela permet une forte généralisation même avec peu de données d'entraînement 3D (nous autorisant à n'utiliser que des données de haute qualité) tout en conservant la compatibilité avec des techniques de guidage comme IPAdapter. En résumé, GIMDiffusion permet la génération d'assets 3D à des vitesses comparables aux modèles Texte-vers-Image actuels. Les objets générés se composent de parties distinctes et sémantiquement significatives et incluent des structures internes, améliorant ainsi à la fois leur utilisabilité et leur polyvalence.

6

mPLUG-DocOwl2 : Compression haute résolution pour la compréhension de documents multipages sans OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

Sep 5
ByAnwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
26
4

Les modèles de langage multimodaux de grande taille (MLLM) ont obtenu des performances prometteuses en compréhension de documents sans OCR en augmentant la résolution supportée des images documentaires. Cependant, cela se fait au prix de la génération de milliers de tokens visuels pour une seule image documentaire, entraînant une consommation excessive de mémoire GPU et des temps d'inférence plus lents, particulièrement dans la compréhension de documents multi-pages. Dans ce travail, pour relever ces défis, nous proposons un module DocCompressor haute résolution permettant de compresser chaque image documentaire haute résolution en 324 tokens, guidé par des caractéristiques visuelles globales basse résolution. Avec ce module de compression, pour renforcer la capacité de compréhension des documents multi-pages et équilibrer à la fois l'efficacité token et les performances en question-réponse, nous développons DocOwl2 selon un cadre d'entraînement en trois étapes : pré-entraînement sur image unique, pré-entraînement continu sur images multiples, et affinage multi-tâches. DocOwl2 établit un nouvel état de l'art sur les benchmarks de compréhension de documents multi-pages et réduit la latence du premier token de plus de 50%, démontrant des capacités avancées en question-réponse multi-pages, en explication avec pages de preuve et en compréhension structurelle trans-pages. De plus, comparé aux MLLM mono-image entraînés sur des données similaires, notre DocOwl2 atteint des performances comparables en compréhension de page unique avec moins de 20% des tokens visuels. Nos codes, modèles et données sont disponibles publiquement à l'adresse https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.

7

CDM : une métrique fiable pour une évaluation équitable et précise de la reconnaissance de formules
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

Sep 5
ByBin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He
19
3

La reconnaissance de formules présente des défis considérables en raison de la structure complexe et de la notation variée des expressions mathématiques. Malgré les progrès continus des modèles de reconnaissance de formules, les métriques d'évaluation employées par ces modèles, telles que BLEU et la Distance d'Édition, présentent encore des limitations notables. Elles négligent le fait qu'une même formule possède des représentations diverses et est très sensible à la distribution des données d'entraînement, engendrant ainsi une injustice dans l'évaluation de la reconnaissance de formules. Pour pallier ce problème, nous proposons une métrique d'Appariement par Détection de Caractères (CDM), garantissant l'objectivité de l'évaluation en concevant un score métrique au niveau de l'image plutôt qu'au niveau du LaTeX. Concrètement, CDM convertit à la fois le LaTeX prédit par le modèle et les formules LaTeX de référence en formules au format image, puis utilise des techniques d'extraction de caractéristiques visuelles et de localisation pour un appariement précis au niveau des caractères, en intégrant l'information de position spatiale. Cette méthode spatialement consciente et basée sur l'appariement des caractères offre une évaluation plus précise et équitable comparée aux métriques BLEU et Distance d'Édition antérieures, qui reposent uniquement sur un appariement textuel des caractères. Expérimentalement, nous avons évalué divers modèles de reconnaissance de formules en utilisant les métriques CDM, BLEU et ExpRate. Leurs résultats démontrent que le CDM s'aligne plus étroitement avec les standards d'évaluation humaine et permet une comparaison plus juste entre différents modèles en éliminant les écarts causés par les représentations variées des formules.

8

WildVis : Visualiseur Open Source pour les Journaux de Discussion à l'Échelle du Million en Contexte Réel
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

Sep 5
ByYuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi
19
3

La disponibilité croissante de données conversationnelles réelles offre des opportunités passionnantes aux chercheurs pour étudier les interactions utilisateur-chatbot. Cependant, le volume considérable de ces données rend l'examen manuel des conversations individuelles impraticable. Pour surmonter cette difficulté, nous présentons WildVis, un outil interactif permettant une analyse conversationnelle rapide, polyvalente et à grande échelle. WildVis offre des capacités de recherche et de visualisation dans les espaces textuels et d'embedding basées sur une liste de critères. Pour gérer des jeux de données à l'échelle du million, nous avons mis en œuvre des optimisations incluant la construction d'index de recherche, le précalcul et la compression des embeddings, et la mise en cache afin de garantir des interactions utilisateur réactives en quelques secondes. Nous démontrons l'utilité de WildVis à travers trois études de cas : faciliter la recherche sur les utilisations abusives des chatbots, visualiser et comparer les distributions thématiques entre jeux de données, et caractériser les patterns conversationnels spécifiques aux utilisateurs. WildVis est open-source et conçu pour être extensible, prenant en charge des jeux de données supplémentaires ainsi que des fonctionnalités de recherche et de visualisation personnalisées.

9

Développement d'Agents Mathématiques par Apprentissage Itératif des Préférences sur Plusieurs Tours
Building Math Agents with Multi-Turn Iterative Preference Learning

Sep 4
ByWei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu
16
2

Des études récentes ont montré que les capacités de résolution de problèmes mathématiques des grands modèles de langage (LLM) peuvent être améliorées en intégrant des outils externes, tels que des interpréteurs de code, et en employant un raisonnement en chaîne de pensée (CoT) multi-tours. Alors que les méthodes actuelles se concentrent sur la génération de données synthétiques et le fine-tuning supervisé (SFT), cet article étudie l'approche complémentaire de l'apprentissage par préférences directes pour améliorer davantage les performances du modèle. Cependant, les algorithmes existants d'apprentissage par préférences directes sont conçus à l'origine pour la tâche de dialogue en un seul tour et ne répondent pas pleinement aux complexités du raisonnement multi-tours et de l'intégration d'outils externes requis pour les tâches de raisonnement mathématique intégrant des outils. Pour combler cette lacune, nous introduisons un cadre d'apprentissage par préférences directes multi-tours, adapté à ce contexte, qui exploite les retours des interpréteurs de code et optimise les préférences au niveau de la trajectoire. Ce cadre inclut le DPO multi-tours et le KTO multi-tours comme implémentations spécifiques. L'efficacité de notre cadre est validée par l'entraînement de divers modèles de langage à l'aide d'un ensemble d'invites augmenté provenant des jeux de données GSM8K et MATH. Nos résultats démontrent des améliorations substantielles : les performances d'un modèle Gemma-1.1-it-7B préalablement affiné par SFT sont passées de 77,5 % à 83,9 % sur GSM8K et de 46,1 % à 51,2 % sur MATH. De même, un modèle Gemma-2-it-9B est passé de 84,1 % à 86,3 % sur GSM8K et de 51,0 % à 54,5 % sur MATH.

10

Bulletins de performance : Évaluation qualitative des modèles linguistiques à l'aide de résumés en langage naturel
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

Sep 1
ByBlair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang
12
2

Le développement rapide et la nature dynamique des grands modèles de langage (LLM) rendent difficile pour les benchmarks quantitatifs conventionnels d'évaluer avec précision leurs capacités. Nous proposons les fiches d'évaluation, qui sont des résumés en langage naturel et interprétables par l'homme du comportement des modèles pour des compétences ou des sujets spécifiques. Nous développons un cadre pour évaluer ces fiches selon trois critères : la spécificité (capacité à distinguer les modèles), la fidélité (représentation précise des capacités du modèle) et l'interprétabilité (clarté et pertinence pour les humains). Nous proposons également un algorithme itératif pour générer des fiches d'évaluation sans supervision humaine et explorons son efficacité en procédant à l'ablation de divers choix de conception. Grâce à des expérimentations sur des LLM populaires, nous démontrons que les fiches d'évaluation fournissent des informations au-delà des benchmarks traditionnels et peuvent contribuer à répondre au besoin d'une évaluation plus interprétable et holistique des LLM.

11

FrozenSeg : Harmoniser des modèles de fondation figés pour la segmentation en vocabulaire ouvert
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Sep 5
ByXi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
12
2

La segmentation à vocabulaire ouvert présente des défis significatifs, car elle nécessite de segmenter et de reconnaître des objets dans un ensemble ouvert de catégories, et ce dans des environnements non contraints. S'appuyant sur le succès de modèles de fondation vision-langage (ViL) puissants comme CLIP, des efforts récents ont cherché à exploiter leurs capacités de généralisation zero-shot pour reconnaître des catégories non vues. Malgré des améliorations de performances notables, ces modèles rencontrent toujours le problème critique de générer des propositions de masques précises pour des catégories et des scénarios non vus, ce qui se solde finalement par des performances de segmentation inférieures. Pour relever ce défi, nous présentons une nouvelle approche, FrozenSeg, conçue pour intégrer de manière synergique les connaissances spatiales d'un modèle de fondation de localisation (par exemple, SAM) et les connaissances sémantiques extraites d'un modèle ViL (par exemple, CLIP), dans un cadre synergique. En prenant l'encodeur visuel du modèle ViL comme backbone de caractéristiques, nous injectons les caractéristiques spatialement conscientes dans les requêtes entraînables et les caractéristiques CLIP au sein du décodeur transformer. De plus, nous concevons une stratégie d'ensemble de propositions de masques pour améliorer davantage le taux de rappel et la qualité des masques. Pour exploiter pleinement les connaissances pré-entraînées tout en minimisant la surcharge d'entraînement, nous gelons les deux modèles de fondation, en concentrant les efforts d'optimisation uniquement sur un décodeur transformer léger pour la génération de propositions de masques - le goulot d'étranglement des performances. Des expériences approfondies démontrent que FrozenSeg améliore les résultats de l'état de l'art sur divers benchmarks de segmentation, étant entraîné exclusivement sur les données panoptiques de COCO et testé de manière zero-shot. Le code est disponible à l'adresse https://github.com/chenxi52/FrozenSeg.

12

Contexte statique des modèles de langage de grande taille avec des trous typés
Statically Contextualizing Large Language Models with Typed Holes

Sep 2
ByAndrew Blinn, Xiang Li, June Hyung Kim, Cyrus Omar
4
2

Les grands modèles de langage (LLM) ont remodelé le paysage de la synthèse de programmes. Cependant, les systèmes contemporains de complétion de code basés sur les LLM produisent souvent du code erroné car ils manquent de contexte approprié, particulièrement lorsqu'ils travaillent avec des définitions absentes des données d'entraînement ou éloignées du curseur. Cet article démontre qu'une intégration étroite avec la structure de typage et de liaison d'un langage, telle qu'exposée par son serveur de langage, peut résoudre ce problème de contextualisation de manière efficace en tokens. En bref, nous soutenons que les IA ont aussi besoin d'IDE ! Nous intégrons notamment la génération de code par LLM dans l'environnement d'esquisse de programmes en direct Hazel. Le serveur de langage Hazel identifie le type et le contexte de typage du trou à combler, même en présence d'erreurs, garantissant qu'une ébauche de programme significative est toujours disponible. Cela permet d'inciter le modèle avec des informations contextuelles à l'échelle de la base de code qui ne sont pas lexicalement locales au curseur, ni nécessairement dans le même fichier, mais qui sont probablement sémantiquement locales à l'objectif du développeur. Les complétions synthétisées par le LLM sont ensuite affinées itérativement via un dialogue supplémentaire avec le serveur de langage. Pour évaluer ces techniques, nous présentons MVUBench, un jeu de données d'applications web modèle-vue-mise à jour (MVU). Ces applications servent de problèmes difficiles en raison de leur dépendance à des structures de données spécifiques à l'application. Nous constatons que la contextualisation avec les définitions de types est particulièrement impactante. Après avoir présenté nos idées dans le contexte de Hazel, nous dupliquons nos techniques et portons MVUBench vers TypeScript afin de valider l'applicabilité de ces méthodes à des langages plus riches en ressources. Enfin, nous décrivons ChatLSP, une extension conservative du protocole de serveur de langage (LSP) que les serveurs de langage peuvent implémenter pour exposer des capacités que les systèmes de complétion de code par IA de diverses conceptions peuvent utiliser pour incorporer un contexte statique lors de la génération d'invites pour un LLM.

Sep 5
Sep 6
Sep 9