HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

18 papers found

OMG-LLaVA : Relier le raisonnement et la compréhension au niveau de l'image, de l'objet et du pixel
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Jun 27

ByTao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan

Les méthodes universelles de segmentation actuelles démontrent des capacités solides dans la compréhension d'images et de vidéos au niveau des pixels. Cependant, elles manquent de capacités de raisonnement et ne peuvent pas être contrôlées via des instructions textuelles. En revanche, les grands modèles multimodaux vision-langage possèdent des capacités puissantes de conversation et de raisonnement basées sur la vision, mais manquent de compréhension au niveau des pixels et ont des difficultés à accepter des invites visuelles pour une interaction flexible avec l'utilisateur. Cet article propose OMG-LLaVA, un nouveau cadre élégant combinant une compréhension visuelle puissante au niveau des pixels avec des capacités de raisonnement. Il peut accepter diverses invites visuelles et textuelles pour une interaction flexible avec l'utilisateur. Plus précisément, nous utilisons une méthode universelle de segmentation comme encodeur visuel, intégrant les informations d'image, les connaissances perceptuelles et les invites visuelles dans des tokens visuels fournis au LLM. Le LLM est responsable de comprendre les instructions textuelles de l'utilisateur et de fournir des réponses textuelles ainsi que des résultats de segmentation au niveau des pixels basés sur les informations visuelles. Nous proposons un embedding de connaissances perceptuelles pour mieux intégrer ces connaissances avec les caractéristiques de l'image. OMG-LLaVA réalise un raisonnement et une compréhension au niveau de l'image, de l'objet et des pixels dans un seul modèle, égalant ou surpassant les performances des méthodes spécialisées sur plusieurs benchmarks. Plutôt que d'utiliser un LLM pour connecter chaque spécialiste, notre travail vise un entraînement de bout en bout sur un encodeur, un décodeur et un LLM. Le code et le modèle ont été publiés pour des recherches ultérieures.

Step-DPO : Optimisation pas à pas des préférences pour le raisonnement en chaîne longue des modèles de langage
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

Jun 26

ByXin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia

Le raisonnement mathématique représente un défi majeur pour les grands modèles de langage (LLMs) en raison de la chaîne de raisonnement étendue et précise nécessaire pour garantir l'exactitude. Assurer la justesse de chaque étape de raisonnement est crucial. Pour y remédier, nous visons à améliorer la robustesse et la factualité des LLMs en apprenant à partir des retours humains. Cependant, l'Optimisation Directe des Préférences (DPO) a montré des avantages limités pour le raisonnement mathématique à longue chaîne, car les modèles utilisant la DPO peinent à identifier les erreurs détaillées dans les réponses incorrectes. Cette limitation découle d'un manque de supervision fine du processus. Nous proposons une méthode simple, efficace et économe en données appelée Step-DPO, qui traite les étapes individuelles de raisonnement comme des unités pour l'optimisation des préférences plutôt que d'évaluer les réponses de manière holistique. De plus, nous avons développé un pipeline de construction de données pour Step-DPO, permettant la création d'un ensemble de données de haute qualité contenant 10K paires de préférences étape par étape. Nous observons également que dans la DPO, les données auto-générées sont plus efficaces que celles générées par des humains ou GPT-4, en raison du caractère hors distribution de ces dernières. Nos résultats montrent qu'aussi peu que 10K paires de données de préférence et moins de 500 étapes d'entraînement Step-DPO peuvent entraîner un gain de près de 3% en précision sur MATH pour des modèles de plus de 70B paramètres. Notamment, Step-DPO, appliqué à Qwen2-72B-Instruct, atteint des scores de 70,8% et 94,0% sur les ensembles de test de MATH et GSM8K, respectivement, surpassant une série de modèles propriétaires, dont GPT-4-1106, Claude-3-Opus et Gemini-1.5-Pro. Notre code, données et modèles sont disponibles à l'adresse https://github.com/dvlab-research/Step-DPO.

MUMU : Amorçage de la génération d'images multimodales à partir de données texte-à-image
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Jun 26

ByWilliam Berman, Alexander Peysakhovich

Nous entraînons un modèle à générer des images à partir de prompts multimodaux combinant du texte et des images, tels que "un <image d'un homme> homme et son <image d'un chien> chien dans un style <image d'un dessin animé> animé." Nous constituons un ensemble de données multimodal en extrayant des extraits d'images sémantiquement significatifs correspondant aux mots des légendes d'images issues de données texte-image générées de manière synthétique et disponibles publiquement. Notre modèle, MUMU, est composé d'un encodeur de modèle vision-langage associé à un décodeur de diffusion, et est entraîné sur un seul nœud GPU 8xH100. Bien qu'il ne soit entraîné que sur des extraits provenant de la même image, MUMU apprend à composer des entrées provenant de différentes images pour produire une sortie cohérente. Par exemple, une entrée comprenant une personne réaliste et un dessin animé produira la même personne dans le style du dessin animé, et une entrée comprenant un sujet debout et un scooter produira le sujet en train de conduire le scooter. En conséquence, notre modèle se généralise à des tâches telles que le transfert de style et la cohérence des personnages. Nos résultats montrent le potentiel des modèles multimodaux en tant que contrôleurs polyvalents pour la génération d'images.

Simulation de l'éducation en classe avec des agents assistés par des modèles de langage (LLM)
Simulating Classroom Education with LLM-Empowered Agents

Jun 27

ByZheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li

Les grands modèles de langage (LLM) ont été utilisés dans diverses tâches éducatives intelligentes pour assister l'enseignement. Bien que les explorations préliminaires se soient concentrées sur des agents indépendants dotés de LLM pour des tâches éducatives spécifiques, le potentiel des LLM dans un cadre collaboratif multi-agents pour simuler une salle de classe avec la participation réelle d'utilisateurs reste inexploré. Dans ce travail, nous proposons SimClass, un cadre de simulation de salle de classe multi-agents impliquant la participation des utilisateurs. Nous identifions des rôles de classe représentatifs et introduisons un nouveau mécanisme de contrôle de classe pour l'enseignement automatique, puis menons des expériences utilisateurs dans deux cours réels. En utilisant le système d'analyse interactive de Flanders et le cadre théorique de la communauté d'enquête en analyse éducative, nous démontrons que les LLM peuvent simuler efficacement les modèles d'interaction traditionnels en classe tout en améliorant l'expérience des utilisateurs. Nous observons également des comportements de groupe émergents parmi les agents dans SimClass, où les agents collaborent pour créer des interactions vivantes en classe afin d'améliorer le processus d'apprentissage des utilisateurs. Nous espérons que ce travail ouvre la voie à l'application des systèmes multi-agents dotés de LLM dans l'enseignement en classe virtuelle.

SeaKR : Récupération de connaissances auto-consciente pour une génération augmentée par récupération adaptative
SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

Jun 27

ByZijun Yao, Weijian Qi, Liangming Pan, Shulin Cao, Linmei Hu, Weichuan Liu, Lei Hou, Juanzi Li

Cet article présente Self-aware Knowledge Retrieval (SeaKR), un nouveau modèle RAG adaptatif qui extrait l'incertitude auto-consciente des LLMs à partir de leurs états internes. SeaKR active la récupération d'informations lorsque les LLMs présentent une forte incertitude auto-consciente lors de la génération. Pour intégrer efficacement les extraits de connaissances récupérés, SeaKR les re-classe en fonction de l'incertitude auto-consciente des LLMs afin de conserver l'extrait qui réduit au maximum leur incertitude. Pour faciliter la résolution de tâches complexes nécessitant plusieurs récupérations, SeaKR utilise leur incertitude auto-consciente pour choisir parmi différentes stratégies de raisonnement. Nos expériences sur des ensembles de données de Question-Réponse, à la fois complexes et simples, montrent que SeaKR surpasse les méthodes RAG adaptatives existantes. Nous mettons notre code à disposition à l'adresse suivante : https://github.com/THU-KEG/SeaKR.

Alignement des Préférences Enseignant-Élève pour la Génération de Données d'Entraînement Personnalisées
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Jun 27

ByYantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li

Les grands modèles de langage (LLM) ont démontré un potentiel significatif en tant que copilotes pour diverses tâches. Le déploiement local de LLM sur des appareils périphériques est nécessaire lors du traitement de données sensibles en termes de confidentialité ou de tâches sensibles à la latence. Les contraintes de calcul de ces appareils rendent le déploiement direct de LLM puissants et à grande échelle peu pratique, nécessitant ainsi la distillation de connaissances des modèles à grande échelle vers des modèles légers. De nombreux travaux ont été réalisés pour obtenir des exemples d'entraînement diversifiés et de qualité à partir des LLM, mais peu d'attention a été accordée à l'alignement du contenu pédagogique de l'enseignant en fonction des préférences de l'élève, similaire à "l'enseignement réactif" en pédagogie. Ainsi, nous proposons ARTE, appelé Aligning TeacheR with StudenT PreferencEs, un cadre qui aligne le modèle enseignant avec les préférences des élèves pour générer des exemples d'entraînement sur mesure pour la distillation de connaissances. Plus précisément, nous obtenons des questions et des raisonnements préliminaires du modèle enseignant, puis collectons les préférences des élèves sur ces questions et raisonnements en utilisant la performance des élèves avec l'apprentissage en contexte comme indicateur, et enfin alignons le modèle enseignant avec les préférences des élèves. Enfin, nous répétons la première étape avec le modèle enseignant aligné pour obtenir des exemples d'entraînement sur mesure pour le modèle élève sur la tâche cible. Des expériences approfondies sur des benchmarks académiques démontrent la supériorité d'ARTE par rapport aux ensembles de données existants pour le réglage d'instructions distillés à partir de LLM puissants. De plus, nous étudions en détail la généralisation d'ARTE, y compris la généralisation des modèles élèves affinés en termes de capacité de raisonnement et la généralisation des modèles enseignants alignés pour générer des données d'entraînement sur mesure à travers les tâches et les élèves. En résumé, nos contributions résident dans la proposition d'un cadre novateur pour la génération d'exemples d'entraînement sur mesure, la démonstration de son efficacité dans les expériences, et l'étude de la généralisation des modèles élèves et des modèles enseignants alignés dans ARTE.

LiveBench : Un benchmark exigeant et sans contamination pour les modèles de langage
LiveBench: A Challenging, Contamination-Free LLM Benchmark

Jun 27

ByColin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum

La contamination des ensembles de test, où les données de test d'un benchmark se retrouvent dans l'ensemble d'entraînement d'un modèle plus récent, est un obstacle bien documenté pour une évaluation équitable des LLM (modèles de langage) et peut rapidement rendre les benchmarks obsolètes. Pour atténuer ce problème, de nombreux benchmarks récents recueillent de nouvelles questions et évaluations via des juges humains ou des LLM ; cependant, ces approches peuvent introduire des biais significatifs et échouer lors de l'évaluation de questions difficiles. Dans ce travail, nous introduisons un nouveau benchmark pour les LLM conçu pour être immunisé à la fois contre la contamination des ensembles de test et les pièges des jugements par LLM et du crowdsourcing humain. Nous présentons LiveBench, le premier benchmark qui (1) contient des questions fréquemment mises à jour à partir de sources d'information récentes, (2) évalue les réponses automatiquement selon des valeurs de référence objectives, et (3) inclut une grande variété de tâches complexes, couvrant les mathématiques, le codage, le raisonnement, le langage, le suivi d'instructions et l'analyse de données. Pour y parvenir, LiveBench contient des questions basées sur des compétitions mathématiques récentes, des articles arXiv, des articles de presse et des ensembles de données, ainsi que des versions plus difficiles et non contaminées de tâches issues de benchmarks précédents tels que Big-Bench Hard, AMPS et IFEval. Nous évaluons de nombreux modèles propriétaires de premier plan, ainsi que des dizaines de modèles open-source allant de 0,5B à 110B de paramètres. LiveBench est difficile, les meilleurs modèles obtenant une précision inférieure à 65 %. Nous publions toutes les questions, le code et les réponses des modèles. Les questions seront ajoutées et mises à jour mensuellement, et nous publierons de nouvelles tâches ainsi que des versions plus difficiles au fil du temps afin que LiveBench puisse distinguer les capacités des LLM à mesure qu'ils s'améliorent à l'avenir. Nous encourageons l'engagement et la collaboration de la communauté pour étendre les tâches et les modèles du benchmark.

Les grands modèles de langage peuvent-ils apprendre en enseignant ? Une étude préliminaire
Can LLMs Learn by Teaching? A Preliminary Study

Jun 20

ByXuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang

L'enseignement pour améliorer les modèles étudiants (par exemple, la distillation de connaissances) est une méthodologie largement étudiée dans les LLM (modèles de langage de grande taille). Cependant, pour les humains, l'enseignement n'améliore pas seulement les étudiants, mais aussi les enseignants. Nous posons la question : Les LLM peuvent-ils également apprendre en enseignant (LbT, Learning by Teaching) ? Si oui, nous pourrions potentiellement débloquer la possibilité de faire progresser continuellement les modèles sans dépendre uniquement de données produites par des humains ou de modèles plus puissants. Dans cet article, nous proposons une exploration préliminaire de cet agenda ambitieux. Nous montrons que les idées de LbT peuvent être intégrées dans les pipelines existants d'entraînement/incitation des LLM et apporter des améliorations notables. Plus précisément, nous concevons trois méthodes, chacune imitant l'un des trois niveaux de LbT chez les humains : observer les retours des étudiants, apprendre de ces retours, et apprendre de manière itérative, avec pour objectifs d'améliorer la précision des réponses sans entraînement et d'améliorer les capacités intrinsèques des modèles avec un ajustement fin. Les résultats sont encourageants. Par exemple, de manière similaire au LbT chez les humains, nous observons que : (1) Le LbT peut induire une généralisation de faible à fort : les modèles forts peuvent s'améliorer eux-mêmes en enseignant à d'autres modèles faibles ; (2) La diversité parmi les étudiants pourrait aider : enseigner à plusieurs étudiants pourrait être plus bénéfique que d'enseigner à un seul étudiant ou à l'enseignant lui-même. Nous espérons que ces premiers résultats prometteurs pourront inspirer des recherches futures sur le LbT et une adoption plus large des techniques avancées en éducation pour améliorer les LLM. Le code est disponible à l'adresse suivante : https://github.com/imagination-research/lbt.

Récupération de la Taille du Jeu de Données à partir des Poids LoRA
Dataset Size Recovery from LoRA Weights

Jun 27

ByMohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen

Les attaques par inversion de modèle et inférence d'appartenance visent à reconstruire et vérifier les données sur lesquelles un modèle a été entraîné. Cependant, elles ne garantissent pas de retrouver tous les échantillons d'entraînement, car elles ne connaissent pas la taille de l'ensemble d'entraînement. Dans cet article, nous introduisons une nouvelle tâche : la récupération de la taille du jeu de données, qui vise à déterminer le nombre d'échantillons utilisés pour entraîner un modèle, directement à partir de ses poids. Nous proposons ensuite DSiRe, une méthode pour récupérer le nombre d'images utilisées pour affiner un modèle, dans le cas courant où l'affinage utilise LoRA. Nous découvrons que la norme et le spectre des matrices LoRA sont étroitement liés à la taille du jeu de données d'affinage ; nous exploitons cette découverte pour proposer un algorithme de prédiction simple mais efficace. Pour évaluer la récupération de la taille du jeu de données à partir des poids LoRA, nous développons et publions un nouveau benchmark, LoRA-WiSE, composé de plus de 25 000 instantanés de poids provenant de plus de 2000 modèles divers affinés avec LoRA. Notre meilleur classifieur peut prédire le nombre d'images d'affinage avec une erreur absolue moyenne de 0,36 image, établissant ainsi la faisabilité de cette attaque.

MoA : Mélange d'Attention Sparse pour la Compression Automatique de Modèles de Langage à Grande Échelle
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

Jun 21

ByTianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang

L'attention parcimonieuse peut efficacement atténuer les importantes demandes en mémoire et en débit des modèles de langage de grande taille (LLMs) dans des contextes longs. Les méthodes existantes utilisent généralement un masque d'attention parcimonieuse uniforme, appliquant le même motif parcimonieux à travers différentes têtes d'attention et longueurs d'entrée. Cependant, cette approche uniforme ne parvient pas à capturer les divers motifs d'attention inhérents aux LLMs, ignorant leurs compromis distincts entre précision et latence. Pour relever ce défi, nous proposons le Mixture of Attention (MoA), qui adapte automatiquement des configurations d'attention parcimonieuse distinctes à différentes têtes et couches. MoA construit et explore un espace de recherche de divers motifs d'attention et leurs règles de mise à l'échelle par rapport aux longueurs des séquences d'entrée. Il profile le modèle, évalue les configurations potentielles et identifie le plan de compression d'attention parcimonieuse optimal. MoA s'adapte à des tailles d'entrée variables, révélant que certaines têtes d'attention élargissent leur focus pour s'adapter à des séquences plus longues, tandis que d'autres têtes se concentrent systématiquement sur des contextes locaux de longueur fixe. Les expériences montrent que MoA augmente la longueur de contexte effective de 3,9 fois avec la même portée d'attention moyenne, améliorant la précision de récupération de 1,5 à 7,1 fois par rapport à la base de référence à attention uniforme sur les modèles Vicuna-7B, Vicuna-13B et Llama3-8B. De plus, MoA réduit les écarts de capacités entre les modèles parcimonieux et denses, diminuant la baisse de performance relative maximale de 9%-36% à moins de 5% sur deux benchmarks de compréhension de contexte long. MoA réalise une réduction de la mémoire GPU de 1,2 à 1,4 fois et augmente le débit de décodage de 5,5 à 6,7 fois pour les modèles denses de 7B et 13B sur un seul GPU, avec un impact minimal sur les performances.

La programmation par l'exemple est-elle résolue par les LLM ?
Is Programming by Example solved by LLMs?

Jun 12

ByWen-Ding Li, Kevin Ellis

La programmation par exemples (PBE) vise à générer un algorithme à partir de paires d'entrées-sorties. Ces systèmes revêtent une importance à la fois pratique et théorique : du point de vue de l'utilisateur final, ils sont déployés auprès de millions de personnes, et du point de vue de l'intelligence artificielle, la PBE correspond à une forme très générale d'inférence inductive en few-shot. Compte tenu du succès des modèles de langage à grande échelle (LLMs) dans les tâches de génération de code, nous étudions ici dans quelle mesure on peut dire que les LLMs ont « résolu » la PBE. Nous expérimentons sur des domaines classiques tels que les listes et les chaînes de caractères, ainsi que sur un domaine moins courant de programmation graphique, peu représenté dans les données de pré-entraînement typiques. Nous constatons que les modèles pré-entraînés ne sont pas efficaces pour la PBE, mais qu'ils peuvent être affinés pour obtenir des performances bien supérieures, à condition que les problèmes de test soient dans la distribution. Nous analysons empiriquement ce qui fait réussir ou échouer ces modèles, et nous avançons vers une meilleure compréhension de la manière d'améliorer la généralisation hors distribution. Collectivement, ces résultats suggèrent que les LLMs font des progrès significatifs vers la résolution des tâches typiques de PBE, augmentant potentiellement la flexibilité et l'applicabilité des systèmes PBE, tout en identifiant les domaines où les LLMs restent encore limités.

T-FREE : Modèles de langage génératifs sans tokenizer via des représentations éparses pour des embeddings économes en mémoire
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

Jun 27

ByBjörn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach

Les tokenizers sont essentiels pour encoder l'information dans les modèles de langage à grande échelle, mais leur développement a récemment stagné et ils présentent des faiblesses inhérentes. Les principales limitations incluent la surcharge computationnelle, l'utilisation inefficace du vocabulaire, ainsi que des couches d'embedding et de tête inutilement volumineuses. De plus, leur performance est biaisée en faveur d'un corpus de référence, ce qui réduit leur efficacité pour les langues sous-représentées. Pour remédier à ces problèmes, nous proposons T-FREE, qui intègre directement les mots via des motifs d'activation clairsemés sur des triplets de caractères, sans nécessiter de corpus de référence. T-FREE exploite intrinsèquement les similarités morphologiques et permet une forte compression des couches d'embedding. Dans notre évaluation expérimentale exhaustive, nous obtenons des performances compétitives en aval avec une réduction de plus de 85 % des paramètres sur ces couches. Par ailleurs, T-FREE montre des améliorations significatives dans l'apprentissage par transfert multilingue.

AUTOHALLUSION : Génération automatique de benchmarks d'hallucinations pour les modèles vision-langage
AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

Jun 16

ByXiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha

Les grands modèles vision-langage (LVLMs) hallucinent : certains indices contextuels dans une image peuvent déclencher un raisonnement excessivement confiant et incorrect du module linguistique sur des objets anormaux ou hypothétiques. Bien que quelques benchmarks aient été développés pour étudier les hallucinations des LVLMs, ils reposent principalement sur des cas limites conçus manuellement, dont les schémas d'échec peuvent difficilement se généraliser, et un ajustement fin sur ceux-ci pourrait compromettre leur validité. Cela nous motive à développer la première approche de génération automatique de benchmarks, AUTOHALLUSION, qui exploite quelques stratégies principales pour créer des exemples diversifiés d'hallucinations. Elle sonde les modules linguistiques des LVLMs pour détecter les indices contextuels et les utilise pour synthétiser des images en : (1) ajoutant des objets anormaux par rapport aux indices contextuels ; (2) pour deux objets co-occurrents, en conservant un et en excluant l'autre ; ou (3) en supprimant des objets étroitement liés aux indices contextuels. Elle génère ensuite des questions basées sur les images dont les réponses de référence contredisent les préconceptions du module linguistique. Un modèle doit surmonter les biais contextuels et les distractions pour fournir des réponses correctes, tandis que des réponses incorrectes ou incohérentes indiquent des hallucinations. AUTOHALLUSION nous permet de créer de nouveaux benchmarks à moindre coût et surmonte ainsi la fragilité des benchmarks conçus manuellement. Elle révèle également des schémas et des raisons d'échec courants, fournissant des insights clés pour détecter, éviter ou contrôler les hallucinations. Des évaluations complètes des LVLMs de premier plan, tels que GPT-4V(ision), Gemini Pro Vision, Claude 3 et LLaVA-1.5, montrent un taux de réussite de 97,7 % et 98,7 % dans l'induction d'hallucinations sur les ensembles de données synthétiques et réels d'AUTOHALLUSION, ouvrant la voie à une lutte de longue haleine contre les hallucinations.

Lire partout où l'on pointe : Lecture de l'interface graphique avec prise en compte de la mise en page grâce à l'ancrage Tree-of-Lens
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

Jun 27

ByYue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang

Les interfaces graphiques (GUIs) sont centrales dans notre interaction avec les appareils numériques. Récemment, des efforts croissants ont été déployés pour construire des modèles pour diverses tâches de compréhension des GUIs. Cependant, ces efforts négligent largement une tâche importante liée aux GUIs : la lecture d'écran basée sur des points indiqués par l'utilisateur, que nous nommons la tâche de Pointage et Lecture d'Écran (Screen Point-and-Read, SPR). Cette tâche est principalement gérée par des outils rigides de lecture d'écran accessibles, qui ont grandement besoin de nouveaux modèles inspirés par les avancées des Modèles de Langage Multimodaux de Grande Taille (Multimodal Large Language Models, MLLMs). Dans cet article, nous proposons un agent Arbre-de-Lentille (Tree-of-Lens, ToL), utilisant un nouveau mécanisme d'ancrage ToL, pour aborder la tâche SPR. À partir des coordonnées du point d'entrée et de la capture d'écran correspondante de la GUI, notre agent ToL construit un Arbre de Mise en Page Hiérarchique. Sur la base de cet arbre, notre agent ToL comprend non seulement le contenu de la zone indiquée, mais exprime également la mise en page et les relations spatiales entre les éléments. Ces informations de mise en page sont cruciales pour interpréter avec précision les informations à l'écran, ce qui distingue notre agent ToL des autres outils de lecture d'écran. Nous évaluons également minutieusement l'agent ToL par rapport à d'autres références sur un nouveau benchmark SPR proposé, qui inclut des GUIs provenant de systèmes mobiles, web et d'exploitation. Enfin et surtout, nous testons l'agent ToL sur des tâches de navigation dans des GUIs mobiles, démontrant son utilité pour identifier les actions incorrectes le long des trajectoires d'exécution de l'agent. Code et données : screen-point-and-read.github.io

Comprendre les besoins des LLM : Alignement des préférences doubles pour la génération augmentée par la recherche
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

Jun 26

ByGuanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen

La génération augmentée par récupération (RAG) a démontré son efficacité pour atténuer le problème d'hallucination des grands modèles de langage (LLM). Cependant, la difficulté d'aligner le récupérateur avec les préférences de connaissances variées des LLM pose un défi inévitable dans le développement d'un système RAG fiable. Pour résoudre ce problème, nous proposons DPA-RAG, un cadre universel conçu pour aligner les diverses préférences de connaissances au sein des systèmes RAG. Plus précisément, nous introduisons d'abord un pipeline de construction de connaissances préférentielles et intégrons cinq nouvelles stratégies d'augmentation de requêtes pour atténuer la rareté des données préférentielles. Sur la base des données préférentielles, DPA-RAG réalise à la fois un alignement préférentiel externe et interne : 1) Il intègre conjointement des capacités d'alignement préférentiel par paires, par points et contrastives dans le rerankeur, permettant un alignement externe entre les composants RAG. 2) Il introduit en outre une étape de pré-alignement avant le réglage fin supervisé (SFT) classique, permettant aux LLM de capturer implicitement des connaissances alignées avec leurs préférences de raisonnement, réalisant ainsi un alignement interne des LLM. Les résultats expérimentaux sur quatre ensembles de données de questions-réponses intensives en connaissances montrent que DPA-RAG surpasse toutes les méthodes de référence et intègre de manière transparente à la fois les lecteurs LLM en boîte noire et open-source. Une analyse qualitative approfondie et des discussions fournissent également des orientations empiriques pour la réalisation de systèmes RAG fiables. Notre code est disponible publiquement à l'adresse https://github.com/dongguanting/DPA-RAG.

ArzEn-LLM : Traduction et reconnaissance vocale en arabe égyptien-anglais avec alternance codique utilisant des modèles de langage de grande taille
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

Jun 26

ByAhmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa

Motivés par l'augmentation généralisée du phénomène de code-switching entre l'arabe égyptien et l'anglais ces dernières années, cet article explore les complexités des systèmes de traduction automatique (MT) et de reconnaissance automatique de la parole (ASR), en se concentrant sur la traduction de l'arabe égyptien-anglais en code-switching vers l'anglais ou l'arabe égyptien. Notre objectif est de présenter les méthodologies employées pour développer ces systèmes, en utilisant des modèles de langage de grande envergure tels que LLama et Gemma. Dans le domaine de l'ASR, nous explorons l'utilisation du modèle Whisper pour la reconnaissance de l'arabe égyptien en code-switching, en détaillant nos procédures expérimentales, y compris le prétraitement des données et les techniques d'entraînement. Grâce à la mise en œuvre d'un système de traduction parole-texte consécutive qui intègre l'ASR avec la MT, nous visons à surmonter les défis posés par les ressources limitées et les caractéristiques uniques du dialecte arabe égyptien. L'évaluation par rapport aux métriques établies montre des résultats prometteurs, avec nos méthodologies permettant une amélioration significative de 56 % dans la traduction en anglais par rapport à l'état de l'art et de 9,3 % dans la traduction en arabe. Étant donné que le code-switching est profondément inhérent aux langues parlées, il est crucial que les systèmes ASR puissent gérer efficacement ce phénomène. Cette capacité est essentielle pour permettre une interaction fluide dans divers domaines, y compris les négociations commerciales, les échanges culturels et les discours académiques. Nos modèles et notre code sont disponibles en tant que ressources open-source. Code : http://github.com/ahmedheakl/arazn-llm, Modèles : http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.

ResumeAtlas : Réexamen de la classification de CV avec des jeux de données à grande échelle et des modèles de langage massifs
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

Jun 26

ByAhmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky

La dépendance croissante envers les plateformes de recrutement en ligne, couplée à l'adoption des technologies d'intelligence artificielle, a mis en lumière le besoin crucial de méthodes efficaces de classification de CV. Cependant, des défis tels que la taille réduite des jeux de données, l'absence de modèles standardisés de CV et les préoccupations liées à la confidentialité entravent la précision et l'efficacité des modèles de classification existants. Dans ce travail, nous abordons ces défis en proposant une approche complète pour la classification de CV. Nous avons constitué un jeu de données à grande échelle comprenant 13 389 CV provenant de sources diverses et avons utilisé des modèles de langage de grande taille (LLMs) tels que BERT et Gemma1.1 2B pour la classification. Nos résultats montrent des améliorations significatives par rapport aux approches traditionnelles d'apprentissage automatique, avec notre meilleur modèle atteignant une précision top-1 de 92 % et une précision top-5 de 97,5 %. Ces résultats soulignent l'importance de la qualité des jeux de données et des architectures de modèles avancées pour améliorer la précision et la robustesse des systèmes de classification de CV, contribuant ainsi à faire progresser les pratiques de recrutement en ligne.

Évaluation des Représentations des États Mentaux dans les Modèles de Langage
Benchmarking Mental State Representations in Language Models

Jun 25

ByMatteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

Alors que de nombreux travaux ont évalué les performances génératives des modèles de langage (LMs) sur des tâches nécessitant un raisonnement de théorie de l'esprit, la recherche sur la représentation interne des états mentaux par ces modèles reste limitée. Des travaux récents ont utilisé des techniques de sondage pour démontrer que les LMs peuvent représenter les croyances d'eux-mêmes et des autres. Cependant, ces affirmations s'accompagnent d'une évaluation limitée, rendant difficile l'évaluation de la manière dont les représentations des états mentaux sont influencées par la conception du modèle et les choix d'entraînement. Nous présentons un benchmark étendu avec divers types de LMs de tailles différentes, des approches de fine-tuning variées et des designs de prompts pour étudier la robustesse des représentations des états mentaux et les problèmes de mémorisation dans les sondages. Nos résultats montrent que la qualité des représentations internes des croyances des autres augmente avec la taille du modèle et, plus crucialement, avec le fine-tuning. Nous sommes les premiers à étudier comment les variations de prompts impactent les performances de sondage sur les tâches de théorie de l'esprit. Nous démontrons que les représentations des modèles sont sensibles aux variations de prompts, même lorsque ces variations devraient être bénéfiques. Enfin, nous complétons les expériences précédentes d'édition d'activations sur les tâches de théorie de l'esprit et montrons qu'il est possible d'améliorer les performances de raisonnement des modèles en orientant leurs activations sans avoir besoin d'entraîner de sonde.

Alignement des Préférences Enseignant-Élève pour la Génération de Données d'Entraînement Personnalisées
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Jun 27

ByYantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li