Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article évalue les biais géopolitiques dans les modèles de langage (LLMs) concernant divers pays à travers une analyse de leur interprétation d'événements historiques présentant des perspectives nationales conflictuelles (États-Unis, Royaume-Uni, URSS et Chine). Nous introduisons un nouveau jeu de données comprenant des descriptions neutres d'événements et des points de vue contrastés provenant de différents pays. Nos résultats révèlent des biais géopolitiques significatifs, les modèles privilégiant des récits nationaux spécifiques. De plus, des incitations simples visant à réduire ces biais ont eu un effet limité. Des expériences avec des étiquettes de participants manipulées montrent la sensibilité des modèles à l'attribution, amplifiant parfois les biais ou reconnaissant des incohérences, notamment avec des étiquettes échangées. Ce travail met en lumière les biais des récits nationaux dans les LLMs, remet en question l'efficacité des méthodes simples de réduction des biais et propose un cadre ainsi qu'un jeu de données pour de futures recherches sur les biais géopolitiques.
Les grands modèles vision-langage (LVLMs) appliquent généralement une supervision autorégressive uniquement aux séquences textuelles, sans intégrer pleinement la modalité visuelle dans le processus d'apprentissage. Cela entraîne trois limitations principales : (1) une incapacité à utiliser des images sans légendes accompagnantes, (2) le risque que les légendes omettent des détails visuels critiques, et (3) le défi que certains contenus centrés sur la vision ne peuvent être adéquatement transmis par le texte. En conséquence, les LVLMs actuels privilégient souvent l'alignement vision-langage tout en négligeant potentiellement des informations visuelles fines. Bien que certains travaux antérieurs aient exploré la génération d'images autorégressive, exploiter efficacement la supervision visuelle autorégressive pour améliorer la compréhension des images reste un défi ouvert. Dans cet article, nous introduisons la Reconstruction Visuelle Sémantique Autorégressive (ASVR), qui permet un apprentissage conjoint des modalités visuelles et textuelles dans un cadre autorégressif unifié. Nous montrons que la reconstruction autorégressive de l'apparence visuelle brute des images n'améliore pas et peut même nuire à la compréhension multimodale. En revanche, la reconstruction autorégressive de la représentation sémantique des images améliore systématiquement la compréhension. Notamment, nous constatons que même lorsque les modèles reçoivent des caractéristiques d'images continues en entrée, ils peuvent reconstruire efficacement des jetons sémantiques discrets, entraînant des améliorations stables et cohérentes sur une large gamme de benchmarks de compréhension multimodale. Notre approche apporte des gains de performance significatifs sur différentes échelles de données (556k-2M) et types de modèles de langage (LLM). Plus précisément, ASVR améliore LLaVA-1.5 de 5 % en scores moyens sur 14 benchmarks multimodaux. Le code est disponible à l'adresse https://github.com/AlenjandroWang/ASVR.
Le raisonnement basé sur des règles a été reconnu comme l'un des problèmes fondamentaux du raisonnement, tandis que les variations dans les formats, types et complexité des règles dans les applications réelles posent des défis majeurs. Des études récentes ont montré que les grands modèles de raisonnement (LRMs) possèdent des capacités de raisonnement remarquables, et leurs performances sont considérablement améliorées par l'apprentissage par renforcement (RL). Cependant, il reste une question ouverte de savoir si les petits modèles de raisonnement (SRMs) peuvent apprendre efficacement le raisonnement basé sur les règles avec une généralisation robuste à travers diverses tâches et domaines. Pour répondre à cela, nous introduisons le Raisonnement Basé sur des Règles Renforcé, alias RuleReasoner, une méthode simple mais efficace pour effectuer un raisonnement basé sur des règles via une large collection de tâches soigneusement sélectionnées et une nouvelle approche d'échantillonnage dynamique consciente du domaine. Plus précisément, RuleReasoner rééchantillonne chaque lot d'entraînement en mettant à jour les poids d'échantillonnage des différents domaines en fonction des récompenses historiques. Cela facilite l'augmentation de domaine et des plans d'apprentissage en ligne flexibles pour le RL, éliminant ainsi le besoin de recettes de mélange d'entraînement préconçues par l'homme utilisées dans les méthodes existantes. Les évaluations empiriques sur des benchmarks en distribution (ID) et hors distribution (OOD) révèlent que RuleReasoner surpasse les LRMs de pointe par une marge significative (Delta4.1% de points en moyenne sur huit tâches ID et Delta10.4% de points en moyenne sur trois tâches OOD par rapport à OpenAI-o1). Notamment, notre approche montre également une efficacité computationnelle plus élevée par rapport aux méthodes d'échantillonnage dynamique précédentes pour le RL.
Du cinéma professionnel au contenu généré par les utilisateurs, les créateurs et les consommateurs ont longtemps reconnu que la puissance de la vidéo dépend de l'intégration harmonieuse de ce que nous entendons (la piste audio de la vidéo) avec ce que nous voyons (la séquence d'images de la vidéo). Les approches actuelles de génération de vidéos ignorent soit le son pour se concentrer sur la génération de séquences d'images silencieuses à usage général, soit traitent à la fois les éléments visuels et audio mais se limitent à des domaines d'application restreints tels que le redoublage. Nous présentons Mirage, un modèle de base audio-à-vidéo qui excelle dans la génération d'images réalistes et expressives à partir de zéro, à partir d'une entrée audio. Lorsqu'il est intégré à des méthodes existantes de synthèse vocale (texte-à-parole, ou TTS), Mirage produit des vidéos multimodales convaincantes. Lorsqu'il est entraîné sur des séquences audio-vidéo de personnes parlant (A-roll) et conditionné par un audio contenant de la parole, Mirage génère des vidéos de personnes interprétant de manière crédible la performance implicite dans l'audio d'entrée. Notre contribution technique centrale est une méthode unifiée pour entraîner des modèles de génération audio-à-vidéo basés sur l'auto-attention, soit à partir de zéro, soit en utilisant des poids existants. Cette méthodologie permet à Mirage de conserver sa généralité en tant qu'approche de génération audio-à-vidéo tout en produisant des résultats de qualité subjective supérieure à ceux des méthodes qui intègrent des architectures spécifiques à l'audio ou des composantes de perte spécifiques aux personnes, à la parole, ou aux détails de la capture d'images ou d'audio. Nous encourageons les lecteurs à regarder et écouter par eux-mêmes les résultats de Mirage (voir le document et les commentaires pour les liens).
Les avancées dans les modèles de diffusion ont considérablement amélioré la qualité vidéo, attirant l'attention sur la contrôlabilité fine. Cependant, de nombreuses méthodes existantes dépendent du réglage fin de modèles vidéo à grande échelle pour des tâches spécifiques, ce qui devient de plus en plus impraticable à mesure que la taille des modèles continue de croître. Dans ce travail, nous présentons Frame Guidance, une méthode de guidage sans apprentissage pour la génération vidéo contrôlée basée sur des signaux au niveau des images, tels que des images clés, des images de référence de style, des esquisses ou des cartes de profondeur. Pour un guidage pratique sans apprentissage, nous proposons une méthode simple de traitement latent qui réduit considérablement l'utilisation de la mémoire, et appliquons une nouvelle stratégie d'optimisation latente conçue pour une génération vidéo globalement cohérente. Frame Guidance permet un contrôle efficace dans diverses tâches, y compris le guidage par images clés, la stylisation et la création de boucles, sans aucun apprentissage, et est compatible avec tout modèle vidéo. Les résultats expérimentaux montrent que Frame Guidance peut produire des vidéos contrôlées de haute qualité pour une large gamme de tâches et de signaux d'entrée.
Créer des machines capables de comprendre le monde en 3D est essentiel pour assister les concepteurs qui construisent et modifient des environnements 3D, ainsi que les robots qui naviguent et interagissent dans un espace tridimensionnel. Inspirés par les avancées en modélisation du langage et des images, nous explorons le potentiel des modèles autorégressifs pour une nouvelle modalité : les scènes 3D structurées. À cette fin, nous proposons un cadre unifié de modèle de langage (LLM) qui aligne le langage, les images et les scènes 3D, et fournissons un « guide pratique » détaillant les choix de conception critiques pour optimiser l'entraînement et les performances, en abordant des questions clés liées à la représentation des données, aux objectifs spécifiques à chaque modalité, et plus encore. Nous évaluons les performances sur quatre tâches 3D fondamentales — rendu, reconnaissance, suivi d'instructions et réponse à des questions — ainsi que sur quatre jeux de données 3D, synthétiques et réels. Nous étendons notre approche pour reconstruire des formes complexes d'objets 3D en enrichissant notre modalité 3D avec des encodages de formes quantifiés, et démontrons l'efficacité de notre modèle sur des tâches de reconnaissance d'objets 3D dans le monde réel. Page web du projet : https://glab-caltech.github.io/kyvo/
Nous présentons Self Forcing, un nouveau paradigme d'entraînement pour les modèles de diffusion vidéo autorégressifs. Il résout le problème persistant du biais d'exposition, où les modèles entraînés sur un contexte de vérité terrain doivent générer des séquences conditionnées par leurs propres sorties imparfaites lors de l'inférence. Contrairement aux méthodes antérieures qui débruitaient les images futures en se basant sur des images de contexte de vérité terrain, Self Forcing conditionne la génération de chaque image sur les sorties précédemment auto-générées en effectuant un déploiement autorégressif avec mise en cache clé-valeur (KV) pendant l'entraînement. Cette stratégie permet une supervision via une perte holistique au niveau vidéo qui évalue directement la qualité de la séquence entière générée, plutôt que de s'appuyer uniquement sur les objectifs traditionnels image par image. Pour garantir l'efficacité de l'entraînement, nous utilisons un modèle de diffusion à quelques étapes ainsi qu'une stratégie de troncature stochastique du gradient, équilibrant efficacement le coût computationnel et les performances. Nous introduisons en outre un mécanisme de cache KV roulant qui permet une extrapolation vidéo autorégressive efficace. Des expériences approfondies démontrent que notre approche permet une génération de flux vidéo en temps réel avec une latence inférieure à la seconde sur un seul GPU, tout en égalant ou même surpassant la qualité de génération de modèles de diffusion significativement plus lents et non causaux. Site du projet : http://self-forcing.github.io/
La démonstration d'inégalités, cruciale dans divers domaines scientifiques et mathématiques, met à l'épreuve des compétences de raisonnement avancées telles que la découverte de bornes serrées et l'application stratégique de théorèmes. Cela en fait une frontière distincte et exigeante pour les grands modèles de langage (LLMs), offrant des perspectives au-delà de la résolution générale de problèmes mathématiques. Les progrès dans ce domaine sont entravés par les ensembles de données existants, souvent rares, synthétiques ou trop formels. Nous abordons ce problème en proposant une formulation de tâche informelle mais vérifiable, transformant la démonstration d'inégalités en deux sous-tâches vérifiables automatiquement : l'estimation de bornes et la prédiction de relations. Sur cette base, nous publions IneqMath, un ensemble de données expertes d'inégalités de niveau Olympiade, comprenant un ensemble de test et un corpus d'entraînement enrichis de solutions étape par étape et d'annotations de théorèmes. Nous développons également un nouveau cadre d'évaluation LLM-comme-juge, combinant un juge de réponse finale avec quatre juges étape par étape conçus pour détecter les erreurs de raisonnement courantes. Une évaluation systématique de 29 LLM leaders sur IneqMath révèle une réalité surprenante : même les meilleurs modèles comme o1 atteignent moins de 10 % de précision globale sous un examen étape par étape ; cela représente une baisse allant jusqu'à 65,5 % par rapport à leur précision en ne considérant que l'équivalence des réponses finales. Cette divergence expose des chaînes déductives fragiles et un écart critique pour les LLM actuels entre simplement trouver une réponse et construire une preuve rigoureuse. L'augmentation de la taille des modèles et du calcul au moment du test apporte des gains limités en termes de correction globale des preuves. Nos résultats mettent plutôt en lumière des directions de recherche prometteuses telles que le raisonnement guidé par les théorèmes et l'auto-affinement. Le code et les données sont disponibles à l'adresse https://ineqmath.github.io/.
Ces dernières années, les modèles de langage multimodaux de grande taille (MLLMs) ont été largement utilisés pour des tâches de raisonnement multimodal, y compris l'automatisation des interfaces graphiques utilisateur (GUI). Contrairement aux tâches multimodales générales hors ligne, l'automatisation des GUI s'exécute dans des environnements interactifs en ligne, nécessitant une prise de décision étape par étape basée sur l'état en temps réel de l'environnement. Cette tâche présente une tolérance plus faible aux erreurs de décision à chaque étape, car toute erreur peut s'accumuler et perturber le processus, potentiellement conduisant à des résultats irréversibles tels que des suppressions ou des paiements. Pour résoudre ces problèmes, nous introduisons un mécanisme de critique pré-opératoire qui fournit un retour d'information efficace avant l'exécution réelle, en raisonnant sur le résultat potentiel et la justesse des actions. Plus précisément, nous proposons une stratégie d'optimisation de politique relative par gradient avec suggestion (S-GRPO) pour construire notre modèle de critique pré-opératoire GUI-Critic-R1, en intégrant une nouvelle récompense de suggestion pour améliorer la fiabilité du retour d'information du modèle. De plus, nous développons un pipeline de collecte de données basé sur le raisonnement par amorçage pour créer un ensemble d'entraînement GUI-Critic-Train et un ensemble de test GUI-Critic-Test, comblant ainsi les lacunes existantes dans les données de critique des GUI. Les expériences statiques sur l'ensemble de test GUI-Critic-Test, couvrant à la fois les domaines mobiles et web, révèlent que notre modèle GUI-Critic-R1 offre des avantages significatifs en termes de précision de critique par rapport aux MLLMs actuels. L'évaluation dynamique sur un benchmark d'automatisation des GUI met en évidence l'efficacité et la supériorité de notre modèle, comme en témoignent les taux de réussite améliorés et l'efficacité opérationnelle.
Nous proposons Squeeze3D, un nouveau cadre qui exploite les connaissances implicites acquises par des modèles génératifs 3D pré-entraînés existants pour compresser des données 3D à des taux de compression extrêmement élevés. Notre approche relie les espaces latents entre un encodeur pré-entraîné et un modèle de génération pré-entraîné via des réseaux de mappage entraînables. Tout modèle 3D représenté sous forme de maillage, de nuage de points ou de champ de radiance est d'abord encodé par l'encodeur pré-entraîné, puis transformé (c'est-à-dire compressé) en un code latent très compact. Ce code latent peut être utilisé efficacement comme une représentation extrêmement compressée du maillage ou du nuage de points. Un réseau de mappage transforme le code latent compressé dans l'espace latent d'un puissant modèle génératif, qui est ensuite conditionné pour recréer le modèle 3D original (c'est-à-dire la décompression). Squeeze3D est entièrement entraîné sur des données synthétiques générées et ne nécessite aucun ensemble de données 3D. L'architecture de Squeeze3D peut être utilisée de manière flexible avec des encodeurs 3D pré-entraînés existants et des modèles génératifs existants. Elle peut prendre en charge de manière flexible différents formats, y compris les maillages, les nuages de points et les champs de radiance. Nos expériences démontrent que Squeeze3D atteint des taux de compression allant jusqu'à 2187x pour les maillages texturés, 55x pour les nuages de points et 619x pour les champs de radiance, tout en maintenant une qualité visuelle comparable à de nombreuses méthodes existantes. Squeeze3D n'entraîne qu'une faible latence de compression et de décompression, car il ne nécessite pas l'entraînement de réseaux spécifiques à un objet pour compresser celui-ci.
Les modèles de langage de grande taille (LLMs) ont démontré des performances remarquables dans le domaine des questions-réponses ouvertes (ODQA) en exploitant des documents externes grâce à la génération augmentée par récupération (RAG). Pour réduire la surcharge de RAG provenant de contextes plus longs, une compression du contexte est nécessaire. Cependant, les méthodes de compression précédentes ne se concentrent pas sur le filtrage des informations non probantes, ce qui limite les performances dans le cadre de RAG basé sur les LLMs. Nous proposons donc un cadre appelé RAG guidé par l'évidentialité, ou ECoRAG. ECoRAG améliore les performances des LLMs en compressant les documents récupérés sur la base de l'évidentialité, en s'assurant que la génération de réponses est soutenue par les preuves correctes. En tant qu'étape supplémentaire, ECoRAG vérifie si le contenu compressé fournit des preuves suffisantes, et si ce n'est pas le cas, il récupère davantage jusqu'à ce que cela soit suffisant. Les expériences montrent qu'ECoRAG améliore les performances des LLMs sur les tâches ODQA, surpassant les méthodes de compression existantes. De plus, ECoRAG est très rentable, car il réduit non seulement la latence mais minimise également l'utilisation de tokens en ne conservant que les informations nécessaires pour générer la réponse correcte. Le code est disponible à l'adresse suivante : https://github.com/ldilab/ECoRAG.
La Génération Augmentée par Récupération (Retrieval Augmented Generation, RAG) est une approche couramment utilisée pour enrichir les grands modèles de langage (LLMs) avec des informations pertinentes et à jour. Cependant, les sources récupérées peuvent souvent contenir des informations contradictoires, et il reste incertain comment les modèles devraient traiter de telles divergences. Dans ce travail, nous proposons d’abord une nouvelle taxonomie des types de conflits de connaissances dans RAG, accompagnée du comportement souhaité du modèle pour chaque type. Nous introduisons ensuite CONFLICTS, un benchmark de haute qualité avec des annotations expertes des types de conflits dans un cadre réaliste de RAG. CONFLICTS est le premier benchmark permettant de suivre les progrès sur la manière dont les modèles abordent une large gamme de conflits de connaissances. Nous menons des expériences approfondies sur ce benchmark, montrant que les LLMs peinent souvent à résoudre de manière appropriée les conflits entre les sources. Bien que le fait d’inciter les LLMs à raisonner explicitement sur les conflits potentiels dans les documents récupérés améliore significativement la qualité et la pertinence de leurs réponses, il reste une marge substantielle d’amélioration pour les recherches futures.
L'évolution rapide des technologies de génération d'images intensifie la demande de méthodes de détection interprétables et robustes. Bien que les approches existantes atteignent souvent une grande précision, elles fonctionnent généralement comme des boîtes noires sans fournir de justifications compréhensibles par l'homme. Les modèles de langage multi-modaux (MLLMs), bien que non conçus à l'origine pour la détection de falsifications, présentent de solides capacités d'analyse et de raisonnement. Lorsqu'ils sont correctement affinés, ils peuvent identifier efficacement les images générées par l'IA et fournir des explications pertinentes. Cependant, les MLLMs existants peinent encore avec les hallucinations et échouent souvent à aligner leurs interprétations visuelles avec le contenu réel de l'image et le raisonnement humain. Pour combler cette lacune, nous construisons un ensemble de données d'images générées par l'IA annotées avec des cadres de délimitation et des légendes descriptives qui mettent en évidence les artefacts de synthèse, établissant ainsi une base pour un raisonnement visuel-textuel ancré et aligné sur l'homme. Nous affinons ensuite les MLLMs grâce à une stratégie d'optimisation en plusieurs étapes qui équilibre progressivement les objectifs de détection précise, de localisation visuelle et d'explication textuelle cohérente. Le modèle résultant obtient des performances supérieures à la fois dans la détection des images générées par l'IA et dans la localisation des défauts visuels, surpassant significativement les méthodes de référence.
Les grands modèles de langage (LLMs) utilisent des données pour apprendre sur le monde afin de produire des corrélations et des prédictions significatives. Ainsi, la nature, l'échelle, la qualité et la diversité des ensembles de données utilisés pour entraîner ces modèles, ou pour soutenir leur travail au moment de l'inférence, ont un impact direct sur leur qualité. Le développement rapide et l'adoption de LLMs de qualité variable ont mis en lumière la rareté des données d'entraînement de haute qualité disponibles publiquement et révélé un besoin urgent d'ancrer la gestion de ces ensembles de données dans des pratiques durables avec des chaînes de provenance claires. À cette fin, ce rapport technique présente Institutional Books 1.0, une vaste collection de livres du domaine public initialement numérisés grâce à la participation de la bibliothèque de Harvard au projet Google Books, commencé en 2006. En collaboration avec la bibliothèque de Harvard, nous avons extrait, analysé et traité ces volumes en un ensemble de données de textes historiques largement documenté. Cette analyse couvre l'intégralité de la collection de la bibliothèque de Harvard numérisée dans le cadre de ce projet, comprenant à l'origine 1 075 899 volumes écrits dans plus de 250 langues différentes, pour un total d'environ 250 milliards de tokens. Dans le cadre de cette première version, le texte extrait par OCR (original et post-traité) ainsi que les métadonnées (bibliographiques, sources et générées) des 983 004 volumes, soit 242 milliards de tokens, identifiés comme étant dans le domaine public, ont été rendus disponibles. Ce rapport décrit les objectifs et les méthodes de ce projet ainsi que les résultats des analyses que nous avons effectuées, le tout dans le but de rendre cette collection historique plus accessible et plus facile à filtrer, lire et utiliser, tant pour les humains que pour les machines.
Le paradigme actuel de mise à l'échelle au moment du test repose sur la génération de longues traces de raisonnement ("penser davantage") avant de produire une réponse. Dans les problèmes d'agents nécessitant une interaction, cela peut être réalisé en générant des traces de réflexion avant d'agir dans l'environnement. Cependant, ce processus ne permet pas aux agents d'acquérir de nouvelles informations de l'environnement ou d'adapter leur comportement au fil du temps. Dans ce travail, nous proposons de mettre à l'échelle l'interaction au moment du test, une dimension inexploitée de la mise à l'échelle au moment du test qui augmente l'horizon d'interaction de l'agent pour permettre l'exécution de comportements riches tels que l'exploration, le retour en arrière et la re-planification dynamique au sein d'un seul déploiement. Pour démontrer le potentiel de cette dimension de mise à l'échelle, nous étudions le domaine des agents web. Nous montrons d'abord que même une mise à l'échelle de l'interaction basée sur des prompts, sans aucun entraînement, peut améliorer de manière non triviale la réussite des tâches sur des benchmarks web. Sur cette base, nous introduisons TTI (Test-Time Interaction), une approche d'apprentissage par renforcement en ligne (RL) basée sur un curriculum qui entraîne les agents en ajustant de manière adaptative la longueur de leurs déploiements. En utilisant un modèle Gemma 3 12B, TTI produit des agents web open-source et open-data de pointe sur les benchmarks WebVoyager et WebArena. Nous montrons en outre que TTI permet aux agents d'équilibrer de manière adaptative l'exploration et l'exploitation. Nos résultats établissent la mise à l'échelle de l'interaction comme un axe puissant et complémentaire à la mise à l'échelle du calcul par étape, ouvrant de nouvelles voies pour l'entraînement d'agents adaptatifs.
L'adaptation efficace en paramètres du modèle de pré-entraînement image-texte CLIP pour la recherche vidéo-texte constitue un domaine de recherche important. Bien que CLIP se concentre sur l'appariement vision-langage au niveau de l'image, la recherche vidéo-texte nécessite une compréhension approfondie au niveau de la vidéo. Trois écarts clés émergent lors du passage du niveau image au niveau vidéo : la vision, le langage et l'alignement. Cependant, les méthodes existantes se focalisent principalement sur la vision tout en négligeant le langage et l'alignement. Dans cet article, nous proposons Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), qui atténue simultanément ces trois écarts. Plus précisément, nous introduisons Image-Video Features Fusion pour intégrer les caractéristiques au niveau de l'image et de la vidéo, abordant ainsi efficacement les écarts liés à la vision et au langage. De plus, nous générons des pseudo-légendes d'images pour apprendre un alignement fin au niveau de l'image. Pour atténuer les écarts d'alignement, nous proposons Image-to-Video Alignment Distillation, qui exploite les connaissances d'alignement au niveau de l'image pour améliorer l'alignement au niveau de la vidéo. Des expériences approfondies démontrent la supériorité de notre DiscoVLA. En particulier, sur MSRVTT avec CLIP (ViT-B/16), DiscoVLA surpasse les méthodes précédentes de 1,5 % en R@1, atteignant un score final de 50,5 % R@1. Le code est disponible à l'adresse https://github.com/LunarShen/DsicoVLA.
Des études récentes intègrent l'Adaptation à Faible Rang (LoRA) et le Modèle de Mélange d'Experts (MoE) pour améliorer davantage les performances des méthodes de réglage fin efficace en paramètres (PEFT) dans les applications de modèles de langage à grande échelle (LLM). Les méthodes existantes utilisent des architectures MoE-LoRA homogènes composées d'experts LoRA ayant des structures et des capacités similaires ou identiques. Cependant, ces approches souffrent souvent d'un effondrement de la représentation et d'un déséquilibre de charge entre les experts, ce qui affecte négativement le potentiel des LLM. Pour relever ces défis, nous proposons une approche hétérogène de Mélange d'Adaptateurs (MoA). Cette méthode intègre dynamiquement des experts d'adaptation PEFT avec des structures diverses, en tirant parti de leurs capacités de représentation complémentaires pour favoriser la spécialisation des experts, améliorant ainsi le transfert efficace des connaissances pré-entraînées vers les tâches en aval. MoA propose deux variantes : (i) Soft MoA réalise une intégration fine en effectuant une fusion pondérée de toutes les sorties des experts ; (ii) Sparse MoA active les experts d'adaptation de manière parcimonieuse en fonction de leur contribution, atteignant cet objectif avec une dégradation de performance négligeable. Les résultats expérimentaux montrent que MoA hétérogène surpasse les méthodes MoE-LoRA homogènes à la fois en termes de performance et d'efficacité en paramètres. Notre projet est disponible à l'adresse https://github.com/DCDmllm/MoA.
Les récentes avancées dans les modèles de langage de grande taille montrent un fort potentiel pour le raisonnement formel. Cependant, la plupart des démonstrateurs de théorèmes basés sur ces modèles ont longtemps été limités par la nécessité de disposer d'énoncés formels rédigés par des experts en entrée, ce qui restreint leur applicabilité aux problèmes du monde réel exprimés en langage naturel. Nous abordons cette lacune avec Mathesis, le premier pipeline de démonstration de théorèmes de bout en bout traitant des énoncés de problèmes informels. Il introduit Mathesis-Autoformalizer, le premier autoformaliseur utilisant l'apprentissage par renforcement pour améliorer la capacité de formalisation des problèmes en langage naturel, soutenu par notre nouveau cadre LeanScorer pour une évaluation nuancée de la qualité de la formalisation. Il propose également Mathesis-Prover, qui génère des preuves formelles à partir des énoncés formalisés. Pour évaluer l'applicabilité réelle de la démonstration de théorèmes formels de bout en bout, nous introduisons Gaokao-Formal, un benchmark de 488 problèmes complexes issus de l'examen national d'entrée à l'université en Chine. Notre approche est soigneusement conçue, avec une étude approfondie de chaque composant. Les expériences démontrent l'efficacité de Mathesis, avec l'autoformaliseur surpassant le meilleur modèle de référence de 22 % en taux de réussite sur Gaokao-Formal. Le système complet surpasse les autres combinaisons de modèles, atteignant une précision de 64 % sur MiniF2F avec pass@32 et un résultat de pointe de 18 % sur Gaokao-Formal.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) offrent un potentiel prometteur pour les applications financières, mais introduisent des défis critiques en matière de précision et de conformité dans le domaine du Reporting Réglementaire Numérique (DRR). Pour répondre à ces problématiques, nous proposons RKEFino1, un modèle de raisonnement financier enrichi par des connaissances réglementaires, construit sur la base de Fino1 et affiné avec des connaissances spécifiques issues de XBRL, CDM et MOF. Nous formulons deux tâches de question-réponse - basées sur les connaissances et le raisonnement mathématique - et introduisons une nouvelle tâche de Reconnaissance d'Entités Nominales (NER) numérique couvrant les entités financières dans les phrases et les tableaux. Les résultats expérimentaux démontrent l'efficacité et la capacité de généralisation de RKEFino1 dans des tâches financières critiques pour la conformité. Nous avons rendu notre modèle disponible sur Hugging Face.
Cet article présente MMRefine, un benchmark de Raffinement Multimodal conçu pour évaluer les capacités de correction d'erreurs des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Alors que l'accent se déplace vers l'amélioration du raisonnement lors de l'inférence, MMRefine propose un cadre qui évalue les capacités des MLLMs à détecter et corriger les erreurs dans six scénarios distincts, au-delà de la simple comparaison de la précision finale avant et après le raffinement. De plus, le benchmark analyse la performance de raffinement en catégorisant les erreurs en six types d'erreurs. Les expériences menées avec divers MLLMs ouverts et fermés révèlent des goulots d'étranglement et des facteurs entravant la performance de raffinement, mettant en lumière des domaines à améliorer pour un renforcement efficace du raisonnement. Notre code et notre ensemble de données sont disponibles publiquement à l'adresse suivante : https://github.com/naver-ai/MMRefine.
Le système de Réponse aux Questions sur les Produits basé sur les Avis (PQA) permet aux plateformes de commerce électronique de répondre automatiquement aux requêtes des clients en exploitant les informations issues des avis utilisateurs. Cependant, les systèmes PQA existants génèrent des réponses présentant une perspective unique, ne parvenant pas à capturer la diversité des opinions des clients. Dans cet article, nous introduisons une nouvelle tâche appelée Synthèse Quantitative Centrée sur la Requête (QQSUM), qui vise à résumer les diverses opinions des clients en Points Clés (KPs) représentatifs et à quantifier leur prévalence pour répondre efficacement aux questions des utilisateurs. Bien que la Génération Augmentée par Récupération (RAG) montre des promesses pour le PQA, les réponses générées ne parviennent toujours pas à capturer toute la diversité des points de vue. Pour relever ce défi, notre modèle QQSUM-RAG, qui étend RAG, utilise l'apprentissage en few-shot pour entraîner conjointement un récupérateur orienté KPs et un générateur de résumés KPs, permettant ainsi des synthèses basées sur les KPs qui capturent des opinions diverses et représentatives. Les résultats expérimentaux démontrent que QQSUM-RAG obtient des performances supérieures par rapport aux modèles de référence RAG de pointe, tant en termes de qualité textuelle que de précision dans la quantification des opinions. Notre code source est disponible à l'adresse suivante : https://github.com/antangrocket1312/QQSUMM