papers.title

papers.description

GHOST 2.0 : transfert génératif haute fidélité en une seule étape de têtes
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Alors que la tâche d'échange de visages a récemment attiré l'attention de la communauté de recherche, un problème connexe, celui de l'échange de têtes, reste largement inexploré. En plus du transfert de couleur de peau, l'échange de têtes pose des défis supplémentaires, tels que la nécessité de préserver les informations structurelles de l'ensemble de la tête lors de la synthèse et de combler les lacunes entre la tête échangée et l'arrière-plan. Dans cet article, nous abordons ces préoccupations avec GHOST 2.0, qui se compose de deux modules spécifiques au problème. Tout d'abord, nous introduisons un modèle Aligner amélioré pour la réanimation de la tête, qui préserve les informations d'identité à plusieurs échelles et est robuste aux variations extrêmes de pose. Ensuite, nous utilisons un module Blender qui intègre de manière transparente la tête réanimée dans l'arrière-plan cible en transférant la couleur de peau et en comblant les régions mal assorties. Les deux modules surpassent les références dans les tâches correspondantes, permettant d'obtenir des résultats de pointe dans l'échange de têtes. Nous abordons également des cas complexes, tels que de grandes différences dans les styles de cheveux entre la source et la cible. Le code est disponible à l'adresse suivante : https://github.com/ai-forever/ghost-2.0

Kanana : Modèles de langage bilingues à efficacité computationnelle
Kanana: Compute-efficient Bilingual Language Models

Feb 26

ByKanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo

Nous présentons Kanana, une série de modèles linguistiques bilingues qui démontrent des performances exceptionnelles en coréen et des performances compétitives en anglais. Le coût computationnel de Kanana est nettement inférieur à celui des modèles de pointe de taille similaire. Ce rapport détaille les techniques employées lors du pré-entraînement pour obtenir des modèles à la fois efficaces en termes de calcul et compétitifs, incluant le filtrage de données de haute qualité, le pré-entraînement par étapes, la mise à l'échelle en profondeur, ainsi que l'élagage et la distillation. De plus, le rapport décrit les méthodologies utilisées lors du post-entraînement des modèles Kanana, comprenant le réglage fin supervisé et l'optimisation des préférences, visant à améliorer leur capacité à interagir de manière fluide avec les utilisateurs. Enfin, le rapport explore les approches plausibles utilisées pour l'adaptation des modèles linguistiques à des scénarios spécifiques, tels que l'incorporation, la génération augmentée par récupération et l'appel de fonctions. La série de modèles Kanana couvre des tailles allant de 2,1 milliards à 32,5 milliards de paramètres, avec les modèles de 2,1 milliards de paramètres (base, instruct, embedding) publiés publiquement pour promouvoir la recherche sur les modèles linguistiques coréens.

Vers un assistant scientifique basé sur l'intelligence artificielle
Towards an AI co-scientist

Feb 26

ByJuraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Yuan Guan, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan

La découverte scientifique repose sur la capacité des scientifiques à générer des hypothèses novatrices qui subissent une validation expérimentale rigoureuse. Pour renforcer ce processus, nous introduisons un co-scientifique IA, un système multi-agents construit sur Gemini 2.0. Ce co-scientifique IA vise à aider à découvrir de nouvelles connaissances originales et à formuler des hypothèses et propositions de recherche démontrablement innovantes, en s'appuyant sur des preuves antérieures et en s'alignant sur les objectifs et directives de recherche fournis par les scientifiques. La conception du système intègre une approche de génération, débat et évolution des hypothèses, inspirée par la méthode scientifique et accélérée par la mise à l'échelle des ressources de calcul au moment des tests. Les contributions clés incluent : (1) une architecture multi-agents avec un cadre d'exécution de tâches asynchrones pour une mise à l'échelle flexible des ressources de calcul ; (2) un processus d'évolution par tournoi pour l'amélioration continue de la génération d'hypothèses. Les évaluations automatisées montrent des bénéfices continus de l'augmentation des ressources de calcul, améliorant la qualité des hypothèses. Bien que généraliste, nous concentrons le développement et la validation dans trois domaines biomédicaux : le repositionnement de médicaments, la découverte de nouvelles cibles, et l'explication des mécanismes de l'évolution bactérienne et de la résistance aux antimicrobiens. Pour le repositionnement de médicaments, le système propose des candidats avec des résultats de validation prometteurs, y compris des candidats pour la leucémie myéloïde aiguë montrant une inhibition tumorale in vitro à des concentrations cliniquement applicables. Pour la découverte de nouvelles cibles, le co-scientifique IA a proposé de nouvelles cibles épigénétiques pour la fibrose hépatique, validées par une activité anti-fibrotique et une régénération des cellules hépatiques dans des organoïdes hépatiques humains. Enfin, le co-scientifique IA a reproduit des résultats expérimentaux non publiés via une découverte in silico parallèle d'un nouveau mécanisme de transfert de gènes dans l'évolution bactérienne. Ces résultats, détaillés dans des rapports séparés et synchronisés, démontrent le potentiel d'améliorer la découverte biomédicale et scientifique et d'inaugurer une ère de scientifiques renforcés par l'IA.

TheoremExplainAgent : Vers des explications multimodales pour la compréhension des théorèmes par les LLM
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Comprendre les théorèmes spécifiques à un domaine nécessite souvent plus qu'un simple raisonnement textuel ; une communication efficace à travers des explications visuelles structurées est cruciale pour une compréhension approfondie. Bien que les grands modèles de langage (LLMs) démontrent des performances solides dans le raisonnement textuel sur les théorèmes, leur capacité à générer des explications visuelles cohérentes et pédagogiquement significatives reste un défi ouvert. Dans ce travail, nous présentons TheoremExplainAgent, une approche agentive pour générer des vidéos d'explication de théorèmes de longue durée (plus de 5 minutes) en utilisant des animations Manim. Pour évaluer systématiquement les explications multimodales de théorèmes, nous proposons TheoremExplainBench, un benchmark couvrant 240 théorèmes à travers plusieurs disciplines STEM, ainsi que 5 métriques d'évaluation automatisées. Nos résultats révèlent que la planification agentive est essentielle pour générer des vidéos détaillées de longue durée, et l'agent o3-mini atteint un taux de réussite de 93,8 % et un score global de 0,77. Cependant, nos études quantitatives et qualitatives montrent que la plupart des vidéos produites présentent des problèmes mineurs dans la disposition des éléments visuels. De plus, les explications multimodales révèlent des failles de raisonnement plus profondes que les explications textuelles ne parviennent pas à dévoiler, soulignant l'importance des explications multimodales.

Abstract Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains. However, their performance in low-resource languages and specialized domains remains understudied. This paper introduces Plutus, a novel benchmark specifically designed to evaluate LLMs in the context of low-resource Greek finance. Plutus comprises a diverse set of tasks, including financial text classification, named entity recognition, and question answering, all tailored to the Greek financial domain. We evaluate several state-of-the-art LLMs on Plutus, revealing significant performance gaps and highlighting the challenges of adapting these models to low-resource settings. Our findings underscore the need for targeted improvements in LLM training and evaluation for specialized domains and low-resource languages. The Plutus benchmark and associated datasets are publicly released to facilitate further research in this area.Plutus : Évaluation des modèles de langage de grande taille dans le domaine de la finance grecque à ressources limitées Résumé Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans divers domaines. Cependant, leurs performances dans les langues à ressources limitées et les domaines spécialisés restent peu étudiées. Cet article présente Plutus, un nouveau benchmark spécialement conçu pour évaluer les LLMs dans le contexte de la finance grecque à ressources limitées. Plutus comprend un ensemble diversifié de tâches, incluant la classification de textes financiers, la reconnaissance d'entités nommées et le question-réponse, toutes adaptées au domaine financier grec. Nous évaluons plusieurs LLMs de pointe sur Plutus, révélant des écarts de performance significatifs et mettant en lumière les défis liés à l'adaptation de ces modèles à des contextes à ressources limitées. Nos résultats soulignent la nécessité d'améliorations ciblées dans l'entraînement et l'évaluation des LLMs pour les domaines spécialisés et les langues à ressources limitées. Le benchmark Plutus et les ensembles de données associés sont rendus publics pour faciliter les recherches ultérieures dans ce domaine.
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

Malgré le rôle central de la Grèce dans l'économie mondiale, les grands modèles de langage (LLMs) restent sous-explorés dans le contexte financier grec en raison de la complexité linguistique du grec et de la rareté des ensembles de données spécifiques au domaine. Les efforts précédents en traitement du langage naturel (NLP) financier multilingue ont révélé des disparités de performance considérables, mais aucun benchmark financier grec dédié ou LLM financier spécifique au grec n'a été développé jusqu'à présent. Pour combler cette lacune, nous introduisons Plutus-ben, le premier benchmark d'évaluation financière grec, et Plutus-8B, le premier LLM financier grec, affiné avec des données spécifiques au domaine grec. Plutus-ben aborde cinq tâches principales de NLP financier en grec : la reconnaissance d'entités nommées numériques et textuelles, la réponse à des questions, la synthèse abstraite et la classification thématique, facilitant ainsi des évaluations systématiques et reproductibles des LLMs. Pour soutenir ces tâches, nous présentons trois nouveaux ensembles de données financiers grecs de haute qualité, annotés minutieusement par des experts locuteurs natifs grecs, enrichis par deux ressources existantes. Notre évaluation complète de 22 LLMs sur Plutus-ben révèle que le NLP financier grec reste difficile en raison de la complexité linguistique, de la terminologie spécifique au domaine et des lacunes en raisonnement financier. Ces résultats soulignent les limites du transfert translinguistique, la nécessité d'une expertise financière dans les modèles formés en grec et les défis liés à l'adaptation des LLMs financiers au texte grec. Nous rendons publics Plutus-ben, Plutus-8B et tous les ensembles de données associés pour promouvoir la recherche reproductible et faire progresser le NLP financier grec, favorisant ainsi une inclusion multilingue plus large dans le domaine financier.

La factualité des modèles de langage dépend de la langue d'interrogation
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Les modèles de langage multilingues (LM) sont censés mémoriser les connaissances factuelles de manière cohérente à travers les langues, mais ils échouent souvent à transférer les connaissances entre les langues, même lorsqu'ils possèdent l'information correcte dans l'une d'elles. Par exemple, nous constatons qu'un LM peut identifier correctement Rashed Al Shashai comme étant originaire d'Arabie saoudite lorsqu'on l'interroge en arabe, mais échoue systématiquement à le faire lorsqu'on l'interroge en anglais ou en swahili. Pour étudier systématiquement cette limitation, nous introduisons un benchmark de 10 000 faits liés aux pays dans 13 langues et proposons trois nouvelles métriques : le Score de Rappel Factuel, le Score de Transférabilité des Connaissances et le Score de Transférabilité des Connaissances Factuelles Translinguales - afin de quantifier le rappel factuel et la transférabilité des connaissances dans les LM à travers différentes langues. Nos résultats révèlent des faiblesses fondamentales dans les LM actuels de pointe, en particulier dans la généralisation translinguale où les modèles échouent à transférer efficacement les connaissances entre différentes langues, conduisant à une performance incohérente sensible à la langue utilisée. Nos conclusions soulignent la nécessité pour les LM de reconnaître la fiabilité factuelle spécifique à chaque langue et d'exploiter les informations les plus fiables à travers les langues. Nous publions notre benchmark et cadre d'évaluation pour stimuler les recherches futures sur le transfert de connaissances multilingues.

Rank1 : Calcul au moment du test pour le réordonnancement en recherche d'information
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

Nous présentons Rank1, le premier modèle de réordonnancement entraîné pour tirer parti du calcul au moment de l'inférence. Rank1 démontre l'applicabilité dans le domaine de la recherche d'utiliser un modèle de langage de raisonnement (par exemple, OpenAI's o1, Deepseek's R1, etc.) pour la distillation afin d'améliorer rapidement les performances d'un modèle plus petit. Nous avons rassemblé et rendu public un ensemble de données de plus de 600 000 exemples de traces de raisonnement R1 issues de requêtes et de passages de MS MARCO. Les modèles entraînés sur cet ensemble de données montrent : (1) des performances de pointe sur des ensembles de données avancés de raisonnement et de suivi d'instructions ; (2) une remarquable capacité à fonctionner hors distribution grâce à leur aptitude à répondre aux invites de l'utilisateur ; et (3) des chaînes de raisonnement explicables qui peuvent être fournies aux utilisateurs ou à des systèmes basés sur RAG. De plus, nous démontrons que les versions quantifiées de ces modèles conservent de solides performances tout en utilisant moins de calcul/mémoire. Globalement, Rank1 montre que le calcul au moment de l'inférence permet un nouveau type fondamental de modèle de réordonnancement explicable et performant pour la recherche.

Les grands modèles de langage peuvent-ils détecter les erreurs dans les raisonnements en chaîne de pensée complexes ?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

Récemment, les modèles de type o1 ont suscité une attention considérable, ces modèles produisant de longues étapes de raisonnement en chaîne (Chain-of-Thought, CoT) pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs) existants. Dans cet article, afin de comprendre les qualités de ces longues CoTs et de mesurer les capacités de critique des LLMs existants sur ces longues CoTs, nous introduisons DeltaBench, qui inclut les longues CoTs générées par différents modèles de type o1 (par exemple, QwQ, DeepSeek-R1) pour diverses tâches de raisonnement (par exemple, mathématiques, code, raisonnement général), afin de mesurer la capacité à détecter les erreurs dans le raisonnement en longue CoT. Sur la base de DeltaBench, nous effectuons d'abord une analyse fine des longues CoTs générées pour découvrir l'efficacité et l'efficience des différents modèles de type o1. Ensuite, nous menons des évaluations approfondies des modèles de récompense de processus (Process Reward Models, PRMs) et des modèles critiques existants pour détecter les erreurs de chaque processus annoté, dans le but d'explorer les limites et les contraintes des PRMs et des modèles critiques actuels. Enfin, nous espérons que DeltaBench pourra guider les développeurs à mieux comprendre les capacités de raisonnement en longue CoT de leurs modèles.

La modélisation de récompenses agentique : intégration des préférences humaines avec des signaux de vérifiabilité pour des systèmes de récompenses fiables
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

Les modèles de récompense (RMs) sont essentiels pour l'entraînement et le passage à l'échelle lors de l'inférence des grands modèles de langage (LLMs). Cependant, les modèles de récompense existants se concentrent principalement sur les préférences humaines, négligeant les signaux de vérifiabilité qui ont montré un fort potentiel dans l'entraînement des LLMs. Dans cet article, nous proposons la modélisation de récompense agentique, un système de récompense qui combine des modèles de récompense avec des signaux de vérifiabilité provenant de différents aspects pour fournir des récompenses fiables. Nous mettons empiriquement en œuvre un agent de récompense, nommé RewardAgent, qui combine les récompenses basées sur les préférences humaines avec deux signaux vérifiables : la factualité et le suivi des instructions, pour fournir des récompenses plus fiables. Nous menons des expériences approfondies sur des benchmarks existants de modèles de récompense et des recherches de meilleur choix parmi n lors de l'inférence sur des tâches en aval du monde réel. RewardAgent surpasse significativement les modèles de récompense classiques, démontrant son efficacité. Nous construisons ensuite des paires de préférences d'entraînement en utilisant RewardAgent et entraînons un LLM avec l'objectif DPO, obtenant des performances supérieures sur divers benchmarks NLP par rapport aux modèles de récompense conventionnels. Nos codes sont publiés publiquement pour faciliter les recherches futures (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Projet Alexandria : Vers la libération des connaissances scientifiques des contraintes du droit d'auteur grâce aux modèles de langage
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

Les paywalls, les licences et les règles de droit d'auteur limitent souvent la diffusion large et la réutilisation des connaissances scientifiques. Nous soutenons qu'il est à la fois légalement et techniquement possible d'extraire les connaissances scientifiques contenues dans les textes académiques. Les méthodes actuelles, comme les embeddings de texte, ne parviennent pas à préserver de manière fiable le contenu factuel, et une simple paraphrase peut ne pas être juridiquement valable. Nous encourageons la communauté à adopter une nouvelle idée : convertir les documents académiques en Unités de Connaissance à l'aide de modèles de langage (LLMs). Ces unités utilisent des données structurées capturant les entités, attributs et relations sans contenu stylistique. Nous fournissons des preuves que les Unités de Connaissance : (1) constituent un cadre juridiquement défendable pour partager les connaissances issues de textes de recherche protégés par le droit d'auteur, basé sur des analyses juridiques du droit d'auteur allemand et de la doctrine du Fair Use américain, et (2) préservent la majorité (~95%) des connaissances factuelles du texte original, mesurées par la performance sur des QCM portant sur des faits issus du texte original protégé par le droit d'auteur dans quatre domaines de recherche. Libérer les connaissances scientifiques du droit d'auteur promet des avantages transformateurs pour la recherche et l'éducation scientifiques en permettant aux modèles de langage de réutiliser des faits importants provenant de textes protégés. Pour soutenir cela, nous partageons des outils open-source pour convertir les documents de recherche en Unités de Connaissance. Globalement, notre travail postule la faisabilité de démocratiser l'accès aux connaissances scientifiques tout en respectant le droit d'auteur.

Les modèles de langage peuvent-ils falsifier ? Évaluation du raisonnement algorithmique par la création de contre-exemples
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

L'enthousiasme grandit quant au potentiel des modèles de langage (LMs) pour accélérer les découvertes scientifiques. La falsification des hypothèses est essentielle au progrès scientifique, car elle permet d'affiner les affirmations de manière itérative au fil du temps. Ce processus nécessite un effort, un raisonnement et une ingéniosité significatifs de la part des chercheurs. Pourtant, les benchmarks actuels pour les LMs évaluent principalement leur capacité à générer des solutions plutôt qu'à les remettre en question. Nous plaidons pour le développement de benchmarks qui évaluent cette capacité inverse - la création de contre-exemples pour des solutions subtilement incorrectes. Pour démontrer cette approche, nous commençons par le domaine de la résolution de problèmes algorithmiques, où les contre-exemples peuvent être évalués automatiquement par exécution de code. Plus précisément, nous introduisons REFUTE, un benchmark dynamiquement mis à jour qui inclut des problèmes récents et des soumissions incorrectes issues de compétitions de programmation, où des experts humains ont réussi à identifier des contre-exemples. Notre analyse révèle que les meilleurs agents de raisonnement, même OpenAI o3-mini (haut) avec retour d'exécution de code, ne parviennent à créer des contre-exemples que pour <9 % des solutions incorrectes dans REFUTE, bien que les évaluations indiquent sa capacité à résoudre jusqu'à 48 % de ces problèmes à partir de zéro. Nous espérons que notre travail stimulera les progrès dans l'évaluation et l'amélioration de la capacité des LMs à falsifier des solutions incorrectes - une capacité cruciale à la fois pour accélérer la recherche et pour permettre aux modèles de s'améliorer par eux-mêmes grâce à un raisonnement réflexif fiable.

VEM : Exploration Sans Environnement pour l'Entraînement d'Agents d'Interface Graphique avec un Modèle de Valeur
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

L'entraînement de modèles vision-langage (VLMs) pour les agents d'interfaces graphiques (GUI) via l'apprentissage par renforcement (RL) présente des défis majeurs : le RL basé sur l'environnement nécessite des interactions coûteuses, tandis que les méthodes indépendantes de l'environnement peinent à gérer le décalage de distribution et la généralisation des récompenses. Nous proposons un cadre de RL indépendant de l'environnement qui découple l'estimation de la valeur de l'optimisation de la politique en exploitant un modèle d'environnement de valeur (VEM) préentraîné. Le VEM prédit directement les valeurs état-action à partir de données hors ligne, distillant des connaissances préalables de type humain sur les résultats des interactions avec les GUI sans nécessiter de prédiction de l'état suivant ni de retour d'environnement. Cela évite l'accumulation d'erreurs et renforce la résilience aux changements d'interface en se concentrant sur le raisonnement sémantique (par exemple, cette action fait-elle progresser l'objectif de l'utilisateur ?). Le cadre opère en deux étapes : (1) pré-entraîner le VEM pour estimer les utilités à long terme des actions et (2) guider l'exploration de la politique avec les signaux du VEM figé, permettant une automatisation des GUI indépendante de la mise en page. Évalué sur des benchmarks Android-in-the-Wild, le VEM atteint des performances de pointe dans les contextes hors ligne et en ligne, surpassant significativement les méthodes de référence indépendantes de l'environnement et égalant les approches basées sur l'environnement sans les coûts d'interaction. Fait notable, le VEM démontre qu'une estimation de valeur consciente de la sémantique peut atteindre des performances comparables aux méthodes entraînées en ligne.

CritiQ : Extraction de critères de qualité des données à partir des préférences humaines
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

Les modèles de langage dépendent fortement de données de haute qualité pour des performances optimales. Les approches existantes s'appuient sur des heuristiques conçues manuellement, la perplexité des modèles existants, l'entraînement de classificateurs ou un ingénierie minutieuse des prompts, ce qui nécessite une expertise significative et un effort important d'annotation humaine, tout en introduisant des biais. Nous présentons CritiQ, une nouvelle méthode de sélection de données qui extrait automatiquement des critères à partir des préférences humaines concernant la qualité des données, avec seulement 30 paires annotées manuellement, et effectue une sélection de données efficace. Le composant principal, CritiQ Flow, utilise un agent manager pour faire évoluer les critères de qualité et des agents worker pour effectuer des jugements par paires. Nous construisons une base de connaissances qui extrait les critères de qualité des travaux précédents pour renforcer CritiQ Flow. Par rapport aux méthodes basées sur la perplexité et les classificateurs, les critères verbaux sont plus interprétables et possèdent une valeur réutilisable. Après avoir dérivé les critères, nous entraînons le CritiQ Scorer pour attribuer des scores de qualité et effectuer une sélection de données efficace. Nous démontrons l'efficacité de notre méthode dans les domaines du code, des mathématiques et de la logique, atteignant une haute précision sur des ensembles de tests annotés manuellement. Pour valider la qualité des données sélectionnées, nous entraînons continuellement des modèles Llama 3.1 et observons une amélioration des performances sur les tâches en aval par rapport à un échantillonnage uniforme. Des études d'ablation valident les avantages de la base de connaissances et du processus de réflexion. Nous analysons comment les critères évoluent et l'efficacité du vote à la majorité.

Distill Any Depth : La distillation crée un estimateur de profondeur monoculaire plus performant
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

L'estimation de profondeur monoculaire (MDE) vise à prédire la profondeur d'une scène à partir d'une seule image RGB et joue un rôle crucial dans la compréhension des scènes 3D. Les avancées récentes en MDE zero-shot exploitent des représentations de profondeur normalisées et un apprentissage par distillation pour améliorer la généralisation à travers des scènes variées. Cependant, les méthodes actuelles de normalisation de la profondeur pour la distillation, reposant sur une normalisation globale, peuvent amplifier les pseudo-étiquettes bruitées, réduisant ainsi l'efficacité de la distillation. Dans cet article, nous analysons systématiquement l'impact de différentes stratégies de normalisation de la profondeur sur la distillation des pseudo-étiquettes. Sur la base de nos observations, nous proposons la Distillation Trans-contextuelle, qui intègre des indices de profondeur globaux et locaux pour améliorer la qualité des pseudo-étiquettes. De plus, nous introduisons un cadre de distillation multi-enseignants qui exploite les forces complémentaires de différents modèles d'estimation de profondeur, conduisant à des prédictions de profondeur plus robustes et précises. Des expériences approfondies sur des ensembles de données de référence démontrent que notre approche surpasse significativement les méthodes de pointe, à la fois quantitativement et qualitativement.

BIG-Bench Extra Difficile
BIG-Bench Extra Hard

Feb 26

ByMehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat

Les grands modèles de langage (LLM) sont de plus en plus déployés dans des applications quotidiennes, nécessitant des capacités de raisonnement général robustes et un ensemble diversifié de compétences en raisonnement. Cependant, les benchmarks actuels évaluant le raisonnement des LLM se concentrent principalement sur les aptitudes mathématiques et de codage, laissant un vide dans l'évaluation des compétences de raisonnement plus larges. Une exception notable est le jeu de données BIG-Bench, qui a servi de référence cruciale pour évaluer les capacités de raisonnement général des LLM, grâce à son ensemble varié de tâches complexes permettant une évaluation complète du raisonnement général à travers diverses compétences dans un cadre unifié. Cependant, les récentes avancées des LLM ont conduit à une saturation sur BIG-Bench et sa version plus difficile, BIG-Bench Hard (BBH). Les modèles de pointe atteignent des scores quasi parfaits sur de nombreuses tâches de BBH, réduisant ainsi son utilité. Pour pallier cette limitation, nous introduisons BIG-Bench Extra Hard (BBEH), un nouveau benchmark conçu pour repousser les limites de l'évaluation du raisonnement des LLM. BBEH remplace chaque tâche de BBH par une nouvelle tâche qui explore une capacité de raisonnement similaire mais présente une difficulté significativement accrue. Nous évaluons divers modèles sur BBEH et observons une précision moyenne (harmonique) de 9,8 % pour le meilleur modèle à usage général et de 44,8 % pour le meilleur modèle spécialisé en raisonnement, indiquant une marge d'amélioration substantielle et soulignant le défi continu d'atteindre un raisonnement général robuste dans les LLM. Nous rendons BBEH public à l'adresse suivante : https://github.com/google-deepmind/bbeh.

MMKE-Bench : Un banc d'essai d'édition multimodale pour une connaissance visuelle diversifiée.
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

Les techniques d'édition de connaissances ont émergé comme des outils essentiels pour mettre à jour les connaissances factuelles des grands modèles de langage (LLMs) et des modèles multimodaux (LMMs), leur permettant de corriger les informations obsolètes ou inexactes sans devoir être réentraînés à partir de zéro. Cependant, les référentiels existants pour l'édition de connaissances multimodales se concentrent principalement sur les connaissances au niveau des entités représentées sous forme de triplets simples, ce qui ne parvient pas à capturer la complexité des informations multimodales du monde réel. Pour résoudre ce problème, nous introduisons MMKE-Bench, un référentiel complet d'édition de connaissances multimodales, conçu pour évaluer la capacité des LMMs à éditer des connaissances visuelles diverses dans des scénarios du monde réel. MMKE-Bench aborde ces limitations en incorporant trois types de tâches d'édition : l'édition d'entités visuelles, l'édition sémantique visuelle et l'édition spécifique à l'utilisateur. De plus, MMKE-Bench utilise un langage naturel libre pour représenter et éditer les connaissances, offrant un format plus flexible et efficace. Le référentiel se compose de 2 940 éléments de connaissances et de 8 363 images réparties dans 33 catégories larges, avec des questions d'évaluation générées automatiquement et vérifiées par des humains. Nous évaluons cinq méthodes d'édition de connaissances de pointe sur trois LMMs de premier plan, révélant qu'aucune méthode n'excelle dans tous les critères, et que les éditions visuelles et spécifiques à l'utilisateur sont particulièrement difficiles. MMKE-Bench établit une nouvelle norme pour évaluer la robustesse des techniques d'édition de connaissances multimodales, favorisant les progrès dans ce domaine en évolution rapide.

FSPO : L'optimisation des préférences en quelques exemples de données de préférence synthétiques dans les LLM favorise une personnalisation efficace pour les utilisateurs réels
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

La personnalisation efficace des LLM est cruciale pour un large éventail d'applications d'interface utilisateur telles que les assistants virtuels et la curation de contenu. Inspirés par les fortes capacités d'apprentissage en contexte des LLM, nous proposons l'Optimisation des Préférences en Quelques Étapes (FSPO), qui reformule la modélisation de la récompense comme un problème d'apprentissage méta. Dans ce cadre, un LLM apprend à s'adapter rapidement à un utilisateur via quelques préférences étiquetées de cet utilisateur, construisant ainsi une fonction de récompense personnalisée pour celui-ci. De plus, étant donné que les données de préférences du monde réel sont rares et difficiles à collecter à grande échelle, nous proposons des choix de conception soigneux pour construire des ensembles de données de préférences synthétiques pour la personnalisation, générant plus de 1 million de préférences personnalisées synthétiques à l'aide de LLM disponibles publiquement. En particulier, pour réussir le transfert des données synthétiques aux utilisateurs réels, nous considérons crucial que les données présentent à la fois une grande diversité et une structure cohérente et auto-cohérente. Nous évaluons FSPO sur la génération personnalisée ouverte pour jusqu'à 1 500 utilisateurs synthétiques à travers trois domaines : critiques de films, adaptation pédagogique basée sur le parcours éducatif et réponse à des questions générales, ainsi qu'une étude humaine contrôlée. Dans l'ensemble, FSPO atteint un taux de réussite Alpaca Eval de 87 % en moyenne dans la génération de réponses personnalisées pour les utilisateurs synthétiques et un taux de réussite de 72 % avec les utilisateurs humains réels dans la réponse à des questions ouvertes.

MolSpectra : Pré-entraînement de la représentation moléculaire 3D avec des spectres d'énergie multi-modaux
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

Établir la relation entre les structures 3D et les états énergétiques des systèmes moléculaires s'est avéré être une approche prometteuse pour l'apprentissage des représentations moléculaires 3D. Cependant, les méthodes existantes se limitent à modéliser les états énergétiques moléculaires à partir de la mécanique classique. Cette limitation entraîne une négligence significative des effets de la mécanique quantique, tels que les structures d'énergie quantifiées (discrètes), qui offrent une estimation plus précise de l'énergie moléculaire et peuvent être mesurées expérimentalement via les spectres énergétiques. Dans cet article, nous proposons d'utiliser les spectres énergétiques pour améliorer le pré-entraînement des représentations moléculaires 3D (MolSpectra), intégrant ainsi les connaissances de la mécanique quantique dans les représentations moléculaires. Plus précisément, nous proposons SpecFormer, un encodeur multi-spectre pour encoder les spectres moléculaires via la reconstruction de patchs masqués. En alignant davantage les sorties de l'encodeur 3D et de l'encodeur de spectre à l'aide d'un objectif contrastif, nous améliorons la compréhension des molécules par l'encodeur 3D. Les évaluations sur des benchmarks publics révèlent que nos représentations pré-entraînées surpassent les méthodes existantes dans la prédiction des propriétés moléculaires et la modélisation des dynamiques.

Drop-Upcycling : Entraînement d'un mélange parcimonieux d'experts avec ré-initialisation partielle
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

L'architecture Mixture of Experts (MoE) réduit considérablement les coûts d'entraînement et d'inférence par rapport à un modèle dense de capacité équivalente. Le recyclage (upcycling) est une approche qui initialise et entraîne un modèle MoE en utilisant un modèle dense pré-entraîné. Bien que le recyclage entraîne des gains de performance initiaux, la progression de l'entraînement est plus lente que lorsqu'il est effectué à partir de zéro, ce qui conduit à des performances sous-optimales à long terme. Nous proposons Drop-Upcycling - une méthode qui résout efficacement ce problème. Drop-Upcycling combine deux approches apparemment contradictoires : l'utilisation des connaissances des modèles denses pré-entraînés tout en réinitialisant statistiquement certaines parties des poids. Cette approche favorise stratégiquement la spécialisation des experts, améliorant ainsi significativement l'efficacité du modèle MoE dans l'acquisition de connaissances. Des expériences à grande échelle démontrent que Drop-Upcycling surpasse nettement les méthodes précédentes de construction de MoE à long terme, en particulier lors de l'entraînement sur des centaines de milliards de tokens ou plus. En conséquence, notre modèle MoE avec 5,9 milliards de paramètres actifs atteint des performances comparables à un modèle dense de 13 milliards de paramètres dans la même famille de modèles, tout en nécessitant environ 1/4 des FLOPs d'entraînement. Toutes les ressources expérimentales, y compris le code source, les données d'entraînement, les points de contrôle des modèles et les journaux, sont publiquement disponibles pour promouvoir la reproductibilité et les recherches futures sur MoE.

AISafetyLab : Un cadre complet pour l'évaluation et l'amélioration de la sécurité des systèmes d'intelligence artificielle
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

Alors que les modèles d'IA sont de plus en plus déployés dans divers scénarios réels, garantir leur sécurité reste un défi crucial mais encore peu exploré. Bien que des efforts substantiels aient été consacrés à l'évaluation et à l'amélioration de la sécurité de l'IA, l'absence d'un cadre standardisé et d'une boîte à outils complète constitue un obstacle majeur à la recherche systématique et à l'adoption pratique. Pour combler cette lacune, nous présentons AISafetyLab, un cadre unifié et une boîte à outils qui intègrent des méthodologies représentatives d'attaque, de défense et d'évaluation pour la sécurité de l'IA. AISafetyLab propose une interface intuitive permettant aux développeurs d'appliquer diverses techniques de manière fluide, tout en maintenant une base de code bien structurée et extensible pour les avancées futures. De plus, nous menons des études empiriques sur Vicuna, analysant différentes stratégies d'attaque et de défense afin de fournir des insights précieux sur leur efficacité comparative. Pour favoriser la recherche et le développement continus en matière de sécurité de l'IA, AISafetyLab est accessible publiquement à l'adresse https://github.com/thu-coai/AISafetyLab, et nous nous engageons à sa maintenance et à son amélioration continues.

Adaptation de la Reconnaissance Automatique de la Parole pour les Communications en Contrôle de la Circulation Aérienne avec Accent.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

La communication efficace dans le Contrôle du Trafic Aérien (CTA) est essentielle pour garantir la sécurité de l'aviation, cependant les défis posés par l'anglais avec accent restent largement non résolus dans les systèmes de Reconnaissance Automatique de la Parole (RAP). Les modèles existants rencontrent des difficultés en termes de précision de transcription pour la parole avec accent d'Asie du Sud-Est (accent d'ASE), notamment dans des environnements bruyants de CTA. Cette étude présente le développement de modèles de RAP affinés spécifiquement pour les accents d'Asie du Sud-Est en utilisant un ensemble de données nouvellement créé. Notre recherche obtient des améliorations significatives, atteignant un Taux d'Erreur de Mots (TEM) de 0,0982 ou 9,82% pour la parole avec accent d'ASE en CTA. De plus, l'article souligne l'importance des ensembles de données spécifiques à la région et de la formation axée sur l'accent, offrant une voie pour le déploiement de systèmes de RAP dans des opérations militaires aux ressources limitées. Les résultats mettent en avant la nécessité de techniques d'entraînement robustes au bruit et d'ensembles de données spécifiques à la région pour améliorer la précision de transcription des accents non occidentaux dans les communications de CTA.

Vers un décodage spéculatif multi-brouillon optimal
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

Les grands modèles de langage (LLMs) sont devenus une partie indispensable des tâches de traitement du langage naturel. Cependant, l'échantillonnage autorégressif est devenu un goulot d'étranglement en termes d'efficacité. Le Décodage Spéculatif Multi-Brouillon (MDSD) est une approche récente où, lors de la génération de chaque jeton, un petit modèle de brouillon génère plusieurs brouillons, et le LLM cible les vérifie en parallèle, garantissant que la sortie finale est conforme à la distribution du modèle cible. Les deux principaux choix de conception dans le MDSD sont la méthode d'échantillonnage de brouillon et l'algorithme de vérification. Pour une méthode d'échantillonnage de brouillon fixe, le taux d'acceptation optimal est une solution à un problème de transport optimal, mais la complexité de ce problème rend difficile la résolution du taux d'acceptation optimal et la mesure de l'écart entre les algorithmes de vérification existants et la limite supérieure théorique. Cet article discute du dual du problème de transport optimal, fournissant un moyen de calculer efficacement le taux d'acceptation optimal. Pour la première fois, nous mesurons la limite supérieure théorique de l'efficacité du MDSD pour des tailles de vocabulaire dans les milliers et quantifions l'écart entre les algorithmes de vérification existants et cette limite. Nous comparons également différentes méthodes d'échantillonnage de brouillon en fonction de leurs taux d'acceptation optimaux. Nos résultats montrent que la méthode d'échantillonnage de brouillon influence fortement le taux d'acceptation optimal, l'échantillonnage sans remplacement surpassant l'échantillonnage avec remplacement. De plus, les algorithmes de vérification existants n'atteignent pas la limite supérieure théorique pour les échantillonnages sans remplacement et avec remplacement. Nos conclusions suggèrent que des méthodes d'échantillonnage de brouillon soigneusement conçues peuvent potentiellement améliorer le taux d'acceptation optimal et permettre le développement d'algorithmes de vérification qui se rapprochent de la limite supérieure théorique.

PosterSum : Un Benchmark Multimodal pour la Synthèse de Posters Scientifiques
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

La génération de résumés textuels précis et concis à partir de documents multimodaux est un défi, en particulier lorsqu'il s'agit de contenus visuellement complexes comme les posters scientifiques. Nous présentons PosterSum, un nouveau benchmark visant à faire progresser le développement de modèles vision-langage capables de comprendre et de résumer des posters scientifiques en résumés d'articles de recherche. Notre ensemble de données contient 16 305 posters de conférences associés à leurs résumés correspondants. Chaque poster est fourni au format image et présente divers défis de compréhension visuelle, tels que des mises en page complexes, des zones de texte denses, des tableaux et des figures. Nous évaluons les modèles de langage multimodaux de pointe (MLLMs) sur PosterSum et montrons qu'ils peinent à interpréter et à résumer avec précision les posters scientifiques. Nous proposons Segment & Summarize, une méthode hiérarchique qui surpasse les MLLMs actuels sur les métriques automatisées, avec un gain de 3,14 % en ROUGE-L. Cela servira de point de départ pour les recherches futures sur la synthèse de posters.

DOEI : Double Optimisation des Informations d'Embedding pour les Cartes d'Activation de Classe Améliorées par l'Attention
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao

La segmentation sémantique faiblement supervisée (WSSS) utilise généralement des annotations sémantiques limitées pour obtenir des cartes d'activation de classe (CAM) initiales. Cependant, en raison du couplage insuffisant entre les réponses d'activation de classe et les informations sémantiques dans l'espace de haute dimension, les CAM sont sujettes à la co-occurrence d'objets ou à la sous-activation, ce qui entraîne une précision de reconnaissance inférieure. Pour résoudre ce problème, nous proposons DOEI, Dual Optimization of Embedding Information, une nouvelle approche qui reconstruit les représentations d'embedding à travers des matrices de poids d'attention sensibles à la sémantique afin d'optimiser la capacité d'expression des informations d'embedding. Concrètement, DOEI amplifie les tokens de haute confiance et supprime ceux de faible confiance lors de l'interaction classe-patch. Cet alignement des réponses d'activation avec les informations sémantiques renforce la propagation et le découplage des caractéristiques cibles, permettant aux embeddings générés de représenter plus précisément les caractéristiques cibles dans l'espace sémantique de haut niveau. De plus, nous proposons un module d'alignement de caractéristiques hybrides dans DOEI qui combine les valeurs RVB, les caractéristiques guidées par l'embedding et les poids d'auto-attention pour augmenter la fiabilité des tokens candidats. Des expériences approfondies montrent que DOEI est un module plug-and-play efficace qui permet aux modèles WSSS basés sur des transformers visuels de pointe d'améliorer significativement la qualité des CAM et les performances de segmentation sur des benchmarks populaires, notamment PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) et MS COCO (+1,2%, +1,6% mIoU). Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/DOEI.

papers.title

papers.description

GHOST 2.0 : transfert génératif haute fidélité en une seule étape de têtes
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Kanana : Modèles de langage bilingues à efficacité computationnelle
Kanana: Compute-efficient Bilingual Language Models

Feb 26

Vers un assistant scientifique basé sur l'intelligence artificielle
Towards an AI co-scientist

Feb 26

TheoremExplainAgent : Vers des explications multimodales pour la compréhension des théorèmes par les LLM
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Abstract Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains. However, their performance in low-resource languages and specialized domains remains understudied. This paper introduces Plutus, a novel benchmark specifically designed to evaluate LLMs in the context of low-resource Greek finance. Plutus comprises a diverse set of tasks, including financial text classification, named entity recognition, and question answering, all tailored to the Greek financial domain. We evaluate several state-of-the-art LLMs on Plutus, revealing significant performance gaps and highlighting the challenges of adapting these models to low-resource settings. Our findings underscore the need for targeted improvements in LLM training and evaluation for specialized domains and low-resource languages. The Plutus benchmark and associated datasets are publicly released to facilitate further research in this area.Plutus : Évaluation des modèles de langage de grande taille dans le domaine de la finance grecque à ressources limitées Résumé Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans divers domaines. Cependant, leurs performances dans les langues à ressources limitées et les domaines spécialisés restent peu étudiées. Cet article présente Plutus, un nouveau benchmark spécialement conçu pour évaluer les LLMs dans le contexte de la finance grecque à ressources limitées. Plutus comprend un ensemble diversifié de tâches, incluant la classification de textes financiers, la reconnaissance d'entités nommées et le question-réponse, toutes adaptées au domaine financier grec. Nous évaluons plusieurs LLMs de pointe sur Plutus, révélant des écarts de performance significatifs et mettant en lumière les défis liés à l'adaptation de ces modèles à des contextes à ressources limitées. Nos résultats soulignent la nécessité d'améliorations ciblées dans l'entraînement et l'évaluation des LLMs pour les domaines spécialisés et les langues à ressources limitées. Le benchmark Plutus et les ensembles de données associés sont rendus publics pour faciliter les recherches ultérieures dans ce domaine.
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

La factualité des modèles de langage dépend de la langue d'interrogation
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Rank1 : Calcul au moment du test pour le réordonnancement en recherche d'information
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

Les grands modèles de langage peuvent-ils détecter les erreurs dans les raisonnements en chaîne de pensée complexes ?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

La modélisation de récompenses agentique : intégration des préférences humaines avec des signaux de vérifiabilité pour des systèmes de récompenses fiables
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

Projet Alexandria : Vers la libération des connaissances scientifiques des contraintes du droit d'auteur grâce aux modèles de langage
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

Les modèles de langage peuvent-ils falsifier ? Évaluation du raisonnement algorithmique par la création de contre-exemples
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

VEM : Exploration Sans Environnement pour l'Entraînement d'Agents d'Interface Graphique avec un Modèle de Valeur
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

CritiQ : Extraction de critères de qualité des données à partir des préférences humaines
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

Distill Any Depth : La distillation crée un estimateur de profondeur monoculaire plus performant
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

BIG-Bench Extra Difficile
BIG-Bench Extra Hard

Feb 26

MMKE-Bench : Un banc d'essai d'édition multimodale pour une connaissance visuelle diversifiée.
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

FSPO : L'optimisation des préférences en quelques exemples de données de préférence synthétiques dans les LLM favorise une personnalisation efficace pour les utilisateurs réels
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

MolSpectra : Pré-entraînement de la représentation moléculaire 3D avec des spectres d'énergie multi-modaux
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

Drop-Upcycling : Entraînement d'un mélange parcimonieux d'experts avec ré-initialisation partielle
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

AISafetyLab : Un cadre complet pour l'évaluation et l'amélioration de la sécurité des systèmes d'intelligence artificielle
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

Adaptation de la Reconnaissance Automatique de la Parole pour les Communications en Contrôle de la Circulation Aérienne avec Accent.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

Vers un décodage spéculatif multi-brouillon optimal
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

PosterSum : Un Benchmark Multimodal pour la Synthèse de Posters Scientifiques
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

DOEI : Double Optimisation des Informations d'Embedding pour les Cartes d'Activation de Classe Améliorées par l'Attention
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao