HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

38 papers found

Attention Sparse Native : Une Attention Sparse Alignée sur le Matériel et Entraînable de Manière Native
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Feb 16

ByJingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng

166

La modélisation de contexte long est cruciale pour les modèles de langage de nouvelle génération, mais le coût computationnel élevé des mécanismes d'attention standard pose des défis significatifs. L'attention parcimonieuse offre une direction prometteuse pour améliorer l'efficacité tout en conservant les capacités du modèle. Nous présentons NSA, un mécanisme d'Attention Parcimonieuse Natif (Natively trainable Sparse Attention) qui intègre des innovations algorithmiques avec des optimisations alignées sur le matériel pour atteindre une modélisation de contexte long efficace. NSA utilise une stratégie parcimonieuse hiérarchique dynamique, combinant une compression grossière des tokens avec une sélection fine des tokens pour préserver à la fois la conscience du contexte global et la précision locale. Notre approche fait progresser la conception de l'attention parcimonieuse avec deux innovations clés : (1) Nous obtenons des accélérations substantielles grâce à une conception algorithmique équilibrée en intensité arithmétique, avec des optimisations d'implémentation pour le matériel moderne. (2) Nous permettons un entraînement de bout en bout, réduisant le calcul de pré-entraînement sans sacrifier les performances du modèle. Comme le montre la Figure 1, les expériences montrent que le modèle pré-entraîné avec NSA maintient ou dépasse les modèles à Attention Complète sur des benchmarks généraux, des tâches à contexte long et des raisonnements basés sur des instructions. Par ailleurs, NSA obtient des accélérations substantielles par rapport à l'Attention Complète sur des séquences de longueur 64k, que ce soit en décodage, propagation avant ou propagation arrière, validant ainsi son efficacité tout au long du cycle de vie du modèle.

SWE-Lancer : Les LLM de Frontier peuvent-ils gagner 1 million de dollars en travaillant en freelance dans le domaine de l'ingénierie logicielle ?
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

Feb 17

BySamuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke

Nous présentons SWE-Lancer, un ensemble de référence de plus de 1 400 tâches de génie logiciel freelance provenant d'Upwork, d'une valeur totale de plus de 1 million de dollars US en paiements réels. SWE-Lancer englobe à la fois des tâches d'ingénierie indépendantes - allant de 50 corrections de bogues à des mises en œuvre de fonctionnalités de 32 000 $ - et des tâches de gestion, où les modèles choisissent entre des propositions d'implémentation technique. Les tâches indépendantes sont évaluées avec des tests de bout en bout triple-vérifiés par des ingénieurs logiciels expérimentés, tandis que les décisions de gestion sont évaluées par rapport aux choix des gestionnaires d'ingénierie embauchés d'origine. Nous évaluons les performances des modèles et constatons que les modèles de pointe sont encore incapables de résoudre la majorité des tâches. Pour faciliter les futures recherches, nous mettons à disposition un conteneur Docker unifié et une division d'évaluation publique, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). En cartographiant les performances des modèles sur la valeur monétaire, nous espérons que SWE-Lancer permettra une recherche plus approfondie sur l'impact économique du développement de modèles d'IA.

Apprentissage des politiques de se lever pour les robots humanoïdes du monde réel
Learning Getting-Up Policies for Real-World Humanoid Robots

Feb 17

ByXialin He, Runpei Dong, Zixuan Chen, Saurabh Gupta

La récupération automatique après une chute est une condition préalable cruciale avant que les robots humanoïdes puissent être déployés de manière fiable. Concevoir manuellement des contrôleurs pour se relever est difficile en raison des configurations variées dans lesquelles un humanoïde peut se retrouver après une chute et des terrains exigeants sur lesquels les robots humanoïdes sont censés fonctionner. Ce document développe un cadre d'apprentissage pour produire des contrôleurs permettant aux robots humanoïdes de se relever à partir de configurations variables sur des terrains variés. Contrairement aux applications précédentes réussies de l'apprentissage de la locomotion humanoïde, la tâche de se relever implique des schémas de contact complexes, ce qui nécessite de modéliser avec précision la géométrie de la collision et des récompenses plus rares. Nous relevons ces défis grâce à une approche en deux phases qui suit un programme d'études. La première étape se concentre sur la découverte d'une bonne trajectoire de récupération avec des contraintes minimales sur la fluidité ou les limites de vitesse / couple. La deuxième étape affine ensuite les mouvements découverts en mouvements déployables (c'est-à-dire fluides et lents) qui sont robustes aux variations de configuration initiale et de terrains. Nous constatons que ces innovations permettent à un robot humanoïde G1 du monde réel de se relever de deux situations principales que nous avons considérées : a) allongé sur le dos et b) allongé sur le ventre, testé sur des surfaces plates, déformables, glissantes et des pentes (par exemple, de l'herbe en pente et un champ enneigé). À notre connaissance, il s'agit de la première démonstration réussie de politiques apprises pour se relever pour des robots humanoïdes de taille humaine dans le monde réel. Page du projet : https://humanoid-getup.github.io/

Je pense, donc je diffuse : permettre le raisonnement multimodal en contexte dans les modèles de diffusion
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Feb 12

ByZhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu

Cet article présente ThinkDiff, un nouveau paradigme d'alignement qui renforce les modèles de diffusion texte-image avec des capacités de compréhension et de raisonnement multimodales en contexte en intégrant les forces des modèles vision-langage (VLM). Les méthodes existantes de finetuning multimodal de diffusion se concentrent largement sur la reconstruction au niveau des pixels plutôt que sur le raisonnement en contexte, et sont limitées par la complexité et la disponibilité limitée des ensembles de données basés sur le raisonnement. ThinkDiff relève ces défis en exploitant l'entraînement vision-langage comme tâche proxy, en alignant les VLM avec le décodeur d'un modèle de langage large encodeur-décodeur (LLM) au lieu d'un décodeur de diffusion. Cette tâche proxy repose sur l'observation que le décodeur LLM partage le même espace de caractéristiques d'entrée avec les décodeurs de diffusion qui utilisent le même encodeur LLM correspondant pour l'incorporation de l'invite. En conséquence, l'alignement des VLM avec les décodeurs de diffusion peut être simplifié par l'alignement avec le décodeur LLM. Sans entraînement complexe et ensembles de données, ThinkDiff libère efficacement les capacités de compréhension, de raisonnement et de composition dans les modèles de diffusion. Les expériences montrent que ThinkDiff améliore significativement la précision de 19,2% à 46,3% sur le difficile benchmark CoBSAT pour la génération de raisonnement multimodal en contexte, avec seulement 5 heures d'entraînement sur 4 GPU A100. De plus, ThinkDiff démontre des performances exceptionnelles dans la composition de plusieurs images et textes en images logiquement cohérentes. Page du projet : https://mizhenxing.github.io/ThinkDiff.

ReLearn : Désapprentissage par l'apprentissage pour les grands modèles de langage
ReLearn: Unlearning via Learning for Large Language Models

Feb 16

ByHaoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang

Les méthodes actuelles de désapprentissage pour les grands modèles de langage reposent généralement sur une optimisation inverse pour réduire les probabilités des jetons cibles. Cependant, ce paradigme perturbe la prédiction des jetons suivants, dégradant les performances du modèle et la cohérence linguistique. De plus, les métriques d'évaluation existantes mettent trop l'accent sur l'oubli contextuel tout en évaluant de manière insuffisante la fluidité et la pertinence des réponses. Pour relever ces défis, nous proposons ReLearn, un pipeline d'augmentation de données et de fine-tuning pour un désapprentissage efficace, ainsi qu'un cadre d'évaluation complet. Ce cadre introduit le Taux d'Oubli de Connaissances (KFR) et le Taux de Rétention de Connaissances (KRR) pour mesurer la préservation au niveau des connaissances, et le Score Linguistique (LS) pour évaluer la qualité de la génération. Nos expériences montrent que ReLearn parvient avec succès à oublier de manière ciblée tout en préservant une production de haute qualité. À travers une analyse mécaniste, nous démontrons en outre comment l'optimisation inverse perturbe la génération de texte cohérent, tandis que ReLearn préserve cette capacité essentielle. Le code est disponible sur https://github.com/zjunlp/unlearn.

Comment les LLM acquièrent-ils de nouvelles connaissances ? Une perspective des circuits de connaissances sur la pré-formation continue
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

Feb 16

ByYixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen

Malgré des capacités exceptionnelles dans les tâches intensives en connaissances, les Grands Modèles de Langage (GML) font face à une lacune critique dans la compréhension de la façon dont ils intègrent de nouvelles connaissances, en particulier comment incorporer structurellement les connaissances acquises dans leurs calculs neuronaux. Nous abordons cette question à travers le prisme de l'évolution des circuits de connaissance, en identifiant des sous-graphes computationnels qui facilitent le stockage et le traitement des connaissances. Notre analyse systématique de l'évolution des circuits tout au long de l'apprentissage préalable continu révèle plusieurs conclusions clés : (1) l'acquisition de nouvelles connaissances est influencée par sa pertinence par rapport aux connaissances préexistantes ; (2) l'évolution des circuits de connaissance présente un décalage de phase distinct de la formation à l'optimisation ; (3) l'évolution des circuits de connaissance suit un schéma de profondeur à surface. Ces perspectives permettent non seulement d'avancer notre compréhension théorique des mécanismes d'acquisition de nouvelles connaissances dans les GML, mais offrent également des implications potentielles pour améliorer les stratégies d'apprentissage préalable continu afin d'optimiser les performances du modèle. Le code et les données seront disponibles sur https://github.com/zjunlp/DynamicKnowledgeCircuits.

CRANE : Raisonnement avec génération LLM contrainte
CRANE: Reasoning with constrained LLM generation

Feb 13

ByDebangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh

La génération de code, le raisonnement mathématique symbolique et d'autres tâches nécessitent que les LLM produisent des sorties à la fois syntaxiquement et sémantiquement correctes. La génération contrainte de LLM est une direction prometteuse pour imposer le respect de la grammaire formelle, mais des travaux antérieurs ont observé empiriquement que l'application stricte de contraintes formelles diminue souvent les capacités de raisonnement des LLM. Dans ce travail, nous fournissons d'abord une explication théorique de pourquoi le fait de contraindre les sorties des LLM à des grammaires très restrictives qui ne permettent que des réponses finales syntaxiquement valides réduit les capacités de raisonnement du modèle. Ensuite, nous démontrons qu'en augmentant la grammaire de sortie avec des règles supplémentaires soigneusement conçues, il est toujours possible de préserver les capacités de raisonnement des LLM tout en garantissant la correction syntaxique et sémantique de ses sorties. En nous appuyant sur ces insights théoriques, nous proposons un algorithme de décodage contraint augmenté par le raisonnement, CRANE, qui équilibre efficacement la correction de la génération contrainte avec la flexibilité de la génération non contrainte. Des expériences menées sur plusieurs LLM open-source et des référentiels montrent que CRANE surpasse significativement à la fois les stratégies de décodage contraint les plus avancées et le décodage non contraint standard, montrant jusqu'à une amélioration de l'exactitude de 10 points par rapport aux références sur les défis symboliques de raisonnement GSM-symbolic et FOLIO.

IHEval : Évaluation des modèles linguistiques sur le respect de la hiérarchie des instructions
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Feb 12

ByZhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang

La hiérarchie des instructions, qui établit un ordre de priorité allant des messages système aux messages utilisateur, en passant par l'historique des conversations et les sorties d'outils, est essentielle pour garantir un comportement cohérent et sûr des modèles de langage (LMs). Malgré son importance, ce sujet reçoit une attention limitée, et il existe un manque de benchmarks complets pour évaluer la capacité des modèles à respecter cette hiérarchie. Nous comblons cette lacune en introduisant IHEval, un nouveau benchmark comprenant 3 538 exemples répartis sur neuf tâches, couvrant des cas où les instructions de différentes priorités s'alignent ou entrent en conflit. Notre évaluation des LMs populaires met en évidence leur difficulté à reconnaître les priorités des instructions. Tous les modèles évalués subissent une forte baisse de performance lorsqu'ils sont confrontés à des instructions conflictuelles, par rapport à leur performance initiale de suivi des instructions. De plus, le modèle open-source le plus compétitif n'atteint que 48 % de précision dans la résolution de tels conflits. Nos résultats soulignent la nécessité d'une optimisation ciblée dans le développement futur des LMs.

La compréhension intuitive de la physique émerge de l'auto-apprentissage supervisé préalable sur des vidéos naturelles.
Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Feb 17

ByQuentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun

Nous étudions l'émergence de la compréhension de la physique intuitive dans des modèles de réseaux neuronaux profonds à usage général entraînés à prédire des régions masquées dans des vidéos naturelles. En exploitant le cadre de la violation des attentes, nous constatons que les modèles de prédiction vidéo formés pour prédire des résultats dans un espace de représentation appris démontrent une compréhension de diverses propriétés de la physique intuitive, telles que la permanence des objets et la cohérence des formes. En revanche, la prédiction vidéo dans l'espace des pixels et les grands modèles de langage multimodaux, qui raisonnent à travers du texte, atteignent des performances plus proches du hasard. Nos comparaisons de ces architectures révèlent que l'apprentissage conjoint d'un espace de représentation abstrait tout en prédisant les parties manquantes de l'entrée sensorielle, similaire au codage prédictif, est suffisant pour acquérir une compréhension de la physique intuitive, et que même les modèles formés sur une semaine de vidéos uniques atteignent des performances supérieures au hasard. Cela remet en question l'idée que la connaissance de base - un ensemble de systèmes innés pour aider à comprendre le monde - doit être préprogrammée pour développer une compréhension de la physique intuitive.

Sailor2 : Naviguer en Asie du Sud-Est avec des modèles de langage multilingues inclusifs
Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

Feb 18

ByLongxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin

Sailor2 est une famille de modèles de langage multilingues de pointe pour les langues d'Asie du Sud-Est (ASE), disponibles en tailles de 1B, 8B et 20B pour s'adapter à diverses applications. Basé sur Qwen2.5, Sailor2 subit un pré-entraînement continu sur 500 milliards de tokens (400 milliards spécifiques à l'ASE et 100 milliards de tokens de relecture) pour prendre en charge 13 langues de l'ASE tout en conservant une maîtrise du chinois et de l'anglais. Le modèle Sailor2-20B atteint un taux de victoire de 50-50 contre GPT-4o pour les langues de l'ASE. Nous proposons également un guide complet sur la manière de développer un modèle multilingue de manière efficace, couvrant cinq aspects clés : la curation des données, le pré-entraînement, le post-entraînement, la personnalisation du modèle et l'évaluation. Nous espérons que le modèle Sailor2 (sous licence Apache 2.0) stimulera le développement linguistique dans la région de l'ASE, et que le guide Sailor2 inspirera les chercheurs à créer des modèles de langage plus inclusifs pour d'autres langues sous-représentées.

HermesFlow : Combler de manière transparente le fossé dans la compréhension et la génération multimodales
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

Feb 17

ByLing Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui

Le remarquable succès du paradigme autorégressif a permis des avancées significatives dans les Modèles de Langage Multimodaux de Grande Taille (MLLM), avec des modèles puissants tels que Show-o, Transfusion et Emu3 réalisant des progrès notables dans la compréhension et la génération unifiées d'images. Pour la première fois, nous mettons en lumière un phénomène commun : les capacités de compréhension des MLLMs sont généralement plus fortes que leurs capacités génératives, avec un écart significatif entre les deux. S'appuyant sur cette observation, nous proposons HermesFlow, un cadre simple mais général conçu pour combler de manière transparente l'écart entre la compréhension et la génération dans les MLLMs. Plus précisément, nous utilisons les données homologues en entrée pour élaborer des données de préférence homologues à la fois pour la compréhension et la génération. À travers l'optimisation itérative Pair-DPO et auto-play, HermesFlow aligne efficacement la compréhension et la génération multimodales en utilisant des données de préférence homologues. De vastes expériences démontrent la nette supériorité de notre approche par rapport aux méthodes antérieures, en particulier pour réduire l'écart entre la compréhension et la génération multimodales. Ces résultats soulignent le potentiel d'HermesFlow en tant que cadre d'alignement général pour les modèles de fondation multimodaux de nouvelle génération. Code : https://github.com/Gen-Verse/HermesFlow

Interrogez dans n'importe quelle modalité : Une étude approfondie sur la génération augmentée par la récupération multimodale
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Feb 12

ByMohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari

Les modèles de langage de grande taille (LLMs) peinent avec les hallucinations et les connaissances obsolètes en raison de leur dépendance à des données d'entraînement statiques. La Génération Augmentée par Récupération (RAG) atténue ces problèmes en intégrant des informations externes dynamiques, améliorant ainsi l'ancrage factuel et actualisé. Les récentes avancées en apprentissage multimodal ont conduit au développement de la RAG Multimodale, incorporant plusieurs modalités telles que le texte, les images, l'audio et la vidéo pour enrichir les sorties générées. Cependant, l'alignement et le raisonnement intermodaux introduisent des défis uniques à la RAG Multimodale, la distinguant de la RAG unimodale traditionnelle. Cette étude propose une analyse structurée et complète des systèmes de RAG Multimodale, couvrant les jeux de données, les métriques, les benchmarks, l'évaluation, les méthodologies et les innovations en matière de récupération, fusion, augmentation et génération. Nous examinons précisément les stratégies d'entraînement, les améliorations de robustesse et les fonctions de perte, tout en explorant les divers scénarios de RAG Multimodale. De plus, nous discutons des défis ouverts et des directions de recherche futures pour soutenir les avancées dans ce domaine en évolution. Cette étude jette les bases pour le développement de systèmes d'IA plus performants et fiables, capables d'exploiter efficacement des bases de connaissances externes dynamiques et multimodales. Les ressources sont disponibles à l'adresse suivante : https://github.com/llm-lab-org/Multimodal-RAG-Survey.

Affinage de la diffusion : Ajustement fin des modèles de diffusion avec le renforcement de la trajectoire de débruitage
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Feb 17

ByYe Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui

Nous proposons Diffusion-Sharpening, une approche de peaufinage qui améliore l'alignement aval en optimisant les trajectoires d'échantillonnage. Les méthodes de peaufinage existantes basées sur l'apprentissage par renforcement se concentrent sur des pas de temps d'entraînement individuels et négligent l'alignement au niveau de la trajectoire, tandis que les récentes méthodes d'optimisation des trajectoires d'échantillonnage entraînent des coûts significatifs en termes d'évaluations de la fonctionnelle numérique. Diffusion-Sharpening surmonte cela en utilisant un cadre d'intégrale de chemin pour sélectionner les trajectoires optimales pendant l'entraînement, en exploitant la rétroaction de récompense et en amortissant les coûts d'évaluation. Notre méthode démontre une efficacité d'entraînement supérieure avec une convergence plus rapide, et une meilleure efficacité d'évaluation sans nécessiter d'évaluations supplémentaires de la fonctionnelle numérique. Des expériences approfondies montrent que Diffusion-Sharpening surpasse les méthodes de peaufinage basées sur l'apprentissage par renforcement (par exemple, Diffusion-DPO) et les méthodes d'optimisation des trajectoires d'échantillonnage (par exemple, Inference Scaling) sur diverses mesures, y compris l'alignement de texte, les capacités compositionnelles et les préférences humaines, offrant une solution évolutive et efficace pour le peaufinage des modèles de diffusion futurs. Code : https://github.com/Gen-Verse/Diffusion-Sharpening

Génération de messages système pour les préférences utilisateur en utilisant des modèles open source
System Message Generation for User Preferences using Open-Source Models

Feb 17

ByMinbyul Jeong, Jungho Cho, Minsoo Khang, Dawoon Jung, Teakgyu Hong

Les messages système jouent un rôle crucial dans les interactions avec les grands modèles de langage (GML), servant souvent de stimuli pour initier des conversations. À travers les messages système, les utilisateurs peuvent attribuer des rôles spécifiques, effectuer des tâches prévues, intégrer des informations de contexte, spécifier divers formats de sortie et styles de communication. Malgré une telle polyvalence, les données disponibles publiquement manquent souvent de messages système et sont soumises à des contraintes de licence strictes dans le domaine industriel. L'étiquetage manuel des données disponibles publiquement avec des messages système conformes aux instructions des utilisateurs exige des ressources significatives. Face à de tels défis, notre travail présente SysGen, un pipeline pour générer des messages système avec des réponses d'assistant mieux alignées à partir de l'ensemble de données de fine-tuning supervisé sans messages système. L'entraînement sur les données de SysGen a démontré des améliorations substantielles dans l'alignement des réponses du modèle avec les messages système et les instructions des utilisateurs, comme démontré à travers divers modèles open-source sur le banc d'essai Multifacet, tout en ayant un impact minimal sur d'autres bancs d'essai non vus tels que Open LLM Leaderboard 2. Notre analyse qualitative souligne l'importance de divers messages système pour garantir une meilleure adaptabilité dans différents contextes.

Parler Structurellement, Agir Hiérarchiquement : Un Cadre Collaboratif pour les Systèmes Multi-Agents LLM
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems

Feb 16

ByZhao Wang, Sota Moriyama, Wei-Yao Wang, Briti Gangopadhyay, Shingo Takamatsu

Les récents progrès des systèmes multi-agents basés sur LLM (LLM-MA) ont montré des promesses, mais des défis significatifs persistent dans la gestion de la communication et de l'amélioration lorsque les agents collaborent sur des tâches complexes. Dans cet article, nous proposons Talk Structurally, Act Hierarchically (TalkHier), un nouveau cadre qui introduit un protocole de communication structurée pour des échanges riches en contexte et un système de raffinement hiérarchique pour traiter des problèmes tels que des sorties incorrectes, des faussetés et des biais. TalkHier surpasse divers types de SoTA, y compris le modèle d'échelle d'inférence (OpenAI-o1), les modèles multi-agents open-source (par exemple, AgentVerse) et les stratégies de vote à la majorité sur les bases actuelles de LLM et d'agents uniques (par exemple, ReAct, GPT4o), sur des tâches diverses, y compris la réponse à des questions en domaine ouvert, la question sélective spécifique au domaine et la génération de textes publicitaires pratiques. Ces résultats mettent en lumière son potentiel pour établir une nouvelle norme pour les systèmes LLM-MA, ouvrant la voie à des cadres multi-agents plus efficaces, adaptables et collaboratifs. Le code est disponible sur https://github.com/sony/talkhier.

SURGE : Sur le potentiel des grands modèles de langage en tant qu'exécuteurs de code de substitution polyvalents
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Feb 16

ByBohan Lyu, Siqiao Huang, Zichen Liang

Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans les tâches liées au code, telles que la compréhension du code et la génération de code. Cependant, une question tout aussi importante mais peu explorée est de savoir si les LLM peuvent servir de code exécuteur de substitution polyvalent, pour prédire la sortie et le comportement d'un programme sans le lancer réellement. Pour étudier systématiquement cette capacité, nous introduisons SURGE, un banc d'essai complet couvrant huit aspects clés : tâches de programmation multi-langages, problèmes de programmation de niveau compétitif, analyse de code au niveau du référentiel, calcul scientifique à coût élevé, algorithmes intensifs en complexité temporelle, analyse de code bogué, programmes dépendant de compilateurs ou environnements d'exécution spécifiques, et vérification de preuves mathématiques formelles. Nous évaluons plusieurs LLM open source et propriétaires sur SURGE et menons une étude d'échelle pour analyser l'impact de la taille du modèle et de l'échelle des données d'entraînement sur l'exactitude de l'exécution de substitution. De plus, nous catégorisons les erreurs de prédiction du modèle et explorons des domaines potentiels d'amélioration. Nos résultats indiquent que bien que les LLM puissent prédire les résultats de l'exécution du code dans certains cas, ils présentent des limites dans l'exécution de substitution polyvalente. Cette étude fournit des informations empiriques sur la faisabilité d'utiliser les LLM en tant qu'exécuteurs de code de substitution. Le code et l'ensemble de données sont publiés sur https://github.com/Imbernoulli/SURGE.

Explorer : Mise à l'échelle de la synthèse de trajectoires web pilotée par l'exploration pour des agents web multimodaux
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Feb 17

ByVardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah

Les récents succès des modèles multimodaux de grande taille (LMM) ont suscité des applications prometteuses d'agents capables d'accomplir de manière autonome des tâches web complexes. Bien que les agents LMM open-source aient réalisé des avancées significatives dans les benchmarks d'évaluation hors ligne, leurs performances restent nettement inférieures aux capacités humaines dans des environnements en ligne plus réalistes. Un goulot d'étranglement majeur est le manque de jeux de données diversifiés et à grande échelle au niveau des trajectoires, couvrant divers domaines, qui sont coûteux à collecter. Dans cet article, nous relevons ce défi en développant une méthode évolutive pour synthétiser le plus grand et le plus diversifié jeu de données de trajectoires à ce jour, contenant plus de 94 000 trajectoires web multimodales réussies, couvrant 49 000 URL uniques, 720 000 captures d'écran et 33 millions d'éléments web. En particulier, nous exploitons une exploration web approfondie et un processus de raffinement pour obtenir des intentions de tâches variées. Le coût moyen est de 28 cents par trajectoire réussie, ce qui le rend abordable pour un large éventail d'utilisateurs dans la communauté. En nous appuyant sur ce jeu de données, nous entraînons Explorer, un agent web multimodal, et démontrons des performances solides sur les benchmarks d'agents web hors ligne et en ligne tels que Mind2Web-Live, Multimodal-Mind2Web et MiniWob++. De plus, nos expériences mettent en évidence la mise à l'échelle des données comme un facteur clé pour améliorer les capacités des agents web. Nous espérons que cette étude rendra la recherche de pointe sur les agents basés sur des LMM à plus grande échelle plus accessible.

Le Mirage de la Modification de Modèles : Réévaluation dans le Monde Réel
The Mirage of Model Editing: Revisiting Evaluation in the Wild

Feb 16

ByWanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng

Malgré des résultats quasi parfaits dans les évaluations artificielles, l'efficacité de l'édition de modèles dans des applications réelles reste inexplorée. Pour combler cette lacune, nous proposons d'étudier l'édition de modèles dans le cadre de la réponse à des questions (QA) en établissant une pratique d'évaluation rigoureuse pour mesurer l'efficacité des méthodes d'édition à corriger les erreurs des LLMs. Cela comprend QAEdit, un nouveau benchmark dérivé de jeux de données QA populaires, et un cadre d'évaluation standardisé. Nos expériences d'édition unique indiquent que les méthodes d'édition actuelles performent nettement moins bien que ce qui était précédemment rapporté (38,5 % contre ~96 %). Grâce à une analyse modulaire et à des expériences contrôlées, nous démontrons que cette baisse de performance découle de problèmes dans les pratiques d'évaluation des recherches antérieures sur l'édition. Un problème clé est l'utilisation inappropriée du forçage enseignant (teacher forcing) lors des tests, qui empêche la propagation des erreurs en fournissant des tokens de vérité terrain (inaccessibles dans des scénarios réels) en entrée. De plus, nous simulons un déploiement réel par édition séquentielle, révélant que les approches actuelles échouent de manière spectaculaire avec seulement 1000 éditions. Notre analyse offre un réexamen fondamental à la fois de l'applicabilité réelle des méthodes d'édition de modèles existantes et de leurs pratiques d'évaluation, et établit un cadre d'évaluation rigoureux avec des insights clés pour faire progresser la recherche sur l'édition de modèles fiable et pratique.

Vidéo-SALMONN-o1 : Modèle de Langage Audiovisuel Large Amélioré par le Raisonnement
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Feb 17

ByGuangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang

Alors que les récents progrès en optimisation du raisonnement ont considérablement amélioré les capacités des grands modèles de langage (GML), les efforts existants pour améliorer le raisonnement se sont limités à la résolution de problèmes mathématiques et à la focalisation sur des entrées graphiques visuelles, négligeant des applications plus larges dans la compréhension générale des vidéos. Cet article propose video-SALMONN-o1, le premier GML audiovisuel à code source ouvert amélioré par le raisonnement conçu pour des tâches de compréhension générale des vidéos. Pour améliorer ses capacités de raisonnement, nous développons un ensemble de données intensif en raisonnement présentant des questions audiovisuelles complexes avec des solutions étape par étape. Nous proposons également l'optimisation directe des préférences de processus (pDPO), qui exploite la sélection contrastive des étapes pour atteindre une modélisation efficace des récompenses au niveau des étapes adaptée aux entrées multimodales. De plus, nous introduisons RivaBench, le premier banc d'essai de compréhension vidéo intensif en raisonnement, comprenant plus de 4 000 paires question-réponse de haute qualité, expertement sélectionnées, couvrant des scénarios tels que le stand-up, les présentations académiques et la détection de vidéos synthétiques. video-SALMONN-o1 obtient des améliorations de précision de 3 à 8 % par rapport à la référence LLaVA-OneVision sur différents bancs d'essai de raisonnement vidéo. De plus, pDPO obtient des améliorations de 6 à 8 % par rapport au modèle de fine-tuning supervisé sur RivaBench. Le raisonnement amélioré permet à video-SALMONN-o1 d'avoir des capacités de détection de vidéos synthétiques en zéro-shot.

MagicArticulate : Préparez vos modèles 3D pour l'articulation
MagicArticulate: Make Your 3D Models Articulation-Ready

Feb 17

ByChaoyue Song, Jianfeng Zhang, Xiu Li, Fan Yang, Yiwen Chen, Zhongcong Xu, Jun Hao Liew, Xiaoyang Guo, Fayao Liu, Jiashi Feng, Guosheng Lin

Avec la croissance explosive de la création de contenu 3D, il y a une demande croissante pour la conversion automatique des modèles 3D statiques en versions prêtes pour l'articulation qui prennent en charge une animation réaliste. Les approches traditionnelles reposent fortement sur l'annotation manuelle, qui est à la fois chronophage et intensive en main-d'œuvre. De plus, le manque de benchmarks à grande échelle a entravé le développement de solutions basées sur l'apprentissage. Dans ce travail, nous présentons MagicArticulate, un cadre efficace qui transforme automatiquement les modèles 3D statiques en actifs prêts pour l'articulation. Nos principales contributions sont triples. Tout d'abord, nous introduisons Articulation-XL, un benchmark à grande échelle contenant plus de 33k modèles 3D avec des annotations d'articulation de haute qualité, soigneusement sélectionnés dans Objaverse-XL. Ensuite, nous proposons une nouvelle méthode de génération de squelette qui formule la tâche comme un problème de modélisation de séquence, en exploitant un transformateur auto-régressif pour gérer naturellement des nombres variables d'os ou d'articulations au sein des squelettes et leurs dépendances inhérentes à travers différents modèles 3D. Troisièmement, nous prédisons les poids de skinning en utilisant un processus de diffusion fonctionnelle qui intègre des distances géodésiques volumétriques entre les sommets et les articulations. Des expériences approfondies démontrent que MagicArticulate surpasse significativement les méthodes existantes à travers diverses catégories d'objets, atteignant une articulation de haute qualité qui permet une animation réaliste. Page du projet : https://chaoyuesong.github.io/MagicArticulate.

Modèles de diffusion sans guidance sans classifieur
Diffusion Models without Classifier-free Guidance

Feb 17

ByZhicong Tang, Jianmin Bao, Dong Chen, Baining Guo

Cet article présente Model-guidance (MG), un objectif novateur pour l'entraînement des modèles de diffusion qui remplace et élimine l'utilisation courante du Classifier-free guidance (CFG). Notre approche innovante va au-delà de la modélisation standard de la seule distribution des données en intégrant la probabilité a posteriori des conditions. La technique proposée s'inspire de l'idée du CFG et est à la fois simple et efficace, ce qui en fait un module plug-and-play pour les modèles existants. Notre méthode accélère considérablement le processus d'entraînement, double la vitesse d'inférence et atteint une qualité exceptionnelle, rivalisant voire surpassant les modèles de diffusion concurrents utilisant le CFG. Des expériences approfondies démontrent l'efficacité, l'efficience et la scalabilité de notre méthode sur différents modèles et jeux de données. Enfin, nous établissons des performances de pointe sur les benchmarks ImageNet 256 avec un FID de 1,34. Notre code est disponible à l'adresse suivante : https://github.com/tzco/Diffusion-wo-CFG.

EQ-VAE : Espace latent régularisé par équivariance pour une modélisation générative d'images améliorée
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Feb 13

ByTheodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

Les modèles génératifs latents se sont imposés comme une approche de pointe pour la synthèse d'images de haute qualité. Ces modèles s'appuient sur un autoencodeur pour compresser les images dans un espace latent, suivi d'un modèle génératif pour apprendre la distribution latente. Nous constatons que les autoencodeurs existants manquent d'équivariance par rapport aux transformations préservant la sémantique, telles que la mise à l'échelle et la rotation, ce qui entraîne des espaces latents complexes qui nuisent aux performances génératives. Pour remédier à cela, nous proposons EQ-VAE, une approche de régularisation simple qui impose l'équivariance dans l'espace latent, réduisant ainsi sa complexité sans dégrader la qualité de reconstruction. En affinant des autoencodeurs pré-entraînés avec EQ-VAE, nous améliorons les performances de plusieurs modèles génératifs de pointe, notamment DiT, SiT, REPA et MaskGIT, obtenant une accélération de 7 fois sur DiT-XL/2 avec seulement cinq époques de fine-tuning de SD-VAE. EQ-VAE est compatible avec les autoencodeurs continus et discrets, offrant ainsi une amélioration polyvalente pour une large gamme de modèles génératifs latents. Page du projet et code : https://eq-vae.github.io/.

SAFE-SQL : Apprentissage en contexte auto-augmenté avec sélection d'exemples fins pour Text-to-SQL.
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL

Feb 17

ByJimin Lee, Ingeol Baek, Byeongjeong Kim, Hwanhee Lee

Text-to-SQL vise à convertir des questions en langage naturel en requêtes SQL exécutables. Alors que les approches précédentes, telles que la sélection masquée de squelette, ont démontré de solides performances en récupérant des exemples d'entraînement similaires pour guider de grands modèles de langage (LLM), elles rencontrent des difficultés dans des scénarios réels où de tels exemples ne sont pas disponibles. Pour surmonter cette limitation, nous proposons l'apprentissage en contexte avec auto-augmentation et sélection d'exemples fins pour Text-to-SQL (SAFE-SQL), un nouveau cadre qui améliore la génération SQL en générant et en filtrant des exemples auto-augmentés. SAFE-SQL incite d'abord un LLM à générer plusieurs exemples Text-to-SQL pertinents pour l'entrée de test. Ensuite, SAFE-SQL filtre ces exemples à travers trois évaluations de pertinence, construisant des exemples d'apprentissage en contexte de haute qualité. En utilisant des exemples auto-générés, SAFE-SQL dépasse les précédents cadres Text-to-SQL zéro-shot et few-shot, atteignant une précision d'exécution plus élevée. Notamment, notre approche offre des gains de performance supplémentaires dans des scénarios extra difficiles et inédits, où les méthodes conventionnelles échouent souvent.

Un exemple montré, de nombreux concepts connus ! Raisonnement conceptuel basé sur les contre-exemples dans les LLM mathématiques
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs

Feb 12

ByYinghui Li, Jiayi Kuang, Haojing Huang, Zhikun Xu, Xinnian Liang, Yi Yu, Wenlian Lu, Yangning Li, Xiaoyu Tan, Chao Qu, Ying Shen, Hai-Tao Zheng, Philip S. Yu

L'utilisation des grands modèles de langage mathématique (LLM) pour la génération de preuves est un sujet fondamental dans la recherche sur les LLM. Nous soutenons que la capacité des LLM actuels à prouver des énoncés dépend largement de s'ils ont rencontré le processus de preuve pertinent lors de l'entraînement. Cette dépendance limite leur compréhension approfondie des théorèmes mathématiques et des concepts associés. Inspirés par la méthode pédagogique de "preuve par contre-exemples" couramment utilisée dans l'enseignement des mathématiques humaines, notre travail vise à améliorer la capacité des LLM à mener un raisonnement mathématique et des preuves à travers des contre-exemples. Plus précisément, nous créons manuellement un banc d'essai mathématique de haute qualité de niveau universitaire, CounterMATH, qui demande aux LLM de prouver des énoncés mathématiques en fournissant des contre-exemples, évaluant ainsi leur compréhension des concepts mathématiques. De plus, nous développons un cadre d'ingénierie des données pour obtenir automatiquement des données d'entraînement en vue d'améliorer davantage le modèle. Des expériences approfondies et des analyses détaillées montrent que CounterMATH est un défi, indiquant que les LLM, tels que OpenAI o1, ont des capacités de preuve insuffisantes basées sur les contre-exemples. De plus, notre exploration de l'entraînement du modèle révèle que renforcer les capacités de raisonnement conceptuel des LLM basées sur les contre-exemples est crucial pour améliorer leurs capacités mathématiques globales. Nous pensons que notre travail offre de nouvelles perspectives à la communauté des LLM mathématiques.

Dyve : Penser vite et lentement pour la vérification dynamique des processus
Dyve: Thinking Fast and Slow for Dynamic Process Verification

Feb 16

ByJianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu

Nous présentons Dyve, un vérificateur de processus dynamique qui améliore la détection des erreurs de raisonnement dans les grands modèles de langage en intégrant la pensée rapide et lente, inspiré par la théorie des systèmes de Kahneman. Dyve applique de manière adaptative la confirmation immédiate au niveau des tokens (Système 1) pour les étapes simples et une analyse approfondie (Système 2) pour les étapes complexes. En exploitant une technique novatrice de supervision de processus filtré par consensus étape par étape, combinant l'estimation de Monte Carlo avec l'évaluation basée sur les modèles de langage, Dyve génère des signaux de supervision de haute qualité à partir de données bruyantes. Les résultats expérimentaux sur ProcessBench et le jeu de données MATH confirment que Dyve surpasse significativement les vérificateurs de processus existants et améliore les performances dans les configurations Best-of-N.

Cuculus : Un passager clandestin en IE éclos par une nutrition massive dans le nid de LLM
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Feb 16

ByLetian Peng, Zilong Wang, Feng Yao, Jingbo Shang

Des données massives de haute qualité, à la fois des textes bruts pré-entraînés et des annotations post-entraînement, ont été soigneusement préparées pour incuber des modèles de langage larges avancés (LLM). En revanche, pour l'extraction d'informations (IE), les données de pré-entraînement, telles que les séquences étiquetées en BIO, sont difficiles à mettre à l'échelle. Nous montrons que les modèles IE peuvent profiter des ressources des LLM en reformulant la prédiction du jeton suivant en une extraction des jetons déjà présents dans le contexte. Plus précisément, notre paradigme proposé d'extraction des jetons suivants (NTE) apprend un modèle IE polyvalent, Cuckoo, avec 102,6 millions de données extractives converties à partir des données de pré-entraînement et post-entraînement des LLM. Dans le cadre de l'apprentissage à quelques exemples, Cuckoo s'adapte efficacement à l'extraction d'informations traditionnelle et complexe en suivant des instructions, avec de meilleures performances que les modèles IE pré-entraînés existants. En tant que passager clandestin, Cuckoo peut évoluer naturellement avec les progrès continus dans la préparation des données des LLM, bénéficiant des améliorations dans les pipelines d'entraînement des LLM sans effort manuel supplémentaire.

PhysReason : Un référentiel exhaustif pour le raisonnement basé sur la physique
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Feb 17

ByXinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu

Les grands modèles de langage démontrent des capacités remarquables dans divers domaines, en particulier en mathématiques et en raisonnement logique. Cependant, les évaluations actuelles négligent le raisonnement basé sur la physique - une tâche complexe nécessitant des théorèmes et des contraintes physiques. Nous présentons PhysReason, un banc d'essai de 1 200 problèmes comprenant des problèmes basés sur les connaissances (25 %) et des problèmes basés sur le raisonnement (75 %), ces derniers étant divisés en trois niveaux de difficulté (facile, moyen, difficile). Notamment, les problèmes nécessitent en moyenne 8,1 étapes de solution, les problèmes difficiles nécessitant 15,6 étapes, ce qui reflète la complexité du raisonnement basé sur la physique. Nous proposons le Cadre d'Évaluation Automatique des Solutions en Physique, intégrant des évaluations efficaces au niveau des réponses et des étapes de manière exhaustive. Les modèles performants tels que Deepseek-R1, Gemini-2.0-Flash-Thinking et o3-mini-high obtiennent moins de 60 % en évaluation au niveau des réponses, la performance chutant des questions de connaissances (75,11 %) aux problèmes difficiles (31,95 %). Grâce à l'évaluation au niveau des étapes, nous avons identifié quatre principaux goulets d'étranglement : Application des Théorèmes de Physique, Compréhension des Processus Physiques, Calcul et Analyse des Conditions Physiques. Ces résultats placent PhysReason comme un banc d'essai novateur et complet pour évaluer les capacités de raisonnement basé sur la physique dans les grands modèles de langage. Notre code et nos données seront publiés sur https:/dxzxy12138.github.io/PhysReason.

Mémoire, Benchmark et Robots : Un Benchmark pour la Résolution de Tâches Complexes avec l'Apprentissage par Renforcement
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Feb 14

ByEgor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov

La mémoire est cruciale pour permettre aux agents de relever des tâches complexes présentant des dépendances temporelles et spatiales. Bien que de nombreux algorithmes d'apprentissage par renforcement (RL) intègrent la mémoire, le domaine manque d'un benchmark universel pour évaluer les capacités mémorielles des agents dans divers scénarios. Cette lacune est particulièrement évidente dans la manipulation robotique sur table, où la mémoire est essentielle pour résoudre des tâches avec observabilité partielle et assurer des performances robustes, mais où aucun benchmark standardisé n'existe. Pour remédier à cela, nous introduisons MIKASA (Memory-Intensive Skills Assessment Suite for Agents), un benchmark complet pour la mémoire en RL, avec trois contributions clés : (1) nous proposons un cadre de classification complet pour les tâches de RL intensives en mémoire, (2) nous collectons MIKASA-Base - un benchmark unifié permettant une évaluation systématique des agents améliorés par la mémoire dans divers scénarios, et (3) nous développons MIKASA-Robo - un nouveau benchmark de 32 tâches soigneusement conçues pour évaluer les capacités mémorielles dans la manipulation robotique sur table. Nos contributions établissent un cadre unifié pour faire progresser la recherche en mémoire RL, en favorisant le développement de systèmes plus fiables pour des applications réelles. Le code est disponible à l'adresse https://sites.google.com/view/memorybenchrobots/.

Développement d'un programmeur axé sur la preuve qui est 64 % plus performant que GPT-4o en cas de rareté des données
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity

Feb 17

ByDylan Zhang, Justin Wang, Tianran Sun

Les LMs existants rencontrent des difficultés avec la programmation orientée vers la preuve en raison de la rareté des données, qui se manifeste de deux manières clés : (1) un manque de corpus suffisants pour les langages de programmation orientés vers la preuve tels que F*, et (2) l'absence de mises en œuvre à grande échelle orientées vers la preuve au niveau du projet qui pourraient enseigner au modèle le processus de raisonnement complexe lors de la programmation orientée vers la preuve. Nous présentons la première approche sur l'augmentation de données synthétiques pour la programmation orientée vers la preuve au niveau du projet, à la fois pour la génération et la réparation. Notre méthode aborde la rareté des données en synthétisant des problèmes de programmation orientée vers la preuve de base pour la maîtrise de ce langage ; en incorporant des données de codage diverses pour l'élucidation de la capacité de raisonnement et en créant de nouvelles preuves et données de réparation au sein des référentiels existants. Cette approche permet aux modèles de langage de synthétiser et de réparer des preuves pour du code au niveau de la fonction et du référentiel. Nous montrons que notre modèle PoPilot fine-tuné avec 14 milliards de paramètres peut dépasser les performances des modèles qui surpassent GPT-4o dans la programmation orientée vers la preuve au niveau du projet de 64 % en termes de marge relative, et peut améliorer les performances de GPT-4o de 54 % en réparant ses sorties par rapport à l'auto-réparation de GPT-4o.

Un seul modèle peut-il maîtriser à la fois les conversations multi-tours et l'utilisation d'outils ? CALM : Un modèle de langage conversationnel agentique unifié
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

Feb 12

ByEmre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur

Les modèles de langage de grande taille (LLM) dotés de capacités d'appel d'API ont permis la création d'agents linguistiques (LA) efficaces, tout en révolutionnant le paradigme conventionnel des dialogues orientés tâches (TOD). Cependant, les approches actuelles font face à un dilemme critique : les systèmes TOD sont souvent entraînés sur un ensemble limité d'API cibles, nécessitant de nouvelles données pour maintenir leur qualité lors de l'interfaçage avec de nouveaux services, tandis que les LA ne sont pas entraînés à maintenir l'intention de l'utilisateur sur des conversations à plusieurs tours. Étant donné que la gestion robuste des conversations multi-tours et l'appel de fonctions avancées sont tous deux cruciaux pour des agents conversationnels efficaces, nous évaluons ces compétences sur trois benchmarks populaires : MultiWOZ 2.4 (TOD), BFCL V3 (LA) et API-Bank (LA), et nos analyses révèlent que les approches spécialisées excellent dans un domaine mais sous-performent dans l'autre. Pour combler ce fossé, nous introduisons CALM (Conversational Agentic Language Model), une approche unifiée qui intègre à la fois des capacités conversationnelles et agentiques. Nous avons créé CALM-IT, un ensemble de données multi-tâches soigneusement construit qui entrelace un raisonnement ReAct multi-tours avec une utilisation complexe d'API. En utilisant CALM-IT, nous entraînons trois modèles : CALM 8B, CALM 70B et CALM 405B, qui surpassent les meilleurs modèles spécifiques à un domaine, y compris GPT-4o, sur les trois benchmarks.

Montrez-moi le travail : Exigences des vérificateurs de faits pour la vérification des faits automatisée explicative
Show Me the Work: Fact-Checkers' Requirements for Explainable Automated Fact-Checking

Feb 13

ByGreta Warren, Irina Shklovski, Isabelle Augenstein

La prévalence des grands modèles de langage et de l'IA générative dans les médias en ligne a amplifié le besoin d'une vérification des faits automatisée efficace pour aider les vérificateurs de faits à faire face au volume croissant et à la sophistication de la désinformation. La nature complexe de la vérification des faits exige que les systèmes de vérification des faits automatisés fournissent des explications permettant aux vérificateurs de faits d'examiner leurs résultats. Cependant, il n'est pas clair comment ces explications devraient être alignées sur les processus de prise de décision et de raisonnement des vérificateurs de faits pour être intégrées efficacement dans leurs flux de travail. À travers des entretiens semi-structurés avec des professionnels de la vérification des faits, nous comblons ce fossé en : (i) fournissant un compte rendu de la façon dont les vérificateurs de faits évaluent les preuves, prennent des décisions et expliquent leurs processus ; (ii) examinant comment les vérificateurs de faits utilisent les outils automatisés en pratique ; et (iii) identifiant les exigences d'explication des vérificateurs de faits pour les outils de vérification des faits automatisés. Les résultats montrent des besoins en explication non satisfaits et identifient des critères importants pour des explications de vérification des faits reproductibles qui retracent le chemin de raisonnement du modèle, font référence à des preuves spécifiques, et mettent en évidence l'incertitude et les lacunes en information.

ILIAS : Recherche d'images au niveau des instances à grande échelle
ILIAS: Instance-Level Image retrieval At Scale

Feb 17

ByGiorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias

Ce travail présente ILIAS, un nouveau jeu de données de test pour la recherche d'images au niveau des instances à grande échelle. Il est conçu pour évaluer la capacité des modèles de base actuels et futurs, ainsi que des techniques de recherche, à reconnaître des objets spécifiques. Les principaux avantages par rapport aux jeux de données existants incluent une grande échelle, une diversité de domaines, une vérité terrain précise et des performances loin d'être saturées. ILIAS comprend des images de requête et des images positives pour 1 000 instances d'objets, collectées manuellement pour capturer des conditions difficiles et des domaines variés. La recherche à grande échelle est effectuée contre 100 millions d'images distractrices provenant de YFCC100M. Pour éviter les faux négatifs sans effort d'annotation supplémentaire, nous incluons uniquement les objets de requête confirmés comme ayant émergé après 2014, c'est-à-dire la date de compilation de YFCC100M. Un benchmarking approfondi est réalisé avec les observations suivantes : i) les modèles affinés sur des domaines spécifiques, tels que les monuments ou les produits, excellent dans ce domaine mais échouent sur ILIAS ; ii) l'apprentissage d'une couche d'adaptation linéaire en utilisant une supervision de classe multi-domaine entraîne des améliorations de performance, en particulier pour les modèles vision-langage ; iii) les descripteurs locaux dans le reclassement de la recherche restent un élément clé, en particulier en présence d'un encombrement de fond sévère ; iv) la performance des modèles de base vision-langage dans le cas texte-image est étonnamment proche de celle du cas image-image. Site web : https://vrg.fel.cvut.cz/ilias/

Vers une préformation efficace des données pour la prédiction des propriétés atomiques
Towards Data-Efficient Pretraining for Atomic Property Prediction

Feb 16

ByYasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem

Cet article remet en question le paradigme récent dans la prédiction des propriétés atomiques, qui lie les progrès à l'augmentation de la taille des ensembles de données et des ressources informatiques. Nous montrons que la préformation sur un ensemble de données soigneusement sélectionné et pertinent pour la tâche peut égaler, voire surpasser, la préformation à grande échelle, tout en utilisant seulement 1/24e du coût informatique. Nous introduisons l'Indice de Similarité Chimique (ISC), une nouvelle métrique inspirée de la Distance d'Inception de Fréchet de la vision par ordinateur, pour les graphes moléculaires qui quantifie l'alignement entre les ensembles de données de préformation amont et les tâches aval. En sélectionnant l'ensemble de données le plus pertinent avec une distance ISC minimale, nous montrons que les modèles préformés sur un ensemble de données plus petit et ciblé surpassent systématiquement ceux préformés sur des ensembles de données massifs et mixtes tels que JMP, même lorsque ces ensembles de données plus grands incluent l'ensemble de données pertinent. Contre-intuitivement, nous constatons également qu'ajouter plus de données de manière indiscriminée peut dégrader les performances du modèle lorsque les données supplémentaires ne s'alignent pas bien avec la tâche en cours. Nos résultats soulignent que la qualité dépasse souvent la quantité dans la préformation pour la prédiction des propriétés atomiques.

Grands modèles de langage et échecs de raisonnement mathématique
Large Language Models and Mathematical Reasoning Failures

Feb 17

ByJohan Boye, Birger Moell

Cet article étudie les capacités de raisonnement mathématique des grands modèles de langage (LLM) en utilisant 50 problèmes de mots de niveau lycée nouvellement construits. Contrairement aux études antérieures qui se concentrent uniquement sur la correction des réponses, nous analysons rigoureusement à la fois les réponses finales et les étapes de solution pour identifier les échecs de raisonnement. En évaluant huit modèles de pointe - y compris Mixtral, Llama, Gemini, GPT-4o et les variantes o1 d'OpenAI - nous constatons que, bien que les nouveaux modèles (par exemple, o3-mini, deepseek-r1) atteignent une précision plus élevée, tous les modèles présentent des erreurs en matière de raisonnement spatial, de planification stratégique et d'arithmétique, produisant parfois des réponses correctes à travers une logique défectueuse. Les modes d'échec courants incluent des hypothèses non fondées, une dépendance excessive aux schémas numériques et des difficultés à traduire l'intuition physique en étapes mathématiques. L'analyse manuelle révèle que les modèles ont du mal avec les problèmes nécessitant une déduction en plusieurs étapes ou des connaissances du monde réel, malgré leur vaste connaissance mathématique. Nos résultats soulignent l'importance d'évaluer les processus de raisonnement, pas seulement les réponses, et mettent en garde contre la surestimation de la compétence des LLM en résolution de problèmes. L'étude met en lumière les lacunes persistantes dans les capacités de généralisation des LLM, soulignant la nécessité d'améliorations ciblées dans le raisonnement structuré et la gestion des contraintes.

Des meilleures embeddings avec Adam couplé
Better Embeddings with Coupled Adam

Feb 12

ByFelix Stollenwerk, Tobias Stollenwerk

Malgré leurs capacités remarquables, les LLM apprennent des représentations de mots qui présentent la caractéristique indésirable mais mal comprise de l'anisotropie. Dans cet article, nous soutenons que le deuxième moment dans Adam est une cause des plongements anisotropes, et suggérons un optimiseur modifié appelé Adam Couplé pour atténuer le problème. Nos expériences démontrent que Adam Couplé améliore significativement la qualité des plongements, tout en conduisant à de meilleures performances en amont et en aval sur des ensembles de données suffisamment grands.

Évaluation des Données par Réseaux Neuronaux pour un Réglage Fin Efficace des Instructions
Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

Feb 14

ByIshika Agarwal, Dilek Hakkani-Tür

Les fonctions d'influence offrent des insights cruciaux sur l'entraînement des modèles, mais les méthodes existantes souffrent de coûts de calcul élevés et d'une généralisation limitée. En particulier, des travaux récents ont proposé diverses métriques et algorithmes pour calculer l'influence des données en utilisant des modèles de langage, qui ne s'adaptent pas bien aux grands modèles et jeux de données. Cela est dû aux passes avant et arrière coûteuses nécessaires pour le calcul, aux exigences de mémoire substantielles pour stocker les grands modèles, et à la mauvaise généralisation des estimations d'influence aux nouvelles données. Dans cet article, nous explorons l'utilisation de petits réseaux de neurones -- que nous appelons InfluenceNetwork -- pour estimer les valeurs d'influence, atteignant jusqu'à 99% de réduction des coûts. Notre évaluation démontre que les valeurs d'influence peuvent être estimées avec des modèles représentant seulement 0,0027% de la taille des modèles de langage complets (nous utilisons des versions de 7B et 8B). Nous appliquons notre algorithme d'estimation des valeurs d'influence (appelé NN-CIFT : Neural Networks for effiCient Instruction Fine-Tuning) à la tâche en aval de sélection de sous-ensembles pour le fine-tuning d'instructions générales. Dans notre étude, nous incluons quatre fonctions d'influence de pointe et montrons qu'il n'y a pas de compromis sur la performance entre NN-CIFT et les fonctions d'influence originales, malgré des accélérations significatives. Nous fournissons une analyse approfondie des hyperparamètres de NN-CIFT. Le code de notre méthode est disponible ici : https://github.com/agarwalishika/NN-CIFT.

Mesure de la complexité linguistique en tant que proxy bruité de type zéro-shot pour évaluer les performances des LLM.
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

Feb 17

ByBirger Moell, Johan Boye

Les grands modèles de langage (LLM) ont fait des progrès significatifs dans la génération de langage naturel, mais rencontrent souvent des défis dans les tâches nécessitant des calculs précis et une analyse structurale. Ce document examine les performances des LLM de pointe sur des tâches de mesure de la complexité linguistique, à travers le calcul de la métrique de lisibilité LIX et de la Distance Moyenne de Dépendance (ADD). En utilisant des essais suédois de lycée et de niveau universitaire, nous évaluons les capacités des modèles à calculer les scores LIX et à effectuer l'analyse de dépendance, en comparant leurs résultats aux vérités établies. Nos résultats révèlent que bien que tous les modèles démontrent une certaine capacité pour ces tâches, ChatGPT-o1-mini est le plus cohérent, atteignant la plus haute précision à la fois dans le calcul de LIX et dans l'analyse de dépendance. De plus, nous observons une forte corrélation significative de -0,875 p 0,026 (N=6) entre la précision des modèles dans le calcul de LIX et leurs performances globales sur le benchmark Massive Multitask Language Understanding (MMLU). Ces résultats suggèrent que les capacités de mesure de la complexité linguistique peuvent servir de proxies bruités en zéro-shot pour évaluer les capacités générales des LLM, offrant une méthode pratique pour l'évaluation des modèles sans avoir besoin de vastes ensembles de données de référence.

ExaGPT : Détection de texte généré par machine basée sur des exemples pour l'interprétabilité humaine
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

Feb 17

ByRyuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki

La détection de textes générés par des modèles de langage à grande échelle (LLMs) peut entraîner des erreurs graves en raison de décisions incorrectes, comme porter atteinte à la dignité académique d'un étudiant. La détection de textes LLM doit donc garantir l'interprétabilité de la décision, ce qui peut aider les utilisateurs à juger de la fiabilité de sa prédiction. Lorsque les humains vérifient si un texte est écrit par un humain ou généré par un LLM, ils examinent intuitivement avec lequel il partage des segments plus similaires. Cependant, les détecteurs interprétables existants ne sont pas alignés sur le processus de décision humaine et ne fournissent pas de preuves facilement compréhensibles par les utilisateurs. Pour combler cette lacune, nous introduisons ExaGPT, une approche de détection interprétable basée sur le processus de décision humaine pour vérifier l'origine d'un texte. ExaGPT identifie un texte en vérifiant s'il partage des segments plus similaires avec des textes écrits par des humains ou avec des textes générés par des LLMs à partir d'une base de données. Cette approche peut fournir des exemples de segments similaires qui contribuent à la décision pour chaque segment du texte comme preuve. Notre évaluation humaine démontre que fournir des exemples de segments similaires contribue plus efficacement à juger de la justesse de la décision que les méthodes interprétables existantes. De plus, des expériences approfondies dans quatre domaines et avec trois générateurs montrent qu'ExaGPT surpasse massivement les détecteurs puissants précédents avec une amélioration allant jusqu'à +40,9 points de précision à un taux de faux positifs de 1%.