HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

Absolute Zero : Raisonnement par auto-apprentissage renforcé sans données initiales
Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6

ByAndrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang

185

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des résultats prometteurs pour améliorer les capacités de raisonnement des grands modèles de langage en apprenant directement à partir de récompenses basées sur les résultats. Les travaux récents en RLVR opérant dans un cadre zéro évitent la supervision dans l'étiquetage du processus de raisonnement, mais dépendent toujours de collections de questions et réponses soigneusement préparées par des humains pour l'entraînement. La rareté d'exemples de haute qualité produits par des humains soulève des inquiétudes quant à l'évolutivité à long terme de la dépendance à la supervision humaine, un défi déjà apparent dans le domaine du pré-entraînement des modèles de langage. De plus, dans un futur hypothétique où l'IA surpasserait l'intelligence humaine, les tâches fournies par les humains pourraient offrir un potentiel d'apprentissage limité pour un système superintelligent. Pour répondre à ces préoccupations, nous proposons un nouveau paradigme RLVR appelé Absolute Zero, dans lequel un seul modèle apprend à proposer des tâches qui maximisent ses propres progrès d'apprentissage et améliore son raisonnement en les résolvant, sans s'appuyer sur aucune donnée externe. Dans ce cadre, nous introduisons l'Absolute Zero Reasoner (AZR), un système qui auto-évolue son programme d'entraînement et ses capacités de raisonnement en utilisant un exécuteur de code pour valider les tâches de raisonnement en code proposées et vérifier les réponses, servant ainsi de source unifiée de récompense vérifiable pour guider un apprentissage ouvert mais ancré. Bien qu'entraîné entièrement sans données externes, AZR atteint des performances globales de pointe sur des tâches de raisonnement en programmation et en mathématiques, surpassant les modèles existants en cadre zéro qui s'appuient sur des dizaines de milliers d'exemples humains soigneusement sélectionnés dans le domaine. De plus, nous démontrons qu'AZR peut être efficacement appliqué à différentes échelles de modèles et est compatible avec diverses classes de modèles.

Modèle de Récompense Unifié à Chaîne de Pensée Multimodale par Réglage Fin par Renforcement
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6

ByYibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Les récents progrès dans les modèles de récompense multimodaux (RMs) ont montré un potentiel significatif pour fournir des signaux de récompense afin d'aligner les modèles visuels avec les préférences humaines. Cependant, les RMs actuels sont généralement limités à fournir des réponses directes ou à s'engager dans des processus de raisonnement superficiels avec une profondeur limitée, ce qui conduit souvent à des signaux de récompense inexacts. Nous postulons que l'intégration de chaînes de pensée explicites (CoT) dans le processus de raisonnement des récompenses peut considérablement renforcer leur fiabilité et leur robustesse. De plus, nous pensons qu'une fois que les RMs internalisent le raisonnement CoT, la précision de leurs réponses directes peut également être améliorée grâce à des capacités de raisonnement implicites. Dans cette optique, cet article propose UnifiedReward-Think, le premier modèle de récompense multimodal unifié basé sur CoT, capable de raisonnement multidimensionnel et étape par étape pour des tâches de récompense liées à la compréhension et à la génération visuelles. Plus précisément, nous adoptons une approche de réglage fin par renforcement axée sur l'exploration pour susciter et encourager la capacité de raisonnement complexe latente du modèle : (1) Nous utilisons d'abord une petite quantité de données de préférence de génération d'images pour distiller le processus de raisonnement de GPT-4o, qui est ensuite utilisé pour l'amorçage à froid du modèle afin d'apprendre le format et la structure du raisonnement CoT. (2) Ensuite, en exploitant les connaissances préalables et les capacités de généralisation du modèle, nous préparons des données de préférence multimodales unifiées à grande échelle pour susciter le processus de raisonnement du modèle à travers diverses tâches visuelles. Durant cette phase, les sorties de raisonnement correctes sont conservées pour un échantillonnage par rejet afin d'affiner le modèle (3) tandis que les échantillons prédits incorrects sont finalement utilisés pour un réglage fin par renforcement basé sur l'Optimisation Relative de Politique de Groupe (GRPO), permettant au modèle d'explorer divers chemins de raisonnement et d'optimiser pour des solutions correctes et robustes. Des expériences approfondies sur diverses tâches de récompense visuelle démontrent la supériorité de notre modèle.

RADLADS : Distillation Rapide de l'Attention vers des Décodeurs à Attention Linéaire à Grande Échelle
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5

ByDaniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah

Nous présentons Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocole permettant de convertir rapidement des transformeurs à attention softmax en modèles décodeurs à attention linéaire, ainsi que deux nouvelles architectures de type RWKV et des modèles convertis à partir des modèles open source populaires Qwen2.5 en tailles 7B, 32B et 72B. Notre processus de conversion nécessite seulement 350 à 700 millions de tokens, soit moins de 0,005 % du nombre de tokens utilisés pour entraîner les modèles enseignants originaux. La conversion vers notre modèle à attention linéaire de 72B coûte moins de 2 000 USD aux prix actuels, tout en maintenant une qualité d'inférence proche de celle du transformeur original. Ces modèles atteignent des performances de pointe sur un ensemble de benchmarks standards pour les modèles à attention linéaire de leur taille. Nous publions tous nos modèles sur HuggingFace sous licence Apache 2.0, à l'exception de nos modèles 72B qui sont également régis par le Qwen License Agreement. Modèles disponibles sur https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Code d'entraînement sur https://github.com/recursal/RADLADS-paper

FlexiAct : Vers un contrôle flexible des actions dans des scénarios hétérogènes
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6

ByShiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang

La personnalisation d'action consiste à générer des vidéos où le sujet effectue des actions dictées par des signaux de contrôle en entrée. Les méthodes actuelles utilisent la personnalisation guidée par la pose ou par le mouvement global, mais sont limitées par des contraintes strictes sur la structure spatiale, telles que la disposition, le squelette et la cohérence du point de vue, réduisant ainsi l'adaptabilité à divers sujets et scénarios. Pour surmonter ces limitations, nous proposons FlexiAct, qui transfère les actions d'une vidéo de référence à une image cible arbitraire. Contrairement aux méthodes existantes, FlexiAct permet des variations dans la disposition, le point de vue et la structure squelettique entre le sujet de la vidéo de référence et l'image cible, tout en maintenant la cohérence de l'identité. Pour y parvenir, un contrôle précis de l'action, une adaptation de la structure spatiale et une préservation de la cohérence sont nécessaires. À cette fin, nous introduisons RefAdapter, un adaptateur léger conditionné par l'image, qui excelle dans l'adaptation spatiale et la préservation de la cohérence, surpassant les méthodes existantes dans l'équilibre entre la cohérence de l'apparence et la flexibilité structurelle. De plus, sur la base de nos observations, le processus de débruitage montre des niveaux d'attention variables au mouvement (basse fréquence) et aux détails d'apparence (haute fréquence) à différents pas de temps. Nous proposons donc FAE (Extraction d'Action Sensible à la Fréquence), qui, contrairement aux méthodes existantes qui reposent sur des architectures spatiales-temporelles séparées, réalise directement l'extraction d'action pendant le processus de débruitage. Les expériences démontrent que notre méthode transfère efficacement les actions à des sujets avec des dispositions, des squelettes et des points de vue divers. Nous publions notre code et les poids du modèle pour soutenir des recherches ultérieures sur https://shiyi-zh0408.github.io/projectpages/FlexiAct/

RetroInfer : Une Approche de Stockage Vectoriel pour l'Inférence Évolutive des LLM à Contexte Long
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

May 5

ByYaoqi Chen, Jinkai Zhang, Baotong Lu, Qianxi Zhang, Chengruidong Zhang, Jingjia Luo, Di Liu, Huiqiang Jiang, Qi Chen, Jing Liu, Bailu Ding, Xiao Yan, Jiawei Jiang, Chen Chen, Mingxing Zhang, Yuqing Yang, Fan Yang, Mao Yang

L'augmentation des longueurs de contexte des grands modèles de langage (LLMs) présente des défis majeurs pour l'inférence efficace, principalement en raison des contraintes de mémoire GPU et de bande passante. Nous présentons RetroInfer, un système novateur qui reconceptualise le cache clé-valeur (KV) en un système de stockage vectoriel exploitant la sparsité intrinsèque de l'attention pour accélérer l'inférence des LLMs à contexte long. Au cœur de ce système se trouve l'index wave, un index Attention-aWare VEctor qui permet une récupération efficace et précise des tokens critiques grâce à des techniques telles que l'approximation d'attention tripartite, l'estimation d'attention à précision bornée et le clustering segmenté. Ceci est complété par le wave buffer, qui coordonne le placement du cache KV et superpose le calcul et le transfert de données entre le GPU et le CPU pour maintenir un débit élevé. Contrairement aux méthodes basées sur la sparsité antérieures qui peinent avec la sélection des tokens et la coordination matérielle, RetroInfer offre des performances robustes sans compromettre la précision du modèle. Les expériences sur des benchmarks à contexte long montrent une accélération allant jusqu'à 4,5X par rapport à l'attention complète dans les limites de mémoire GPU, et jusqu'à 10,5X par rapport aux bases de référence d'attention sparse lorsque le cache KV est étendu à la mémoire CPU, tout en préservant une précision équivalente à celle de l'attention complète.

Une étude empirique de la quantification de Qwen3
An Empirical Study of Qwen3 Quantization

May 4

ByXingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu

La série Qwen s'est imposée comme une famille phare de modèles de langage de grande taille (LLM) open source, démontrant des capacités remarquables dans les tâches de compréhension du langage naturel. Avec la récente sortie de Qwen3, qui affiche des performances supérieures sur divers benchmarks, l'intérêt pour déployer ces modèles de manière efficace dans des environnements à ressources limitées ne cesse de croître. La quantification à faible précision apparaît comme une solution prometteuse, mais son impact sur les performances de Qwen3 reste encore peu exploré. Cette étude propose une évaluation systématique de la robustesse de Qwen3 sous différents paramètres de quantification, visant à identifier à la fois les opportunités et les défis liés à la compression de ce modèle de pointe. Nous évaluons rigoureusement 5 techniques classiques de quantification post-entraînement appliquées à Qwen3, couvrant des largeurs de bits allant de 1 à 8 bits, et mesurons leur efficacité sur plusieurs jeux de données. Nos résultats révèlent que si Qwen3 maintient des performances compétitives à des précisions modérées, il subit une dégradation notable dans les tâches linguistiques sous une précision ultra-faible, soulignant les défis persistants de la compression des LLM. Ces résultats mettent en lumière la nécessité de recherches supplémentaires pour atténuer la perte de performance dans les scénarios de quantification extrême. Nous espérons que cette analyse empirique fournira des insights exploitables pour faire progresser les méthodes de quantification adaptées à Qwen3 et aux futurs LLM, améliorant ainsi leur praticabilité sans compromettre leur précision. Notre projet est disponible sur https://github.com/Efficient-ML/Qwen3-Quantization et https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.

Système Multi-Agent pour une Compréhension Globale du Football
Multi-Agent System for Comprehensive Soccer Understanding

May 6

ByJiayuan Rao, Zifeng Li, Haoning Wu, Ya Zhang, Yanfeng Wang, Weidi Xie

Les récents progrès dans la compréhension du football pilotée par l'IA ont démontré une avancée rapide, mais les recherches existantes se concentrent principalement sur des tâches isolées ou restreintes. Pour combler cette lacune, nous proposons un cadre complet pour une compréhension holistique du football. Plus précisément, nous apportons les contributions suivantes dans cet article : (i) nous construisons SoccerWiki, la première base de connaissances multimodale à grande échelle sur le football, intégrant des connaissances riches sur les joueurs, les équipes, les arbitres et les lieux pour permettre un raisonnement basé sur les connaissances ; (ii) nous présentons SoccerBench, le benchmark le plus vaste et le plus complet spécifique au football, comprenant environ 10 000 paires de questions-réponses multimodales (texte, image, vidéo) standardisées à choix multiples, couvrant 13 tâches de compréhension distinctes, élaborées via des pipelines automatisés et une vérification manuelle ; (iii) nous introduisons SoccerAgent, un système multi-agent innovant qui décompose des questions complexes sur le football grâce à un raisonnement collaboratif, exploitant l'expertise du domaine de SoccerWiki et obtenant des performances robustes ; (iv) des évaluations et des ablations approfondies qui benchmarkent les modèles de langage multimodaux (MLLM) de pointe sur SoccerBench, mettant en évidence la supériorité de notre système agentique proposé. Toutes les données et le code sont disponibles publiquement à l'adresse : https://jyrao.github.io/SoccerAgent/.

Décodage des objectifs de recherche d'information ouverte à partir des mouvements oculaires lors de la lecture
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

May 4

ByCfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak

Lors de la lecture, nous avons souvent des informations spécifiques qui nous intéressent dans un texte. Par exemple, vous pourriez lire cet article parce que vous êtes curieux à propos des modèles de langage (LLM) pour les mouvements oculaires lors de la lecture, de la conception expérimentale, ou peut-être vous souciez-vous uniquement de la question « mais est-ce que ça fonctionne ? ». Plus largement, dans la vie quotidienne, les personnes abordent les textes avec une multitude d'objectifs spécifiques au texte qui guident leur comportement de lecture. Dans ce travail, nous nous demandons, pour la première fois, si les objectifs de lecture ouverts peuvent être décodés automatiquement à partir des mouvements oculaires lors de la lecture. Pour répondre à cette question, nous introduisons des tâches de classification et de reconstruction des objectifs ainsi que des cadres d'évaluation, et utilisons des données de suivi oculaire à grande échelle pour la lecture en anglais avec des centaines de tâches de recherche d'informations spécifiques au texte. Nous développons et comparons plusieurs modèles de langage multimodaux discriminatifs et génératifs qui combinent les mouvements oculaires et le texte pour la classification et la reconstruction des objectifs. Nos expériences montrent un succès considérable sur les deux tâches, suggérant que les LLM peuvent extraire des informations précieuses sur les objectifs spécifiques au texte des lecteurs à partir des mouvements oculaires.

HoloTime : Maîtriser les modèles de diffusion vidéo pour la génération de scènes panoramiques 4D
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Apr 30

ByHaiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan

L'avancée rapide des modèles de diffusion promet de révolutionner l'application des technologies de réalité virtuelle (VR) et de réalité augmentée (AR), qui nécessitent généralement des ressources 4D au niveau de la scène pour l'expérience utilisateur. Néanmoins, les modèles de diffusion existants se concentrent principalement sur la modélisation de scènes 3D statiques ou de dynamiques au niveau des objets, limitant ainsi leur capacité à offrir des expériences véritablement immersives. Pour résoudre ce problème, nous proposons HoloTime, un cadre qui intègre des modèles de diffusion vidéo pour générer des vidéos panoramiques à partir d'une seule invite ou image de référence, ainsi qu'une méthode de reconstruction 4D à 360 degrés qui transforme de manière fluide la vidéo panoramique générée en ressources 4D, permettant une expérience 4D entièrement immersive pour les utilisateurs. Plus précisément, pour maîtriser les modèles de diffusion vidéo afin de générer des vidéos panoramiques haute fidélité, nous introduisons le jeu de données 360World, la première collection exhaustive de vidéos panoramiques adaptées aux tâches de reconstruction 4D de scènes. Avec ce jeu de données soigneusement sélectionné, nous proposons Panoramic Animator, un modèle de diffusion image-à-vidéo en deux étapes capable de convertir des images panoramiques en vidéos panoramiques de haute qualité. Ensuite, nous présentons Panoramic Space-Time Reconstruction, qui exploite une méthode d'estimation de profondeur spatio-temporelle pour transformer les vidéos panoramiques générées en nuages de points 4D, permettant l'optimisation d'une représentation holistique 4D par splatting gaussien pour reconstruire des scènes 4D spatialement et temporellement cohérentes. Pour valider l'efficacité de notre méthode, nous avons mené une analyse comparative avec les approches existantes, révélant sa supériorité à la fois dans la génération de vidéos panoramiques et dans la reconstruction de scènes 4D. Cela démontre la capacité de notre méthode à créer des environnements immersifs plus engageants et réalistes, améliorant ainsi les expériences utilisateur dans les applications de VR et AR.

SWE-smith : Mise à l'échelle des données pour les agents d'ingénierie logicielle
SWE-smith: Scaling Data for Software Engineering Agents

Apr 30

ByJohn Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang

Malgré les progrès récents des modèles de langage (LMs) pour l'ingénierie logicielle, la collecte de données d'entraînement reste un défi majeur. Les ensembles de données existants sont de petite taille, avec au maximum quelques milliers d'exemples d'entraînement provenant de 11 dépôts GitHub ou moins. Les procédures pour constituer ces ensembles de données sont souvent complexes, nécessitant des centaines d'heures de travail humain ; les environnements d'exécution associés occupent également plusieurs téraoctets de stockage, limitant fortement leur évolutivité et leur utilité. Pour résoudre ce problème, nous présentons SWE-smith, un pipeline innovant pour générer des données d'entraînement en ingénierie logicielle à grande échelle. Étant donné un codebase Python quelconque, SWE-smith construit un environnement d'exécution correspondant, puis synthétise automatiquement des centaines à des milliers d'exemples de tâches qui font échouer les tests existants dans le codebase. En utilisant SWE-smith, nous créons un ensemble de données de 50 000 exemples provenant de 128 dépôts GitHub, soit un ordre de grandeur supérieur à tous les travaux précédents. Nous entraînons SWE-agent-LM-32B, atteignant un taux de résolution Pass@1 de 40,2 % sur le benchmark SWE-bench Verified, établissant ainsi l'état de l'art parmi les modèles open source. Nous rendons SWE-smith open source (procédure de collecte, exemples de tâches, trajectoires, modèles) pour abaisser le seuil d'entrée dans la recherche sur les systèmes de LMs pour l'ingénierie logicielle automatisée. Tous les actifs sont disponibles à l'adresse https://swesmith.com.

VITA-Audio : Génération rapide de jetons intercalés intermodaux pour des modèles de langage et de parole de grande taille efficaces
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

May 6

ByZuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

Avec l'essor des besoins en interaction homme-machine naturelle, les systèmes basés sur la parole suscitent un intérêt croissant, la parole étant l'une des formes de communication quotidienne les plus courantes. Cependant, les modèles de parole existants rencontrent encore une latence élevée lors de la génération du premier jeton audio en streaming, ce qui constitue un goulot d'étranglement majeur pour leur déploiement. Pour résoudre ce problème, nous proposons VITA-Audio, un modèle de parole de grande taille de bout en bout capable de générer rapidement des jetons audio-textuels. Plus précisément, nous introduisons un module léger de prédiction de jetons multi-modaux (MCTP) qui génère efficacement plusieurs jetons audio en une seule passe avant du modèle, ce qui accélère non seulement l'inférence, mais réduit également de manière significative la latence pour générer le premier audio dans des scénarios de streaming. De plus, une stratégie d'entraînement progressive en quatre étapes est explorée pour accélérer le modèle avec une perte minimale de qualité de la parole. À notre connaissance, VITA-Audio est le premier modèle de langage multi-modal de grande taille capable de générer une sortie audio dès la première passe avant, permettant des capacités conversationnelles en temps réel avec une latence minimale. VITA-Audio est entièrement reproductible et est entraîné uniquement sur des données open source. Les résultats expérimentaux démontrent que notre modèle atteint une accélération de l'inférence de 3 à 5 fois à l'échelle de 7 milliards de paramètres, tout en surpassant de manière significative les modèles open source de taille similaire sur plusieurs benchmarks pour les tâches de reconnaissance automatique de la parole (ASR), de synthèse vocale (TTS) et de réponse à des questions orales (SQA).

Interprétabilité mécaniste géospatiale des grands modèles de langage
Geospatial Mechanistic Interpretability of Large Language Models

May 6

ByStef De Sabbata, Stefano Mizzaro, Kevin Roitero

Les grands modèles de langage (LLM) ont démontré des capacités sans précédent dans diverses tâches de traitement du langage naturel. Leur aptitude à traiter et à générer du texte et du code viables les a rendus omniprésents dans de nombreux domaines, tandis que leur déploiement en tant que bases de connaissances et outils de "raisonnement" reste un sujet de recherche active. En géographie, un nombre croissant de publications se concentre sur l'évaluation des connaissances géographiques des LLM et de leur capacité à effectuer un raisonnement spatial. Cependant, on sait encore très peu de choses sur le fonctionnement interne de ces modèles, en particulier sur la manière dont ils traitent les informations géographiques. Dans ce chapitre, nous établissons un cadre novateur pour l'étude de l'interprétabilité mécaniste géospatiale - en utilisant l'analyse spatiale pour rétro-ingénierer la manière dont les LLM gèrent les informations géographiques. Notre objectif est de faire progresser notre compréhension des représentations internes que ces modèles complexes génèrent lors du traitement des informations géographiques - ce que l'on pourrait appeler "comment les LLM pensent l'information géographique", si une telle formulation ne constituait pas un anthropomorphisme excessif. Nous commençons par décrire l'utilisation du probing pour révéler les structures internes des LLM. Nous introduisons ensuite le domaine de l'interprétabilité mécaniste, en discutant de l'hypothèse de superposition et du rôle des autoencodeurs parcimonieux dans la décomposition des représentations internes polysémiques des LLM en caractéristiques plus interprétables et monosémiques. Dans nos expériences, nous utilisons l'autocorrélation spatiale pour montrer comment les caractéristiques obtenues pour les noms de lieux présentent des motifs spatiaux liés à leur emplacement géographique et peuvent ainsi être interprétées géospatialement, fournissant des insights sur la manière dont ces modèles traitent les informations géographiques. Nous concluons en discutant comment notre cadre peut contribuer à façonner l'étude et l'utilisation des modèles fondateurs en géographie.

Quel agent provoque les échecs de tâches et quand ? Sur l'attribution automatisée des échecs dans les systèmes multi-agents basés sur des modèles de langage
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

Apr 30

ByShaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu

L'attribution des échecs dans les systèmes multi-agents basés sur des LLM - identifier l'agent et l'étape responsables des échecs de tâches - fournit des indices cruciaux pour le débogage des systèmes, mais reste peu explorée et laborieuse. Dans cet article, nous proposons et formulons un nouveau domaine de recherche : l'attribution automatisée des échecs pour les systèmes multi-agents basés sur des LLM. Pour soutenir cette initiative, nous introduisons le jeu de données Who&When, comprenant des journaux d'échecs exhaustifs provenant de 127 systèmes multi-agents basés sur des LLM, avec des annotations fines liant les échecs à des agents spécifiques et aux étapes décisives d'erreur. En utilisant Who&When, nous développons et évaluons trois méthodes automatisées d'attribution des échecs, résumant leurs avantages et inconvénients respectifs. La meilleure méthode atteint une précision de 53,5 % dans l'identification des agents responsables des échecs, mais seulement 14,2 % dans la localisation des étapes d'échec, certaines méthodes performant en dessous du hasard. Même les modèles de raisonnement de pointe, tels qu'OpenAI o1 et DeepSeek R1, ne parviennent pas à atteindre une utilité pratique. Ces résultats mettent en évidence la complexité de la tâche et la nécessité de poursuivre les recherches dans ce domaine. Le code et le jeu de données sont disponibles à l'adresse https://github.com/mingyin1/Agents_Failure_Attribution.

Scenethesis : Un cadre agentique de langage et de vision pour la génération de scènes 3D
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5

ByLu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li

La synthèse de scènes interactives en 3D à partir de texte est essentielle pour les jeux, la réalité virtuelle et l'intelligence artificielle incarnée. Cependant, les méthodes existantes rencontrent plusieurs défis. Les approches basées sur l'apprentissage dépendent de jeux de données intérieurs à petite échelle, limitant ainsi la diversité des scènes et la complexité des agencements. Bien que les grands modèles de langage (LLMs) puissent exploiter des connaissances variées dans le domaine textuel, ils peinent à atteindre un réalisme spatial, produisant souvent des placements d'objets peu naturels qui ne respectent pas le bon sens. Notre idée clé est que la perception visuelle peut combler cette lacune en fournissant un guidage spatial réaliste que les LLMs ne possèdent pas. À cette fin, nous introduisons Scenethesis, un cadre agentique sans apprentissage qui intègre la planification de scènes basée sur les LLMs avec un affinement d'agencement guidé par la vision. Étant donné une invite textuelle, Scenethesis utilise d'abord un LLM pour esquisser un agencement grossier. Un module visuel l'affine ensuite en générant un guidage d'image et en extrayant la structure de la scène pour capturer les relations inter-objets. Ensuite, un module d'optimisation applique itérativement un alignement précis des poses et une plausibilité physique, évitant des artefacts tels que la pénétration d'objets et l'instabilité. Enfin, un module de jugement vérifie la cohérence spatiale. Des expériences approfondies montrent que Scenethesis génère des scènes interactives en 3D diversifiées, réalistes et physiquement plausibles, ce qui le rend précieux pour la création de contenu virtuel, les environnements de simulation et la recherche en intelligence artificielle incarnée.

InfoVids : Réinventer l'expérience du spectateur avec des relations alternatives entre visualisation et présentateur
InfoVids: Reimagining the Viewer Experience with Alternative Visualization-Presenter Relationships

May 6

ByJi Won Chung, Tongyu Zhou, Ivy Chen, Kevin Hsu, Ryan A. Rossi, Alexa Siu, Shunan Guo, Franck Dernoncourt, James Tompkin, Jeff Huang

Les présentations de données traditionnelles séparent généralement le présentateur et la visualisation en deux espaces distincts - le monde en 3D et un écran en 2D - imposant ainsi des récits centrés sur la visualisation. Pour créer une expérience de visionnage plus centrée sur l'humain, nous établissons une relation plus équilibrée entre la visualisation et le présentateur grâce à nos InfoVids. Ces vidéos informatives inspirées des infographies sont conçues pour redéfinir les relations entre le présentateur et les visualisations. En concevant les InfoVids, nous explorons comment l'utilisation de la mise en page, de la forme et des interactions influence l'expérience du spectateur. Nous comparons les InfoVids à leurs équivalents en 2D, les `diapositives', sur 9 métriques avec 30 participants, et fournissons des insights pratiques et à long terme d'un point de vue autobiographique. Nos analyses par méthodes mixtes révèlent que ce paradigme réduit la division de l'attention des spectateurs, déplace le focus de la visualisation vers le présentateur, et conduit à des performances de données plus interactives, naturelles et engageantes impliquant tout le corps pour les spectateurs. En fin de compte, les InfoVids ont aidé les spectateurs à réimaginer les dynamiques traditionnelles entre le présentateur et les visualisations.

Apprendre aux modèles à comprendre (mais pas à générer) des données à haut risque
Teaching Models to Understand (but not Generate) High-risk Data

May 5

ByRyan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia

Les développeurs de modèles de langage filtrent généralement les contenus à haut risque — tels que les textes toxiques ou protégés par des droits d'auteur — de leurs données de pré-entraînement pour empêcher les modèles de générer des sorties similaires. Cependant, supprimer complètement ces données limite la capacité des modèles à reconnaître et à répondre de manière appropriée aux contenus nuisibles ou sensibles. Dans cet article, nous présentons Selective Loss to Understand but Not Generate (SLUNG), un paradigme de pré-entraînement grâce auquel les modèles apprennent à comprendre les données à haut risque sans apprendre à les générer. Au lieu d'appliquer uniformément la perte de prédiction du token suivant, SLUNG évite sélectivement d'inciter à la génération de tokens à haut risque tout en s'assurant qu'ils restent dans la fenêtre contextuelle du modèle. Comme le modèle apprend à prédire les tokens à faible risque qui suivent ceux à haut risque, il est contraint de comprendre le contenu à haut risque. À travers nos expériences, nous montrons que SLUNG améliore systématiquement la compréhension des données à haut risque par les modèles (par exemple, la capacité à reconnaître un contenu toxique) sans en augmenter la génération (par exemple, la toxicité des réponses du modèle). Globalement, notre paradigme SLUNG permet aux modèles de tirer parti des textes à haut risque qui seraient autrement filtrés.

Invoquer les interfaces uniquement lorsque nécessaire : invocation adaptative pour les modèles de langage de grande taille dans les systèmes de réponse aux questions
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5

ByJihao Zhao, Chunlai Zhou, Biao Qin

Le paradigme collaboratif des grands et petits modèles de langage (LMs) équilibre efficacement performance et coût, mais son défi majeur réside dans la détermination précise du moment d'invocation lorsque des hallucinations surviennent dans les petits LMs. Les efforts d'optimisation précédents se concentraient principalement sur des techniques de post-traitement, distinctes du processus de raisonnement des LMs, entraînant des coûts de calcul élevés et une efficacité limitée. Dans cet article, nous proposons une métrique pratique d'évaluation de l'invocation appelée AttenHScore, qui calcule l'accumulation et la propagation des hallucinations pendant le processus de génération des petits LMs, amplifiant continuellement les erreurs de raisonnement potentielles. En ajustant dynamiquement le seuil de détection, nous obtenons une invocation en temps réel plus précise des grands LMs. De plus, en tenant compte de la capacité de raisonnement limitée des petits LMs, nous exploitons une réorganisation des connaissances prenant en compte l'incertitude pour les aider à mieux capturer les informations critiques provenant de différents segments de texte. Des expériences approfondies révèlent que notre AttenHScore surpasse la plupart des méthodes de référence en améliorant les capacités de détection d'hallucinations en temps réel sur plusieurs ensembles de données de questions-réponses, en particulier lors de la résolution de requêtes complexes. Par ailleurs, nos stratégies éliminent le besoin d'un entraînement supplémentaire du modèle et montrent une flexibilité dans l'adaptation à divers LMs basés sur des transformateurs.

Auto-SLURP : Un ensemble de données de référence pour l'évaluation des cadres multi-agents dans les assistants personnels intelligents
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Apr 25

ByLei Shen, Xiaoyu Shen

Ces dernières années, les cadres multi-agents alimentés par des modèles de langage de grande taille (LLMs) ont progressé rapidement. Malgré ces avancées, il existe encore une absence notable de jeux de données de référence spécifiquement conçus pour évaluer leurs performances. Pour combler cette lacune, nous présentons Auto-SLURP, un jeu de données de référence visant à évaluer les cadres multi-agents basés sur des LLMs dans le contexte des assistants personnels intelligents. Auto-SLURP étend le jeu de données SLURP original — initialement développé pour des tâches de compréhension du langage naturel — en réétiquetant les données et en intégrant des serveurs simulés et des services externes. Cette amélioration permet une évaluation complète de bout en bout, couvrant la compréhension du langage, l'exécution des tâches et la génération de réponses. Nos expériences démontrent qu'Auto-SLURP représente un défi significatif pour les cadres actuels de pointe, soulignant que les assistants personnels multi-agents véritablement fiables et intelligents restent un travail en cours. Le jeu de données et le code associé sont disponibles à l'adresse https://github.com/lorashen/Auto-SLURP/.

Benchmark Alpha Excel
Alpha Excel Benchmark

May 7

ByDavid Noever, Forrest McKee

Cette étude présente un nouveau benchmark pour évaluer les modèles de langage de grande taille (LLMs) en utilisant des défis issus des compétitions Excel de la Coupe du Monde de Modélisation Financière (FMWC). Nous introduisons une méthodologie pour convertir 113 défis existants de la FMWC en formats JSON évaluables de manière programmatique et utilisons cet ensemble de données pour comparer les performances de plusieurs LLMs leaders. Nos résultats montrent des variations significatives de performance selon les catégories de défis, avec des modèles démontrant des forces spécifiques dans les tâches de reconnaissance de motifs mais rencontrant des difficultés avec le raisonnement numérique complexe. Le benchmark fournit un cadre standardisé pour évaluer les capacités des LLMs dans des tâches réalistes orientées vers les affaires plutôt que dans des problèmes académiques abstraits. Cette recherche contribue au domaine croissant du benchmarking en IA en établissant la maîtrise des 1,5 milliard de personnes utilisant quotidiennement Microsoft Excel comme une métrique d'évaluation significative qui comble le fossé entre les benchmarks académiques en IA et les applications pratiques en entreprise.

Modèle de Récompense Unifié à Chaîne de Pensée Multimodale par Réglage Fin par Renforcement
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6

ByYibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang