papers.title

papers.description

Le renforcement de l'apprentissage incite-t-il réellement la capacité de raisonnement des LLM au-delà du modèle de base ?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Apr 18

ByYang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

139

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment démontré un succès notable dans l'amélioration des capacités de raisonnement des LLM, en particulier dans les tâches de mathématiques et de programmation. Il est largement admis que le RLVR permet aux LLM de s'auto-améliorer continuellement, acquérant ainsi de nouvelles capacités de raisonnement qui dépassent celles des modèles de base correspondants. Dans cette étude, cependant, nous réexaminons de manière critique cette hypothèse en mesurant la métrique pass@k avec des valeurs élevées de k pour explorer les limites des capacités de raisonnement des modèles à travers une large gamme de familles de modèles et de benchmarks. Étonnamment, le RL ne suscite pas, en réalité, de nouveaux schémas de raisonnement fondamentaux. Bien que les modèles entraînés par RL surpassent leurs modèles de base pour des valeurs plus petites de k (par exemple, k=1), les modèles de base peuvent atteindre un score pass@k comparable, voire supérieur, à celui de leurs homologues RL pour des valeurs élevées de k. Les chemins de raisonnement générés par les modèles entraînés par RL sont déjà inclus dans la distribution d'échantillonnage des modèles de base, suggérant que la plupart des capacités de raisonnement manifestées dans les modèles entraînés par RL sont déjà acquises par les modèles de base. Une analyse plus approfondie montre que l'entraînement par RL améliore les performances en biaisant la distribution de sortie du modèle vers des chemins plus susceptibles de générer des récompenses, échantillonnant ainsi les réponses correctes plus efficacement. Mais cela entraîne également une limite plus étroite des capacités de raisonnement par rapport aux modèles de base. Des résultats similaires sont observés dans les tâches de raisonnement visuel entraînées avec RLVR. De plus, nous constatons que la distillation peut véritablement introduire de nouvelles connaissances dans le modèle, contrairement au RLVR. Ces résultats mettent en lumière une limitation critique du RLVR dans l'avancement des capacités de raisonnement des LLM, ce qui nous oblige à repenser fondamentalement l'impact de l'entraînement par RL dans les LLM de raisonnement et la nécessité d'un meilleur paradigme. Page du projet : https://limit-of-RLVR.github.io

NodeRAG : Structuration de RAG basé sur des graphes avec des nœuds hétérogènes
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

Apr 15

ByTianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun

La génération assistée par la récupération (RAG) permet aux grands modèles de langage d'accéder à des corpus externes et privés, favorisant ainsi des réponses factuellement cohérentes dans des domaines spécifiques. En exploitant la structure inhérente du corpus, les méthodes RAG basées sur les graphes enrichissent davantage ce processus en construisant un index de graphe de connaissances et en tirant parti de la nature structurelle des graphes. Cependant, les approches RAG basées sur les graphes actuelles accordent rarement la priorité à la conception des structures de graphes. Une conception inadéquate des graphes non seulement entrave l'intégration fluide de divers algorithmes de graphes, mais entraîne également des incohérences dans le flux de travail et une dégradation des performances. Pour libérer pleinement le potentiel des graphes dans le cadre de la RAG, nous proposons NodeRAG, un framework centré sur les graphes introduisant des structures de graphes hétérogènes qui permettent une intégration fluide et holistique des méthodologies basées sur les graphes dans le flux de travail RAG. En s'alignant étroitement sur les capacités des LLM, ce framework garantit un processus end-to-end pleinement cohérent et efficace. À travers des expériences approfondies, nous démontrons que NodeRAG présente des avantages de performance par rapport aux méthodes précédentes, notamment GraphRAG et LightRAG, non seulement en termes de temps d'indexation, de temps de requête et d'efficacité de stockage, mais aussi en offrant une performance supérieure dans les benchmarks de questions-réponses multi-sauts et les évaluations ouvertes en tête-à-tête avec un nombre minimal de tokens de récupération. Notre dépôt GitHub est accessible à l'adresse suivante : https://github.com/Terry-Xu-666/NodeRAG.

MIG : Sélection automatique de données pour le réglage d'instructions par la maximisation du gain d'information dans l'espace sémantique
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

Apr 18

ByYicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen

La qualité et la diversité des données sont essentielles à la construction de jeux de données efficaces pour l'ajustement par instruction. Avec la disponibilité croissante de jeux de données open-source pour l'ajustement par instruction, il est avantageux de sélectionner automatiquement des sous-ensembles de haute qualité et diversifiés à partir d'une grande quantité de données. Les méthodes existantes privilégient généralement la qualité des instances et utilisent des règles heuristiques pour maintenir la diversité. Cependant, cette absence de vision globale de l'ensemble de la collection conduit souvent à des résultats sous-optimaux. De plus, les règles heuristiques se concentrent généralement sur la distance ou le clustering dans l'espace d'embedding, ce qui ne parvient pas à capturer avec précision l'intention des instructions complexes dans l'espace sémantique. Pour combler cette lacune, nous proposons une méthode unifiée pour quantifier le contenu informationnel des jeux de données. Cette méthode modélise l'espace sémantique en construisant un graphe de labels et quantifie la diversité en fonction de la distribution de l'information au sein du graphe. Sur la base d'une telle mesure, nous introduisons en outre une méthode d'échantillonnage efficace qui sélectionne itérativement des échantillons de données pour maximiser le gain d'information (Maximize the Information Gain, MIG) dans l'espace sémantique. Les expériences sur divers jeux de données et modèles de base démontrent que MIG surpasse systématiquement les méthodes de pointe. Notamment, le modèle affiné avec 5 % des données de Tulu3 échantillonnées par MIG atteint des performances comparables au modèle SFT officiel entraîné sur l'ensemble du jeu de données, avec des améliorations de +5,73 % sur AlpacaEval et +6,89 % sur Wildbench.

La pensée multilingue pourrait-elle renforcer le raisonnement des modèles de langage (LLM) ?
Could Thinking Multilingually Empower LLM Reasoning?

Apr 16

ByChangjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan

Les travaux précédents indiquent que les grands modèles de langage présentent un biais significatif en faveur de l'anglais, c'est-à-dire qu'ils performent souvent mieux lorsque les tâches sont présentées en anglais. Fait intéressant, nous avons observé que l'utilisation de certaines autres langues dans des tâches de raisonnement peut donner de meilleurs résultats qu'en anglais. Cependant, ce phénomène reste peu exploré. Dans cet article, nous explorons la limite supérieure de l'exploitation du multilinguisme dans les tâches de raisonnement, suggérant que le raisonnement multilingue promet des limites supérieures significativement (de près de 10 points Acc@k) et robustement (tolérance aux variations de qualité de traduction et de choix de langue) plus élevées que le raisonnement uniquement en anglais. Outre l'analyse des raisons derrière cette limite supérieure et des défis pour l'atteindre, nous constatons également que les méthodes courantes de sélection de réponses ne peuvent pas atteindre cette limite supérieure, en raison de leurs limitations et de leurs biais. Ces insights pourraient ouvrir la voie à des recherches futures visant à exploiter pleinement le potentiel du raisonnement multilingue dans les LLM.

AerialMegaDepth : Apprentissage de la reconstruction aérienne-sol et de la synthèse de vues
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

Apr 17

ByKhiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani

Nous explorons la tâche de reconstruction géométrique d'images capturées à partir d'un mélange de vues au sol et aériennes. Les approches actuelles basées sur l'apprentissage ne parviennent pas à gérer la variation extrême de point de vue entre les paires d'images aériennes et au sol. Notre hypothèse est que l'absence de jeux de données de haute qualité et co-enregistrés pour l'entraînement est une raison clé de cet échec. De telles données sont difficiles à assembler précisément parce qu'il est difficile de les reconstruire de manière évolutive. Pour surmonter ce défi, nous proposons un cadre évolutif combinant des rendus pseudo-synthétiques à partir de maillages 3D de villes entières (par exemple, Google Earth) avec des images réelles au sol provenant de sources collaboratives (par exemple, MegaDepth). Les données pseudo-synthétiques simulent une large gamme de points de vue aériens, tandis que les images réelles collaboratives aident à améliorer la fidélité visuelle pour les images au sol où les rendus basés sur des maillages manquent de détails, comblant ainsi efficacement l'écart de domaine entre les images réelles et les rendus pseudo-synthétiques. En utilisant ce jeu de données hybride, nous affinons plusieurs algorithmes de pointe et obtenons des améliorations significatives sur des tâches aériennes-sol en conditions réelles et sans apprentissage préalable. Par exemple, nous observons que le modèle de base DUSt3R localise moins de 5 % des paires aériennes-sol avec une erreur de rotation de caméra inférieure à 5 degrés, tandis que l'affinage avec nos données augmente la précision à près de 56 %, résolvant ainsi un point de défaillance majeur dans la gestion des grands changements de point de vue. Au-delà de l'estimation de la caméra et de la reconstruction de scènes, notre jeu de données améliore également les performances sur des tâches en aval comme la synthèse de nouvelles vues dans des scénarios aériens-sol complexes, démontrant la valeur pratique de notre approche dans des applications réelles.

Tout est lié : Un voyage à travers la mémorisation au moment du test, les biais attentionnels, la rétention et l'optimisation en ligne
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

Apr 17

ByAli Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni

La conception d'architectures de base efficaces et performantes a été au cœur des efforts de recherche visant à améliorer les capacités des modèles de fondation. Inspirés par le phénomène cognitif humain du biais attentionnel - la tendance naturelle à privilégier certains événements ou stimuli - nous reconceptualisons les architectures neuronales, y compris les Transformers, les Titans et les réseaux de neurones récurrents linéaires modernes, comme des modules de mémoire associative qui apprennent une cartographie de clés et de valeurs en utilisant un objectif interne, appelé biais attentionnel. Étonnamment, nous avons observé que la plupart des modèles de séquence existants exploitent soit (1) la similarité par produit scalaire, soit (2) des objectifs de régression L2 comme leur biais attentionnel. Allant au-delà de ces objectifs, nous présentons un ensemble de configurations alternatives de biais attentionnel ainsi que leurs approximations efficaces pour stabiliser leur procédure d'entraînement. Nous réinterprétons ensuite les mécanismes d'oubli dans les architectures modernes d'apprentissage profond comme une forme de régularisation de rétention, fournissant un nouvel ensemble de portes d'oubli pour les modèles de séquence. Sur la base de ces insights, nous présentons Miras, un cadre général pour concevoir des architectures d'apprentissage profond basées sur quatre choix : (i) l'architecture de mémoire associative, (ii) l'objectif de biais attentionnel, (iii) la porte de rétention, et (iv) l'algorithme d'apprentissage de la mémoire. Nous présentons trois nouveaux modèles de séquence - Moneta, Yaad et Memora - qui dépassent la puissance des réseaux de neurones récurrents linéaires existants tout en maintenant un processus d'entraînement parallélisable rapide. Nos expériences montrent que différents choix de conception dans Miras produisent des modèles avec des forces variées. Par exemple, certaines instances de Miras atteignent des performances exceptionnelles dans des tâches spécifiques telles que la modélisation du langage, le raisonnement de bon sens et les tâches intensives en rappel, surpassant même les Transformers et d'autres modèles récurrents linéaires modernes.

Analyse de la cognition des limites de connaissances des LLM à travers les langues sous l'angle des représentations internes
Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations

Apr 18

ByChenghao Xiao, Hou Pong Chan, Hao Zhang, Mahani Aljunied, Lidong Bing, Noura Al Moubayed, Yu Rong

Bien que la compréhension des limites de connaissance des LLM soit cruciale pour prévenir les hallucinations, les recherches sur ces limites se sont principalement concentrées sur l'anglais. Dans ce travail, nous présentons la première étude analysant comment les LLM reconnaissent les limites de connaissance à travers différentes langues en sondant leurs représentations internes lors du traitement de questions connues et inconnues en plusieurs langues. Nos études empiriques révèlent trois résultats clés : 1) Les perceptions des limites de connaissance par les LLM sont encodées dans les couches intermédiaires à intermédiaires-supérieures, et ce, à travers différentes langues. 2) Les différences linguistiques dans la perception des limites de connaissance suivent une structure linéaire, ce qui motive notre proposition d'une méthode d'alignement sans entraînement qui transfère efficacement la capacité de perception des limites de connaissance entre les langues, contribuant ainsi à réduire le risque d'hallucination dans les langues à ressources limitées ; 3) Le fine-tuning sur des paires de questions bilingues traduites améliore encore la reconnaissance des limites de connaissance par les LLM à travers les langues. Étant donné l'absence de bancs d'essai standard pour l'analyse des limites de connaissance multilingues, nous construisons une suite d'évaluation multilingue comprenant trois types représentatifs de données sur les limites de connaissance. Notre code et nos jeux de données sont disponibles publiquement à l'adresse suivante : https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.

L'IA générative Acte II : La mise à l'échelle au moment du test pilote l'ingénierie cognitive
Generative AI Act II: Test Time Scaling Drives Cognition Engineering

Apr 18

ByShijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu

La première génération de modèles de langage à grande échelle - que l'on pourrait qualifier d'"Acte I" de l'IA générative (2020-2023) - a obtenu un succès remarquable grâce à une mise à l'échelle massive des paramètres et des données, tout en présentant des limitations fondamentales en termes de latence des connaissances, de raisonnement superficiel et de processus cognitifs contraints. Durant cette ère, l'ingénierie des prompts est apparue comme notre interface principale avec l'IA, permettant une communication au niveau du dialogue via le langage naturel. Nous assistons aujourd'hui à l'émergence de l'"Acte II" (2024-présent), où les modèles passent de systèmes de récupération de connaissances (dans l'espace latent) à des moteurs de construction de pensée grâce à des techniques de mise à l'échelle en temps de test. Ce nouveau paradigme établit une connexion au niveau de l'esprit avec l'IA à travers des pensées basées sur le langage. Dans cet article, nous clarifions les fondements conceptuels de l'ingénierie cognitive et expliquons pourquoi ce moment est crucial pour son développement. Nous décomposons systématiquement ces approches avancées à travers des tutoriels complets et des implémentations optimisées, démocratisant l'accès à l'ingénierie cognitive et permettant à chaque praticien de participer au second acte de l'IA. Nous fournissons une collection régulièrement mise à jour d'articles sur la mise à l'échelle en temps de test dans le dépôt GitHub : https://github.com/GAIR-NLP/cognition-engineering.

CLASH : Évaluation des modèles de langage sur leur capacité à juger des dilemmes à enjeux élevés à partir de perspectives multiples
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives

Apr 15

ByAyoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang

Naviguer dans des dilemmes à enjeux élevés impliquant des valeurs conflictuelles est un défi, même pour les humains, et encore plus pour l'IA. Pourtant, les travaux antérieurs visant à évaluer les capacités de raisonnement des grands modèles de langage (LLMs) dans de telles situations se sont limités à des scénarios quotidiens. Pour combler cette lacune, ce travail introduit d'abord CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), un ensemble de données méticuleusement élaboré comprenant 345 dilemmes à fort impact ainsi que 3 795 perspectives individuelles reflétant des valeurs diverses. En particulier, nous concevons CLASH de manière à soutenir l'étude d'aspects critiques des processus de prise de décision basés sur les valeurs, absents des travaux précédents, notamment la compréhension de l'ambivalence décisionnelle et de l'inconfort psychologique, ainsi que la capture des changements temporels des valeurs dans les perspectives des personnages. En évaluant 10 modèles ouverts et fermés, nous dévoilons plusieurs conclusions clés. (1) Même les modèles les plus performants, comme GPT-4o et Claude-Sonnet, atteignent moins de 50 % de précision dans l'identification des situations où la décision devrait être ambivalente, alors qu'ils obtiennent de bien meilleurs résultats dans des scénarios clairs. (2) Bien que les LLMs prédisent raisonnablement l'inconfort psychologique tel que marqué par les humains, ils comprennent insuffisamment les perspectives impliquant des changements de valeurs, indiquant un besoin pour les LLMs de raisonner sur des valeurs complexes. (3) Nos expériences révèlent également une corrélation significative entre les préférences de valeurs des LLMs et leur capacité à être orientés vers une valeur donnée. (4) Enfin, les LLMs montrent une plus grande capacité d'orientation lorsqu'ils raisonnent sur les valeurs à partir d'une perspective tierce, par rapport à une configuration à la première personne, bien que certaines paires de valeurs bénéficient uniquement du cadre à la première personne.

HiScene : Création de scènes 3D hiérarchiques avec génération de vue isométrique
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation

Apr 17

ByWenqi Dong, Bangbang Yang, Zesong Yang, Yuan Li, Tao Hu, Hujun Bao, Yuewen Ma, Zhaopeng Cui

La génération de scènes 3D à l'échelle de la scène représente une frontière critique dans le domaine du multimédia et de l'infographie. Cependant, les approches existantes souffrent soit d'un nombre limité de catégories d'objets, soit d'un manque de flexibilité d'édition pour les applications interactives. Dans cet article, nous présentons HiScene, un cadre hiérarchique novateur qui comble le fossé entre la génération d'images 2D et la génération d'objets 3D, et qui produit des scènes haute fidélité avec des identités compositionnelles et un contenu esthétique. Notre idée clé est de traiter les scènes comme des "objets" hiérarchiques sous des vues isométriques, où une pièce fonctionne comme un objet complexe pouvant être décomposé en éléments manipulables. Cette approche hiérarchique nous permet de générer du contenu 3D aligné avec les représentations 2D tout en maintenant une structure compositionnelle. Pour garantir l'exhaustivité et l'alignement spatial de chaque instance décomposée, nous développons une technique de complétion amodale basée sur la diffusion vidéo qui gère efficacement les occlusions et les ombres entre les objets, et introduisons une injection de priorité de forme pour assurer la cohérence spatiale au sein de la scène. Les résultats expérimentaux démontrent que notre méthode produit des arrangements d'objets plus naturels et des instances d'objets complètes adaptées aux applications interactives, tout en maintenant une plausibilité physique et un alignement avec les entrées utilisateur.

Tokenisation des Patchs d'Image : Fusion de Contexte Global pour une Suppression Efficace de la Brume dans les Grandes Images
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images

Apr 13

ByJiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li

Les informations contextuelles globales et les détails locaux sont essentiels pour les tâches de suppression de la brume. Les modèles d'apprentissage profond performants sur les images de petite taille et de faible résolution rencontrent des difficultés avec les images de grande taille et de haute résolution en raison des limitations de mémoire GPU. En compromis, ils recourent souvent au découpage d'images ou à la réduction de résolution. Le premier diminue les informations globales, tandis que le second élimine les détails haute fréquence. Pour relever ces défis, nous proposons DehazeXL, une méthode de suppression de la brume qui équilibre efficacement l'extraction du contexte global et des caractéristiques locales, permettant une modélisation de bout en bout des grandes images sur du matériel GPU grand public. De plus, pour évaluer l'efficacité de l'utilisation du contexte global dans la performance de suppression de la brume, nous concevons une méthode d'attribution visuelle adaptée aux caractéristiques de ces tâches. Enfin, reconnaissant le manque de jeux de données de référence pour la suppression de la brume dans les grandes images, nous avons développé un jeu de données de suppression de la brume en ultra-haute résolution (8KDehaze) pour soutenir l'entraînement et le test des modèles. Il comprend 10 000 paires d'images de télédétection claires et brumeuses, chacune de taille 8192 × 8192 pixels. Des expériences approfondies démontrent que DehazeXL peut inférer des images jusqu'à 10240 × 10240 pixels avec seulement 21 Go de mémoire, obtenant des résultats de pointe parmi toutes les méthodes évaluées. Le code source et le jeu de données expérimental sont disponibles à l'adresse https://github.com/CastleChen339/DehazeXL.

Manipulation de la pensée : La pensée externe peut être efficace pour les grands modèles de raisonnement
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

Apr 18

ByYule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

Les récentes avancées dans les modèles de raisonnement à grande échelle (LRMs) ont démontré l'efficacité de l'augmentation du calcul au moment du test pour améliorer les capacités de raisonnement dans de multiples tâches. Cependant, les LRMs souffrent généralement de problèmes de "sur-réflexion", où les modèles génèrent des étapes de raisonnement significativement redondantes tout en apportant des gains de performance limités. Les travaux existants s'appuient sur le fine-tuning pour atténuer la sur-réflexion, ce qui nécessite des données supplémentaires, des configurations d'entraînement non conventionnelles, des risques de désalignement de sécurité et une mauvaise généralisation. Grâce à une analyse empirique, nous révélons une caractéristique importante du comportement des LRMs : placer des chaînes de pensée (CoTs) externes générées par des modèles plus petits entre les tokens de réflexion (<think> et </think>) peut efficacement manipuler le modèle pour générer moins de pensées. En nous appuyant sur ces insights, nous proposons un pipeline simple mais efficace, ThoughtMani, permettant aux LRMs de contourner les étapes intermédiaires inutiles et de réduire significativement les coûts de calcul. Nous menons des expériences approfondies pour valider l'utilité et l'efficacité de ThoughtMani. Par exemple, lorsqu'il est appliqué à QwQ-32B sur le jeu de données LiveBench/Code, ThoughtMani maintient la performance originale et réduit le nombre de tokens de sortie d'environ 30 %, avec peu de surcharge provenant du générateur de CoT. De plus, nous constatons que ThoughtMani améliore l'alignement de sécurité en moyenne de 10 %. Étant donné que les fournisseurs de modèles servent généralement des modèles de différentes tailles simultanément, ThoughtMani offre un moyen efficace de construire des LRMs plus efficaces et accessibles pour des applications réelles.

Coût-du-Passage : Un Cadre Économique pour l'Évaluation des Modèles de Langage
Cost-of-Pass: An Economic Framework for Evaluating Language Models

Apr 17

ByMehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou

L'adoption généralisée des systèmes d'IA dans l'économie dépend de leur capacité à générer une valeur économique qui dépasse leurs coûts d'inférence. L'évaluation de ce compromis nécessite des métriques qui prennent en compte à la fois la performance et les coûts. Nous proposons un cadre fondé sur la théorie de la production pour évaluer les modèles de langage en combinant précision et coût d'inférence. Nous introduisons le "coût-par-passage", le coût monétaire attendu pour générer une solution correcte. Nous définissons ensuite le "coût-par-passage de la frontière" comme le coût-par-passage minimum réalisable parmi les modèles disponibles ou celui d'un "expert humain", en utilisant le coût approximatif d'embauche d'un expert. Notre analyse révèle des insights économiques distincts. Premièrement, les modèles légers sont les plus rentables pour les tâches quantitatives de base, les grands modèles pour les tâches intensives en connaissances, et les modèles de raisonnement pour les problèmes quantitatifs complexes, malgré des coûts par token plus élevés. Deuxièmement, le suivi de ce coût-par-passage de la frontière au cours de l'année écoulée montre des progrès significatifs, en particulier pour les tâches quantitatives complexes où le coût a été à peu près divisé par deux tous les quelques mois. Troisièmement, pour retracer les innovations clés qui ont conduit à ces progrès, nous examinons les frontières contrefactuelles : des estimations de l'efficacité-coût sans classes spécifiques de modèles. Nous constatons que les innovations dans les modèles légers, grands et de raisonnement ont été essentielles pour repousser la frontière dans les tâches quantitatives de base, intensives en connaissances et quantitatives complexes, respectivement. Enfin, nous évaluons les réductions de coûts offertes par des techniques courantes d'inférence comme le vote majoritaire et l'auto-affinage, et constatons que leurs gains marginaux en précision justifient rarement leurs coûts. Nos résultats soulignent que les innovations complémentaires au niveau des modèles sont les principaux moteurs de l'efficacité-coût, et notre cadre économique fournit un outil rigoureux pour mesurer ces progrès et guider le déploiement.

Auto-alignement des grands modèles de langage vidéo par optimisation régularisée des préférences raffinées
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

Apr 16

ByPritam Sarkar, Ali Etemad

Malgré les récents progrès des grands modèles de langage vidéo (LVLMs), ceux-ci peinent encore à comprendre les nuances temporelles fines, produisent des hallucinations et commettent souvent des erreurs simples, même sur des tâches de question-réponse vidéo basiques. Ces limitations posent des défis majeurs à leur déploiement sûr et fiable dans des applications réelles. Pour pallier ces lacunes, nous proposons un cadre d'auto-alignement permettant aux LVLMs d'apprendre de leurs propres erreurs. Notre cadre commence par obtenir un ensemble d'entraînement composé de paires de réponses préférées et non préférées, où les réponses non préférées sont générées en intégrant des schémas d'erreurs courants, souvent dus à une compréhension spatio-temporelle inadéquate, à des corrélations fallacieuses entre concepts co-occurrents, et à une dépendance excessive aux indices linguistiques au détriment de la modalité visuelle, entre autres. Pour faciliter l'auto-alignement des LVLMs avec ces paires de réponses construites, nous introduisons l'Optimisation Régularisée des Préférences Raffinée (RRPO), une nouvelle méthode d'optimisation des préférences qui utilise des récompenses raffinées au niveau des sous-séquences et une régularisation KL token par token pour surmonter les limites de l'Optimisation Directe des Préférences (DPO). Nous montrons que RRPO permet un alignement plus précis et un entraînement plus stable par rapport à DPO. Nos expériences et analyses valident l'efficacité de notre approche sur diverses tâches vidéo, incluant les hallucinations vidéo, la compréhension de vidéos courtes et longues, et le raisonnement temporel fin.

Filter2Noise : Dénonçage auto-supervisé interprétable pour les images uniques en tomodensitométrie à faible dose avec filtrage bilatéral guidé par attention
Filter2Noise: Interpretable Self-Supervised Single-Image Denoising for Low-Dose CT with Attention-Guided Bilateral Filtering

Apr 18

ByYipeng Sun, Linda-Sophie Schneider, Mingxuan Gu, Siyuan Mei, Chengze Ye, Fabian Wagner, Siming Bayer, Andreas Maier

Un débruitage efficace est crucial en tomodensitométrie à faible dose pour améliorer les structures subtiles et les lésions à faible contraste tout en évitant les erreurs de diagnostic. Les méthodes supervisées peinent avec des ensembles de données appariés limités, et les approches auto-supervisées nécessitent souvent plusieurs images bruitées et s'appuient sur des réseaux profonds comme U-Net, offrant peu d'informations sur le mécanisme de débruitage. Pour relever ces défis, nous proposons un cadre de débruitage auto-supervisé à image unique et interprétable -- Filter2Noise (F2N). Notre approche introduit un Filtre Bilatéral Guidé par l'Attention adapté à chaque entrée bruitée via un module léger qui prédit des paramètres de filtre variant spatialement, lesquels peuvent être visualisés et ajustés après l'entraînement pour un débruitage contrôlé par l'utilisateur dans des régions d'intérêt spécifiques. Pour permettre un entraînement sur une seule image, nous introduisons une nouvelle stratégie de sous-échantillonnage aléatoire avec une fonction de perte auto-supervisée inédite qui étend le concept de Noise2Noise à une seule image et traite le bruit spatialement corrélé. Sur le jeu de données Mayo Clinic 2016 de tomodensitométrie à faible dose, F2N surpasse la meilleure méthode auto-supervisée à image unique (ZS-N2N) de 4,59 dB PSNR tout en améliorant la transparence, le contrôle utilisateur et l'efficacité paramétrique. Ces caractéristiques offrent des avantages clés pour les applications médicales nécessitant une réduction de bruit précise et interprétable. Notre code est disponible à l'adresse suivante : https://github.com/sypsyp97/Filter2Noise.git.

Réévaluation de la quantification de l'incertitude dans les modèles de langage : Interactions fallacieuses avec les biais liés à la longueur des réponses
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

Apr 18

ByAndrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson

La quantification de l'incertitude (Uncertainty Quantification, UQ) dans les modèles de langage (Language Models, LMs) est cruciale pour améliorer leur sécurité et leur fiabilité. Les évaluations utilisent souvent des métriques de performance comme l'AUROC pour mesurer dans quelle mesure les méthodes d'UQ (par exemple, les probabilités de séquence négatives) corrèlent avec les fonctions de justesse des tâches (par exemple, ROUGE-L). Dans cet article, nous montrons que les fonctions de justesse couramment utilisées biaisent les évaluations d'UQ en surestimant la performance de certaines méthodes d'UQ. Nous évaluons 7 fonctions de justesse — allant des métriques basées sur la lexicologie et les embeddings aux approches utilisant un LLM comme juge — sur 4 jeux de données x 4 modèles x 6 méthodes d'UQ. Notre analyse révèle que les biais de longueur dans les erreurs de ces fonctions de justesse faussent les évaluations d'UQ en interagissant avec les biais de longueur présents dans les méthodes d'UQ. Nous identifions les approches utilisant un LLM comme juge comme étant parmi les choix les moins biaisés par la longueur, et donc comme une solution potentielle pour atténuer ces biais.

papers.title

papers.description

Le renforcement de l'apprentissage incite-t-il réellement la capacité de raisonnement des LLM au-delà du modèle de base ?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Apr 18

ByYang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

139

NodeRAG : Structuration de RAG basé sur des graphes avec des nœuds hétérogènes
NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

Apr 15

ByTianyang Xu, Haojie Zheng, Chengze Li, Haoxiang Chen, Yixin Liu, Ruoxi Chen, Lichao Sun

MIG : Sélection automatique de données pour le réglage d'instructions par la maximisation du gain d'information dans l'espace sémantique
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space

Apr 18

ByYicheng Chen, Yining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen

La pensée multilingue pourrait-elle renforcer le raisonnement des modèles de langage (LLM) ?
Could Thinking Multilingually Empower LLM Reasoning?

Apr 16

ByChangjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan

AerialMegaDepth : Apprentissage de la reconstruction aérienne-sol et de la synthèse de vues
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

Apr 17

ByKhiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani

Tout est lié : Un voyage à travers la mémorisation au moment du test, les biais attentionnels, la rétention et l'optimisation en ligne
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

Apr 17

ByAli Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni

Analyse de la cognition des limites de connaissances des LLM à travers les langues sous l'angle des représentations internes
Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations

Apr 18

ByChenghao Xiao, Hou Pong Chan, Hao Zhang, Mahani Aljunied, Lidong Bing, Noura Al Moubayed, Yu Rong

L'IA générative Acte II : La mise à l'échelle au moment du test pilote l'ingénierie cognitive
Generative AI Act II: Test Time Scaling Drives Cognition Engineering

Apr 18

ByShijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu

CLASH : Évaluation des modèles de langage sur leur capacité à juger des dilemmes à enjeux élevés à partir de perspectives multiples
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives

Apr 15

ByAyoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang

HiScene : Création de scènes 3D hiérarchiques avec génération de vue isométrique
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation

Apr 17

ByWenqi Dong, Bangbang Yang, Zesong Yang, Yuan Li, Tao Hu, Hujun Bao, Yuewen Ma, Zhaopeng Cui

Tokenisation des Patchs d'Image : Fusion de Contexte Global pour une Suppression Efficace de la Brume dans les Grandes Images
Tokenize Image Patches: Global Context Fusion for Effective Haze Removal in Large Images

Apr 13

ByJiuchen Chen, Xinyu Yan, Qizhi Xu, Kaiqi Li

Manipulation de la pensée : La pensée externe peut être efficace pour les grands modèles de raisonnement
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

Apr 18

ByYule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

Coût-du-Passage : Un Cadre Économique pour l'Évaluation des Modèles de Langage
Cost-of-Pass: An Economic Framework for Evaluating Language Models

Apr 17

ByMehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou

Auto-alignement des grands modèles de langage vidéo par optimisation régularisée des préférences raffinées
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

Apr 16

ByPritam Sarkar, Ali Etemad

Filter2Noise : Dénonçage auto-supervisé interprétable pour les images uniques en tomodensitométrie à faible dose avec filtrage bilatéral guidé par attention
Filter2Noise: Interpretable Self-Supervised Single-Image Denoising for Low-Dose CT with Attention-Guided Bilateral Filtering

Apr 18

ByYipeng Sun, Linda-Sophie Schneider, Mingxuan Gu, Siyuan Mei, Chengze Ye, Fabian Wagner, Siming Bayer, Andreas Maier

Réévaluation de la quantification de l'incertitude dans les modèles de langage : Interactions fallacieuses avec les biais liés à la longueur des réponses
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

Apr 18

ByAndrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson