Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont accéléré les progrès dans le domaine du traitement automatique du langage naturel (NLP) financier et ses applications. Cependant, les benchmarks existants restent limités à des contextes monolingues et unimodaux, reposant souvent sur des tâches simples et ne reflétant pas la complexité des communications financières réelles. Nous présentons MultiFinBen, le premier benchmark multilingue et multimodal conçu spécifiquement pour le domaine financier mondial, évaluant les LLMs à travers différentes modalités (texte, vision, audio) et contextes linguistiques (monolingue, bilingue, multilingue) sur des tâches spécifiques au domaine. Nous introduisons deux nouvelles tâches, notamment PolyFiQA-Easy et PolyFiQA-Expert, les premiers benchmarks financiers multilingues exigeant des modèles qu'ils effectuent un raisonnement complexe sur des entrées en langues mixtes ; ainsi que EnglishOCR et SpanishOCR, les premières tâches de question-réponse financières intégrant la reconnaissance optique de caractères (OCR), mettant au défi les modèles d'extraire et de raisonner sur des informations à partir de documents financiers visuels-textuels. De plus, nous proposons un mécanisme de sélection dynamique et adapté à la difficulté, et constituons un benchmark compact et équilibré plutôt qu'une simple agrégation de jeux de données existants. Une évaluation approfondie de 22 modèles de pointe révèle que même les modèles les plus performants, malgré leurs capacités générales multimodales et multilingues, rencontrent des difficultés majeures face à des tâches complexes multilingues et multimodales dans le domaine financier. MultiFinBen est rendu public pour favoriser des progrès transparents, reproductibles et inclusifs dans les études et applications financières.
L'augmentation du temps de calcul lors des tests a démontré un succès remarquable dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLM). Dans ce travail, nous menons la première exploration systématique de l'application des méthodes de mise à l'échelle au moment des tests aux agents linguistiques et étudions dans quelle mesure cela améliore leur efficacité. Plus précisément, nous explorons différentes stratégies de mise à l'échelle au moment des tests, notamment : (1) les algorithmes d'échantillonnage parallèle ; (2) les stratégies de révision séquentielle ; (3) les vérificateurs et méthodes de fusion ; (4) les stratégies pour diversifier les déploiements. Nous analysons et évaluons soigneusement l'impact des différentes stratégies de conception sur l'application de la mise à l'échelle au moment des tests aux agents linguistiques, et obtenons les conclusions suivantes : 1. L'augmentation du temps de calcul lors des tests peut améliorer les performances des agents. 2. Savoir quand réfléchir est important pour les agents. 3. Parmi les différentes approches de vérification et de fusion des résultats, la méthode par liste est la plus performante. 4. L'augmentation des déploiements diversifiés a un effet positif sur la performance des tâches des agents.
Les récentes avancées dans les modèles de langage de grande envergure (LLMs) audio-textuels ont ouvert de nouvelles possibilités pour la compréhension et la génération musicale. Cependant, les benchmarks existants sont limités en portée, reposant souvent sur des tâches simplifiées ou des évaluations à choix multiples qui ne reflètent pas la complexité de l'analyse musicale dans le monde réel. Nous réinterprétons un large éventail d'annotations traditionnelles en recherche d'information musicale (MIR) sous forme de formats d'exécution d'instructions et introduisons CMI-Bench, un benchmark complet d'exécution d'instructions musicales conçu pour évaluer les LLMs audio-textuels sur un ensemble diversifié de tâches de MIR. Celles-ci incluent la classification de genre, la régression d'émotion, l'étiquetage d'émotion, la classification d'instruments, l'estimation de hauteur, la détection de tonalité, la transcription de paroles, l'extraction de mélodie, la reconnaissance de techniques vocales, la détection de techniques d'exécution instrumentale, l'étiquetage musical, la description musicale et le suivi de (contre-)temps : reflétant les défis fondamentaux de la recherche en MIR. Contrairement aux benchmarks précédents, CMI-Bench adopte des métriques d'évaluation standardisées cohérentes avec les modèles MIR de pointe précédents, assurant une comparabilité directe avec les approches supervisées. Nous fournissons un kit d'évaluation prenant en charge tous les LLMs audio-textuels open-source, y compris LTU, Qwen-audio, SALMONN, MusiLingo, etc. Les résultats expérimentaux révèlent des écarts de performance significatifs entre les LLMs et les modèles supervisés, ainsi que leurs biais culturels, chronologiques et de genre, mettant en lumière le potentiel et les limites des modèles actuels dans la résolution des tâches MIR. CMI-Bench établit une base unifiée pour l'évaluation de l'exécution d'instructions musicales, favorisant les progrès dans les LLMs conscients de la musique.
Les modèles de diffusion de langage à grande échelle, ou diffusion LLMs, sont devenus un axe de recherche majeur en traitement automatique du langage naturel (TALN), avec des efforts substantiels consacrés à la compréhension de leur évolutivité et de leurs performances sur des tâches en aval. Cependant, leurs capacités en contexte long restent inexplorées, manquant d'analyses systématiques ou de méthodes pour l'extension de contexte. Dans ce travail, nous présentons la première investigation systématique comparant les performances en contexte long des diffusion LLMs et des LLMs auto-régressifs traditionnels. Nous identifions d'abord une caractéristique unique des diffusion LLMs : contrairement aux LLMs auto-régressifs, ils maintiennent une perplexité remarquablement stable lors de l'extrapolation directe du contexte. De plus, là où les modèles auto-régressifs échouent complètement dans la tâche de l'aiguille dans une botte de foin avec un contexte dépassant leur longueur prétrainée, nous découvrons que les diffusion LLMs présentent un phénomène distinct de perception locale, permettant une récupération réussie à partir de segments de contexte récents. Nous expliquons ces deux phénomènes à travers la théorie de mise à l'échelle des embeddings de position rotatifs (RoPE). Sur la base de ces observations, nous proposons LongLLaDA, une méthode sans entraînement qui intègre LLaDA avec l'extrapolation RoPE basée sur NTK. Nos résultats valident que les lois d'échelle d'extrapolation établies restent efficaces pour étendre les fenêtres de contexte des diffusion LLMs. En outre, nous identifions des tâches en contexte long où les diffusion LLMs surpassent les LLMs auto-régressifs et d'autres où ils sont moins performants. Par conséquent, cette étude établit la première méthode d'extrapolation de contexte pour les diffusion LLMs tout en fournissant des insights théoriques essentiels et des benchmarks empiriques critiques pour faire avancer les recherches futures sur les diffusion LLMs en contexte long.
Malgré des progrès impressionnants en matière de raisonnement complexe, les grands modèles de langage (LLM) actuels fonctionnent généralement de manière isolée - traitant chaque problème comme une tentative indépendante, sans accumuler ou intégrer de connaissances expérientielles. En revanche, les experts en résolution de problèmes - tels que les équipes des Olympiades ou des concours de programmation - tirent parti d'une riche tapisserie d'expériences : absorbant le mentorat des coachs, développant une intuition à partir de problèmes passés, exploitant la connaissance de l'utilisation des outils et de la fonctionnalité des bibliothèques, adaptant les stratégies en fonction de l'expertise et des expériences de leurs pairs, affinant continuellement leur raisonnement par essais et erreurs, et apprenant d'autres problèmes connexes même pendant la compétition. Nous présentons Xolver, un cadre de raisonnement multi-agent sans entraînement qui équipe un LLM boîte noire d'une mémoire persistante et évolutive d'expérience holistique. Xolver intègre diverses modalités d'expérience, y compris la récupération externe et auto-référentielle, l'utilisation d'outils, les interactions collaboratives, l'évaluation pilotée par les agents, et l'affinement itératif. En apprenant des stratégies pertinentes, des fragments de code et des modèles de raisonnement abstraits au moment de l'inférence, Xolver évite de générer des solutions à partir de zéro - marquant une transition de l'inférence isolée vers des agents de langage conscients de l'expérience. Construit sur des modèles à poids ouvert et propriétaires, Xolver surpasse systématiquement les agents de raisonnement spécialisés. Même avec des architectures légères (par exemple, QWQ-32B), il dépasse souvent des modèles avancés, y compris Qwen3-235B, Gemini 2.5 Pro, o3, et o4-mini-high. Avec o3-mini-high, il atteint de nouveaux meilleurs résultats sur GSM8K (98,1 %), AIME'24 (94,4 %), AIME'25 (93,7 %), Math-500 (99,8 %), et LiveCodeBench-V5 (91,6 %) - mettant en évidence l'apprentissage d'expérience holistique comme une étape clé vers des agents généralistes capables d'un raisonnement de niveau expert. Le code et les données sont disponibles à l'adresse https://kagnlp.github.io/xolver.github.io/.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est imposé comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, un paradoxe critique entache son efficacité : les modèles ajustés par RLVR sous-performent souvent leurs modèles de base sur la métrique Pass@K pour la recherche de solutions, ce qui conduit à l'hypothèse que le RLVR se contente de rééquilibrer les chemins de raisonnement existants au détriment de la diversité du raisonnement. Dans ce travail, nous résolvons cette contradiction en identifiant la source du problème : la métrique Pass@K elle-même est une mesure imparfaite du raisonnement, car elle crédite des réponses finales correctes qui découlent probablement de chaînes de pensée (CoT) inexactes ou incomplètes. Pour y remédier, nous introduisons une métrique d'évaluation plus précise, CoT-Pass@K, qui exige que le chemin de raisonnement et la réponse finale soient tous deux corrects. Nous établissons un nouveau fondement théorique qui formalise comment le RLVR, contrairement à l'apprentissage par renforcement traditionnel, est structurellement conçu pour encourager l'intégrité logique. Nos résultats empiriques sont encourageants : en utilisant CoT-Pass@K, nous observons que le RLVR peut inciter à la généralisation d'un raisonnement correct pour toutes les valeurs de K. De plus, en analysant la dynamique d'entraînement, nous constatons que cette capacité de raisonnement améliorée émerge tôt dans le processus d'entraînement et se généralise de manière fluide. Notre travail offre une perspective claire sur le rôle du RLVR, propose une méthode d'évaluation plus fiable et confirme son potentiel à véritablement faire progresser le raisonnement machine.
L'émergence de grands modèles multimodaux (LMMs) de type GPT-4o a suscité l'exploration de l'intégration des modalités texte, vision et parole pour soutenir des interactions multimodales plus flexibles. Les LMMs existants concatènent généralement les représentations des modalités le long de la dimension séquentielle et les alimentent dans un modèle de langage massif (LLM) utilisé comme structure de base. Bien que la concaténation selon la dimension séquentielle soit une méthode simple pour l'intégration des modalités, elle repose souvent fortement sur des données à grande échelle pour apprendre les alignements entre modalités. Dans cet article, nous cherchons à modéliser les relations entre les modalités de manière plus intentionnelle, permettant ainsi des alignements de modalités plus efficaces et flexibles. À cette fin, nous proposons Stream-Omni, un grand modèle langage-vision-parole avec des alignements de modalités efficaces, capable de supporter simultanément des interactions sous diverses combinaisons de modalités. Stream-Omni utilise un LLM comme structure de base et aligne la vision et la parole au texte en fonction de leurs relations. Pour la vision, qui est sémantiquement complémentaire au texte, Stream-Omni utilise la concaténation selon la dimension séquentielle pour réaliser l'alignement vision-texte. Pour la parole, qui est sémantiquement cohérente avec le texte, Stream-Omni introduit un mappage basé sur CTC (Connectionist Temporal Classification) selon la dimension des couches pour réaliser l'alignement parole-texte. Ainsi, Stream-Omni peut réaliser des alignements de modalités avec moins de données (en particulier pour la parole), permettant le transfert des capacités textuelles vers d'autres modalités. Les expériences sur divers benchmarks démontrent que Stream-Omni obtient de solides performances sur des tâches de compréhension visuelle, d'interaction parlée et d'interaction parole ancrée dans la vision. Grâce au mappage selon la dimension des couches, Stream-Omni peut simultanément fournir des sorties textuelles intermédiaires (telles que des transcriptions ASR et des réponses du modèle) pendant l'interaction parlée, offrant aux utilisateurs une expérience multimodale complète.
L'extraction d'informations visuelles (VIE) transforme des images de documents non structurés en formats structurés tels que JSON, essentiels pour des applications médicales comme l'analyse de rapports et les consultations en ligne. Les méthodes traditionnelles s'appuient sur la reconnaissance optique de caractères (OCR) et des modèles de langage, tandis que les modèles multimodaux de bout en bout permettent une génération directe de JSON. Cependant, les schémas spécifiques au domaine et les coûts élevés d'annotation limitent leur efficacité dans le contexte médical de la VIE. Nous fondons notre approche sur le cadre d'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour relever ces défis en utilisant seulement 100 échantillons annotés. Notre approche garantit la diversité des ensembles de données, un mécanisme de récompense équilibré entre précision et rappel pour réduire les hallucinations et améliorer la couverture des champs, ainsi que des stratégies d'échantillonnage innovantes pour renforcer les capacités de raisonnement. En affinant Qwen2.5-VL-7B avec notre méthode RLVR, nous obtenons des performances de pointe sur les tâches de VIE médicale, améliorant significativement les scores F1, la précision et le rappel. Bien que nos modèles excellent sur des tâches similaires aux ensembles de données médicaux, leur performance diminue sur des tâches dissimilaires, soulignant la nécessité d'une optimisation spécifique au domaine. Des études de cas démontrent en outre la valeur du raisonnement pendant l'entraînement et l'inférence pour la VIE.
L'équilibre entre exploration et exploitation constitue un objectif central en apprentissage par renforcement (RL). Malgré les avancées récentes visant à améliorer le raisonnement des modèles de langage (LM), la plupart des méthodes privilégient l'exploitation et se heurtent de plus en plus à des plateaux de performance. Dans ce travail, nous revisitons l'entropie — un signal d'exploration en RL — et examinons sa relation avec le raisonnement exploratoire dans les LM. À travers une analyse empirique, nous mettons en évidence de fortes corrélations positives entre les régions à haute entropie et trois types d'actions de raisonnement exploratoire : (1) les tokens pivots qui déterminent ou relient les étapes logiques, (2) les actions réflexives telles que l'auto-vérification et la correction, et (3) les comportements rares sous-explorés par les LM de base. Motivés par ces observations, nous introduisons une modification minimale au RL standard avec une seule ligne de code : l'augmentation de la fonction d'avantage par un terme basé sur l'entropie. Contrairement aux méthodes traditionnelles d'entropie maximale qui encouragent l'exploration en promouvant l'incertitude, nous encourageons l'exploration en favorisant des chaînes de raisonnement plus longues et plus profondes. Notamment, notre méthode obtient des gains significatifs sur la métrique Pass@K — un estimateur de la borne supérieure des capacités de raisonnement des LM — même lorsqu'elle est évaluée avec des valeurs de K extrêmement grandes, repoussant ainsi les limites du raisonnement des LM.
Un défi majeur pour l'IA moderne est d'apprendre à comprendre le monde et à agir principalement par observation. Cet article explore une approche auto-supervisée qui combine des données vidéo à l'échelle d'Internet avec une petite quantité de données d'interaction (trajectoires de robots), afin de développer des modèles capables de comprendre, prédire et planifier dans le monde physique. Nous pré-entraînons d'abord une architecture de prédiction par co-embeddings sans action, V-JEPA 2, sur un ensemble de données vidéo et images comprenant plus d'un million d'heures de vidéos Internet. V-JEPA 2 obtient des performances solides en compréhension du mouvement (77,3 de précision top-1 sur Something-Something v2) et des performances de pointe en anticipation des actions humaines (39,7 de rappel à 5 sur Epic-Kitchens-100), surpassant les modèles spécifiques à la tâche précédents. De plus, après avoir aligné V-JEPA 2 avec un grand modèle de langage, nous démontrons des performances de pointe sur plusieurs tâches de question-réponse vidéo à l'échelle de 8 milliards de paramètres (par exemple, 84,0 sur PerceptionTest, 76,9 sur TempCompass). Enfin, nous montrons comment l'apprentissage auto-supervisé peut être appliqué à des tâches de planification robotique en post-entraînant un modèle du monde conditionné par des actions latentes, V-JEPA 2-AC, en utilisant moins de 62 heures de vidéos de robots non étiquetées provenant du jeu de données Droid. Nous déployons V-JEPA 2-AC en zero-shot sur des bras Franka dans deux laboratoires différents et permettons la saisie et le placement d'objets en utilisant la planification avec des objectifs d'image. Notamment, cela est réalisé sans collecter aucune donnée des robots dans ces environnements, et sans aucun entraînement ou récompense spécifique à la tâche. Ce travail démontre comment l'apprentissage auto-supervisé à partir de données à l'échelle du web et d'une petite quantité de données d'interaction robotique peut produire un modèle du monde capable de planifier dans le monde physique.
Les modèles basés sur la diffusion et les flux sont devenus des approches de pointe en modélisation générative, mais ils nécessitent de nombreuses étapes d'échantillonnage. Les modèles de cohérence peuvent distiller ces modèles en générateurs efficaces en une seule étape ; cependant, contrairement aux méthodes basées sur les flux et la diffusion, leurs performances se dégradent inévitablement lorsque le nombre d'étapes augmente, ce que nous démontrons à la fois analytiquement et empiriquement. Les cartes de flux généralisent ces approches en connectant deux niveaux de bruit en une seule étape et restent efficaces quel que soit le nombre d'étapes. Dans cet article, nous introduisons deux nouveaux objectifs en temps continu pour l'entraînement des cartes de flux, ainsi que des techniques d'entraînement novatrices, généralisant les objectifs existants de cohérence et d'appariement de flux. Nous démontrons en outre que l'autoguidage peut améliorer les performances, en utilisant un modèle de faible qualité pour guider la distillation, et qu'un gain supplémentaire peut être obtenu par un affinage adversarial, avec une perte minimale de diversité des échantillons. Nous validons largement nos modèles de cartes de flux, appelés Align Your Flow, sur des benchmarks exigeants de génération d'images et atteignons des performances de pointe en génération en quelques étapes sur ImageNet 64x64 et 512x512, en utilisant des réseaux de neurones petits et efficaces. Enfin, nous présentons des modèles de cartes de flux texte-à-image qui surpassent tous les échantillonneurs existants non adversarialement entraînés en synthèse conditionnée par le texte.
Les récents progrès dans les modèles de raisonnement à Longue Chaîne de Pensée (CoT) ont amélioré les performances sur des tâches complexes, mais ils souffrent de surréflexion, ce qui génère des étapes de raisonnement redondantes, en particulier pour des questions simples. Cet article revisite les schémas de raisonnement des modèles à Longue et Courte CoT, observant que les schémas de Courte CoT offrent un raisonnement concis de manière efficace, tandis que les schémas de Longue CoT excellent dans des scénarios difficiles où les schémas de Courte CoT peinent. Pour permettre aux modèles de tirer parti des deux schémas, nous proposons le Question-Free Fine-Tuning (QFFT), une approche de fine-tuning qui supprime la question d'entrée pendant l'entraînement et apprend exclusivement à partir des réponses de Longue CoT. Cette approche permet au modèle d'employer de manière adaptative les deux schémas de raisonnement : il privilégie les schémas de Courte CoT et active les schémas de Longue CoT uniquement lorsque nécessaire. Les expériences sur divers ensembles de données mathématiques démontrent que le QFFT réduit la longueur moyenne des réponses de plus de 50 %, tout en atteignant des performances comparables au Fine-Tuning Supervisé (SFT). De plus, le QFFT montre une performance supérieure par rapport au SFT dans des scénarios bruyants, hors domaine et à faible ressource.
Nous présentons TestCase-Eval, un nouveau benchmark pour l'évaluation systématique des LLM dans la génération de cas de test. TestCase-Eval comprend 500 problèmes algorithmiques et 100 000 solutions élaborées par des humains provenant de la plateforme Codeforces. Il se concentre sur deux tâches essentielles : (1) la Couverture des Défauts, qui mesure dans quelle mesure les ensembles de tests générés par les LLM explorent divers scénarios d'entrée et couvrent un large éventail de modes de défaillance potentiels. (2) l'Exposition des Défauts, qui évalue si les LLM peuvent concevoir une entrée de test sur mesure révélant une implémentation de code incorrecte spécifique. Nous fournissons une évaluation complète de 19 LLM open-source et propriétaires de pointe sur TestCase-Eval, offrant des insights sur leurs forces et leurs limites dans la génération de cas de test efficaces pour les problèmes algorithmiques.
La tokenisation impose une granularité fixe au texte d'entrée, figant la manière dont un modèle de langage opère sur les données et la portée de ses prédictions futures. L'encodage par paires d'octets (Byte Pair Encoding, BPE) et des schémas similaires divisent le texte une fois, construisent un vocabulaire statique et laissent le modèle contraint par ce choix. Nous assouplissons cette rigidité en introduisant un U-Net autorégressif qui apprend à intégrer ses propres tokens au cours de son entraînement. Le réseau lit des octets bruts, les regroupe en mots, puis en paires de mots, et jusqu'à 4 mots, lui offrant ainsi une vue multi-échelle de la séquence. Aux étapes plus profondes, le modèle doit prédire plus loin dans le futur – anticipant les prochains mots plutôt que le prochain octet – de sorte que les étapes plus profondes se concentrent sur des motifs sémantiques plus larges, tandis que les étapes initiales gèrent les détails fins. En ajustant et en contrôlant soigneusement le calcul de pré-entraînement, les hiérarchies peu profondes égalent les bases de référence solides du BPE, et les hiérarchies plus profondes montrent une tendance prometteuse. Comme la tokenisation réside désormais à l'intérieur du modèle, le même système peut gérer des tâches au niveau des caractères et transférer des connaissances entre langues à faibles ressources.
L'écosystème matériel évolue rapidement, avec un intérêt croissant pour la traduction de programmes de bas niveau entre différentes architectures de jeu d'instructions (ISAs) de manière rapide, flexible et correcte, afin d'améliorer la portabilité et la longévité du code existant. Une classe particulièrement complexe de ce problème de transpilation est la traduction entre architectures matérielles complexes (CISC) et réduites (RISC), en raison des différences fondamentales dans la complexité des instructions, les modèles de mémoire et les paradigmes d'exécution. Dans ce travail, nous présentons GG (Guaranteed Guess), un pipeline de transpilation centré sur les ISAs qui combine la puissance de traduction des grands modèles de langage pré-entraînés (LLMs) avec la rigueur des constructions établies de tests logiciels. Notre méthode génère des traductions candidates à l'aide d'un LLM d'une ISA à une autre, et intègre ces traductions dans un cadre de tests logiciels pour établir une confiance quantifiable dans la traduction. Nous évaluons notre approche GG sur deux ensembles de données diversifiés, imposons une couverture de code élevée (>98%) à travers les tests unitaires, et atteignons une exactitude fonctionnelle/sémantique de 99% sur les programmes HumanEval et de 49% sur les programmes BringupBench, respectivement. De plus, nous comparons notre approche au framework Rosetta 2 de pointe sur Apple Silicon, démontrant une performance d'exécution 1,73x plus rapide, une efficacité énergétique 1,47x meilleure et une utilisation de mémoire 2,41x plus efficace pour notre code transpilé, illustrant ainsi l'efficacité de GG pour les tâches de traduction CISC-vers-RISC en conditions réelles. Nous rendrons publics nos codes, données, modèles et benchmarks pour établir une base commune pour la recherche sur la traduction de code au niveau des ISAs.
Les modèles Vision-Langage-Action (VLA), en particulier les architectures basées sur la diffusion, démontrent un potentiel transformateur pour l'intelligence incarnée, mais sont fortement limités par les exigences élevées en calcul et en mémoire résultant des redondances intrinsèques et temporelles d'inférence. Bien que les efforts d'accélération existants ciblent souvent des inefficacités isolées, ces solutions partielles échouent généralement à aborder de manière holistique les divers goulots d'étranglement en calcul et en mémoire tout au long du pipeline VLA, limitant ainsi leur déployabilité pratique. Nous présentons EfficientVLA, un cadre d'accélération d'inférence structuré et sans entraînement, qui élimine systématiquement ces obstacles en exploitant de manière cohérente les redondances multifacettes. EfficientVLA intègre de manière synergique trois stratégies ciblées : (1) l'élagage des couches fonctionnellement non essentielles du module de langage, guidé par une analyse des redondances inter-couches ; (2) l'optimisation du chemin de traitement visuel grâce à une stratégie consciente de la tâche qui sélectionne un ensemble compact et diversifié de tokens visuels, équilibrant l'importance critique de la tâche avec la couverture informationnelle ; et (3) la réduction de la redondance temporelle en calcul au sein de la tête d'action itérative basée sur la diffusion, en mettant en cache et en réutilisant stratégiquement des caractéristiques intermédiaires clés. Nous appliquons notre méthode au modèle VLA standard CogACT, obtenant une accélération d'inférence de 1,93X et une réduction des FLOPs à 28,9%, avec seulement une baisse de 0,6% du taux de réussite dans le benchmark SIMPLER.
Les Grands Modèles de Raisonnement (LRMs) ont obtenu un succès remarquable, mais ils souffrent souvent de produire des chaînes de raisonnement inutiles et verbeuses. Nous identifions un aspect central de ce problème comme étant la "pensée invalide" — les modèles ont tendance à revérifier à plusieurs reprises leur travail après avoir dérivé la bonne réponse. Pour remédier à cette inefficacité spécifique, nous allons au-delà des principes généraux d'Efficacité et d'Efficience pour proposer deux nouveaux principes plus fins : la Brièveté, qui prône l'élimination de la redondance, et la Suffisance, qui garantit la préservation des étapes critiques du raisonnement. Guidés par ces principes, nous introduisons LC-R1, une méthode de post-entraînement basée sur l'Optimisation Relative de Politique par Groupe (GRPO). LC-R1 utilise une combinaison novatrice d'une Récompense de Longueur pour la concision globale et d'une Récompense de Compression spécialement conçue pour supprimer la partie invalide du processus de pensée. Des expériences approfondies sur plusieurs benchmarks de raisonnement démontrent que LC-R1 permet une réduction significative de la longueur des séquences (~50%) avec seulement une baisse marginale (~2%) de la précision, atteignant un point d'équilibre favorable sur la frontière de Pareto qui privilégie une compression élevée. Notre analyse valide en outre la robustesse de LC-R1 et fournit des insights précieux pour le développement de LRMs plus puissants tout en étant efficaces sur le plan computationnel. Notre code est disponible à l'adresse https://github.com/zxiangx/LC-R1.
Nous présentons xbench, une suite d'évaluation dynamique et alignée sur les professions, conçue pour combler l'écart entre les capacités des agents d'IA et la productivité dans le monde réel. Alors que les benchmarks existants se concentrent souvent sur des compétences techniques isolées, ils ne reflètent pas toujours avec précision la valeur économique que les agents apportent dans des contextes professionnels. Pour répondre à cette problématique, xbench cible des domaines d'importance commerciale avec des tâches d'évaluation définies par des professionnels de l'industrie. Notre cadre crée des métriques fortement corrélées à la valeur de productivité, permet de prédire l'adéquation technologie-marché (Technology-Market Fit, TMF) et facilite le suivi des capacités des produits au fil du temps. En tant que premières implémentations, nous présentons deux benchmarks : Recrutement et Marketing. Pour le Recrutement, nous collectons 50 tâches issues de scénarios réels de chasse de tête pour évaluer les capacités des agents en matière de cartographie d'entreprise, de recherche d'information et de sourcing de talents. Pour le Marketing, nous évaluons la capacité des agents à faire correspondre des influenceurs aux besoins des annonceurs, en testant leurs performances sur 50 exigences publicitaires à l'aide d'un pool sélectionné de 836 influenceurs candidats. Nous présentons les résultats initiaux d'évaluation pour les principaux agents contemporains, établissant ainsi une référence pour ces domaines professionnels. Nos ensembles d'évaluation et évaluations, mis à jour en continu, sont disponibles à l'adresse https://xbench.org.
La capacité des grands modèles de langage (LLMs) à utiliser des outils externes leur a permis de s’attaquer à une gamme de tâches de plus en plus diversifiée. Cependant, à mesure que les tâches deviennent plus complexes et de long terme, le processus complexe d’utilisation des outils peut déclencher diverses erreurs inattendues. Par conséquent, la manière de gérer efficacement ces erreurs, y compris leur identification, leur diagnostic et leur récupération, est devenue une direction de recherche clé pour faire progresser l’apprentissage des outils. Dans ce travail, nous analysons d’abord de manière approfondie les types d’erreurs rencontrées lors du processus d’appel de fonction sur plusieurs benchmarks compétitifs d’évaluation d’outils. Sur cette base, nous introduisons CRITICTOOL, un benchmark d’évaluation critique complet spécialisé pour l’apprentissage des outils. S’appuyant sur une nouvelle stratégie évolutive de construction de jeux de données, CRITICTOOL intègre des erreurs d’utilisation d’outils de complexités variées, reflétant mieux les scénarios réels. Nous menons des expériences approfondies sur CRITICTOOL et validons la généralisation et l’efficacité de notre stratégie de benchmark. Nous fournissons également une analyse approfondie de la capacité de réflexion des outils sur divers LLMs, offrant une nouvelle perspective dans le domaine de l’apprentissage des outils pour les LLMs. Le code est disponible à l’adresse suivante : https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
Nous montrons comment utiliser des images de faible qualité, synthétiques et hors distribution pour améliorer la qualité d'un modèle de diffusion. Typiquement, les modèles de diffusion sont entraînés sur des ensembles de données soigneusement sélectionnés provenant de pools de données hautement filtrés provenant du Web et d'autres sources. Nous démontrons qu'il existe une immense valeur dans les images de moindre qualité qui sont souvent écartées. Nous présentons Ambient Diffusion Omni, un cadre simple et rigoureux pour entraîner des modèles de diffusion capables d'extraire le signal de toutes les images disponibles pendant l'entraînement. Notre cadre exploite deux propriétés des images naturelles — la décroissance de la loi de puissance spectrale et la localité. Nous validons d'abord notre cadre en entraînant avec succès des modèles de diffusion avec des images synthétiquement corrompues par un flou gaussien, une compression JPEG et un flou de mouvement. Nous utilisons ensuite notre cadre pour atteindre un état de l'art en termes de FID sur ImageNet, et nous montrons des améliorations significatives à la fois en qualité d'image et en diversité pour la modélisation générative texte-à-image. L'idée centrale est que le bruit atténue l'asymétrie initiale entre la distribution de haute qualité souhaitée et la distribution mixte que nous observons réellement. Nous fournissons une justification théorique rigoureuse de notre approche en analysant le compromis entre l'apprentissage à partir de données biaisées et des données non biaisées limitées à travers les temps de diffusion.
Nous étudions le défi de la récupération théoriquement fondée de caractéristiques en utilisant des Autoencodeurs Sparse (SAEs) pour l'interprétation des modèles de langage à grande échelle (LLMs). Les algorithmes existants d'entraînement des SAEs manquent souvent de garanties mathématiques rigoureuses et souffrent de limitations pratiques telles que la sensibilité aux hyperparamètres et l'instabilité. Pour résoudre ces problèmes, nous proposons d'abord un nouveau cadre statistique pour le problème de récupération des caractéristiques, qui inclut une nouvelle notion d'identifiabilité des caractéristiques en modélisant les caractéristiques polysémantiques comme des mélanges sparses de concepts monosémantiques sous-jacents. Sur la base de ce cadre, nous introduisons un nouvel algorithme d'entraînement de SAE basé sur « l'adaptation de biais », une technique qui ajuste de manière adaptative les paramètres de biais des réseaux de neurones pour assurer une sparsité d'activation appropriée. Nous prouvons théoriquement que cet algorithme récupère correctement toutes les caractéristiques monosémantiques lorsque les données d'entrée sont échantillonnées à partir de notre modèle statistique proposé. De plus, nous développons une variante empirique améliorée, l'Adaptation de Biais par Groupe (GBA), et démontrons sa performance supérieure par rapport aux méthodes de référence lorsqu'elle est appliquée à des LLMs comportant jusqu'à 1,5 milliard de paramètres. Ce travail représente une étape fondamentale dans la démystification de l'entraînement des SAEs en fournissant le premier algorithme de SAE avec des garanties théoriques de récupération, contribuant ainsi au développement de systèmes d'IA plus transparents et dignes de confiance grâce à une interprétabilité mécanistique améliorée.
L'émergence rapide de divers modèles de langage de grande taille (LLMs) a stimulé le développement de routeurs de LLMs qui assignent les requêtes des utilisateurs au modèle le plus adapté. Cependant, les routeurs de LLMs existants effectuent généralement une correspondance unique et unidirectionnelle (c'est-à-dire, assignant chaque requête à un seul modèle de manière isolée), ce qui limite leur capacité à traiter des tâches complexes nécessitant les forces complémentaires de plusieurs LLMs. Dans cet article, nous présentons Router-R1, un cadre basé sur l'apprentissage par renforcement (RL) qui formule le routage et l'agrégation multi-LLMs comme un processus de décision séquentiel. Router-R1 instancie le routeur lui-même comme un LLM compétent, exploitant sa capacité de raisonnement pour entrelacer des actions de "réflexion" (délibération interne) avec des actions de "routage" (invocation dynamique de modèles), et intègre chaque réponse dans son contexte évolutif. Pour guider l'apprentissage, nous employons une récompense légère basée sur des règles comprenant des récompenses de format, des récompenses de résultat final, et une nouvelle récompense de coût pour l'optimisation du compromis performance-coût, ouvrant ainsi une voie vers l'optimisation des compromis performance-coût via le RL. Router-R1 se base également uniquement sur des descripteurs de modèle simples tels que le prix, la latence et la performance d'exemple, permettant une forte généralisation à la sélection de modèles non vus. Les expériences sur sept benchmarks de questions-réponses générales et multi-sauts montrent que Router-R1 surpasse plusieurs bases de référence solides, atteignant une performance supérieure tout en maintenant une généralisation robuste et une gestion des coûts. Le code est disponible à l'adresse https://github.com/ulab-uiuc/Router-R1.
La localisation spatio-temporelle est essentielle pour des interactions précises dans divers domaines, allant de la recherche biologique à la navigation autonome et aux interfaces interactives. Les approches actuelles basées sur la vidéo, bien que compétentes en suivi, manquent des capacités de raisonnement sophistiquées des grands modèles de langage, limitant ainsi leur compréhension contextuelle et leur généralisation. Nous présentons VideoMolmo, un grand modèle multimodal conçu pour le pointage spatio-temporel finement ajusté en fonction de descriptions textuelles. S'appuyant sur l'architecture Molmo, VideoMolmo intègre un module temporel utilisant un mécanisme d'attention pour conditionner chaque image sur les images précédentes, garantissant ainsi une cohérence temporelle. De plus, notre nouvelle pipeline de fusion de masques temporels utilise SAM2 pour une propagation bidirectionnelle des points, améliorant significativement la cohérence à travers les séquences vidéo. Cette décomposition en deux étapes, c'est-à-dire d'abord utiliser le modèle de langage pour générer des coordonnées de pointage précises, puis s'appuyer sur un module de fusion de masques séquentiels pour produire une segmentation cohérente, simplifie non seulement la tâche pour le modèle de langage mais améliore également l'interprétabilité. En raison du manque de jeux de données appropriés, nous avons constitué un ensemble de données complet comprenant 72 000 paires vidéo-légende annotées avec 100 000 points d'objets. Pour évaluer la généralisation de VideoMolmo, nous introduisons VPoS-Bench, un benchmark hors distribution difficile couvrant cinq scénarios du monde réel : suivi cellulaire, vision égocentrique, conduite autonome, interaction vidéo-interface graphique et robotique. Nous évaluons également notre modèle sur les tâches de segmentation d'objets vidéo référencés (Refer-VOS) et de raisonnement VOS. Par rapport aux modèles existants, VideoMolmo améliore considérablement la précision du pointage spatio-temporel et la capacité de raisonnement. Notre code et nos modèles sont disponibles publiquement à l'adresse https://github.com/mbzuai-oryx/VideoMolmo.
Nous présentons AgentSynth, un pipeline évolutif et rentable pour la synthèse automatique de tâches de haute qualité et de jeux de données de trajectoires destinés à des agents informatiques généralistes. En exploitant l'asymétrie d'information, AgentSynth construit des sous-tâches simples lors de la génération mais nettement plus complexes lorsqu'elles sont composées en tâches à long terme, permettant la création de plus de 6 000 tâches diversifiées et réalistes. Notre pipeline commence par un propositeur de tâches basé sur un LLM guidé par une persona, suivi d'un agent d'exécution qui accomplit la tâche et enregistre la trajectoire. Ce processus est répété de manière itérative pour former une séquence de sous-tâches, qui sont ensuite résumées par un agent distinct en une tâche composite de difficulté contrôlable. Un atout majeur d'AgentSynth est sa capacité à moduler précisément la complexité des tâches en variant le nombre de sous-tâches. Les évaluations empiriques montrent que les agents LLM de pointe subissent une chute drastique de performance, passant de 18 % de réussite au niveau de difficulté 1 à seulement 4 % au niveau 6, soulignant la difficulté et le pouvoir discriminant du benchmark. De plus, notre pipeline atteint un coût moyen de 0,60 \$ par trajectoire, soit plusieurs ordres de grandeur moins cher que les annotations humaines. Notre code et nos données sont disponibles publiquement à l'adresse https://github.com/sunblaze-ucb/AgentSynth.
Nous présentons Ring-lite, un modèle de langage de grande taille basé sur une architecture de type Mixture-of-Experts (MoE) optimisé par apprentissage par renforcement (RL) pour atteindre des capacités de raisonnement efficaces et robustes. Construit à partir du modèle Ling-lite, disponible publiquement et comportant 16,8 milliards de paramètres dont 2,75 milliards activés, notre approche rivalise avec les performances des modèles de raisonnement à petite échelle les plus avancés (state-of-the-art, SOTA) sur des benchmarks exigeants (par exemple, AIME, LiveCodeBench, GPQA-Diamond) tout en activant seulement un tiers des paramètres requis par des modèles comparables. Pour y parvenir, nous introduisons un pipeline d’entraînement conjoint intégrant la distillation avec le RL, révélant des défis non documentés dans l’entraînement RL des MoE. Premièrement, nous identifions une instabilité d’optimisation lors de l’entraînement RL, et nous proposons Constrained Contextual Computation Policy Optimization (C3PO), une approche novatrice qui améliore la stabilité de l’entraînement et le débit de calcul grâce à une méthodologie de co-conception algorithme-système. Deuxièmement, nous démontrons empiriquement que la sélection des points de contrôle de distillation basée sur la perte d’entropie pour l’entraînement RL, plutôt que sur les métriques de validation, offre un meilleur compromis performance-efficacité lors de l’entraînement RL ultérieur. Enfin, nous développons un paradigme d’entraînement en deux étapes pour harmoniser l’intégration de données multi-domaines, résolvant les conflits de domaine qui surviennent lors de l’entraînement avec des ensembles de données mixtes. Nous publierons le modèle, les données et le code.
La simulation de la mobilité humaine joue un rôle crucial dans diverses applications du monde réel. Récemment, pour pallier les limites des approches traditionnelles basées sur les données, les chercheurs ont exploré l'utilisation des connaissances de bon sens et des capacités de raisonnement des grands modèles de langage (LLMs) afin d'accélérer la simulation de la mobilité humaine. Cependant, ces méthodes souffrent de plusieurs lacunes critiques, notamment une modélisation inadéquate des espaces urbains et une mauvaise intégration des modèles de mobilité individuels et des distributions de mobilité collective. Pour relever ces défis, nous proposons le cadre agentique CityGPT-Powered Agentic framework for Mobility Simulation (CAMS), un cadre qui exploite le modèle de fondation urbaine basé sur le langage pour simuler la mobilité humaine dans l'espace urbain. CAMS comprend trois modules principaux : MobExtractor pour extraire des modèles de mobilité types et en synthétiser de nouveaux basés sur les profils utilisateurs, GeoGenerator pour générer des points d'ancrage en tenant compte des connaissances collectives et produire des connaissances géospatiales urbaines candidates à l'aide d'une version améliorée de CityGPT, et TrajEnhancer pour récupérer des connaissances spatiales basées sur les modèles de mobilité et générer des trajectoires alignées sur les préférences réelles via DPO. Les expériences sur des jeux de données réels montrent que CAMS obtient des performances supérieures sans dépendre d'informations géospatiales externes. De plus, en modélisant de manière holistique à la fois les modèles de mobilité individuels et les contraintes de mobilité collective, CAMS génère des trajectoires plus réalistes et plausibles. En général, CAMS établit un nouveau paradigme qui intègre le cadre agentique avec des LLMs dotés de connaissances urbaines pour la simulation de la mobilité humaine.
Nous étudions les jailbreaks basés sur les suffixes – une famille puissante d'attaques contre les grands modèles de langage (LLMs) qui optimisent des suffixes adverses pour contourner les alignements de sécurité. En nous concentrant sur l'attaque GCG largement utilisée (Zou et al., 2023), nous observons que les suffixes varient en efficacité : certains sont nettement plus universels – généralisant à de nombreuses instructions nuisibles non vues – que d'autres. Nous montrons d'abord que l'efficacité de GCG est pilotée par un mécanisme critique et superficiel, basé sur le flux d'information du suffixe adverse vers les derniers tokens du modèle de chat avant la génération. En quantifiant la dominance de ce mécanisme pendant la génération, nous constatons que GCG détourne de manière irrégulière et agressive le processus de contextualisation. De manière cruciale, nous lions ce détournement au phénomène d'universalité, les suffixes plus universels étant des détourneurs plus puissants. Par la suite, nous montrons que ces insights ont des implications pratiques : l'universalité de GCG peut être efficacement améliorée (jusqu'à 5 fois dans certains cas) sans coût computationnel supplémentaire, et peut également être atténuée de manière chirurgicale, réduisant au moins de moitié le succès de l'attaque avec une perte minimale d'utilité. Nous publions notre code et nos données sur http://github.com/matanbt/interp-jailbreak.
L'un des défis les plus profonds de l'apprentissage automatique moderne est de bien performer sur la longue traîne des caractéristiques rares et sous-représentées. Les modèles généralistes de grande envergure sont entraînés pour de nombreuses tâches, mais fonctionnent mieux sur les cas d'utilisation à haute fréquence. Après l'entraînement, il est difficile d'adapter un modèle pour qu'il performe bien sur des cas d'utilisation spécifiques sous-représentés dans le corpus d'entraînement. Compter sur l'ingénierie des prompts ou sur des exemples en few-shot pour maximiser la qualité de la sortie sur un cas de test particulier peut être frustrant, car les modèles peuvent être très sensibles à de petits changements, réagir de manière imprévue ou dépendre d'un prompt système fixe pour maintenir leurs performances. Dans ce travail, nous posons la question : « Pouvons-nous optimiser nos protocoles d'entraînement pour améliorer à la fois la contrôlabilité et la performance sur les cas d'utilisation sous-représentés au moment de l'inférence ? » Nous revisitons la distinction entre les techniques d'entraînement et d'inférence pour améliorer la performance sur la longue traîne tout en fournissant aux utilisateurs un ensemble de leviers de contrôle auxquels le modèle est entraîné à répondre. Nous créons une taxonomie détaillée des caractéristiques des données et de la provenance des tâches pour contrôler explicitement les attributs de génération et conditionner implicitement les générations au moment de l'inférence. Nous affinons un modèle de base pour inférer automatiquement ces marqueurs, ce qui les rend optionnels au moment de l'inférence. Cette approche rigoureuse et flexible entraîne des améliorations marquées des performances, en particulier sur les exemples issus de la longue traîne de la distribution d'entraînement. Alors que nous observons une augmentation moyenne de 5,7 % des taux de réussite dans la qualité de génération ouverte avec nos marqueurs, nous constatons des gains de plus de 9,1 % dans les domaines sous-représentés. Nous observons également des augmentations relatives allant jusqu'à 14,1 % sur des tâches sous-représentées comme CodeRepair et des améliorations absolues de 35,3 % sur les évaluations de suivi des instructions de longueur.
L'alignement n'est plus un luxe, c'est une nécessité. Alors que les grands modèles de langage (LLM) pénètrent des domaines à enjeux élevés tels que l'éducation, la santé, la gouvernance et le droit, leur comportement doit refléter de manière fiable des valeurs alignées sur l'humain et des contraintes de sécurité. Pourtant, les évaluations actuelles reposent largement sur des indicateurs comportementaux tels que les taux de refus, les scores G-Eval et les classificateurs de toxicité, qui présentent tous des angles morts critiques. Les modèles alignés sont souvent vulnérables au jailbreaking, à la stochasticité de la génération et à la simulation d'alignement. Pour résoudre ce problème, nous introduisons l'Indice de Qualité d'Alignement (AQI). Cette nouvelle métrique géométrique et invariante aux prompts évalue empiriquement l'alignement des LLM en analysant la séparation des activations sûres et non sûres dans l'espace latent. En combinant des mesures telles que le score de Davies-Bouldin (DBS), l'indice de Dunn (DI), l'indice de Xie-Beni (XBI) et l'indice de Calinski-Harabasz (CHI) à travers diverses formulations, l'AQI capture la qualité du clustering pour détecter les désalignements cachés et les risques de jailbreaking, même lorsque les sorties semblent conformes. L'AQI sert également de signal d'alerte précoce pour la simulation d'alignement, offrant un outil robuste et invariant au décodage pour l'audit de sécurité indépendant du comportement. Par ailleurs, nous proposons le jeu de données LITMUS pour faciliter une évaluation robuste dans ces conditions difficiles. Des tests empiriques sur LITMUS avec différents modèles entraînés sous des conditions DPO, GRPO et RLHF démontrent la corrélation de l'AQI avec les juges externes et sa capacité à révéler des vulnérabilités ignorées par les métriques de refus. Nous rendons notre implémentation publique pour encourager les recherches futures dans ce domaine.
L'apprentissage par renforcement en contexte (ICRL) s'est imposé comme un paradigme prometteur pour adapter les agents d'apprentissage par renforcement (RL) à des tâches en aval grâce au conditionnement par prompts. Cependant, deux défis majeurs persistent pour exploiter pleinement l'apprentissage en contexte dans les domaines du RL : la multimodalité intrinsèque des données état-action-récompense et la nature diverse et hétérogène des tâches de décision. Pour relever ces défis, nous proposons T2MIR (Token- and Task-wise MoE for In-context RL), un cadre innovant qui intègre des avancées architecturales de type mixture-of-experts (MoE) dans des modèles de décision basés sur des transformeurs. T2MIR remplace la couche feedforward par deux couches parallèles : un MoE token-wise qui capture les sémantiques distinctes des tokens d'entrée à travers plusieurs modalités, et un MoE task-wise qui achemine les tâches variées vers des experts spécialisés pour gérer une large distribution de tâches tout en atténuant les conflits de gradients. Pour améliorer le routage task-wise, nous introduisons une méthode d'apprentissage contrastif qui maximise l'information mutuelle entre la tâche et sa représentation de routage, permettant une capture plus précise des informations pertinentes à la tâche. Les sorties des deux composants MoE sont concaténées et transmises à la couche suivante. Des expériences approfondies montrent que T2MIR facilite significativement la capacité d'apprentissage en contexte et surpasse divers types de modèles de référence. Nous apportons le potentiel et les promesses du MoE à l'ICRL, offrant une amélioration architecturale simple et évolutive pour rapprocher l'ICRL des réalisations des communautés du langage et de la vision. Notre code est disponible à l'adresse https://github.com/NJU-RL/T2MIR.
Les maladies transmises par les moustiques représentent un risque majeur pour la santé mondiale, nécessitant une détection précoce et un contrôle proactif des sites de reproduction pour prévenir les épidémies. Dans cet article, nous présentons VisText-Mosquito, un ensemble de données multimodal qui intègre des données visuelles et textuelles pour soutenir la détection automatisée, la segmentation et le raisonnement dans l'analyse des sites de reproduction des moustiques. L'ensemble de données comprend 1 828 images annotées pour la détection d'objets, 142 images pour la segmentation de la surface de l'eau, et des textes de raisonnement en langage naturel associés à chaque image. Le modèle YOLOv9s atteint la plus haute précision de 0,92926 et un mAP@50 de 0,92891 pour la détection d'objets, tandis que YOLOv11n-Seg atteint une précision de segmentation de 0,91587 et un mAP@50 de 0,79795. Pour la génération de raisonnement, notre modèle BLIP affiné atteint une perte finale de 0,0028, avec un score BLEU de 54,7, un BERTScore de 0,91 et un ROUGE-L de 0,87. Cet ensemble de données et ce cadre de modélisation mettent en avant le thème "Mieux vaut prévenir que guérir", illustrant comment la détection basée sur l'IA peut aborder de manière proactive les risques de maladies transmises par les moustiques. L'ensemble de données et le code d'implémentation sont disponibles publiquement sur GitHub : https://github.com/adnanul-islam-jisun/VisText-Mosquito.
Ce travail présente un cadre généralisable pour transférer la profondeur relative en profondeur métrique. Les méthodes actuelles d'estimation de profondeur monoculaire se divisent principalement en estimation de profondeur métrique (MMDE) et estimation de profondeur relative (MRDE). Les MMDE estiment la profondeur à l'échelle métrique mais sont souvent limitées à un domaine spécifique. Les MRDE généralisent bien à travers différents domaines, mais avec des échelles incertaines qui entravent les applications en aval. À cette fin, nous visons à construire un cadre pour résoudre l'incertitude d'échelle et transférer la profondeur relative en profondeur métrique. Les méthodes précédentes utilisaient le langage comme entrée et estimaient deux facteurs pour effectuer un redimensionnement. Notre approche, TR2M, utilise à la fois la description textuelle et l'image comme entrées et estime deux cartes de redimensionnement pour transférer la profondeur relative en profondeur métrique au niveau des pixels. Les caractéristiques des deux modalités sont fusionnées avec un module d'attention inter-modalité pour mieux capturer les informations d'échelle. Une stratégie est conçue pour construire et filtrer une pseudo-profondeur métrique confiante pour une supervision plus complète. Nous développons également un apprentissage contrastif orienté échelle pour utiliser la distribution de profondeur comme guide afin de renforcer l'apprentissage du modèle sur les connaissances intrinsèques alignées avec la distribution d'échelle. TR2M n'exploite qu'un petit nombre de paramètres entraînables pour s'entraîner sur des ensembles de données dans divers domaines, et les expériences démontrent non seulement les excellentes performances de TR2M sur les ensembles de données vus, mais révèlent également des capacités de généralisation zéro-shot supérieures sur cinq ensembles de données non vus. Nous montrons le potentiel énorme du transfert pixel par pixel de la profondeur relative en profondeur métrique avec l'assistance du langage. (Le code est disponible à l'adresse : https://github.com/BeileiCui/TR2M)
Les modèles de base open source ont connu une adoption et un développement rapides, permettant des capacités polyvalentes puissantes dans divers domaines. Cependant, l'affinage de grands modèles de base pour des tâches spécifiques à un domaine ou personnalisées reste prohibitif pour la plupart des utilisateurs en raison de la surcharge mémoire importante au-delà de celle requise pour l'inférence. Nous présentons EMLoC, un cadre d'affinage efficace en mémoire basé sur un émulateur avec correction LoRA, qui permet l'affinage du modèle dans le même budget mémoire requis pour l'inférence. EMLoC construit un émulateur léger spécifique à la tâche en utilisant une décomposition en valeurs singulières (SVD) sensible aux activations sur un petit ensemble de calibration en aval. L'affinage est ensuite effectué sur cet émulateur léger via LoRA. Pour résoudre le désalignement entre le modèle original et l'émulateur compressé, nous proposons un algorithme de compensation innovant pour corriger le module LoRA affiné, qui peut ainsi être fusionné dans le modèle original pour l'inférence. EMLoC prend en charge des ratios de compression flexibles et des pipelines d'entraînement standard, le rendant adaptable à une large gamme d'applications. Des expériences approfondies démontrent qu'EMLoC surpasse d'autres méthodes de référence sur plusieurs ensembles de données et modalités. De plus, sans quantification, EMLoC permet l'affinage d'un modèle de 38 milliards de paramètres sur une seule carte graphique grand public de 24 Go, offrant ainsi une adaptation de modèle efficace et pratique aux utilisateurs individuels.
La Génération Augmentée par Récupération de Graphes (GraphRAG) améliore efficacement les capacités d'intégration de connaissances externes en modélisant explicitement les relations de connaissances, améliorant ainsi la précision factuelle et la qualité de génération des Grands Modèles de Langage (LLMs) dans des domaines spécialisés. Cependant, les méthodes existantes souffrent de deux limitations inhérentes : 1) **Aggrégation d'Information Inefficace** : Elles reposent sur un seul agent et des schémas itératifs fixes, rendant difficile la capture adaptative d'informations textuelles, structurelles et de degré multi-niveaux dans les données de graphes. 2) **Mécanisme de Raisonnement Rigide** : Elles utilisent des schémas de raisonnement prédéfinis, incapables d'ajuster dynamiquement la profondeur de raisonnement ni d'effectuer des corrections sémantiques précises. Pour surmonter ces limitations, nous proposons **Graph Counselor**, une méthode GraphRAG basée sur la collaboration multi-agents. Cette méthode utilise le **Module d'Extraction Adaptative d'Information de Graphes (AGIEM)**, où les agents de Planification, de Réflexion et d'Exécution travaillent ensemble pour modéliser précisément les structures de graphes complexes et ajuster dynamiquement les stratégies d'extraction d'information, abordant ainsi les défis de la modélisation des dépendances multi-niveaux et de la profondeur de raisonnement adaptative. De plus, le module **Auto-Réflexion avec Perspectives Multiples (SR)** améliore la précision et la cohérence sémantique des résultats de raisonnement grâce à des mécanismes d'auto-réflexion et de raisonnement rétrospectif. Les expériences démontrent que **Graph Counselor** surpasse les méthodes existantes dans plusieurs tâches de raisonnement sur graphes, affichant une précision de raisonnement et une capacité de généralisation supérieures. Notre code est disponible à l'adresse suivante : https://github.com/gjq100/Graph-Counselor.git.
Le déploiement de politiques complexes et de grande envergure dans le monde réel nécessite la capacité de les orienter pour répondre aux besoins d'une situation donnée. Les approches d'orientation les plus courantes, comme le conditionnement par objectif, exigent d'entraîner la politique du robot en tenant compte d'une distribution d'objectifs au moment du test. Pour surmonter cette limitation, nous présentons DynaGuide, une méthode d'orientation pour les politiques de diffusion utilisant des indications provenant d'un modèle de dynamique externe pendant le processus de débruitage par diffusion. DynaGuide sépare le modèle de dynamique de la politique de base, ce qui lui confère plusieurs avantages, notamment la capacité de s'orienter vers plusieurs objectifs, d'améliorer les comportements sous-représentés de la politique de base et de maintenir la robustesse face à des objectifs de faible qualité. Le signal d'orientation distinct permet également à DynaGuide de fonctionner avec des politiques de diffusion pré-entraînées disponibles sur étagère. Nous démontrons les performances et les caractéristiques de DynaGuide par rapport à d'autres approches d'orientation dans une série d'expériences simulées et réelles, montrant un taux de réussite moyen de 70 % sur un ensemble de tâches articulées CALVIN et surpassant le conditionnement par objectif par un facteur de 5,4x lorsqu'il est orienté avec des objectifs de faible qualité. Nous avons également réussi à orienter une politique de robot réel disponible sur étagère pour exprimer une préférence pour des objets particuliers et même créer un comportement nouveau. Les vidéos et plus d'informations sont disponibles sur le site du projet : https://dynaguide.github.io