papers.description
Les grands modèles de raisonnement ont démontré d'impressionnantes capacités de résolution de problèmes, mais les tâches du monde réel exigent souvent l'utilisation d'outils externes et des interactions à long terme. Les frameworks d'agents existants suivent généralement des workflows prédéfinis, ce qui limite l'autonomie et l'accomplissement global des tâches. Dans cet article, nous présentons DeepAgent, un agent de raisonnement profond de bout en bout qui effectue une réflexion autonome, une découverte d'outils et une exécution d'actions au sein d'un processus de raisonnement unique et cohérent. Pour relever les défis des interactions à long terme, notamment l'explosion de la longueur de contexte due aux appels multiples d'outils et l'accumulation de l'historique des interactions, nous introduisons un mécanisme autonome de repliement mémoire qui compresse les interactions passées en mémoires épisodiques, de travail et d'outils structurées, réduisant ainsi l'accumulation d'erreurs tout en préservant les informations critiques. Pour enseigner efficacement et stablement l'utilisation d'outils généralistes, nous développons une stratégie d'apprentissage par renforcement de bout en bout, nommée ToolPO, qui exploite des API simulées par LLM et applique une attribution d'avantage des appels d'outils pour attribuer un crédit granulaire aux tokens d'invocation d'outils. Des expériences approfondies sur huit benchmarks, incluant des tâches d'utilisation générale d'outils (ToolBench, API-Bank, TMDB, Spotify, ToolHop) et des applications en aval (ALFWorld, WebShop, GAIA, HLE), démontrent que DeepAgent surpasse constamment les méthodes de référence dans les scénarios de récupération d'outils étiquetés et en ensemble ouvert. Ce travail représente un pas vers des agents plus généraux et capables pour les applications réelles. Le code et la démonstration sont disponibles à l'adresse https://github.com/RUC-NLPIR/DeepAgent.
Les modèles de raisonnement de pointe ont démontré des capacités remarquables dans un large éventail de disciplines, grâce au post-entraînement de grands modèles de langage (LLM) par apprentissage par renforcement (RL). Cependant, malgré le succès généralisé de ce paradigme, une grande partie de la littérature s'est consacrée à démêler les comportements véritablement nouveaux qui émergent durant le RL mais sont absents des modèles de base. Dans notre travail, nous abordons cette question sous un angle différent, en nous demandant plutôt si des capacités de raisonnement comparables peuvent être suscitées à partir des modèles de base au moment de l'inférence par un simple échantillonnage, sans aucun entraînement supplémentaire. Inspirés par les techniques de Monte-Carlo par chaîne de Markov (MCMC) pour échantillonner à partir de distributions aiguisées, nous proposons un algorithme d'échantillonnage itératif simple qui exploite les vraisemblances propres aux modèles de base. Sur différents modèles de base, nous montrons que notre algorithme offre des gains substantiels en raisonnement qui égalent quasiement, et même surpassent parfois, ceux obtenus par le RL sur une grande variété de tâches en un seul essai, incluant MATH500, HumanEval et GPQA. De plus, notre échantillonneur évite l'effondrement de la diversité sur de multiples échantillons, caractéristique du post-entraînement par RL. Fait crucial, notre méthode ne nécessite pas d'entraînement, de jeux de données curatés ou de vérificateur, ce qui suggère une applicabilité étendue au-delà des domaines facilement vérifiables.
Le contrôle sémantique unifié et généralisable dans la génération vidéo reste un défi ouvert majeur. Les méthodes existantes introduisent soit des artéfacts en imposant des prérequis pixelliques inappropriés issus de contrôles structurels, soit reposent sur un fine-tuning non généralisable spécifique à la condition ou sur des architectures spécialisées par tâche. Nous présentons Video-As-Prompt (VAP), un nouveau paradigme qui reformule ce problème comme une génération contextuelle. VAP exploite une vidéo de référence comme prompt sémantique direct, guidant un Transformeur de Diffusion Vidéo (DiT) figé via un expert Mixture-of-Transformers (MoT) plug-and-play. Cette architecture prévient l'oubli catastrophique et est guidée par un embedding positionnel temporellement biaisé qui élimine les prérequis de mapping spuriaux pour une récupération contextuelle robuste. Pour soutenir cette approche et catalyser la recherche future, nous avons constitué VAP-Data, le plus grand jeu de données pour la génération vidéo sémantiquement contrôlée avec plus de 100 000 vidéos appariées couvrant 100 conditions sémantiques. En tant que modèle unique unifié, VAP établit un nouvel état de l'art pour les méthodes open-source, atteignant un taux de préférence utilisateur de 38,7% qui rivalise avec les modèles commerciaux leaders spécialisés par condition. La forte généralisation zero-shot de VAP et son support pour diverses applications en aval marquent une avancée significative vers la génération vidéo contrôlée à usage général.
Nous abordons le défi de générer des mondes 3D extensibles à l'infini – des environnements vastes et continus possédant une géométrie cohérente et un réalisme d'apparence. Les méthodes existantes font face à des défis majeurs : les approches par relèvement 2D souffrent d'incohérences géométriques et d'apparence entre les vues, les représentations implicites 3D sont difficiles à mettre à l'échelle, et les modèles de fondation 3D actuels sont principalement centrés sur les objets, limitant leur applicabilité à la génération au niveau scénique. Notre idée maîtresse est d'exploiter les fortes priors de génération de modèles 3D pré-entraînés pour produire des blocs scéniques structurés. À cette fin, nous proposons WorldGrow, un cadre hiérarchique pour la synthèse illimitée de scènes 3D. Notre méthode comporte trois composants clés : (1) un pipeline de curation de données qui extrait des blocs scéniques de haute qualité pour l'entraînement, rendant les représentations latentes structurées 3D adaptées à la génération de scènes ; (2) un mécanisme d'inpainting 3D par blocs qui permet une extension scénique sensible au contexte ; et (3) une stratégie de génération multi-échelle qui assure à la fois la plausibilité de la disposition globale et la fidélité géométrique/texturale locale. Évalué sur le jeu de données 3D-FRONT à grande échelle, WorldGrow obtient des performances de pointe en reconstruction géométrique, tout en supportant de manière unique la génération infinie de scènes avec des résultats photoréalistes et structurellement cohérents. Ces résultats soulignent sa capacité à construire des environnements virtuels à grande échelle et son potentiel pour élaborer les modèles de monde futurs.
L'absence de définition concrète de l'intelligence artificielle générale (IAG) obscurcit l'écart entre l'IA spécialisée actuelle et la cognition humaine. Cet article propose un cadre quantifiable pour résoudre ce problème, définissant l'IAG comme l'équivalent de la versatilité et de la compétence cognitives d'un adulte bien éduqué. Pour opérationnaliser cette approche, nous ancrons notre méthodologie dans la théorie de Cattell-Horn-Carroll, le modèle de cognition humaine le plus empiriquement validé. Le cadre décompose l'intelligence générale en dix domaines cognitifs fondamentaux - incluant le raisonnement, la mémoire et la perception - et adapte des batteries psychométriques humaines reconnues pour évaluer les systèmes d'IA. L'application de ce cadre révèle un profil cognitif fortement "hétérogène" chez les modèles contemporains. Bien que compétents dans les domaines exigeant des connaissances, les systèmes d'IA actuels présentent des déficits critiques dans les mécanismes cognitifs fondamentaux, particulièrement le stockage mnésique à long terme. Les scores d'IAG qui en résultent (par exemple, GPT-4 à 27%, GPT-5 à 58%) quantifient concrètement tant les progrès rapides que l'écart substantiel restant avant d'atteindre l'IAG.
L'Optimisation Relative des Politiques par Groupe (GRPO) a démontré un fort potentiel pour la génération d'images à partir de texte (T2I) basée sur l'appariement de flux, mais elle se heurte à deux limitations principales : une attribution imprécise de l'avantage et la négligence de la dynamique temporelle de la génération. Dans ce travail, nous soutenons qu'un changement du paradigme d'optimisation du niveau de l'étape vers le niveau du segment peut efficacement atténuer ces problèmes. En s'appuyant sur cette idée, nous proposons Chunk-GRPO, la première approche basée sur la GRPO au niveau du segment pour la génération T2I. L'idée principale est de regrouper les étapes consécutives en « segments » cohérents qui capturent la dynamique temporelle intrinsèque de l'appariement de flux, et d'optimiser les politiques au niveau du segment. De plus, nous introduisons une stratégie optionnelle d'échantillonnage pondéré pour encore améliorer les performances. Des expériences approfondies montrent que Chunk-GRPO obtient des résultats supérieurs à la fois en termes d'alignement des préférences et de qualité d'image, soulignant la promesse de l'optimisation au niveau du segment pour les méthodes basées sur la GRPO.
Les modèles de diffusion discrets sont apparus comme une approche prometteuse pour les tâches vision-langage, offrant une modélisation contextuelle bidirectionnelle et une parallélisation théorique. Cependant, leur application pratique est sévèrement entravée par une divergence entre l'entraînement et l'inférence, qui provoque des cascades d'erreurs catastrophiques : les erreurs initiales de tokens lors du décodage parallèle polluent le contexte de génération, déclenchant une réaction en chaîne d'erreurs cumulatives conduisant à des fautes de syntaxe et des hallucinations sémantiques. Pour relever ce défi fondamental, nous reformulons le processus de génération passant d'un débruitage passif à un affinage actif. Nous présentons ReDiff, un framework de diffusion à affinage amélioré qui apprend au modèle à identifier et corriger ses propres erreurs. Notre approche comporte un processus d'entraînement en deux étapes : premièrement, nous inculquons une capacité de révision fondamentale en entraînant le modèle à réviser des erreurs synthétiques ; deuxièmement, nous mettons en œuvre une boucle innovante d'autocorrection en ligne où le modèle est explicitement entraîné à réviser ses propres ébauches défaillantes en apprenant des corrections d'un expert. Cet apprentissage piloté par les erreurs dote le modèle de la capacité cruciale de revisiter et d'affiner sa sortie déjà générée, brisant efficacement la cascade d'erreurs. Des expériences approfondies démontrent que ReDiff améliore significativement la cohérence et l'exactitude factuelle du contenu généré, permettant une génération parallèle stable et efficace bien supérieure aux méthodes traditionnelles de débruitage. Nos codes et modèles sont disponibles à l'adresse https://rediff-hku.github.io/.
L'augmentation de la longueur de contexte des grands modèles de langage (LLM) présente des avantages significatifs mais s'avère coûteuse en calculs. Cette dépense provient principalement du mécanisme d'auto-attention, dont la complexité en O(N²) par rapport à la longueur de la séquence constitue un goulot d'étranglement majeur pour la mémoire et la latence. Heureusement, la matrice d'attention est souvent creuse, particulièrement pour les longues séquences, ce qui suggère une opportunité d'optimisation. L'attention bloc-creuse est apparue comme une solution prometteuse qui partitionne les séquences en blocs et ignore le calcul pour un sous-ensemble de ces blocs. Cependant, l'efficacité de cette méthode dépend fortement des schémas d'attention sous-jacents, qui peuvent entraîner une creusité au niveau des blocs sous-optimale. Par exemple, les jetons clés importants pour des requêtes au sein d'un seul bloc peuvent être dispersés sur de nombreux autres blocs, conduisant à une redondance computationnelle. Dans ce travail, nous proposons Permuted Block-Sparse Attention (PBS-Attn), une méthode prête à l'emploi qui exploite les propriétés de permutation de l'attention pour augmenter la creusité au niveau des blocs et améliorer l'efficacité computationnelle du préremplissage des LLM. Nous menons des expériences complètes sur des ensembles de données réels et exigeants à long contexte, démontrant que PBS-Attn surpasse constamment les méthodes d'attention bloc-creuse existantes en précision du modèle et se rapproche étroitement de la référence d'attention complète. Propulsée par nos noyaux personnalisés permuted-FlashAttention, PBS-Attn atteint une accélération de bout en bout allant jusqu'à 2,75 fois dans le préremplissage à long contexte, confirmant sa viabilité pratique. Code disponible à l'adresse https://github.com/xinghaow99/pbs-attn.
L'ancrage d'interface graphique (GUI), qui consiste à mapper des instructions en langage naturel vers des éléments d'interface utilisateur actionnables, est une capacité fondamentale des agents d'interface. Les travaux antérieurs traitent largement les instructions comme un proxy statique de l'intention de l'utilisateur, négligeant l'impact de la diversité et de la qualité des instructions sur les performances d'ancrage. Par une investigation minutieuse des jeux de données d'ancrage existants, nous constatons un taux d'erreur de 23,3 % dans leurs instructions et montrons qu'exploiter la diversité des instructions à l'inférence permet d'atteindre une amélioration relative substantielle des performances allant jusqu'à 76 %. Dans cet article, nous introduisons le paradigme Instruction-comme-Raisonnement, traitant les instructions comme des chemins analytiques dynamiques offrant des perspectives distinctes et permettant au modèle de sélectionner le chemin le plus efficace pendant le raisonnement. Pour y parvenir, nous proposons un cadre d'entraînement en deux étapes : un réglage fin supervisé (SFT) sur des instructions synthétisées et diversifiées pour inculquer un raisonnement multi-perspectives, suivi d'un apprentissage par renforcement (RL) pour optimiser la sélection et la composition des chemins. Nos modèles résultants, UI-Ins-7B et UI-Ins-32B, obtiennent des résultats state-of-the-art sur cinq benchmarks d'ancrage difficiles et présentent un raisonnement émergent, composant et synthétisant sélectivement de nouveaux chemins d'instruction à l'inférence. En particulier, UI-Ins-32B atteint la meilleure précision d'ancrage, avec un score de 87,3 % sur UI-I2E-Bench, 57,0 % sur ScreenSpot-Pro et 84,9 % sur MMBench-GUI L2. De plus, notre modèle démontre un fort potentiel agentique, atteignant un taux de réussite de 74,1 % sur AndroidWorld en utilisant UI-Ins-7B comme exécuteur. Notre analyse approfondie révèle des insights supplémentaires, tels que la manière dont le raisonnement peut être formulé pour améliorer plutôt qu'entraver les performances d'ancrage, et comment notre méthode atténue l'effondrement de la politique dans le cadre SFT+RL. Tout le code et les points de contrôle des modèles seront publiquement disponibles sur https://github.com/alibaba/UI-Ins.
Dans cet article, nous démontrons que les modèles de diffusion visuelle peuvent servir de solveurs géométriques efficaces : ils peuvent raisonner directement sur des problèmes géométriques en opérant dans l'espace des pixels. Nous illustrons d'abord cela avec le problème du carré inscrit, un problème géométrique de longue date qui demande si toute courbe de Jordan contient quatre points formant un carré. Nous étendons ensuite l'approche à deux autres problèmes géométriques difficiles bien connus : le problème de l'arbre de Steiner et le problème du polygone simple. Notre méthode traite chaque instance de problème comme une image et entraîne un modèle de diffusion visuelle standard qui transforme un bruit gaussien en une image représentant une solution approximative valide qui correspond étroitement à la solution exacte. Le modèle apprend à transformer des structures géométriques bruitées en configurations correctes, reformulant ainsi efficacement le raisonnement géométrique comme un problème de génération d'image. Contrairement aux travaux antérieurs qui nécessitent des architectures spécialisées et des adaptations spécifiques au domaine lors de l'application de la diffusion à des représentations géométriques paramétriques, nous utilisons un modèle de diffusion visuelle standard qui opère sur la représentation visuelle du problème. Cette simplicité met en lumière un pont surprenant entre la modélisation générative et la résolution de problèmes géométriques. Au-delà des problèmes spécifiques étudiés ici, nos résultats indiquent un paradigme plus large : opérer dans l'espace image fournit un cadre général et pratique pour approximer des problèmes notoirement difficiles, et ouvre la porte à l'attaque d'une classe bien plus large de tâches géométriques complexes.
Les modèles de langage de grande taille pour la vidéo (VideoLLMs) étendent les capacités des modèles vision-langage aux entrées spatiotemporelles, permettant des tâches telles que la réponse à des questions sur la vidéo (VideoQA). Malgré les récents progrès des VideoLLMs, leurs mécanismes internes concernant l'endroit et la manière dont ils extraient et propagent l'information vidéo et textuelle restent peu explorés. Dans cette étude, nous examinons le flux d'information interne des VideoLLMs à l'aide de techniques d'interprétabilité mécanistique. Notre analyse révèle des schémas cohérents pour diverses tâches de VideoQA : (1) le raisonnement temporel dans les VideoLLMs débute par des interactions actives entre les trames dans les couches précoces à intermédiaires, (2) suivi par une intégration progressive vidéo-langage dans les couches intermédiaires. Ceci est facilité par un alignement entre les représentations vidéo et les embeddings linguistiques contenant des concepts temporels. (3) Une fois cette intégration achevée, le modèle est prêt à générer des réponses correctes dans les couches intermédiaires à tardives. (4) Sur la base de notre analyse, nous montrons que les VideoLLMs peuvent préserver leurs performances en VideoQA en sélectionnant ces voies d'information efficaces tout en supprimant une quantité substantielle de connexions attentionnelles, par exemple 58 % dans LLaVA-NeXT-7B-Video-FT. Ces résultats fournissent un modèle conceptuel sur la manière dont les VideoLLMs effectuent un raisonnement temporel et offrent des perspectives pratiques pour améliorer l'interprétabilité du modèle et la généralisation en aval. Notre page de projet avec le code source est disponible à l'adresse https://map-the-flow.github.io.
La fusion de modèles est une stratégie efficace d'après-entraînement pour intégrer les connaissances de multiples points de contrôle spécialisés issus d'un modèle de base commun. Les méthodes existantes opèrent dans l'espace des paramètres, en combinant des vecteurs de tâche pour atténuer les conflits, mais restent limitées par les incohérences paramétriques. Nous proposons les Ancres Fonctionnelles Duales (AFD), un cadre qui modélise plutôt l'espace des représentations d'entrée. Les AFD sont des entrées synthétiques dont les gradients induits s'alignent avec les vecteurs de tâche, capturant les décalages fonctionnels spécifiques aux tâches par rapport au modèle pré-entraîné. Cette perspective fait le lien entre l'entraînement multitâche conjoint et la fusion a posteriori, offrant à la fois robustesse et flexibilité. Nous introduisons en outre un schéma d'initialisation fondé sur des principes et montrons que les AFD sont complémentaires à la fusion de modèles dans l'espace des paramètres. Des expériences approfondies démontrent l'efficacité des AFD dans la fusion de modèles.
La conception des prompts joue un rôle crucial dans la génération texte-vidéo (T2V), mais les prompts fournis par les utilisateurs sont souvent courts, non structurés et désalignés des données d'entraînement, limitant le potentiel génératif des modèles T2V basés sur la diffusion. Nous présentons RAPO++, un cadre d'optimisation de prompts trans-étapes qui unifie le raffinement aligné sur les données d'entraînement, la mise à l'échelle itérative au moment du test et le fine-tuning de grands modèles de langage (LLM) pour améliorer substantiellement la génération T2V sans modifier l'architecture générative sous-jacente. Dans l'Étape 1, l'Optimisation de Prompt par Récupération Augmentée (RAPO) enrichit les prompts utilisateur avec des modificateurs sémantiquement pertinents récupérés depuis un graphe de relations et les restructure pour correspondre aux distributions d'entraînement, améliorant la compositionnalité et la fidélité multi-objets. L'Étape 2 introduit l'Optimisation de Prompt Spécifique à l'Échantillon (SSPO), un mécanisme en boucle fermée qui affine itérativement les prompts en utilisant un retour multi-sources – incluant l'alignement sémantique, la fidélité spatiale, la cohérence temporelle et des signaux spécifiques à la tâche tels que le flux optique – produisant une qualité de génération vidéo progressivement améliorée. L'Étape 3 exploite des paires de prompts optimisées provenant de SSPO pour effectuer le fine-tuning du LLM de réécriture, internalisant les schémas d'optimisation spécifiques à la tâche et permettant une génération de prompts efficace et de haute qualité, même avant l'inférence. Des expériences approfondies sur cinq modèles T2V de pointe et cinq benchmarks démontrent que RAPO++ obtient des gains significatifs en alignement sémantique, raisonnement compositionnel, stabilité temporelle et plausibilité physique, surpassant largement les méthodes existantes. Nos résultats soulignent RAPO++ comme une solution agnostique au modèle, économique et évolutive, qui établit un nouveau standard pour l'optimisation de prompts dans la génération T2V. Le code est disponible à l'adresse https://github.com/Vchitect/RAPO.
Nous démontrons que les représentations internes des grands modèles de langage (LLM) constituent des indicateurs fiables des connaissances acquises, et proposons RECALL, un nouveau cadre de fusion de modèles sensible aux représentations pour l'apprentissage continu sans accès aux données historiques. RECALL calcule la similarité inter-modèle à partir des représentations cachées par couche sur des échantillons typiques groupés, et effectue une fusion hiérarchique adaptative des paramètres pour aligner les connaissances entre les modèles. Cette conception permet de préserver les caractéristiques générales du domaine dans les couches superficielles tout en autorisant l'adaptation spécifique aux tâches dans les couches profondes. Contrairement aux méthodes antérieures nécessitant des étiquettes de tâches ou entraînant des compromis de performance, RECALL réalise une intégration multi-domaine transparente et une forte résistance à l'oubli catastrophique. Des expériences approfondies sur cinq tâches de TAL et plusieurs scénarios d'apprentissage continu montrent que RECALL surpasse les méthodes de référence en matière de rétention des connaissances et de généralisation, offrant une solution évolutive et sans données pour le développement des LLM.
Les métriques traditionnelles de recherche d'information (RI), telles que le nDCG, le MAP et le MRR, supposent que les utilisateurs humains examinent les documents séquentiellement avec une attention décroissante pour les rangs inférieurs. Cette hypothèse ne tient pas dans les systèmes de Génération Augmentée par la Recherche (RAG), où les résultats de recherche sont consommés par des modèles de langage de grande taille (LLM) qui, contrairement aux humains, traitent l'ensemble des documents récupérés globalement plutôt que séquentiellement. De plus, les métriques traditionnelles de RI ne prennent pas en compte les documents connexes mais non pertinents qui dégradent activement la qualité de la génération, au lieu d'être simplement ignorés. En raison de ces deux désalignements majeurs, à savoir l'actualisation positionnelle humaine contre machine et la pertinence humaine contre l'utilité machine, les métriques classiques de RI ne prédisent pas avec précision les performances des systèmes RAG. Nous introduisons un schéma d'annotation basé sur l'utilité qui quantifie à la fois la contribution positive des passages pertinents et l'impact négatif des passages distracteurs. Sur cette base, nous proposons l'UDCG (Gain Cumulatif Sensible à l'Utilité et à la Distraction), une métrique utilisant une actualisation positionnelle orientée LLM pour optimiser directement la corrélation avec la précision des réponses de bout en bout. Les expériences sur cinq jeux de données et six LLM démontrent que l'UDCG améliore la corrélation jusqu'à 36 % par rapport aux métriques traditionnelles. Notre travail constitue une étape cruciale vers l'alignement de l'évaluation en RI avec les consommateurs de type LLM et permet une évaluation plus fiable des composants RAG.
Des techniques récentes comme la génération augmentée par retrieval ou le raisonnement en chaîne de pensée ont conduit à des contextes plus longs et à une augmentation des coûts d'inférence. Les techniques de compression de contexte peuvent réduire ces coûts, mais les approches les plus efficaces nécessitent de fine-tuner le modèle cible ou même de modifier son architecture. Cela peut dégrader ses capacités générales lorsqu'il n'est pas utilisé pour cet objectif spécifique. Nous explorons ici une approche alternative : un encodeur qui compresse le contexte en représentations continues remplaçant les embeddings de tokens dans les LLMs décodeurs. Premièrement, nous menons une étude systématique des stratégies d'entraînement et des choix architecturaux pour l'encodeur. Nos résultats ont conduit à la conception d'un Compresseur de Représentations de Texte Adaptable, nommé ARC-Encoder, qui produit x fois moins de représentations continues (typiquement x ∈ {4,8}) que de tokens textuels. Nous évaluons ARC-Encoder sur une variété de scénarios d'utilisation de LLMs, allant de l'apprentissage en contexte à l'extension de fenêtre contextuelle, sur des décodeurs de base et instruct. Les résultats montrent qu'ARC-Encoder atteint des performances state-of-the-art sur plusieurs benchmarks tout en améliorant l'efficacité computationnelle lors de l'inférence. Enfin, nous démontrons que nos modèles peuvent être adaptés à plusieurs décodeurs simultanément, permettant à un seul encodeur de généraliser à travers différents LLMs décodeurs. Cela fait d'ARC-Encoder une solution flexible et efficace pour des encodeurs portables fonctionnant de manière transparente avec plusieurs LLMs. Nous publions un code d'entraînement à l'adresse https://github.com/kyutai-labs/ARC-Encoder ; un jeu de données pour fine-tuning et des modèles pré-entraînés sont disponibles à l'adresse https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .
Récemment, des progrès significatifs ont été réalisés dans l'apprentissage continu multimodal, visant à apprendre séquentiellement de nouvelles tâches dans des configurations multimodales tout en préservant les performances sur les tâches précédemment apprises. Cependant, les méthodes existantes se concentrent principalement sur des tâches à granularité grossière et présentent des limitations pour traiter l'enchevêtrement des modalités dans des contextes d'apprentissage continu à granularité fine. Pour combler cette lacune, nous introduisons une nouvelle tâche de Segmentation Audio-Visuelle Continue (CAVS), visant à segmenter continuellement de nouvelles classes guidées par l'audio. Une analyse approfondie a permis d'identifier deux défis critiques : 1) la dérive sémantique multimodale, où un objet sonore est étiqueté comme arrière-plan dans des tâches séquentielles ; 2) la confusion de co-occurrence, où les classes fréquemment co-occurrentes ont tendance à être confondues. Dans ce travail, un cadre de Répétition Multimodale basée sur les Collisions (CMR) est conçu pour relever ces défis. Spécifiquement, pour la dérive sémantique multimodale, une stratégie de Sélection d'Échantillons Multimodaux (MSS) est proposée pour sélectionner des échantillons présentant une forte cohérence modale pour la répétition. Parallèlement, pour la confusion de co-occurrence, un mécanisme de Répétition d'Échantillons basé sur les Collisions (CSR) est conçu, permettant d'augmenter la fréquence des échantillons de répétition des classes confondables pendant le processus d'entraînement. De plus, nous avons construit trois scénarios incrémentaux audio-visuels pour vérifier l'efficacité de notre méthode. Des expériences complètes démontrent que notre méthode surpasse significativement les méthodes d'apprentissage continu unimodal.
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes agentiels interagissant avec un environnement externe, ce qui les rend vulnérables aux injections de prompt lors du traitement de données non fiables. Pour surmonter cette limitation, nous proposons SIC (Soft Instruction Control) – une boucle de sanitisation itérative des prompts, simple mais efficace, conçue pour les agents LLM augmentés d'outils. Notre méthode inspecte de manière répétée les données entrantes à la recherche d'instructions susceptibles de compromettre le comportement de l'agent. Si un tel contenu est détecté, le contenu malveillant est réécrit, masqué ou supprimé, et le résultat est réévalué. Le processus se poursuit jusqu'à ce que l'entrée soit nettoyée ou qu'une limite d'itération maximale soit atteinte ; si un contenu impératif de type instruction persiste, l'agent s'arrête pour garantir la sécurité. En autorisant plusieurs passages, notre approche reconnaît que les réécritures individuelles peuvent échouer, mais permet au système de détecter et de corriger les injections manquées lors des étapes ultérieures. Bien qu'immédiatement utile, une analyse dans le pire des cas montre que SIC n'est pas infaillible ; un adversaire puissant peut encore atteindre un taux de succès d'attaque (ASR) de 15 % en intégrant des workflows non impératifs. Cela relève néanmoins le niveau de sécurité requis.
Les récents progrès des grands modèles de raisonnement (LRM) ont introduit un processus de « réflexion » intermédiaire avant la génération des réponses finales, améliorant leurs capacités de raisonnement sur des tâches complexes en aval. Cependant, le potentiel des LRM en tant qu'évaluateurs de la qualité de la traduction automatique (TA) reste sous-exploré. Nous proposons la première analyse systématique des LRM utilisés comme juges dans l'évaluation de la TA. Nous identifions des défis majeurs, révélant que les LRM nécessitent des matériaux d'évaluation adaptés, ont tendance à « surréfléchir » les instances simples et présentent des problèmes avec les mécanismes de notation conduisant à des surestimations. Pour y remédier, nous proposons de calibrer la réflexion des LRM en les entraînant sur des trajectoires de pensée synthétiques, semblables à celles des humains. Nos expériences sur les benchmarks WMT24 Metrics démontrent que cette approche réduit considérablement le coût de réflexion d'environ 35 fois, tout en améliorant les performances d'évaluation pour différentes échelles de LRM, de 7B à 32B (par exemple, R1-Distill-Qwen-7B enregistre une amélioration de +8,7 points de corrélation). Ces résultats soulignent le potentiel des LRM efficacement calibrés pour faire progresser l'évaluation automatique fine de la TA.
Les modèles de monde interactifs simulant la dynamique des objets sont cruciaux pour la robotique, la réalité virtuelle (RV) et la réalité augmentée (RA). Cependant, apprendre des modèles de dynamique physiquement cohérents à partir de données vidéo réelles limitées reste un défi majeur, particulièrement pour les objets déformables ayant des propriétés physiques spatialement variables. Pour surmonter le problème de la rareté des données, nous proposons PhysWorld, un nouveau cadre qui utilise un simulateur pour synthétiser des démonstrations physiquement plausibles et diverses afin d'apprendre des modèles de monde efficaces. Concrètement, nous construisons d'abord un jumeau numérique physiquement cohérent dans le simulateur MPM via une sélection de modèles constitutifs et une optimisation globale-vers-locale des propriétés physiques. Ensuite, nous appliquons des perturbations spécifiques aux parties pour modifier les propriétés physiques et générons divers motifs de mouvement pour le jumeau numérique, synthétisant ainsi des démonstrations étendues et variées. Enfin, en utilisant ces démonstrations, nous entraînons un modèle de monde léger basé sur un Réseau de Neurones à Graphes (GNN) intégrant les propriétés physiques. La vidéo réelle peut être utilisée pour affiner davantage les propriétés physiques. PhysWorld permet des prédictions futures précises et rapides pour divers objets déformables et généralise bien à de nouvelles interactions. Les expériences montrent que PhysWorld offre des performances compétitives tout en permettant des vitesses d'inférence 47 fois plus rapides que la méthode récente de pointe, PhysTwin.
Nous appliquons la théorie des catégories pour extraire la structure multimodale des documents, ce qui nous conduit à développer des mesures informationnelles, la synthèse et l'extension de contenu, ainsi que l'amélioration auto-supervisée de grands modèles pré-entraînés. Nous développons d'abord une représentation mathématique d'un document comme une catégorie de paires question-réponse. Deuxièmement, nous élaborons une procédure d'orthogonalisation pour diviser l'information contenue dans un ou plusieurs documents en parties non chevauchantes. Les structures extraites lors des première et deuxième étapes nous permettent de développer des méthodes pour mesurer et énumérer l'information contenue dans un document. Nous nous appuyons également sur ces étapes pour développer de nouvelles techniques de résumé, ainsi que pour proposer une solution à un nouveau problème, à savoir l'exégèse conduisant à une extension du document original. Notre méthodologie basée sur les paires question-réponse permet une analyse de distorsion-débit novatrice des techniques de synthèse. Nous implémentons nos techniques à l'aide de grands modèles pré-entraînés, et nous proposons une extension multimodale de notre cadre mathématique global. Enfin, nous développons une méthode auto-supervisée innovante utilisant RLVR pour améliorer les grands modèles pré-entraînés en exploitant des contraintes de cohérence telles que la composabilité et la clôture sous certaines opérations qui découlent naturellement de notre cadre théorique des catégories.
L'apprentissage par renforcement (RL) est apparu comme une approche cruciale pour améliorer les capacités des grands modèles de langage. Cependant, dans les modèles à mélange d'experts (MoE), le mécanisme de routage introduit souvent une instabilité, pouvant même mener à un effondrement catastrophique de l'entraînement par RL. Nous analysons la cohérence entraînement-inférence des modèles MoE et identifions un écart notable dans les comportements de routage entre les deux phases. De plus, même dans des conditions identiques, le cadre de routage peut produire des sélections d'experts divergentes sur des passes avant répétées. Pour résoudre cette incohérence fondamentale, nous proposons Rollout Routing Replay (R³), une méthode qui enregistre les distributions de routage depuis le moteur d'inférence et les rejoue pendant l'entraînement. R³ réduit significativement la divergence de politique KL entre l'entraînement et l'inférence et atténue les écarts extrêmes sans compromettre la vitesse d'entraînement. Des expériences approfondies dans divers contextes confirment que R³ réussit à stabiliser l'entraînement RL, en prévenant l'effondrement et en surpassant des méthodes telles que GSPO et TIS. Nous pensons que ces travaux peuvent offrir une nouvelle solution pour stabiliser le RL dans les modèles MoE.
Le Foley Control est une approche légère pour le Foley guidé par vidéo qui maintient les modèles pré-entraînés unimodaux figés et n'apprend qu'un petit module de croisement par attention entre eux. Nous connectons les embeddings vidéo de V-JEPA2 à un modèle texte-audio (T2A) Stable Audio Open DiT figé en insérant un module compact d'attention croisée vidéo après l'attention croisée texte existante du modèle, permettant ainsi aux prompts de définir la sémantique globale tandis que la vidéo affine la synchronisation et la dynamique locale. Les modèles de base figés conservent des distributions marginales solides (vidéo ; audio étant donné le texte) et le module apprend la dépendance audio-vidéo nécessaire à la synchronisation, sans réentraîner l'a priori audio. Pour réduire la mémoire et stabiliser l'entraînement, nous effectuons un regroupement des tokens vidéo avant le conditionnement. Sur des benchmarks vidéo-audio sélectionnés, Foley Control offre un alignement temporel et sémantique compétitif avec bien moins de paramètres entraînables que les systèmes multimodaux récents, tout en préservant la contrôlabilité par prompt et une modularité adaptée à la production (permutation/mise à niveau des encodeurs ou du modèle T2A sans réentraînement de bout en bout). Bien que nous nous concentrions sur la vidéo-vers-Foley, la même conception de module de connexion peut potentiellement s'étendre à d'autres modalités audio (par exemple, la parole).
Les agents IA détiennent le potentiel de révolutionner la productivité scientifique en automatisant les revues de littérature, en répliquant les expériences, en analysant les données et même en proposant de nouvelles pistes de recherche ; il existe d'ailleurs aujourd'hui de nombreux agents de ce type, allant des systèmes polyvalents de « recherche approfondie » à des agents spécialisés dans les sciences, tels qu'AI Scientist et AIGS. L'évaluation rigoureuse de ces agents est cruciale pour progresser. Pourtant, les benchmarks existants présentent plusieurs lacunes : ils (1) ne fournissent pas de mesures holistiques et orientées produit des cas d'usage réels comme la recherche scientifique ; (2) manquent d'outils reproductibles pour agents, nécessaires à une comparaison contrôlée des capacités agentives fondamentales ; (3) ne tiennent pas compte de variables confusionnelles telles que le coût des modèles et l'accès aux outils ; (4) n'offrent pas d'interfaces standardisées pour le prototypage et l'évaluation rapides des agents ; et (5) ne disposent pas d'agents de référence complets permettant d'identifier les véritables avancées. En réponse, nous définissons des principes et des outils pour benchmarker les agents de manière plus rigoureuse. Sur cette base, nous présentons AstaBench, une suite qui fournit la première mesure holistique de la capacité agentive à mener des recherches scientifiques, comprenant plus de 2400 problèmes couvrant l'intégralité du processus de découverte scientifique et plusieurs domaines scientifiques, et incluant de nombreux problèmes inspirés de requêtes réelles d'utilisateurs aux agents Asta déployés. Notre suite s'accompagne du premier environnement de recherche scientifique avec des outils de recherche de qualité production permettant une évaluation contrôlée et reproductible, tenant mieux compte des facteurs confusionnels. Parallèlement, nous fournissons une gamme complète de neuf classes d'agents Asta optimisées pour la science et de nombreuses références. Notre évaluation approfondie de 57 agents répartis dans 22 classes d'agents révèle plusieurs résultats intéressants, le plus important étant que malgré des progrès significatifs sur certains aspects individuels, l'IA est encore loin de résoudre le défi de l'assistance à la recherche scientifique.
Le raisonnement visuel dans les modèles de langage multimodaux (MLLM) a principalement été étudié dans des contextes statiques et entièrement observables, limitant ainsi leur efficacité dans les environnements réels où l'information est souvent incomplète en raison d'occlusions ou d'un champ de vision restreint. Les humains, en revanche, explorent et interagissent activement avec leur environnement – en se déplaçant, en examinant et en manipulant des objets – pour recueillir des informations via un processus en boucle fermée intégrant la perception, le raisonnement et l'action. Inspirés par cette capacité humaine, nous introduisons la tâche de Raisonnement Visuel Actif (AVR), étendant le raisonnement visuel à des environnements interactifs partiellement observables. L'AVR exige que les agents : (1) acquièrent activement des informations via des actions physiques séquentielles, (2) intègrent les observations sur plusieurs étapes pour un raisonnement cohérent, et (3) ajustent dynamiquement leurs décisions en fonction des retours visuels évolutifs. Pour évaluer rigoureusement l'AVR, nous présentons CLEVR-AVR, un benchmark de simulation comportant des environnements interactifs multi-tours conçus pour évaluer à la fois la justesse du raisonnement et l'efficacité de la collecte d'informations. Nous présentons AVR-152k, un jeu de données à grande échelle offrant de riches annotations de Chaîne de Pensée (CoT) détaillant le raisonnement itératif pour l'identification de l'incertitude, la prédiction du gain d'information conditionné par l'action, et la sélection d'actions maximisant l'information, essentiels pour l'entraînement d'agents dans un Processus de Décision Markovien d'ordre supérieur. Sur cette base, nous développons PhysVLM-AVR, un MLLM atteignant des performances de pointe sur CLEVR-AVR, le raisonnement incarné (OpenEQA, RoboVQA) et le raisonnement visuel passif (GeoMath, Geometry30K). Notre analyse révèle également que les MLLM incarnés actuels, bien que capables de détecter l'incomplétude de l'information, peinent à acquérir et intégrer activement de nouvelles informations via l'interaction, soulignant un déficit fondamental dans les capacités de raisonnement actif.
Les capteurs LiDAR 3D sont essentiels pour la navigation autonome, la surveillance environnementale et la cartographie de précision dans les applications de télédétection. Pour traiter efficacement les nuages de points massifs générés par ces capteurs, les données LiDAR sont souvent projetées en images de distance 2D qui organisent les points selon leurs positions angulaires et leurs distances. Bien que ces représentations en image de distance permettent un traitement efficace, les méthodes de projection conventionnelles souffrent d'incohérences géométriques fondamentales qui entraînent une perte d'information irréversible, compromettant les applications à haute fidélité. Nous présentons ALICE-LRI (Automatic LiDAR Intrinsic Calibration Estimation for Lossless Range Images), la première méthode générale et agnostique au capteur qui permet une génération d'images de distance sans perte à partir de nuages de points LiDAR rotatifs, sans nécessiter les métadonnées du fabricant ou les fichiers d'étalonnage. Notre algorithme reconstitue automatiquement la géométrie intrinsèque de tout capteur LiDAR rotatif en inférant les paramètres critiques incluant la configuration des faisceaux laser, les distributions angulaires et les corrections d'étalonnage par faisceau, permettant une projection sans perte et une reconstruction complète du nuage de points avec zéro point perdu. L'évaluation exhaustive sur les ensembles de données complets KITTI et DurLAR démontre qu'ALICE-LRI atteint une préservation parfaite des points, avec zéro point perdu sur l'ensemble des nuages de points. La précision géométrique est maintenue bien dans les limites de précision du capteur, établissant une absence de perte géométrique avec des performances en temps réel. Nous présentons également une étude de cas sur la compression qui valide des avantages substantiels en aval, démontrant des améliorations significatives de qualité dans les applications pratiques. Ce changement de paradigme des projections LiDAR approximatives vers des projections sans perte ouvre de nouvelles possibilités pour les applications de télédétection de haute précision nécessitant une préservation géométrique complète.