Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'avènement des grands modèles de langage (LLMs) a catalysé un changement transformateur dans l'intelligence artificielle, ouvrant la voie à des agents intelligents avancés capables de raisonnement sophistiqué, de perception robuste et d'action polyvalente dans divers domaines. Alors que ces agents jouent un rôle croissant dans la recherche en IA et ses applications pratiques, leur conception, évaluation et amélioration continue présentent des défis complexes et multidimensionnels. Cette étude offre un aperçu complet, en encadrant les agents intelligents dans une architecture modulaire inspirée du cerveau, intégrant des principes issus des sciences cognitives, des neurosciences et de la recherche computationnelle. Nous structurons notre exploration en quatre parties interconnectées. Premièrement, nous plongeons dans le fondement modulaire des agents intelligents, en cartographiant systématiquement leurs modules cognitifs, perceptuels et opérationnels sur des fonctionnalités cérébrales humaines analogues, et en élucidant des composants clés tels que la mémoire, la modélisation du monde, le traitement des récompenses et les systèmes ressemblant aux émotions. Deuxièmement, nous discutons des mécanismes d'auto-amélioration et d'évolution adaptative, en explorant comment les agents affinent leurs capacités de manière autonome, s'adaptent à des environnements dynamiques et atteignent un apprentissage continu grâce à des paradigmes d'optimisation automatisée, y compris les stratégies émergentes d'AutoML et d'optimisation pilotée par les LLMs. Troisièmement, nous examinons les systèmes multi-agents collaboratifs et évolutifs, en étudiant l'intelligence collective émergeant des interactions, de la coopération et des structures sociétales des agents, en mettant en lumière les parallèles avec les dynamiques sociales humaines. Enfin, nous abordons l'impératif critique de construire des systèmes d'IA sûrs, sécurisés et bénéfiques, en mettant l'accent sur les menaces de sécurité intrinsèques et extrinsèques, l'alignement éthique, la robustesse et les stratégies d'atténuation pratiques nécessaires pour un déploiement fiable dans le monde réel.
L'entraînement de grands modèles de langage (LLMs) présente de nombreux défis, notamment l'instabilité des gradients et les pics de perte. Ces phénomènes peuvent entraîner une divergence catastrophique, nécessitant une restauration coûteuse des points de contrôle et un saut de lots de données. Les techniques traditionnelles de seuillage des gradients, telles que les méthodes constantes ou basées sur la norme, échouent à résoudre efficacement ces problèmes en raison de leur dépendance à des seuils fixes ou à des heuristiques, conduisant à un apprentissage inefficace et nécessitant des interventions manuelles fréquentes. Dans ce travail, nous proposons ZClip, un algorithme de seuillage adaptatif des gradients qui ajuste dynamiquement le seuil de seuillage en fonction des propriétés statistiques des normes de gradients au fil du temps. Contrairement aux stratégies réactives précédentes, ZClip s'adapte de manière proactive à la dynamique de l'entraînement sans faire d'hypothèses préalables sur l'échelle et l'évolution temporelle des normes de gradients. Au cœur de son fonctionnement, il utilise une détection d'anomalies basée sur le score z pour identifier et atténuer les pics de gradients importants, empêchant ainsi les pics de perte malins sans perturber la convergence par ailleurs. Notre code est disponible à l'adresse : https://github.com/bluorion-com/ZClip.
Les modèles multimodaux de grande taille (LMMs) ont réalisé des progrès significatifs dans la compréhension et la génération visuelles, mais ils rencontrent encore des défis dans l'édition visuelle générale, notamment en ce qui concerne le suivi d'instructions complexes, la préservation de la cohérence d'apparence et la prise en charge de formats d'entrée flexibles. Pour combler cette lacune, nous introduisons RISEBench, le premier benchmark pour l'évaluation de l'édition visuelle informée par le raisonnement (RISE). RISEBench se concentre sur quatre types de raisonnement clés : le raisonnement temporel, causal, spatial et logique. Nous avons sélectionné des cas de test de haute qualité pour chaque catégorie et proposons un cadre d'évaluation qui examine le raisonnement des instructions, la cohérence d'apparence et la plausibilité visuelle à la fois par des juges humains et une approche LMM-comme-juge. Nos expériences révèlent que bien que GPT-4o-Native surpasse significativement les autres modèles open-source et propriétaires, même ce système de pointe éprouve des difficultés avec les tâches de raisonnement logique, mettant en lumière un domaine encore peu exploré. En tant qu'effort initial, RISEBench vise à fournir des insights fondamentaux sur l'édition visuelle consciente du raisonnement et à catalyser les recherches futures. Bien qu'il en soit encore à ses débuts, nous nous engageons à continuer d'étendre et d'affiner le benchmark pour soutenir des évaluations plus complètes, fiables et évolutives des systèmes multimodaux de nouvelle génération. Notre code et nos données seront disponibles sur https://github.com/PhoenixZ810/RISEBench.
Les récentes avancées du modèle GPT4o d'OpenAI ont démontré des capacités étonnamment performantes en génération et édition d'images, suscitant un enthousiasme considérable dans la communauté. Ce rapport technique présente le premier benchmark d'évaluation (nommé GPT-ImgEval), diagnostiquant de manière quantitative et qualitative les performances de GPT-4o selon trois dimensions critiques : (1) la qualité de génération, (2) la maîtrise de l'édition, et (3) la synthèse sémantique informée par la connaissance du monde. Dans ces trois tâches, GPT-4o affiche des performances solides, surpassant significativement les méthodes existantes en termes de contrôle de la génération d'images et de qualité des résultats, tout en démontrant des capacités exceptionnelles de raisonnement basé sur la connaissance. De plus, en nous appuyant sur les données générées par GPT-4o, nous proposons une approche basée sur un modèle de classification pour investiguer l'architecture sous-jacente de GPT-4o. Nos résultats empiriques suggèrent que le modèle combine une tête auto-régressive (AR) avec une tête basée sur la diffusion pour le décodage d'images, plutôt qu'une architecture de type VAR. Nous fournissons également une spéculation complète sur l'architecture globale de GPT-4o. Par ailleurs, nous menons une série d'analyses pour identifier et visualiser les limitations spécifiques de GPT-4o ainsi que les artefacts synthétiques couramment observés dans sa génération d'images. Nous présentons également une étude comparative de l'édition d'images en plusieurs étapes entre GPT-4o et Gemini 2.0 Flash, et discutons des implications en matière de sécurité des sorties de GPT-4o, notamment leur détectabilité par les modèles de forensic d'images existants. Nous espérons que notre travail offrira des insights précieux et fournira un benchmark fiable pour guider les recherches futures, favoriser la reproductibilité et accélérer l'innovation dans le domaine de la génération d'images et au-delà. Les codes et jeux de données utilisés pour évaluer GPT-4o sont disponibles à l'adresse suivante : https://github.com/PicoTrex/GPT-ImgEval.
Cet article présente JavisDiT, un nouveau Joint Audio-Video Diffusion Transformer conçu pour la génération synchronisée audio-vidéo (JAVG). Basé sur l'architecture puissante du Diffusion Transformer (DiT), JavisDiT est capable de générer simultanément des contenus audio et vidéo de haute qualité à partir de prompts utilisateurs ouverts. Pour garantir une synchronisation optimale, nous introduisons un mécanisme d'alignement spatio-temporel fin à travers un HiST-Sypo (Hierarchical Spatial-Temporal Synchronized Prior) Estimator. Ce module extrait à la fois des priors globaux et des priors spatio-temporels fins, guidant la synchronisation entre les composants visuels et auditifs. De plus, nous proposons un nouveau benchmark, JavisBench, composé de 10 140 vidéos sonores de haute qualité avec des légendes textuelles, couvrant des scènes diverses et des scénarios complexes du monde réel. Par ailleurs, nous concevons spécifiquement une métrique robuste pour évaluer la synchronisation entre les paires audio-vidéo générées dans des contenus complexes du monde réel. Les résultats expérimentaux démontrent que JavisDiT surpasse significativement les méthodes existantes en assurant à la fois une génération de haute qualité et une synchronisation précise, établissant ainsi une nouvelle référence pour les tâches JAVG. Notre code, modèle et jeu de données seront rendus publics à l'adresse https://javisdit.github.io/.
L'apprentissage par renforcement (RL) a été largement adopté pour le post-entraînement des grands modèles de langage (LLMs) à grande échelle. Récemment, l'incitation des capacités de raisonnement dans les LLMs via le RL indique que des méthodes d'apprentissage appropriées pourraient permettre une scalabilité efficace au moment de l'inférence. Un défi majeur du RL est d'obtenir des signaux de récompense précis pour les LLMs dans divers domaines au-delà des questions vérifiables ou des règles artificielles. Dans ce travail, nous étudions comment améliorer la modélisation des récompenses (RM) avec davantage de calculs d'inférence pour des requêtes générales, c'est-à-dire la scalabilité au moment de l'inférence d'un RM généraliste, et, plus loin, comment améliorer l'efficacité de la scalabilité performance-calcul avec des méthodes d'apprentissage appropriées. Pour l'approche RM, nous adoptons la modélisation générative de récompenses point par point (GRM) pour permettre une flexibilité face à différents types d'entrées et un potentiel de scalabilité au moment de l'inférence. Pour la méthode d'apprentissage, nous proposons le Réglage par Critique Auto-Principée (SPCT) pour encourager des comportements de génération de récompenses scalables dans les GRMs via le RL en ligne, afin de générer des principes de manière adaptative et des critiques avec précision, aboutissant aux modèles DeepSeek-GRM. De plus, pour une scalabilité efficace au moment de l'inférence, nous utilisons l'échantillonnage parallèle pour étendre l'utilisation des calculs, et introduisons un méta RM pour guider le processus de vote afin d'améliorer les performances de scalabilité. Empiriquement, nous montrons que le SPCT améliore significativement la qualité et la scalabilité des GRMs, surpassant les méthodes et modèles existants dans divers benchmarks RM sans biais sévères, et pourrait atteindre de meilleures performances par rapport à la scalabilité au moment de l'entraînement. DeepSeek-GRM rencontre encore des défis dans certaines tâches, que nous croyons pouvoir être résolus par des efforts futurs dans les systèmes de récompense généralistes. Les modèles seront publiés et rendus open-source.
La synthèse de têtes parlantes est essentielle pour les avatars virtuels et l'interaction homme-machine. Cependant, la plupart des méthodes existantes se limitent généralement à accepter un contrôle à partir d'une seule modalité principale, ce qui restreint leur utilité pratique. À cette fin, nous présentons ACTalker, un framework de diffusion vidéo de bout en bout qui prend en charge à la fois le contrôle multi-signaux et le contrôle mono-signal pour la génération de vidéos de têtes parlantes. Pour le contrôle multiple, nous concevons une structure mamba parallèle avec plusieurs branches, chacune utilisant un signal de contrôle distinct pour manipuler des régions faciales spécifiques. Un mécanisme de porte est appliqué à travers toutes les branches, offrant un contrôle flexible sur la génération vidéo. Pour assurer une coordination naturelle de la vidéo contrôlée à la fois temporellement et spatialement, nous utilisons la structure mamba, qui permet aux signaux de contrôle de manipuler les tokens de caractéristiques dans les deux dimensions au sein de chaque branche. De plus, nous introduisons une stratégie de masque-drop qui permet à chaque signal de contrôle de manipuler indépendamment sa région faciale correspondante dans la structure mamba, évitant ainsi les conflits de contrôle. Les résultats expérimentaux démontrent que notre méthode produit des vidéos faciales naturelles pilotées par divers signaux et que la couche mamba intègre de manière fluide plusieurs modalités de contrôle sans conflit.
Cet article présente SkyReels-A2, un cadre de génération de vidéos contrôlable capable d'assembler des éléments visuels arbitraires (par exemple, des personnages, des objets, des arrière-plans) en vidéos synthétisées à partir d'invites textuelles tout en maintenant une cohérence stricte avec des images de référence pour chaque élément. Nous nommons cette tâche "éléments-vers-vidéo" (E2V), dont les principaux défis résident dans la préservation de la fidélité de chaque élément de référence, la garantie d'une composition cohérente de la scène et la production de résultats naturels. Pour y parvenir, nous concevons d'abord un pipeline de données complet pour construire des triplets invite-référence-vidéo destinés à l'entraînement du modèle. Ensuite, nous proposons un nouveau modèle d'embedding conjoint image-texte pour injecter des représentations multi-éléments dans le processus génératif, équilibrant la cohérence spécifique à chaque élément avec la cohérence globale et l'alignement textuel. Nous optimisons également le pipeline d'inférence pour la vitesse et la stabilité des sorties. De plus, nous introduisons un benchmark soigneusement conçu pour une évaluation systématique, appelé A2 Bench. Les expériences démontrent que notre cadre peut générer des vidéos diversifiées et de haute qualité avec un contrôle précis des éléments. SkyReels-A2 est le premier modèle open-source de qualité commerciale pour la génération d'E2V, surpassant favorablement les modèles commerciaux avancés propriétaires. Nous anticipons que SkyReels-A2 fera progresser les applications créatives telles que le théâtre et le commerce électronique virtuel, repoussant les limites de la génération de vidéos contrôlables.
Nous présentons la tâche complexe de création automatique d'articles de style Wikipédia de haut niveau, qui agrègent des informations provenant de multiples vidéos diverses sur des événements réels, tels que des catastrophes naturelles ou des élections politiques. Les vidéos constituent des sources intuitives pour la génération augmentée par la recherche (RAG), mais la plupart des workflows RAG contemporains se concentrent principalement sur le texte, et les méthodes existantes pour le résumé basé sur la vidéo se focalisent sur la compréhension de scènes de bas niveau plutôt que sur la sémantique d'événements de haut niveau. Pour combler cette lacune, nous introduisons WikiVideo, un benchmark composé d'articles rédigés par des experts et de vidéos annotées de manière dense, qui fournissent des preuves pour les affirmations des articles, facilitant ainsi l'intégration de la vidéo dans les pipelines RAG et permettant la création de contenu approfondi ancré dans des sources multimodales. Nous proposons également la Génération Collaborative d'Articles (CAG), une méthode interactive novatrice pour la création d'articles à partir de multiples vidéos. La CAG exploite une interaction itérative entre un modèle de raisonnement de style r1 et un VideoLLM pour tirer des inférences de plus haut niveau sur l'événement cible que ce qui est possible avec les VideoLLM seuls, qui se concentrent sur des caractéristiques visuelles de bas niveau. Nous évaluons les VideoLLM de pointe et la CAG dans des contextes de récupération oracle et de RAG, et constatons que la CAG surpasse systématiquement les méthodes alternatives, tout en suggérant des pistes intrigantes pour les travaux futurs.
L'apprentissage par renforcement (RL) a récemment démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles de langage et est désormais activement étendu aux modèles vision-langage (VLMs). Cependant, les applications existantes du RL dans les VLMs reposent souvent sur des cadres fortement ingénierisés qui entravent la reproductibilité et l'accessibilité, tout en manquant de protocoles d'évaluation standardisés, rendant difficile la comparaison des résultats ou l'interprétation des dynamiques d'apprentissage. Ce travail introduit un cadre transparent et construit à partir de zéro pour le RL dans les VLMs, proposant un pipeline minimal mais fonctionnel en quatre étapes validé sur plusieurs modèles et ensembles de données. En outre, un schéma d'évaluation standardisé est proposé pour évaluer les dynamiques d'apprentissage et les comportements réflexifs. Des expériences approfondies sur des tâches de raisonnement visuel révèlent des découvertes empiriques clés : la longueur des réponses est sensible aux graines aléatoires, la réflexion est corrélée à la longueur des sorties, et le RL surpasse systématiquement le réglage supervisé (SFT) en termes de généralisation, même avec des données de haute qualité. Ces découvertes, ainsi que le cadre proposé, visent à établir une base reproductible et à soutenir un engagement plus large dans la recherche sur les VLMs basés sur le RL.
L'analyse existante sur la mise à l'échelle des modèles de langage de parole (SLM) dresse un tableau sombre. Elle prédit que les SLM nécessitent beaucoup plus de calcul et de données par rapport aux modèles de texte, ce qui amène certains à remettre en question la faisabilité de l'entraînement de SLM de haute qualité. Cependant, les SLM modernes sont souvent initialisés à partir de modèles de langage de texte pré-entraînés (TextLM) en utilisant un entrelacement parole-texte pour permettre un transfert de connaissances. Cela soulève la question : les SLM entrelacés se mettent-ils à l'échelle plus efficacement que les SLM sans texte ? Dans cet article, nous répondons par un retentissant oui ! Nous menons une analyse de mise à l'échelle des SLM entrelacés en entraînant plusieurs dizaines de modèles et en examinant les tendances de mise à l'échelle. Nous constatons que, dans ce cadre, les SLM se mettent à l'échelle plus efficacement avec les ressources de calcul. De plus, nos résultats indiquent que les dynamiques de mise à l'échelle sont significativement différentes de celles des SLM sans texte, suggérant qu'il faudrait allouer nettement plus de budget de calcul pour augmenter la taille du modèle plutôt que le nombre de tokens d'entraînement. Nous étudions également le rôle des données synthétiques et des familles de modèles TextLM dans le déblocage de ce potentiel. Les résultats suggèrent que notre modèle mis à l'échelle atteint des performances comparables aux modèles leaders sur les métriques sémantiques de la parole, tout en utilisant moins de calcul et de données que d'autres approches. Nous rendons publics les modèles, les échantillons et les données - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
Les modèles de langage multimodaux de grande taille (MLLMs) souffrent de coûts de calcul élevés en raison de leur taille massive et du grand nombre de tokens visuels. Dans cet article, nous étudions la redondance couche par couche dans les MLLMs en introduisant une nouvelle métrique, la Contribution de Couche (LC), qui quantifie l'impact des transformations d'une couche sur les tokens visuels et textuels, respectivement. Le calcul de la LC implique de mesurer la divergence dans la sortie du modèle résultant de la suppression des transformations de la couche sur les tokens spécifiés. Notre expérience pilote révèle que de nombreuses couches des MLLMs présentent une contribution minimale lors du traitement des tokens visuels. Motivés par cette observation, nous proposons ShortV, une méthode sans entraînement qui exploite la LC pour identifier les couches inefficaces et gèle les mises à jour des tokens visuels dans ces couches. Les expériences montrent que ShortV peut geler les tokens visuels dans environ 60 % des couches des MLLMs, réduisant ainsi considérablement les coûts de calcul liés à la mise à jour des tokens visuels. Par exemple, il permet une réduction de 50 % des FLOPs sur LLaVA-NeXT-13B tout en maintenant des performances supérieures. Le code sera rendu public à l'adresse suivante : https://github.com/icip-cas/ShortV.
Les modèles de diffusion offrent un contrôle impressionnant pour les tâches de traitement d'images, principalement grâce à des prédictions de bruit qui encodent des informations spécifiques à la tâche et à un guidage sans classificateur permettant un ajustement d'échelle. Ce mécanisme d'échelle définit implicitement un « espace d'échelle » dont le potentiel pour une manipulation sémantique fine reste sous-exploré. Nous étudions cet espace, en commençant par l'édition basée sur l'inversion où la différence entre les prédictions de bruit conditionnelles et non conditionnelles porte des informations sémantiques clés. Notre contribution principale découle d'une analyse de Fourier des prédictions de bruit, révélant que ses composantes de basse et haute fréquence évoluent différemment tout au long de la diffusion. Sur la base de cette observation, nous introduisons FreSca, une méthode simple qui applique l'échelle de guidage indépendamment à différentes bandes de fréquence dans le domaine de Fourier. FreSca améliore de manière démontrable les méthodes d'édition d'images existantes sans nécessiter de réentraînement. Fait intéressant, son efficacité s'étend également aux tâches de compréhension d'images, telles que l'estimation de profondeur, produisant des gains quantitatifs sur plusieurs jeux de données.
La sélection de modèles est une étape cruciale dans la prévision de séries temporelles, nécessitant traditionnellement des évaluations de performance approfondies sur divers ensembles de données. Les approches de méta-apprentissage visent à automatiser ce processus, mais elles dépendent généralement de matrices de performance préconstruites, dont la création est coûteuse. Dans ce travail, nous proposons d'exploiter les modèles de langage de grande taille (LLMs) comme alternative légère pour la sélection de modèles. Notre méthode élimine le besoin de matrices de performance explicites en tirant parti des connaissances intrinsèques et des capacités de raisonnement des LLMs. À travers des expériences approfondies avec LLaMA, GPT et Gemini, nous démontrons que notre approche surpasse les techniques de méta-apprentissage traditionnelles et les bases heuristiques, tout en réduisant significativement la surcharge computationnelle. Ces résultats soulignent le potentiel des LLMs pour une sélection de modèles efficace dans la prévision de séries temporelles.
Depuis l'avènement des grands modèles de langage basés sur le raisonnement, de nombreux succès ont été obtenus en distillant les capacités de raisonnement dans des modèles étudiants. Ces techniques ont considérablement réduit l'écart entre les modèles de raisonnement et les grands modèles de langage standard pour les tâches de codage. Malgré cela, une grande partie des progrès en matière de distillation des modèles de raisonnement reste enfermée dans des ensembles de données propriétaires ou manque de détails sur la curation des données, le filtrage et l'entraînement subséquent. Pour remédier à cela, nous avons construit un ensemble de données de fine-tuning supervisé (SFT) de haute qualité, que nous utilisons pour atteindre des résultats de pointe en matière de capacités de codage pour des modèles de différentes tailles. Nos modèles distillés utilisent uniquement le SFT pour atteindre 61,8 % sur LiveCodeBench et 24,6 % sur CodeContests, surpassant les alternatives entraînées avec l'apprentissage par renforcement. Nous analysons ensuite les sources de données utilisées pour construire notre ensemble de données, l'impact du filtrage par exécution de code, et l'importance de la diversité des instructions/solutions. Nous observons que le filtrage par exécution a eu un effet négatif sur la précision des benchmarks, ce qui nous a amenés à privilégier la diversité des instructions plutôt que la correction des solutions. Enfin, nous analysons également l'efficacité des tokens et les schémas de raisonnement utilisés par ces modèles. Nous mettrons ces ensembles de données et modèles distillés à disposition de la communauté en open-source.
Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont montré qu'il est prometteur d'utiliser des modèles de récompense de processus (PRMs) comme vérificateurs pour améliorer les performances des LLMs. Cependant, les PRMs actuels rencontrent trois défis majeurs : (1) une supervision et des capacités de généralisation limitées du processus, (2) une dépendance à la prédiction de valeurs scalaires sans exploiter les capacités génératives des LLMs, et (3) une incapacité à augmenter la puissance de calcul au moment des tests des PRMs. Dans ce travail, nous introduisons GenPRM, un modèle de récompense de processus génératif qui effectue un raisonnement explicite en chaîne de pensée (CoT) avec vérification de code avant de fournir un jugement pour chaque étape de raisonnement. Pour obtenir des étiquettes de supervision de processus et des données de justification de haute qualité, nous proposons l'estimation relative de progression (RPE) et un cadre de synthèse de justification qui intègre la vérification de code. Les résultats expérimentaux sur ProcessBench et plusieurs tâches de raisonnement mathématique montrent que GenPRM surpasse significativement les PRMs précédents avec seulement 23K données d'entraînement provenant du jeu de données MATH. Grâce à l'augmentation de la puissance de calcul au moment des tests, un GenPRM de 1,5B surpasse GPT-4o, et un GenPRM de 7B dépasse Qwen2.5-Math-PRM-72B sur ProcessBench. De plus, GenPRM démontre de solides capacités à servir de modèle critique pour l'affinement des modèles de politique. Ce travail établit un nouveau paradigme pour la supervision de processus qui comble le fossé entre les PRMs et les modèles critiques dans les LLMs. Notre code, modèle et données seront disponibles sur https://ryanliu112.github.io/GenPRM.
Nous présentons les premières preuves mécanistes montrant que des agents d'apprentissage par renforcement sans modèle peuvent apprendre à planifier. Ce résultat est obtenu en appliquant une méthodologie basée sur l'interprétabilité conceptuelle à un agent sans modèle dans Sokoban -- un benchmark couramment utilisé pour étudier la planification. Plus précisément, nous démontrons que DRC, un agent générique sans modèle introduit par Guez et al. (2019), utilise des représentations conceptuelles apprises pour formuler en interne des plans qui prédisent à la fois les effets à long terme des actions sur l'environnement et influencent la sélection des actions. Notre méthodologie comprend : (1) la recherche de concepts pertinents pour la planification, (2) l'étude de la formation des plans au sein des représentations de l'agent, et (3) la vérification que les plans découverts (dans les représentations de l'agent) ont un effet causal sur le comportement de l'agent via des interventions. Nous montrons également que l'émergence de ces plans coïncide avec l'apparition d'une propriété similaire à la planification : la capacité à bénéficier de ressources de calcul supplémentaires lors des tests. Enfin, nous effectuons une analyse qualitative de l'algorithme de planification appris par l'agent et découvrons une forte ressemblance avec une recherche bidirectionnelle parallélisée. Nos résultats approfondissent la compréhension des mécanismes internes sous-jacents au comportement de planification chez les agents, ce qui est important compte tenu de la tendance récente à l'émergence de capacités de planification et de raisonnement dans les LLMs via l'apprentissage par renforcement.
La découverte scientifique est sur le point de connaître une avancée rapide grâce à la robotique avancée et à l'intelligence artificielle. Les pratiques scientifiques actuelles sont confrontées à des limitations substantielles, car l'expérimentation manuelle reste chronophage et gourmande en ressources, tandis que la recherche multidisciplinaire exige une intégration des connaissances qui dépasse les limites de l'expertise des chercheurs individuels. Ici, nous envisageons un concept de scientifique généraliste autonome (AGS) qui combine l'IA agentique et la robotique incarnée pour automatiser l'ensemble du cycle de recherche. Ce système pourrait interagir dynamiquement avec des environnements physiques et virtuels tout en facilitant l'intégration des connaissances à travers diverses disciplines scientifiques. En déployant ces technologies à chaque étape de la recherche — allant de la revue de littérature à la génération d'hypothèses, en passant par l'expérimentation et la rédaction de manuscrits — et en incorporant une réflexion interne ainsi que des retours externes, ce système vise à réduire considérablement le temps et les ressources nécessaires à la découverte scientifique. S'appuyant sur l'évolution des scientifiques virtuels en IA vers des robots scientifiques généralistes polyvalents basés sur l'IA, l'AGS promet un potentiel révolutionnaire. À mesure que ces systèmes autonomes s'intègrent de plus en plus dans le processus de recherche, nous émettons l'hypothèse que la découverte scientifique pourrait adhérer à de nouvelles lois d'échelle, potentiellement influencées par le nombre et les capacités de ces systèmes autonomes, offrant ainsi de nouvelles perspectives sur la manière dont les connaissances sont générées et évoluent. L'adaptabilité des robots incarnés à des environnements extrêmes, associée à l'effet de roue libre de l'accumulation des connaissances scientifiques, promet de repousser continuellement les frontières tant physiques qu'intellectuelles.
Le 3D Gaussian Splatting (3DGS) démontre une qualité supérieure et une vitesse de rendu exceptionnelle, mais nécessite des millions de Gaussiennes 3D, entraînant des coûts de stockage et de transmission significatifs. Les méthodes récentes de compression 3DGS se concentrent principalement sur la compression de Scaffold-GS, obtenant des performances impressionnantes mais avec une structure voxel supplémentaire et une stratégie d'encodage et de quantification complexe. Dans cet article, nous visons à développer une méthode simple mais efficace, appelée NeuralGS, qui explore une autre approche pour compresser le 3DGS original en une représentation compacte sans structure voxel ni stratégies de quantification complexes. Notre observation est que les champs neuronaux comme NeRF peuvent représenter des scènes 3D complexes avec des réseaux de neurones à perceptrons multicouches (MLP) en utilisant seulement quelques mégaoctets. Ainsi, NeuralGS adopte efficacement la représentation par champ neuronal pour encoder les attributs des Gaussiennes 3D avec des MLP, ne nécessitant qu'une petite taille de stockage même pour une scène à grande échelle. Pour y parvenir, nous utilisons une stratégie de clustering et ajustons les Gaussiennes avec différents petits MLP pour chaque cluster, en nous basant sur les scores d'importance des Gaussiennes comme poids d'ajustement. Nous expérimentons sur plusieurs ensembles de données, obtenant une réduction moyenne de la taille du modèle de 45 fois sans compromettre la qualité visuelle. La performance de compression de notre méthode sur le 3DGS original est comparable aux méthodes de compression dédiées basées sur Scaffold-GS, ce qui démontre le potentiel énorme de la compression directe du 3DGS original avec des champs neuronaux.
Les autoencodeurs parcimonieux (SAE) ont récemment démontré leur capacité à améliorer l'interprétabilité et la pilotabilité des grands modèles de langage (LLM). Dans ce travail, nous étendons l'application des SAE aux modèles vision-langage (VLM), tels que CLIP, et introduisons un cadre complet pour évaluer la monosémanticité dans les représentations visuelles. Nos résultats expérimentaux révèlent que les SAE entraînés sur des VLM améliorent significativement la monosémanticité des neurones individuels tout en présentant des représentations hiérarchiques qui s'alignent bien avec des structures définies par des experts (par exemple, la taxonomie iNaturalist). Plus particulièrement, nous démontrons que l'application des SAE pour intervenir sur un encodeur visuel de CLIP permet de piloter directement la sortie de modèles de langage multimodaux (par exemple, LLaVA) sans aucune modification du modèle sous-jacent. Ces résultats soulignent la praticabilité et l'efficacité des SAE en tant qu'approche non supervisée pour améliorer à la fois l'interprétabilité et le contrôle des VLM.
Les systèmes de reconnaissance automatique de la parole ont indéniablement progressé grâce à l'intégration de modèles multilingues et multitâches tels que Whisper, qui ont démontré une capacité prometteuse à comprendre et à traiter la parole dans un large éventail de langues. Malgré leur robustesse, ces modèles peinent souvent à gérer les distinctions linguistiques des langues minoritaires. Cette étude comble cette lacune en intégrant des modèles de langage traditionnels et novateurs avec des modèles Whisper affinés pour améliorer leurs performances dans les langues moins étudiées. Grâce à un affinage rigoureux et à une évaluation sur plusieurs jeux de données, nous démontrons des améliorations substantielles du taux d'erreur sur les mots, en particulier dans des scénarios à faibles ressources. Notre approche tire non seulement parti des vastes données sur lesquelles Whisper a été pré-entraîné, mais complète également son adaptabilité linguistique en incorporant des modèles de langage. Nous avons obtenu des améliorations allant jusqu'à 51 % pour les jeux de données en distribution et jusqu'à 34 % pour les phrases hors distribution en utilisant des modèles de langage statistiques, tandis que les grands modèles de langage ont fourni des améliorations modérées mais constamment robustes dans divers contextes linguistiques. Les résultats révèlent que, bien que l'intégration profite de manière fiable à toutes les tailles de modèles, l'ampleur de l'amélioration varie, soulignant l'importance des paramètres optimisés des modèles de langage. Enfin, nous insistons sur l'importance de sélectionner des paramètres d'évaluation appropriés lors de la communication des résultats avec des modèles ASR basés sur des transformeurs. En résumé, cette recherche ouvre la voie à des technologies ASR plus inclusives qui performent mieux à travers les langues en enrichissant leurs connaissances linguistiques. Pour plus de détails sur la mise en œuvre de cette étude, la documentation technique et le code source sont disponibles à l'adresse http://www.github.com/hitz-zentroa/whisper-lm.
Apprendre à générer des paramètres de réseaux de neurones conditionnés par des descriptions de tâches et des spécifications d'architecture est essentiel pour faire progresser l'adaptabilité des modèles et l'apprentissage par transfert. Les méthodes existantes, en particulier celles basées sur les modèles de diffusion, souffrent d'une scalabilité limitée pour les grandes architectures, d'une rigidité dans la gestion des profondeurs de réseau variables, et d'une génération de paramètres disjointe qui compromet la cohérence inter-couches. Dans ce travail, nous proposons IGPG (Instruction Guided Parameter Generation), un cadre autoregressif qui unifie la synthèse de paramètres pour diverses tâches et architectures. IGPG exploite un VQ-VAE et un modèle autoregressif pour générer des paramètres de réseaux de neurones, conditionnés par des instructions de tâche, des données et des détails d'architecture. En générant de manière autoregressive les tokens des poids du réseau de neurones, IGPG assure la cohérence inter-couches et permet une adaptation efficace à travers les modèles et les jeux de données. Opérant au niveau des tokens, IGPG capture efficacement les distributions complexes de paramètres agrégées à partir d'un large spectre de modèles pré-entraînés. Des expériences approfondies sur plusieurs ensembles de données visuelles démontrent qu'IGPG consolide divers modèles pré-entraînés en un seul cadre génératif flexible. Les paramètres synthétisés atteignent des performances compétitives ou supérieures par rapport aux méthodes de pointe, en particulier en termes de scalabilité et d'efficacité lorsqu'ils sont appliqués à de grandes architectures. Ces résultats soulignent le potentiel d'IGPG en tant qu'outil puissant pour la récupération de poids pré-entraînés, la sélection de modèles et l'ajustement fin rapide spécifique à une tâche.
La segmentation panoptique non supervisée vise à partitionner une image en régions sémantiquement significatives et en instances d'objets distinctes sans entraînement sur des données annotées manuellement. Contrairement aux travaux antérieurs sur la compréhension panoptique de scènes non supervisée, nous éliminons le besoin de données d'entraînement centrées sur les objets, permettant ainsi la compréhension non supervisée de scènes complexes. À cette fin, nous présentons la première méthode panoptique non supervisée qui s'entraîne directement sur des images centrées sur des scènes. En particulier, nous proposons une approche pour obtenir des pseudo-labels panoptiques haute résolution sur des données complexes centrées sur des scènes, en combinant des représentations visuelles, des informations de profondeur et des indices de mouvement. L'utilisation à la fois de l'entraînement sur pseudo-labels et d'une stratégie d'auto-entraînement panoptique donne naissance à une nouvelle approche qui prédit avec précision la segmentation panoptique de scènes complexes sans nécessiter aucune annotation humaine. Notre approche améliore significativement la qualité panoptique, surpassant par exemple l'état de l'art récent en segmentation panoptique non supervisée sur Cityscapes de 9,4 points de pourcentage en PQ.