Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons GLM-4.1V-Thinking, un modèle vision-langage (VLM) conçu pour faire progresser le raisonnement multimodal à usage général. Dans ce rapport, nous partageons nos principales découvertes dans le développement d'un cadre d'entraînement centré sur le raisonnement. Nous avons d'abord développé un modèle de base visuel performant avec un potentiel significatif grâce à un pré-entraînement à grande échelle, ce qui établit sans doute la limite supérieure des performances finales. L'apprentissage par renforcement avec échantillonnage curriculaire (RLCS) débloque ensuite le plein potentiel du modèle, conduisant à une amélioration globale des capacités sur une large gamme de tâches, incluant la résolution de problèmes STEM, la compréhension vidéo, la reconnaissance de contenu, le codage, l'ancrage, les agents basés sur des interfaces graphiques, et la compréhension de documents longs, entre autres. Pour faciliter la recherche dans ce domaine, nous rendons open-source GLM-4.1V-9B-Thinking, qui atteint des performances de pointe parmi les modèles de taille comparable. Dans une évaluation complète sur 28 benchmarks publics, notre modèle surpasse Qwen2.5-VL-7B sur presque toutes les tâches et obtient des performances comparables voire supérieures sur 18 benchmarks par rapport au modèle nettement plus grand Qwen2.5-VL-72B. Notamment, GLM-4.1V-9B-Thinking démontre également des performances compétitives ou supérieures par rapport aux modèles propriétaires tels que GPT-4o sur des tâches complexes incluant la compréhension de documents longs et le raisonnement STEM, soulignant davantage ses fortes capacités. Le code, les modèles et plus d'informations sont disponibles à l'adresse https://github.com/THUDM/GLM-4.1V-Thinking.
Le raisonnement mathématique est devenu l'emblème des progrès des grands modèles de langage (LLMs), avec de nouveaux modèles surpassant rapidement les performances humaines sur des benchmarks comme MATH et AIME. Mais alors que les classements en mathématiques s'améliorent de semaine en semaine, il est légitime de se demander : ces gains reflètent-ils une capacité de résolution de problèmes plus large ou simplement un surajustement étroit ? Pour répondre à cette question, nous évaluons plus de 20 modèles à poids ouvert spécialisés dans le raisonnement sur un large éventail de tâches, incluant les mathématiques, les questions-réponses scientifiques, la planification d'agents, le codage et le suivi d'instructions standard. Nous constatons, de manière surprenante, que la plupart des modèles qui réussissent en mathématiques ne parviennent pas à transférer leurs gains à d'autres domaines. Pour étudier rigoureusement ce phénomène, nous menons des expériences contrôlées sur les modèles Qwen3-14B en utilisant des données exclusivement mathématiques mais avec différentes méthodes de réglage. Nous découvrons que les modèles ajustés par apprentissage par renforcement (RL) généralisent bien à travers les domaines, tandis que les modèles ajustés par apprentissage supervisé (SFT) oublient souvent leurs capacités générales. Des analyses des représentations dans l'espace latent et des distributions dans l'espace des tokens révèlent que le SFT induit des dérives substantielles dans les représentations et les sorties, tandis que le RL préserve la structure générale du domaine. Nos résultats suggèrent la nécessité de repenser les recettes standard de post-formation, en particulier la dépendance aux données distillées par SFT pour faire progresser les modèles de raisonnement.
Nous présentons SciArena, une plateforme ouverte et collaborative pour l'évaluation des modèles de fondation sur des tâches liées à la littérature scientifique. Contrairement aux benchmarks traditionnels pour la compréhension et la synthèse de la littérature scientifique, SciArena implique directement la communauté de recherche, suivant l'approche d'évaluation de Chatbot Arena basée sur le vote communautaire pour les comparaisons de modèles. En tirant parti de l'intelligence collective, SciArena propose une évaluation communautaire des performances des modèles sur des tâches scientifiques ouvertes qui nécessitent des réponses longues et fondées sur la littérature. La plateforme prend actuellement en charge 23 modèles de fondation open-source et propriétaires et a recueilli plus de 13 000 votes de chercheurs de confiance issus de divers domaines scientifiques. Nous analysons les données collectées jusqu'à présent et confirmons que les questions soumises sont diversifiées, alignées sur les besoins réels de la littérature, et que les chercheurs participants démontrent une forte cohérence interne et un bon accord inter-annotateurs dans leurs évaluations. Nous discutons des résultats et des insights basés sur le classement des modèles. Pour promouvoir davantage la recherche sur la construction de systèmes d'évaluation automatisés basés sur des modèles pour les tâches de littérature, nous publions SciArena-Eval, un benchmark de méta-évaluation basé sur nos données de préférence collectées. Ce benchmark mesure la précision des modèles à juger la qualité des réponses en comparant leurs évaluations par paires avec les votes humains. Nos expériences mettent en lumière les défis du benchmark et soulignent la nécessité de méthodes d'évaluation automatisées plus fiables.
Les modèles d'embedding multimodaux, basés sur des modèles vision-langage (VLM) causaux, ont montré des résultats prometteurs dans diverses tâches. Cependant, les approches actuelles présentent trois limitations majeures : l'utilisation de l'attention causale dans les architectures VLM est sous-optimale pour les tâches d'embedding ; des problèmes de scalabilité dus à la dépendance envers des données appariées de haute qualité pour l'apprentissage contrastif ; et une diversité limitée dans les objectifs d'entraînement et les données. Pour résoudre ces problèmes, nous proposons MoCa, un cadre en deux étapes pour transformer des VLM pré-entraînés en modèles d'embedding multimodaux bidirectionnels efficaces. La première étape, le pré-entraînement continu avec prise en compte des modalités, introduit un objectif de reconstruction conjointe qui débruite simultanément les entrées entrelacées de texte et d'images, améliorant le raisonnement contextuel bidirectionnel. La deuxième étape, le fine-tuning contrastif hétérogène, exploite des données multimodales diversifiées et sémantiquement riches au-delà des simples paires image-légende pour améliorer la généralisation et l'alignement. Notre méthode aborde les limitations mentionnées en introduisant une attention bidirectionnelle via le pré-entraînement continu, en s'adaptant efficacement à des ensembles de données non labellisées massives grâce aux objectifs de reconstruction conjointe, et en utilisant des données multimodales variées pour renforcer la robustesse des représentations. Les expériences démontrent que MoCa améliore systématiquement les performances sur les benchmarks MMEB et ViDoRe-v2, établissant de nouveaux records, et montre une forte scalabilité tant en termes de taille de modèle que de données d'entraînement sur MMEB.
Les récents progrès des modèles de diffusion ont permis la génération de vidéos de haute qualité, mais la dimension temporelle supplémentaire augmente considérablement les coûts de calcul, rendant l'entraînement et l'inférence sur de longues vidéos prohibitivement coûteux. Dans cet article, nous identifions un phénomène que nous appelons la Décroissance d'Énergie Spatiotemporelle dans les modèles de diffusion vidéo : les scores d'attention post-softmax diminuent à mesure que la distance spatiale et temporelle entre les tokens augmente, similaire à la décroissance physique d'un signal ou d'ondes dans l'espace et le temps dans la nature. Motivés par cela, nous proposons l'Attention Radiale, un mécanisme d'attention parcimonieuse scalable avec une complexité O(n log n) qui traduit la décroissance d'énergie en une densité de calcul décroissante de manière exponentielle, ce qui est significativement plus efficace que l'attention dense standard O(n^2) et plus expressif que l'attention linéaire. Plus précisément, l'Attention Radiale utilise un masque d'attention simple et statique où chaque token s'intéresse aux tokens spatialement proches, avec la taille de la fenêtre d'attention rétrécissant avec la distance temporelle. De plus, elle permet aux modèles de diffusion vidéo pré-entraînés d'étendre leur longueur de génération avec un ajustement fin efficace basé sur LoRA. Des expériences approfondies montrent que l'Attention Radiale maintient la qualité vidéo sur Wan2.1-14B, HunyuanVideo et Mochi 1, atteignant jusqu'à une accélération de 1,9 fois par rapport à l'attention dense originale. Avec un réglage minimal, elle permet la génération de vidéos jusqu'à 4 fois plus longues tout en réduisant les coûts d'entraînement jusqu'à 4,4 fois par rapport à un ajustement fin direct et en accélérant l'inférence jusqu'à 3,7 fois par rapport à l'inférence par attention dense.
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) constituent des alternatives convaincantes aux modèles autorégressifs (AR), car leurs modèles de débruitage opèrent sur l'intégralité de la séquence. Les caractéristiques de planification globale et de raffinement itératif des dLLMs sont particulièrement utiles pour la génération de code. Cependant, les mécanismes actuels d'entraînement et d'inférence des dLLMs dans le domaine du codage restent encore peu explorés. Pour démystifier le comportement de décodage des dLLMs et libérer leur potentiel pour le codage, nous étudions systématiquement leurs processus de débruitage et les méthodes d'apprentissage par renforcement (RL). Nous entraînons un dLLM de 7B, DiffuCoder, sur 130B de tokens de code. En utilisant ce modèle comme banc d'essai, nous analysons son comportement de décodage, révélant en quoi il diffère de celui des modèles AR : (1) les dLLMs peuvent décider du degré de causalité de leur génération sans recourir à un décodage semi-AR, et (2) l'augmentation de la température d'échantillonnage diversifie non seulement les choix de tokens, mais aussi leur ordre de génération. Cette diversité crée un espace de recherche riche pour les déploiements RL. Pour l'entraînement RL, afin de réduire la variance des estimations de log-vraisemblance des tokens et de maintenir l'efficacité de l'entraînement, nous proposons coupled-GRPO, un nouveau schéma d'échantillonnage qui construit un bruit de masque complémentaire pour les complétions utilisées lors de l'entraînement. Dans nos expériences, coupled-GRPO améliore significativement les performances de DiffuCoder sur les benchmarks de génération de code (+4,4 % sur EvalPlus) et réduit la dépendance à la causalité AR lors du décodage. Notre travail offre un aperçu approfondi du mécanisme de génération des dLLMs et propose un cadre d'entraînement RL efficace et natif à la diffusion. https://github.com/apple/ml-diffucoder.
Les machines peuvent-elles véritablement penser, raisonner et agir dans des domaines comme les humains ? Cette question persistante continue de façonner la quête de l'Intelligence Artificielle Générale (IAG). Malgré les capacités croissantes de modèles tels que GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 et Grok 3, qui démontrent une fluidité multimodale et un raisonnement partiel, ces systèmes restent fondamentalement limités par leur dépendance à la prédiction au niveau des tokens et leur absence d'agencement ancré. Ce document propose une synthèse interdisciplinaire du développement de l'IAG, couvrant l'intelligence artificielle, les neurosciences cognitives, la psychologie, les modèles génératifs et les systèmes basés sur des agents. Nous analysons les fondements architecturaux et cognitifs de l'intelligence générale, en mettant en lumière le rôle du raisonnement modulaire, de la mémoire persistante et de la coordination multi-agents. En particulier, nous soulignons l'émergence des frameworks Agentic RAG qui combinent la récupération, la planification et l'utilisation dynamique d'outils pour permettre un comportement plus adaptatif. Nous discutons des stratégies de généralisation, y compris la compression d'information, l'adaptation au moment du test et les méthodes sans entraînement, comme des voies critiques vers une intelligence flexible et indépendante du domaine. Les modèles vision-langage (VLMs) sont réexaminés non seulement comme des modules de perception, mais aussi comme des interfaces évolutives pour la compréhension incarnée et l'accomplissement collaboratif de tâches. Nous soutenons également que la véritable intelligence ne découle pas uniquement de l'échelle, mais de l'intégration de la mémoire et du raisonnement : une orchestration de composants modulaires, interactifs et auto-améliorants où la compression permet un comportement adaptatif. En nous appuyant sur les avancées des systèmes neurosymboliques, de l'apprentissage par renforcement et de l'échafaudage cognitif, nous explorons comment les architectures récentes commencent à combler le fossé entre l'apprentissage statistique et la cognition dirigée par des objectifs. Enfin, nous identifions les principaux défis scientifiques, techniques et éthiques sur le chemin vers l'IAG.
Avec l'évolution rapide des modèles de langage multimodaux de grande envergure, la capacité à comprendre et interpréter profondément les intentions humaines est devenue une compétence critique, nécessitant un raisonnement détaillé et réfléchi. Dans les études récentes, l'apprentissage par renforcement (Reinforcement Learning, RL) a démontré un potentiel pour améliorer les capacités de raisonnement des modèles de langage de grande envergure (Large Language Models, LLMs). Cependant, les défis liés à l'adaptation du RL aux données et formats multimodaux restent largement non résolus. Dans cet article, nous identifions deux problèmes dans les modèles de raisonnement multimodaux existants : une compréhension insuffisante du contexte global et des problèmes de raccourcis. Une compréhension insuffisante du contexte peut survenir lorsqu'un modèle interprète mal le contexte multimodal, entraînant des réponses incorrectes. Le problème de raccourci se produit lorsque le modèle néglige des indices cruciaux dans les entrées multimodales, répondant directement à la requête sans tenir compte des informations multimodales. Pour résoudre ces problèmes, nous soulignons la nécessité pour le modèle de raisonner avec une compréhension claire du contexte global dans les entrées multimodales. Cette compréhension du contexte global peut efficacement empêcher le modèle de négliger des indices multimodaux clés et assurer un processus de raisonnement approfondi. Pour garantir l'interprétation précise des informations contextuelles multimodales, nous mettons en œuvre une récompense contextuelle jugée par un modèle de langage de grande envergure, ainsi que des récompenses de format et de précision. De plus, pour améliorer la capacité de raisonnement complexe, nous utilisons le LLM pour évaluer la récompense logique, déterminant si le processus de raisonnement intègre avec succès les informations multimodales avec des méthodes logiques. Nous introduisons également un benchmark de raisonnement omni-modal, IntentBench, visant à évaluer les modèles dans la compréhension des intentions et émotions humaines complexes. Notre méthode proposée démontre des performances avancées sur plusieurs benchmarks omni-modaux par rapport à d'autres modèles omni-modaux open-source.
La segmentation amodale et la complétion de contenu amodal nécessitent l'utilisation de connaissances a priori sur les objets pour estimer les masques occlus et les caractéristiques des objets dans des scènes complexes. Jusqu'à présent, aucune donnée n'a fourni une dimension supplémentaire pour le contexte des objets : la possibilité de plusieurs caméras partageant une vue d'une même scène. Nous présentons MOVi-MC-AC : Multiple Object Video with Multi-Cameras and Amodal Content, le plus grand ensemble de données de segmentation amodale et le premier ensemble de données de contenu amodal à ce jour. Des scènes encombrées d'objets domestiques génériques sont simulées dans des vidéos multi-caméras. MOVi-MC-AC contribue à la littérature croissante sur la détection, le suivi et la segmentation d'objets en incluant deux nouvelles contributions au monde de l'apprentissage profond pour la vision par ordinateur. Les configurations à plusieurs caméras (MC), où les objets peuvent être identifiés et suivis entre différentes perspectives uniques de caméras, sont rares dans les vidéos synthétiques et réelles. Nous introduisons une nouvelle complexité dans les vidéos synthétiques en fournissant des identifiants d'objets cohérents pour les détections et les segmentations entre les images et plusieurs caméras, chacune avec des caractéristiques et des motifs de mouvement uniques sur une seule scène. Le contenu amodal (AC) est une tâche de reconstruction dans laquelle les modèles prédisent l'apparence des objets cibles à travers les occlusions. Dans la littérature sur la segmentation amodale, certains ensembles de données ont été publiés avec des étiquettes de détection, de suivi et de segmentation amodaux. Alors que d'autres méthodes reposent sur des schémas lents de copier-coller pour générer des pseudo-étiquettes de contenu amodal, elles ne prennent pas en compte les occlusions naturelles présentes dans les masques modaux. MOVi-MC-AC fournit des étiquettes pour environ 5,8 millions d'instances d'objets, établissant un nouveau maximum dans la littérature des ensembles de données amodaux, tout en étant le premier à fournir un contenu amodal de référence. L'ensemble de données complet est disponible à l'adresse suivante : https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables en raisonnement visuel pour les images naturelles, les documents riches en texte et les conceptions graphiques. Cependant, leur aptitude à interpréter les partitions musicales reste peu explorée. Pour combler cette lacune, nous introduisons MusiXQA, le premier ensemble de données complet pour évaluer et faire progresser les MLLMs dans la compréhension des partitions musicales. MusiXQA propose des partitions de haute qualité générées via MusiXTeX, avec des annotations structurées couvrant la hauteur et la durée des notes, les accords, les clés, les signatures de tonalité et de mesure, ainsi que le texte, permettant ainsi des tâches variées de question-réponse visuelle. À travers des évaluations approfondies, nous révélons des limitations significatives des MLLMs actuels les plus performants dans ce domaine. Au-delà du benchmarking, nous avons développé Phi-3-MusiX, un MLLM affiné sur notre ensemble de données, obtenant des gains de performance significatifs par rapport aux méthodes basées sur GPT. L'ensemble de données et le modèle proposés établissent une base pour les avancées futures des MLLMs dans la compréhension des partitions musicales. Le code, les données et le modèle seront publiés après acceptation.
Les données sont fondamentales pour l'entraînement des modèles de langage (LM). Des recherches récentes se sont consacrées à l'efficacité des données, qui vise à maximiser les performances en sélectionnant un sous-ensemble minimal ou optimal de données d'entraînement. Des techniques telles que le filtrage, l'échantillonnage et la sélection des données jouent un rôle crucial dans ce domaine. Pour compléter cette approche, nous définissons l'Efficacité des Données, qui se concentre sur la maximisation des performances en optimisant l'organisation des données d'entraînement et reste relativement peu explorée. Ce travail introduit un paradigme général, DELT, pour considérer l'efficacité des données dans l'entraînement des LM, mettant en lumière l'importance de l'organisation des données d'entraînement. DELT comprend trois composantes : l'Évaluation des Données, la Sélection des Données et l'Ordonnancement des Données. Parmi ces composantes, nous concevons l'Évaluation Apprenabilité-Qualité (LQS), comme une nouvelle instance d'Évaluation des Données, qui prend en compte à la fois l'apprenabilité et la qualité de chaque échantillon de données du point de vue de la cohérence des gradients. Nous élaborons également l'Ordonnancement par Pliage (FO), comme une nouvelle instance d'Ordonnancement des Données, qui aborde des problèmes tels que l'oubli du modèle et le biais de distribution des données. Des expériences approfondies valident l'efficacité des données dans l'entraînement des LM, démontrant les points suivants : Premièrement, diverses instances du DELT proposé améliorent les performances des LM à des degrés divers sans augmenter l'échelle des données ni la taille du modèle. Deuxièmement, parmi ces instances, la combinaison de notre LQS proposé pour l'évaluation des données et du Pliage pour l'ordonnancement des données obtient l'amélioration la plus significative. Enfin, l'efficacité des données peut être atteinte conjointement avec l'efficience des données en appliquant la sélection des données. Par conséquent, nous croyons que l'efficacité des données est un domaine fondamental prometteur dans l'entraînement des LM.
Les récents progrès dans les modèles de génération vidéo ont permis la création de vidéos courtes de haute qualité à partir de prompts textuels. Cependant, étendre ces modèles à des vidéos plus longues reste un défi majeur, principalement en raison de la dégradation de la cohérence temporelle et de la fidélité visuelle. Nos observations préliminaires montrent qu'appliquer naïvement les modèles de génération de vidéos courtes à des séquences plus longues entraîne une détérioration notable de la qualité. Une analyse plus approfondie révèle une tendance systématique où les composantes haute fréquence deviennent de plus en plus distordues à mesure que la longueur de la vidéo augmente, un problème que nous appelons distorsion haute fréquence. Pour y remédier, nous proposons FreeLong, un cadre sans entraînement conçu pour équilibrer la distribution de fréquence des caractéristiques des vidéos longues pendant le processus de débruitage. FreeLong y parvient en mélangeant des caractéristiques globales basse fréquence, qui capturent la sémantique holistique de la vidéo entière, avec des caractéristiques locales haute fréquence extraites de fenêtres temporelles courtes pour préserver les détails fins. Sur cette base, FreeLong++ étend la conception à double branche de FreeLong en une architecture multi-branches avec plusieurs branches d'attention, chacune opérant à une échelle temporelle distincte. En organisant plusieurs tailles de fenêtres du global au local, FreeLong++ permet une fusion multi-bandes de fréquences, des basses aux hautes fréquences, assurant à la fois la continuité sémantique et la dynamique fine des mouvements sur des séquences vidéo plus longues. Sans aucun entraînement supplémentaire, FreeLong++ peut être intégré dans des modèles de génération vidéo existants (par exemple, Wan2.1 et LTX-Video) pour produire des vidéos plus longues avec une cohérence temporelle et une fidélité visuelle nettement améliorées. Nous démontrons que notre approche surpasse les méthodes précédentes dans les tâches de génération de vidéos longues (par exemple, 4x et 8x de la longueur native). Elle prend également en charge la génération cohérente de vidéos multi-prompts avec des transitions de scène fluides et permet une génération vidéo contrôlée en utilisant des séquences longues de profondeur ou de pose.
Les modèles vision-langage (VLMs) excellent dans les tâches descriptives, mais leur capacité à véritablement comprendre les scènes à partir d'observations visuelles reste incertaine. Nous présentons IR3D-Bench, un benchmark qui met au défi les VLMs de démontrer leur compréhension par la création active plutôt que par la reconnaissance passive. Fondé sur le paradigme de l'analyse par synthèse, IR3D-Bench confie aux agents vision-langage (VLAs) la tâche d'utiliser activement des outils de programmation et de rendu pour recréer la structure 3D sous-jacente d'une image d'entrée, réalisant ainsi un rendu inverse agentique par l'utilisation d'outils. Cette approche de "compréhension par création" explore la capacité générative des VLAs à utiliser des outils, allant au-delà de la capacité descriptive ou conversationnelle mesurée par les benchmarks traditionnels de compréhension de scènes. Nous proposons une suite complète de métriques pour évaluer la précision géométrique, les relations spatiales, les attributs d'apparence et la plausibilité globale. Les expériences initiales sur le rendu inverse agentique alimenté par divers VLMs de pointe mettent en lumière les limitations actuelles, notamment en termes de précision visuelle plutôt que d'utilisation basique des outils. IR3D-Bench, incluant les données et protocoles d'évaluation, est rendu public pour faciliter l'étude systématique et le développement des VLAs utilisant des outils vers une véritable compréhension de scènes par la création.
Un rapport de l'Agence de l'Union européenne pour l'application de la loi prévoit que d'ici 2026, jusqu'à 90 % du contenu en ligne pourrait être généré de manière synthétique, suscitant des inquiétudes parmi les décideurs politiques. Ces derniers ont averti que "l'IA générative pourrait agir comme un multiplicateur de force pour la désinformation politique. L'effet combiné du texte, des images, des vidéos et de l'audio générés pourrait surpasser l'influence de toute modalité unique." En réponse, la loi californienne AB 3211 impose le marquage par filigrane des images, vidéos et audio générés par IA. Cependant, des préoccupations subsistent concernant la vulnérabilité des techniques de filigrane invisible à la falsification et la possibilité que des acteurs malveillants les contournent entièrement. Les attaques de défiligranage alimentées par l'IA générative, en particulier la nouvelle attaque de paraphrase visuelle, ont démontré une capacité à supprimer complètement les filigranes, aboutissant à une paraphrase de l'image originale. Cet article présente PECCAVI, la première technique de filigranage d'images résistante aux attaques de paraphrase visuelle et sans distorsion. Dans les attaques de paraphrase visuelle, une image est modifiée tout en préservant ses régions sémantiques centrales, appelées Points Non Fondus (NMPs). PECCAVI intègre stratégiquement les filigranes dans ces NMPs et utilise un marquage dans le domaine fréquentiel multi-canal. Il intègre également un brûlage bruyant pour contrer les efforts de rétro-ingénierie visant à localiser les NMPs afin de perturber le filigrane intégré, améliorant ainsi la durabilité. PECCAVI est indépendant du modèle. Toutes les ressources et codes pertinents seront rendus open-source.
Les grands modèles de langage (LLMs) excellent dans les tâches complexes grâce à des techniques de sollicitation avancées telles que la Chaîne de Pensée (Chain-of-Thought, CoT) et l'Arbre de Pensée (Tree-of-Thought, ToT). Cependant, leur dépendance à des prompts spécifiques et manuellement conçus limite leur adaptabilité et leur efficacité. Nous introduisons le Mélange de Raisonnement (Mixture of Reasoning, MoR), un cadre d'entraînement qui intègre des stratégies de raisonnement diversifiées dans les LLMs pour un raisonnement autonome et adaptatif aux tâches, sans nécessiter d'ingénierie de prompts externe. MoR se déroule en deux phases : la Génération de Pensée, qui crée des modèles de chaînes de raisonnement avec des modèles comme GPT-4o, et la Construction de Jeu de Données pour l'Apprentissage Supervisé (SFT Dataset Construction), qui associe ces modèles à des ensembles de données de référence pour un ajustement fin supervisé. Nos expériences montrent que MoR améliore significativement les performances, avec MoR150 atteignant 0,730 (une amélioration de 2,2 %) en utilisant la sollicitation CoT et 0,734 (une amélioration de 13,5 %) par rapport aux bases de référence. MoR élimine le besoin de prompts spécifiques à la tâche, offrant une solution généralisable pour un raisonnement robuste dans diverses tâches.
Nous présentons Ella, un agent social incarné capable d'apprentissage continu au sein d'une communauté dans un monde ouvert en 3D, où les agents accumulent des expériences et acquièrent des connaissances grâce à des observations visuelles quotidiennes et des interactions sociales. Au cœur des capacités d'Ella se trouve un système de mémoire multimodale structurée et à long terme qui stocke, met à jour et récupère efficacement les informations. Il est composé d'une mémoire sémantique centrée sur les noms pour organiser les connaissances acquises et d'une mémoire épisodique spatio-temporelle pour capturer les expériences multimodales. En intégrant ce système de mémoire continue avec des modèles de base, Ella récupère des informations pertinentes pour la prise de décision, planifie des activités quotidiennes, construit des relations sociales et évolue de manière autonome tout en coexistant avec d'autres êtres intelligents dans le monde ouvert. Nous menons des évaluations orientées sur les capacités dans un monde ouvert dynamique en 3D où 15 agents participent à des activités sociales pendant plusieurs jours et sont évalués à l'aide d'une série de tests contrôlés inédits. Les résultats expérimentaux montrent qu'Ella peut influencer, diriger et coopérer efficacement avec d'autres agents pour atteindre des objectifs, démontrant ainsi sa capacité à apprendre efficacement par l'observation et l'interaction sociale. Nos résultats mettent en lumière le potentiel transformateur de la combinaison de systèmes de mémoire structurés avec des modèles de base pour faire progresser l'intelligence incarnée. Plus de vidéos sont disponibles à l'adresse suivante : https://umass-embodied-agi.github.io/Ella/.
La modélisation précise des matériaux est cruciale pour atteindre un rendu photoréaliste, comblant ainsi l'écart entre les images générées par ordinateur et les photographies du monde réel. Alors que les approches traditionnelles s'appuient sur des données tabulées de BRDF, les travaux récents se sont orientés vers des représentations neuronales implicites, offrant des cadres compacts et flexibles pour une variété de tâches. Cependant, leur comportement dans le domaine fréquentiel reste mal compris. Pour remédier à cela, nous introduisons FreNBRDF, une représentation neuronale de matériaux rectifiée en fréquence. En exploitant les harmoniques sphériques, nous intégrons des considérations du domaine fréquentiel dans la modélisation neuronale des BRDF. Nous proposons une nouvelle fonction de perte rectifiée en fréquence, dérivée d'une analyse fréquentielle des matériaux neuronaux, et l'intégrons dans un pipeline de reconstruction et d'édition généralisable et adaptatif. Ce cadre améliore la fidélité, l'adaptabilité et l'efficacité. Des expériences approfondies démontrent que \ours améliore la précision et la robustesse de la reconstruction et de l'édition de l'apparence des matériaux par rapport aux méthodes de référence actuelles, permettant des tâches et applications en aval plus structurées et interprétables.
Le 3D Gaussian Splatting permet un rendu en temps réel de haute qualité, mais génère souvent des millions de splats, entraînant un surcoût de stockage et de calcul excessif. Nous proposons une nouvelle méthode de compression avec perte basée sur des scores de confiance apprenables modélisés par des distributions Beta. La confiance de chaque splat est optimisée via des pertes sensibles à la reconstruction, permettant l'élagage des splats à faible confiance tout en préservant la fidélité visuelle. L'approche proposée est indépendante de l'architecture et peut être appliquée à toute variante de Gaussian Splatting. De plus, les valeurs moyennes de confiance servent de nouvelle métrique pour évaluer la qualité de la scène. Des expériences approfondies démontrent des compromis favorables entre compression et fidélité par rapport aux travaux antérieurs. Notre code et nos données sont disponibles publiquement à l'adresse suivante : https://github.com/amirhossein-razlighi/Confident-Splatting