papers.description
Les modèles de langage de grande taille (LLMs) sont devenus une infrastructure essentielle pour l'intelligence artificielle générale (AGI), mais leur manque de systèmes de gestion de mémoire bien définis entrave le développement du raisonnement à long contexte, de la personnalisation continue et de la cohérence des connaissances. Les modèles existants reposent principalement sur des paramètres statiques et des états contextuels de courte durée, limitant leur capacité à suivre les préférences des utilisateurs ou à mettre à jour les connaissances sur de longues périodes. Bien que la génération augmentée par récupération (RAG) introduise des connaissances externes sous forme de texte brut, elle reste une solution sans état, sans contrôle du cycle de vie ni intégration avec des représentations persistantes. Des travaux récents ont modélisé les coûts d'entraînement et d'inférence des LLMs sous l'angle de la hiérarchie mémoire, montrant que l'introduction d'une couche mémoire explicite entre la mémoire des paramètres et la récupération externe peut réduire considérablement ces coûts en externalisant des connaissances spécifiques. Au-delà de l'efficacité computationnelle, les LLMs sont confrontés à des défis plus larges liés à la distribution de l'information dans le temps et le contexte, nécessitant des systèmes capables de gérer des connaissances hétérogènes couvrant différentes échelles temporelles et sources. Pour relever ce défi, nous proposons MemOS, un système d'exploitation de la mémoire qui traite la mémoire comme une ressource système gérable. Il unifie la représentation, la planification et l'évolution des mémoires en texte brut, basées sur l'activation et au niveau des paramètres, permettant un stockage et une récupération économiques. En tant qu'unité de base, un MemCube encapsule à la fois le contenu de la mémoire et des métadonnées telles que la provenance et le versionnage. Les MemCubes peuvent être composés, migrés et fusionnés au fil du temps, permettant des transitions flexibles entre les types de mémoire et reliant la récupération à l'apprentissage basé sur les paramètres. MemOS établit un cadre système centré sur la mémoire qui apporte contrôlabilité, plasticité et évolutivité aux LLMs, posant les bases de l'apprentissage continu et de la modélisation personnalisée.
L'apprentissage de représentations textuelles de haute qualité est fondamental pour une large gamme de tâches en traitement automatique du langage naturel (TALN). Bien que le pré-entraînement des encodeurs ait traditionnellement reposé sur le modèle de langage masqué (MLM), des preuves récentes suggèrent que les modèles décodeurs pré-entraînés avec le modèle de langage causal (CLM) peuvent être efficacement réutilisés comme encodeurs, surpassant souvent les encodeurs traditionnels sur les benchmarks de représentation textuelle. Cependant, il reste incertain si ces gains reflètent un avantage intrinsèque de l'objectif CLM ou découlent de facteurs confondants tels que l'échelle du modèle et des données. Dans cet article, nous abordons cette question à travers une série d'ablation de pré-entraînement à grande échelle et soigneusement contrôlées, entraînant un total de 30 modèles allant de 210 millions à 1 milliard de paramètres, et effectuant plus de 15 000 exécutions de fine-tuning et d'évaluation. Nous constatons que bien que l'entraînement avec MLM donne généralement de meilleures performances sur les tâches de représentation textuelle, les modèles entraînés avec CLM sont plus efficaces en termes de données et démontrent une meilleure stabilité lors du fine-tuning. Sur la base de ces résultats, nous montrons expérimentalement qu'une stratégie d'entraînement biphasique qui applique séquentiellement CLM puis MLM, atteint des performances optimales sous un budget de calcul d'entraînement fixe. De plus, nous démontrons que cette stratégie devient plus attrayante lors de l'initialisation à partir de modèles CLM pré-entraînés facilement disponibles (provenant de l'écosystème existant des LLM), réduisant ainsi la charge de calcul nécessaire pour entraîner des modèles encodeurs de classe mondiale. Nous publions tous les artefacts du projet à l'adresse https://hf.co/MLMvsCLM pour favoriser des recherches ultérieures.
Alors que les agents linguistiques s'attaquent à des tâches de plus en plus complexes, ils peinent à corriger efficacement les erreurs et à réutiliser leurs expériences à travers différents domaines. Nous présentons Agent KB, un cadre hiérarchique d'expérience qui permet la résolution complexe de problèmes par le biais d'un nouveau pipeline Raisonner-Récupérer-Raffiner. Agent KB répond à une limitation fondamentale : traditionnellement, les agents ne peuvent pas apprendre des expériences des autres. En capturant à la fois des stratégies de haut niveau et des journaux d'exécution détaillés, Agent KB crée une base de connaissances partagée qui facilite le transfert de connaissances entre agents. Évalué sur le benchmark GAIA, Agent KB améliore les taux de réussite jusqu'à 16,28 points de pourcentage. Sur les tâches les plus difficiles, Claude-3 passe de 38,46 % à 57,69 %, tandis que GPT-4 progresse de 53,49 % à 73,26 % sur les tâches intermédiaires. Sur la réparation de code SWE-bench, Agent KB permet à Claude-3 d'améliorer son taux de réussite de 41,33 % à 53,33 %. Nos résultats suggèrent qu'Agent KB fournit une infrastructure modulaire et indépendante du cadre, permettant aux agents d'apprendre des expériences passées et de généraliser des stratégies réussies à de nouvelles tâches.
Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes sur des tâches générales, mais leur adaptation à des domaines spécifiques reste un défi en raison de la rareté de données de haute qualité dans ces domaines. Les outils existants de synthèse de données peinent souvent à extraire efficacement des données de fine-tuning à partir de documents hétérogènes. Pour pallier cette limitation, nous proposons Easy Dataset, un cadre unifié pour synthétiser des données de fine-tuning à partir de documents non structurés via une interface graphique intuitive (GUI). Plus précisément, Easy Dataset permet aux utilisateurs de configurer facilement des modèles d'extraction de texte et des stratégies de découpage pour transformer des documents bruts en segments de texte cohérents. Il utilise ensuite une approche de génération de questions-réponses pilotée par des personas, en s'appuyant sur des LLMs publics. Tout au long du processus, une interface visuelle avec intervention humaine facilite la révision et l'amélioration des résultats intermédiaires pour garantir la qualité des données. Des expériences sur une tâche de question-réponse financière montrent que le fine-tuning des LLMs sur le jeu de données synthétisé améliore significativement les performances spécifiques au domaine tout en préservant les connaissances générales. Le code source et le package installable sont disponibles à l'adresse https://github.com/ConardLi/easy-dataset et ont recueilli plus de 9 000 étoiles sur GitHub.
Les récentes avancées dans les modèles vision-langage-action (VLA) ont montré des résultats prometteurs dans l'intégration de la génération d'images avec la prédiction d'actions pour améliorer la généralisation et le raisonnement dans la manipulation robotique. Cependant, les méthodes existantes se limitent à des prévisions basées sur des images, qui souffrent d'informations redondantes et manquent de connaissances globales et critiques sur le monde, incluant des informations dynamiques, spatiales et sémantiques. Pour pallier ces limitations, nous proposons DreamVLA, un nouveau cadre VLA qui intègre une prévision complète des connaissances du monde pour permettre une modélisation de la dynamique inverse, établissant ainsi une boucle perception-prédiction-action pour les tâches de manipulation. Plus précisément, DreamVLA introduit une prédiction des connaissances du monde guidée par des régions dynamiques, intégrée avec des indices spatiaux et sémantiques, fournissant des représentations compactes mais complètes pour la planification des actions. Cette conception s'aligne sur la manière dont les humains interagissent avec le monde en formant d'abord des chaînes de raisonnement multimodales abstraites avant d'agir. Pour atténuer les interférences entre les informations dynamiques, spatiales et sémantiques pendant l'entraînement, nous adoptons un mécanisme d'attention structurée par blocs qui masque leur attention mutuelle, empêchant la fuite d'informations et maintenant chaque représentation propre et désenchevêtrée. De plus, pour modéliser la distribution conditionnelle sur les actions futures, nous utilisons un transformeur basé sur la diffusion qui désenchevêtre les représentations d'actions des caractéristiques latentes partagées. Des expériences approfondies sur des environnements réels et de simulation démontrent que DreamVLA atteint un taux de réussite de 76,7 % sur des tâches robotiques réelles et une longueur moyenne de 4,44 sur les benchmarks CALVIN ABC-D.
La reconstruction de scènes à dynamique rapide à partir de vidéos multi-vues est cruciale pour l'analyse de mouvements à haute vitesse et la reconstruction réaliste en 4D. Cependant, la majorité des systèmes de capture 4D sont limités à des fréquences d'images inférieures à 30 FPS (images par seconde), et une reconstruction 4D directe de mouvements à haute vitesse à partir d'une entrée à faible FPS peut conduire à des résultats indésirables. Dans ce travail, nous proposons un système de capture 4D à haute vitesse utilisant uniquement des caméras à faible FPS, grâce à des modules innovants de capture et de traitement. Du côté de la capture, nous proposons un schéma de capture asynchrone qui augmente la fréquence d'images effective en décalant les temps de démarrage des caméras. En regroupant les caméras et en exploitant une fréquence d'images de base de 25 FPS, notre méthode atteint une fréquence d'images équivalente de 100 à 200 FPS sans nécessiter de caméras spécialisées à haute vitesse. Du côté du traitement, nous proposons également un nouveau modèle génératif pour corriger les artefacts causés par la reconstruction 4D à vues éparses, car l'asynchronie réduit le nombre de points de vue à chaque instant. Plus précisément, nous proposons d'entraîner un modèle de correction d'artefacts basé sur la diffusion vidéo pour la reconstruction 4D éparse, qui affine les détails manquants, maintient la cohérence temporelle et améliore la qualité globale de la reconstruction. Les résultats expérimentaux démontrent que notre méthode améliore significativement la reconstruction 4D à haute vitesse par rapport à la capture synchrone.
Nous proposons une nouvelle perspective sur la modélisation des récompenses en la formulant comme un discriminateur de politiques, qui quantifie la différence entre deux politiques pour générer un signal de récompense, guidant ainsi la politique d’apprentissage vers une politique cible présentant des comportements souhaités. Sur la base de cette intuition conceptuelle, nous proposons une méthode de pré-entraînement scalable nommée **Policy Discriminative Learning (POLAR)**, qui entraîne un modèle de récompense (RM) à distinguer les politiques identiques et à discriminer celles qui diffèrent. Contrairement aux méthodes traditionnelles de modélisation des récompenses qui reposent sur des préférences absolues, POLAR capture la différence relative entre une politique et une politique cible arbitraire, ce qui constitue un objectif d’optimisation de haut niveau et scalable, adapté à la modélisation de relations de classement génériques. En exploitant le paradigme de pré-entraînement POLAR, nous présentons une série de RM avec des échelles de paramètres allant de 1,8 milliard à 7 milliards. Les résultats empiriques montrent que POLAR surpasse largement les méthodes traditionnelles non pré-entraînées, améliorant significativement les performances des RM. Par exemple, POLAR-7B pourrait améliorer la précision des préférences de 54,8 % à 81,0 % sur les tâches STEM et de 57,9 % à 85,5 % sur les tâches de rédaction créative par rapport aux baselines SOTA. POLAR démontre également des capacités de généralisation robustes dans le cadre du RLHF utilisant le **Reinforcement Fine-tuning (RFT)**, fournissant des signaux de récompense fiables et améliorant notablement les performances des politiques—augmentant LLaMa3.1-8B d’une moyenne de 47,36 % à 56,33 % et Qwen2.5-32B de 64,49 % à 70,47 % sur 20 benchmarks. De plus, les expériences de mise à l’échelle révèlent une relation claire de loi de puissance entre le calcul et les performances, soutenue par des coefficients de corrélation linéaire approchant 0,99. Les performances impressionnantes, la forte généralisation et les propriétés de mise à l’échelle suggèrent que POLAR constitue une direction prometteuse pour le développement de modèles de récompense généraux et performants.
Nous présentons RoboBrain 2.0, notre dernière génération de modèles de base vision-langage incarnés, conçus pour unifier la perception, le raisonnement et la planification dans le cadre de tâches complexes en environnements physiques. Il est disponible en deux variantes : un modèle léger de 7 milliards de paramètres (7B) et un modèle complet de 32 milliards de paramètres (32B), doté d'une architecture hétérogène comprenant un encodeur visuel et un modèle de langage. Malgré sa taille compacte, RoboBrain 2.0 obtient des performances solides sur un large éventail de tâches de raisonnement incarné. Sur les benchmarks spatiaux et temporels, la variante 32B atteint des résultats de pointe, surpassant les modèles open-source et propriétaires précédents. En particulier, il prend en charge des capacités clés de l'IA incarnée pour le monde réel, notamment la compréhension spatiale (par exemple, prédiction d'affordance, référencement spatial, prévision de trajectoire) et la prise de décision temporelle (par exemple, interaction en boucle fermée, planification à long horizon multi-agent et mise à jour de graphes de scène). Ce rapport détaille l'architecture du modèle, la construction des données, les stratégies d'entraînement multi-étapes, l'infrastructure et les applications pratiques. Nous espérons que RoboBrain 2.0 fera progresser la recherche en IA incarnée et constituera une étape pratique vers la construction d'agents incarnés généralistes. Le code, le point de contrôle et les benchmarks sont disponibles à l'adresse https://superrobobrain.github.io.
Récemment, des progrès significatifs ont été réalisés dans la génération de texte-à-vidéo (T2V) grâce à la mise à l'échelle de modèles de diffusion basés sur des transformateurs atteignant des milliards de paramètres, capables de produire des vidéos de haute qualité. Cependant, les modèles existants génèrent généralement uniquement de courts clips hors ligne, limitant ainsi leurs cas d'utilisation dans des applications interactives et en temps réel. Cet article aborde ces défis en proposant StreamDiT, un modèle de génération de vidéo en streaming. L'entraînement de StreamDiT repose sur l'appariement de flux en ajoutant un tampon mobile. Nous concevons un entraînement mixte avec différents schémas de partitionnement des images tamponnées pour améliorer à la fois la cohérence du contenu et la qualité visuelle. La modélisation de StreamDiT est basée sur adaLN DiT avec un encodage temporel variable et une attention par fenêtre. Pour mettre en pratique la méthode proposée, nous entraînons un modèle StreamDiT avec 4 milliards de paramètres. De plus, nous proposons une méthode de distillation en plusieurs étapes adaptée à StreamDiT. La distillation d'échantillonnage est effectuée dans chaque segment d'un schéma de partitionnement choisi. Après distillation, le nombre total d'évaluations de fonctions (NFEs) est réduit au nombre de segments dans un tampon. Enfin, notre modèle distillé atteint des performances en temps réel à 16 images par seconde sur un seul GPU, capable de générer des flux vidéo à une résolution de 512p. Nous évaluons notre méthode à la fois par des métriques quantitatives et par une évaluation humaine. Notre modèle permet des applications en temps réel, telles que la génération en streaming, la génération interactive et la vidéo-à-vidéo. Nous fournissons des résultats vidéo et d'autres exemples sur notre site web de projet : <a href="https://cumulo-autumn.github.io/StreamDiT/">cette URL https.</a>
Dans cet article, nous présentons BMMR, un ensemble de données bilingue, multimodal et multidisciplinaire à grande échelle, conçu pour permettre à la communauté de développer et d'évaluer des modèles multimodaux de grande taille (LMMs). BMMR comprend 110 000 questions de niveau universitaire couvrant 300 disciplines définies par l'UNESCO, avec des formats variés—questions à choix multiples, à trous et ouvertes—et provenant de sources imprimées et numériques telles que des livres, des examens et des quiz. Toutes les données sont soigneusement sélectionnées et filtrées via un cadre évolutif impliquant une intervention humaine, et chaque instance est accompagnée d'un chemin de raisonnement de haute qualité. L'ensemble de données est organisé en deux parties : BMMR-Eval, qui comprend 20 458 instances de haute qualité pour évaluer de manière exhaustive les connaissances et le raisonnement des LMMs à travers plusieurs disciplines en chinois et en anglais ; et BMMR-Train, qui contient 88 991 instances pour soutenir la recherche et le développement, élargissant l'actuel focus sur le raisonnement mathématique à diverses disciplines et domaines. De plus, nous proposons le vérificateur multidisciplinaire basé sur le processus (c'est-à-dire BMMR-Verifier) pour une évaluation précise et granulaire des chemins de raisonnement. Des expériences approfondies sur 24 modèles révèlent que (i) même les modèles de pointe (par exemple, o3 et Gemini-2.5-Pro) laissent une marge d'amélioration significative sur BMMR-Eval ; (ii) les modèles de raisonnement présentent un biais disciplinaire et surpassent les LMMs uniquement sur des sujets spécifiques ; (iii) les modèles open-source restent en retard par rapport à leurs homologues propriétaires ; et (iv) le fine-tuning sur BMMR-Train réduit cet écart. Par ailleurs, nous menons des analyses de chaînes de raisonnement à l'aide de BMMR-Verifier et d'autres études approfondies, mettant en lumière les défis actuels des LMMs dans le raisonnement multidisciplinaire. Nous publierons les données, et nous espérons que notre travail apportera des insights et des contributions à la communauté.
Les capacités fondamentales des grands modèles de langage (LLM) sont profondément influencées par la qualité de leurs corpus de pré-entraînement. Cependant, améliorer la qualité des données à grande échelle reste un défi majeur, principalement en raison du compromis entre l'efficacité du raffinement et l'efficience du traitement. Bien que le filtrage basé sur des règles demeure le paradigme dominant, il opère généralement au niveau du document et manque de granularité pour affiner des contenus spécifiques au sein des documents. Inspirés par des travaux émergents tels que ProX, nous proposons RefineX, un nouveau cadre pour le raffinement chirurgical à grande échelle des données de pré-entraînement via des tâches d'édition programmatiques. RefineX permet un raffinement des données efficace et granulaire tout en préservant de manière fiable la diversité et le naturel du texte brut. La force principale de RefineX réside dans la distillation de résultats de raffinement de haute qualité, guidés par des experts et de bout en bout, en programmes de suppression basés sur des modifications minimales. Ce pipeline de distillation de haute précision est utilisé pour entraîner un modèle de raffinement efficace et fiable, capable d'améliorer systématiquement chaque instance du corpus à grande échelle. Nous évaluons RefineX dans des scénarios de pré-entraînement à partir de zéro à plusieurs échelles de modèles et constatons qu'il surpasse systématiquement les modèles entraînés sur des données brutes, filtrées ou raffinées de manière alternative dans diverses tâches en aval. Sur le modèle de 750M, RefineX engendre des gains moyens de 2,6 % à 7,2 % sur les tâches lighteval, et atteint des performances comparables en utilisant significativement moins de tokens d'entraînement. Une analyse approfondie montre que RefineX améliore de manière fiable la qualité du texte avec une grande efficience et précision, surpassant les approches antérieures telles que la génération de bout en bout et Prox-C. Ces résultats positionnent RefineX comme une solution scalable, efficace et fiable pour optimiser les données de pré-entraînement dans les pipelines modernes de LLM.
Les modèles d'embedding multimodaux ont joué un rôle crucial dans l'activation de diverses tâches en aval telles que la similarité sémantique, la recherche d'information et le clustering sur différentes modalités. Cependant, les embeddings multimodaux existants comme VLM2Vec, E5-V et GME se concentrent principalement sur les images naturelles, avec un support limité pour d'autres formes visuelles telles que les vidéos et les documents visuels. Cela restreint leur applicabilité dans des scénarios réels, incluant les agents IA, la recherche et la recommandation multimodales, ainsi que la génération augmentée par la recherche (RAG). Pour combler cette lacune, nous proposons VLM2Vec-V2, un cadre unifié pour l'apprentissage d'embeddings à travers diverses formes visuelles. Premièrement, nous introduisons MMEB-V2, un benchmark complet qui étend MMEB avec cinq nouveaux types de tâches : la recherche de documents visuels, la recherche de vidéos, le repérage temporel, la classification de vidéos et le question-réponse sur vidéos - couvrant des entrées de texte, d'image, de vidéo et de documents visuels. Ensuite, nous entraînons VLM2Vec-V2, un modèle d'embedding à usage général qui supporte les entrées de texte, d'image, de vidéo et de documents visuels. Des expériences approfondies montrent que VLM2Vec-V2 atteint des performances solides non seulement sur les nouvelles tâches de recherche de vidéos et de documents, mais améliore également les performances par rapport aux baselines précédentes sur les benchmarks d'images originaux. À travers une évaluation approfondie, notre étude offre des insights sur la généralisabilité de divers modèles d'embedding multimodaux et met en lumière des stratégies efficaces pour l'apprentissage unifié d'embeddings, posant les bases pour un apprentissage de représentations plus scalable et adaptable dans les contextes de recherche et réels.
Nous étudions si les modèles d'incorporation visuelle capturent des attributs continus et ordinaux le long de directions linéaires, que nous appelons _axes de rang_. Nous définissons un modèle comme _rangéable_ pour un attribut si la projection des incorporations sur un tel axe préserve l'ordre de l'attribut. À travers 7 encodeurs populaires et 9 ensembles de données avec des attributs tels que l'âge, le nombre de personnes, l'orientation de la tête, l'esthétique et la récence, nous constatons que de nombreuses incorporations sont intrinsèquement rangéables. Étonnamment, un petit nombre d'échantillons, voire seulement deux exemples extrêmes, suffisent souvent à récupérer des axes de rang significatifs, sans supervision à grande échelle. Ces résultats ouvrent de nouvelles perspectives pour le classement d'images dans les bases de données vectorielles et motivent des études approfondies sur la structure et l'apprentissage des incorporations rangéables. Notre code est disponible à l'adresse https://github.com/aktsonthalia/rankable-vision-embeddings.
Le décodage spéculatif nécessite généralement un modèle de brouillon petit et efficace, soit pré-entraîné, soit distillé hors ligne pour une série de modèles cibles spécifiques, comme les modèles Llama ou Qwen. Cependant, dans les contextes de déploiement en ligne, deux défis majeurs se posent : 1) l'utilisation d'un modèle cible incompatible avec le modèle de brouillon ; 2) l'attente d'améliorations de latence au fil de l'utilisation et du temps. Dans ce travail, nous proposons OmniDraft, un cadre unifié permettant à un seul modèle de brouillon de fonctionner avec n'importe quel modèle cible et de s'adapter dynamiquement aux données utilisateur. Nous introduisons un cache n-gramme en ligne avec un affinage par distillation hybride pour résoudre le problème d'incompatibilité de vocabulaire entre les modèles de brouillon et cibles ; et nous améliorons davantage la vitesse de décodage en exploitant des techniques de brouillonnage adaptatives. OmniDraft est particulièrement adapté aux applications de LLM sur appareil, où le coût du modèle, l'efficacité et la personnalisation utilisateur sont les principaux points de friction. Cela souligne encore la nécessité de relever les défis mentionnés et motive le paradigme « un brouillon pour tous ». Nous démontrons la compétence du cadre OmniDraft en effectuant un apprentissage en ligne sur des tâches de raisonnement mathématique, de codage et de génération de texte. Notamment, OmniDraft permet à un seul modèle Llama-68M de s'associer à divers modèles cibles, y compris Vicuna-7B, Qwen2-7B et Llama3-8B, pour le décodage spéculatif ; et offre en outre une accélération allant jusqu'à 1,5 à 2 fois.
Les documents historiques constituent un patrimoine culturel inestimable, mais ont subi une dégradation significative au fil du temps en raison de déchirures, de l'érosion par l'eau et de l'oxydation. Les méthodes existantes de restauration de documents historiques (HDR) se concentrent principalement sur la restauration à modalité unique ou de taille limitée, ne répondant pas aux besoins pratiques. Pour combler cette lacune, nous présentons un ensemble de données HDR en page entière (FPHDR) et une nouvelle solution automatisée de HDR (AutoHDR). Plus précisément, FPHDR comprend 1 633 images réelles et 6 543 images synthétiques avec des localisations au niveau des caractères et des lignes, ainsi que des annotations de caractères pour différents degrés de dommage. AutoHDR imite les workflows de restauration des historiens à travers une approche en trois étapes : localisation des dommages assistée par OCR, prédiction de texte contextuel vision-langage, et restauration d'apparence autoregressive par patch. L'architecture modulaire d'AutoHDR permet une collaboration homme-machine fluide, autorisant une intervention et une optimisation flexibles à chaque étape de la restauration. Les expériences démontrent la performance remarquable d'AutoHDR en HDR. Lors du traitement de documents gravement endommagés, notre méthode améliore la précision de l'OCR de 46,83 % à 84,05 %, avec une amélioration supplémentaire à 94,25 % grâce à la collaboration homme-machine. Nous croyons que ce travail représente une avancée significative dans la restauration automatisée de documents historiques et contribue substantiellement à la préservation du patrimoine culturel. Le modèle et l'ensemble de données sont disponibles à l'adresse https://github.com/SCUT-DLVCLab/AutoHDR.
Les benchmarks récents pour les agents de modèles de langage de grande taille (LLM) se concentrent principalement sur l'évaluation des capacités de raisonnement, de planification et d'exécution, tandis qu'un autre composant critique—la mémoire, englobant la manière dont les agents mémorisent, mettent à jour et récupèrent des informations à long terme—est sous-évalué en raison du manque de benchmarks. Nous qualifions les agents dotés de mécanismes de mémoire d'agents à mémoire. Dans cet article, nous identifions quatre compétences fondamentales essentielles pour les agents à mémoire : la récupération précise, l'apprentissage en temps de test, la compréhension à long terme et la résolution de conflits. Les ensembles de données existants reposent soit sur des longueurs de contexte limitées, soit sont adaptés à des configurations statiques à long contexte comme les questions-réponses basées sur des livres, ce qui ne reflète pas la nature interactive et multi-tours des agents à mémoire qui accumulent progressivement des informations. De plus, aucun benchmark existant ne couvre l'ensemble des quatre compétences. Par conséquent, nous introduisons MemoryAgentBench, un nouveau benchmark spécifiquement conçu pour les agents à mémoire. Notre benchmark combine des ensembles de données existants reformulés avec de nouveaux ensembles construits, couvrant les quatre compétences de mémoire mentionnées, offrant ainsi un banc d'essai systématique et exigeant pour évaluer la qualité de la mémoire. Nous évaluons une diversité d'agents à mémoire, allant des systèmes simples basés sur le contexte et de génération augmentée par récupération (RAG) aux agents avancés dotés de modules de mémoire externe et d'intégration d'outils. Les résultats empiriques révèlent que les méthodes actuelles ne maîtrisent pas l'ensemble des quatre compétences, soulignant la nécessité de poursuivre les recherches sur des mécanismes de mémoire complets pour les agents LLM.
Les méthodes de segmentation basées sur Neural Radiance Field (NeRF) se concentrent sur la sémantique des objets et s'appuient uniquement sur des données RVB, manquant ainsi de propriétés matérielles intrinsèques. Cette limitation restreint la perception précise des matériaux, pourtant cruciale pour la robotique, la réalité augmentée, la simulation et d'autres applications. Nous présentons UnMix-NeRF, un cadre qui intègre le démélange spectral dans NeRF, permettant une synthèse de vues nouvelles hyperspectrales et une segmentation non supervisée des matériaux. Notre méthode modélise la réflectance spectrale via des composantes diffuses et spéculaires, où un dictionnaire appris de membres purs globaux représente les signatures matérielles pures, et les abondances par point capturent leur distribution. Pour la segmentation des matériaux, nous utilisons les prédictions de signatures spectrales le long des membres purs appris, permettant un regroupement non supervisé des matériaux. De plus, UnMix-NeRF permet l'édition de scènes en modifiant les dictionnaires de membres purs appris pour une manipulation flexible de l'apparence basée sur les matériaux. Des expériences approfondies valident notre approche, démontrant une reconstruction spectrale et une segmentation des matériaux supérieures aux méthodes existantes. Page du projet : https://www.factral.co/UnMix-NeRF.
Nous présentons PresentAgent, un agent multimodal qui transforme des documents longs en vidéos de présentation narrées. Alors que les approches existantes se limitent à générer des diapositives statiques ou des résumés textuels, notre méthode va au-delà de ces limitations en produisant un contenu visuel et oral parfaitement synchronisé qui imite de près les présentations de style humain. Pour réaliser cette intégration, PresentAgent utilise un pipeline modulaire qui segmente systématiquement le document d'entrée, planifie et rend des cadres visuels de type diapositive, génère une narration orale contextuelle avec des modèles de langage de grande envergure et des modèles de synthèse vocale, et compose de manière fluide la vidéo finale avec un alignement audio-visuel précis. Face à la complexité de l'évaluation de telles sorties multimodales, nous introduisons PresentEval, un cadre d'évaluation unifié alimenté par des modèles vision-langage qui évalue de manière exhaustive les vidéos selon trois dimensions critiques : la fidélité du contenu, la clarté visuelle et la compréhension par l'auditoire via une évaluation basée sur des prompts. Notre validation expérimentale sur un ensemble de données soigneusement sélectionné de 30 paires document-présentation démontre que PresentAgent atteint une qualité proche de celle d'un humain sur tous les critères d'évaluation. Ces résultats mettent en évidence le potentiel significatif des agents multimodaux contrôlables pour transformer des matériaux textuels statiques en formats de présentation dynamiques, efficaces et accessibles. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/PresentAgent.
Les capacités génératives des modèles de langage à grande échelle (LLMs) évoluent rapidement, passant de la génération de code statique à la création d'artefacts visuels dynamiques et interactifs. Cette progression est cependant freinée par un déficit critique en matière d'évaluation : les benchmarks établis se concentrent sur la correction algorithmique et ignorent la fidélité visuelle et l'intégrité interactive qui définissent les expériences utilisateur modernes. Pour combler cette lacune, nous introduisons ArtifactsBench, un nouveau benchmark et paradigme pour l'évaluation automatisée et multimodale de la génération de code visuel. Notre framework rend programmatiquement chaque artefact généré et capture son comportement dynamique via des captures d'écran temporelles. Ces preuves visuelles, ainsi que le code source, sont ensuite évaluées par un modèle de langage multimodal (MLLM)-as-Judge, guidé de manière rigoureuse par une checklist détaillée et spécifique à chaque tâche, afin d'assurer une notation holistique et reproductible. Nous construisons un nouveau benchmark composé de 1 825 tâches variées et évaluons plus de 30 LLMs leaders. Notre évaluation automatisée atteint une remarquable cohérence de classement de 94,4 % avec WebDev Arena, la référence en matière de préférence humaine dans le développement web, et un accord par paire de plus de 90 % avec des experts humains. Cela établit ArtifactsBench comme le premier framework à automatiser de manière fiable l'évaluation de la qualité perçue par l'humain à grande échelle. Notre analyse fournit une cartographie haute résolution de l'état de l'art actuel, révélant que les modèles généralistes surpassent souvent ceux spécialisés dans un domaine. Nous mettons ArtifactsBench en open source, incluant le benchmark, le système d'évaluation et les résultats de référence sur https://artifactsbenchmark.github.io/, afin de fournir à la communauté un outil scalable et précis pour accélérer le développement de modèles génératifs centrés sur l'utilisateur.
Contexte : La documentation clinique représente une charge importante pour les professionnels de santé, les médecins passant jusqu'à 2 heures par jour sur des tâches administratives. Les récents progrès des modèles de langage de grande taille (LLMs) offrent des solutions prometteuses, mais les préoccupations liées à la confidentialité et les exigences computationnelles limitent leur adoption dans les milieux de santé. Objectif : Développer et évaluer un système de transcription médicale préservant la confidentialité et fonctionnant sur l'appareil, utilisant un modèle Llama 3.2 1B affiné, capable de générer des notes médicales structurées à partir de transcriptions médicales tout en maintenant une souveraineté totale des données directement dans le navigateur. Méthodes : Nous avons affiné un modèle Llama 3.2 1B en utilisant l'affinage paramétrique efficace (PEFT) avec LoRA sur 1 500 paires synthétiques de transcriptions médicales et de notes structurées. Le modèle a été évalué par rapport au modèle de base Llama 3.2 1B sur deux ensembles de données : 100 transcriptions endocrinologiques et 140 cas modifiés du benchmark ACI. L'évaluation a employé des métriques statistiques (ROUGE, BERTScore, BLEURT) et des évaluations LLM-comme-juge sur plusieurs dimensions de qualité clinique. Résultats : Le modèle OnDevice affiné a démontré des améliorations substantielles par rapport au modèle de base. Sur le benchmark ACI, les scores ROUGE-1 sont passés de 0,346 à 0,496, tandis que le F1 de BERTScore est passé de 0,832 à 0,866. Les évaluations de qualité clinique ont montré une réduction marquée des hallucinations majeures (de 85 à 35 cas) et une amélioration de l'exactitude factuelle (de 2,81 à 3,54 sur une échelle de 5 points). Des améliorations similaires ont été observées sur l'ensemble de données d'évaluation interne, avec des scores composites passant de 3,13 à 4,43 (+41,5 %). Conclusions : L'affinage de LLMs compacts pour la transcription médicale apporte des améliorations cliniquement significatives tout en permettant un déploiement complet sur l'appareil dans le navigateur. Cette approche aborde les principaux obstacles à l'adoption de l'IA en santé : préservation de la confidentialité, réduction des coûts et accessibilité pour les environnements à ressources limitées.
L'entraînement de modèles génératifs de textures 3D natives reste un problème fondamental mais difficile, principalement en raison de la disponibilité limitée de jeux de données de textures 3D à grande échelle et de haute qualité. Cette rareté entrave la généralisation à des scénarios réels. Pour y remédier, la plupart des méthodes existantes affinent des modèles génératifs d'images de base pour exploiter leurs connaissances visuelles préalables. Cependant, ces approches génèrent généralement uniquement des images multi-vues et s'appuient sur un post-traitement pour produire des cartes de textures UV -- une représentation essentielle dans les pipelines graphiques modernes. Ces pipelines en deux étapes souffrent souvent d'une accumulation d'erreurs et d'incohérences spatiales à travers la surface 3D. Dans cet article, nous présentons SeqTex, un nouveau cadre end-to-end qui exploite les connaissances visuelles encodées dans des modèles de base pré-entraînés pour la vidéo afin de générer directement des cartes de textures UV complètes. Contrairement aux méthodes précédentes qui modélisent la distribution des textures UV de manière isolée, SeqTex reformule la tâche comme un problème de génération de séquences, permettant au modèle d'apprendre la distribution conjointe des rendus multi-vues et des textures UV. Cette conception transfère efficacement les connaissances cohérentes de l'espace image des modèles de base pour la vidéo dans le domaine UV. Pour améliorer encore les performances, nous proposons plusieurs innovations architecturales : une conception découplée avec des branches multi-vues et UV, une attention guidée par la géométrie pour aligner les caractéristiques inter-domaines, et une résolution adaptative des tokens pour préserver les détails fins des textures tout en maintenant l'efficacité computationnelle. Ensemble, ces composants permettent à SeqTex d'utiliser pleinement les connaissances pré-entraînées pour la vidéo et de synthétiser des cartes de textures UV haute fidélité sans nécessiter de post-traitement. Des expériences approfondies montrent que SeqTex atteint des performances de pointe dans les tâches de génération de textures 3D conditionnées par l'image et par le texte, avec une cohérence 3D supérieure, un alignement texture-géométrie et une généralisation au monde réel améliorés.
L'extraction de relations (RE) est une tâche fondamentale en traitement automatique du langage naturel. Les approches traditionnelles considèrent généralement la RE comme un problème d'apprentissage supervisé, en établissant une correspondance directe entre le contexte et les étiquettes—une méthode qui souffre souvent d'une faible généralisation hors domaine (OOD). Inspirés par le processus de travail des annotateurs humains, nous reformulons la RE comme une tâche de raisonnement guidée par des directives d'annotation et introduisons R1-RE, le premier cadre d'apprentissage par renforcement avec récompense vérifiable (RLVR) pour les tâches de RE. Notre méthode exploite les capacités de raisonnement des petits modèles de langage pour les tâches d'annotation, ce qui améliore significativement la robustesse OOD. Nous évaluons notre approche sur le jeu de données public Sem-2010 et sur un jeu de données privé MDKG. Le modèle R1-RE-7B atteint une précision OOD moyenne d'environ 70 %, comparable à celle des modèles propriétaires leaders tels que GPT-4o. De plus, notre analyse approfondie offre de nouvelles perspectives sur la dynamique d'apprentissage et les comportements de raisonnement émergents du paradigme RLVR pour la RE.
Cet article présente VLAI, un modèle basé sur des transformateurs qui prédit les niveaux de gravité des vulnérabilités logicielles directement à partir de descriptions textuelles. Basé sur RoBERTa, VLAI est affiné sur plus de 600 000 vulnérabilités réelles et atteint une précision de plus de 82 % dans la prédiction des catégories de gravité, permettant un triage plus rapide et plus cohérent avant l'évaluation manuelle des scores CVSS. Le modèle et le jeu de données sont open-source et intégrés au service Vulnerability-Lookup.
Les méthodes récentes d'édition d'images basées sur la diffusion ont considérablement progressé dans les tâches guidées par le texte, mais elles peinent souvent à interpréter des instructions complexes et indirectes. De plus, les modèles actuels souffrent fréquemment d'une mauvaise préservation de l'identité, de modifications involontaires, ou dépendent fortement de masques manuels. Pour relever ces défis, nous présentons X-Planner, un système de planification basé sur un Modèle de Langage Multimodal (MLLM) qui relie efficacement l'intention de l'utilisateur aux capacités du modèle d'édition. X-Planner utilise un raisonnement en chaîne de pensée pour décomposer systématiquement des instructions complexes en sous-instructions plus simples et claires. Pour chaque sous-instruction, X-Planner génère automatiquement des types de modifications précis et des masques de segmentation, éliminant ainsi l'intervention manuelle et garantissant des modifications localisées qui préservent l'identité. Par ailleurs, nous proposons un nouveau pipeline automatisé pour générer des données à grande échelle afin d'entraîner X-Planner, qui obtient des résultats de pointe à la fois sur les benchmarks existants et sur notre nouveau benchmark d'édition complexe.
Les grands modèles de langage (LLMs) sont de plus en plus sollicités pour invoquer des API d'entreprise, mais ils échouent souvent lorsque des outils quasi-identiques rivalisent pour la même intention utilisateur ou lorsque les arguments requis sont insuffisamment spécifiés. Nous présentons DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), un pipeline en trois étapes centré sur la désambiguïsation qui (i) synthétise des dialogues multi-tours pilotés par des personas dans lesquels l'assistant doit distinguer des outils très similaires, (ii) effectue un fine-tuning supervisé de modèles open-source avec des traces de raisonnement sur des plages de 3B à 70B paramètres, et (iii) évalue la préparation au monde réel via une suite dynamique qui redéploie chaque modèle dans une boucle agentique en temps réel et rapporte l'achèvement des objectifs de bout en bout ainsi que des métriques statiques conventionnelles. Sur notre benchmark dynamique DiaBENCH, les modèles entraînés avec DiaFORGE augmentent le taux de réussite d'invocation d'outils de 27 points de pourcentage par rapport à GPT-4o et de 49 points par rapport à Claude-3.5-Sonnet, tous deux sous des prompts optimisés. Pour stimuler la recherche, nous publions un corpus ouvert de 5000 spécifications d'API d'entreprise de qualité production, accompagnées de dialogues rigoureusement validés et axés sur la désambiguïsation, offrant ainsi un plan pratique pour construire des agents d'appel d'outils fiables et prêts pour l'entreprise.
Alors que les systèmes d'Intelligence Artificielle évoluent de modèles monolithiques vers des écosystèmes d'agents spécialisés, la nécessité de protocoles de communication standardisés devient de plus en plus critique. Cet article présente MOD-X (Modular Open Decentralized eXchange), une proposition novatrice de cadre architectural pour l'interopérabilité des agents, qui répond aux principales limitations des protocoles existants. Contrairement aux approches actuelles, MOD-X propose une architecture en couches comprenant un bus de messages universel, une gestion approfondie des états, des capacités de traduction et des mécanismes de sécurité basés sur la blockchain. Nous présentons l'architecture de MOD-X, la comparons avec les protocoles existants, et démontrons son application à travers un exemple concret montrant comment elle permet l'intégration entre des agents spécialisés hétérogènes (agents avec différentes architectures, fournisseurs, capacités et représentations des connaissances—y compris des systèmes à base de règles, des réseaux neuronaux, des moteurs de raisonnement symbolique et des logiciels hérités avec des enveloppes d'agents). Les innovations clés de MOD-X incluent un modèle de communication de type publication-abonnement, une découverte sémantique des capacités et une orchestration dynamique des workflows—offrant un cadre qui relie le formalisme théorique à la mise en œuvre pratique. Cette architecture répond au besoin croissant d'écosystèmes d'agents véritablement décentralisés et interopérables, capables de s'étendre efficacement sans nécessiter de coordination centrale.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans des tâches variées, mais leur aptitude à prédire des événements futurs reste peu étudiée. Il y a un an, les grands modèles de langage avaient du mal à rivaliser avec la précision d'une foule humaine. J'évalue les LLMs de pointe sur 464 questions de prévision issues de Metaculus, en comparant leurs performances à celles de superprévisionnistes humains. Les modèles les plus avancés obtiennent des scores de Brier qui semblent surpasser la foule humaine, mais restent significativement inférieurs à un groupe de superprévisionnistes.