papers.description
La mise à l'échelle au moment du test vise à améliorer les performances de raisonnement des grands modèles de langage (LLM) en ajoutant des ressources de calcul. Une approche prédominante dans ce domaine est celle des méthodes de mise à l'échelle au moment du test basées sur l'échantillonnage, qui améliorent le raisonnement en générant plusieurs chemins de raisonnement pour une entrée donnée lors de l'inférence. Cependant, malgré son succès pratique, les fondements théoriques restent peu explorés. Dans cet article, nous proposons le premier cadre théorique pour analyser les méthodes de mise à l'échelle au moment du test basées sur l'échantillonnage, ancré dans la perspective de l'estimation de la confiance. Sur la base de ce cadre, nous analysons deux paradigmes dominants : l'auto-cohérence et la perplexité, et révélons des limitations clés : l'auto-cohérence souffre d'une erreur d'estimation élevée, tandis que la perplexité présente une erreur de modélisation substantielle et une possible dégradation de la convergence de l'erreur d'estimation. Pour remédier à ces limitations, nous introduisons RPC, une méthode hybride qui exploite nos insights théoriques à travers deux composants clés : la Cohérence de Perplexité et l'Élagage de Raisonnement. La Cohérence de Perplexité combine les forces de l'auto-cohérence et de la perplexité, augmentant le taux de convergence de l'erreur d'estimation de linéaire à exponentiel tout en préservant l'erreur de modèle. L'Élagage de Raisonnement prévient la dégradation en éliminant les chemins de raisonnement à faible probabilité. L'analyse théorique et les résultats empiriques sur sept ensembles de données de référence démontrent que RPC a un fort potentiel pour réduire l'erreur de raisonnement. Notamment, RPC atteint des performances de raisonnement comparables à l'auto-cohérence tout en améliorant non seulement la fiabilité de la confiance, mais aussi en réduisant les coûts d'échantillonnage de 50 %. Le code et les ressources sont disponibles à l'adresse https://wnjxyk.github.io/RPC.
Le progrès de l'intelligence artificielle nécessite le développement de la capacité à percevoir à travers plusieurs modalités, à l'instar de la manière dont les humains perçoivent le monde. Nous présentons OmniVinci, une initiative visant à construire un modèle de langage omni-modal (LLM) robuste et open-source. Nous étudions minutieusement les choix de conception concernant l'architecture du modèle et la curation des données. Pour l'architecture du modèle, nous proposons trois innovations clés : (i) OmniAlignNet pour renforcer l'alignement entre les embeddings visuels et audio dans un espace latent omni-modal partagé ; (ii) le regroupement temporel des embeddings pour capturer l'alignement temporel relatif entre les signaux visuels et audio ; et (iii) l'encodage temporel rotatif contraint pour intégrer des informations temporelles absolues dans les embeddings omni-modaux. Nous introduisons un pipeline de curation et de synthèse qui génère 24 millions de conversations mono-modales et omni-modales. Nous constatons que les modalités se renforcent mutuellement tant dans la perception que dans le raisonnement. Notre modèle, OmniVinci, surpasse Qwen2.5-Omni avec un gain de +19,05 sur DailyOmni (compréhension cross-modale), +1,7 sur MMAR (audio) et +3,9 sur Video-MME (vision), tout en utilisant seulement 0,2 trillion de tokens d'entraînement - une réduction de 6 fois par rapport aux 1,2 trillion de tokens de Qwen2.5-Omni. Enfin, nous démontrons les avantages omni-modaux dans des applications en aval couvrant la robotique, l'IA médicale et l'usine intelligente.
L'édition d'objets 3D est essentielle pour la création de contenu interactif dans les domaines du jeu vidéo, de l'animation et de la robotique. Cependant, les approches actuelles restent inefficaces, incohérentes et échouent souvent à préserver les régions non modifiées. La plupart des méthodes reposent sur l'édition de rendus multi-vues suivie d'une reconstruction, ce qui introduit des artefacts et limite la praticabilité. Pour relever ces défis, nous proposons Nano3D, un cadre d'apprentissage sans entraînement pour l'édition précise et cohérente d'objets 3D sans masques. Nano3D intègre FlowEdit dans TRELLIS pour effectuer des modifications localisées guidées par des rendus de vue frontale, et introduit en outre des stratégies de fusion sensibles aux régions, Voxel/Slat-Merge, qui préservent de manière adaptative la fidélité structurelle en assurant la cohérence entre les zones éditées et non éditées. Les expériences démontrent que Nano3D atteint une cohérence 3D et une qualité visuelle supérieures par rapport aux méthodes existantes. Sur la base de ce cadre, nous construisons le premier jeu de données à grande échelle pour l'édition 3D, Nano3D-Edit-100k, qui contient plus de 100 000 paires d'édition 3D de haute qualité. Ce travail aborde des défis de longue date tant dans la conception d'algorithmes que dans la disponibilité des données, améliorant significativement la généralité et la fiabilité de l'édition 3D, et posant les bases pour le développement de modèles d'édition 3D en flux direct. Page du projet : https://jamesyjl.github.io/Nano3D
L'édition vidéo basée sur des instructions promet de démocratiser la création de contenu, mais ses progrès sont fortement entravés par la rareté de données d'entraînement à grande échelle et de haute qualité. Nous présentons Ditto, un cadre holistique conçu pour relever ce défi fondamental. Au cœur de Ditto se trouve un pipeline innovant de génération de données qui combine la diversité créative d'un éditeur d'images de pointe avec un générateur de vidéos en contexte, surmontant ainsi les limites des modèles existants. Pour rendre ce processus viable, notre cadre résout le compromis coût-qualité prohibitif en employant une architecture de modèle efficace et distillée, renforcée par un amplificateur temporel, qui réduit simultanément la surcharge computationnelle et améliore la cohérence temporelle. Enfin, pour atteindre une scalabilité totale, l'ensemble de ce pipeline est piloté par un agent intelligent qui conçoit des instructions variées et filtre rigoureusement les résultats, garantissant un contrôle de qualité à grande échelle. En utilisant ce cadre, nous avons investi plus de 12 000 jours-GPU pour construire Ditto-1M, un nouveau jeu de données d'un million d'exemples d'édition vidéo haute fidélité. Nous avons entraîné notre modèle, Editto, sur Ditto-1M avec une stratégie d'apprentissage curriculaire. Les résultats démontrent une capacité supérieure à suivre les instructions et établissent un nouvel état de l'art dans l'édition vidéo basée sur des instructions.
Des travaux récents ont montré que l'affinage étroit peut produire des modèles de langage largement désalignés, un phénomène appelé désalignement émergent (DE). Bien que préoccupants, ces résultats se limitaient à l'affinage et au pilotage par activation, excluant l'apprentissage en contexte (AEC). Nous nous demandons donc : le DE émerge-t-il dans l'AEC ? Nous constatons que c'est le cas : sur trois ensembles de données, trois modèles de pointe produisent des réponses largement désalignées à des taux compris entre 2 % et 17 % avec 64 exemples étroits en contexte, et jusqu'à 58 % avec 256 exemples. Nous examinons également les mécanismes du DE en suscitant un raisonnement étape par étape (tout en laissant les exemples en contexte inchangés). Une analyse manuelle des chaînes de pensée résultantes montre que 67,5 % des traces désalignées justifient explicitement des sorties nuisibles en adoptant une « persona » imprudente ou dangereuse, reflétant ainsi les résultats antérieurs sur le DE induit par l'affinage.
La synthèse de scènes urbaines 3D à grande échelle, explorables et géométriquement précises est une tâche complexe mais essentielle pour offrir des applications immersives et incarnées. Les défis résident dans le manque de scans 3D de grande envergure et de haute qualité provenant du monde réel pour entraîner des modèles génératifs généralisables. Dans cet article, nous empruntons une voie alternative pour créer des scènes 3D à grande échelle en combinant les images satellitaires facilement accessibles, qui fournissent une géométrie approximative réaliste, et un modèle de diffusion à domaine ouvert pour générer des apparences de haute qualité en vue rapprochée. Nous proposons Skyfall-GS, le premier cadre de création de scènes 3D à l'échelle d'un pâté de maisons sans annotations 3D coûteuses, offrant également une exploration 3D immersive en temps réel. Nous adaptons une stratégie de raffinement itératif pilotée par un curriculum pour améliorer progressivement la complétude géométrique et les textures photoréalistes. Des expériences approfondies démontrent que Skyfall-GS fournit une géométrie plus cohérente entre les vues et des textures plus réalistes par rapport aux approches de pointe. Page du projet : https://skyfall-gs.jayinnn.dev/
Les progrès récents dans la génération visuelle basée sur la diffusion reposent largement sur des modèles de diffusion latente avec des autoencodeurs variationnels (VAE). Bien qu'efficaces pour la synthèse haute fidélité, ce paradigme VAE+diffusion souffre d'une efficacité d'entraînement limitée, d'une inférence lente et d'une faible transférabilité à des tâches de vision plus larges. Ces problèmes découlent d'une limitation clé des espaces latents des VAE : l'absence de séparation sémantique claire et de structure discriminative forte. Notre analyse confirme que ces propriétés sont cruciales non seulement pour les tâches de perception et de compréhension, mais aussi pour l'entraînement stable et efficace des modèles de diffusion latente. Motivés par cette observation, nous introduisons SVG, un nouveau modèle de diffusion latente sans autoencodeurs variationnels, qui exploite des représentations auto-supervisées pour la génération visuelle. SVG construit un espace de caractéristiques avec une discriminabilité sémantique claire en exploitant des caractéristiques DINO gelées, tandis qu'une branche résiduelle légère capture les détails fins pour une reconstruction haute fidélité. Les modèles de diffusion sont entraînés directement sur cet espace latent structuré sémantiquement pour faciliter un apprentissage plus efficace. En conséquence, SVG permet un entraînement accéléré de la diffusion, supporte un échantillonnage en quelques étapes et améliore la qualité générative. Les résultats expérimentaux montrent en outre que SVG préserve les capacités sémantiques et discriminatives des représentations auto-supervisées sous-jacentes, offrant ainsi une voie méthodique vers des représentations visuelles de haute qualité et généralisables à diverses tâches.
Le commentaire linguistique sur les modèles de langage de grande taille (LLMs), fortement influencé par les cadres théoriques de de Saussure et Chomsky, est souvent spéculatif et peu productif. Les critiques remettent en question la capacité des LLMs à modéliser légitimement le langage, invoquant la nécessité d'une « structure profonde » ou d'un « ancrage » pour atteindre une « compétence » linguistique idéalisée. Nous plaidons pour un changement radical de perspective vers les principes empiristes de Witold Mańczak, un linguiste général et historique de premier plan. Il définit le langage non pas comme un « système de signes » ou un « système computationnel du cerveau », mais comme la totalité de tout ce qui est dit et écrit. Par-dessus tout, il identifie la fréquence d'utilisation des éléments linguistiques particuliers comme le principe directeur premier du langage. En utilisant son cadre, nous contestons les critiques antérieures des LLMs et proposons un guide constructif pour la conception, l'évaluation et l'interprétation des modèles de langage.
Les reflets de lentille dégradent considérablement la qualité des images, affectant des tâches cruciales en vision par ordinateur telles que la détection d'objets et la conduite autonome. Les méthodes récentes de suppression des reflets sur une seule image (SIFR) obtiennent de mauvais résultats lorsque les sources lumineuses hors cadre sont incomplètes ou absentes. Nous proposons LightsOut, un cadre de reconstruction basé sur la diffusion, spécialement conçu pour améliorer la SIFR en reconstruisant les sources lumineuses hors cadre. Notre méthode exploite un module de régression multitâche et un modèle de diffusion affiné avec LoRA pour garantir des résultats de reconstruction réalistes et physiquement cohérents. Des expériences approfondies démontrent que LightsOut améliore systématiquement les performances des méthodes SIFR existantes dans des scénarios difficiles, sans nécessiter de réentraînement supplémentaire, servant ainsi de solution de prétraitement universelle et prête à l'emploi. Page du projet : https://ray-1026.github.io/lightsout/
Les grands modèles de langage se divisent en deux familles : les LLM centrés sur le raisonnement, qui renforcent le raisonnement en chaîne de pensée interne mais ne peuvent pas invoquer d'outils externes, et les LLM agentiques, qui apprennent à interagir avec des environnements et à exploiter des outils mais sont souvent en retard dans le raisonnement approfondi. Cette division découle d'objectifs d'entraînement fondamentalement différents, conduisant à des forces mal alignées et à une inefficacité sur des requêtes simples, où les deux familles ont tendance à trop réfléchir ou à trop utiliser d'outils. Dans ce travail, nous présentons le modèle de base adaptatif d'agent (A^2FM), un cadre unifié qui suit un principe de routage puis d'alignement : le modèle apprend d'abord le routage adapté à la tâche, puis aligne les trajectoires spécifiques au mode sous une architecture partagée. Pour combler le fossé de l'inefficacité, nous introduisons un troisième mode instantané qui traite directement les requêtes simples, évitant un raisonnement ou des appels d'outils inutiles tout en complétant les modes agentique et de raisonnement. Pour améliorer conjointement la précision et l'efficacité, nous proposons l'optimisation de politique adaptative (APO), qui impose un échantillonnage adaptatif entre les modes et applique une récompense régularisée par le coût. À l'échelle de 32B, A^2FM atteint 13,4 % sur BrowseComp, 70,4 % sur AIME25 et 16,7 % sur HLE, établissant de nouveaux records parmi les modèles comparables et performant de manière compétitive avec les LLM de pointe sur des benchmarks agentiques, de raisonnement et généraux. Notamment, l'exécution adaptative atteint un coût de passage de seulement 0,00487 $ par réponse correcte, réduisant le coût de 45,2 % par rapport au raisonnement et de 33,5 % par rapport à l'agentique, offrant ainsi une efficacité de coût nettement supérieure tout en maintenant une précision comparable.
Les sites web de projets académiques peuvent diffuser la recherche plus efficacement lorsqu'ils présentent clairement le contenu principal et permettent une navigation et une interaction intuitives. Cependant, les approches actuelles, telles que la génération directe par des modèles de langage de grande taille (LLM), l'utilisation de modèles prédéfinis ou la conversion directe en HTML, peinent à produire des sites interactifs et conscients de la mise en page, et un ensemble d'évaluation complet pour cette tâche fait défaut. Dans cet article, nous présentons Paper2Web, un ensemble de données de référence et un cadre d'évaluation multidimensionnel pour évaluer la génération de pages web académiques. Il intègre des métriques basées sur des règles comme la Connectivité, l'Exhaustivité, ainsi qu'une évaluation humaine via LLM-as-a-Judge (couvrant l'interactivité, l'esthétique et l'informativité), et PaperQuiz, qui mesure la rétention des connaissances au niveau de l'article. Nous présentons également PWAgent, un pipeline autonome qui convertit des articles scientifiques en pages d'accueil académiques interactives et riches en multimédia. L'agent affine itérativement à la fois le contenu et la mise en page grâce à des outils MCP qui améliorent l'emphase, l'équilibre et la qualité de la présentation. Nos expériences montrent que PWAgent surpasse systématiquement les approches de bout en bout, telles que les pages web basées sur des modèles et les versions arXiv/alphaXiv, tout en maintenant un faible coût, atteignant ainsi le front de Pareto dans la génération de pages web académiques.
Nous présentons BLIP3o-NEXT, un modèle de base entièrement open-source de la série BLIP3 qui repousse les frontières de la génération native d'images. BLIP3o-NEXT unifie la génération d'images à partir de texte et l'édition d'images au sein d'une seule architecture, démontrant des capacités impressionnantes en génération et en édition d'images. En développant ce modèle de pointe en génération native d'images, nous avons identifié quatre insights clés : (1) La plupart des choix architecturaux offrent des performances comparables ; une architecture peut être considérée comme efficace si elle s'adapte efficacement et supporte une inférence rapide ; (2) L'application réussie de l'apprentissage par renforcement peut repousser les limites de la génération native d'images ; (3) L'édition d'images reste une tâche complexe, mais le suivi d'instructions et la cohérence entre les images générées et les images de référence peuvent être significativement améliorés grâce au post-entraînement et à un moteur de données ; (4) La qualité et l'échelle des données continuent d'être des facteurs décisifs qui déterminent la limite supérieure des performances du modèle. En s'appuyant sur ces insights, BLIP3o-NEXT utilise une architecture Autoregressive + Diffusion dans laquelle un modèle autoregressif génère d'abord des tokens d'images discrets conditionnés par des entrées multimodales, dont les états cachés sont ensuite utilisés comme signaux de conditionnement pour un modèle de diffusion afin de générer des images haute fidélité. Cette architecture intègre la force de raisonnement et le suivi d'instructions des modèles autoregressifs avec la capacité de rendu de détails fins des modèles de diffusion, atteignant un nouveau niveau de cohérence et de réalisme. Des évaluations approfondies sur divers benchmarks de génération d'images à partir de texte et d'édition d'images montrent que BLIP3o-NEXT surpasse les performances des modèles existants.
Avec l'avancée des modèles de raisonnement à grande échelle, l'évaluation efficace des capacités de raisonnement de ces modèles est devenue de plus en plus cruciale. Cependant, les benchmarks existants conçus pour évaluer les capacités de raisonnement des grands modèles ont tendance à être limités en portée et manquent de flexibilité pour adapter leur difficulté en fonction de l'évolution des capacités de raisonnement des modèles. Pour remédier à cela, nous proposons MorphoBench, un benchmark qui intègre des questions multidisciplinaires pour évaluer les capacités de raisonnement des grands modèles et peut ajuster et mettre à jour la difficulté des questions en fonction des capacités de raisonnement des modèles avancés. Plus précisément, nous avons constitué ce benchmark en sélectionnant et en collectant des questions complexes de raisonnement provenant de benchmarks existants et de sources telles que des compétitions de niveau Olympiade. De plus, MorphoBench modifie de manière adaptative le défi analytique des questions en exploitant les déclarations clés générées lors du processus de raisonnement du modèle. En outre, il inclut des questions générées à l'aide de logiciels de simulation, permettant un ajustement dynamique de la difficulté du benchmark avec une consommation minimale de ressources. Nous avons rassemblé plus de 1 300 questions de test et avons ajusté itérativement la difficulté de MorphoBench en fonction des capacités de raisonnement de modèles tels que o3 et GPT-5. MorphoBench améliore la exhaustivité et la validité de l'évaluation du raisonnement des modèles, fournissant des orientations fiables pour améliorer à la fois les capacités de raisonnement et la robustesse scientifique des grands modèles. Le code a été publié sur https://github.com/OpenDCAI/MorphoBench.
Malgré les avancées rapides dans la synthèse de texte à vidéo, la qualité des vidéos générées reste fortement dépendante de la précision des instructions utilisateur. Les méthodes d'optimisation au moment du test, bien que réussies dans d'autres domaines, peinent à gérer la nature multifacette de la vidéo. Dans ce travail, nous présentons VISTA (Video Iterative Self-improvemenT Agent), un système multi-agent novateur qui améliore de manière autonome la génération de vidéos en affinant les instructions dans une boucle itérative. VISTA décompose d'abord une idée utilisateur en un plan temporel structuré. Après la génération, la meilleure vidéo est identifiée via un tournoi par paires robuste. Cette vidéo gagnante est ensuite critiquée par un trio d'agents spécialisés se concentrant sur la fidélité visuelle, audio et contextuelle. Enfin, un agent de raisonnement synthétise ces retours pour réécrire et améliorer introspectivement l'instruction pour le cycle de génération suivant. Les expériences sur des scénarios de génération de vidéos à scène unique et multi-scènes montrent que, tandis que les méthodes précédentes produisent des gains inconstants, VISTA améliore systématiquement la qualité des vidéos et leur alignement avec l'intention utilisateur, atteignant jusqu'à 60 % de taux de victoire par paires contre les références de pointe. Les évaluateurs humains concordent, préférant les sorties de VISTA dans 66,4 % des comparaisons.
Les modèles de base (Foundation Models, FMs), tels que GPT-4 et AlphaFold, sont en train de redéfinir le paysage de la recherche scientifique. Au-delà de l'accélération de tâches telles que la génération d'hypothèses, la conception d'expériences et l'interprétation des résultats, ils soulèvent une question plus fondamentale : les FMs se contentent-ils d'améliorer les méthodologies scientifiques existantes, ou redéfinissent-ils la manière dont la science est menée ? Dans cet article, nous soutenons que les FMs catalysent une transition vers un nouveau paradigme scientifique. Nous introduisons un cadre en trois étapes pour décrire cette évolution : (1) l'Intégration Méta-Scientifique, où les FMs améliorent les flux de travail au sein des paradigmes traditionnels ; (2) la Co-Création Hybride Humain-IA, où les FMs deviennent des collaborateurs actifs dans la formulation de problèmes, le raisonnement et la découverte ; et (3) la Découverte Scientifique Autonome, où les FMs opèrent comme des agents indépendants capables de générer de nouvelles connaissances scientifiques avec un minimum d'intervention humaine. À travers cette perspective, nous passons en revue les applications actuelles et les capacités émergentes des FMs dans les paradigmes scientifiques existants. Nous identifions également les risques et les orientations futures pour la découverte scientifique facilitée par les FMs. Ce document de position vise à aider la communauté scientifique à comprendre le rôle transformateur des FMs et à encourager une réflexion sur l'avenir de la découverte scientifique. Notre projet est disponible à l'adresse suivante : https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.
Les modèles de langage à raisonnement tels qu'OpenAI-o1, DeepSeek-R1 et Qwen obtiennent des performances solides grâce à des chaînes de pensée étendues, mais génèrent souvent des sorties inutilement longues. Maximiser l'intelligence par token—la précision relative à la longueur de la réponse—reste un problème ouvert. Nous revisitons l'apprentissage par renforcement (RL) avec la pénalité de longueur la plus simple—la troncature—et montrons que la dégradation de la précision ne provient pas de l'absence de pénalités sophistiquées, mais d'une optimisation RL inadéquate. Nous identifions trois défis clés : (i) un biais important dans l'estimation de l'avantage, (ii) un effondrement de l'entropie, et (iii) un signal de récompense sparse. Nous les abordons avec Doing Length pEnalty Right (DLER), une recette d'entraînement combinant une normalisation des récompenses par lot, un clipping plus élevé, un échantillonnage dynamique et une simple pénalité de longueur par troncature. DLER atteint des compromis précision-efficacité de pointe, réduisant la longueur des sorties de plus de 70 % tout en surpassant toutes les précisions de référence précédentes. Il améliore également la mise à l'échelle en temps de test : par rapport à DeepSeek-R1-7B, DLER-7B génère plusieurs réponses concises en parallèle avec une précision 28 % plus élevée et une latence réduite. Nous introduisons également Difficulty-Aware DLER, qui resserre de manière adaptative la troncature sur les questions plus faciles pour des gains d'efficacité supplémentaires. Nous proposons également une méthode de fusion sélective des mises à jour qui préserve la précision de référence tout en conservant la capacité de raisonnement concis du modèle DLER, utile dans les scénarios où les données d'entraînement RL sont rares.
L'automatisation de la découverte scientifique représente une étape cruciale dans la recherche en Intelligence Artificielle (IA). Cependant, les systèmes agentiques existants pour la science souffrent de deux limitations fondamentales : des workflows rigides et pré-programmés qui ne peuvent s'adapter aux résultats intermédiaires, et une gestion inadéquate du contexte qui entrave la recherche à long terme. Nous présentons freephdlabor, un framework multi-agent open-source doté de workflows entièrement dynamiques déterminés par le raisonnement en temps réel des agents, ainsi que d'une \textit{architecture modulaire} permettant une personnalisation fluide -- les utilisateurs peuvent modifier, ajouter ou supprimer des agents pour répondre à des besoins spécifiques à un domaine. Le framework fournit une infrastructure complète incluant une compaction automatique du contexte, une communication basée sur des espaces de travail pour prévenir la dégradation de l'information, une persistance de la mémoire entre les sessions, et des mécanismes d'intervention humaine non bloquants. Ces fonctionnalités transforment collectivement la recherche automatisée d'essais isolés et ponctuels en programmes de recherche continus qui s'appuient systématiquement sur des explorations antérieures et intègrent les retours humains. En fournissant à la fois les principes architecturaux et une implémentation pratique pour construire des systèmes co-scientifiques personnalisables, ce travail vise à faciliter une adoption plus large de la recherche automatisée à travers les domaines scientifiques, permettant aux praticiens de déployer des systèmes multi-agents interactifs qui conduisent de manière autonome des recherches de bout en bout -- de l'idéation à l'expérimentation jusqu'à la rédaction de manuscrits prêts à être publiés.
Les agents de recherche approfondie sur le web ne se contentent pas de récupérer des informations provenant de sources diverses telles que les environnements web, les fichiers et les entrées multimodales, mais surtout, ils doivent analyser et agréger rigoureusement les connaissances pour mener des recherches perspicaces. Cependant, les agents de recherche approfondie open source existants se concentrent principalement sur l'amélioration des capacités de recherche d'informations des agents web pour localiser des informations spécifiques, tout en négligeant le besoin essentiel d'agrégation d'informations, ce qui limiterait leur capacité à soutenir des recherches approfondies. Nous proposons un paradigme "Explore to Evolve" pour construire de manière scalable des données d'entraînement vérifiables pour les agents web. Commençant par une exploration proactive en ligne, un agent collecte des informations ancrées en explorant le web réel. En utilisant les preuves collectées, l'agent auto-évolue ensuite un programme d'agrégation en sélectionnant, composant et affinant des opérations parmi 12 types logiques de haut niveau pour synthétiser une paire question-réponse vérifiable. Cette évolution, allant des directives de haut niveau aux opérations concrètes, nous a permis de produire de manière scalable WebAggregatorQA, un ensemble de données de 10 000 échantillons couvrant 50 000 sites web et 11 domaines. Basé sur un framework d'agent open source, SmolAgents, nous collectons des trajectoires de fine-tuning supervisé pour développer une série de modèles de base, WebAggregator. WebAggregator-8B atteint les performances de GPT-4.1, tandis que la variante 32B surpasse GPT-4.1 de plus de 10 % sur GAIA-text et s'approche de près de Claude-3.7-sonnet. De plus, compte tenu de la disponibilité limitée de benchmarks évaluant les capacités d'agrégation d'informations des agents web, nous construisons une division d'évaluation annotée manuellement de WebAggregatorQA comme un ensemble de test difficile. Sur ce benchmark, Claude-3.7-sonnet n'atteint que 28 %, et GPT-4.1 obtient 25,8 %. Même lorsque les agents parviennent à récupérer toutes les références, ils peinent encore sur WebAggregatorQA, soulignant la nécessité de renforcer les capacités d'agrégation d'informations des fondations des agents web.
Les modèles de langage de grande taille (LLMs) ont montré des avancées significatives grâce à l'apprentissage par renforcement (RL), en particulier dans des domaines où les récompenses peuvent être vérifiées de manière programmatique, comme les mathématiques et le code. Dans ces domaines, les modèles bénéficient d'une base opérationnelle bien définie guidée par des objectifs explicites basés sur des règles. Cependant, ces progrès révèlent une limitation importante : dans les domaines ouverts où les récompenses sont ambiguës, subjectives ou dépendantes du contexte, comme l'écriture créative, le raisonnement scientifique, et notamment la consultation médicale, les fonctions de récompense robustes font défaut, rendant ces domaines difficiles pour les stratégies actuelles de RL. Pour combler cette lacune, nous introduisons ORBIT, un cadre de formation incrémentiel basé sur des rubriques conçu spécifiquement pour les dialogues médicaux à enjeux élevés. ORBIT intègre la génération de dialogues synthétiques avec la création dynamique de rubriques, utilisant ces rubriques pour guider un processus de RL incrémentiel. En particulier, cette approche ne dépend pas de connaissances médicales externes ou de règles manuelles, mais utilise plutôt un retour d'information guidé par des rubriques pour façonner l'apprentissage. Lorsqu'elle est mise en œuvre sur le modèle Qwen3-4B-Instruct, notre méthode peut grandement améliorer ses performances sur le benchmark HealthBench-Hard, passant de 7.0 à 27.2 avec seulement 2 000 échantillons, atteignant ainsi des résultats de pointe pour des modèles de cette échelle. Notre analyse confirme que le RL guidé par des rubriques favorise des gains de performance constants dans divers scénarios de consultation, allant au-delà de simples améliorations numériques. Ces résultats soulignent le retour d'information basé sur des rubriques comme une stratégie évolutive pour faire progresser les LLMs dans des tâches complexes et ouvertes.
La génération de dispositions de scènes 3D artistiques et cohérentes est cruciale dans la création de contenu numérique. Les méthodes traditionnelles basées sur l'optimisation sont souvent limitées par des règles manuelles fastidieuses, tandis que les modèles génératifs profonds rencontrent des difficultés à produire du contenu riche et diversifié. De plus, les approches qui utilisent de grands modèles de langage manquent fréquemment de robustesse et ne parviennent pas à capturer avec précision les relations spatiales complexes. Pour relever ces défis, cet article présente un nouveau système de génération de dispositions 3D guidé par la vision. Nous construisons d'abord une bibliothèque d'actifs de haute qualité contenant 2 037 actifs de scène et 147 dispositions de scènes 3D. Ensuite, nous utilisons un modèle de génération d'images pour étendre les représentations de prompts en images, en l'affinant pour l'aligner avec notre bibliothèque d'actifs. Nous développons ensuite un module robuste d'analyse d'images pour reconstituer la disposition 3D des scènes en fonction de la sémantique visuelle et des informations géométriques. Enfin, nous optimisons la disposition de la scène en utilisant des graphes de scène et la sémantique visuelle globale pour assurer une cohérence logique et un alignement avec les images. Des tests utilisateurs approfondis démontrent que notre algorithme surpasse significativement les méthodes existantes en termes de richesse et de qualité des dispositions. Le code et le jeu de données seront disponibles à l'adresse https://github.com/HiHiAllen/Imaginarium.
Les modèles de langage récents (LLMs) ont démontré une capacité prometteuse à résoudre des problèmes liés à la finance. Cependant, l'application des LLMs dans des applications financières réelles reste un défi en raison de leur nature à haut risque et à enjeux élevés. Cet article présente FinTrust, un benchmark complet spécialement conçu pour évaluer la fiabilité des LLMs dans les applications financières. Notre benchmark se concentre sur un large éventail de problèmes d'alignement basés sur un contexte pratique et propose des tâches fines pour chaque dimension de l'évaluation de la fiabilité. Nous évaluons onze LLMs sur FinTrust et constatons que les modèles propriétaires comme o4-mini surpassent les autres dans la plupart des tâches, telles que la sécurité, tandis que les modèles open-source comme DeepSeek-V3 ont un avantage dans des domaines spécifiques comme l'équité au niveau de l'industrie. Pour des tâches complexes comme l'alignement fiduciaire et la divulgation, tous les LLMs présentent des lacunes, révélant un écart significatif dans la conscience juridique. Nous pensons que FinTrust peut constituer un benchmark précieux pour l'évaluation de la fiabilité des LLMs dans le domaine de la finance.
Alors que la demande en intelligence émotionnelle pour les grands modèles de langage (LLM) augmente, un défi majeur réside dans la compréhension des mécanismes internes qui donnent lieu à l'expression émotionnelle et dans le contrôle des émotions dans le texte généré. Cette étude aborde trois questions centrales : (1) Les LLM contiennent-ils des mécanismes indépendants du contexte qui façonnent l'expression émotionnelle ? (2) Quelle forme prennent ces mécanismes ? (3) Peuvent-ils être exploités pour un contrôle universel des émotions ? Nous construisons d'abord un ensemble de données contrôlé, SEV (Scenario-Event with Valence), pour susciter des états internes comparables à travers les émotions. Ensuite, nous extrayons des directions émotionnelles indépendantes du contexte qui révèlent un encodage cohérent et trans-contextuel des émotions (Q1). Nous identifions des neurones et des têtes d'attention qui implémentent localement le calcul émotionnel par décomposition analytique et analyse causale, et validons leurs rôles causaux via des interventions d'ablation et d'amélioration. Ensuite, nous quantifions l'influence causale de chaque sous-couche sur la représentation finale des émotions du modèle et intégrons les composants locaux identifiés dans des circuits émotionnels globaux cohérents qui pilotent l'expression émotionnelle (Q2). La modulation directe de ces circuits atteint une précision de 99,65 % dans l'expression des émotions sur l'ensemble de test, surpassant les méthodes basées sur l'invite et le guidage (Q3). À notre connaissance, il s'agit de la première étude systématique à découvrir et valider des circuits émotionnels dans les LLM, offrant de nouvelles perspectives sur l'interprétabilité et l'intelligence émotionnelle contrôlable.
Les lois d'échelle empiriques prescrivent comment allouer les paramètres, les données et les ressources de calcul, tandis que la paramétrisation à mise à jour maximale (muP) permet le transfert du taux d'apprentissage entre différentes largeurs en égalisant les magnitudes des mises à jour en début d'entraînement. Cependant, dans les architectures modernes invariantes à l'échelle, l'entraînement entre rapidement dans un état d'équilibre gouverné par l'optimiseur, où les couches de normalisation créent une sensibilité à l'échelle en rétropropagation et le taux d'apprentissage effectif devient dépendant de la largeur, dégradant ainsi le transfert muP. Nous abordons ce problème en introduisant une règle de mise à l'échelle de la décroissance de poids pour AdamW qui préserve le gain des sous-couches à travers les largeurs. Empiriquement, le spectre des valeurs singulières de chaque paramètre matriciel se met à l'échelle en norme comme eta/lambda avec une forme approximativement invariante ; sous une mise à l'échelle de largeur d, nous observons que la valeur singulière supérieure se met à l'échelle approximativement comme eta/lambda * d^{0.75}. En combinant cette observation avec la règle muP du taux d'apprentissage eta_2 ∝ d^{-1} pour les paramètres de type matriciel, cela implique une règle empirique de mise à l'échelle de la décroissance de poids lambda_2 ∝ d qui maintient approximativement les gains des sous-couches invariants à la largeur. Avec les paramètres de type vecteur entraînés à eta_1 = Theta_d(1) et lambda_1 = 0, cela permet un transfert à zéro coup des taux d'apprentissage et de la décroissance de poids des largeurs proxy aux largeurs cibles, éliminant ainsi les balayages par largeur. Nous validons cette règle sur des Transformers de style LLaMA et dans un cadre synthétique minimal, et nous fournissons un diagnostic simple, en faisant correspondre les valeurs singulières supérieures, pour vérifier l'invariance des gains des sous-couches. Nos résultats étendent muP au-delà du régime proche de l'initialisation en contrôlant explicitement les échelles d'état d'équilibre définies par l'optimiseur, offrant une recette pratique pour le transfert robuste des hyperparamètres sous AdamW.
Les modèles de type Mixture-of-Experts (MoE) permettent un passage à l'échelle efficace grâce à l'activation parcimonieuse des experts, mais souffrent souvent de décisions de routage sous-optimales en raison de décalages de distribution lors du déploiement. Bien que les méthodes d'adaptation au moment du test existantes pourraient potentiellement résoudre ces problèmes, elles se concentrent principalement sur les modèles denses et nécessitent l'accès à des données externes, limitant ainsi leur applicabilité pratique aux architectures MoE. Cependant, nous constatons qu'au lieu de s'appuyer sur des données de référence, il est possible d'optimiser la sélection des experts MoE en temps réel en se basant uniquement sur le contexte d'entrée. Ainsi, nous proposons un cadre de test en ligne sans données qui adapte continuellement les décisions de routage MoE pendant la génération de texte, sans supervision ou données externes. Notre méthode alterne entre deux phases : pendant l'étape de préremplissage, puis à intervalles réguliers, nous optimisons les décisions de routage du modèle en utilisant l'auto-supervision basée sur la séquence déjà générée. Ensuite, nous générons du texte normalement, en conservant le routeur modifié jusqu'à la prochaine adaptation. Nous mettons en œuvre cela grâce à des vecteurs additifs légers qui ne mettent à jour que les logits du routeur dans les couches sélectionnées, préservant ainsi l'efficacité computationnelle tout en évitant la sur-adaptation. Les résultats expérimentaux montrent des gains de performance constants sur des tâches de raisonnement complexes tout en maintenant une robustesse face aux décalages de contexte. Par exemple, notre méthode améliore de 5,5 % les performances sur HumanEval avec OLMoE. De plus, grâce à sa propriété plug-and-play, notre méthode complète naturellement les techniques de mise à l'échelle au moment du test existantes, par exemple en obtenant des gains moyens de 6 % lorsqu'elle est combinée avec l'auto-cohérence sur DeepSeek-V2-Lite.
Les modèles de langage de grande taille (LLMs) subissent une dégradation significative de leurs performances dans les conversations multi-tours lorsque les informations sont présentées de manière incrémentale. Étant donné que les conversations multi-tours caractérisent les interactions quotidiennes avec les LLMs, cette dégradation représente un défi majeur pour leur utilité dans le monde réel. Nous émettons l'hypothèse que des augmentations abruptes de l'incertitude du modèle signalent un désalignement dans les interactions multi-tours des LLMs, et nous exploitons cette intuition pour réaligner dynamiquement le contexte conversationnel. Nous introduisons ERGO (Réinitialisation guidée par l'entropie pour l'optimisation de la génération), qui quantifie en continu l'incertitude interne via l'entropie de Shannon sur les distributions de tokens suivants et déclenche une consolidation adaptative des prompts lorsqu'une forte augmentation de l'entropie est détectée. En traitant l'incertitude comme un signal de premier ordre plutôt que comme une nuisance à éliminer, ERGO embrasse la variabilité du langage et de la modélisation, représentant et répondant à l'incertitude. Dans les tâches multi-tours avec des instructions révélées de manière incrémentale, ERGO permet un gain de performance moyen de 56,6 % par rapport aux bases de référence standard, augmente l'aptitude (capacité de performance maximale) de 24,7 % et réduit l'instabilité (variabilité des performances) de 35,3 %, démontrant que les interventions conscientes de l'incertitude peuvent améliorer à la fois la précision et la fiabilité dans l'IA conversationnelle.
Les modèles de langage multimodaux de grande taille (MLLMs) sont continuellement pré-entraînés sur un mélange de données de légendes image-texte et de documents entrelacés, tandis que le filtrage de données de haute qualité pour les documents entrelacés image-texte reste peu exploré. Nous proposons d'entraîner un MLLM efficace en tant que classificateur unifié de qualité des données multimodales pour filtrer à la fois les légendes image-texte et les données entrelacées de haute qualité (UniFilter). Pour relever le défi de collecter des données multimodales étiquetées diversifiées, nous introduisons une approche semi-synthétique qui exploite des images brutes facilement disponibles et génère du texte correspondant à travers quatre niveaux de qualité. Cette méthode permet de créer efficacement des paires échantillon-score pour les données de légendes et les documents entrelacés afin d'entraîner UniFilter. Nous appliquons UniFilter pour sélectionner des données de légendes de haute qualité à partir du jeu de données DataComp et des données entrelacées à partir du jeu de données OBELICS image-texte entrelacé. Les MLLMs pré-entraînés sur les données filtrées démontrent des capacités significativement améliorées par rapport à ceux entraînés sur des données filtrées de base, atteignant de meilleures capacités de raisonnement en zero-shot et d'apprentissage en contexte. Après un affinage supervisé visuel, ces MLLMs induits par UniFilter obtiennent de meilleures performances sur divers benchmarks, mettant en évidence les avantages en aval d'un pré-entraînement multimodal de haute qualité. Nous mettons à disposition de la communauté les données synthétiques d'entraînement utilisées pour entraîner UniFilter, les points de contrôle du modèle UniFilter, et le sous-ensemble de documents entrelacés de haute qualité OBELICS-HQ, sélectionné par UniFilter, pour la reproduction et le développement ultérieur.
Nous présentons Representation Tokenizer (RepTok), un cadre de modélisation générative qui représente une image à l'aide d'un unique token latent continu obtenu à partir de transformateurs visuels auto-supervisés. En nous appuyant sur un encodeur SSL pré-entraîné, nous affinons uniquement l'embedding sémantique du token et l'associons à un décodeur génératif entraîné conjointement à l'aide d'un objectif standard de flow matching. Cette adaptation enrichit le token avec des détails de bas niveau pertinents pour la reconstruction, permettant une reconstruction fidèle de l'image. Pour préserver la géométrie favorable de l'espace SSL original, nous ajoutons une perte de similarité cosinus qui régularise le token adapté, garantissant que l'espace latent reste lisse et adapté à la génération. Notre formulation à un seul token résout les redondances spatiales des espaces latents 2D et réduit significativement les coûts d'entraînement. Malgré sa simplicité et son efficacité, RepTok obtient des résultats compétitifs en génération conditionnée par classe sur ImageNet et s'étend naturellement à la synthèse texte-image, atteignant des performances compétitives en zero-shot sur MS-COCO avec des budgets d'entraînement extrêmement limités. Nos résultats mettent en lumière le potentiel des représentations SSL affinées comme espaces latents compacts et efficaces pour une modélisation générative efficiente.
Nous présentons DriveGen3D, un nouveau cadre pour la génération de scènes de conduite dynamiques 3D de haute qualité et hautement contrôlables, qui répond aux limitations critiques des méthodologies existantes. Les approches actuelles de synthèse de scènes de conduite souffrent soit de demandes computationnelles prohibitives pour une génération temporelle étendue, se concentrent exclusivement sur la synthèse de vidéos prolongées sans représentation 3D, ou se limitent à la reconstruction statique d'une seule scène. Notre travail comble cette lacune méthodologique en intégrant une génération vidéo à long terme accélérée avec une reconstruction de scène dynamique à grande échelle grâce à un contrôle conditionnel multimodal. DriveGen3D introduit un pipeline unifié composé de deux éléments spécialisés : FastDrive-DiT, un transformateur de diffusion vidéo efficace pour la synthèse de vidéos à haute résolution et cohérence temporelle sous guidage de texte et de mise en page en vue de dessus (BEV) ; et FastRecon3D, un module de reconstruction en feed-forward qui construit rapidement des représentations 3D Gaussiennes à travers le temps, assurant une cohérence spatio-temporelle. Ensemble, ces composants permettent la génération en temps réel de vidéos de conduite étendues (jusqu'à 424x800 à 12 FPS) et des scènes 3D dynamiques correspondantes, atteignant un SSIM de 0,811 et un PSNR de 22,84 sur la synthèse de nouvelles vues, tout en maintenant une efficacité paramétrique.