papers.description
Dans la quête du progrès scientifique, la communication des recherches est aussi vitale que la découverte elle-même. Pourtant, les chercheurs sont souvent détournés de leur travail par la tâche manuelle et répétitive de créer des pages web pour rendre leurs articles complexes accessibles. Si l'automatisation a permis de générer des diapositives et des affiches statiques, la nature dynamique et interactive des pages web est restée un défi non résolu. Pour combler cette lacune, nous reformulons le problème en soutenant que la solution ne réside pas dans une commande unique, mais dans un processus collaboratif et hiérarchisé. Nous présentons AutoPage, un nouveau système multi-agents qui incarne cette philosophie. AutoPage décompose la création d'une page web à partir d'un article en un pipeline allant du général au particulier, de la planification narrative à la génération de contenu multimodal et au rendu interactif. Pour lutter contre les hallucinations de l'IA, des agents « Vérificateurs » dédiés contrôlent chaque étape par rapport à l'article source, tandis que des points de contrôle humains optionnels garantissent que le produit final correspond parfaitement à la vision de l'auteur, transformant le système d'un simple outil en un assistant collaboratif puissant. Pour valider rigoureusement notre approche, nous avons également construit PageBench, le premier benchmark pour cette nouvelle tâche. Les expériences montrent qu'AutoPage génère non seulement des pages de haute qualité et esthétiques, mais le fait avec une efficacité remarquable en moins de 15 minutes pour un coût inférieur à 0,1 $. Le code et le jeu de données seront disponibles à l'adresse https://mqleet.github.io/AutoPage_ProjectPage/{PageWeb}$.
Le décodage spéculatif (SD) accélère l'inférence des grands modèles de langage en utilisant un petit modèle d'ébauche pour générer des prédictions, qui sont ensuite vérifiées par un modèle cible plus grand. L'efficacité du SD dépend de l'alignement entre ces modèles, généralement amélioré par la distillation de connaissances (KD). Cependant, les méthodes conventionnelles de KD visent à minimiser la divergence KL entre les modèles d'ébauche et cible sur tous les tokens - un objectif qui n'est pas aligné avec le véritable objectif du SD, qui est de maximiser le taux d'acceptation des tokens. Par conséquent, les modèles d'ébauche peinent souvent à assimiler pleinement les connaissances du modèle cible en raison de contraintes de capacité, conduisant à des performances sous-optimales. Pour relever ce défi, nous proposons AdaSPEC, une méthode novatrice qui intègre un filtrage sélectif des tokens dans le processus de KD. AdaSPEC utilise un modèle de référence pour identifier et filtrer les tokens difficiles à ajuster, permettant la distillation d'un modèle d'ébauche mieux aligné avec le modèle cible sur les tokens plus simples. Cette approche améliore le taux d'acceptation global des tokens sans compromettre la qualité de la génération. Nous évaluons AdaSPEC sur diverses tâches, incluant le raisonnement arithmétique, le suivi d'instructions, la programmation et la synthèse, en utilisant des configurations de modèles de 31M/1,4B et 350M/2,7B de paramètres. Nos résultats démontrent qu'AdaSPEC surpasse constamment la méthode DistillSpec de l'état de l'art, atteignant des taux d'acceptation plus élevés sur toutes les tâches (jusqu'à 15\%). Le code est disponible publiquement à l'adresse https://github.com/yuezhouhu/adaspec.
La plupart des modèles de raisonnement vidéo génèrent uniquement des traces de raisonnement textuelles sans indiquer quand et où les preuves clés apparaissent. Des modèles récents comme OpenAI-o3 ont suscité un vif intérêt pour le raisonnement centré sur les preuves dans les images, mais étendre cette capacité aux vidéos est plus complexe, car cela nécessite un suivi temporel et une localisation spatiale conjoints à travers des scènes dynamiques. Nous présentons Open-o3 Video, un cadre non-agent qui intègre des preuves spatio-temporelles explicites dans le raisonnement vidéo, et collectons soigneusement des données d'entraînement et concevons des stratégies d'apprentissage pour relever les défis précités. Le modèle met en évidence les horodatages, objets et boîtes englobantes clés parallèlement à ses réponses, permettant d'ancrer le raisonnement dans des observations visuelles concrètes. Pour permettre cette fonctionnalité, nous constituons d'abord deux jeux de données de haute qualité, STGR-CoT-30k pour le SFT et STGR-RL-36k pour le RL, avec des annotations temporelles et spatiales soigneusement construites, car la plupart des jeux de données existants proposent soit des intervalles temporels pour les vidéos, soit des boîtes spatiales sur les images, manquant de supervision spatio-temporelle unifiée et de traces de raisonnement. Ensuite, nous adoptons une stratégie d'apprentissage par renforcement à froid avec de multiples récompenses spécialement conçues qui encouragent conjointement la précision des réponses, l'alignement temporel et la précision spatiale. Sur le benchmark V-STAR, Open-o3 Video obtient des performances de pointe, augmentant le mAM de 14,4 % et le mLGM de 24,2 % par rapport à la baseline Qwen2.5-VL. Des améliorations constantes sont également observées sur un large éventail de benchmarks de compréhension vidéo, incluant VideoMME, WorldSense, VideoMMMU et TVGBench. Au-delà de la précision, les traces de raisonnement produites par Open-o3 Video fournissent également des signaux précieux pour le scaling au moment du test, permettant une vérification tenant compte de la confiance et améliorant la fiabilité des réponses.
Les modèles de pointe en génération vidéo à partir de texte excellent dans la production de clips isolés, mais peinent à créer des récits cohérents et multi-plans, qui constituent l'essence même de la narration. Nous comblons ce "fossé narratif" avec HoloCine, un modèle générant des scènes entières de manière holistique pour garantir une cohérence globale du premier au dernier plan. Notre architecture permet un contrôle directionnel précis grâce à un mécanisme d'attention croisée fenêtrée qui localise les instructions textuelles sur des plans spécifiques, tandis qu'un schéma d'auto-attention éparse inter-plans (dense à l'intérieur des plans mais éparse entre eux) assure l'efficacité nécessaire pour une génération à l'échelle de la minute. Au-delà de l'établissement d'un nouvel état de l'art en cohérence narrative, HoloCine développe des capacités émergentes remarquables : une mémoire persistante des personnages et des scènes, et une compréhension intuitive des techniques cinématographiques. Notre travail marque un virage décisif de la synthèse de clips vers la réalisation automatisée, faisant de la création cinématographique de bout en bout un avenir tangible. Notre code est disponible à l'adresse : https://holo-cine.github.io/.
Les modèles de transformateurs de diffusion peuvent générer des images avec une fidélité et un niveau de détail remarquables. Cependant, leur entraînement à des résolutions ultra-élevées reste extrêmement coûteux en raison de la complexité quadratique du mécanisme d'auto-attention par rapport au nombre de tokens d'image. Dans cet article, nous présentons l'Extrapolation Dynamique de Position (DyPE), une nouvelle méthode, ne nécessitant pas d'entraînement, qui permet à des transformateurs de diffusion pré-entraînés de synthétiser des images à des résolutions bien supérieures à celles de leurs données d'entraînement, sans coût d'échantillonnage supplémentaire. DyPE tire parti de la progression spectrale inhérente au processus de diffusion, où les structures basse fréquence convergent tôt, tandis que les hautes fréquences nécessitent plus d'étapes pour être résolues. Concrètement, DyPE ajuste dynamiquement l'encodage positionnel du modèle à chaque étape de diffusion, en faisant correspondre son spectre de fréquence avec la phase actuelle du processus génératif. Cette approche nous permet de générer des images à des résolutions dépassant considérablement la résolution d'entraînement, par exemple, 16 millions de pixels avec FLUX. Sur plusieurs benchmarks, DyPE améliore constamment les performances et atteint une fidélité de pointe dans la génération d'images à très haute résolution, les gains devenant encore plus prononcés aux résolutions les plus élevées. La page du projet est disponible à l'adresse https://noamissachar.github.io/DyPE/.
Les modèles de diffusion discrets offrent une alternative prometteuse à la génération autorégressive grâce au décodage parallèle, mais ils souffrent d'un mur d'échantillonnage : une fois que l'échantillonnage catégoriel se produit, les riches informations distributionnelles s'effondrent en vecteurs one-hot et ne peuvent plus être propagées entre les étapes, forçant les étapes suivantes à opérer avec des informations limitées. Pour atténuer ce problème, nous introduisons le "Loopholing", un mécanisme novateur et simple qui préserve cette information via un chemin latent déterministe, conduisant aux Modèles de Diffusion Discrets à Loopholing (LDDM). Entraînés efficacement avec une stratégie d'auto-conditionnement, les LDDM obtiennent des gains substantiels - réduisant la perplexité générative jusqu'à 61% par rapport aux modèles de référence antérieurs, comblant (et dans certains cas dépassant) l'écart avec les modèles autorégressifs, et produisant un texte plus cohérent. Appliqués aux tâches de raisonnement, les LDDM améliorent également les performances sur des benchmarks arithmétiques tels que Countdown et Game of 24. Ces résultats indiquent également que le loopholing atténue les étapes inactives et les oscillations, offrant une voie évolutive vers une génération de texte non autorégressive de haute qualité.
Le développement d'agents d'IA incarnés nécessite des environnements d'entraînement évolutifs qui équilibrent diversité du contenu et précision physique. Les simulateurs mondiaux fournissent de tels environnements mais présentent des limitations distinctes : les méthodes basées sur la vidéo génèrent un contenu diversifié mais manquent de retour physique en temps réel pour l'apprentissage interactif, tandis que les moteurs physiques offrent une dynamique précise mais rencontrent des limitations d'évolutivité dues au coût élevé de la création manuelle d'assets. Nous présentons Seed3D 1.0, un modèle fondateur qui génère des assets 3D prêts pour la simulation à partir d'images uniques, relevant le défi de l'évolutivité tout en maintenant la rigueur physique. Contrairement aux modèles de génération 3D existants, notre système produit des assets avec une géométrie précise, des textures parfaitement alignées et des matériaux réalistes basés sur la physique. Ces assets peuvent être intégrés directement dans les moteurs physiques avec une configuration minimale, permettant un déploiement dans la manipulation robotique et l'entraînement par simulation. Au-delà des objets individuels, le système s'étend à la génération de scènes complètes en assemblant des objets dans des environnements cohérents. En permettant une création de contenu évolutive et prête pour la simulation, Seed3D 1.0 constitue une base pour faire progresser les simulateurs mondiaux physiques. Seed3D 1.0 est désormais disponible sur https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
L'édition des connaissances offre un moyen efficace de mettre à jour les connaissances d'un modèle sans recourir à un réentraînement complet, mais les travaux antérieurs se sont concentrés presque exclusivement sur les modalités textuelles ou visuelles. Nous présentons SAKE, le premier benchmark spécifiquement conçu pour éditer les connaissances sur les attributs auditifs dans les Grands Modèles Audio-Linguistiques (LALM). Contrairement aux mises à jour factuelles, SAKE cible plusieurs attributs auditifs abstraits, capturant des types de connaissances qui dépassent les domaines textuels et visuels conventionnels. Nous évaluons sept méthodes d'édition sur deux LALM selon quatre dimensions : la fiabilité, la généralité, la localité audio/texte et la portabilité. Les résultats mettent en lumière des défis tels que la préservation des connaissances intra-attribut non liées à l'édition, la généralisation des éditions au raisonnement multimodal et le maintien des éditions lors de mises à jour séquentielles. SAKE fournit un cadre méthodologique pour étudier comment l'édition des connaissances s'étend aux modalités auditives, ouvrant de nouvelles directions pour maintenir et adapter les LALM dans des scénarios réels plus diversifiés.
Nous proposons l'Apprentissage par Renforcement avec Valeurs Humaines Explicites (RLEV), une méthode qui aligne directement l'optimisation des Grands Modèles de Langage (LLM) sur des signaux de valeurs humaines quantifiables. Bien que l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) entraîne efficacement les modèles dans des domaines objectifs en utilisant des récompenses binaires de correction, il néglige le fait que toutes les tâches n'ont pas la même importance. RLEV étend ce cadre en intégrant directement des signaux de valeur définis par l'homme dans la fonction de récompense. En utilisant des données de type examen avec des étiquettes de valeur explicites, RLEV surpasse systématiquement les approches de base basées uniquement sur la correction, et ce across plusieurs algorithmes d'apprentissage par renforcement et échelles de modèles. Fait crucial, les politiques RLEV améliorent non seulement la précision pondérée par la valeur, mais apprennent également une politique d'arrêt sensible à la valeur : concise pour les invites de faible valeur, approfondie pour celles de haute valeur. Nous démontrons que ce comportement découle d'une amplification du gradient pondérée par la valeur sur les jetons de fin de séquence. Des études d'ablation confirment que le gain est causalement lié à l'alignement sur les valeurs. RLEV reste robuste face à des signaux de valeur bruités, tels que des étiquettes basées sur la difficulté, démontrant qu'optimiser pour une fonction d'utilité explicite offre une voie pratique pour aligner les LLM sur les priorités humaines.
Les grands modèles audio-linguistiques (LALM) étendent les modèles de langue basés sur le texte avec une compréhension auditive, offrant de nouvelles opportunités pour les applications multimodales. Bien que leur perception, leur raisonnement et leurs performances sur les tâches aient été largement étudiés, leur alignement sécuritaire face aux variations paralinguistiques reste peu exploré. Ce travail étudie systématiquement le rôle de l'émotion du locuteur. Nous construisons un jeu de données d'instructions vocales malveillantes exprimées avec diverses émotions et intensités, et évaluons plusieurs LALM de pointe. Nos résultats révèlent des incohérences substantielles en matière de sécurité : différentes émotions provoquent des niveaux variables de réponses non sécurisées, et l'effet de l'intensité est non monotone, les expressions moyennes présentant souvent le risque le plus élevé. Ces résultats mettent en lumière une vulnérabilité négligée des LALM et appellent à des stratégies d'alignement explicitement conçues pour garantir la robustesse face aux variations émotionnelles, un prérequis pour un déploiement fiable dans des environnements réels.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu la technique dominante pour entraîner les agents LLM. Cependant, le RLVR dépend fortement de requêtes de tâches bien conçues et de réponses de vérité terrain correspondantes pour fournir des récompenses précises, ce qui nécessite d'importants efforts humains et entrave les processus de mise à l'échelle du RL, particulièrement dans les scénarios agentiques. Bien que quelques travaux récents explorent des méthodes de synthèse de tâches, la difficulté des tâches agentiques générées est difficilement contrôlable pour offrir des avantages efficaces à l'entraînement par RL. Pour réaliser un RLVR agentique avec une meilleure scalabilité, nous explorons l'entraînement par auto-jeu pour les agents de recherche profonde, où le LLM apprenant utilise un appel multi-tours à un moteur de recherche et agit simultanément comme proposeur de tâches et solveur de problèmes. Le proposeur de tâches vise à générer des requêtes de recherche profonde avec des réponses de vérité terrain bien définies et une difficulté croissante. Le solveur de problèmes tente de traiter les requêtes de recherche générées et de produire les prédictions de réponse correctes. Pour garantir que chaque requête de recherche générée possède une vérité terrain précise, nous collectons tous les résultats de recherche de la trajectoire du proposeur comme connaissances externes, puis nous réalisons une génération augmentée par retrieval (RAG) pour tester si la requête proposée peut être correctement répondue lorsque tous les documents de recherche nécessaires sont fournis. Dans ce jeu d'auto-jeu de recherche (SSP), le proposeur et le solveur co-évoluent leurs capacités agentiques à travers à la fois la compétition et la coopération. Grâce à des résultats expérimentaux substantiels, nous constatons que le SSP peut améliorer significativement et uniformément les performances des agents de recherche sur divers benchmarks sans aucune supervision, que ce soit dans des configurations d'entraînement RL from scratch ou continu. Le code est disponible à l'adresse https://github.com/Alibaba-Quark/SSP.
Nous présentons le Massive Legal Embedding Benchmark (MLEB), le benchmark open-source d'information juridique le plus vaste, le plus diversifié et le plus complet à ce jour. MLEB comprend dix jeux de données annotés par des experts, couvrant plusieurs juridictions (États-Unis, Royaume-Uni, UE, Australie, Irlande et Singapour), types de documents (arrêts, législation, directives réglementaires, contrats et doctrine) et types de tâches (recherche, classification zero-shot et question-réponse). Sept des jeux de données de MLEB ont été nouvellement constitués afin de combler les lacunes domainiales et juridictionnelles dans le paysage open-source de la recherche d'information juridique. Nous documentons notre méthodologie de construction de MLEB et de création des nouveaux jeux de données constitutifs, et publions ouvertement notre code, nos résultats et nos données pour faciliter les évaluations reproductibles.
Le langage naturel a longtemps permis la coopération humaine, mais sa nature approximative, ambiguë et indirecte limite le potentiel de l'intelligence collective. Bien que les machines ne soient pas soumises à ces contraintes, la plupart des systèmes multi-agents basés sur LLM reposent encore uniquement sur le langage naturel, échangeant des tokens ou leurs embeddings. Pour aller au-delà du langage, nous introduisons un nouveau paradigme, la communication de pensée, qui permet aux agents d'interagir directement d'esprit à esprit, à la manière de la télépathie. Pour découvrir ces pensées latentes de manière rigoureuse, nous formalisons le processus comme un modèle à variables latentes général, où les états des agents sont générés par une fonction inconnue de pensées sous-jacentes. Nous prouvons que, dans un cadre non paramétrique sans information auxiliaire, les pensées latentes partagées et privées entre toute paire d'agents peuvent être identifiées. De plus, la structure globale du partage de pensée, incluant quels agents partagent quelles pensées et comment ces relations sont structurées, peut également être retrouvée avec des garanties théoriques. Guidé par la théorie établie, nous développons un cadre qui extrait les pensées latentes de tous les agents avant la communication et assigne à chaque agent les pensées pertinentes, ainsi que leurs patterns de partage. Ce paradigme s'étend naturellement au-delà des LLM à toutes les modalités, puisque la plupart des données observationnelles émergent de processus génératifs cachés. Les expériences sur des benchmarks synthétiques et réels valident la théorie et démontrent les avantages collaboratifs de la communication de pensée. Nous espérons que ce travail éclaire le potentiel de l'exploitation du monde caché, car de nombreux défis demeurent insolubles par la simple observation superficielle, quelles que soient l'échelle de calcul ou de données.
Le raisonnement vidéo, qui nécessite une déduction multi-étapes entre les images, reste un défi majeur pour les grands modèles de langage multimodaux (MLLM). Si les méthodes basées sur l'apprentissage par renforcement (RL) améliorent les capacités de raisonnement, elles reposent souvent sur des chaînes textuelles produisant des conclusions non fondées ou hallucinées. À l'inverse, les approches par récupération d'images introduisent un ancrage visuel mais peinent encore avec une localisation imprécise des preuves. Pour relever ces défis, nous présentons Conan, un cadre pour le raisonnement vidéo multi-étapes fondé sur des preuves. Conan identifie les images contextuelles et probantes, raisonne sur les indices inter-images et décide adaptativement quand conclure ou explorer davantage. Pour y parvenir, nous (1) construisons Conan-91K, un jeu de données à grande échelle de traces de raisonnement générées automatiquement incluant l'identification d'images, le raisonnement probant et la décision d'action, et (2) concevons une stratégie progressive multi-étapes de démarrage à froid combinée à un cadre d'entraînement RLVR Identification-Raisonnement-Action (AIR) pour améliorer conjointement le raisonnement visuel multi-étapes. Des expériences poussées sur six benchmarks de raisonnement séquentiel démontrent que Conan surpasse le modèle de référence Qwen2.5-VL-7B-Instruct de plus de 10% en précision moyenne, atteignant des performances state-of-the-art. De plus, Conan généralise efficacement aux tâches de compréhension de vidéos longues, validant sa forte extensibilité et robustesse.
Malgré leur impressionnante fidélité visuelle, les modèles génératifs personnalisés existants manquent de contrôle interactif sur la composition spatiale et ne s'adaptent pas efficacement à la génération de multiples sujets. Pour résoudre ces limitations, nous présentons LayerComposer, un cadre interactif pour la génération d'images text-to-image personnalisées et multi-sujets. Notre approche introduit deux contributions principales : (1) un canevas en couches, une nouvelle représentation dans laquelle chaque sujet est placé sur une couche distincte, permettant une composition sans occlusion ; et (2) un mécanisme de verrouillage qui préserve les couches sélectionnées avec une haute fidélité tout en permettant aux couches restantes de s'adapter flexiblement au contexte environnant. À l'instar des logiciels professionnels de retouche d'image, le canevas en couches proposé permet aux utilisateurs de placer, redimensionner ou verrouiller des sujets d'entrée via une manipulation intuitive des couches. Notre mécanisme de verrouillage polyvalent ne nécessite aucune modification architecturale, reposant plutôt sur des embeddings positionnels inhérents combinés à une nouvelle stratégie d'échantillonnage de données complémentaire. Des expériences approfondies démontrent que LayerComposer atteint un contrôle spatial et une préservation de l'identité supérieurs par rapport aux méthodes de l'état de l'art dans la génération d'images personnalisées multi-sujets.
Nous proposons un nouveau paradigme de segmentation d'images basé sur la génération autorégressive (ARGenSeg), permettant une compréhension multimodale et une perception au niveau pixel dans un cadre unifié. Les travaux antérieurs intégrant la segmentation d'images dans les modèles de langage multimodaux de grande taille (MLLM) emploient généralement soit une représentation par points de contour, soit des têtes de segmentation dédiées. Ces méthodes reposent sur des représentations discrètes ou des invites sémantiques fournies à des décodeurs spécialisés, ce qui limite la capacité du MLLM à capturer des détails visuels fins. Pour relever ces défis, nous introduisons un cadre de segmentation pour MLLM basé sur la génération d'images, qui produit naturellement des masques denses pour les objets cibles. Nous exploitons le MLLM pour produire des tokens visuels, puis les détokeniser en images à l'aide d'un VQ-VAE universel, rendant la segmentation entièrement dépendante de la compréhension au niveau pixel du MLLM. Pour réduire la latence d'inférence, nous utilisons une stratégie de prédiction à l'échelle suivante pour générer les tokens visuels requis en parallèle. Des expériences approfondies démontrent que notre méthode surpasse les approches état de l'art précédentes sur plusieurs jeux de données de segmentation, avec une augmentation remarquable de la vitesse d'inférence, tout en maintenant de solides capacités de compréhension.
La gestion fiable des différences de code est essentielle pour les agents qui modifient et restructurent des dépôts à grande échelle. Nous présentons Diff-XYZ, un benchmark compact pour la compréhension des différences de code avec trois tâches supervisées : application (ancien code + différence → nouveau code), anti-application (nouveau code - différence → ancien code) et génération de différences (nouveau code - ancien code → différence). Les instances du benchmark sont des triplets ⟨ancien code, nouveau code, différence⟩ extraits de commits réels de CommitPackFT, accompagnés de métriques automatiques et d'un protocole d'évaluation clair. Nous utilisons ce benchmark pour réaliser une étude empirique ciblée du format de différence unifié et effectuer une comparaison transversale des différentes représentations de différences. Nos résultats révèlent que différents formats doivent être utilisés selon le cas d'usage et la taille du modèle. Par exemple, la représentation des différences en format recherche-remplacement convient bien aux modèles plus volumineux dans le scénario de génération de différences, mais n'est pas adaptée à l'analyse des différences et aux modèles plus petits. Le benchmark Diff-XYZ constitue une base réutilisable pour évaluer et améliorer le traitement des différences dans les LLM, pouvant faciliter le développement futur de formats de différence et de modèles modifiant du code. Le jeu de données est publié sur le HuggingFace Hub : https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
Les grands modèles de langage (LLM) sont apparus comme des assistants prometteurs pour la rédaction scientifique. Cependant, des inquiétudes subsistent quant à la qualité et à la fiabilité du texte généré, notamment en ce qui concerne l'exactitude et la fidélité des citations. Alors que la plupart des travaux récents s'appuient sur des méthodes telles que l'évaluation par LLM (LLM-as-a-Judge), la fiabilité de cette approche isolée est également remise en question. Dans ce travail, nous reformulons l'évaluation des citations comme un problème d'alignement de l'attribution, qui consiste à évaluer si les citations générées par un LLM correspondent à celles qu'un auteur humain inclurait pour le même texte. Nous proposons CiteGuard, un cadre d'agent conscient du processus de recherche documentaire, conçu pour fournir une base plus fiable pour la validation des citations. CiteGuard améliore la baseline antérieure de 12,3 % et atteint une précision allant jusqu'à 65,4 % sur le benchmark CiteME, un niveau comparable aux performances humaines (69,7 %). Il permet également d'identifier des citations alternatives mais valides.
MeanFlow a récemment émergé comme un cadre puissant pour la modélisation générative en peu d'étapes entraînée à partir de zéro, mais son succès n'est pas encore entièrement compris. Dans ce travail, nous montrons que l'objectif de MeanFlow se décompose naturellement en deux parties : l'appariement des flux de trajectoire et la cohérence de trajectoire. Par une analyse des gradients, nous constatons que ces termes sont fortement négativement corrélés, provoquant un conflit d'optimisation et une convergence lente. Motivés par ces observations, nous introduisons alpha-Flow, une large famille d'objectifs qui unifie l'appariement des flux de trajectoire, le Shortcut Model et MeanFlow dans une seule formulation. En adoptant une stratégie de curriculum qui passe progressivement de l'appariement des flux de trajectoire à MeanFlow, alpha-Flow désentrelace les objectifs conflictuels et obtient une meilleure convergence. Lorsqu'elle est entraînée à partir de zéro sur ImageNet-1K 256x256 conditionné par classe avec des backbones DiT standard, alpha-Flow surpasse constamment MeanFlow à travers différentes échelles et configurations. Notre plus grand modèle alpha-Flow-XL/2+ établit de nouveaux records en utilisant des backbones DiT standard, avec des scores FID de 2,58 (1-NFE) et 2,15 (2-NFE).
L'augmentation du nombre de paramètres et de la taille des données d'entraînement s'est avérée être une stratégie efficace pour améliorer les performances des grands modèles de langage (LLM). Cependant, à mesure que ces modèles deviennent de plus en plus puissants et largement déployés, le coût de l'inférence est devenu une préoccupation pressante. Malgré son importance, le compromis entre la précision du modèle et l'efficacité de l'inférence reste peu exploré. Dans ce travail, nous examinons comment les facteurs architecturaux clés - la taille de la couche cachée, la répartition des paramètres entre les couches MLP et d'attention (ratio MLP/attention), et l'attention par requêtes groupées (GQA) - influencent à la fois le coût d'inférence et la précision. Nous introduisons une loi d'échelle conditionnelle qui enrichit le cadre de Chinchilla avec des informations architecturales, ainsi qu'un cadre de recherche pour identifier des architectures à la fois efficaces en inférence et précises. Pour valider notre approche, nous avons entraîné plus de 200 modèles allant de 80 millions à 3 milliards de paramètres et de 8 à 100 milliards de tokens d'entraînement, et avons ajusté la loi d'échelle conditionnelle proposée. Nos résultats montrent que cette loi prédit de manière fiable les choix architecturaux optimaux et que les modèles résultants surpassent les modèles de référence open-source existants. Pour un budget d'entraînement identique, les architectures optimisées atteignent jusqu'à 2,1 % de précision supplémentaire et un débit d'inférence 42 % supérieur par rapport à LLaMA-3.2.
Ceci n'est pas une étude classique des modèles du monde ; c'est un guide pour ceux qui souhaitent construire des mondes. Nous n'avons pas pour objectif de répertorier chaque article ayant jamais mentionné un « modèle du monde ». Au lieu de cela, nous suivons une voie claire : des premiers modèles masqués qui ont unifié l'apprentissage de représentations à travers les modalités, aux architectures unifiées qui partagent un paradigme unique, puis aux modèles génératifs interactifs qui bouclent la boucle action-perception, et enfin aux systèmes augmentés par une mémoire qui maintiennent des mondes cohérents dans le temps. Nous contournons les branches faiblement liées pour nous concentrer sur l'essentiel : le cœur génératif, la boucle interactive et le système de mémoire. Nous montrons qu'il s'agit de la voie la plus prometteuse vers de véritables modèles du monde.
La tendance à trouver et à exploiter des "raccourcis" pour accomplir des tâches présente des risques significatifs pour l'évaluation fiable et le déploiement des grands modèles de langage (LLM). Par exemple, un agent LLM ayant accès à des tests unitaires pourrait supprimer les tests qui échouent plutôt que de corriger le bogue sous-jacent. Un tel comportement compromet à la fois la validité des résultats de référence et la fiabilité des déploiements réels d'assistants de codage basés sur des LLM. Pour quantifier, étudier et atténuer ces comportements, nous présentons ImpossibleBench, un cadre d'évaluation qui mesure systématiquement la propension des agents LLM à exploiter les cas de test. ImpossibleBench crée des variantes "impossibles" de tâches issues de benchmarks existants comme LiveCodeBench et SWE-bench en introduisant des conflits directs entre la spécification en langage naturel et les tests unitaires. Nous mesurons le "taux de triche" d'un agent par son taux de réussite sur ces tâches impossibles, où toute réussite implique nécessairement un raccourci violant la spécification. En tant que cadre pratique, ImpossibleBench n'est pas seulement une évaluation mais un outil polyvalent. Nous démontrons son utilité pour : (1) l'étude des comportements des modèles, révélant des détails plus granulaires des comportements de triche, allant de la simple modification de tests à la surcharge complexe d'opérateurs ; (2) l'ingénierie du contexte, montrant comment l'invite, l'accès aux tests et la boucle de rétroaction affectent les taux de triche ; et (3) le développement d'outils de surveillance, en fournissant un banc d'essai avec des solutions trompeuses vérifiées. Nous espérons qu'ImpossibleBench servira de cadre utile pour construire des systèmes LLM plus robustes et fiables. Notre implémentation est disponible à l'adresse suivante : https://github.com/safety-research/impossiblebench.
Les grands modèles de langage (LLM) basés sur l'architecture Transformer ont obtenu des succès remarquables, mais leur mécanisme d'attention standard entraîne des coûts de calcul et de mémoire quadratiques par rapport à la longueur des séquences, constituant un goulot d'étranglement majeur pour l'entraînement en contexte long. Les travaux antérieurs abordent ce défi selon deux axes : (1) les optimisations au niveau noyau, qui accélèrent les opérateurs d'attention dense et clairsemée ; et (2) les stratégies au niveau module, souvent appelées attention distribuée ou entraînement parallèle par contexte, qui répartissent le calcul de l'attention sur plusieurs appareils. Cependant, l'évaluation systématique reste limitée : les comparaisons au niveau opérateur sont souvent incomplètes, tandis que les stratégies parallèles par contexte sont généralement spécifiques à un framework, avec une analyse de performance peu claire selon les contextes. Pour combler ces lacunes, nous proposons un benchmark unifié qui intègre des noyaux d'attention représentatifs et des mécanismes parallèles par contexte avec une interface modulaire et extensible pour l'évaluation. Le benchmark évalue les méthodes selon deux dimensions critiques : (1) les motifs de masque d'attention, qui affectent fortement l'efficacité, l'évolutivité et la facilité d'utilisation, et (2) la longueur des séquences et l'échelle distribuée, qui déterminent les performances dans des conditions d'entraînement en contexte extrêmement long. Grâce à des expériences complètes sur un cluster allant jusqu'à 96 GPU, notre benchmark permet des comparaisons reproductibles, met en lumière les compromis spécifiques à chaque méthode et fournit des conseils pratiques pour la conception et le déploiement de mécanismes d'attention dans l'entraînement de LLM en contexte long.
Le travail d'équipe pour les tâches complexes en milieu professionnel nécessite des stratégies de communication diversifiées, mais les systèmes multi-agents actuels basés sur LLM manquent de cadres systématiques pour la communication orientée tâche. Nous présentons Communication to Completion (C2C), un cadre évolutif qui comble cette lacune grâce à deux innovations clés : (1) le Facteur d'Alignement (AF), une nouvelle métrique quantifiant l'alignement des agents sur la tâche qui impacte directement l'efficacité du travail, et (2) un Cadre d'Actions Séquentielles qui intègre l'exécution étape par étape avec des décisions de communication intelligentes. C2C permet aux agents d'effectuer des choix de communication conscients du coût, améliorant dynamiquement la compréhension des tâches grâce à des interactions ciblées. Nous avons évalué C2C sur des flux de travail de codage réalistes à travers trois niveaux de complexité et des tailles d'équipe de 5 à 17 agents, en comparaison avec des lignes de base sans communication et à pas fixes. Les résultats montrent que C2C réduit le temps d'exécution des tâches d'environ 40% avec des coûts de communication acceptables. Le cadre réussit toutes les tâches dans des configurations standard et maintient son efficacité à grande échelle. C2C établit à la fois une fondation théorique pour mesurer l'efficacité de la communication dans les systèmes multi-agents et un cadre pratique pour les tâches collaboratives complexes.
Nous présentons MSC-Bench, un benchmark à grande échelle conçu pour évaluer l'orchestration d'outils multi-sauts de bout en bout par des agents LLM dans un écosystème hiérarchique utilisant le protocole Modèle-Contexte (MCP). Les benchmarks existants évaluent souvent les outils de manière isolée, ignorant des défis tels que le chevauchement fonctionnel et l'orchestration inter-serveurs, ce qui conduit à des évaluations excessivement optimistes. MSC-Bench comble ces lacunes en construisant une vérité terrain via des 'ensembles de fonctions équivalents', permettant l'utilisation de métriques objectives comme le score F1 et réduisant la dépendance à l'évaluation par LLM-comme-juge. Organisé selon un curriculum à cinq niveaux, il teste systématiquement les capacités des agents, depuis l'orchestration d'un outil unique jusqu'à la planification complexe inter-serveurs, en incluant la robustesse face aux requêtes hors du champ d'application. Les expériences révèlent que des hiérarchies rigides peuvent nuire aux performances sans stratégies co-conçues, et que même les agents les plus avancés présentent des faiblesses systémiques en matière de robustesse. MSC-Bench fournit un cadre de diagnostic pour exposer ces limitations et guider le développement d'agents utilisant des outils de manière plus compétente et efficace. Le benchmark et les ressources associées sont disponibles publiquement à l'adresse https://github.com/snooow1029/MSC_Bench.
Les grands modèles de langage (LLM) prennent désormais en charge des fenêtres de contexte de centaines de milliers à des millions de tokens, permettant des applications telles que la synthèse de code à grande échelle, la réponse à des questions multi-documents et le dialogue persistant multi-tours. Cependant, ces contextes étendus exacerbent le coût quadratique de l'auto-attention, entraînant une latence sévère dans le décodage autorégressif. Les méthodes d'attention éparse existantes atténuent ces coûts mais reposent sur des motifs heuristiques qui peinent à rappeler les paires clé-valeur (KV) critiques pour chaque requête, ce qui dégrade la précision. Nous présentons Adamas, un mécanisme d'attention éparse léger mais très précis conçu pour l'inférence en contexte long. Adamas applique la transformée de Hadamard, une bucketisation et une compression 2 bits pour produire des représentations compactes, et exploite l'estimation par distance de Manhattan pour des sélections top-k efficaces. Les expériences montrent qu'Adamas égalise la précision de l'attention complète avec un budget de seulement 64 tokens, atteint des performances quasi sans perte à 128 tokens, et supporte une sparsité jusqu'à 8 fois supérieure aux méthodes état de l'art (SOTA) précédentes tout en offrant des accélérations de l'auto-attention jusqu'à 4,4x et de bout en bout jusqu'à 1,5x sur des séquences de longueur 32K. Fait remarquable, Adamas obtient une perplexité comparable voire inférieure à l'attention complète, soulignant son efficacité à maintenir la précision sous une sparsité agressive.
Depuis l’avènement des grands modèles de langage pré-entraînés, l’extraction de connaissances structurées à partir de textes scientifiques a connu un changement révolutionnaire par rapport aux techniques traditionnelles d’apprentissage automatique ou de traitement du langage naturel. Malgré ces avancées, les outils automatisés accessibles permettant aux utilisateurs de construire, valider et visualiser des jeux de données issus de l’extraction de la littérature scientifique restent rares. Nous avons donc développé ComProScanner, une plateforme multi-agents autonome qui facilite l’extraction, la validation, la classification et la visualisation de compositions et propriétés chimiques exploitables par machine, intégrant des données de synthèse issues d’articles scientifiques pour la création de bases de données complètes. Nous avons évalué notre cadre à l’aide de 100 articles scientifiques en comparant 10 modèles de langage étendus différents, incluant des modèles open source et propriétaires, afin d’extraire des compositions hautement complexes associées aux matériaux céramiques piézoélectriques et leurs coefficients de déformation piézoélectrique correspondants (d33), motivés par l’absence d’un jeu de données volumineux pour ces matériaux. DeepSeek-V3-0324 a surpassé tous les modèles avec une précision globale significative de 0,82. Ce cadre offre une solution simple, conviviale et immédiatement utilisable pour extraire des données expérimentales hautement complexes enfouies dans la littérature, en vue de constituer des jeux de données pour l’apprentissage automatique ou profond.
Des études récentes par sondage révèlent que les grands modèles de langage présentent des sous-espaces linéaires qui séparent les énoncés vrais des énoncés faux, bien que le mécanisme à l'origine de leur émergence reste flou. Nous introduisons un modèle jouet transparent, un transformateur à une couche, qui reproduit de tels sous-espaces de vérité de bout en bout et expose une voie concrète par laquelle ils peuvent apparaître. Nous étudions un cadre simple dans lequel l'encodage de la vérité peut émerger : une distribution de données où les énoncés factuels co-occurrent avec d'autres énoncés factuels (et vice-versa), encourageant le modèle à apprendre cette distinction afin de réduire la perte du modèle de langage sur les tokens futurs. Nous corroborons ce schéma par des expériences sur des modèles de langage pré-entraînés. Enfin, dans le cadre jouet, nous observons une dynamique d'apprentissage en deux phases : les réseaux mémorisent d'abord les associations factuelles individuelles en quelques étapes, puis — sur une plus longue période — apprennent à séparer linéairement le vrai du faux, ce qui à son tour réduit la perte de modélisation du langage. Ensemble, ces résultats fournissent à la fois une démonstration mécaniste et une motivation empirique quant à la manière et aux raisons pour lesquelles des représentations linéaires de la vérité peuvent émerger dans les modèles de langage.