papers.description
Les remarquables capacités zero-shot des grands modèles de langage (LLMs) ont propulsé le traitement du langage naturel des modèles spécifiques à des tâches vers des modèles de base unifiés et généralistes. Cette transformation est née de principes simples : de grands modèles génératifs entraînés sur des données à l'échelle du web. Curieusement, les mêmes principes s'appliquent aux modèles génératifs vidéo actuels. Les modèles vidéo pourraient-ils être sur une trajectoire vers une compréhension visuelle à usage général, à l'instar des LLMs qui ont développé une compréhension linguistique polyvalente ? Nous démontrons que Veo 3 peut résoudre une grande variété de tâches pour lesquelles il n'a pas été explicitement entraîné : segmenter des objets, détecter des contours, éditer des images, comprendre des propriétés physiques, reconnaître les affordances d'objets, simuler l'utilisation d'outils, et plus encore. Ces capacités à percevoir, modéliser et manipuler le monde visuel permettent des formes précoces de raisonnement visuel, comme la résolution de labyrinthes et de symétries. Les capacités zero-shot émergentes de Veo indiquent que les modèles vidéo sont sur la voie de devenir des modèles de base visuels unifiés et généralistes.
Les méthodes de raisonnement en chaîne de pensée implicite (CoT) offrent une alternative prometteuse et économe en tokens au raisonnement CoT explicite dans les grands modèles de langage (LLMs). Cependant, un écart de performance persistant a limité l'application de la CoT implicite. Nous identifions un problème central d'instabilité latente en augmentant le budget computationnel des approches CoT implicites : à mesure que nous augmentons le nombre de tokens de raisonnement implicite pour améliorer les performances, le processus d'entraînement devient souvent instable et s'effondre. Notre analyse révèle que cette instabilité provient de l'homogénéisation des représentations latentes et de la perte de leur diversité sémantique, un échec causé par une supervision insuffisante au niveau des étapes dans les approches CoT implicites existantes. Pour résoudre ce problème, nous proposons SIM-CoT, un module d'entraînement plug-and-play qui introduit une supervision au niveau des étapes pour stabiliser et enrichir l'espace de raisonnement latent. Concrètement, SIM-CoT utilise un décodeur auxiliaire pendant l'entraînement pour aligner chaque token implicite avec son étape de raisonnement explicite correspondante, garantissant que les états latents capturent des informations distinctes et significatives. Le décodeur auxiliaire proposé est retiré lors de l'inférence, préservant ainsi l'efficacité computationnelle des méthodes CoT implicites sans surcoût supplémentaire. De plus, le décodeur auxiliaire permet une interprétabilité du raisonnement implicite en projetant chaque token latent sur un vocabulaire de raisonnement explicite, permettant une visualisation étape par étape des rôles sémantiques et un diagnostic. SIM-CoT améliore significativement à la fois la précision en domaine et la stabilité hors domaine de diverses méthodes CoT implicites, augmentant les performances de bases comme Coconut de +8,2 % sur GPT-2 et CODI de +3,0 % sur LLaMA-3.1 8B. Démontrant une forte scalabilité, SIM-CoT dépasse également la base de référence CoT explicite sur GPT-2 de 2,1 % avec une efficacité en tokens 2,3 fois supérieure, tout en réduisant considérablement l'écart de performance sur des modèles plus grands comme LLaMA-3.1 8B.
Nous présentons EmbeddingGemma, un nouveau modèle d'encodage de texte léger et ouvert, basé sur la famille de modèles de langage Gemma 3. Notre recette d'entraînement innovante capture stratégiquement les connaissances de modèles plus volumineux via une initialisation encodeur-décodeur et une distillation géométrique des embeddings. Nous améliorons la robustesse et l'expressivité du modèle grâce à un régularisateur d'étalement, et assurons sa généralisabilité en fusionnant des points de contrôle issus de mélanges variés et optimisés. Évalué sur le benchmark Massive Text Embedding Benchmark (MTEB) à travers les domaines multilingues, anglais et de code, EmbeddingGemma (300M) atteint des résultats de pointe. Notamment, il surpasse les meilleurs modèles précédents, tant propriétaires qu'ouverts, avec moins de 500M de paramètres, et offre des performances comparables à des modèles deux fois plus grands, présentant un rapport performance-coût exceptionnel. Fait remarquable, cet avantage persiste lors de la quantification des poids du modèle ou de la troncation des sorties d'encodage. Cela rend EmbeddingGemma particulièrement adapté aux cas d'utilisation à faible latence et haut débit, tels que les applications sur appareil. Nous fournissons des études d'ablation explorant nos choix de conception clés. Nous mettons EmbeddingGemma à disposition de la communauté pour promouvoir la recherche future.
Les récentes avancées dans les modèles de base mettent en lumière une tendance claire vers l'unification et la mise à l'échelle, révélant des capacités émergentes dans divers domaines. Alors que la génération et l'édition d'images ont rapidement évolué de cadres spécifiques à des tâches vers des cadres unifiés, la génération et l'édition de vidéos restent fragmentées en raison de limitations architecturales et de la rareté des données. Dans ce travail, nous présentons EditVerse, un cadre unifié pour la génération et l'édition d'images et de vidéos au sein d'un seul modèle. En représentant toutes les modalités, c'est-à-dire le texte, l'image et la vidéo, comme une séquence de tokens unifiée, EditVerse exploite l'auto-attention pour réaliser un apprentissage contextuel robuste, un transfert de connaissances intermodal naturel et une gestion flexible des entrées et sorties avec des résolutions et durées arbitraires. Pour pallier le manque de données d'entraînement pour l'édition de vidéos, nous concevons un pipeline de données scalable qui compile 232K échantillons d'édition de vidéos et les combine avec des ensembles de données d'images et de vidéos à grande échelle pour un entraînement conjoint. De plus, nous présentons EditVerseBench, le premier benchmark pour l'édition de vidéos basée sur des instructions, couvrant diverses tâches et résolutions. Des expériences approfondies et des études utilisateurs démontrent qu'EditVerse atteint des performances de pointe, surpassant les modèles open-source et commerciaux existants, tout en exhibant des capacités émergentes d'édition et de génération à travers les modalités.
Dans cet article, nous présentons une méthode basée sur l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) pour entraîner des Modèles de Langue de Grande Taille Conscients de la Parole (Speech-Aware Large Language Models, SALLMs) sur des tâches de compréhension de la parole en format ouvert, telles que la Réponse à des Questions Parlées et la Traduction Automatique de la Parole. Les SALLMs se sont avérés très efficaces pour les tâches de compréhension de la parole. Le GRPO a récemment gagné en popularité pour son efficacité dans l'entraînement des LLMs, et des travaux antérieurs ont exploré son application aux SALLMs, principalement dans des tâches à choix multiples. En nous appuyant sur ces travaux, nous nous concentrons sur des tâches en format ouvert qui reflètent mieux les capacités génératives des modèles. Notre approche utilise le GRPO avec le BLEU comme signal de récompense pour optimiser les SALLMs, et nous démontrons empiriquement qu'elle surpasse l'Apprentissage Supervisé Standard (Standard Fine-Tuning, SFT) sur plusieurs indicateurs clés. Enfin, nous explorons le potentiel de l'incorporation d'échantillons hors politique dans le GRPO pour ces tâches, mettant en lumière des pistes d'amélioration et de recherche futures.
Les techniques de pointe en Intelligence Artificielle (IA) ne cessent de transformer notre vision du monde. Par exemple, les applications basées sur les modèles de langage de grande envergure (LLMs), telles que ChatGPT, ont démontré leur capacité à générer des conversations d’apparence humaine sur une multitude de sujets. Grâce à leurs performances impressionnantes dans diverses tâches liées au langage (par exemple, la réponse à des questions ouvertes, la traduction et la synthèse de documents), on peut envisager les impacts profonds que les LLMs pourraient avoir grâce à des applications plus étendues dans le monde réel (par exemple, le service client, l’éducation et l’accessibilité, et la découverte scientifique). Inspirés par leur succès, cet article propose un aperçu des LLMs de pointe et de leur intégration dans un large éventail de disciplines académiques, notamment : (1) les arts, les lettres et le droit (par exemple, l’histoire, la philosophie, les sciences politiques, les arts et l’architecture, le droit), (2) l’économie et les affaires (par exemple, la finance, l’économie, la comptabilité, le marketing), et (3) les sciences et l’ingénierie (par exemple, les mathématiques, la physique et l’ingénierie mécanique, la chimie et l’ingénierie chimique, les sciences de la vie et le génie biologique, les sciences de la Terre et le génie civil, l’informatique et le génie électrique). En intégrant humanité et technologie, cet article explore comment les LLMs façonnent la recherche et la pratique dans ces domaines, tout en discutant des limites clés, des défis ouverts et des orientations futures à l’ère de l’IA générative. La revue de l’engagement des LLMs à travers les disciplines – accompagnée d’observations et d’insights clés – peut aider les chercheurs et praticiens intéressés à exploiter les LLMs pour faire progresser leurs travaux dans diverses applications réelles.
Les modèles existants de génération vidéo excellent dans la production de vidéos photo-réalistes à partir de texte ou d'images, mais manquent souvent de plausibilité physique et de contrôlabilité 3D. Pour surmonter ces limitations, nous introduisons PhysCtrl, un nouveau cadre pour la génération vidéo à partir d'images ancrée dans la physique, avec des paramètres physiques et un contrôle des forces. Au cœur de ce système se trouve un réseau génératif de physique qui apprend la distribution des dynamiques physiques à travers quatre matériaux (élastique, sable, pâte à modeler et rigide) via un modèle de diffusion conditionné sur des paramètres physiques et des forces appliquées. Nous représentons les dynamiques physiques sous forme de trajectoires de points 3D et entraînons le modèle sur un vaste ensemble de données synthétiques de 550 000 animations générées par des simulateurs physiques. Nous améliorons le modèle de diffusion avec un nouveau bloc d'attention spatio-temporelle qui émule les interactions entre particules et intègre des contraintes basées sur la physique pendant l'entraînement pour garantir la plausibilité physique. Les expériences montrent que PhysCtrl génère des trajectoires de mouvement réalistes et ancrées dans la physique qui, lorsqu'elles sont utilisées pour piloter des modèles de génération vidéo à partir d'images, produisent des vidéos de haute fidélité et contrôlables, surpassant les méthodes existantes en termes de qualité visuelle et de plausibilité physique. Page du projet : https://cwchenwang.github.io/physctrl
Nous proposons Lavida-O, un modèle de diffusion masqué (MDM) unifié pour la compréhension et la génération multimodales. Contrairement aux MDM multimodaux existants tels que MMaDa et Muddit, qui ne prennent en charge que des tâches simples de compréhension au niveau de l'image et la génération d'images en basse résolution, Lavida-O présente un cadre unique permettant la compréhension au niveau de l'image, le repérage d'objets, l'édition d'images et la synthèse d'images en haute résolution (1024px) à partir de texte. Lavida-O intègre une architecture novatrice de mélange élastique de transformateurs (Elastic-MoT) qui associe une branche de génération légère à une branche de compréhension plus large, soutenue par la compression de tokens, le conditionnement textuel universel et l'échantillonnage stratifié pour une génération efficace et de haute qualité. Lavida-O intègre en outre une planification et une auto-réflexion itérative dans les tâches de génération et d'édition d'images, améliorant de manière fluide la qualité de génération grâce à ses capacités de compréhension. Lavida-O atteint des performances de pointe sur un large éventail de benchmarks, notamment le repérage d'objets RefCOCO, la génération d'images à partir de texte GenEval et l'édition d'images ImgEdit, surpassant les modèles autorégressifs et les modèles de diffusion continue existants tels que Qwen2.5-VL et FluxKontext-dev, tout en offrant une accélération considérable lors de l'inférence. Ces avancées établissent Lavida-O comme un nouveau paradigme pour le raisonnement et la génération multimodaux évolutifs.
Les modèles de repliement des protéines ont obtenu des résultats révolutionnaires, généralement grâce à une combinaison d'intégration de connaissances du domaine dans les blocs architecturaux et les pipelines d'entraînement. Néanmoins, compte tenu du succès des modèles génératifs sur des problèmes différents mais connexes, il est naturel de se demander si ces conceptions architecturales sont une condition nécessaire pour construire des modèles performants. Dans cet article, nous présentons SimpleFold, le premier modèle de repliement des protéines basé sur le flow-matching qui utilise uniquement des blocs transformeurs à usage général. Les modèles de repliement des protéines emploient généralement des modules coûteux en calcul impliquant des mises à jour triangulaires, des représentations explicites de paires ou plusieurs objectifs d'entraînement spécifiquement conçus pour ce domaine. En revanche, SimpleFold utilise des blocs transformeurs standard avec des couches adaptatives et est entraîné via un objectif de flow-matching génératif avec un terme structurel supplémentaire. Nous avons mis à l'échelle SimpleFold à 3 milliards de paramètres et l'avons entraîné sur environ 9 millions de structures protéiques distillées ainsi que sur des données expérimentales PDB. Sur les benchmarks standards de repliement, SimpleFold-3B atteint des performances compétitives par rapport aux modèles de référence les plus récents. De plus, SimpleFold démontre de solides performances en prédiction d'ensemble, ce qui est généralement difficile pour les modèles entraînés via des objectifs de reconstruction déterministes. Grâce à son architecture à usage général, SimpleFold montre une efficacité en déploiement et en inférence sur du matériel grand public. SimpleFold remet en question la dépendance aux conceptions architecturales complexes spécifiques au domaine dans le repliement des protéines, ouvrant ainsi un espace de conception alternatif pour les progrès futurs.
Les modèles de langage de grande taille (LLM) open source se spécialisent de plus en plus par domaine (par exemple, mathématiques, code, raisonnement général), ce qui motive la création de systèmes exploitant les forces complémentaires de plusieurs modèles. Les approches multi-LLM précédentes consistent soit (i) à acheminer une requête vers un ou quelques experts et à générer des réponses de manière indépendante, (ii) à agréger les sorties de chaque modèle via des échanges coûteux en plusieurs tours, ou (iii) à fusionner les poids en un seul modèle, nécessitant généralement une homogénéité architecturale. Nous introduisons Mixture of Thoughts (MoT), une méthode simple pour une collaboration au niveau latent entre experts hétérogènes sous un schéma de routage global. Pour chaque requête, un routeur léger sélectionne les K meilleurs experts et désigne un expert principal ; des couches d'interaction uniformément placées projettent les états cachés dans un espace latent partagé où l'expert principal effectue une attention croisée sur ses pairs actifs (sélectionnés). Les experts pré-entraînés restent figés ; seuls le routeur et les couches d'interaction légères sont entraînés avec un nouvel objectif d'entraînement conjoint qui améliore à la fois la sélection des experts et la collaboration inter-experts. Sur cinq benchmarks en distribution (ID) et trois hors distribution (OOD), MoT surpasse l'état de l'art actuel basé sur le routage et l'agrégation, Avengers, respectivement de +0,38 % et +2,92 %. De plus, MoT surpasse significativement le meilleur modèle unique. Il réalise cela avec une inférence en un seul passage, un temps d'exécution comparable aux bases de référence de routage, et sans les surcharges de l'agrégation itérative. MoT propose un mécanisme simple dans l'espace latent pour combiner des LLM hétérogènes, une étape pratique vers une collaboration multi-LLM plus large. Notre code est disponible publiquement à l'adresse https://github.com/jacobfa/mot.
Les récentes avancées dans les modèles de vision et langage à grande échelle (LVLM) ont stimulé des progrès significatifs dans la tâche d'analyse de documents. Par rapport aux méthodes traditionnelles basées sur des pipelines, les paradigmes de bout en bout ont démontré leur excellence dans la conversion d'images PDF en sorties structurées grâce à l'intégration de la reconnaissance optique de caractères (OCR), de la reconnaissance de tableaux, de la reconnaissance de formules mathématiques, etc. Cependant, l'absence d'étapes analytiques explicites pour les mises en page de documents et les ordres de lecture limite la capacité des LVLM à gérer des types de documents complexes tels que les journaux à plusieurs colonnes ou les affiches. Pour remédier à cette limitation, nous proposons dans ce rapport Logics-Parsing : un modèle LVLM de bout en bout renforcé par l'apprentissage par renforcement. Notre modèle intègre des mécanismes de récompense soigneusement conçus pour optimiser l'analyse complexe des mises en page et l'inférence de l'ordre de lecture. De plus, nous élargissons la polyvalence du modèle en incorporant divers types de données tels que les formules chimiques et les caractères chinois manuscrits dans le réglage fin supervisé. Enfin, pour permettre une évaluation rigoureuse de notre approche, nous introduisons LogicsParsingBench, un ensemble soigneusement sélectionné de 1 078 images PDF au niveau de la page couvrant neuf catégories principales et plus de vingt sous-catégories, qui sera publié ultérieurement. Des expériences approfondies menées sur LogicsParsingBench ont validé l'efficacité et les performances de pointe (SOTA) de notre modèle proposé dans divers scénarios d'analyse de documents. Page du projet : https://github.com/alibaba/Logics-Parsing
Les grands modèles de langage (LLM) sont de plus en plus intégrés dans les processus de développement logiciel. La capacité à générer du code et à soumettre des demandes de fusion (pull requests) avec une intervention humaine minimale, grâce à l'utilisation d'agents IA autonomes, est en passe de devenir une pratique standard. Cependant, on en sait peu sur l'utilité pratique de ces demandes de fusion et sur la mesure dans laquelle leurs contributions sont acceptées dans des projets réels. Dans cet article, nous étudions empiriquement 567 demandes de fusion (PR) générées à l'aide de Claude Code, un outil de codage agentique, dans 157 projets open source diversifiés. Notre analyse révèle que les développeurs ont tendance à s'appuyer sur les agents pour des tâches telles que le refactoring, la documentation et les tests. Les résultats indiquent que 83,8 % de ces PR assistées par des agents sont finalement acceptées et fusionnées par les mainteneurs de projet, avec 54,9 % des PR fusionnées intégrées sans modification supplémentaire. Les 45,1 % restants nécessitent des changements supplémentaires et bénéficient de révisions humaines, en particulier pour les corrections de bugs, la documentation et le respect des normes spécifiques au projet. Ces résultats suggèrent que, bien que les PR assistées par des agents soient largement acceptables, elles bénéficient encore de la supervision et de l'affinement humains.
La classification précise des produits selon le Système Harmonisé (SH) constitue un goulot d'étranglement critique dans le commerce mondial, mais elle a reçu peu d'attention de la part de la communauté de l'apprentissage automatique. Une mauvaise classification peut entraîner l'arrêt complet des expéditions, avec des opérateurs postaux majeurs suspendant les livraisons vers les États-Unis en raison de documents douaniers incomplets. Nous présentons le premier benchmark pour la classification des codes SH, dérivé du système de recherche en ligne des décisions douanières américaines (CROSS). En évaluant les principaux modèles de langage (LLM), nous constatons que notre modèle Atlas affiné (LLaMA-3.3-70B) atteint 40 % de classifications correctes à 10 chiffres et 57,5 % de classifications correctes à 6 chiffres, soit une amélioration de 15 points par rapport à GPT-5-Thinking et de 27,5 points par rapport à Gemini-2.5-Pro-Thinking. Au-delà de la précision, Atlas est environ cinq fois moins cher que GPT-5-Thinking et huit fois moins cher que Gemini-2.5-Pro-Thinking, et peut être auto-hébergé pour garantir la confidentialité des données dans les flux de travail critiques liés au commerce et à la conformité. Bien qu'Atlas établisse une base solide, le benchmark reste très exigeant, avec seulement 40 % de précision à 10 chiffres. En publiant à la fois le jeu de données et le modèle, nous visons à positionner la classification SH comme une nouvelle tâche de référence pour la communauté et à encourager les travaux futurs en matière de recherche d'information, de raisonnement et d'alignement.
Nous présentons une bibliothèque Python open-source pour la simulation d'instabilités de Kelvin-Helmholtz bidimensionnelles incompressibles dans des écoulements cisaillés stratifiés. Le solveur utilise une méthode de projection à pas fractionnaire avec résolution spectrale de Poisson via la Transformée Sinus Rapide, atteignant une précision spatiale du second ordre. L'implémentation tire parti de NumPy, SciPy et de la compilation JIT de Numba pour des calculs efficaces. Quatre cas tests canoniques explorent des nombres de Reynolds de 1000 à 5000 et des nombres de Richardson de 0,1 à 0,3 : couche de cisaillement classique, configuration à double cisaillement, écoulement tournant et turbulence forcée. L'analyse statistique utilisant l'entropie de Shannon et des indices de complexité révèle que les couches à double cisaillement atteignent des taux de mélange 2,8 fois plus élevés que la turbulence forcée malgré des nombres de Reynolds plus faibles. Le solveur fonctionne efficacement sur du matériel de bureau standard, avec des simulations sur des grilles de 384×192 terminant en environ 31 minutes. Les résultats démontrent que l'efficacité du mélange dépend des voies de génération des instabilités plutôt que des mesures d'intensité seules, remettant en question les paramétrisations basées sur le nombre de Richardson et suggérant des améliorations pour la représentation des échelles sous-maille dans les modèles climatiques.