papers.description
Les modèles de langage par diffusion promettent une génération parallèle rapide, tandis que les modèles autorégressifs (AR) excellent généralement en qualité grâce à leur structure causale qui s'aligne naturellement avec la modélisation du langage. Cela soulève une question fondamentale : pouvons-nous réaliser une synergie offrant un débit élevé, une meilleure utilisation des GPU et une qualité équivalente aux modèles AR ? Les méthodes existantes échouent à équilibrer efficacement ces deux aspects, soit en privilégiant l'AR en utilisant un modèle plus faible pour l'ébauche séquentielle (décodage spéculatif), ce qui conduit à une efficacité d'ébauche réduite, soit en utilisant une forme de logique de décodage gauche-droite (de type AR) pour la diffusion, ce qui souffre encore d'une dégradation de la qualité et sacrifie son potentiel de parallélisation. Nous présentons TiDAR, une architecture hybride au niveau séquentiel qui ébauche les tokens (Thinking) par diffusion et échantillonne les sorties finales (Talking) de manière autorégressive - le tout en une seule passe avant grâce à des masques d'attention structurés spécialement conçus. Cette conception exploite la densité de calcul GPU disponible, atteignant un équilibre solide entre la capacité d'ébauche et de vérification. De plus, TiDAR est conçu pour être adapté au déploiement (faible surcharge) en tant que modèle autonome. Nous évaluons extensivement TiDAR contre les modèles AR, le décodage spéculatif et les variantes de diffusion sur des tâches génératives et de vraisemblance aux échelles 1,5B et 8B. Grâce à l'ébauche et à l'échantillonnage parallèles ainsi qu'au support exact du cache KV, TiDAR surpasse le décodage spéculatif en débit mesuré et dépasse les modèles de diffusion comme Dream et Llada en efficacité et en qualité. Plus notablement, TiDAR est la première architecture à combler l'écart de qualité avec les modèles AR tout en délivrant de 4,71x à 5,91x plus de tokens par seconde.
Nous présentons Lumine, la première recette ouverte pour développer des agents généralistes capables d’accomplir des missions complexes de plusieurs heures en temps réel dans des environnements 3D en monde ouvert exigeants. Lumine adopte un paradigme d’interaction inspiré de l’humain, unifiant la perception, le raisonnement et l’action de manière end-to-end, alimenté par un modèle vision-langage. Il traite des pixels bruts à 5 Hz pour produire des actions clavier-souris précises à 30 Hz et invoque de manière adaptative le raisonnement uniquement lorsque nécessaire. Entraîné dans Genshin Impact, Lumine réussit à accomplir l’intégralité de la quête principale de cinq heures de Mondstadt avec une efficacité comparable à celle d’un humain, et suit des instructions en langage naturel pour exécuter une large gamme de tâches, que ce soit dans l’exploration 3D en monde ouvert ou la manipulation d’interfaces 2D, incluant la collecte, le combat, la résolution d’énigmes et l’interaction avec les PNJ. En plus de ses performances dans son domaine d’entraînement, Lumine démontre une forte généralisation zero-shot à travers différents jeux. Sans aucun ajustement fin, il accomplit des missions de 100 minutes dans Wuthering Waves et l’intégralité du premier chapitre de cinq heures de Honkai: Star Rail. Ces résultats prometteurs soulignent l’efficacité de Lumine à travers des mondes et des dynamiques d’interaction distincts, marquant une étape concrète vers des agents généralistes dans des environnements ouverts.
L'identification de molécules candidates (hits) constitue un défi central dans les premières étapes de la découverte de médicaments, nécessitant traditionnellement d'importantes ressources expérimentales. Les récents progrès de l'intelligence artificielle, en particulier des grands modèles de langage (LLM), ont permis le développement de méthodes de criblage virtuel qui réduisent les coûts et améliorent l'efficacité. Cependant, la complexité croissante de ces outils a limité leur accessibilité pour les chercheurs en laboratoire expérimental. Les systèmes multi-agents offrent une solution prometteuse en combinant l'interprétabilité des LLM avec la précision des modèles et outils spécialisés. Dans ce travail, nous présentons MADD, un système multi-agents qui construit et exécute des pipelines personnalisés d'identification de hits à partir de requêtes en langage naturel. MADD utilise quatre agents coordonnés pour gérer les sous-tâches clés de la génération de novo de composés et du criblage. Nous évaluons MADD sur sept cas de découverte de médicaments et démontrons ses performances supérieures par rapport aux solutions existantes basées sur les LLM. En utilisant MADD, nous pionnons l'application de la conception de médicaments axée sur l'IA pour cinq cibles biologiques et publions les molécules candidates identifiées. Enfin, nous introduisons un nouveau benchmark de paires requête-molécule et de scores de docking pour plus de trois millions de composés afin de contribuer à l'avenir agentique de la conception de médicaments.
La génération de vidéos par diffusion permet de créer des séquences réalistes, mais les conditionnements existants basés sur l'image et le texte n'offrent pas un contrôle précis du mouvement. Les méthodes antérieures pour la synthèse conditionnée par le mouvement nécessitent généralement un ajustement spécifique au modèle, ce qui est coûteux en calculs et restrictif. Nous présentons Time-to-Move (TTM), un cadre plug-and-play, sans apprentissage supplémentaire, pour la génération de vidéos contrôlée par le mouvement et l'apparence avec des modèles de diffusion image-à-vidéo (I2V). Notre idée clé est d'utiliser des animations de référence approximatives obtenues via des manipulations conviviales comme le découpage-glissement ou la reprojection basée sur la profondeur. Motivés par l'utilisation de repères de mise en page grossiers par SDEdit pour la retouche d'image, nous traitons les animations brutes comme des indices de mouvement approximatifs et adaptons le mécanisme au domaine vidéo. Nous préservons l'apparence par conditionnement d'image et introduisons le bruitage à double horloge, une stratégie dépendante de la région qui impose un alignement fort dans les zones spécifiées pour le mouvement tout en permettant une flexibilité ailleurs, équilibrant la fidélité à l'intention de l'utilisateur avec une dynamique naturelle. Cette modification légère du processus d'échantillonnage n'entraîne aucun coût supplémentaire d'apprentissage ou d'exécution et est compatible avec n'importe quelle architecture de base. Des expériences approfondies sur des benchmarks de mouvement d'objet et de caméra montrent que TTM égale ou dépasse les méthodes de référence existantes nécessitant un apprentissage en termes de réalisme et de contrôle du mouvement. Au-delà, TTM introduit une capacité unique : un contrôle précis de l'apparence via un conditionnement au niveau pixel, dépassant les limites de l'invite textuelle seule. Visitez notre page projet pour des exemples vidéo et le code : https://time-to-move.github.io/.
Nous présentons Motif-2-12.7B, un nouveau modèle de fondation à poids ouvert qui repousse les frontières de l'efficacité des grands modèles de langage en combinant innovation architecturale et optimisation au niveau du système. Conçu pour une compréhension linguistique évolutive et une généralisation robuste des instructions sous contrainte de budget de calcul, Motif-2-12.7B s'appuie sur Motif-2.6B en intégrant l'Attention Différentielle Groupée (GDA), qui améliore l'efficacité de représentation en dissociant les voies d'attention de signal et de contrôle du bruit. Le modèle est pré-entraîné sur 5,5 billions de tokens couvrant divers domaines linguistiques, mathématiques, scientifiques et de programmation, à l'aide d'un planificateur de données piloté par un curriculum qui modifie progressivement la composition des données. Le système d'entraînement tire parti de l'optimiseur MuonClip ainsi que de noyaux haute performance personnalisés, incluant les activations PolyNorm fusionnées et l'algorithme Parallel Muon, permettant des gains significatifs de débit et d'efficacité mémoire dans des environnements distribués à grande échelle. L'après-entraînement utilise un pipeline de réglage fin supervisé en trois étapes qui améliore successivement l'adhésion générale aux instructions, la compréhension compositionnelle et la précision linguistique. Motif-2-12.7B démontre des performances compétitives sur divers benchmarks, montrant qu'une mise à l'échelle architecturale réfléchie et une conception d'entraînement optimisée peuvent rivaliser avec les capacités de modèles beaucoup plus grands.
L'augmentation des grands modèles de langage (LLM) avec des outils externes leur permet d'exécuter des tâches complexes à multiples étapes. Cependant, l'apprentissage d'outils est entravé par des pipelines de données synthétiques statiques où la génération de données et l'entraînement du modèle sont exécutés comme deux processus séparés et non interactifs. Cette approche ne permet pas de se concentrer de manière adaptative sur les faiblesses spécifiques d'un modèle et laisse persister des annotations bruitées, ce qui dégrade l'efficacité de l'entraînement. Nous présentons LoopTool, un cadre d'évolution des données entièrement automatisé et conscient du modèle, qui boucle cette boucle en intégrant étroitement la synthèse des données et l'entraînement du modèle. LoopTool affine itérativement à la fois les données et le modèle grâce à trois modules synergiques : (1) le Sondage Glouton des Capacités (GCP) diagnostique les capacités maîtrisées et défaillantes du modèle ; (2) la Vérification des Étiquettes Guidée par un Juge (JGLV) utilise un modèle juge open source pour détecter et corriger les erreurs d'annotation, purifiant progressivement le jeu de données ; et (3) l'Expansion des Données Pilotée par les Erreurs (EDDE) génère de nouveaux échantillons difficiles basés sur les échecs identifiés. Ce processus en boucle fermée opère au sein d'un écosystème open source économique, éliminant la dépendance aux API propriétaires coûteuses. Les expériences montrent que notre modèle de 8B entraîné avec LoopTool surpasse significativement son générateur de données de 32B et obtient de nouveaux résultats state-of-the-art sur les benchmarks BFCL-v3 et ACEBench pour son échelle. Notre travail démontre que les pipelines de données en boucle fermée et auto-affinées peuvent considérablement améliorer les capacités d'utilisation d'outils des LLM.
Les modèles Vision-Langage-Action (VLA) ont montré un fort potentiel pour la manipulation robotique généraliste, mais leur dépendance aux démonstrations expertes limite leur capacité à apprendre des échecs et à effectuer des auto-corrections. L'apprentissage par renforcement (RL) aborde ces problèmes par des interactions d'auto-amélioration avec l'environnement physique, mais souffre d'une complexité d'échantillonnage élevée sur les robots réels. Nous présentons l'Optimisation de Politique basée sur un Modèle du Monde (WMPO), un cadre théorique pour le RL VLA sur-politique sans interaction avec l'environnement réel. Contrairement aux modèles du monde latents largement utilisés, WMPO se concentre sur des prédictions pixeliques qui alignent les trajectoires « imaginées » avec les caractéristiques VLA pré-entraînées sur des images à l'échelle du web. Fait crucial, WMPO permet à la politique d'effectuer un GRPO sur-politique qui offre de meilleures performances que les méthodes hors-politique souvent utilisées. Des expériences approfondies en simulation et sur des robots réels démontrent que WMPO (i) améliore considérablement l'efficacité de l'échantillonnage, (ii) atteint des performances globales supérieures, (iii) présente des comportements émergents tels que l'auto-correction, et (iv) démontre des capacités robustes de généralisation et d'apprentissage continu.
Le développement d'interfaces utilisateur (UI) nécessite de traduire des maquettes de conception en code fonctionnel, un processus qui reste répétitif et laborieux. Bien que les modèles vision-langage (VLM) récents automatisent la génération de code à partir d'UI, ils ne produisent que des mises en page HTML/CSS/JavaScript statiques, dépourvues d'interactivité. Pour résoudre ce problème, nous proposons WebVIA, le premier cadre agentiel pour la génération et la validation interactives de code à partir d'UI. Le cadre comprend trois composants : 1) un agent d'exploration pour capturer des captures d'écran d'UI multi-états ; 2) un modèle UI2Code qui génère du code interactif exécutable ; 3) un module de validation qui vérifie l'interactivité. Les expériences démontrent que WebVIA-Agent réalise une exploration d'UI plus stable et précise que les agents généralistes (par exemple, Gemini-2.5-Pro). De plus, nos modèles WebVIA-UI2Code affinent́s présentent des améliorations substantielles dans la génération de code HTML/CSS/JavaScript exécutable et interactif, surpassant leurs homologues de base sur les benchmarks de génération d'UI interactives et statiques. Notre code et nos modèles sont disponibles à l'adresse https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
Les modèles de langage multimodaux (MLLM) ont démontré des capacités remarquables dans les tâches de question-réponse visuo-linguistiques. Malgré leurs forces, ces modèles rencontrent souvent des difficultés à réaliser des tâches de raisonnement complexes telles que la résolution de problèmes mathématiques. Les travaux antérieurs se sont concentrés sur le fine-tuning sur des ensembles de données mathématiques spécialisés. Cependant, ces ensembles de données sont généralement distillés directement à partir de modèles enseignants, qui ne capturent que des schémas de raisonnement statiques, laissant un écart substantiel par rapport aux modèles étudiants. Cette dépendance à des ensembles de données fixes dérivés de modèles enseignants restreint non seulement la capacité du modèle à s'adapter à des questions nouvelles ou plus complexes qui dépassent le cadre des données d'entraînement, mais manque également de la profondeur itérative nécessaire à une généralisation robuste. Pour surmonter ces limitations, nous proposons \method, un cadre d'auto-évolution mathématique pour les MLLM. Contrairement aux paradigmes traditionnels de fine-tuning en une seule étape, \method affine itérativement le modèle par des cycles d'inférence, de réflexion et de rétroaction basée sur des récompenses. Concrètement, nous tirons parti d'un fine-tuning itératif en incorporant des chemins de raisonnement corrects dérivés de l'inférence à l'étape précédente et en intégrant les réflexions d'un modèle de récompense par résultat (ORM) spécialisé. Pour vérifier l'efficacité de \method, nous l'évaluons sur une série de benchmarks difficiles, démontrant des gains de performance significatifs par rapport aux modèles de base. Notamment, nos résultats expérimentaux sur MathVL-test surpassent le principal modèle de raisonnement mathématique multimodal open-source QVQ. Notre code et nos modèles sont disponibles à l'adresse https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Les agents web peinent à s'adapter à de nouveaux sites web en raison de la rareté des tâches et démonstrations spécifiques à l'environnement. Des travaux récents ont exploré la génération de données synthétiques pour relever ce défi, mais ils souffrent de problèmes de qualité des données où les tâches synthétisées contiennent des hallucinations impossibles à exécuter, et les trajectoires collectées sont bruitées avec des actions redondantes ou non alignées. Dans cet article, nous proposons SynthAgent, un cadre de supervision entièrement synthétique visant à améliorer la qualité des données synthétiques via un double raffinement des tâches et des trajectoires. Notre approche commence par synthétiser des tâches diverses grâce à une exploration catégorisée des éléments web, garantissant une couverture efficace de l'environnement cible. Pendant la collecte des trajectoires, nous affinons les tâches lorsque des conflits avec les observations réelles sont détectés, atténuant les hallucinations tout en maintenant la cohérence des tâches. Après la collecte, nous effectuons un raffinement des trajectoires avec un contexte global pour réduire le bruit ou les désalignements potentiels. Enfin, nous affinons des agents web open-source sur les données synthétiques raffinées pour les adapter à l'environnement cible. Les résultats expérimentaux démontrent que SynthAgent surpasse les méthodes existantes de données synthétiques, validant l'importance d'une supervision synthétique de haute qualité. Le code sera publiquement disponible à l'adresse https://github.com/aiming-lab/SynthAgent.
Les modèles de diffusion ont démontré de fortes performances génératives grâce à des méthodes de guidage telles que le guidage sans classifieur (CFG), qui améliorent la qualité des sorties en modifiant la trajectoire d'échantillonnage. Ces méthodes améliorent généralement une sortie cible en dégradant intentionnellement une autre, souvent la sortie non conditionnelle, à l'aide de fonctions de perturbation heuristiques telles que le mélange d'identité ou les conditions floues. Cependant, ces approches manquent de fondements principés et reposent sur des distorsions conçues manuellement. Dans ce travail, nous proposons l'Adversarial Sinkhorn Attention Guidance (ASAG), une nouvelle méthode qui réinterprète les scores d'attention dans les modèles de diffusion sous l'angle du transport optimal et perturbe intentionnellement le coût de transport via l'algorithme de Sinkhorn. Au lieu de corrompre naïvement le mécanisme d'attention, l'ASAG injecte un coût adversarial dans les couches d'auto-attention pour réduire la similarité pixel à pixel entre les requêtes et les clés. Cette dégradation délibérée affaiblit les alignements d'attention trompeurs et conduit à une amélioration de la qualité des échantillons conditionnels et non conditionnels. L'ASAG montre des améliorations constantes dans la diffusion texte-image, et améliore la contrôlabilité et la fidélité dans des applications en aval telles que IP-Adapter et ControlNet. La méthode est légère, plug-and-play, et améliore la fiabilité sans nécessiter de réentraînement du modèle.
Les outils de codage agentiques, tels qu'OpenAI Codex, Claude Code et Cursor, transforment le paysage de l'ingénierie logicielle. Ces systèmes alimentés par l'IA fonctionnent comme des coéquipiers autonomes capables de planifier et d'exécuter des tâches de développement complexes. Les agents sont devenus des participants actifs dans le remaniement (refactoring), une pierre angulaire du développement logiciel durable visant à améliorer la qualité interne du code sans modifier le comportement observable. Malgré leur adoption croissante, il existe un manque critique de compréhension empirique concernant la façon dont le remaniement agentique est utilisé en pratique, comment il se compare au remaniement piloté par l'homme et quel impact il a sur la qualité du code. Pour combler cette lacune empirique, nous présentons une étude à grande échelle des remaniements générés par des agents d'IA dans des projets Java open source réels, analysant 15 451 instances de remaniement issues de 12 256 demandes de tirage (pull requests) et 14 988 validations (commits) provenant du jeu de données AIDev. Notre analyse empirique montre que le remaniement est une activité courante et intentionnelle dans ce paradigme de développement, les agents ciblant explicitement le remaniement dans 26,1 % des validations. L'analyse des types de remaniement révèle que les efforts agentiques sont dominés par des modifications de bas niveau, orientées vers la cohérence, telles que Changer le Type de Variable (11,8 %), Renommer le Paramètre (10,4 %) et Renommer la Variable (8,5 %), reflétant une préférence pour les améliorations localisées par rapport aux modifications de conception de haut niveau courantes dans le remaniement humain. De plus, les motivations derrière le remaniement agentique se concentrent massivement sur des préoccupations de qualité interne, avec la maintenabilité (52,5 %) et la lisibilité (28,1 %). En outre, l'évaluation quantitative des métriques de qualité du code montre que le remaniement agentique produit de petites améliorations statistiquement significatives des métriques structurelles, particulièrement pour les changements de niveau moyen, réduisant la taille et la complexité des classes (par exemple, médiane Δ de la LOC des classes = -15,25).
Les modèles de langage présentent des capacités remarquables de génération de langage naturel mais restent sujets aux hallucinations, produisant des informations factuellement incorrectes malgré des réponses syntaxiquement cohérentes. Cette étude présente l'Oracle de Licence, une solution architecturale conçue pour endiguer les hallucinations dans les modèles de langage en imposant des contraintes de vérité via une validation formelle contre des graphes de connaissances structurés. Contrairement aux approches statistiques qui reposent sur l'augmentation des données ou le fine-tuning, l'Oracle de Licence intègre une étape de validation déterministe dans le processus génératif du modèle, garantissant que seules des affirmations factuellement exactes sont produites. Nous avons évalué l'efficacité de l'Oracle de Licence via des expériences le comparant à plusieurs méthodes de pointe, incluant la génération de base par un modèle de langage, le fine-tuning pour le rappel factuel, le fine-tuning pour un comportement d'abstention, et la génération augmentée par retrieval (RAG). Nos résultats démontrent que bien que le RAG et le fine-tuning améliorent les performances, ils n'éliminent pas les hallucinations. En revanche, l'Oracle de Licence a atteint une précision d'abstention parfaite (AP = 1,0) et zéro réponse fausse (FAR-NE = 0,0), garantissant que seules des affirmations valides étaient générées avec une exactitude factuelle de 89,1 %. Ce travail montre que les innovations architecturales, comme l'Oracle de Licence, offrent une solution nécessaire et suffisante contre les hallucinations dans les domaines dotés de représentations de connaissances structurées, proposant des garanties que les méthodes statistiques ne peuvent égaler. Bien que l'Oracle de Licence soit spécifiquement conçu pour traiter les hallucinations dans les domaines factuels, son cadre jette les bases d'une génération contrainte par la vérité pour les futurs systèmes d'IA, ouvrant une nouvelle voie vers des modèles fiables et épistémiquement fondés.