papers.description
Les grands modèles de langage excellent dans la génération de code au niveau des fonctions et des fichiers, mais la création de dépôts complets à partir de zéro reste un défi fondamental. Ce processus exige une planification cohérente et fiable à travers les étapes de proposition et d'implémentation, tandis que le langage naturel, en raison de son ambiguïté et de sa verbosité, est mal adapté pour représenter fidèlement des structures logicielles complexes. Pour résoudre ce problème, nous introduisons le *Repository Planning Graph* (RPG), une représentation persistante qui unifie la planification aux niveaux de proposition et d'implémentation en encodant les capacités, les structures de fichiers, les flux de données et les fonctions dans un seul graphe. Le RPG remplace le langage naturel ambigu par un plan explicite, permettant une planification à long terme et une génération de dépôts évolutive. En s'appuyant sur le RPG, nous développons *ZeroRepo*, un framework piloté par graphe pour la génération de dépôts à partir de zéro. Il fonctionne en trois étapes : la planification au niveau de la proposition et l'affinement au niveau de l'implémentation pour construire le graphe, suivi de la génération de code guidée par le graphe avec validation des tests. Pour évaluer ce cadre, nous construisons *RepoCraft*, un benchmark de six projets réels comprenant 1 052 tâches. Sur *RepoCraft*, *ZeroRepo* produit des dépôts d'une moyenne de près de 36 000 lignes de code (LOC), soit environ 3,9 fois le meilleur modèle de référence (*Claude Code*) et environ 64 fois les autres modèles de référence. Il atteint une couverture fonctionnelle de 81,5 % et un taux de réussite de 69,7 %, dépassant *Claude Code* de 27,3 et 35,8 points de pourcentage, respectivement. Une analyse approfondie montre que le RPG modélise les dépendances complexes, permet une planification progressivement plus sophistiquée grâce à une mise à l'échelle quasi linéaire, et améliore la compréhension des dépôts par les LLM, accélérant ainsi la localisation des agents.
Les modèles de langage de grande taille (LLM) multimodaux unifiés capables à la fois de comprendre et de générer du contenu visuel présentent un potentiel immense. Cependant, les modèles open-source existants souffrent souvent d'un compromis de performance entre ces capacités. Nous présentons Manzano, un cadre unifié simple et évolutif qui réduit considérablement cette tension en associant un tokenizer d'images hybride à une méthode d'entraînement soigneusement conçue. Un encodeur visuel unique alimente deux adaptateurs légers qui produisent des embeddings continus pour la compréhension image-texte et des tokens discrets pour la génération texte-image au sein d'un espace sémantique commun. Un LLM autorégressif unifié prédit des sémantiques de haut niveau sous forme de tokens textuels et visuels, avec un décodeur de diffusion auxiliaire traduisant ensuite les tokens visuels en pixels. L'architecture, associée à une méthode d'entraînement unifiée sur des données de compréhension et de génération, permet un apprentissage conjoint évolutif des deux capacités. Manzano obtient des résultats de pointe parmi les modèles unifiés et rivalise avec les modèles spécialisés, en particulier sur les évaluations riches en texte. Nos études montrent des conflits de tâches minimes et des gains constants liés à l'augmentation de la taille du modèle, validant notre choix de conception d'un tokenizer hybride.
La modélisation générative, l'apprentissage de représentation et la classification sont trois problèmes fondamentaux en apprentissage automatique (AA), mais leurs solutions de pointe (SoTA) restent largement disjointes. Dans cet article, nous posons la question suivante : Un principe unifié peut-il aborder ces trois problèmes ? Une telle unification pourrait simplifier les pipelines d’AA et favoriser une plus grande synergie entre les tâches. Nous introduisons le réseau de zonage latent (Latent Zoning Network, LZN) comme une étape vers cet objectif. Au cœur de LZN se trouve la création d’un espace latent gaussien partagé qui encode l’information pour toutes les tâches. Chaque type de données (par exemple, images, texte, étiquettes) est équipé d’un encodeur qui mappe les échantillons vers des zones latentes disjointes, et d’un décodeur qui mappe les latents vers les données. Les tâches d’AA sont exprimées comme des compositions de ces encodeurs et décodeurs : par exemple, la génération d’images conditionnée par des étiquettes utilise un encodeur d’étiquettes et un décodeur d’images ; l’embedding d’images utilise un encodeur d’images ; la classification utilise un encodeur d’images et un décodeur d’étiquettes. Nous démontrons le potentiel de LZN dans trois scénarios de complexité croissante : (1) LZN peut améliorer les modèles existants (génération d’images) : Combiné avec le modèle SoTA Rectified Flow, LZN améliore le FID sur CIFAR10 de 2,76 à 2,59 sans modifier l’objectif d’apprentissage. (2) LZN peut résoudre des tâches de manière indépendante (apprentissage de représentation) : LZN peut implémenter l’apprentissage de représentation non supervisé sans fonctions de perte auxiliaires, surpassant les méthodes pionnières MoCo et SimCLR respectivement de 9,3 % et 0,2 % sur la classification linéaire en aval sur ImageNet. (3) LZN peut résoudre plusieurs tâches simultanément (génération et classification conjointes) : Avec des encodeurs/décodeurs d’images et d’étiquettes, LZN effectue les deux tâches conjointement par conception, améliorant le FID et atteignant une précision de classification SoTA sur CIFAR10. Le code et les modèles entraînés sont disponibles à l’adresse https://github.com/microsoft/latent-zoning-networks. Le site web du projet se trouve à l’adresse https://zinanlin.me/blogs/latent_zoning_networks.html.
La création de modèles 3D haute fidélité d'environnements intérieurs est essentielle pour des applications dans les domaines de la conception, de la réalité virtuelle et de la robotique. Cependant, la modélisation 3D manuelle reste chronophage et laborieuse. Bien que les récents progrès en intelligence artificielle générative aient permis la synthèse automatisée de scènes, les méthodes existantes rencontrent souvent des difficultés à équilibrer qualité visuelle, diversité, cohérence sémantique et contrôle utilisateur. Un frein majeur réside dans l'absence d'un jeu de données à grande échelle et de haute qualité spécifiquement adapté à cette tâche. Pour combler cette lacune, nous introduisons un jeu de données synthétique complet, comprenant 12 328 scènes structurées annotées avec 57 440 pièces et 4,7 millions de rendus 2D photoréalistes. En exploitant ce jeu de données, nous présentons SpatialGen, un nouveau modèle de diffusion multi-vues et multi-modal qui génère des scènes intérieures 3D réalistes et sémantiquement cohérentes. À partir d'une disposition 3D et d'une image de référence (dérivée d'une invite textuelle), notre modèle synthétise l'apparence (image en couleur), la géométrie (carte des coordonnées de la scène) et la sémantique (carte de segmentation sémantique) depuis des points de vue arbitraires, tout en préservant la cohérence spatiale entre les modalités. SpatialGen génère systématiquement des résultats supérieurs aux méthodes précédentes dans nos expériences. Nous mettons à disposition nos données et modèles en open source pour renforcer la communauté et faire progresser le domaine de la compréhension et de la génération de scènes intérieures.
L'avancée rapide des Modèles de Langage Multimodaux de Grande Tchelle (MLLMs) a rendu leur alignement avec les préférences humaines un défi critique. Les Modèles de Récompense (RMs) constituent une technologie clé pour atteindre cet objectif, mais un guide systématique pour la construction de Modèles de Récompense Multimodaux (MRMs) de pointe fait actuellement défaut, tant dans le milieu académique que dans l'industrie. À travers une analyse expérimentale exhaustive, cet article vise à fournir une « recette » claire pour la construction de MRMs performants. Nous examinons systématiquement chaque composant crucial du pipeline de développement des MRMs, incluant les paradigmes de modélisation de récompense (par exemple, Naive-RM, Critic-based RM et Generative RM), l'architecture de la tête de récompense, les stratégies d'entraînement, la curation des données (couvrant plus de dix ensembles de données multimodales et textuelles de préférence), le modèle de base et l'échelle du modèle, ainsi que les méthodes d'ensemble. Sur la base de ces insights expérimentaux, nous introduisons BaseReward, une base de référence puissante et efficace pour la modélisation de récompense multimodale. BaseReward adopte une architecture simple mais efficace, construite sur un modèle de base {Qwen2.5-VL}, dotée d'une tête de récompense optimisée à deux couches, et entraînée sur un mélange soigneusement sélectionné de données de préférence multimodales et textuelles de haute qualité. Nos résultats montrent que BaseReward établit un nouveau SOTA sur les principaux benchmarks tels que MM-RLHF-Reward Bench, VL-Reward Bench et Multimodal Reward Bench, surpassant les modèles précédents. De plus, pour valider son utilité pratique au-delà des benchmarks statiques, nous intégrons BaseReward dans un pipeline d'apprentissage par renforcement en conditions réelles, améliorant avec succès les performances d'un MLLM sur diverses tâches de perception, de raisonnement et de conversation. Ce travail ne fournit pas seulement un MRM de premier ordre, mais, plus important encore, offre à la communauté un guide clair et empiriquement étayé pour le développement de modèles de récompense robustes pour la prochaine génération de MLLMs.
L'apprentissage par renforcement (RL) en milieu réel avec des modèles vision-langage-action (VLA) est limité par des récompenses clairsemées et artisanales, ainsi qu'une exploration inefficace. Nous présentons VLAC, un modèle de récompense de processus général construit sur InternVL et entraîné sur des ensembles de données hétérogènes à grande échelle. Étant donné des observations par paires et un objectif linguistique, il génère un delta de progression dense et un signal de fin, éliminant ainsi l'ingénierie de récompense spécifique à la tâche, et permet un transfert en contexte en une seule étape vers des tâches et environnements inédits. VLAC est entraîné sur des ensembles de données vision-langage pour renforcer les capacités de perception, de dialogue et de raisonnement, ainsi que sur des données de trajectoires robotiques et humaines qui ancrent la génération d'actions et l'estimation de la progression. Il est également renforcé pour rejeter les invites non pertinentes et détecter la régression ou la stagnation en construisant un grand nombre d'échantillons négatifs et sémantiquement discordants. Avec un contrôle des invites, un seul modèle VLAC génère alternativement des jetons de récompense et d'action, unifiant ainsi le critique et la politique. Déployé dans une boucle RL asynchrone en milieu réel, nous superposons un protocole gradué d'intervention humaine (relecture de démonstrations hors ligne, retour et exploration, exploration guidée par l'humain) qui accélère l'exploration et stabilise l'apprentissage initial. Sur quatre tâches de manipulation distinctes en milieu réel, VLAC augmente les taux de réussite d'environ 30 % à environ 90 % en moins de 200 épisodes d'interaction réelle ; l'intégration d'interventions humaines dans la boucle améliore encore l'efficacité des échantillons de 50 % et atteint jusqu'à 100 % de réussite finale.
Nous présentons Lynx, un modèle haute fidélité pour la synthèse vidéo personnalisée à partir d'une seule image d'entrée. Basé sur un modèle de fondation open-source de type Diffusion Transformer (DiT), Lynx introduit deux adaptateurs légers pour garantir la fidélité de l'identité. L'ID-adaptateur utilise un Perceiver Resampler pour convertir les embeddings faciaux dérivés d'ArcFace en tokens d'identité compacts pour le conditionnement, tandis que le Ref-adaptateur intègre des caractéristiques denses issues d'un VAE via une voie de référence figée, injectant des détails fins à travers toutes les couches du transformateur par attention croisée. Ces modules permettent collectivement une préservation robuste de l'identité tout en maintenant la cohérence temporelle et le réalisme visuel. Grâce à une évaluation sur un benchmark soigneusement sélectionné de 40 sujets et 20 prompts impartiaux, générant 800 cas de test, Lynx a démontré une ressemblance faciale supérieure, un suivi compétitif des prompts et une qualité vidéo élevée, faisant ainsi progresser l'état de l'art en génération vidéo personnalisée.
Dans le domaine de l'automatisation des interactions humain-interface graphique (GUI) pilotée par l'IA, bien que les progrès rapides des modèles de langage multimodaux de grande envergure et des techniques de réglage fin par renforcement aient permis des avancées remarquables, un défi fondamental persiste : leur logique d'interaction s'écarte significativement des schémas naturels de communication humain-GUI. Pour combler cette lacune, nous proposons « Blink-Think-Link » (BTL), un cadre inspiré du cerveau pour l'interaction humain-GUI qui imite le processus cognitif humain entre les utilisateurs et les interfaces graphiques. Le système décompose les interactions en trois phases biologiquement plausibles : (1) Blink – détection rapide et attention portée aux zones pertinentes de l'écran, analogue aux mouvements oculaires saccadiques ; (2) Think – raisonnement et prise de décision de haut niveau, reflétant la planification cognitive ; et (3) Link – génération de commandes exécutables pour un contrôle moteur précis, imitant les mécanismes de sélection d'actions humains. De plus, nous introduisons deux innovations techniques clés pour le cadre BTL : (1) Blink Data Generation – un pipeline d'annotation automatisé spécifiquement optimisé pour les données de clignement, et (2) BTL Reward – le premier mécanisme de récompense basé sur des règles permettant un apprentissage par renforcement guidé à la fois par le processus et le résultat. Sur la base de ce cadre, nous développons un modèle d'agent GUI nommé BTL-UI, qui démontre des performances de pointe constantes dans des tâches de compréhension statique des GUI et d'interaction dynamique lors de benchmarks complets. Ces résultats fournissent une validation empirique concluante de l'efficacité du cadre dans le développement d'agents GUI avancés.
Bien que COLMAP soit longtemps resté la méthode prédominante pour l'optimisation des paramètres de caméra dans des scènes statiques, il est limité par son temps d'exécution prolongé et sa dépendance aux masques de mouvement de référence (GT) pour son application à des scènes dynamiques. De nombreux efforts ont tenté de l'améliorer en intégrant davantage de connaissances a priori comme supervision, telles que la distance focale GT, les masques de mouvement, les nuages de points 3D, les poses de caméra et la profondeur métrique, qui sont cependant généralement indisponibles dans les vidéos RGB capturées de manière occasionnelle. Dans cet article, nous proposons une nouvelle méthode pour une optimisation plus précise et efficace des paramètres de caméra dans des scènes dynamiques, uniquement supervisée par une seule vidéo RGB. Notre méthode se compose de trois éléments clés : (1) des filtres de suivi par patchs, pour établir des relations robustes et maximalement clairsemées de type charnière à travers la vidéo RGB ; (2) une optimisation conjointe prenant en compte les valeurs aberrantes, pour une optimisation efficace des paramètres de caméra en pondérant de manière adaptative les valeurs aberrantes en mouvement, sans dépendre de connaissances a priori sur le mouvement ; (3) une stratégie d'optimisation en deux étapes, pour améliorer la stabilité et la vitesse d'optimisation grâce à un compromis entre les limites Softplus et les minima convexes dans les fonctions de perte. Nous évaluons visuellement et numériquement nos estimations de caméra. Pour valider davantage la précision, nous intégrons les estimations de caméra dans une méthode de reconstruction 4D et évaluons les scènes 3D résultantes, ainsi que les cartes RGB et de profondeur rendues en 2D. Nous réalisons des expériences sur 4 ensembles de données du monde réel (NeRF-DS, DAVIS, iPhone et TUM-dynamics) et 1 ensemble de données synthétique (MPI-Sintel), démontrant que notre méthode estime les paramètres de caméra de manière plus efficace et précise avec une seule vidéo RGB comme unique supervision.
La synthèse vocale guidée par instructions (ITTS) permet aux utilisateurs de contrôler la génération de parole via des invites en langage naturel, offrant une interface plus intuitive que les systèmes TTS traditionnels. Cependant, l'alignement entre les instructions de style de l'utilisateur et la perception de l'auditeur reste largement inexploré. Ce travail présente d'abord une analyse perceptive de la contrôlabilité de l'ITTS à travers deux dimensions expressives (adverbes de degré et intensité émotionnelle graduée) et collecte des évaluations humaines sur l'âge du locuteur et les attributs d'emphase au niveau des mots. Pour révéler de manière exhaustive l'écart entre instruction et perception, nous proposons une collecte de données avec des évaluations humaines à grande échelle, nommée corpus Expressive VOice Control (E-VOC). De plus, nous montrons que (1) gpt-4o-mini-tts est le modèle ITTS le plus fiable, avec un excellent alignement entre les instructions et les énoncés générés à travers les dimensions acoustiques. (2) Les 5 systèmes ITTS analysés ont tendance à générer des voix d'adultes même lorsque les instructions demandent des voix d'enfant ou de personnes âgées. (3) Le contrôle fin reste un défi majeur, indiquant que la plupart des systèmes ITTS ont une marge d'amélioration substantielle dans l'interprétation des instructions d'attributs légèrement différentes.
Les agents de jeu de rôle (RPAs) ont suscité un intérêt croissant pour leur capacité à simuler des personnages immersifs et interactifs. Cependant, les approches existantes se concentrent principalement sur des profils de rôle statiques, négligeant les capacités perceptives dynamiques inhérentes aux humains. Pour combler cette lacune, nous introduisons le concept de profils de rôle dynamiques en intégrant la modalité vidéo dans les RPAs. Pour soutenir cette initiative, nous construisons Role-playing-Video60k, un ensemble de données à grande échelle et de haute qualité comprenant 60 000 vidéos et 700 000 dialogues correspondants. Sur la base de cet ensemble de données, nous développons un cadre RPA complet qui combine un échantillonnage temporel adaptatif avec des représentations de profils de rôle à la fois dynamiques et statiques. Plus précisément, le profil dynamique est créé en échantillonnant de manière adaptative les images vidéo et en les fournissant au LLM dans l'ordre temporel, tandis que le profil statique se compose (1) des dialogues des personnages issus des vidéos d'entraînement lors du réglage fin, et (2) d'un contexte résumé de la vidéo d'entrée lors de l'inférence. Cette intégration conjointe permet aux RPAs de générer des réponses plus pertinentes. De plus, nous proposons une méthode d'évaluation robuste couvrant huit métriques. Les résultats expérimentaux démontrent l'efficacité de notre cadre, soulignant l'importance des profils de rôle dynamiques dans le développement des RPAs.
La conversation humaine implique le langage, la parole et les indices visuels, chaque médium fournissant des informations complémentaires. Par exemple, la parole transmet une ambiance ou un ton qui n'est pas entièrement capturé par le texte seul. Bien que les modèles de langage multimodaux (LLM) se concentrent sur la génération de réponses textuelles à partir d'entrées diverses, moins d'attention a été accordée à la génération d'une parole naturelle et engageante. Nous proposons un agent humanoïde qui génère des réponses vocales basées sur l'humeur de la conversation et des informations sur le style de réponse. Pour y parvenir, nous construisons un nouvel ensemble de données de conversation multisensorielle axé sur la parole, permettant aux agents de générer une parole naturelle. Nous proposons ensuite un modèle basé sur un LLM multimodal pour générer des réponses textuelles et des descriptions vocales, qui sont utilisées pour produire une parole couvrant des informations paralinguistiques. Les résultats expérimentaux démontrent l'efficacité de l'utilisation des modalités visuelles et audio dans la conversation pour générer une parole engageante. Le code source est disponible à l'adresse suivante : https://github.com/kimtaesu24/MSenC.
Les modèles de reconnaissance automatique de la parole (ASR) pré-entraînés, tels que Whisper, offrent de bonnes performances mais nécessitent encore une adaptation de domaine pour gérer un vocabulaire et des expressions inconnus. Dans de nombreux contextes réels, la collecte de données vocales s’avère impraticable, rendant nécessaire une adaptation basée uniquement sur le texte. Nous proposons WhisTLE, une méthode d’adaptation profondément supervisée et exclusivement textuelle pour les modèles ASR pré-entraînés de type encodeur-décodeur. WhisTLE entraîne un autoencodeur variationnel (VAE) pour modéliser les sorties de l’encodeur à partir du texte et affine le décodeur en utilisant l’encodeur texte-vers-latent appris, éventuellement combiné avec une adaptation par synthèse vocale (TTS). Lors de l’inférence, l’encodeur original est restauré, n’entraînant aucun coût supplémentaire en temps d’exécution. Sur quatre ensembles de données hors domaine et quatre modèles ASR, WhisTLE avec TTS réduit le taux d’erreur sur les mots (WER) de 12,3 % par rapport à une adaptation TTS seule et surpasse toutes les méthodes de référence non-WhisTLE dans 27 des 32 scénarios.
L'objectif ultime des agents incarnés est de créer des collaborateurs capables d'interagir avec les humains, et non de simples exécutants qui suivent passivement des instructions. Cela nécessite que les agents communiquent, coordonnent et adaptent leurs actions en fonction des retours humains. Récemment, les avancées dans les VLAs (Vision-Language-Action models) ont offert une voie vers cet objectif. Cependant, la plupart des agents incarnés basés sur les VLAs actuels fonctionnent en mode unidirectionnel : ils reçoivent une instruction et l'exécutent sans retour d'information. Cette approche échoue dans des scénarios réels où les instructions sont souvent ambiguës. Dans cet article, nous abordons ce problème avec le cadre Ask-to-Clarify. Notre cadre résout d'abord les instructions ambiguës en posant des questions dans un dialogue multi-tours. Ensuite, il génère des actions de bas niveau de manière end-to-end. Plus précisément, le cadre Ask-to-Clarify se compose de deux composants : un VLM (Vision-Language Model) pour la collaboration et un modèle de diffusion pour l'action. Nous introduisons également un module de connexion qui génère des conditions pour la diffusion en fonction de la sortie du VLM. Ce module ajuste l'observation par les instructions pour créer des conditions fiables. Nous entraînons notre cadre avec une stratégie d'isolation des connaissances en deux étapes. Tout d'abord, nous affinons le composant de collaboration en utilisant des données de dialogue résolvant l'ambiguïté pour gérer celle-ci. Ensuite, nous intégrons le composant d'action tout en gelant celui de collaboration. Cela préserve les capacités d'interaction tout en affinant la diffusion pour générer des actions. La stratégie d'entraînement garantit que notre cadre peut d'abord poser des questions, puis générer des actions. Pendant l'inférence, un détecteur de signal fonctionne comme un routeur qui aide notre cadre à basculer entre poser des questions et effectuer des actions. Nous évaluons le cadre Ask-to-Clarify dans 8 tâches du monde réel, où il surpasse les VLAs de pointe existants. Les résultats suggèrent que notre cadre proposé, ainsi que la stratégie d'entraînement, offrent une voie vers des agents incarnés collaboratifs.