papers.description
L'automatisation de la transformation des conceptions d'interface utilisateur (UI) en code front-end présente un potentiel significatif pour accélérer le développement logiciel et démocratiser les flux de travail de conception. Bien que les grands modèles de langage (LLMs) récents aient montré des progrès dans la génération de texte à code, de nombreuses approches existantes reposent uniquement sur des invites en langage naturel, limitant ainsi leur efficacité à capturer la disposition spatiale et l'intention visuelle de la conception. En revanche, le développement d'interfaces utilisateur en pratique est intrinsèquement multimodal, commençant souvent par des esquisses visuelles ou des maquettes. Pour combler cette lacune, nous introduisons un cadre modulaire multi-agents qui effectue la génération UI-à-code en trois étapes interprétables : ancrage, planification et génération. L'agent d'ancrage utilise un modèle vision-langage pour détecter et étiqueter les composants de l'interface utilisateur, l'agent de planification construit une disposition hiérarchique en utilisant des connaissances préalables en ingénierie front-end, et l'agent de génération produit du code HTML/CSS via une synthèse adaptative basée sur des invites. Cette conception améliore la robustesse, l'interprétabilité et la fidélité par rapport aux méthodes boîte noire de bout en bout. De plus, nous étendons ce cadre en un moteur de données scalable qui produit automatiquement des paires image-code à grande échelle. En utilisant ces exemples synthétiques, nous affinons et renforçons un modèle vision-langage open-source, obtenant des gains notables dans la compréhension des interfaces utilisateur et la qualité du code. Des expériences approfondies démontrent que notre approche atteint des performances de pointe en termes de précision de la disposition, de cohérence structurelle et de correction du code. Notre code est rendu public à l'adresse https://github.com/leigest519/ScreenCoder.
Dans ce rapport, nous présentons Falcon-H1, une nouvelle série de grands modèles de langage (LLM) dotée de conceptions architecturales hybrides optimisées pour des performances élevées et une efficacité accrue dans divers cas d'utilisation. Contrairement aux précédents modèles Falcon basés uniquement sur des architectures Transformer ou Mamba, Falcon-H1 adopte une approche hybride parallèle qui combine l'attention basée sur les Transformers avec des modèles d'espace d'état (SSM), reconnus pour leur mémoire contextuelle étendue et leur efficacité computationnelle. Nous avons revisité de manière systématique la conception des modèles, la stratégie de données et la dynamique d'apprentissage, remettant en question les pratiques conventionnelles du domaine. Falcon-H1 est proposé dans plusieurs configurations, incluant des variantes de base et ajustées par instruction avec 0,5B, 1,5B, 1,5B-deep, 3B, 7B et 34B paramètres. Des modèles quantifiés ajustés par instruction sont également disponibles, totalisant plus de 30 points de contrôle sur le Hugging Face Hub. Les modèles Falcon-H1 démontrent des performances de pointe et une efficacité exceptionnelle en termes de paramètres et de formation. Le modèle phare Falcon-H1-34B rivalise ou surpasse des modèles allant jusqu'à 70B, tels que Qwen3-32B, Qwen2.5-72B et Llama3.3-70B, tout en utilisant moins de paramètres et de données. Les modèles plus petits suivent une tendance similaire : le Falcon-H1-1.5B-Deep rivalise avec les meilleurs modèles actuels de 7B-10B, et le Falcon-H1-0.5B se compare favorablement aux modèles typiques de 7B de 2024. Ces modèles excellent dans le raisonnement, les mathématiques, les tâches multilingues, le suivi d'instructions et les connaissances scientifiques. Avec un support allant jusqu'à 256K tokens contextuels et 18 langues, Falcon-H1 est adapté à une large gamme d'applications. Tous les modèles sont publiés sous une licence open-source permissive, soulignant notre engagement envers une recherche en IA accessible et impactante.
La création 3D a toujours été une force unique de l’être humain, alimentée par notre capacité à déconstruire et à réassembler des objets en utilisant nos yeux, notre esprit et nos mains. Cependant, les outils actuels de conception 3D peinent à reproduire ce processus naturel, nécessitant une expertise artistique considérable et un travail manuel important. Cet article présente BANG, une nouvelle approche générative qui fait le lien entre la génération 3D et le raisonnement, permettant une décomposition intuitive et flexible des objets 3D au niveau des parties. Au cœur de BANG se trouve la « Dynamique Explosée Générative », qui crée une séquence fluide d’états explosés pour une géométrie d’entrée, séparant progressivement les parties tout en préservant leur cohérence géométrique et sémantique. BANG utilise un modèle de diffusion latente à grande échelle pré-entraîné, affiné pour la dynamique explosée avec un adaptateur léger de vue explosée, permettant un contrôle précis du processus de décomposition. Il intègre également un module d’attention temporelle pour assurer des transitions fluides et une cohérence dans le temps. BANG améliore le contrôle avec des invites spatiales, telles que des boîtes englobantes et des régions de surface, permettant aux utilisateurs de spécifier quelles parties décomposer et comment. Cette interaction peut être étendue avec des modèles multimodaux comme GPT-4, permettant des manipulations 2D-à-3D pour des flux de travail plus intuitifs et créatifs. Les capacités de BANG s’étendent à la génération de géométries détaillées au niveau des parties, à l’association des parties avec des descriptions fonctionnelles, et à la facilitation de flux de travail de création et de fabrication 3D conscients des composants. De plus, BANG offre des applications dans l’impression 3D, où des parties séparables sont générées pour une impression et un réassemblage faciles. En essence, BANG permet une transformation fluide des concepts imaginatifs vers des actifs 3D détaillés, offrant une nouvelle perspective sur la création qui résonne avec l’intuition humaine.
L'apprentissage par renforcement a démontré son efficacité pour améliorer les capacités de raisonnement des grands modèles de langage. Les efforts de recherche récents ont progressivement étendu ce paradigme aux tâches de raisonnement multimodal. En raison de la complexité et de la diversité inhérentes des tâches multimodales, notamment en termes de contenu sémantique et de formulations de problèmes, les modèles existants présentent souvent des performances instables à travers divers domaines et niveaux de difficulté. Pour répondre à ces limitations, nous proposons VL-Cogito, un modèle avancé de raisonnement multimodal entraîné via un nouveau cadre d'apprentissage par renforcement progressif à curriculum multi-étapes (PCuRL). PCuRL guide systématiquement le modèle à travers des tâches de difficulté croissante, améliorant considérablement ses capacités de raisonnement dans divers contextes multimodaux. Le cadre introduit deux innovations clés : (1) un mécanisme de pondération souple de la difficulté en ligne, ajustant dynamiquement la difficulté d'entraînement à travers les étapes successives de l'apprentissage par renforcement ; et (2) un mécanisme de récompense dynamique basé sur la longueur, qui encourage le modèle à réguler de manière adaptative la longueur de son chemin de raisonnement en fonction de la complexité de la tâche, équilibrant ainsi l'efficacité du raisonnement avec la justesse. Les évaluations expérimentales démontrent que VL-Cogito correspond ou surpasse systématiquement les modèles orientés raisonnement existants sur les principaux benchmarks multimodaux couvrant les domaines des mathématiques, des sciences, de la logique et de la compréhension générale, validant ainsi l'efficacité de notre approche.
Le pré-entraînement contrastif langue-image (CLIP) est un modèle de base populaire, supportant des tâches allant de la classification zero-shot, à la recherche, jusqu'aux encodeurs pour les grands modèles de langage multimodaux (MLLMs). Bien que CLIP ait été entraîné avec succès sur des milliards de paires image-texte provenant du monde anglophone, étendre l'entraînement de CLIP pour apprendre à partir de données issues du web mondial reste un défi : (1) aucune méthode de curation n'est disponible pour gérer les données provenant du monde non anglophone ; (2) les performances en anglais des versions multilingues existantes de CLIP sont inférieures à celles de leur homologue monolingue anglais, un phénomène connu sous le nom de "malédiction du multilinguisme" courant dans les LLMs. Nous présentons ici MetaCLIP 2, la première méthode d'entraînement de CLIP à partir de zéro sur des paires image-texte à l'échelle du web mondial. Pour généraliser nos résultats, nous menons des ablations rigoureuses avec des modifications minimales nécessaires pour relever les défis mentionnés et proposons une méthode permettant des bénéfices mutuels entre les données anglophones et non anglophones. En classification zero-shot sur ImageNet, MetaCLIP 2 ViT-H/14 surpasse son homologue monolingue anglais de 0,8 % et mSigLIP de 0,7 %, et établit de manière surprenante un nouvel état de l'art sans facteurs de confusion au niveau du système (par exemple, traduction, modifications architecturales spécifiques) sur des benchmarks multilingues, tels que CVQA avec 57,4 %, Babel-ImageNet avec 50,2 % et XM3600 avec 64,3 % en recherche image-texte.
Les grands modèles de langage (LLM) rencontrent une faible efficacité matérielle lors du décodage, en particulier pour les tâches de raisonnement à contexte long. Cet article présente Step-3, un modèle de langage visuel (VLM) de 321 milliards de paramètres, conçu avec une co-conception matérielle-système optimisée pour minimiser les coûts de décodage. Step-3 innove dans deux dimensions clés : (1) Un nouveau mécanisme d'attention par factorisation multi-matrices (MFA) qui réduit significativement la taille du cache KV et les calculs tout en maintenant une expressivité élevée de l'attention, et (2) la dissociation Attention-FFN (AFD), un système d'inférence distribué qui découple les couches d'attention et les réseaux feed-forward (FFN) en sous-systèmes spécialisés. Cette co-conception atteint une efficacité de coût sans précédent : Step-3 réduit significativement les coûts théoriques de décodage par rapport à des modèles comme DeepSeek-V3 et Qwen3 MoE 235B, avec des gains qui s'accentuent pour des contextes plus longs. Step-3 maintient un faible coût tout en activant 38 milliards de paramètres par token (plus que DeepSeek-V3 et Qwen3 MoE 235B), démontrant que l'intensité arithmétique de l'attention alignée sur le matériel, la parcimonie MoE et l'AFD sont critiques pour la rentabilité. Nous effectuons une comparaison directe avec DeepSeek-V3 dans ses scénarios favorables. Notre implémentation sur les GPU Hopper atteint un débit de décodage allant jusqu'à 4 039 tokens par seconde par GPU sous un SLA TPOT de 50 ms (contexte 4K, FP8, sans MTP). Ce chiffre est supérieur aux 2 324 de DeepSeek-V3 dans la même configuration et établit une nouvelle frontière de Pareto pour le décodage des LLM.
La détection de véhicules dans les images aériennes est une tâche cruciale avec des applications dans la surveillance du trafic, l'urbanisme et le renseignement militaire. Les méthodes d'apprentissage profond ont fourni des résultats de pointe (SOTA) pour cette application. Cependant, un défi majeur survient lorsque les modèles entraînés sur des données provenant d'une région géographique donnée ne parviennent pas à généraliser efficacement à d'autres zones. La variabilité des facteurs tels que les conditions environnementales, les configurations urbaines, les réseaux routiers, les types de véhicules et les paramètres d'acquisition d'images (par exemple, la résolution, l'éclairage et l'angle) entraîne des décalages de domaine qui dégradent les performances du modèle. Cet article propose une nouvelle méthode utilisant l'IA générative pour synthétiser des images aériennes de haute qualité et leurs étiquettes, améliorant ainsi l'entraînement des détecteurs grâce à l'augmentation de données. Notre contribution principale est le développement d'un cadre de transfert de connaissances multi-étapes et multi-modal, utilisant des modèles de diffusion latente (LDMs) affinés pour atténuer l'écart de distribution entre les environnements source et cible. Des expériences approfondies sur divers domaines d'imagerie aérienne montrent des améliorations constantes des performances en AP50 par rapport à l'apprentissage supervisé sur les données du domaine source, aux méthodes d'adaptation faiblement supervisées, aux méthodes d'adaptation de domaine non supervisées et aux détecteurs d'objets en ensemble ouvert, avec des gains respectifs de 4-23%, 6-10%, 7-40% et plus de 50%. En outre, nous introduisons deux nouveaux ensembles de données aériennes annotées provenant de Nouvelle-Zélande et de l'Utah pour soutenir les recherches futures dans ce domaine. La page du projet est disponible à l'adresse : https://humansensinglab.github.io/AGenDA
Bien que GRPO améliore considérablement les modèles de correspondance de flux dans l'alignement des préférences humaines pour la génération d'images, des méthodes telles que FlowGRPO présentent encore des inefficacités en raison de la nécessité d'échantillonner et d'optimiser sur toutes les étapes de débruitage spécifiées par le processus de décision markovien (MDP). Dans cet article, nous proposons MixGRPO, un cadre novateur qui exploite la flexibilité des stratégies d'échantillonnage mixtes grâce à l'intégration d'équations différentielles stochastiques (SDE) et d'équations différentielles ordinaires (ODE). Cela rationalise le processus d'optimisation au sein du MDP pour améliorer l'efficacité et renforcer les performances. Plus précisément, MixGRPO introduit un mécanisme de fenêtre glissante, utilisant l'échantillonnage SDE et l'optimisation guidée par GRPO uniquement dans la fenêtre, tout en appliquant l'échantillonnage ODE à l'extérieur. Cette conception confine l'aléatoire de l'échantillonnage aux pas de temps dans la fenêtre, réduisant ainsi la surcharge d'optimisation et permettant des mises à jour de gradient plus ciblées pour accélérer la convergence. De plus, comme les pas de temps au-delà de la fenêtre glissante ne sont pas impliqués dans l'optimisation, des solveurs d'ordre supérieur sont pris en charge pour l'échantillonnage. Nous présentons donc une variante plus rapide, appelée MixGRPO-Flash, qui améliore encore l'efficacité de l'entraînement tout en atteignant des performances comparables. MixGRPO montre des gains substantiels dans plusieurs dimensions de l'alignement des préférences humaines, surpassant DanceGRPO à la fois en efficacité et en performance, avec un temps d'entraînement réduit de près de 50 %. Notamment, MixGRPO-Flash réduit encore le temps d'entraînement de 71 %. Les codes et modèles sont disponibles à l'adresse suivante : https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
La segmentation audio-visuelle référencée (RAVS) a récemment connu des avancées significatives, mais des défis subsistent dans l'intégration d'informations multimodales et la compréhension approfondie ainsi que le raisonnement sur le contenu audiovisuel. Pour repousser les limites de la RAVS et faciliter les recherches futures dans ce domaine, nous proposons Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nouveau jeu de données contenant 2 098 vidéos et 59 458 expressions référentielles multimodales. OmniAVS se distingue par trois innovations clés : (1) 8 types d'expressions multimodales qui combinent de manière flexible texte, parole, son et indices visuels ; (2) un accent mis sur la compréhension du contenu audio au-delà de la simple détection de sa présence ; et (3) l'inclusion de raisonnements complexes et de connaissances du monde dans les expressions. Par ailleurs, nous introduisons Omnimodal Instructed Segmentation Assistant (OISA) pour relever les défis du raisonnement multimodal et de la compréhension fine du contenu audiovisuel dans OmniAVS. OISA utilise des modèles de langage multimodal (MLLM) pour comprendre les indices complexes et effectuer une segmentation basée sur le raisonnement. Des expériences approfondies montrent qu'OISA surpasse les méthodes existantes sur OmniAVS et obtient des résultats compétitifs sur d'autres tâches connexes.
L'APR (Automated Program Repair, ou Réparation Automatisée de Programmes) vise à localiser automatiquement les défauts dans les programmes, générer des correctifs et valider les réparations. Les techniques existantes pour l'APR sont souvent combinées avec des LLMs (Large Language Models, ou Modèles de Langage à Grande Échelle), qui exploitent les connaissances liées au code des LLMs pour améliorer l'efficacité des réparations. Les méthodes actuelles d'APR basées sur les LLMs utilisent généralement les cas de test uniquement lors de l'étape d'inférence, adoptant une approche itérative qui effectue d'abord la réparation et la valide ensuite par l'exécution de tests. Ce paradigme conventionnel néglige deux aspects importants : la contribution potentielle des cas de test pendant la phase d'entraînement, et la possibilité d'exploiter les tests avant la réparation. Pour remédier à cela, nous proposons Repair-R1, qui intègre les cas de test dans la phase d'entraînement du modèle et déplace la génération de tests avant la réparation. Le modèle est amené à générer d'abord des cas de test discriminants capables d'identifier les comportements défectueux, puis à effectuer la réparation en se basant sur ces tests. Cela permet au modèle de mieux localiser les défauts et de comprendre les causes sous-jacentes des erreurs, améliorant ainsi l'efficacité des réparations. Nous implémentons Repair-R1 avec trois modèles de base différents, en utilisant l'apprentissage par renforcement (RL) pour co-optimiser la génération de tests et la réparation des bugs. Les résultats expérimentaux sur quatre benchmarks largement adoptés démontrent la supériorité de Repair-R1. En particulier, par rapport aux modèles classiques, Repair-R1 améliore le taux de réussite des réparations de 2,68 % à 48,29 %, le taux de réussite de la génération de tests de 16,38 % à 53,28 %, et la couverture des tests de 0,78 % à 53,96 %. Nous publions le code et les poids sur https://github.com/Tomsawyerhu/APR-RL et https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
La tension entre la confidentialité des données et l'utilité des modèles est devenue le goulot d'étranglement déterminant pour le déploiement pratique des grands modèles de langage (LLM) entraînés sur des corpus sensibles, notamment dans le domaine de la santé. La descente de gradient stochastique à confidentialité différentielle (DP-SGD) garantit une confidentialité formelle, mais cela se fait à un coût prononcé : les gradients sont forcément tronqués et perturbés par du bruit, ce qui dégrade l'efficacité des échantillons et la précision finale. De nombreuses variantes ont été proposées pour atténuer ce compromis, mais elles partagent toutes un handicap : leurs paramètres de contrôle sont prédéfinis, globaux et insensibles au paysage d'optimisation en évolution. Par conséquent, les praticiens sont contraints soit de dépenser excessivement le budget de confidentialité pour atteindre l'utilité, soit d'accepter des modèles médiocres pour rester dans les limites de confidentialité. Nous présentons RLDP, le premier cadre qui transforme l'optimisation DP elle-même en un problème de contrôle en boucle fermée adapté à l'apprentissage par renforcement profond (RL) moderne. RLDP perçoit en continu des statistiques riches de la dynamique d'apprentissage et agit en sélectionnant des seuils de troncature de gradient granulaires par paramètre ainsi que l'amplitude du bruit gaussien injecté. Une hyper-politique de critique-acteur doux (SAC) est entraînée en ligne pendant le réglage fin du modèle de langage ; elle apprend, à partir de zéro, comment allouer le budget de confidentialité là où et quand cela compte. À travers plus de 1 600 expériences d'ablation sur GPT2-small, Llama-1B, Llama-3B et Mistral-7B, RLDP offre des réductions de perplexité de 1,3 à 30,5 % (moyenne de 5,4 %) et un gain d'utilité en aval moyen de 5,6 %. RLDP atteint l'utilité finale de chaque référence après seulement 13 à 43 % du budget de mise à jour des gradients (accélération moyenne de 71 %), tout en respectant le même contrat (epsilon, delta)-DP et en présentant une susceptibilité égale ou inférieure aux attaques d'inférence d'appartenance et d'extraction de canaris.
La génération de scènes 3D à partir de langage naturel présente un grand potentiel pour des applications dans les domaines du jeu vidéo, du cinéma et du design. Cependant, les méthodes existantes peinent à automatiser ce processus, à assurer la cohérence 3D et à offrir un contrôle fin. Nous présentons DreamScene, un framework de bout en bout pour la génération de scènes 3D de haute qualité et modifiables à partir de texte ou de dialogue. DreamScene commence par un module de planification de scène, où un agent GPT-4 déduit la sémantique des objets et les contraintes spatiales pour construire un graphe hybride. Un algorithme de placement basé sur les graphes produit ensuite une disposition structurée et sans collision. Sur la base de cette disposition, l'échantillonnage de motifs de formation (Formation Pattern Sampling, FPS) génère la géométrie des objets en utilisant un échantillonnage multi-étapes et une optimisation reconstructive, permettant une synthèse rapide et réaliste. Pour garantir une cohérence globale, DreamScene emploie une stratégie d'échantillonnage progressif de la caméra adaptée aux environnements intérieurs et extérieurs. Enfin, le système prend en charge l'édition fine de la scène, incluant le déplacement d'objets, les changements d'apparence et les mouvements dynamiques 4D. Les expériences montrent que DreamScene surpasse les méthodes précédentes en termes de qualité, de cohérence et de flexibilité, offrant une solution pratique pour la création de contenu 3D en domaine ouvert. Le code et les démonstrations sont disponibles à l'adresse https://jahnsonblack.github.io/DreamScene-Full/.