papers.description
Comme les étudiants confrontés à des questions d'examen difficiles, les grands modèles de langage devinent parfois lorsqu'ils sont incertains, produisant des affirmations plausibles mais incorrectes plutôt que d'admettre leur incertitude. De telles "hallucinations" persistent même dans les systèmes les plus avancés et sapent la confiance. Nous soutenons que les modèles de langage hallucinent parce que les procédures d'entraînement et d'évaluation récompensent le fait de deviner plutôt que de reconnaître l'incertitude, et nous analysons les causes statistiques des hallucinations dans le pipeline d'entraînement moderne. Les hallucinations ne doivent pas être mystérieuses — elles découlent simplement d'erreurs dans la classification binaire. Si les affirmations incorrectes ne peuvent pas être distinguées des faits, alors les hallucinations dans les modèles de langage pré-entraînés émergeront sous l'effet de pressions statistiques naturelles. Nous argumentons ensuite que les hallucinations persistent en raison de la manière dont la plupart des évaluations sont notées — les modèles de langage sont optimisés pour être de bons candidats aux tests, et deviner en cas d'incertitude améliore les performances aux tests. Cette "épidémie" de pénalisation des réponses incertaines ne peut être résolue que par une atténuation socio-technique : modifier la notation des benchmarks existants qui sont mal alignés mais dominent les classements, plutôt que d'introduire des évaluations supplémentaires des hallucinations. Ce changement pourrait orienter le domaine vers des systèmes d'IA plus dignes de confiance.
Les modèles de langage à prédiction de tokens suivants de type autoregressif offrent des capacités puissantes mais rencontrent des défis importants dans leur déploiement pratique en raison des coûts élevés en calcul et en mémoire lors de l'inférence, en particulier pendant l'étape de décodage. Nous introduisons le Set Block Decoding (SBD), un paradigme simple et flexible qui accélère la génération en intégrant la prédiction standard de tokens suivants (NTP) et la prédiction de tokens masqués (MATP) au sein d'une seule architecture. Le SBD permet au modèle d'échantillonner plusieurs tokens futurs, pas nécessairement consécutifs, en parallèle, une distinction clé par rapport aux méthodes d'accélération précédentes. Cette flexibilité permet l'utilisation de solveurs avancés issus de la littérature sur la diffusion discrète, offrant des accélérations significatives sans sacrifier la précision. Le SBD ne nécessite aucune modification architecturale ni hyperparamètre d'entraînement supplémentaire, maintient la compatibilité avec le KV-caching exact, et peut être mis en œuvre par le fine-tuning de modèles existants de prédiction de tokens suivants. En effectuant un fine-tuning de Llama-3.1 8B et Qwen-3 8B, nous démontrons que le SBD permet une réduction de 3 à 5 fois du nombre de passes avant nécessaires pour la génération tout en atteignant des performances équivalentes à celles de l'entraînement NTP correspondant.
Les grands modèles de langage (LLMs) excellent dans la synthèse de programmes, mais leur capacité à produire des programmes graphiques symboliques (SGPs) qui se traduisent en un contenu visuel précis reste peu explorée. Nous étudions la programmation graphique symbolique, où l'objectif est de générer un SGP à partir d'une description en langage naturel. Cette tâche sert également de prisme pour comprendre comment les LLMs interprètent le monde visuel en les incitant à générer des images rendues à partir de SGPs. Parmi les différents SGPs, notre article se concentre sur les graphiques vectoriels évolutifs (SVGs). Nous commençons par examiner dans quelle mesure les LLMs peuvent générer des SGPs. À cette fin, nous introduisons SGP-GenBench, un benchmark complet couvrant la fidélité des objets, la fidélité des scènes et la compositionnalité (liaison d'attributs, relations spatiales, numératie). Sur SGP-GenBench, nous découvrons que les modèles propriétaires de pointe surpassent largement les modèles open-source, et que la performance est bien corrélée avec les capacités générales de codage. Motivés par cet écart, nous visons à améliorer la capacité des LLMs à générer des SGPs. Nous proposons une approche d'apprentissage par renforcement (RL) avec des récompenses vérifiables, où une porte de validité de format garantit un SVG rendable, et une récompense cross-modale aligne le texte et l'image rendue via des encodeurs visuels puissants (par exemple, SigLIP pour texte-image et DINO pour image-image). Appliquée à Qwen-2.5-7B, notre méthode améliore considérablement la qualité et la sémantique de la génération de SVGs, atteignant des performances comparables aux systèmes de pointe. Nous analysons également la dynamique de l'entraînement, montrant que le RL induit (i) une décomposition plus fine des objets en primitives contrôlables et (ii) des détails contextuels qui améliorent la cohérence des scènes. Nos résultats démontrent que la programmation graphique symbolique offre une perspective précise et interprétable sur l'ancrage cross-modal.
L'estimation de l'éclairage d'une scène à partir d'une seule image ou vidéo demeure un défi de longue date en vision par ordinateur et en infographie. Les approches basées sur l'apprentissage sont limitées par la rareté des cartes d'environnement HDR de référence, qui sont coûteuses à capturer et peu diversifiées. Bien que les modèles génératifs récents offrent des a priori solides pour la synthèse d'images, l'estimation de l'éclairage reste difficile en raison de sa dépendance à des indices visuels indirects, de la nécessité d'inférer un contexte global (non local) et de la récupération de sorties à haute plage dynamique. Nous proposons LuxDiT, une nouvelle approche basée sur les données qui affine un transformateur de diffusion vidéo pour générer des cartes d'environnement HDR conditionnées par une entrée visuelle. Entraîné sur un vaste ensemble de données synthétiques avec des conditions d'éclairage variées, notre modèle apprend à déduire l'illumination à partir d'indices visuels indirects et généralise efficacement aux scènes réelles. Pour améliorer l'alignement sémantique entre l'entrée et la carte d'environnement prédite, nous introduisons une stratégie de réglage fin par adaptation de bas rang utilisant un ensemble de données collectées de panoramas HDR. Notre méthode produit des prédictions d'éclairage précises avec des détails angulaires haute fréquence réalistes, surpassant les techniques existantes de pointe dans les évaluations quantitatives et qualitatives.
Les récentes avancées dans les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont démontré des capacités impressionnantes dans diverses tâches visuelles et linguistiques. Cependant, leurs aptitudes de raisonnement dans le domaine de la musique symbolique multimodale restent largement inexplorées. Nous présentons WildScore, le premier benchmark de raisonnement et d'analyse de musique symbolique multimodale en conditions réelles, conçu pour évaluer la capacité des MLLMs à interpréter des partitions musicales du monde réel et à répondre à des questions musicologiques complexes. Chaque instance de WildScore est issue de compositions musicales authentiques et accompagnée de questions et discussions générées par des utilisateurs, capturant ainsi les subtilités de l'analyse musicale pratique. Pour faciliter une évaluation systématique, nous proposons une taxonomie systématique, comprenant des ontologies musicologiques à la fois de haut niveau et granulaires. De plus, nous formulons le raisonnement musical complexe sous forme de questions à choix multiples, permettant une évaluation contrôlée et scalable de la compréhension de la musique symbolique par les MLLMs. Le benchmarking empirique des MLLMs de pointe sur WildScore révèle des schémas intrigants dans leur raisonnement visuel-symbolique, mettant en lumière à la fois des directions prometteuses et des défis persistants pour les MLLMs dans le raisonnement et l'analyse de la musique symbolique. Nous rendons publics le jeu de données et le code.
Les recherches récentes se concentrent de plus en plus sur le développement de modèles de monde en 3D capables de simuler des scénarios complexes du monde réel. Ces modèles de monde trouvent des applications variées dans plusieurs domaines, notamment l’IA incarnée, la conduite autonome, le divertissement, etc. Une simulation plus réaliste, intégrant une physique précise, permettra de réduire efficacement l’écart entre la simulation et la réalité et de recueillir des informations riches sur le monde réel de manière pratique. Alors que la modélisation manuelle traditionnelle a permis la création de scènes virtuelles en 3D, les approches modernes exploitent des algorithmes avancés d’apprentissage automatique pour la génération de mondes en 3D, les progrès les plus récents se concentrant sur des méthodes génératives capables de créer des mondes virtuels à partir d’instructions utilisateur. Ce travail explore cette direction de recherche en proposant LatticeWorld, un cadre de génération de mondes en 3D simple mais efficace, qui rationalise le pipeline de production industrielle des environnements 3D. LatticeWorld s’appuie sur des modèles de langage légers (LLaMA-2-7B) ainsi que sur un moteur de rendu de qualité industrielle (par exemple, Unreal Engine 5) pour générer un environnement dynamique. Notre cadre proposé accepte des descriptions textuelles et des instructions visuelles comme entrées multimodales et crée des mondes interactifs en 3D à grande échelle, intégrant des agents dynamiques, des interactions compétitives entre agents, une simulation physique haute fidélité et un rendu en temps réel. Nous menons des expériences approfondies pour évaluer LatticeWorld, démontrant qu’il atteint une précision supérieure dans la génération de la disposition des scènes et la fidélité visuelle. De plus, LatticeWorld permet une augmentation de plus de 90 fois de l’efficacité de la production industrielle tout en maintenant une qualité créative élevée par rapport aux méthodes de production manuelle traditionnelles. Notre vidéo de démonstration est disponible à l’adresse suivante : https://youtu.be/8VWZXpERR18.
Nous présentons WinT3R, un modèle de reconstruction feed-forward capable de prédire en temps réel des poses de caméra précises et des cartes de points de haute qualité. Les méthodes précédentes souffrent d'un compromis entre la qualité de la reconstruction et les performances en temps réel. Pour résoudre ce problème, nous introduisons d'abord un mécanisme de fenêtre glissante qui garantit un échange d'informations suffisant entre les images au sein de la fenêtre, améliorant ainsi la qualité des prédictions géométriques sans nécessiter de calculs importants. De plus, nous exploitons une représentation compacte des caméras et maintenons un pool global de tokens de caméra, ce qui améliore la fiabilité de l'estimation des poses de caméra sans sacrifier l'efficacité. Ces conceptions permettent à WinT3R d'atteindre des performances de pointe en termes de qualité de reconstruction en temps réel, d'estimation des poses de caméra et de vitesse de reconstruction, comme le confirment des expériences approfondies sur divers ensembles de données. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/LiZizun/WinT3R.
Les progrès dans de nombreux domaines de tâches émergent de révisions répétées des tentatives de solutions précédentes. Former des agents capables de s’améliorer de manière fiable au fil de telles séquences lors de l’inférence est un objectif naturel pour l’apprentissage par renforcement (RL). Cependant, l’approche naïve suppose une profondeur d’itération maximale fixe, ce qui peut être à la fois coûteux et arbitraire. Nous présentons l’Itération Exploratoire (ExIt), une famille de méthodes RL d’autocurriculum qui exploite directement la structure récurrente des tâches d’auto-amélioration pour entraîner des LLM à effectuer une auto-amélioration multi-étapes lors de l’inférence, tout en ne s’entraînant que sur les itérations à une étape les plus informatives. ExIt développe un espace de tâches en échantillonnant de manière sélective les historiques partiels intermédiaires les plus informatifs rencontrés lors d’un épisode pour poursuivre l’itération, traitant ces points de départ comme de nouvelles instances de tâches d’auto-itération pour entraîner une politique d’auto-amélioration. ExIt peut en outre s’associer à des mécanismes d’exploration explicites pour maintenir une plus grande diversité de tâches. À travers plusieurs domaines, incluant les mathématiques compétitives, l’utilisation d’outils multi-tours et l’ingénierie du machine learning, nous démontrons que les stratégies ExIt, partant d’une seule ou de plusieurs instances de tâches, peuvent produire des politiques présentant une forte auto-amélioration lors de l’inférence sur des instances de tâches réservées, ainsi que la capacité d’itérer vers des performances supérieures sur un budget d’étapes dépassant la profondeur d’itération moyenne rencontrée pendant l’entraînement.
Les benchmarks actuels pour les modèles de langage de grande taille (LLMs) se concentrent principalement sur les métriques de performance, omettant souvent de capturer les caractéristiques comportementales nuancées qui les différencient. Cet article introduit un nouveau cadre de « Empreinte Comportementale » conçu pour aller au-delà de l'évaluation traditionnelle en créant un profil multidimensionnel des styles cognitifs et interactifs intrinsèques d'un modèle. En utilisant une suite de prompts diagnostiques soigneusement sélectionnée et un pipeline d'évaluation automatisé innovant où un LLM puissant agit comme un juge impartial, nous analysons dix-huit modèles à travers différents niveaux de capacités. Nos résultats révèlent une divergence critique dans le paysage des LLMs : alors que les capacités fondamentales comme le raisonnement abstrait et causal convergent parmi les meilleurs modèles, les comportements liés à l'alignement, tels que la flagornerie et la robustesse sémantique, varient considérablement. Nous documentons également un regroupement de personnalités par défaut (ISTJ/ESTJ) entre les modèles, qui reflète probablement des incitations communes en matière d'alignement. Pris ensemble, cela suggère que la nature interactive d'un modèle n'est pas une propriété émergente de son échelle ou de sa puissance de raisonnement, mais une conséquence directe de stratégies d'alignement spécifiques et hautement variables des développeurs. Notre cadre fournit une méthodologie reproductible et évolutive pour révéler ces différences comportementales profondes. Projet : https://github.com/JarvisPei/Behavioral-Fingerprinting
L'efficacité des modèles de langage de grande taille (LLMs) est généralement évaluée à l'aide de benchmarks tels que MMLU, ARC-C ou HellaSwag, où les questions sont présentées dans leur formulation originale, c'est-à-dire dans un format fixe et standardisé. Cependant, les applications réelles impliquent une variabilité linguistique, nécessitant que les modèles maintiennent leur efficacité face à des reformulations diverses d'une même question ou requête. Dans cette étude, nous évaluons systématiquement la robustesse des LLMs face à des questions de benchmark paraphrasées et investiguons si les évaluations basées sur des benchmarks fournissent une mesure fiable des capacités des modèles. Nous générons systématiquement diverses paraphrases de toutes les questions issues de six benchmarks courants, et mesurons les variations résultantes dans l'efficacité de 34 LLMs de pointe, de tailles et d'efficacités variées. Nos résultats révèlent que si les classements des LLMs restent relativement stables face à des entrées paraphrasées, les scores d'efficacité absolus changent et diminuent significativement. Cela suggère que les LLMs peinent à gérer la variabilité linguistique, soulevant des inquiétudes quant à leurs capacités de généralisation et aux méthodologies d'évaluation. De plus, la baisse de performance observée remet en question la fiabilité des évaluations basées sur des benchmarks, indiquant que des scores élevés sur ces benchmarks ne reflètent pas nécessairement la robustesse d'un modèle face aux variations d'entrées rencontrées dans le monde réel. Nous discutons des implications de ces résultats pour les méthodologies d'évaluation des LLMs, en soulignant la nécessité de benchmarks prenant en compte la robustesse et reflétant mieux les scénarios de déploiement pratique.
Les erreurs de diagnostic radiologique - sous-lecture, cécité attentionnelle et échecs de communication - restent prévalentes dans la pratique clinique. Ces problèmes découlent souvent d'anomalies localisées manquées, d'un contexte global limité et de la variabilité du langage des rapports. Ces défis sont amplifiés dans l'imagerie 3D, où les cliniciens doivent examiner des centaines de coupes par scan. Leur résolution nécessite des systèmes dotés d'une détection localisée précise, d'un raisonnement global au niveau du volume et d'un rapport en langage naturel sémantiquement cohérent. Cependant, les modèles vision-langage 3D existants ne parviennent pas à répondre conjointement à ces trois besoins, manquant de compréhension locale-globale pour le raisonnement spatial et peinant face à la variabilité et au bruit des rapports radiologiques non curés. Nous présentons MedVista3D, un cadre de pré-entraînement vision-langage enrichi sémantiquement à multi-échelles pour l'analyse de CT 3D. Pour permettre une détection conjointe des maladies et une interprétation holistique, MedVista3D réalise un alignement local et global image-texte pour un apprentissage de représentations à granularité fine dans le contexte du volume complet. Pour traiter la variabilité des rapports, nous appliquons des réécritures par modèle de langage et introduisons une Banque d'Appariement Sémantique Radiologique pour un alignement conscient de la sémantique. MedVista3D atteint des performances de pointe en classification de maladies à zéro-shot, récupération de rapports et réponse à des questions visuelles médicales, tout en transférant efficacement à la segmentation d'organes et à la prédiction de pronostic. Le code et les jeux de données seront publiés.
Nous proposons U-Arm, un cadre de téléopération leader-suiveur à faible coût et rapidement adaptable, conçu pour s'interfacer avec la plupart des bras robotiques disponibles sur le marché. Notre système prend en charge la téléopération à travers trois bras leaders imprimés en 3D structurellement distincts, qui partagent une logique de contrôle cohérente, permettant une compatibilité transparente avec diverses configurations de robots commerciaux. Par rapport aux interfaces leader-suiveur open-source précédentes, nous avons optimisé à la fois la conception mécanique et la sélection des servomoteurs, atteignant un coût de la nomenclature (BOM) de seulement 50,5 € pour le bras leader à 6 degrés de liberté (DoF) et 56,8 € pour la version à 7 DoF. Pour améliorer l'utilisabilité, nous atténuons le défi commun de contrôle des degrés de liberté redondants grâce à des optimisations mécaniques et de contrôle. Les résultats expérimentaux démontrent qu'U-Arm atteint une efficacité de collecte de données 39 % plus élevée et des taux de réussite comparables dans plusieurs scénarios de manipulation par rapport à Joycon, une autre interface de téléopération à faible coût. Nous avons ouvert les modèles CAO des trois configurations et fourni un support de simulation pour valider les workflows de téléopération. Nous avons également ouvert les données de manipulation réelles collectées avec U-Arm. Le site web du projet est https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.