papers.description
Nous présentons InternVL 3.5, une nouvelle famille de modèles multimodaux open-source qui marque une avancée significative en termes de polyvalence, de capacité de raisonnement et d'efficacité d'inférence dans la série InternVL. Une innovation clé est le cadre de Cascade Reinforcement Learning (Cascade RL), qui améliore le raisonnement grâce à un processus en deux étapes : le RL hors ligne pour une convergence stable et le RL en ligne pour un alignement affiné. Cette stratégie d'apprentissage du grossier au fin conduit à des améliorations substantielles sur les tâches de raisonnement en aval, telles que MMMU et MathVista. Pour optimiser l'efficacité, nous proposons un Visual Resolution Router (ViR) qui ajuste dynamiquement la résolution des tokens visuels sans compromettre les performances. Couplé avec ViR, notre stratégie de Déploiement Découplé Vision-Langage (DvD) sépare l'encodeur visuel et le modèle de langage sur différents GPU, équilibrant efficacement la charge de calcul. Ces contributions permettent collectivement à InternVL3.5 d'atteindre un gain de +16,0 % en performance globale de raisonnement et une accélération de l'inférence de 4,05 fois par rapport à son prédécesseur, InternVL3. De plus, InternVL3.5 prend en charge de nouvelles capacités telles que l'interaction avec les interfaces graphiques et l'agence incarnée. Notamment, notre plus grand modèle, InternVL3.5-241B-A28B, obtient des résultats de pointe parmi les MLLM open-source sur des tâches multimodales générales, de raisonnement, de texte et d'agence — réduisant l'écart de performance avec les modèles commerciaux leaders comme GPT-5. Tous les modèles et le code sont publiés publiquement.
Malgré les progrès prometteurs des modèles autorégressifs récents dans la génération de texte à image (T2I), leur capacité à gérer des invites multi-attributs et ambiguës reste limitée. Pour pallier ces limitations, les travaux existants ont appliqué la chaîne de pensée (CoT) pour permettre une synthèse visuelle consciente des étapes et ont utilisé l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement. Cependant, la plupart des modèles fournissent des signaux de récompense uniquement à la fin de l'étape de génération. Cette guidance monolithique uniquement finale rend difficile l'identification des étapes qui contribuent positivement au résultat final et peut conduire à des politiques sous-optimales. Pour résoudre ce problème, nous proposons un paradigme de Chaîne Visuelle de Guidance (Visual-CoG) composé de trois étapes : raisonnement sémantique, raffinement du processus et évaluation des résultats, avec des récompenses conscientes des étapes fournissant une guidance immédiate tout au long du pipeline de génération d'images. Nous construisons également un benchmark de cognition visuelle, VisCog-Bench, qui comprend quatre sous-tâches pour évaluer l'efficacité du raisonnement sémantique. Des évaluations approfondies sur GenEval, T2I-CompBench et le VisCog-Bench proposé montrent des améliorations de 15 %, 5 % et 19 %, respectivement, démontrant la performance supérieure du Visual-CoG proposé. Nous publierons bientôt toutes les ressources.
Les approches de génération de texte-à-3D ont considérablement progressé en exploitant des modèles de diffusion 2D pré-entraînés, produisant des résultats de haute qualité et cohérents en 3D. Cependant, elles échouent souvent à générer des concepts hors domaine (OOD) ou rares, donnant lieu à des résultats incohérents ou inexacts. Pour remédier à cela, nous proposons MV-RAG, un nouveau pipeline texte-à-3D qui récupère d'abord des images 2D pertinentes à partir d'une vaste base de données d'images 2D en conditions réelles, puis conditionne un modèle de diffusion multivue sur ces images pour synthétiser des sorties multivues cohérentes et précises. L'entraînement d'un tel modèle conditionné par récupération est réalisé via une stratégie hybride novatrice, reliant des données multivues structurées et des collections diversifiées d'images 2D. Cela implique un entraînement sur des données multivues en utilisant des vues de conditionnement augmentées qui simulent la variance de récupération pour la reconstruction spécifique à la vue, ainsi qu'un entraînement sur des ensembles d'images 2D réelles récupérées en utilisant un objectif distinct de prédiction de vue masquée : le modèle prédit la vue masquée à partir des autres vues pour inférer la cohérence 3D à partir de données 2D. Pour faciliter une évaluation rigoureuse des concepts OOD, nous introduisons une nouvelle collection de prompts OOD complexes. Les expériences comparées aux méthodes de pointe en texte-à-3D, image-à-3D et personnalisation montrent que notre approche améliore significativement la cohérence 3D, le photoréalisme et l'adhésion au texte pour les concepts OOD/rares, tout en maintenant des performances compétitives sur les benchmarks standards.
Nous proposons T2I-ReasonBench, un benchmark évaluant les capacités de raisonnement des modèles de génération texte-image (T2I). Il se compose de quatre dimensions : Interprétation d'expressions idiomatiques, Conception d'images textuelles, Raisonnement sur les entités et Raisonnement scientifique. Nous proposons un protocole d'évaluation en deux étapes pour mesurer la précision du raisonnement et la qualité des images. Nous évaluons divers modèles de génération T2I et fournissons une analyse approfondie de leurs performances.
Les modèles vision-langage (VLMs) démontrent des performances impressionnantes dans la compréhension de contenu visuel à l'aide d'instructions linguistiques en convertissant l'entrée visuelle en tokens visuels. Cependant, la redondance dans les tokens visuels entraîne une efficacité d'inférence dégradée des VLMs. Bien que de nombreux algorithmes aient été proposés pour réduire le nombre de tokens visuels, la plupart d'entre eux n'utilisent que des informations unimodales (c'est-à-dire visuelles ou textuelles) pour l'élagage et ignorent la propriété multimodale inhérente des tâches vision-langage. De plus, il manque un critère générique qui puisse être appliqué à différentes modalités. Pour atténuer cette limitation, dans ce travail, nous proposons d'exploiter à la fois les tokens visuels et textuels pour sélectionner des tokens visuels informatifs selon le critère de couverture. Nous formulons d'abord le problème de sélection de sous-ensemble comme un problème de couverture maximale. Ensuite, un sous-ensemble de tokens visuels est optimisé pour couvrir à la fois les tokens textuels et l'ensemble original de tokens visuels. Enfin, un agent VLM peut être adopté pour améliorer davantage la qualité des tokens textuels afin de guider l'élagage visuel. La méthode proposée, MMTok, est largement évaluée sur des ensembles de données de référence avec différents VLMs. La comparaison montre que les informations visuelles et textuelles sont complémentaires, et que la combinaison d'informations multimodales peut surpasser la base unimodale avec une marge significative. De plus, sous le critère de couverture maximale sur le jeu de données POPE, notre méthode atteint une accélération de 1,87x tout en maintenant 98,7% de la performance originale sur LLaVA-NeXT-13B. Par ailleurs, avec seulement quatre tokens visuels, elle conserve encore 87,7% de la performance originale sur LLaVA-1.5-7B. Ces résultats mettent en évidence l'efficacité de la couverture dans la sélection de tokens.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont mis en évidence le potentiel de l'apprentissage par renforcement (RL) pour faciliter l'émergence de capacités de raisonnement. Malgré les résultats encourageants, un dilemme fondamental persiste : l'amélioration de la RL repose sur l'apprentissage à partir d'échantillons de haute qualité, mais l'exploration de tels échantillons reste limitée par les contraintes inhérentes des LLMs. Cela crée, en effet, un cycle indésirable dans lequel ce qui ne peut être exploré ne peut être appris. Dans ce travail, nous proposons le Rubric-Scaffolded Reinforcement Learning (RuscaRL), un nouveau cadre d'échafaudage pédagogique conçu pour surmonter le goulot d'étranglement de l'exploration dans le raisonnement général des LLMs. Plus précisément, RuscaRL introduit des grilles d'évaluation de type checklist comme (1) un échafaudage explicite pour l'exploration lors de la génération de déploiements, où différentes grilles sont fournies comme guide externe dans les instructions de tâches pour orienter des réponses diversifiées et de haute qualité. Ce guide est progressivement réduit au fil du temps, encourageant le modèle à internaliser les schémas de raisonnement sous-jacents ; (2) des récompenses vérifiables pour l'exploitation lors de l'entraînement du modèle, où nous pouvons obtenir des scores robustes de LLM-as-a-Judge en utilisant les grilles comme références, permettant une RL efficace sur des tâches de raisonnement général. Des expériences approfondies démontrent la supériorité du RuscaRL proposé sur divers benchmarks, élargissant efficacement les frontières du raisonnement sous l'évaluation best-of-N. Notamment, RuscaRL améliore significativement Qwen-2.5-7B-Instruct de 23.6 à 50.3 sur HealthBench-500, surpassant GPT-4.1. De plus, notre variante fine-tunée sur Qwen3-30B-A3B-Instruct atteint 61.1 sur HealthBench-500, surpassant les LLMs leaders, y compris OpenAI-o3.
Le raisonnement est une capacité fondamentale des grands modèles de langage, mais comprendre comment ils apprennent et effectuent des raisonnements multi-étapes reste un problème ouvert. Dans cette étude, nous explorons comment différentes architectures et méthodes d'entraînement affectent les capacités de raisonnement multi-étapes des modèles dans un cadre de systèmes cellulaires automates. En entraînant les modèles sur des séquences d'états générées avec des fonctions booléennes aléatoires pour des conditions initiales aléatoires, afin d'exclure la mémorisation, nous démontrons que la plupart des architectures neuronales apprennent à abstraire les règles sous-jacentes. Bien que les modèles atteignent une grande précision dans la prédiction de l'état suivant, leurs performances déclinent fortement si un raisonnement multi-étapes est requis. Nous confirmons que l'augmentation de la profondeur du modèle joue un rôle crucial pour les calculs séquentiels. Nous démontrons qu'une extension de la profondeur effective du modèle avec la récurrence, la mémoire et la mise à l'échelle des calculs au moment du test améliore considérablement les capacités de raisonnement.
Nous étudions pourquoi le Raisonnement Intégré avec Outils (TIR) rend les Modèles de Langage à Grande Échelle (LLMs) plus performants. Bien que les LLMs intégrés avec des outils comme les interpréteurs de code Python montrent un grand potentiel, une théorie rigoureuse expliquant pourquoi ce paradigme est efficace faisait défaut. Ce travail fournit la première preuve formelle que le TIR étend fondamentalement les capacités d'un LLM. Nous démontrons que les outils permettent une expansion stricte du support empirique et réalisable du modèle, brisant le plafond de capacité des modèles purement textuels en débloquant des stratégies de résolution de problèmes qui seraient autrement impossibles ou d'une verbosité ingérable. Pour guider le comportement du modèle sans compromettre la stabilité de l'entraînement et la performance, nous introduisons également l'Optimisation de Politique par Façonnage d'Avantage (ASPO), un nouvel algorithme qui modifie directement la fonction d'avantage pour guider le comportement de la politique. Nous menons des expériences approfondies sur des benchmarks mathématiques complexes, en utilisant un interpréteur Python comme outil externe. Nos résultats montrent que le modèle TIR surpasse de manière décisive son homologue purement textuel sur la métrique pass@k. Crucialement, cet avantage ne se limite pas aux problèmes intensifs en calcul, mais s'étend à ceux nécessitant une importante perspicacité abstraite. Nous identifions en outre les schémas cognitifs émergents qui illustrent comment les modèles apprennent à penser avec des outils. Enfin, nous rapportons un comportement amélioré dans l'utilisation des outils avec une invocation précoce du code et des tours beaucoup plus interactifs avec l'ASPO. Globalement, notre travail fournit la première explication rigoureuse du succès du TIR, déplaçant l'attention du simple fait que les outils fonctionnent vers pourquoi et comment ils permettent un raisonnement plus puissant.
Nous présentons Hermes 4, une famille de modèles de raisonnement hybride qui allient un raisonnement structuré et multi-tours à une capacité étendue de suivi d'instructions. Nous décrivons les défis rencontrés lors de la curation des données, de leur synthèse, de l'entraînement et de l'évaluation, et nous exposons les solutions mises en œuvre pour relever ces défis à grande échelle. Nous évaluons de manière exhaustive les performances sur des benchmarks de raisonnement mathématique, de codage, de connaissances, de compréhension et d'alignement, et nous rapportons à la fois des résultats quantitatifs et une analyse qualitative des comportements. Pour soutenir la recherche ouverte, tous les poids des modèles sont publiés publiquement sur https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728.
Les systèmes multi-agents basés sur des modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables pour résoudre des tâches compositionnelles complexes. Dans ce travail, nous appliquons ce paradigme au problème de génération de posters à partir d'articles, un processus pratique mais chronophage auquel sont confrontés les chercheurs préparant des conférences. Bien que des approches récentes aient tenté d'automatiser cette tâche, la plupart négligent les principes fondamentaux de conception et d'esthétique, ce qui entraîne des posters nécessitant un raffinement manuel important. Pour pallier ces limitations de conception, nous proposons PosterGen, un cadre multi-agent qui reproduit le flux de travail des concepteurs de posters professionnels. Il se compose de quatre agents spécialisés collaboratifs : (1) les agents Parser et Curator extraient le contenu de l'article et organisent le storyboard ; (2) l'agent Layout structure le contenu dans une disposition spatiale cohérente ; (3) les agents Stylist appliquent des éléments de design visuel tels que la couleur et la typographie ; et (4) le Renderer compose le poster final. Ensemble, ces agents produisent des posters à la fois sémantiquement pertinents et visuellement attrayants. Pour évaluer la qualité de la conception, nous introduisons une grille d'évaluation basée sur un modèle vision-langage (VLM) qui mesure l'équilibre de la mise en page, la lisibilité et la cohérence esthétique. Les résultats expérimentaux montrent que PosterGen correspond systématiquement en termes de fidélité du contenu et surpasse significativement les méthodes existantes en matière de design visuel, générant des posters prêts à être présentés avec un minimum de retouches manuelles.
Les benchmarks façonnent les progrès de la recherche en IA. Un benchmark utile doit être à la fois difficile et réaliste : les questions doivent mettre à l'épreuve les modèles de pointe tout en reflétant des usages réels. Cependant, les paradigmes actuels sont confrontés à une tension entre difficulté et réalisme : les benchmarks de type examen sont souvent rendus artificiellement difficiles avec une valeur pratique limitée, tandis que les benchmarks basés sur des interactions utilisateurs réelles tendent à privilégier des problèmes faciles et fréquents. Dans ce travail, nous explorons un paradigme radicalement différent : évaluer les modèles sur des questions non résolues. Plutôt qu'un benchmark statique noté une seule fois, nous sélectionnons des questions non résolues et évaluons les modèles de manière asynchrone dans le temps avec un filtrage assisté par des validateurs et une vérification communautaire. Nous présentons UQ, un banc d'essai de 500 questions difficiles et variées provenant de Stack Exchange, couvrant des sujets allant de la théorie informatique et des mathématiques à la science-fiction et à l'histoire, explorant des capacités telles que le raisonnement, la factualité et la navigation. UQ est par construction difficile et réaliste : les questions non résolues sont souvent complexes et surgissent naturellement lorsque les humains cherchent des réponses, donc les résoudre apporte une valeur pratique directe. Nos contributions sont triples : (1) UQ-Dataset et son pipeline de collecte combinant des filtres basés sur des règles, des juges LLM et une revue humaine pour garantir la qualité des questions (par exemple, bien définies et difficiles) ; (2) UQ-Validators, des stratégies de validation composées qui exploitent l'écart générateur-validateur pour fournir des signaux d'évaluation et pré-sélectionner les solutions candidates pour une revue humaine ; et (3) UQ-Platform, une plateforme ouverte où des experts vérifient collectivement les questions et les solutions. Le meilleur modèle ne passe la validation UQ que pour 15 % des questions, et une vérification humaine préliminaire a déjà identifié des réponses correctes parmi celles qui ont réussi. UQ trace une voie pour évaluer les modèles de pointe sur des défis réels et ouverts, où le succès repousse les frontières des connaissances humaines. Nous publions UQ à l'adresse https://uq.stanford.edu.
Les récents progrès dans les grands modèles vision-langage (VLMs) se sont principalement concentrés sur l'anglais, avec une attention limitée accordée aux autres langues. Pour combler cette lacune, nous présentons MEENA (également connu sous le nom de PersianMMMU), le premier ensemble de données conçu pour évaluer les VLMs en persan à travers des tâches scientifiques, de raisonnement et de compréhension humaine. Notre ensemble de données comprend environ 7 500 questions en persan et 3 000 en anglais, couvrant un large éventail de sujets tels que le raisonnement, les mathématiques, la physique, les diagrammes, les graphiques, ainsi que l'art et la littérature persans. Les caractéristiques clés de MEENA incluent : (1) une couverture diversifiée de sujets s'étendant à divers niveaux éducatifs, du primaire au secondaire supérieur, (2) des métadonnées riches, incluant des niveaux de difficulté et des réponses descriptives, (3) des données originales en persan qui préservent les nuances culturelles, (4) une structure bilingue pour évaluer les performances interlinguistiques, et (5) une série d'expériences variées évaluant diverses capacités, notamment la performance globale, la capacité du modèle à se concentrer sur les images, et sa tendance à générer des hallucinations. Nous espérons que ce benchmark contribuera à améliorer les capacités des VLMs au-delà de l'anglais.
Les tableaux semi-structurés, largement utilisés dans des applications réelles (par exemple, les rapports financiers, les dossiers médicaux, les commandes transactionnelles), impliquent souvent des mises en page flexibles et complexes (par exemple, des en-têtes hiérarchiques et des cellules fusionnées). Ces tableaux reposent généralement sur des analystes humains pour interpréter les mises en page et répondre à des questions en langage naturel pertinentes, ce qui est coûteux et inefficace. Pour automatiser ce processus, les méthodes existantes rencontrent des défis importants. Premièrement, des méthodes comme NL2SQL nécessitent la conversion des tableaux semi-structurés en tableaux structurés, ce qui entraîne souvent une perte substantielle d'informations. Deuxièmement, des méthodes comme NL2Code et les modèles de langage multi-modaux (LLM) pour les questions-réponses (QA) peinent à comprendre les mises en page complexes des tableaux semi-structurés et ne peuvent pas répondre avec précision aux questions correspondantes. Pour résoudre ce problème, nous proposons ST-Raptor, un framework basé sur des arbres pour les questions-réponses sur les tableaux semi-structurés utilisant des modèles de langage de grande taille. Premièrement, nous introduisons l'arbre orthogonal hiérarchique (HO-Tree), un modèle structurel qui capture les mises en page complexes des tableaux semi-structurés, ainsi qu'un algorithme efficace pour construire cet arbre. Deuxièmement, nous définissons un ensemble d'opérations de base sur les arbres pour guider les LLM dans l'exécution des tâches courantes de QA. Étant donné une question utilisateur, ST-Raptor la décompose en sous-questions plus simples, génère des pipelines d'opérations sur les arbres correspondants, et effectue un alignement entre les opérations et le tableau pour une exécution précise du pipeline. Troisièmement, nous intégrons un mécanisme de vérification en deux étapes : la validation avant vérifie la correction des étapes d'exécution, tandis que la validation arrière évalue la fiabilité des réponses en reconstruisant les requêtes à partir des réponses prédites. Pour évaluer les performances, nous présentons SSTQA, un ensemble de données contenant 764 questions sur 102 tableaux semi-structurés réels. Les expériences montrent que ST-Raptor surpasse neuf méthodes de référence avec une précision des réponses allant jusqu'à 20 % supérieure. Le code est disponible à l'adresse suivante : https://github.com/weAIDB/ST-Raptor.
La reconstruction de surfaces a été largement étudiée en vision par ordinateur et en infographie. Cependant, les travaux existants en reconstruction de surfaces peinent à retrouver une géométrie de scène précise lorsque les vues d'entrée sont extrêmement espacées. Pour résoudre ce problème, nous proposons MeshSplat, un cadre généralisable de reconstruction de surfaces à partir de vues espacées via le Gaussian Splatting. Notre idée clé est d'utiliser le 2DGS comme pont, reliant la synthèse de nouvelles vues à des connaissances géométriques apprises, puis de transférer ces connaissances pour réaliser la reconstruction de surfaces. Plus précisément, nous intégrons un réseau feed-forward pour prédire un 2DGS aligné par pixel pour chaque vue, ce qui permet au réseau de synthétiser des images de nouvelles vues et ainsi élimine le besoin d'une supervision directe par vérité terrain 3D. Pour améliorer la précision de la prédiction de la position et de l'orientation du 2DGS, nous proposons une fonction de perte de distance de Chamfer pondérée pour régulariser les cartes de profondeur, en particulier dans les zones de chevauchement des vues d'entrée, ainsi qu'un réseau de prédiction de normales pour aligner l'orientation du 2DGS avec les vecteurs normaux prédits par un estimateur de normales monoculaire. Des expériences approfondies valident l'efficacité de nos améliorations proposées, démontrant que notre méthode atteint des performances de pointe dans les tâches de reconstruction de maillages généralisables à partir de vues espacées. Page du projet : https://hanzhichang.github.io/meshsplat_web
Le raisonnement visuel compositionnel est apparu comme une frontière clé de la recherche en IA multimodale, visant à doter les machines d'une capacité semblable à celle des humains à décomposer des scènes visuelles, à ancrer des concepts intermédiaires et à effectuer des inférences logiques en plusieurs étapes. Alors que les premières études se concentrent sur des modèles monolithiques vision-langage ou sur le raisonnement multimodal général, une synthèse dédiée de la littérature en expansion rapide sur le raisonnement visuel compositionnel fait encore défaut. Nous comblons cette lacune avec une étude exhaustive couvrant la période de 2023 à 2025, qui passe en revue systématiquement plus de 260 articles issus des principales conférences (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). Nous formalisons d'abord les définitions clés et expliquons pourquoi les approches compositionnelles offrent des avantages en termes d'alignement cognitif, de fidélité sémantique, de robustesse, d'interprétabilité et d'efficacité des données. Ensuite, nous retraçons un changement de paradigme en cinq étapes : des pipelines centrés sur le langage améliorés par des prompts, en passant par les LLM et VLM améliorés par des outils, jusqu'aux récents raisonnements en chaîne de pensée et aux VLM unifiés de type agent, en mettant en lumière leurs conceptions architecturales, leurs forces et leurs limites. Nous cataloguons ensuite plus de 60 benchmarks et les métriques correspondantes qui explorent le raisonnement visuel compositionnel selon des dimensions telles que la précision de l'ancrage, la fidélité de la chaîne de pensée et la perception haute résolution. En nous appuyant sur ces analyses, nous distillons des insights clés, identifions des défis ouverts (par exemple, les limites du raisonnement basé sur les LLM, les hallucinations, un biais en faveur du raisonnement déductif, la supervision scalable, l'intégration d'outils et les limites des benchmarks) et esquissons des directions futures, notamment l'intégration de modèles du monde, le raisonnement collaboratif humain-IA et des protocoles d'évaluation plus riches. En proposant une taxonomie unifiée, une feuille de route historique et une perspective critique, cette étude vise à servir de référence fondatrice et à inspirer la prochaine génération de recherches sur le raisonnement visuel compositionnel.
Les tokenizers de parole constituent des composants fondamentaux pour les modèles de langage vocal, mais les conceptions actuelles présentent plusieurs limitations, notamment : 1) une dépendance à des structures de quantification vectorielle résiduelle multicouches ou à des taux de trames élevés, 2) un recours à des modèles pré-entraînés auxiliaires pour la distillation sémantique, et 3) la nécessité de processus d'entraînement complexes en deux étapes. Dans ce travail, nous présentons le Text-aware Diffusion Transformer Speech Codec (TaDiCodec), une approche novatrice conçue pour surmonter ces défis. TaDiCodec utilise une optimisation de bout en bout pour la quantification et la reconstruction via un autoencodeur de diffusion, tout en intégrant un guidage textuel dans le décodeur de diffusion pour améliorer la qualité de reconstruction et atteindre une compression optimale. TaDiCodec atteint un taux de trames extrêmement bas de 6,25 Hz et un débit binaire correspondant de 0,0875 kbps avec un codebook monocouche pour une parole à 24 kHz, tout en maintenant des performances supérieures sur des métriques d'évaluation critiques de la génération de parole telles que le taux d'erreur de mots (WER), la similarité du locuteur (SIM) et la qualité de la parole (UTMOS). Notamment, TaDiCodec utilise un paradigme d'entraînement en une seule étape, de bout en bout, et élimine le besoin de modèles pré-entraînés auxiliaires. Nous validons également la compatibilité de TaDiCodec dans la synthèse vocale zero-shot basée sur des modèles de langage, avec à la fois une modélisation autorégressive et une modélisation générative masquée, démontrant son efficacité et son efficience pour la modélisation du langage vocal, ainsi qu'un écart reconstruction-génération significativement réduit. Nous rendrons notre code et nos points de contrôle de modèle open source. Des échantillons audio sont disponibles à l'adresse https://tadicodec.github.io/. Nous publions le code et les points de contrôle de modèle à l'adresse https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
L'édition d'images guidée visuellement, où les modifications sont conditionnées à la fois par des indices visuels et des invites textuelles, s'est imposée comme un paradigme puissant pour la génération de contenu fine et contrôlée. Bien que les modèles génératifs récents aient démontré des capacités remarquables, les évaluations existantes restent simples et insuffisamment représentatives des défis réels de l'édition. Nous présentons SpotEdit, un benchmark complet conçu pour évaluer systématiquement les méthodes d'édition d'images guidées visuellement à travers divers modèles génératifs, incluant les modèles de diffusion, autoregressifs et hybrides, révélant ainsi des disparités de performance significatives. Pour aborder un défi critique mais encore peu exploré, notre benchmark inclut un volet dédié à l'hallucination, mettant en lumière comment les modèles leaders, tels que GPT-4o, hallucinent souvent l'existence d'un indice visuel et exécutent de manière erronée la tâche d'édition. Notre code et benchmark sont disponibles publiquement à l'adresse suivante : https://github.com/SaraGhazanfari/SpotEdit.
L'évaluation des systèmes de génération de langage naturel (NLG) reste un défi central du traitement du langage naturel (NLP), rendu encore plus complexe par l'émergence des grands modèles de langage (LLMs) qui visent à être polyvalents. Récemment, l'utilisation des grands modèles de langage comme évaluateurs (LLJs) est apparue comme une alternative prometteuse aux métriques traditionnelles, mais leur validité reste insuffisamment explorée. Ce document de position soutient que l'enthousiasme actuel autour des LLJs pourrait être prématuré, car leur adoption a devancé un examen rigoureux de leur fiabilité et de leur validité en tant qu'évaluateurs. En nous appuyant sur la théorie de la mesure issue des sciences sociales, nous identifions et évaluons de manière critique quatre hypothèses fondamentales sous-jacentes à l'utilisation des LLJs : leur capacité à servir de substituts au jugement humain, leurs compétences en tant qu'évaluateurs, leur évolutivité et leur rentabilité. Nous examinons comment chacune de ces hypothèses peut être remise en question par les limitations inhérentes aux LLMs, aux LLJs ou aux pratiques actuelles d'évaluation en NLG. Pour ancrer notre analyse, nous explorons trois applications des LLJs : la synthèse de texte, l'annotation de données et l'alignement sur la sécurité. Enfin, nous soulignons la nécessité de pratiques d'évaluation plus responsables dans l'évaluation des LLJs, afin de garantir que leur rôle croissant dans le domaine soutienne, plutôt qu'il ne compromette, les progrès en NLG.
La capacité à paraphraser des textes à différents niveaux de complexité est essentielle pour créer des textes accessibles pouvant être adaptés à divers groupes de lecteurs. Ainsi, nous présentons German4All, le premier jeu de données allemand à grande échelle de paraphrases alignées et contrôlées en termes de lisibilité au niveau du paragraphe. Il couvre cinq niveaux de lisibilité et comprend plus de 25 000 échantillons. Le jeu de données est synthétisé automatiquement à l'aide de GPT-4 et rigoureusement évalué à la fois par des jugements humains et basés sur des modèles de langage (LLM). En utilisant German4All, nous entraînons un modèle de paraphrase open source contrôlé en termes de lisibilité, qui atteint des performances de pointe en simplification de texte en allemand, permettant des adaptations plus nuancées et spécifiques aux lecteurs. Nous rendons publics à la fois le jeu de données et le modèle pour encourager des recherches supplémentaires sur la paraphrase multi-niveaux.
Cet article explore les limites de la normalisation dans les mécanismes d'attention. Nous commençons par un cadre théorique permettant d'identifier la capacité de sélection du modèle ainsi que la séparation géométrique impliquée dans la sélection des tokens. Notre analyse inclut des bornes explicites sur les distances et des critères de séparation pour les vecteurs de tokens sous l'effet de la mise à l'échelle softmax. À travers des expériences avec le modèle GPT-2 pré-entraîné, nous validons empiriquement nos résultats théoriques et analysons les comportements clés du mécanisme d'attention. Nous démontrons notamment que, à mesure que le nombre de tokens sélectionnés augmente, la capacité du modèle à distinguer les tokens informatifs diminue, convergeant souvent vers un schéma de sélection uniforme. Nous montrons également que la sensibilité du gradient sous la normalisation softmax pose des défis lors de l'entraînement, en particulier à des réglages de température basse. Ces résultats approfondissent la compréhension actuelle du mécanisme d'attention basé sur softmax et soulignent la nécessité de stratégies de normalisation et de sélection plus robustes dans les architectures d'attention futures.
L'échocardiographie joue un rôle central dans l'imagerie cardiaque, offrant des vues dynamiques du cœur essentielles pour le diagnostic et le suivi. Cependant, la qualité de l'image peut être considérablement dégradée par la brume résultant de réverbérations multipath, en particulier chez les patients difficiles à imager. Dans ce travail, nous proposons un algorithme de débrumage basé sur la diffusion et guidé sémantiquement, développé pour le défi MICCAI Dehazing Echocardiography (DehazingEcho2025). Notre méthode intègre un modèle de bruit pixel par pixel, dérivé de la segmentation sémantique des entrées brumeuses, dans un cadre d'échantillonnage postérieur par diffusion guidé par un a priori génératif entraîné sur des données ultrasonores propres. L'évaluation quantitative sur le jeu de données du défi démontre de solides performances en termes de métriques de contraste et de fidélité. Le code de l'algorithme soumis est disponible à l'adresse suivante : https://github.com/tristan-deep/semantic-diffusion-echo-dehazing.
Le photoréalisme est un aspect important des jeux vidéo modernes, car il peut façonner l'expérience du joueur tout en influençant simultanément l'immersion, l'engagement narratif et la fidélité visuelle. Bien que les récentes avancées technologiques matérielles, associées aux technologies de rendu de pointe, aient considérablement amélioré le réalisme visuel des jeux vidéo, atteindre un véritable photoréalisme dans des environnements dynamiques à des taux de rafraîchissement en temps réel reste un défi majeur en raison du compromis entre qualité visuelle et performance. Dans ce court article, nous présentons une nouvelle approche pour améliorer le photoréalisme des images de jeu rendues en utilisant des réseaux antagonistes génératifs. À cette fin, nous proposons Real-time photorealism Enhancement in Games via a dual-stage gEnerative Network framework (REGEN), qui emploie un modèle robuste de traduction d'image à image non appariée pour produire des images photoréalistes sémantiquement cohérentes, transformant ainsi le problème en une tâche de traduction d'image à image appariée plus simple. Cela permet un entraînement avec une méthode légère capable d'atteindre un temps d'inférence en temps réel sans compromettre la qualité visuelle. Nous démontrons l'efficacité de notre framework sur Grand Theft Auto V, montrant que l'approche atteint des résultats visuels comparables à ceux produits par la méthode robuste de traduction d'image à image non appariée tout en améliorant la vitesse d'inférence par un facteur de 32,14. Nos résultats indiquent également que les images surpassent en photoréalisme celles produites par l'entraînement direct d'une méthode légère de traduction d'image à image non appariée pour traduire les images de jeu vidéo vers les caractéristiques visuelles des images du monde réel. Le code, les modèles pré-entraînés et les démonstrations de ce travail sont disponibles à l'adresse suivante : https://github.com/stefanos50/REGEN.
Les travaux antérieurs ont montré que la présupposition dans les questions générées peut introduire des hypothèses non vérifiées, conduisant à des incohérences dans la vérification des affirmations. De plus, la sensibilité aux prompts reste un défi majeur pour les grands modèles de langage (LLMs), entraînant une variance de performance pouvant atteindre 3 à 6 %. Bien que des avancées récentes aient réduit cet écart, notre étude démontre que la sensibilité aux prompts reste un problème persistant. Pour y remédier, nous proposons un cadre structuré et robuste de vérification des affirmations qui raisonne à travers des questions décomposées et exemptes de présuppositions. Des expériences approfondies sur plusieurs prompts, jeux de données et LLMs révèlent que même les modèles les plus avancés restent sensibles à la variance des prompts et aux présuppositions. Notre méthode atténue systématiquement ces problèmes, permettant une amélioration allant jusqu'à 2 à 5 %.