papers.description
Yume vise à utiliser des images, du texte ou des vidéos pour créer un monde interactif, réaliste et dynamique, permettant l'exploration et le contrôle via des périphériques ou des signaux neuronaux. Dans ce rapport, nous présentons une version préliminaire de \method, qui génère un monde dynamique à partir d'une image d'entrée et permet son exploration via des actions au clavier. Pour réaliser cette génération de vidéos interactives et haute fidélité, nous introduisons un cadre bien conçu, composé de quatre éléments principaux : la quantification des mouvements de caméra, l'architecture de génération vidéo, un échantillonneur avancé et l'accélération du modèle. D'abord, nous quantifions les mouvements de caméra pour un entraînement stable et une interaction intuitive via le clavier. Ensuite, nous présentons le Masked Video Diffusion Transformer~(MVDT) avec un module de mémoire pour une génération vidéo infinie de manière autoregressive. Puis, nous intégrons au processus d'échantillonnage le mécanisme Anti-Artifact (AAM) sans entraînement et le Time Travel Sampling basé sur les Équations Différentielles Stochastiques (TTS-SDE) pour une meilleure qualité visuelle et un contrôle plus précis. De plus, nous explorons l'accélération du modèle via une optimisation synergique de la distillation antagoniste et des mécanismes de mise en cache. Nous utilisons le jeu de données d'exploration de monde de haute qualité \sekai pour entraîner \method, qui obtient des résultats remarquables dans divers scénarios et applications. Toutes les données, le code et les poids des modèles sont disponibles sur https://github.com/stdstu12/YUME. Yume sera mis à jour mensuellement pour atteindre son objectif initial. Page du projet : https://stdstu12.github.io/YUME-Project/.
Atteindre une perception et un raisonnement similaires à ceux des humains dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs) reste un défi central en intelligence artificielle. Bien que les recherches récentes se soient principalement concentrées sur l'amélioration des capacités de raisonnement des MLLMs, une question fondamentale persiste : les Modèles de Langage Multimodaux de Grande Taille peuvent-ils vraiment percevoir le monde comme les humains ? Cet article déplace l'attention du raisonnement vers la perception. Plutôt que de construire des benchmarks spécifiquement pour le raisonnement, nous introduisons le Test de l'Œil de Turing (TET), un benchmark orienté vers la perception et particulièrement exigeant, composé de quatre tâches diagnostiques qui évaluent les performances des MLLMs sur des images synthétiques que les humains traitent intuitivement. Nos résultats révèlent que les MLLMs de pointe présentent des échecs catastrophiques sur nos tâches perceptives, pourtant triviales pour les humains. L'apprentissage en contexte et l'entraînement sur le backbone linguistique, efficaces pour les benchmarks précédents, échouent à améliorer les performances sur nos tâches, tandis que le fine-tuning de la tour de vision permet une adaptation rapide, suggérant que notre benchmark pose des défis pour la généralisation de la tour de vision plutôt que pour les connaissances et les capacités de raisonnement du backbone linguistique - un écart clé entre les MLLMs actuels et la perception humaine. Nous publions un sous-ensemble représentatif des tâches du TET dans cette version, et introduirons des tâches et méthodes plus diversifiées pour améliorer la généralisation visuelle dans les travaux futurs.
La conception de diapositives de présentation de haute qualité peut s'avérer complexe pour les non-experts en raison de la difficulté à naviguer parmi les multiples choix de conception. De nombreux outils automatisés peuvent suggérer des mises en page et des schémas de couleurs, mais ils manquent souvent de la capacité à affiner leur propre production, un aspect essentiel dans les flux de travail réels. Nous proposons DesignLab, qui sépare le processus de conception en deux rôles : le réviseur de conception, qui identifie les problèmes liés à la conception, et le contributeur de conception, qui les corrige. Cette décomposition permet une boucle itérative où le réviseur détecte continuellement les problèmes et le contributeur les corrige, permettant à une ébauche d'être progressivement améliorée à chaque itération, atteignant ainsi des niveaux de qualité inaccessibles autrement. Nous affinons des modèles de langage de grande envergure pour ces rôles et simulons des ébauches intermédiaires en introduisant des perturbations contrôlées, permettant au réviseur de conception d'apprendre à identifier les erreurs et au contributeur d'apprendre à les corriger. Nos expériences montrent que DesignLab surpasse les méthodes existantes de génération de conception, y compris un outil commercial, en adoptant la nature itérative de la conception, ce qui peut aboutir à des diapositives soignées et professionnelles.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un paradigme puissant pour améliorer les capacités de raisonnement des LLM. Les recherches existantes se sont principalement concentrées sur des domaines de raisonnement isolés tels que la résolution de problèmes mathématiques, les tâches de codage ou le raisonnement logique. Cependant, les scénarios de raisonnement du monde réel exigent intrinsèquement une application intégrée de multiples compétences cognitives. Malgré cela, l'interaction entre ces compétences de raisonnement sous l'apprentissage par renforcement reste mal comprise. Pour combler cette lacune, nous présentons une investigation systématique du raisonnement multi-domaines dans le cadre du RLVR, en nous concentrant explicitement sur trois domaines principaux : le raisonnement mathématique, la génération de code et la résolution de puzzles logiques. Nous menons une étude approfondie comprenant quatre composantes clés : (1) En exploitant l'algorithme GRPO et la famille de modèles Qwen-2.5-7B, notre étude évalue minutieusement les améliorations intra-domaines et les capacités de généralisation inter-domaines des modèles lorsqu'ils sont entraînés sur des ensembles de données mono-domaines. (2) De plus, nous examinons les interactions complexes, y compris les améliorations mutuelles et les conflits qui émergent lors d'un entraînement combiné inter-domaines. (3) Pour mieux comprendre l'influence du SFT sur le RL, nous analysons et comparons également les différences de performance entre les modèles de base et les modèles instructifs sous des configurations de RL identiques. (4) Enfin, nous explorons en détail les aspects critiques de l'entraînement RL, en examinant systématiquement les impacts des stratégies d'apprentissage curriculaire, les variations dans la conception des récompenses et les facteurs spécifiques à la langue. À travers des expériences approfondies, nos résultats offrent des insights significatifs sur les dynamiques régissant les interactions entre domaines, révélant des facteurs clés influençant à la fois les performances de raisonnement spécialisées et généralisables. Ces découvertes fournissent des orientations précieuses pour optimiser les méthodologies RL afin de favoriser des capacités de raisonnement multi-domaines complètes dans les LLM.
Les récentes avancées dans les représentations de voxels épars ont considérablement amélioré la qualité de la génération de contenu 3D, permettant une modélisation haute résolution avec une géométrie fine. Cependant, les frameworks existants souffrent de graves inefficacités computationnelles dues à la complexité quadratique des mécanismes d'attention dans leurs pipelines de diffusion en deux étapes. Dans ce travail, nous proposons Ultra3D, un framework de génération 3D efficace qui accélère significativement la modélisation de voxels épars sans compromettre la qualité. Notre méthode exploite la représentation compacte VecSet pour générer efficacement une disposition grossière de l'objet dans la première étape, réduisant ainsi le nombre de tokens et accélérant la prédiction des coordonnées des voxels. Pour affiner les caractéristiques latentes par voxel dans la deuxième étape, nous introduisons Part Attention, un mécanisme d'attention localisé et géométriquement conscient qui restreint le calcul de l'attention aux régions de parties sémantiquement cohérentes. Cette conception préserve la continuité structurelle tout en évitant l'attention globale inutile, atteignant une accélération jusqu'à 6,7 fois dans la génération latente. Pour soutenir ce mécanisme, nous construisons un pipeline d'annotation de parties scalable qui convertit des maillages bruts en voxels épars étiquetés par parties. Des expériences approfondies démontrent qu'Ultra3D prend en charge la génération 3D haute résolution à 1024 résolution et atteint des performances de pointe à la fois en fidélité visuelle et en préférence utilisateur.
La recherche agentique, en tant que paradigme plus autonome et adaptatif d'augmentation par récupération, est en train de propulser l'évolution des systèmes de recherche intelligents. Cependant, les cadres d'évaluation existants ne s'alignent pas bien avec les objectifs de la recherche agentique. Premièrement, les requêtes complexes couramment utilisées dans les benchmarks actuels s'écartent souvent des scénarios de recherche réalistes des utilisateurs. Deuxièmement, les approches antérieures ont tendance à introduire du bruit lors de l'extraction de la vérité terrain pour les évaluations end-to-end, conduisant à des évaluations faussées à un niveau granulaire. Troisièmement, la plupart des cadres actuels se concentrent uniquement sur la qualité des réponses finales, négligeant l'évaluation du processus itératif inhérent à la recherche agentique. Pour pallier ces limitations, nous proposons RAVine — un cadre d'évaluation aligné sur la réalité pour les LLMs agentiques avec recherche. RAVine cible les requêtes multipoints et les réponses longues qui reflètent mieux les intentions des utilisateurs, et introduit une stratégie de construction de vérité terrain attribuable pour améliorer la précision de l'évaluation granulaire. De plus, RAVine examine l'interaction du modèle avec les outils de recherche tout au long du processus itératif, et prend en compte les facteurs d'efficacité. Nous évaluons une série de modèles en utilisant RAVine et tirons plusieurs conclusions, que nous espérons contribueront à faire progresser le développement des systèmes de recherche agentique. Le code et les jeux de données sont disponibles à l'adresse https://github.com/SwordFaith/RAVine.
Les grands modèles de langage (LLMs) existants basés sur le langage informel (par exemple, le langage humain) et entraînés par apprentissage par renforcement (RL) font face à un défi majeur : leurs processus de vérification, qui fournissent des signaux d’entraînement cruciaux, ne sont ni fiables ni évolutifs. En effet, les grands modèles propriétaires prédominants peinent à générer des programmes vérifiables. Une alternative prometteuse mais encore largement inexplorée est le raisonnement basé sur le langage formel. Ancrer les LLMs dans des systèmes formels rigoureux, où les modèles génératifs opèrent dans des espaces de langage formel (par exemple, Dafny), permet la vérification automatique et mathématiquement prouvable de leurs processus de raisonnement et de leurs résultats. Cette capacité est essentielle pour réaliser une vérification formelle de logiciels à grande échelle et fiable. Il est courant d’utiliser des chaînes de pensée annotées par des humains et d’autres connaissances a priori humaines pour induire les capacités de raisonnement et de codage des LLMs. Malheureusement, fournir de telles connaissances a priori pour superviser des tâches de programmation complexes devient inacceptablement chronophage. Dans ce travail, nous explorons systématiquement des moyens de réduire les connaissances a priori humaines en utilisant le langage formel Dafny comme environnement principal pour notre étude pilote. Notre pipeline repose principalement sur l’introduction d’un processus de curation de données automatique et évolutif, ainsi que sur des conceptions soignées de RL intégrant les retours du vérificateur de langage formel. Nous présentons DafnyComp, un benchmark de programmes formels compositionnels avec des spécifications auto-formalisées pour le raisonnement sur les spécifications. Notre étape de fine-tuning supervisé (SFT) permet même à de petits modèles (par exemple, 0,5 milliard de paramètres) de générer du code Dafny syntaxiquement valide et vérifiable, surpassant les modèles propriétaires. Le RL avec régularisation améliore encore les performances, obtenant une meilleure généralisation pour les tâches hors domaine et surpassant toutes les bases de référence solides sur le benchmark difficile de DafnyComp.
Les modèles de langage à grande échelle (LLMs) offrent les meilleures performances avec des prompts bien conçus, mais l'ingénierie des prompts reste manuelle, incohérente et inaccessible aux non-experts. Nous présentons Promptomatix, un cadre d'optimisation automatique des prompts qui transforme les descriptions de tâches en langage naturel en prompts de haute qualité sans nécessiter de réglage manuel ou d'expertise spécifique. Promptomatix prend en charge à la fois un optimiseur léger basé sur des méta-prompts et un compilateur alimenté par DSPy, avec une conception modulaire permettant une extension future à des cadres plus avancés. Le système analyse l'intention de l'utilisateur, génère des données d'entraînement synthétiques, sélectionne des stratégies de prompting et affine les prompts en utilisant des objectifs prenant en compte les coûts. Évalué sur 5 catégories de tâches, Promptomatix atteint des performances compétitives ou supérieures par rapport aux bibliothèques existantes, tout en réduisant la longueur des prompts et la surcharge computationnelle, rendant l'optimisation des prompts évolutive et efficace.
Les ressources 3D de haute qualité sont essentielles pour diverses applications en infographie et en vision 3D, mais elles restent rares en raison des coûts d'acquisition élevés. Pour pallier cette pénurie, nous présentons Elevate3D, un nouveau cadre de travail qui transforme des ressources 3D de faible qualité, facilement accessibles, en des ressources de qualité supérieure. Au cœur d'Elevate3D se trouve HFS-SDEdit, une méthode spécialisée d'amélioration des textures qui améliore significativement la qualité des textures tout en préservant l'apparence et la géométrie tout en corrigeant leurs dégradations. De plus, Elevate3D fonctionne de manière vue par vue, alternant entre le raffinement des textures et de la géométrie. Contrairement aux méthodes précédentes qui ont largement négligé le raffinement de la géométrie, notre cadre de travail exploite des indices géométriques provenant d'images raffinées avec HFS-SDEdit en utilisant des prédicteurs de géométrie monoculaire de pointe. Cette approche garantit une géométrie détaillée et précise qui s'aligne parfaitement avec la texture améliorée. Elevate3D surpasse les concurrents récents en atteignant une qualité de pointe dans le raffinement des modèles 3D, répondant ainsi efficacement à la pénurie de ressources 3D open-source de haute qualité.
Les progrès rapides des modèles de diffusion vidéo ont été entravés par des limitations fondamentales dans la modélisation temporelle, en particulier la synchronisation rigide de l'évolution des images imposée par les variables scalaires de pas de temps conventionnelles. Bien que des adaptations spécifiques à la tâche et des modèles autorégressifs aient cherché à relever ces défis, ils restent limités par une inefficacité computationnelle, un oubli catastrophique ou une applicabilité restreinte. Dans ce travail, nous présentons Pusa, un paradigme révolutionnaire qui exploite l'adaptation vectorisée des pas de temps (VTA) pour permettre un contrôle temporel fin au sein d'un cadre unifié de diffusion vidéo. Par ailleurs, la VTA est une adaptation non destructive, ce qui signifie qu'elle préserve pleinement les capacités du modèle de base. En affinant le modèle Wan2.1-T2V-14B de pointe avec la VTA, nous atteignons une efficacité sans précédent — surpassant les performances de Wan-I2V-14B avec ≤ 1/200 du coût d'entraînement (\500 vs. \geq 100,000) et ≤ 1/2500 de la taille du jeu de données (4K vs. \geq 10M échantillons). Pusa établit non seulement une nouvelle norme pour la génération d'images à vidéo (I2V), atteignant un score total VBench-I2V de 87,32 % (contre 86,86 % pour Wan-I2V-14B), mais débloque également de nombreuses capacités multi-tâches en zero-shot telles que la génération d'images de début et de fin et l'extension vidéo — le tout sans entraînement spécifique à la tâche. Parallèlement, Pusa peut toujours effectuer la génération de texte à vidéo. Des analyses mécanistes révèlent que notre approche préserve les a priori génératifs du modèle de base tout en injectant de manière chirurgicale des dynamiques temporelles, évitant l'explosion combinatoire inhérente aux pas de temps vectorisés. Ce travail établit un paradigme évolutif, efficace et polyvalent pour la synthèse vidéo de nouvelle génération, démocratisant la génération de vidéos haute fidélité pour la recherche et l'industrie. Le code est open-source à l'adresse https://github.com/Yaofang-Liu/Pusa-VidGen.
Les modèles de diffusion texte-image (DMs) ont obtenu un succès remarquable dans la génération d'images. Cependant, des préoccupations concernant la confidentialité des données et la propriété intellectuelle subsistent en raison de leur capacité à mémoriser et à reproduire involontairement les données d'entraînement. Les efforts récents de mitigation se sont concentrés sur l'identification et l'élagage des poids responsables du déclenchement de la reproduction, en partant de l'hypothèse que la mémorisation peut être localisée. Notre recherche évalue la robustesse de ces approches basées sur l'élagage. Nous démontrons que, même après l'élagage, des ajustements mineurs aux embeddings textuels des invites d'entrée suffisent à redéclencher la reproduction des données, mettant en évidence la fragilité de ces défenses. De plus, nous remettons en question l'hypothèse fondamentale de la localisation de la mémorisation, en montrant que la reproduction peut être déclenchée à partir de divers emplacements dans l'espace d'embedding textuel et suit des chemins différents dans le modèle. Nos résultats indiquent que les stratégies de mitigation existantes sont insuffisantes et soulignent la nécessité de méthodes qui éliminent véritablement le contenu mémorisé, plutôt que de tenter de supprimer sa récupération. Comme première étape dans cette direction, nous introduisons une nouvelle méthode de fine-tuning adversarial qui recherche itérativement les déclencheurs de reproduction et met à jour le modèle pour augmenter sa robustesse. À travers notre recherche, nous apportons de nouvelles perspectives sur la nature de la mémorisation dans les DMs texte-image et posons les bases pour la construction d'une IA générative plus fiable et conforme.