Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) ont obtenu un succès remarquable dans le traitement du langage naturel. Les avancées récentes ont conduit au développement d'une nouvelle classe de LLM spécialisés dans le raisonnement ; par exemple, le modèle open-source DeepSeek-R1 a atteint des performances de pointe en intégrant une pensée profonde et un raisonnement complexe. Malgré ces capacités impressionnantes, les mécanismes internes de raisonnement de ces modèles restent inexplorés. Dans ce travail, nous utilisons des autoencodeurs parcimonieux (SAE), une méthode permettant d'apprendre une décomposition parcimonieuse des représentations latentes d'un réseau neuronal en caractéristiques interprétables, pour identifier les caractéristiques qui pilotent le raisonnement dans la série de modèles DeepSeek-R1. Tout d'abord, nous proposons une approche pour extraire des « caractéristiques de raisonnement » candidates à partir des représentations SAE. Nous validons ces caractéristiques par des analyses empiriques et des méthodes d'interprétabilité, démontrant leur corrélation directe avec les capacités de raisonnement du modèle. De manière cruciale, nous montrons que la manipulation systématique de ces caractéristiques améliore les performances en raisonnement, offrant ainsi la première explication mécaniste du raisonnement dans les LLM. Le code est disponible à l'adresse suivante : https://github.com/AIRI-Institute/SAE-Reasoning.
Avec la capacité d'augmenter les données d'entraînement, la taille des modèles et les coûts de calcul, la génération vidéo a obtenu des résultats impressionnants dans la création numérique, permettant aux utilisateurs d'exprimer leur créativité dans divers domaines. Récemment, les chercheurs en modèles de langage à grande échelle (LLMs) ont étendu cette mise à l'échelle au temps de test, ce qui peut considérablement améliorer les performances des LLMs en utilisant davantage de calculs lors de l'inférence. Plutôt que de mettre à l'échelle les modèles de base vidéo par des coûts d'entraînement élevés, nous explorons la puissance de la mise à l'échelle au temps de test (Test-Time Scaling, TTS) dans la génération vidéo, visant à répondre à la question suivante : si un modèle de génération vidéo est autorisé à utiliser une quantité non négligeable de calculs lors de l'inférence, dans quelle mesure peut-il améliorer la qualité de la génération face à un texte d'invitation complexe. Dans ce travail, nous réinterprétons la mise à l'échelle au temps de test de la génération vidéo comme un problème de recherche pour échantillonner de meilleures trajectoires depuis l'espace de bruit gaussien vers la distribution vidéo cible. Plus précisément, nous construisons l'espace de recherche avec des vérificateurs au temps de test pour fournir des retours et des algorithmes heuristiques pour guider le processus de recherche. Étant donné un texte d'invitation, nous explorons d'abord une stratégie de recherche linéaire intuitive en augmentant les candidats de bruit au moment de l'inférence. Comme le débruitage complet de toutes les images simultanément nécessite des coûts de calcul élevés au temps de test, nous concevons une méthode TTS plus efficace pour la génération vidéo appelée Arbre-de-Images (Tree-of-Frames, ToF) qui étend et élagage de manière adaptative les branches vidéo de manière autorégressive. Des expériences approfondies sur des benchmarks de génération vidéo conditionnée par texte démontrent que l'augmentation des calculs au temps de test conduit systématiquement à des améliorations significatives de la qualité des vidéos. Page du projet : https://liuff19.github.io/Video-T1
Le développement de jeux modernes est confronté à des défis majeurs en matière de créativité et de coût en raison du contenu prédéterminé dans les moteurs de jeu traditionnels. Les récentes avancées dans les modèles de génération vidéo, capables de synthétiser des environnements virtuels réalistes et interactifs, offrent une opportunité de révolutionner la création de jeux. Dans ce document de position, nous proposons la Vidéo Générative Interactive (IGV) comme fondement des Moteurs de Jeux Génératifs (GGE), permettant une génération illimitée de contenu novateur dans les jeux de nouvelle génération. Les GGE exploitent les atouts uniques de l'IGV dans la synthèse de contenu de haute qualité illimité, la modélisation de mondes conscients de la physique, l'interactivité contrôlée par l'utilisateur, les capacités de mémoire à long terme et le raisonnement causal. Nous présentons un cadre détaillé des modules essentiels des GGE ainsi qu'une feuille de route hiérarchique de maturité (L0-L4) pour guider leur évolution. Notre travail trace une nouvelle voie pour le développement de jeux à l'ère de l'IA, envisageant un avenir où les systèmes génératifs alimentés par l'IA redéfinissent fondamentalement la manière dont les jeux sont créés et vécus.
DeepSeek-R1 a démontré que le raisonnement en chaîne de pensée (CoT) peut émerger naturellement à travers un cadre simple d'apprentissage par renforcement (RL) avec des récompenses basées sur des règles, où l'entraînement peut démarrer directement à partir des modèles de base - un paradigme appelé entraînement RL zéro. La plupart des efforts récents pour reproduire l'entraînement RL zéro se sont principalement concentrés sur la série de modèles Qwen2.5, qui pourrait ne pas être représentative, car nous constatons que les modèles de base présentent déjà de solides capacités de suivi d'instructions et d'auto-réflexion. Dans ce travail, nous étudions l'entraînement RL zéro sur 10 modèles de base divers, couvrant différentes familles et tailles, notamment LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, et tous les modèles Qwen2.5 de 0.5B à 32B. En exploitant plusieurs stratégies de conception clés - telles que l'ajustement de la récompense de format et le contrôle de la difficulté des requêtes - nous obtenons des améliorations substantielles à la fois en précision de raisonnement et en longueur de réponse dans la plupart des configurations. Cependant, en surveillant attentivement la dynamique de l'entraînement, nous observons que différents modèles de base présentent des schémas distincts pendant l'entraînement. Par exemple, l'augmentation de la longueur de la réponse ne corrèle pas toujours avec l'émergence de certains comportements cognitifs tels que la vérification (c'est-à-dire le "moment eurêka"). Notamment, nous observons le "moment eurêka" pour la première fois dans des petits modèles ne faisant pas partie de la famille Qwen. Nous partageons les conceptions clés qui permettent un entraînement RL zéro réussi, ainsi que nos découvertes et pratiques. Pour faciliter la recherche future, nous rendons open-source le code, les modèles et les outils d'analyse.
L'intégration de la reconstruction géométrique et de la modélisation générative reste un défi critique dans le développement de systèmes d'IA capables de raisonnement spatial semblable à celui des humains. Cet article propose Aether, un cadre unifié qui permet un raisonnement conscient de la géométrie dans les modèles du monde en optimisant conjointement trois capacités fondamentales : (1) la reconstruction dynamique 4D, (2) la prédiction vidéo conditionnée par l'action, et (3) la planification visuelle conditionnée par un objectif. Grâce à un apprentissage de caractéristiques entrelacées par tâches, Aether réalise un partage synergique des connaissances entre les objectifs de reconstruction, de prédiction et de planification. S'appuyant sur des modèles de génération vidéo, notre cadre démontre une généralisation sans précédent du synthétique au réel, bien qu'il n'ait jamais observé de données du monde réel pendant l'entraînement. De plus, notre approche atteint une généralisation zero-shot à la fois dans les tâches de suivi d'actions et de reconstruction, grâce à sa modélisation géométrique intrinsèque. Fait remarquable, même sans données du monde réel, ses performances en reconstruction surpassent largement celles des modèles spécifiques à un domaine. Par ailleurs, Aether exploite un espace d'action informé par la géométrie pour traduire de manière fluide les prédictions en actions, permettant une planification autonome efficace des trajectoires. Nous espérons que notre travail inspirera la communauté à explorer de nouvelles frontières dans la modélisation physiquement raisonnable du monde et ses applications.
Omnimatte vise à décomposer une vidéo donnée en couches sémantiquement significatives, comprenant l'arrière-plan et les objets individuels ainsi que leurs effets associés, tels que les ombres et les réflexions. Les méthodes existantes nécessitent souvent un entraînement approfondi ou une optimisation auto-supervisée coûteuse. Dans cet article, nous présentons OmnimatteZero, une approche sans entraînement qui exploite des modèles de diffusion vidéo pré-entraînés disponibles sur étagère pour Omnimatte. Cette méthode permet de supprimer des objets dans des vidéos, d'extraire des couches d'objets individuels avec leurs effets, et de les composer sur de nouvelles vidéos. Nous y parvenons en adaptant des techniques de réparation d'images sans apprentissage préalable pour la suppression d'objets dans des vidéos, une tâche qu'elles ne parviennent pas à gérer efficacement de manière native. Nous montrons ensuite que les cartes d'auto-attention capturent des informations sur l'objet et ses empreintes, et les utilisons pour réparer les effets de l'objet, laissant un arrière-plan propre. De plus, grâce à une simple arithmétique latente, les couches d'objets peuvent être isolées et recombinées de manière transparente avec de nouvelles couches vidéo pour produire de nouvelles vidéos. Les évaluations montrent qu'OmnimatteZero non seulement obtient des performances supérieures en termes de reconstruction de l'arrière-plan, mais établit également un nouveau record pour l'approche Omnimatte la plus rapide, atteignant des performances en temps réel avec un temps d'exécution minimal par image.
Les progrès dans la découverte scientifique résultent rarement d'un seul moment "Eurêka", mais sont plutôt le fruit de la collaboration progressive de centaines de scientifiques travaillant vers un objectif commun. Bien que les workflows d'agents existants soient capables de produire des recherches de manière autonome, ils le font de manière isolée, sans la capacité d'améliorer continuellement les résultats de recherches antérieures. Pour relever ces défis, nous présentons AgentRxiv - un cadre qui permet aux laboratoires d'agents LLM de télécharger et de récupérer des rapports depuis un serveur de prépublications partagé afin de collaborer, partager des insights et construire itérativement sur les recherches de chacun. Nous confions aux laboratoires d'agents la tâche de développer de nouvelles techniques de raisonnement et d'incitation, et constatons que les agents ayant accès à leurs recherches antérieures obtiennent de meilleures améliorations de performance par rapport aux agents opérant de manière isolée (amélioration relative de 11,4% par rapport à la base sur MATH-500). Nous observons que la stratégie la plus performante se généralise à des benchmarks dans d'autres domaines (amélioration moyenne de 3,3%). Plusieurs laboratoires d'agents partageant des recherches via AgentRxiv sont capables de travailler ensemble vers un objectif commun, progressant plus rapidement que les laboratoires isolés, et atteignant une précision globale plus élevée (amélioration relative de 13,7% par rapport à la base sur MATH-500). Ces résultats suggèrent que les agents autonomes pourraient jouer un rôle dans la conception des futurs systèmes d'IA aux côtés des humains. Nous espérons qu'AgentRxiv permettra aux agents de collaborer vers des objectifs de recherche et aux chercheurs d'accélérer la découverte.
Le Classifier-Free Guidance (CFG) est une technique largement adoptée dans les modèles de diffusion/flux pour améliorer la fidélité et la contrôlabilité des images. Dans ce travail, nous étudions d'abord analytiquement l'effet du CFG sur les modèles de correspondance de flux entraînés sur des mélanges gaussiens où le flux réel peut être dérivé. Nous observons que dans les premières étapes de l'entraînement, lorsque l'estimation du flux est imprécise, le CFG dirige les échantillons vers des trajectoires incorrectes. Sur la base de cette observation, nous proposons CFG-Zero*, une version améliorée du CFG avec deux contributions : (a) une échelle optimisée, où un scalaire est optimisé pour corriger les imprécisions dans l'estimation de la vitesse, d'où le * dans le nom ; et (b) zero-init, qui consiste à initialiser à zéro les premières étapes du solveur d'équations différentielles ordinaires (ODE). Les expériences sur la génération texte-image (Lumina-Next, Stable Diffusion 3 et Flux) et texte-vidéo (Wan-2.1) démontrent que CFG-Zero* surpasse systématiquement le CFG, mettant en évidence son efficacité pour guider les modèles de correspondance de flux. (Le code est disponible sur github.com/WeichenFan/CFG-Zero-star)
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes agentiques interagissant avec un environnement externe. Cependant, les agents basés sur des LLM sont vulnérables aux attaques par injection de prompts lors du traitement de données non fiables. Dans cet article, nous proposons CaMeL, une défense robuste qui crée une couche système protectrice autour du LLM, le sécurisant même lorsque les modèles sous-jacents peuvent être sensibles aux attaques. Pour fonctionner, CaMeL extrait explicitement les flux de contrôle et de données de la requête (fiable) ; ainsi, les données non fiables récupérées par le LLM ne peuvent jamais influencer le flux du programme. Pour renforcer davantage la sécurité, CaMeL s'appuie sur une notion de capacité pour empêcher l'exfiltration de données privées via des flux de données non autorisés. Nous démontrons l'efficacité de CaMeL en résolvant 67 % des tâches avec une sécurité prouvée dans AgentDojo [NeurIPS 2024], un récent benchmark de sécurité pour les systèmes agentiques.
L'évaluation des modèles génératifs de base sur des tâches de compréhension (MMU) et de génération multimodales (MMG) ouvertes, couvrant diverses modalités (par exemple, images, audio, vidéo), présente des défis significatifs en raison de la complexité des interactions intermodales. Dans cette optique, l'idée d'utiliser des modèles de langage multimodaux (MLLMs) comme juges automatisés a émergé, avec des résultats encourageants dans l'évaluation des tâches de compréhension vision-langage. Allant plus loin, cet article étend l'approche MLLM-comme-juge à travers les modalités de manière unifiée en introduisant deux benchmarks, TaskAnything et JudgeAnything, pour évaluer respectivement la performance globale et les capacités de jugement des MLLMs sur des tâches intermodales de tout-à-tout. Plus précisément, TaskAnything évalue les capacités MMU et MMG à travers 15 catégories de modalités tout-à-tout, en utilisant 1 500 requêtes sélectionnées à partir de benchmarks bien établis. De plus, JudgeAnything évalue les capacités de jugement de 5 modèles avancés (par exemple, GPT-4o et Gemini-2.0-Flash) sous les angles de la comparaison par paires et de l'évaluation par scores, fournissant un environnement de test standardisé qui intègre les jugements humains et des grilles d'évaluation détaillées. Nos expériences approfondies révèlent que, bien que ces MLLMs montrent des promesses dans l'évaluation de la MMU (c'est-à-dire atteignant une moyenne de 66,55 % dans le cadre de la comparaison par paires et 42,79 % dans celui de l'évaluation par scores), ils rencontrent des difficultés significatives avec les tâches MMG (c'est-à-dire ne dépassant en moyenne que 53,37 % dans le cadre de la comparaison par paires et 30,05 % dans celui de l'évaluation par scores), exposant des biais intermodaux et des problèmes d'hallucination. Pour y remédier, nous présentons OmniArena, une plateforme automatisée pour l'évaluation des modèles omni et des modèles de récompense multimodaux. Notre travail souligne la nécessité de protocoles d'évaluation plus équitables et d'un meilleur alignement avec les préférences humaines. Le code source et le jeu de données sont disponibles publiquement à l'adresse : https://urrealhero.github.io/judgeanythingweb/.
Nous présentons FFN Fusion, une technique d'optimisation architecturale qui réduit les calculs séquentiels dans les grands modèles de langage en identifiant et en exploitant les opportunités naturelles de parallélisation. Notre idée clé est que les séquences de couches de réseaux feed-forward (FFN), en particulier celles qui subsistent après la suppression de certaines couches d'attention, peuvent souvent être parallélisées avec un impact minimal sur la précision. Nous développons une méthodologie rigoureuse pour identifier et fusionner ces séquences, les transformant en opérations parallèles qui réduisent considérablement la latence d'inférence tout en préservant le comportement du modèle. En appliquant ces techniques à Llama-3.1-405B-Instruct, nous créons Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), un modèle efficace et bientôt disponible publiquement, qui atteint une accélération de 1,71X en latence d'inférence et un coût par token 35 fois inférieur, tout en maintenant des performances solides sur les benchmarks. À travers des expériences approfondies sur des modèles de 49B à 253B paramètres, nous démontrons que FFN Fusion devient de plus en plus efficace à plus grande échelle et peut compléter des techniques d'optimisation existantes comme la quantification et l'élagage. Plus intriguant encore, nous constatons que même des blocs de transformateurs complets contenant à la fois des couches d'attention et des FFN peuvent parfois être parallélisés, suggérant de nouvelles directions pour la conception d'architectures neuronales.
Les grands modèles vision-langage (LVLMs) suivent généralement un paradigme d'entraînement en deux étapes : pré-entraînement et affinage supervisé. Récemment, l'optimisation des préférences, issue du domaine du langage, est apparue comme une stratégie de renforcement post-entraînement efficace pour améliorer les capacités des LVLMs. Cependant, la construction de données de préférences annotées par des humains de haute qualité et le développement de modèles de récompense robustes pour imiter ces préférences sont à la fois coûteux et complexes. Motivés par cette observation, nous proposons Vision-R1, un nouvel algorithme de renforcement de type R1 guidé par la vision pour les LVLMs qui récompense les modèles avec un retour visuel définitif. Il exploite uniquement des données d'instruction sélectionnées, éliminant ainsi le besoin de modèles de récompense spécialisés et de jeux de données de préférences élaborés manuellement. Nous intégrons une fonction de récompense basée sur des critères qui intègre en outre un retour multidimensionnel pour évaluer de manière exhaustive les complétions du modèle en fonction de la logique de la tâche visuelle. De plus, nous introduisons une stratégie de raffinement progressif des règles qui ajuste dynamiquement les critères de récompense pendant l'entraînement, permettant une amélioration continue du modèle et atténuant le piratage des récompenses. Des expériences approfondies sur des benchmarks intra-distribution et hors-distribution démontrent que l'affinage des LVLMs de 7B avec Vision-R1 permet d'obtenir des gains de performance constants, avec des améliorations allant jusqu'à 50 %, surpassant même le modèle de pointe 10 fois plus grand.
Les modèles génératifs actuels, tels que les approches autorégressives et de diffusion, décomposent l'apprentissage de distributions de données en haute dimension en une série de sous-tâches plus simples. Cependant, des conflits inhérents surviennent lors de l'optimisation conjointe de ces sous-tâches, et les solutions existantes ne parviennent pas à résoudre ces conflits sans sacrifier l'efficacité ou l'évolutivité. Nous proposons un nouveau cadre de modélisation d'images équivariantes qui aligne intrinsèquement les objectifs d'optimisation entre les sous-tâches en exploitant l'invariance par translation des signaux visuels naturels. Notre méthode introduit (1) une tokenisation colonne par colonne qui renforce la symétrie translationnelle le long de l'axe horizontal, et (2) une attention causale fenêtrée qui impose des relations contextuelles cohérentes entre les positions. Évaluée sur la génération d'images conditionnées par classe sur ImageNet à une résolution de 256x256, notre approche atteint des performances comparables aux modèles AR de pointe tout en utilisant moins de ressources computationnelles. Une analyse systématique démontre qu'une équivariance améliorée réduit les conflits inter-tâches, améliorant significativement la généralisation zero-shot et permettant la synthèse d'images ultra-longues. Ce travail établit le premier cadre pour la décomposition alignée sur les tâches en modélisation générative, offrant des insights sur le partage efficace des paramètres et l'optimisation sans conflits. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/drx-code/EquivariantModeling.
Les grands modèles de langage (LLMs) ont démontré une capacité de raisonnement remarquable pour résoudre des problèmes mathématiques. Cependant, les approches existantes se concentrent principalement sur l'amélioration de la qualité des données d'entraînement correctes, par exemple en distillant des solutions correctes de haute qualité à partir de modèles avancés, négligeant ainsi la valeur contenue dans les données d'erreur, ce qui pourrait entraver la capacité de réflexion du modèle. Bien que certaines études tentent d'exploiter les données d'erreur, elles impliquent souvent des mécanismes complexes, tels que la recherche arborescente de Monte Carlo (MCTS) pour explorer les nœuds d'erreur. Dans ce travail, nous proposons d'améliorer la capacité de raisonnement des LLMs en apprenant des erreurs pour l'avancement mathématique (LEMMA). LEMMA construit des données composées d'une solution incorrecte avec une étape erronée et une connexion de réflexion vers une solution correcte pour le réglage fin. Plus précisément, nous analysons systématiquement les types d'erreurs générés par le modèle et introduisons une méthode d'augmentation des erreurs basée sur le type d'erreur pour collecter des erreurs diverses et représentatives. Les solutions correctes proviennent soit de la correction des erreurs, soit de la génération d'un nouveau départ. Grâce à une connexion de réflexion fluide et consciente du modèle, la solution erronée est transférée vers la solution correcte. En effectuant un réglage fin sur l'ensemble de données construit, le modèle est capable de s'auto-corriger de manière autonome pendant le processus de génération sans dépendre de modèles de critique externes. Les résultats expérimentaux démontrent que LEMMA obtient des améliorations significatives de performance par rapport à d'autres bases de référence solides.
L'évolution du calcul pour le pré-entraînement des modèles de langage (LM) a dépassé la croissance des textes écrits par des humains, suscitant des inquiétudes quant au fait que les données deviendront le goulot d'étranglement pour la mise à l'échelle des LM. Pour poursuivre ce pré-entraînement dans un contexte de données limitées, nous proposons que la modélisation et l'inférence explicites des pensées latentes sous-jacentes au processus de génération de texte peuvent considérablement améliorer l'efficacité des données de pré-entraînement. Intuitivement, notre approche considère le texte web comme le résultat final compressé d'un processus de pensée humaine détaillé, et que ces pensées latentes contiennent des connaissances contextuelles et des étapes de raisonnement essentielles pour un apprentissage efficace des données. Nous démontrons empiriquement l'efficacité de notre approche à travers un pré-entraînement continu en mathématiques avec des données limitées. Nous montrons d'abord que les approches de données synthétiques pour inférer les pensées latentes améliorent significativement l'efficacité des données, surpassant l'entraînement sur la même quantité de données brutes (5,7 \% \rightarrow 25,4 \% sur MATH). De plus, nous démontrons l'inférence de pensées latentes sans un enseignant fort, où un LM améliore ses performances de manière autonome en utilisant un algorithme EM pour améliorer itérativement les capacités du LM entraîné et la qualité des données de pré-entraînement enrichies de pensées. Nous montrons qu'un LM de 1 milliard de paramètres peut améliorer ses performances sur au moins trois itérations et surpasser significativement les modèles de référence entraînés sur des données brutes, avec des gains croissants provenant de calculs d'inférence supplémentaires lors de l'étape E. Les gains obtenus grâce à la mise à l'échelle de l'inférence et aux itérations EM suggèrent de nouvelles opportunités pour la mise à l'échelle du pré-entraînement dans un contexte de données limitées.
La conversion du langage naturel en SQL (NL2SQL) a connu des avancées significatives grâce aux grands modèles de langage (LLMs). Cependant, ces modèles dépendent souvent de systèmes propriétaires et de ressources computationnelles élevées, posant des défis en matière de confidentialité des données et de déploiement. En revanche, les petits modèles de langage (SLMs) peinent à accomplir les tâches NL2SQL, affichant de faibles performances et une incompatibilité avec les frameworks existants. Pour résoudre ces problèmes, nous présentons Feather-SQL, un nouveau framework léger conçu pour les SLMs. Feather-SQL améliore l'exécutabilité et la précision du SQL grâce à 1) l'élagage et la liaison de schémas, 2) la génération multi-chemins et multi-candidats. De plus, nous introduisons le paradigme de collaboration 1+1, qui associe un modèle de chat généraliste puissant à un spécialiste SQL finement ajusté, combinant un raisonnement analytique robuste avec une génération SQL de haute précision. Les résultats expérimentaux sur BIRD montrent que Feather-SQL améliore les performances NL2SQL des SLMs, avec une augmentation d'environ 10 % pour les modèles sans ajustement fin. Le paradigme proposé élève le plafond de précision des SLMs à 54,76 %, soulignant son efficacité.
Le 3D Gaussian Splatting (3DGS) s'est imposé comme une représentation puissante pour le rendu en temps réel et haute performance, ouvrant la voie à une large gamme d'applications. Cependant, la représentation de scènes 3D avec un grand nombre de primitives gaussiennes explicites entraîne un surcoût significatif en termes de stockage et de mémoire. Des études récentes ont montré qu'un rendu de haute qualité peut être obtenu avec un nombre considérablement réduit de gaussiennes lorsqu'elles sont représentées avec des attributs de haute précision. Néanmoins, les méthodes de compression 3DGS existantes reposent encore sur un nombre relativement important de gaussiennes, se concentrant principalement sur la compression des attributs. Cela s'explique par le fait qu'un ensemble plus restreint de gaussiennes devient de plus en plus sensible à la compression d'attributs avec perte, entraînant une dégradation sévère de la qualité. Étant donné que le nombre de gaussiennes est directement lié aux coûts de calcul, il est essentiel de réduire efficacement ce nombre plutôt que d'optimiser uniquement le stockage. Dans cet article, nous proposons la représentation Optimized Minimal Gaussians (OMG), qui réduit considérablement le stockage tout en utilisant un nombre minimal de primitives. Premièrement, nous identifions les gaussiennes distinctes parmi celles qui sont proches, minimisant ainsi la redondance sans sacrifier la qualité. Deuxièmement, nous proposons une représentation compacte et précise des attributs qui capture efficacement à la fois la continuité et l'irrégularité entre les primitives. De plus, nous proposons une technique de quantification sous-vectorielle pour améliorer la représentation de l'irrégularité, tout en maintenant un entraînement rapide avec une taille de codebook négligeable. Des expériences approfondies démontrent qu'OMG réduit les besoins de stockage de près de 50 % par rapport à l'état de l'art précédent et permet un rendu à plus de 600 FPS tout en conservant une qualité de rendu élevée. Notre code source est disponible à l'adresse https://maincold2.github.io/omg/.
Les modèles de diffusion ont démontré des capacités remarquables dans la génération de contenu visuel, mais leur déploiement reste difficile en raison de leur coût computationnel élevé lors de l'inférence. Cette charge computationnelle découle principalement de la complexité quadratique de l'auto-attention par rapport à la résolution des images ou des vidéos. Bien que les méthodes d'accélération existantes compromettent souvent la qualité des résultats ou nécessitent un réentraînement coûteux, nous observons que la plupart des modèles de diffusion sont pré-entraînés à des résolutions plus faibles, offrant ainsi une opportunité d'exploiter ces préconnaissances à basse résolution pour une inférence plus efficace sans dégrader les performances. Dans ce travail, nous introduisons **Bottleneck Sampling**, un cadre sans entraînement qui exploite les préconnaissances à basse résolution pour réduire la surcharge computationnelle tout en préservant la fidélité des résultats. **Bottleneck Sampling** suit un workflow de débruîtage haut-bas-haut : il effectue un débruîtage à haute résolution dans les étapes initiales et finales, tout en opérant à des résolutions plus faibles dans les étapes intermédiaires. Pour atténuer les artefacts de crénelage et de flou, nous affinons davantage les points de transition de résolution et ajustons de manière adaptative les étapes de débruîtage à chaque stade. Nous évaluons **Bottleneck Sampling** sur des tâches de génération d'images et de vidéos, où des expériences approfondies démontrent qu'il accélère l'inférence jusqu'à 3 fois pour la génération d'images et 2,5 fois pour la génération de vidéos, tout en maintenant une qualité de sortie comparable au processus standard d'échantillonnage à pleine résolution selon plusieurs métriques d'évaluation. Le code est disponible à l'adresse : https://github.com/tyfeld/Bottleneck-Sampling.
Les récentes avancées dans les modèles de langage pour vidéos de grande envergure (LVLMs) ont mis en lumière leur potentiel pour la compréhension multi-modale, mais l'évaluation de leur ancrage factuel dans des contextes vidéo reste un défi critique non résolu. Pour combler cette lacune, nous introduisons Video SimpleQA, le premier benchmark complet conçu pour l'évaluation de la factualité des LVLMs. Notre travail se distingue des benchmarks vidéo existants par les caractéristiques clés suivantes : 1) Connaissance requise : nécessitant l'intégration de connaissances externes au-delà du récit explicite ; 2) Question factuelle : ciblant des événements ou des relations objectives et incontestées, évitant l'interprétation subjective ; 3) Réponse définitive et concise : Les réponses sont formulées de manière non ambiguë et définitivement correctes dans un format court, permettant une évaluation automatisée via des frameworks LLM-as-a-judge avec une variance de notation minimale ; 4) Vérification par source externe : Toutes les annotations sont rigoureusement validées par rapport à des références externes autorisées pour garantir la fiabilité ; 5) Raisonnement temporel requis : Les types de questions annotées englobent à la fois la compréhension statique d'une seule image et le raisonnement temporel dynamique, évaluant explicitement la factualité des LVLMs dans le cadre de dépendances contextuelles longues. Nous évaluons de manière approfondie 41 LVLMs de pointe et résumons les principales conclusions comme suit : 1) Les LVLMs actuels présentent des lacunes notables en matière d'adhésion factuelle, en particulier pour les modèles open-source. Le meilleur modèle, Gemini-1.5-Pro, atteint un score F de seulement 54,4 % ; 2) Les paradigmes de calcul en temps de test montrent des gains de performance insignifiants, révélant des contraintes fondamentales pour améliorer la factualité par le calcul post-hoc ; 3) La Génération Augmentée par Récupération démontre des améliorations constantes au prix d'un temps d'inférence supplémentaire, présentant un compromis critique entre efficacité et performance.
Cet article présente AlphaSpace, une nouvelle méthodologie conçue pour améliorer les capacités de raisonnement spatial des grands modèles de langage (LLM) dans la navigation en espace cartésien 3D. AlphaSpace utilise une stratégie de tokenisation basée sur la sémantique, encodant les informations de hauteur à travers des tokens sémantiques spécialisés, et intègre principalement des données de raisonnement synthétique symboliques. Cette approche permet aux LLM de manipuler avec précision des objets en les positionnant à des coordonnées [x, y, z] spécifiques. Les résultats expérimentaux montrent qu'AlphaSpace surpasse significativement les modèles existants sur les sous-tâches de manipulation, atteignant une précision totale de 66,67 %, contre 37,5 % pour GPT-4o et 29,17 % pour Claude 3.5 Sonnet.
La génération de texte à vidéo (T2V) a réalisé des progrès significatifs grâce aux modèles de diffusion. Cependant, les méthodes existantes peinent encore à associer précisément les attributs, à déterminer les relations spatiales et à capturer les interactions complexes entre plusieurs sujets. Pour surmonter ces limitations, nous proposons MagicComp, une méthode sans entraînement qui améliore la génération compositionnelle T2V grâce à un raffinement en deux phases. Plus précisément, (1) Durant l'Étape de Conditionnement : Nous introduisons la Désambiguïsation des Ancres Sémantiques pour renforcer la sémantique spécifique aux sujets et résoudre les ambiguïtés inter-sujets en injectant progressivement les vecteurs directionnels des ancres sémantiques dans l'embedding de texte original ; (2) Durant l'Étape de Dénuage : Nous proposons l'Attention de Fusion Dynamique de Disposition, qui intègre des préalables de localisation et une perception spatiale adaptative au modèle pour associer de manière flexible les sujets à leurs régions spatio-temporelles via une modulation d'attention masquée. De plus, MagicComp est une approche agnostique au modèle et polyvalente, pouvant être intégrée de manière transparente dans les architectures T2V existantes. Des expériences approfondies sur T2V-CompBench et VBench montrent que MagicComp surpasse les méthodes de pointe, soulignant son potentiel pour des applications telles que la génération de vidéos basées sur des prompts complexes et contrôlables par trajectoire. Page du projet : https://hong-yu-zhang.github.io/MagicComp-Page/.
Dans cet article, nous présentons Diffusion-4K, un nouveau cadre pour la synthèse directe d'images en ultra-haute résolution à l'aide de modèles de diffusion texte-image. Les avancées principales incluent : (1) Le benchmark Aesthetic-4K : pour pallier l'absence d'un ensemble de données publiquement disponible pour la synthèse d'images en 4K, nous avons construit Aesthetic-4K, un benchmark complet pour la génération d'images en ultra-haute résolution. Nous avons constitué un ensemble de données 4K de haute qualité avec des images et des légendes soigneusement sélectionnées, générées par GPT-4o. De plus, nous introduisons les métriques GLCM Score et Compression Ratio pour évaluer les détails fins, combinées à des mesures holistiques telles que FID, Aesthetics et CLIPScore pour une évaluation complète des images en ultra-haute résolution. (2) Le fine-tuning basé sur les ondelettes : nous proposons une approche de fine-tuning basée sur les ondelettes pour l'entraînement direct avec des images photoréalistes en 4K, applicable à divers modèles de diffusion latente, démontrant son efficacité dans la synthèse d'images 4K hautement détaillées. Par conséquent, Diffusion-4K atteint des performances impressionnantes en matière de synthèse d'images de haute qualité et d'adhésion aux prompts textuels, en particulier lorsqu'il est alimenté par des modèles de diffusion modernes à grande échelle (par exemple, SD3-2B et Flux-12B). Les résultats expérimentaux approfondis de notre benchmark démontrent la supériorité de Diffusion-4K dans la synthèse d'images en ultra-haute résolution.
Les modèles de langage de grande taille (LLMs) ont considérablement fait progresser divers domaines, en particulier le codage, le raisonnement mathématique et la résolution de problèmes logiques. Cependant, une question cruciale demeure : ces capacités de raisonnement mathématique persistent-elles lorsque les LLMs sont confrontés à des problèmes mathématiques adaptés culturellement ? Plus précisément, comment les LLMs se comportent-ils face à des problèmes mathématiques intégrés dans des contextes culturels qui ne sont pas significativement représentés dans les données d'entraînement à grande échelle du web ? Pour explorer cela, nous avons généré six ensembles de données culturelles synthétiques à partir de GSM8K, un benchmark largement utilisé pour évaluer les compétences en raisonnement mathématique des LLMs. Tout en conservant la logique mathématique et les valeurs numériques du jeu de test original de GSM8K, nous avons modifié des éléments culturels tels que les noms de personnes, les aliments, les noms de lieux, etc. Ces ensembles de données adaptés culturellement fournissent un cadre plus fiable pour évaluer le raisonnement mathématique des LLMs dans des contextes culturels changeants. Nos résultats révèlent que les LLMs ont des difficultés avec les problèmes mathématiques lorsque les références culturelles changent, même si la structure mathématique sous-jacente reste constante. Les modèles plus petits montrent des baisses de performance plus importantes par rapport aux modèles plus grands. Fait intéressant, nos résultats suggèrent également que la familiarité culturelle peut améliorer le raisonnement mathématique. Même des modèles sans entraînement mathématique explicite mais exposés à des contextes culturels pertinents surpassent parfois des modèles plus grands et compétents en mathématiques sur des problèmes mathématiques intégrés culturellement. Cette étude met en évidence l'impact du contexte culturel sur les capacités de raisonnement mathématique des LLMs, soulignant la nécessité de données d'entraînement plus diversifiées et représentatives pour améliorer la robustesse dans les applications réelles. Les ensembles de données de référence et le script pour reproduire les résultats sont disponibles à l'adresse suivante : https://github.com/akarim23131/Lost_in_Cultural_Translation
La croissance exponentielle récente des modèles de langage de grande taille (LLMs) s'est appuyée sur des systèmes basés sur des GPU. Cependant, les CPU émergent comme une alternative flexible et à moindre coût, en particulier pour les charges de travail d'inférence et de raisonnement. Le RISC-V gagne rapidement du terrain dans ce domaine, grâce à son architecture d'ensemble d'instructions (ISA) ouverte et indépendante des fournisseurs. Cependant, le matériel RISC-V pour les charges de travail LLM et l'écosystème logiciel correspondant ne sont pas encore pleinement matures et optimisés, en raison de la nécessité d'un réglage spécifique au domaine. Cet article vise à combler cette lacune, en se concentrant sur l'optimisation de l'inférence des LLM sur le Sophon SG2042, le premier CPU RISC-V multi-cœur commercialement disponible avec des capacités de traitement vectoriel. Sur deux LLM récents de pointe optimisés pour le raisonnement, DeepSeek R1 Distill Llama 8B et DeepSeek R1 Distill QWEN 14B, nous obtenons 4,32/2,29 tokens/s pour la génération de tokens et 6,54/3,68 tokens/s pour le traitement des invites, avec une accélération allant jusqu'à 2,9x/3,0x par rapport à notre référence de base.
La réponse à des questions non factuelles (NFQA) représente un défi majeur en raison de leur nature ouverte, de la diversité des intentions et de la nécessité d'un raisonnement multi-aspects, ce qui rend les approches conventionnelles de réponse à des questions factuelles, y compris la génération assistée par récupération (RAG), inadéquates. Contrairement aux questions factuelles, les questions non factuelles (NFQs) n'ont pas de réponses définitives et nécessitent la synthèse d'informations provenant de multiples sources à travers diverses dimensions de raisonnement. Pour pallier ces limitations, nous introduisons Typed-RAG, un cadre de décomposition multi-aspects conscient des types au sein du paradigme RAG pour la NFQA. Typed-RAG classe les NFQs en types distincts -- tels que débat, expérience et comparaison -- et applique une décomposition basée sur les aspects pour affiner les stratégies de récupération et de génération. En décomposant les NFQs multi-aspects en sous-requêtes mono-aspects et en agrégeant les résultats, Typed-RAG génère des réponses plus informatives et contextuellement pertinentes. Pour évaluer Typed-RAG, nous introduisons Wiki-NFQA, un ensemble de données de référence couvrant divers types de NFQs. Les résultats expérimentaux montrent que Typed-RAG surpasse les approches de référence, mettant ainsi en lumière l'importance de la décomposition consciente des types pour une récupération et une génération efficaces dans la NFQA. Notre code et notre ensemble de données sont disponibles à l'adresse suivante : https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
La génération de texte à vidéo (T2V) a suscité un intérêt considérable pour sa capacité à synthétiser des vidéos réalistes à partir de descriptions textuelles. Cependant, les modèles existants peinent à concilier efficacité computationnelle et qualité visuelle élevée, en particulier sur les appareils aux ressources limitées, tels que les iGPU et les téléphones mobiles. La plupart des travaux antérieurs privilégient la fidélité visuelle tout en négligeant la nécessité de modèles plus petits et plus efficaces, adaptés à un déploiement réel. Pour relever ce défi, nous proposons un cadre T2V léger, baptisé Hummingbird, qui élagage les modèles existants et améliore la qualité visuelle grâce à un apprentissage par rétroaction visuelle. Notre approche réduit la taille de l'U-Net de 1,4 milliard à 0,7 milliard de paramètres, améliorant ainsi significativement l'efficacité tout en préservant une génération vidéo de haute qualité. De plus, nous introduisons un nouveau pipeline de traitement des données qui exploite les modèles de langage à grande échelle (LLM) et les modèles d'évaluation de la qualité vidéo (VQA) pour améliorer la qualité des prompts textuels et des données vidéo. Pour soutenir l'entraînement piloté par l'utilisateur et la personnalisation des styles, nous publions le code complet d'entraînement, incluant le traitement des données et l'entraînement du modèle. Des expériences approfondies montrent que notre méthode atteint une accélération de 31X par rapport aux modèles de pointe tels que VideoCrafter2, tout en obtenant le score global le plus élevé sur VBench. En outre, notre méthode prend en charge la génération de vidéos allant jusqu'à 26 images, surmontant ainsi les limitations des méthodes basées sur l'U-Net dans la génération de vidéos longues. Notamment, l'ensemble du processus d'entraînement ne nécessite que quatre GPU, tout en offrant des performances compétitives avec les méthodes leaders existantes. Hummingbird propose une solution pratique et efficace pour la génération T2V, combinant haute performance, évolutivité et flexibilité pour des applications réelles.
Le résultat du pré-entraînement des grands modèles de langage (LLM) dépend fortement des stratégies d'initialisation des poids et de contrôle de la variance. Bien que l'importance du contrôle initial de la variance ait été bien documentée pour les réseaux de neurones en général, la littérature sur l'initialisation et la gestion de sa croissance pendant le pré-entraînement des LLM, en particulier, est relativement limitée. Dans cet article, nous introduisons le schéma d'initialisation des poids par redimensionnement basé sur l'indice de couche (Layer Index Rescaling, LIR) et la stratégie de contrôle de la variance par redimensionnement vers une variance cible (Target Variance Rescaling, TVR). Des expériences sur un modèle LLaMA de 1 milliard de paramètres démontrent qu'une meilleure gestion de la variance grâce à ces techniques entraîne des améliorations substantielles des performances sur les tâches en aval (jusqu'à 4,6 % sur les benchmarks courants de pré-entraînement) et réduit les valeurs d'activation extrêmes, atténuant ainsi les défis associés à la quantification et à l'entraînement en faible précision. Notre code est disponible à l'adresse suivante : https://github.com/bluorion-com/weight_rescaling.
Nous présentons MetaSpatial, le premier cadre basé sur l'apprentissage par renforcement (RL) conçu pour améliorer le raisonnement spatial 3D dans les modèles vision-langage (VLMs), permettant la génération de scènes 3D en temps réel sans nécessiter d'optimisations prédéfinies. MetaSpatial aborde deux défis majeurs : (i) l'absence de raisonnement spatial 3D internalisé dans les VLMs, qui limite leur capacité à générer des agencements réalistes, et (ii) l'inefficacité de l'affinage supervisé traditionnel (SFT) pour les tâches de génération de layouts, car les annotations de vérité terrain parfaites sont indisponibles. Notre innovation clé est un mécanisme d'optimisation multi-tours basé sur le RL, intégrant des contraintes physiques et des évaluations d'images rendues, garantissant que les layouts 3D générés sont cohérents, physiquement plausibles et esthétiquement harmonieux. Méthodologiquement, MetaSpatial introduit un processus de raisonnement itératif et adaptatif, où le VLM affine les arrangements spatiaux sur plusieurs tours en analysant les sorties rendues, améliorant progressivement la cohérence des scènes. Les évaluations empiriques démontrent que MetaSpatial améliore significativement la cohérence spatiale et la stabilité de formatage de divers modèles à différentes échelles. Après l'entraînement, les placements d'objets sont plus réalistes, alignés et fonctionnellement cohérents, validant l'efficacité du RL pour le raisonnement spatial 3D dans des applications telles que le métavers, la RA/RV, les jumeaux numériques et le développement de jeux. Notre code, données et pipeline d'entraînement sont disponibles publiquement à l'adresse https://github.com/PzySeere/MetaSpatial.
Bien que les instructions en langage naturel offrent une manière intuitive de guider l'édition d'images automatisée, les modèles d'apprentissage profond peinent souvent à obtenir des résultats de haute qualité, principalement en raison des difficultés à créer des ensembles de données d'entraînement volumineux et de qualité. Les travaux précédents se sont généralement appuyés sur des modèles génératifs texte-image (T2I) pour produire des paires d'images originales et éditées simulant l'entrée/sortie d'un modèle d'édition d'images guidé par instructions. Cependant, ces paires d'images ne correspondent souvent pas aux instructions d'édition spécifiées en raison des limitations des modèles T2I, ce qui affecte négativement les modèles entraînés sur de tels ensembles de données. Pour remédier à cela, nous présentons Instruct-CLIP, une méthode auto-supervisée qui apprend les changements sémantiques entre les images originales et éditées pour affiner et mieux aligner les instructions dans les ensembles de données existants. De plus, nous adaptons Instruct-CLIP pour gérer les images latentes bruitées et les étapes de diffusion, afin qu'il puisse être utilisé pour entraîner des modèles de diffusion latente (LDMs) [19] et imposer efficacement l'alignement entre l'instruction d'édition et les changements d'images dans l'espace latent à n'importe quelle étape du pipeline de diffusion. Nous utilisons Instruct-CLIP pour corriger le jeu de données InstructPix2Pix et obtenons plus de 120 000 échantillons raffinés que nous utilisons ensuite pour affiner leur modèle, guidé par notre nouvelle fonction de perte basée sur Instruct-CLIP. Le modèle résultant peut produire des éditions mieux alignées avec les instructions données. Notre code et notre jeu de données sont disponibles à l'adresse https://github.com/SherryXTChen/Instruct-CLIP.git.
Les modèles de langage ont récemment progressé dans le domaine du raisonnement, mais c'est à travers le raisonnement multimodal que nous pouvons pleinement débloquer le potentiel pour atteindre des capacités cognitives plus complètes, semblables à celles des humains. Cette étude propose un aperçu systématique des approches récentes en matière de raisonnement multimodal, les classant en deux niveaux : le raisonnement multimodal centré sur le langage et le raisonnement multimodal collaboratif. Le premier englobe la perception visuelle en une seule passe et la perception visuelle active, où la vision joue principalement un rôle de soutien dans le raisonnement linguistique. Le second implique la génération d'actions et la mise à jour d'état au sein du processus de raisonnement, permettant une interaction plus dynamique entre les modalités. De plus, nous analysons l'évolution technique de ces méthodes, discutons de leurs défis inhérents et introduisons les principales tâches de référence et les métriques d'évaluation pour mesurer la performance en raisonnement multimodal. Enfin, nous offrons des perspectives sur les futures directions de recherche à partir des deux points de vue suivants : (i) du raisonnement visuel-langage au raisonnement omnimodal et (ii) du raisonnement multimodal aux agents multimodaux. Cette étude vise à fournir un aperçu structuré qui inspirera de nouvelles avancées dans la recherche sur le raisonnement multimodal.
Les tokeniseurs visuels discrets transforment les images en une séquence de tokens, permettant une génération visuelle basée sur les tokens similaire aux modèles de langage. Cependant, ce processus est intrinsèquement complexe, car il nécessite à la fois de compresser les signaux visuels en une représentation compacte et de les discrétiser en un ensemble fixe de codes. Les tokeniseurs discrets traditionnels apprennent généralement ces deux tâches conjointement, ce qui entraîne souvent un entraînement instable, une faible utilisation du codebook et une qualité de reconstruction limitée. Dans cet article, nous présentons CODA (COntinuous-to-Discrete Adaptation), un cadre qui découple la compression et la discrétisation. Au lieu d'entraîner des tokeniseurs discrets à partir de zéro, CODA adapte des VAEs continus préexistants — déjà optimisés pour la compression perceptuelle — en tokeniseurs discrets via un processus de discrétisation soigneusement conçu. En se concentrant principalement sur la discrétisation, CODA garantit un entraînement stable et efficace tout en conservant la forte fidélité visuelle des VAEs continus. Empiriquement, avec un budget d'entraînement 6 fois inférieur à celui du VQGAN standard, notre approche atteint une utilisation remarquable du codebook de 100 % et des scores FID de reconstruction (rFID) notables de 0,43 et 1,34 pour des compressions de 8 fois et 16 fois sur le benchmark ImageNet 256×256.
Récemment, des progrès significatifs ont été réalisés dans la technologie de génération vidéo, attirant l'attention généralisée des chercheurs. Pour appliquer cette technologie à des applications en aval dans des conditions de ressources limitées, les chercheurs procèdent généralement à un ajustement fin des modèles pré-entraînés en utilisant des méthodes d'optimisation paramétrique efficaces telles qu'Adapter ou Lora. Bien que ces méthodes permettent de transférer les connaissances du domaine source au domaine cible, un nombre réduit de paramètres d'entraînement entraîne une faible capacité d'ajustement, et les connaissances du domaine source peuvent conduire à un processus d'inférence qui s'écarte du domaine cible. Dans cet article, nous soutenons que, dans des conditions de ressources limitées, l'entraînement d'un modèle de génération vidéo plus petit à partir de zéro en utilisant seulement des échantillons de l'ordre du million peut surpasser l'optimisation paramétrique efficace sur des modèles plus grands dans les applications en aval : la clé réside dans l'utilisation efficace des données et une stratégie d'apprentissage progressif. Prenons comme étude de cas la génération d'autocollants animés (ASG), nous construisons d'abord un réseau de génération d'images discrètes pour des autocollants à faible taux de rafraîchissement, en veillant à ce que ses paramètres répondent aux exigences de l'entraînement du modèle dans des conditions de ressources limitées. Afin de fournir un support de données pour les modèles entraînés à partir de zéro, nous proposons une stratégie d'utilisation des données basée sur un double masque, qui parvient à améliorer la disponibilité et à élargir la diversité des données limitées. Pour faciliter la convergence dans une situation de double masque, nous proposons une méthode d'apprentissage progressif adaptative à la difficulté, qui décompose l'entropie des échantillons en composantes statiques et adaptatives afin d'obtenir des échantillons allant du plus simple au plus complexe. L'expérience démontre que notre cadre d'entraînement à double masque économe en ressources est quantitativement et qualitativement supérieur aux méthodes d'optimisation paramétrique efficaces telles qu'I2V-Adapter et SimDA, vérifiant ainsi la faisabilité de notre méthode pour les tâches en aval dans des conditions de ressources limitées. Le code sera disponible.
L'émergence des grands modèles de langage et de leurs applications en tant qu'agents d'IA a considérablement fait progresser les benchmarks de pointe en génération de code, transformant les tâches modernes d'ingénierie logicielle. Cependant, même avec des modèles de raisonnement calculés en temps de test, ces systèmes continuent de rencontrer des difficultés face aux défis complexes de l'ingénierie logicielle. Ce travail présente CURA, un système d'agent de compréhension et de raisonnement sur le code amélioré par une supervision verbale des processus (VPS), obtenant une amélioration de 3,65 % par rapport aux modèles de référence sur des benchmarks exigeants comme BigCodeBench. De plus, CURA, lorsqu'il est associé au modèle o3-mini et aux techniques VPS, atteint des performances de pointe. Ce travail représente une avancée dans l'intégration d'architectures pilotées par le raisonnement avec la génération de code basée sur les grands modèles de langage, permettant un raisonnement agentique pour les modèles de langage afin de résoudre des tâches complexes d'ingénierie logicielle.
Nous introduisons la tâche de désapprentissage du mouvement humain afin d'empêcher la synthèse d'animations toxiques tout en préservant les performances générales de génération texte-à-mouvement. Le désapprentissage des mouvements toxiques est un défi, car ceux-ci peuvent être générés à partir de prompts textuels explicites ou de combinaisons implicites de mouvements sûrs (par exemple, « donner un coup de pied » est « charger et balancer une jambe »). Nous proposons le premier benchmark de désapprentissage de mouvement en filtrant les mouvements toxiques des grands et récents ensembles de données texte-à-mouvement HumanML3D et Motion-X. Nous proposons des méthodes de référence en adaptant des techniques de désapprentissage d'images de pointe pour traiter les signaux spatio-temporels. Enfin, nous proposons un nouveau modèle de désapprentissage de mouvement basé sur le Remplacement de Code Latent (RCL), que nous surnommons LCR. LCR ne nécessite pas d'entraînement et est adapté aux espaces latents discrets des modèles de diffusion texte-à-mouvement de pointe. LCR est simple et surpasse systématiquement les méthodes de référence qualitativement et quantitativement. Page du projet : https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
La correction de la balance des blancs (WB) dans les scènes comportant plusieurs sources lumineuses reste un défi persistant en vision par ordinateur. Les méthodes récentes ont exploré des approches basées sur la fusion, où un réseau de neurones combine linéairement plusieurs versions sRGB d'une image d'entrée, chacune traitée avec des préréglages de WB prédéfinis. Cependant, nous démontrons que ces méthodes sont sous-optimales pour les scénarios courants à plusieurs illuminants. De plus, les méthodes de fusion existantes s'appuient sur des ensembles de données sRGB de WB qui manquent d'images dédiées à plusieurs illuminants, limitant ainsi à la fois l'entraînement et l'évaluation. Pour relever ces défis, nous introduisons deux contributions clés. Premièrement, nous proposons un modèle efficace basé sur les transformers qui capture efficacement les dépendances spatiales entre les préréglages sRGB de WB, améliorant considérablement les techniques de fusion linéaire. Deuxièmement, nous introduisons un ensemble de données à grande échelle comportant plusieurs illuminants, comprenant plus de 16 000 images sRGB rendues avec cinq réglages de WB différents, ainsi que des images corrigées en WB. Notre méthode atteint une amélioration allant jusqu'à 100 % par rapport aux techniques existantes sur notre nouvel ensemble de données de fusion d'images à plusieurs illuminants.
Alors que les techniques récentes de super-résolution d'images (SR) ne cessent d'améliorer la qualité perceptuelle de leurs résultats, elles échouent souvent dans les évaluations quantitatives. Cette incohérence entraîne une méfiance croissante envers les métriques d'image existantes pour les évaluations de SR. Bien que l'évaluation des images dépende à la fois de la métrique et de la vérité terrain (GT) de référence, les chercheurs n'examinent généralement pas le rôle des GT, car elles sont généralement considérées comme des références « parfaites ». Cependant, en raison des données collectées dans les premières années et de l'ignorance du contrôle d'autres types de distorsions, nous soulignons que les GT dans les ensembles de données SR existants peuvent présenter une qualité relativement médiocre, ce qui conduit à des évaluations biaisées. Suite à cette observation, dans cet article, nous nous intéressons aux questions suivantes : Les images GT dans les ensembles de données SR existants sont-elles 100 % fiables pour l'évaluation des modèles ? Comment la qualité des GT affecte-t-elle cette évaluation ? Et comment réaliser des évaluations équitables s'il existe des GT imparfaites ? Pour répondre à ces questions, cet article présente deux contributions principales. Premièrement, en analysant systématiquement sept modèles SR de pointe sur trois ensembles de données SR du monde réel, nous montrons que les performances SR peuvent être systématiquement affectées par des GT de faible qualité, et que les modèles peuvent se comporter très différemment lorsque la qualité des GT est contrôlée. Deuxièmement, nous proposons une nouvelle métrique de qualité perceptuelle, l'indice de qualité relative (Relative Quality Index, RQI), qui mesure l'écart de qualité relatif entre des paires d'images, corrigeant ainsi les évaluations biaisées causées par des GT peu fiables. Notre modèle proposé atteint une bien meilleure cohérence avec les opinions humaines. Nous espérons que notre travail fournira des insights à la communauté SR sur la manière dont les futurs ensembles de données, modèles et métriques devraient être développés.
Les grands modèles vision-langage (VLMs), tels que GPT-4, ont obtenu des succès remarquables dans divers domaines. Cependant, peu d'études se sont penchées sur la génération de scènes intérieures en 3D avec ces modèles. Cet article aborde cette tâche comme un problème de planification soumis à des contraintes de bon sens spatial et de disposition. Pour résoudre ce problème avec un VLM, nous proposons un nouvel algorithme de recherche arborescente global-local. Globalement, la méthode place chaque objet séquentiellement et explore plusieurs placements lors de chaque processus de placement, où l'espace des problèmes est représenté sous forme d'arbre. Pour réduire la profondeur de l'arbre, nous décomposons la structure de la scène de manière hiérarchique, c'est-à-dire au niveau de la pièce, de la région, des objets au sol et des objets supportés. L'algorithme génère indépendamment les objets au sol dans différentes régions et les objets supportés placés sur différents objets au sol. Localement, nous décomposons également la sous-tâche, le placement de chaque objet, en plusieurs étapes. L'algorithme explore l'arbre de l'espace des problèmes. Pour exploiter le modèle VLM afin de produire les positions des objets, nous discrétisons l'espace de vue de dessus sous forme de grille dense et remplissons chaque cellule avec des emojis variés pour les rendre distinctes. Nous sollicitons le VLM avec la grille d'emojis, et le VLM produit un emplacement raisonnable pour l'objet en décrivant la position avec le nom des emojis. Les résultats expérimentaux quantitatifs et qualitatifs montrent que notre approche génère des scènes 3D plus plausibles que les approches de pointe. Notre code source est disponible à l'adresse https://github.com/dw-dengwei/TreeSearchGen.
L'estimation de profondeur monoculaire (Monocular Depth Estimation, MDE) est devenue une tâche essentielle en vision par ordinateur, soutenant de nombreuses applications dans le monde réel. Cependant, le déploiement de modèles d'estimation de profondeur précis sur des dispositifs embarqués aux ressources limitées, en particulier les circuits intégrés spécifiques à une application (Application-Specific Integrated Circuits, ASICs), est un défi en raison des exigences élevées en calcul et en mémoire. Les récents progrès dans les modèles fondamentaux d'estimation de profondeur offrent des résultats impressionnants, mais accentuent encore la difficulté de déploiement sur les ASICs. Pour résoudre ce problème, nous proposons QuartDepth, qui adopte la quantification post-entraînement pour quantifier les modèles MDE avec des accélérations matérielles pour les ASICs. Notre approche consiste à quantifier à la fois les poids et les activations à une précision de 4 bits, réduisant ainsi la taille du modèle et le coût de calcul. Pour atténuer la dégradation des performances, nous introduisons un algorithme de polissage et de compensation des activations appliqué avant et après la quantification des activations, ainsi qu'une méthode de reconstruction des poids pour minimiser les erreurs lors de la quantification des poids. De plus, nous concevons un accélérateur matériel flexible et programmable en prenant en charge la fusion de noyaux et la programmabilité d'instructions personnalisées, améliorant ainsi le débit et l'efficacité. Les résultats expérimentaux démontrent que notre cadre atteint une précision compétitive tout en permettant une inférence rapide et une meilleure efficacité énergétique sur les ASICs, comblant ainsi l'écart entre une estimation de profondeur haute performance et une applicabilité pratique sur les dispositifs embarqués. Code : https://github.com/shawnricecake/quart-depth
Les progrès de la technologie de télédétection ont amélioré la résolution spatiale des images satellitaires, permettant des représentations visuelles plus détaillées pour diverses interprétations. Cependant, les méthodes existantes montrent des capacités de généralisation limitées à travers différentes applications. Bien que certains modèles de base contemporains démontrent un potentiel, ils sont freinés par une adaptabilité insuffisante entre les tâches et traitent principalement des images à faible résolution de tailles restreintes, ne parvenant ainsi pas à exploiter pleinement les données à haute résolution ou à tirer parti de la sémantique globale des scènes étendues. De manière cruciale, les images de télédétection diffèrent fondamentalement des images naturelles, car les cibles principales au premier plan (par exemple, les objets maritimes, les structures artificielles) occupent souvent des proportions spatiales minimales (~1 %) et présentent des distributions clairsemées. Modéliser efficacement des connaissances généralisables entre les tâches à partir de tokens 2D de grande longueur (~100 000) constitue un défi majeur mais reste essentiel pour la compréhension des images de télédétection. Motivés par les mécanismes d'attention sélective inhérents au système visuel humain, nous proposons DynamicVis, un modèle de base de perception visuelle dynamique pour les images de télédétection. Le cadre intègre une nouvelle architecture de perception régionale dynamique basée sur le modèle d'état sélectif, qui équilibre stratégiquement l'extraction de détails localisés avec l'intégration contextuelle globale, permettant un encodage efficace sur le plan computationnel des données à grande échelle tout en maintenant une scalabilité architecturale. Pour améliorer le transfert de connaissances entre les tâches, nous introduisons un paradigme d'apprentissage multi-instances utilisant des représentations de méta-embeddings, entraîné sur des annotations à l'échelle de millions de régions. Les évaluations sur neuf tâches en aval démontrent la polyvalence du modèle. DynamicVis réalise une modélisation de caractéristiques à plusieurs niveaux avec une efficacité exceptionnelle, traitant des pixels (2048x2048) avec une latence de 97 ms (6 % de celle de ViT) et une mémoire GPU de 833 Mo (3 % de celle de ViT).