Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) ont démontré une polyvalence impressionnante en tant que modèles à usage général. Cependant, leur large applicabilité s'accompagne d'un coût computationnel élevé, en particulier dans le décodage auto-régressif où chaque étape nécessite une passe avant. Dans des contextes spécifiques à un domaine, les capacités générales sont superflues et peuvent être échangées contre de l'efficacité. Dans ce travail, nous adoptons une perspective novatrice sur l'adaptation de domaine, réduisant la latence et les coûts computationnels en adaptant le vocabulaire à des domaines d'intérêt ciblés. Nous introduisons AdaptiVocab, une approche de bout en bout pour l'adaptation du vocabulaire, conçue pour améliorer l'efficacité des LLMs dans des domaines à faibles ressources. AdaptiVocab peut être appliqué à n'importe quel tokenizer et architecture, modifiant le vocabulaire en remplaçant les tokens par des tokens basés sur des n-grammes spécifiques au domaine, réduisant ainsi le nombre de tokens nécessaires pour le traitement des entrées et la génération des sorties. AdaptiVocab initialise les nouveaux embeddings de n-tokens en utilisant une combinaison pondérée exponentielle des embeddings existants et emploie une phase de fine-tuning légère qui peut être effectuée efficacement sur un seul GPU. Nous évaluons deux LLMs de 7B à travers trois domaines de niche, en mesurant l'efficacité, la qualité de génération et la performance sur les tâches finales. Nos résultats montrent qu'AdaptiVocab réduit l'utilisation de tokens de plus de 25% sans compromettre les performances.
L'apprentissage par renforcement à partir de retours humains (RLHF) est essentiel pour aligner les grands modèles de langage sur les préférences humaines. Bien que les recherches récentes se soient concentrées sur les améliorations algorithmiques, l'importance de la construction des données d'invites a été négligée. Cet article comble cette lacune en explorant les goulots d'étranglement liés aux données dans la mise à l'échelle des performances du RLHF, en particulier le détournement de récompense et la diminution de la diversité des réponses. Nous introduisons un système de récompense hybride combinant des vérificateurs de tâches de raisonnement (RTV) et un modèle de récompense génératif (GenRM) pour atténuer le détournement de récompense. Nous proposons également une nouvelle méthode de sélection des invites, Pre-PPO, pour maintenir la diversité des réponses et améliorer l'efficacité de l'apprentissage. De plus, nous constatons que la priorisation des tâches mathématiques et de codage en début d'entraînement RLHF améliore significativement les performances. Les expériences menées sur deux tailles de modèles valident l'efficacité et l'évolutivité de nos méthodes. Les résultats montrent que le RTV est le plus résistant au détournement de récompense, suivi du GenRM avec la vérité terrain, puis du GenRM avec les réponses SFT Best-of-N. Nos stratégies permettent de capturer rapidement des distinctions subtiles spécifiques aux tâches, conduisant à des améliorations substantielles des performances globales du RLHF. Ce travail souligne l'importance d'une construction minutieuse des données et fournit des méthodes pratiques pour surmonter les barrières de performance dans le RLHF.
Les modèles récents de raisonnement à grande échelle (Large Reasoning Models, LRMs), tels que DeepSeek-R1 et OpenAI o1, ont démontré des gains de performance significatifs en augmentant la longueur des chaînes de raisonnement (Chain-of-Thought, CoT) lors de l'inférence. Cependant, une préoccupation croissante réside dans leur tendance à produire des traces de raisonnement excessivement longues, souvent remplies de contenu redondant (par exemple, des définitions répétées), d'une sur-analyse de problèmes simples et d'une exploration superficielle de multiples chemins de raisonnement pour des tâches plus complexes. Cette inefficacité introduit des défis majeurs pour l'entraînement, l'inférence et le déploiement en conditions réelles (par exemple, dans les systèmes basés sur des agents), où l'économie de tokens est cruciale. Dans cette étude, nous offrons un aperçu complet des efforts récents visant à améliorer l'efficacité du raisonnement dans les LRMs, en mettant particulièrement l'accent sur les défis uniques qui émergent dans ce nouveau paradigme. Nous identifions les schémas courants d'inefficacité, examinons les méthodes proposées tout au long du cycle de vie des LRMs, c'est-à-dire du pré-entraînement à l'inférence, et discutons des directions futures prometteuses pour la recherche. Pour soutenir le développement en cours, nous maintenons également un dépôt GitHub en temps réel qui suit les progrès récents dans ce domaine. Nous espérons que cette étude servira de base pour des explorations ultérieures et inspirera l'innovation dans ce domaine en évolution rapide.
La recommandation séquentielle (SeqRec) vise à prédire le prochain élément en capturant les motifs séquentiels à partir des interactions historiques des utilisateurs, jouant un rôle crucial dans de nombreux systèmes de recommandation du monde réel. Cependant, les approches existantes adoptent principalement un paradigme de calcul direct en avant, où l'état caché final de l'encodeur de séquence sert de représentation de l'utilisateur. Nous soutenons que ce paradigme d'inférence, en raison de sa profondeur de calcul limitée, peine à modéliser la nature complexe et évolutive des préférences des utilisateurs et manque d'une compréhension nuancée des éléments de la longue traîne, conduisant à des performances sous-optimales. Pour résoudre ce problème, nous proposons ReaRec, le premier cadre de calcul au moment de l'inférence pour les systèmes de recommandation, qui améliore les représentations des utilisateurs grâce à un raisonnement implicite en plusieurs étapes. Plus précisément, ReaRec alimente de manière autorégressive le dernier état caché de la séquence dans le recommandateur séquentiel tout en incorporant des embeddings de position de raisonnement spéciaux pour découpler l'espace d'encodage des éléments originaux de l'espace de raisonnement en plusieurs étapes. De plus, nous introduisons deux méthodes d'apprentissage légères basées sur le raisonnement, l'Apprentissage par Raisonnement d'Ensemble (ERL) et l'Apprentissage par Raisonnement Progressif (PRL), pour exploiter plus efficacement le potentiel de raisonnement de ReaRec. Des expériences approfondies sur cinq ensembles de données publics du monde réel et différentes architectures SeqRec démontrent la généralité et l'efficacité de notre proposition ReaRec. De manière remarquable, des analyses post-hoc révèlent que ReaRec élève significativement le plafond de performance de plusieurs architectures de recommandation séquentielle d'environ 30\% à 50\%. Ainsi, nous croyons que ce travail peut ouvrir une nouvelle voie prometteuse pour la recherche future sur le calcul au moment de l'inférence pour la recommandation séquentielle.
Les modèles de langage multimodaux de grande taille (MLLM) ont gagné une attention considérable pour leur capacité à traiter divers types de données d'entrée et à générer des sorties cohérentes et contextuellement pertinentes dans diverses applications. Bien que le réglage supervisé (SFT) ait été l'approche prédominante pour améliorer les capacités des MLLM dans l'optimisation spécifique à une tâche, il échoue souvent à développer des capacités de raisonnement généralisées cruciales. Bien que l'apprentissage par renforcement (RL) soit très prometteur pour surmonter ces limitations, il rencontre deux défis majeurs : (1) ses capacités généralisées dans les tâches multimodales restent largement inexplorées, et (2) ses contraintes d'entraînement, incluant la divergence de Kullback-Leibler constante ou la stratégie de clamp, entraînent souvent des goulots d'étranglement sous-optimaux. Pour relever ces défis, nous proposons OThink-MR1, un MLLM avancé doté de capacités de compréhension et de raisonnement approfondies dans les tâches multimodales. Plus précisément, nous introduisons l'optimisation de politique relative par groupe avec une stratégie dynamique de Kullback-Leibler (GRPO-D), qui améliore notablement les performances de l'apprentissage par renforcement (RL). Pour Qwen2-VL-2B-Instruct, GRPO-D obtient une amélioration relative de plus de 5,72 % par rapport au SFT et de plus de 13,59 % par rapport au GRPO dans l'évaluation de la même tâche sur deux ensembles de données adaptés. De plus, GRPO-D démontre des capacités de généralisation inter-tâches remarquables, avec une amélioration relative moyenne de plus de 61,63 % par rapport au SFT dans l'évaluation inter-tâches. Ces résultats mettent en évidence que le MLLM entraîné avec GRPO-D sur une tâche multimodale peut être efficacement transféré à une autre tâche, soulignant les capacités de raisonnement généralisées supérieures de notre modèle OThink-MR1 proposé.
Nous présentons ORIGEN, la première méthode zero-shot pour l'ancrage d'orientation 3D dans la génération d'images à partir de texte, applicable à plusieurs objets et catégories diverses. Alors que les travaux précédents sur l'ancrage spatial dans la génération d'images se sont principalement concentrés sur le positionnement 2D, ils manquent de contrôle sur l'orientation 3D. Pour remédier à cela, nous proposons une approche d'échantillonnage guidé par récompense utilisant un modèle discriminatif pré-entraîné pour l'estimation de l'orientation 3D et un modèle de flux génératif texte-à-image en une étape. Bien que l'optimisation basée sur l'ascension de gradient soit un choix naturel pour le guidage par récompense, elle peine à maintenir le réalisme des images. À la place, nous adoptons une approche basée sur l'échantillonnage utilisant la dynamique de Langevin, qui étend l'ascension de gradient en injectant simplement du bruit aléatoire—nécessitant seulement une ligne de code supplémentaire. De plus, nous introduisons un redimensionnement temporel adaptatif basé sur la fonction de récompense pour accélérer la convergence. Nos expériences montrent qu'ORIGEN surpasse à la fois les méthodes basées sur l'entraînement et les méthodes de guidage au moment du test, selon des métriques quantitatives et des études utilisateurs.
Les récents progrès dans la génération de têtes parlantes 3D pilotées par la parole ont permis des avancées significatives en matière de synchronisation labiale. Cependant, les modèles existants peinent encore à capturer l'alignement perceptuel entre les caractéristiques variées de la parole et les mouvements labiaux correspondants. Dans ce travail, nous affirmons que trois critères - la Synchronisation Temporelle, la Lisibilité Labiale et l'Expressivité - sont cruciaux pour obtenir des mouvements labiaux perceptuellement précis. Motivés par notre hypothèse qu'un espace de représentation souhaitable existe pour répondre à ces trois critères, nous introduisons une représentation synchronisée parole-maillage qui capture les correspondances complexes entre les signaux vocaux et les maillages faciaux 3D. Nous avons constaté que notre représentation apprise présente des caractéristiques souhaitables, et nous l'intégrons dans des modèles existants comme une perte perceptuelle pour mieux aligner les mouvements labiaux sur la parole donnée. De plus, nous utilisons cette représentation comme métrique perceptuelle et introduisons deux autres métriques de synchronisation labiale physiquement fondées pour évaluer dans quelle mesure les têtes parlantes 3D générées s'alignent sur ces trois critères. Les expériences montrent que l'entraînement des modèles de génération de têtes parlantes 3D avec notre perte perceptuelle améliore significativement les trois aspects de la synchronisation labiale perceptuellement précise. Les codes et les jeux de données sont disponibles à l'adresse https://perceptual-3d-talking-head.github.io/.
Nous présentons Free4D, un nouveau cadre sans ajustement pour la génération de scènes 4D à partir d'une seule image. Les méthodes existantes se concentrent soit sur la génération au niveau des objets, rendant la génération au niveau de la scène impossible, soit s'appuient sur des ensembles de données vidéo multi-vues à grande échelle pour un entraînement coûteux, avec une capacité de généralisation limitée en raison de la rareté des données de scènes 4D. En revanche, notre idée clé est de distiller des modèles de fond pré-entraînés pour une représentation cohérente de scènes 4D, offrant des avantages prometteurs tels que l'efficacité et la généralisabilité. 1) Pour y parvenir, nous animons d'abord l'image d'entrée à l'aide de modèles de diffusion image-à-vidéo, suivis d'une initialisation de la structure géométrique 4D. 2) Pour transformer cette structure grossière en vidéos multi-vues cohérentes dans l'espace et le temps, nous concevons un mécanisme de guidage adaptatif avec une stratégie de débruitage guidée par points pour la cohérence spatiale et une nouvelle stratégie de remplacement latent pour la cohérence temporelle. 3) Pour élever ces observations générées en une représentation 4D cohérente, nous proposons un raffinement basé sur la modulation pour atténuer les incohérences tout en exploitant pleinement les informations générées. La représentation 4D résultante permet un rendu en temps réel et contrôlable, marquant une avancée significative dans la génération de scènes 4D basée sur une seule image.
Les Vision Transformers (ViTs) ont démontré des performances remarquables et une grande évolutivité dans diverses tâches de vision par ordinateur. Pour appliquer des ViTs à échelle unique à la segmentation d'images, les méthodes existantes utilisent un adaptateur convolutif pour générer des caractéristiques multi-échelles, un décodeur de pixels pour fusionner ces caractéristiques, et un décodeur Transformer qui utilise les caractéristiques fusionnées pour effectuer des prédictions. Dans cet article, nous montrons que les biais inductifs introduits par ces composants spécifiques à la tâche peuvent en réalité être appris par le ViT lui-même, à condition d'utiliser des modèles suffisamment grands et un pré-entraînement extensif. Sur la base de ces observations, nous introduisons l'Encoder-only Mask Transformer (EoMT), qui réutilise l'architecture simple du ViT pour réaliser la segmentation d'images. Avec des modèles à grande échelle et un pré-entraînement, l'EoMT obtient une précision de segmentation similaire à celle des modèles de pointe qui utilisent des composants spécifiques à la tâche. Parallèlement, l'EoMT est significativement plus rapide que ces méthodes en raison de sa simplicité architecturale, par exemple jusqu'à 4 fois plus rapide avec ViT-L. Sur une gamme de tailles de modèles, l'EoMT démontre un équilibre optimal entre la précision de segmentation et la vitesse de prédiction, suggérant que les ressources de calcul sont mieux utilisées pour augmenter l'échelle du ViT lui-même plutôt que d'ajouter de la complexité architecturale. Code : https://www.tue-mps.org/eomt/.
Le raffinement de la synthèse rencontre des défis lorsqu'il s'étend à plusieurs dimensions. Dans cet article, nous présentons ReFeed, un pipeline puissant de raffinement de synthèse qui améliore plusieurs dimensions grâce à un raisonnement réflexif sur les retours. Pour y parvenir, nous publions SumFeed-CoT, un jeu de données à grande échelle basé sur Long-CoT, optimisé pour entraîner un modèle léger avec raisonnement réflexif. Nos expériences révèlent comment le nombre de dimensions, l'exposition aux retours et la politique de raisonnement influencent la performance du raffinement, soulignant que le raisonnement réflexif et la prise en compte simultanée de multiples retours sont essentiels pour atténuer les compromis entre dimensions. De plus, ReFeed est robuste face aux retours bruyants et à l'ordre des retours. Enfin, notre découverte met en évidence que la création de données avec un objectif et des directives appropriés constitue un pilier fondamental pour un raisonnement efficace. Le jeu de données et le modèle seront publiés.
Récemment, la génération de vidéos multi-vues ou 4D est devenue un sujet de recherche important. Cependant, les approches récentes pour la génération 4D continuent de se heurter à des limitations fondamentales, car elles reposent principalement sur l'exploitation de plusieurs modèles de diffusion vidéo avec un entraînement supplémentaire ou sur l'entraînement intensif en calcul d'un modèle de diffusion 4D complet, avec des données 4D réelles limitées et des coûts de calcul élevés. Pour relever ces défis, nous proposons ici la première méthode de génération de vidéos 4D sans entraînement, qui exploite des modèles de diffusion vidéo prêts à l'emploi pour générer des vidéos multi-vues à partir d'une seule vidéo d'entrée. Notre approche se compose de deux étapes clés : (1) En désignant les images de bord dans la grille d'échantillonnage spatio-temporelle comme images clés, nous les synthétisons d'abord à l'aide d'un modèle de diffusion vidéo, en utilisant une technique de déformation basée sur la profondeur pour guider le processus. Cette approche garantit une cohérence structurelle entre les images générées, préservant ainsi la cohérence spatiale et temporelle. (2) Nous interpolons ensuite les images restantes à l'aide d'un modèle de diffusion vidéo, construisant ainsi une grille d'échantillonnage entièrement peuplée et temporellement cohérente tout en préservant la cohérence spatiale et temporelle. Grâce à cette approche, nous étendons une seule vidéo en une vidéo multi-vues le long de nouvelles trajectoires de caméra tout en maintenant la cohérence spatio-temporelle. Notre méthode ne nécessite aucun entraînement et exploite pleinement un modèle de diffusion vidéo prêt à l'emploi, offrant ainsi une solution pratique et efficace pour la génération de vidéos multi-vues.
La segmentation d'objets en mouvement est une tâche cruciale pour parvenir à une compréhension approfondie des scènes visuelles et possède de nombreuses applications en aval. Les humains peuvent segmenter sans effort les objets en mouvement dans les vidéos. Les travaux précédents se sont largement appuyés sur le flux optique pour fournir des indices de mouvement ; cependant, cette approche aboutit souvent à des prédictions imparfaites en raison de défis tels que le mouvement partiel, les déformations complexes, le flou de mouvement et les distractions de l'arrière-plan. Nous proposons une nouvelle approche pour la segmentation d'objets en mouvement qui combine des indices de mouvement de trajectoire à long terme avec des caractéristiques sémantiques basées sur DINO et exploite SAM2 pour la densification de masques au niveau des pixels grâce à une stratégie d'invitation itérative. Notre modèle utilise une Attention de Trajectoire Spatio-Temporelle et un Encodage Découplé Mouvement-Sémantique pour prioriser le mouvement tout en intégrant un support sémantique. Des tests approfondis sur divers ensembles de données démontrent des performances de pointe, excellant dans des scénarios difficiles et dans la segmentation fine de multiples objets. Notre code est disponible à l'adresse https://motion-seg.github.io/.
Nous présentons PHYSICS, un benchmark complet pour la résolution de problèmes de physique universitaire. Il contient 1297 problèmes annotés par des experts, couvrant six domaines fondamentaux : mécanique classique, mécanique quantique, thermodynamique et mécanique statistique, électromagnétisme, physique atomique et optique. Chaque problème nécessite une connaissance approfondie de la physique et un raisonnement mathématique avancé. Nous avons développé un système d'évaluation automatisé robuste pour une validation précise et fiable. Notre évaluation des modèles de base les plus performants révèle des limitations substantielles. Même le modèle le plus avancé, o3-mini, n'atteint qu'une précision de 59,9 %, mettant en évidence les défis importants liés à la résolution de problèmes scientifiques de haut niveau. Grâce à une analyse approfondie des erreurs, à l'exploration de diverses stratégies de prompting et à l'augmentation des connaissances basée sur la génération assistée par récupération (RAG), nous identifions des axes clés d'amélioration, jetant ainsi les bases pour des avancées futures.
Motivés en partie par leur pertinence pour l'entraînement en faible précision et la quantification, les activations massives dans les grands modèles de langage (LLMs) ont récemment émergé comme un sujet d'intérêt. Cependant, les analyses existantes sont limitées en portée, et la généralisabilité à travers les architectures reste incertaine. Cet article contribue à combler certaines de ces lacunes en menant une analyse des activations massives sur un large éventail de LLMs, incluant à la fois des architectures basées sur GLU et non basées sur GLU. Nos résultats remettent en question plusieurs hypothèses antérieures, notamment : (1) toutes les activations massives ne sont pas néfastes, c'est-à-dire que leur suppression ne conduit pas à une explosion de la perplexité ou à un effondrement des performances sur les tâches en aval ; (2) les stratégies d'atténuation proposées telles que le biais Attention KV sont spécifiques au modèle et inefficaces dans certains cas. Nous investiguons par conséquent de nouvelles stratégies d'atténuation hybrides ; en particulier, l'association du Rééchelonnage de Variance Cible (TVR) avec le biais Attention KV ou la fonction Dynamic Tanh (DyT) permet de concilier efficacement l'atténuation des activations massives avec la préservation des performances du modèle en aval dans les scénarios étudiés. Notre code est disponible à l'adresse : https://github.com/bluorion-com/refine_massive_activations.
Face à la demande croissante de modèles 3D haute fidélité à partir d'images 2D, les méthodes existantes rencontrent encore des défis importants pour reproduire avec précision les détails géométriques fins, en raison des écarts de domaine et des ambiguïtés inhérentes aux images RGB. Pour résoudre ces problèmes, nous proposons Hi3DGen, un nouveau cadre pour générer une géométrie 3D haute fidélité à partir d'images via une représentation intermédiaire de cartes normales. Hi3DGen se compose de trois éléments clés : (1) un estimateur image-vers-normale qui découple les motifs d'image basse et haute fréquence avec injection de bruit et un entraînement à double flux pour obtenir une estimation généralisable, stable et précise ; (2) une approche d'apprentissage normale-vers-géométrie qui utilise un apprentissage par diffusion latente régularisé par les normales pour améliorer la fidélité de la génération de géométrie 3D ; et (3) un pipeline de synthèse de données 3D qui construit un jeu de données de haute qualité pour soutenir l'entraînement. Des expériences approfondies démontrent l'efficacité et la supériorité de notre cadre pour générer des détails géométriques riches, surpassant les méthodes de pointe en termes de fidélité. Notre travail ouvre une nouvelle direction pour la génération de géométrie 3D haute fidélité à partir d'images en exploitant les cartes normales comme représentation intermédiaire.
Dans cet article, nous présentons une méthode pour reconstruire des humains en 3D à partir d'une seule image en utilisant un modèle de squelette biomécaniquement précis. Pour y parvenir, nous entraînons un transformateur qui prend une image en entrée et estime les paramètres du modèle. En raison du manque de données d'entraînement pour cette tâche, nous construisons un pipeline pour produire des paramètres de modèle pseudo ground truth pour des images uniques et mettons en œuvre une procédure d'entraînement qui affine itérativement ces pseudo-labels. Par rapport aux méthodes de pointe pour la récupération de maillages humains en 3D, notre modèle obtient des performances compétitives sur des benchmarks standard, tout en les surpassant significativement dans des configurations avec des poses et des points de vue 3D extrêmes. De plus, nous montrons que les méthodes de reconstruction précédentes violent fréquemment les limites d'angle des articulations, conduisant à des rotations non naturelles. En revanche, notre approche exploite les degrés de liberté biomécaniquement plausibles, permettant des estimations de rotation articulaire plus réalistes. Nous validons notre approche sur plusieurs benchmarks d'estimation de pose humaine. Nous mettons le code, les modèles et les données à disposition à l'adresse suivante : https://isshikihugh.github.io/HSMR/
La création de maillages 3D haute fidélité avec une topologie arbitraire, incluant des surfaces ouvertes et des intérieurs complexes, reste un défi majeur. Les méthodes existantes basées sur des champs implicites nécessitent souvent une conversion coûteuse et dégradant les détails pour obtenir des surfaces fermées, tandis que d'autres approches peinent à atteindre des résolutions élevées. Cet article présente SparseFlex, une nouvelle représentation d'isosurface à structure sparse qui permet la reconstruction différentiable de maillages à des résolutions allant jusqu'à 1024^3 directement à partir de pertes de rendu. SparseFlex combine la précision des Flexicubes avec une structure voxel sparse, concentrant les calculs sur les régions adjacentes à la surface et gérant efficacement les surfaces ouvertes. De manière cruciale, nous introduisons une stratégie d'entraînement voxel sectionnel consciente du frustum qui active uniquement les voxels pertinents pendant le rendu, réduisant considérablement la consommation de mémoire et permettant un entraînement à haute résolution. Cela permet également, pour la première fois, la reconstruction des intérieurs de maillages en utilisant uniquement la supervision par rendu. Sur cette base, nous démontrons un pipeline complet de modélisation de formes en entraînant un autoencodeur variationnel (VAE) et un transformateur à flux rectifié pour la génération de formes 3D de haute qualité. Nos expériences montrent une précision de reconstruction à l'état de l'art, avec une réduction d'environ 82% de la distance de Chamfer et une augmentation d'environ 88% du F-score par rapport aux méthodes précédentes, et démontrent la génération de formes 3D détaillées à haute résolution avec une topologie arbitraire. En permettant la reconstruction et la génération différentiables de maillages à haute résolution avec des pertes de rendu, SparseFlex fait progresser significativement l'état de l'art dans la représentation et la modélisation de formes 3D.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités impressionnantes dans la compréhension d'images/vidéos 2D. Cependant, il n'existe pas de benchmarks standardisés publics pour évaluer les capacités des MLLMs à comprendre les objets 4D (objets 3D avec une évolution temporelle). Dans cet article, nous présentons 4D-Bench, le premier benchmark conçu pour évaluer les capacités des MLLMs dans la compréhension d'objets 4D, incluant des tâches de question-réponse sur les objets 4D (4D object QA) et de description d'objets 4D (4D object captioning). 4D-Bench propose des objets 4D de catégories variées, des annotations de haute qualité, et des tâches nécessitant une compréhension spatio-temporelle multi-vues, ce qui le distingue des benchmarks existants basés sur des images/vidéos 2D. Avec 4D-Bench, nous évaluons un large éventail de MLLMs open-source et propriétaires. Les résultats de l'expérience de description d'objets 4D indiquent que les MLLMs présentent généralement une compréhension temporelle plus faible par rapport à leur compréhension de l'apparence. Notamment, bien que les modèles open-source se rapprochent des performances des modèles propriétaires dans la compréhension de l'apparence, ils montrent des écarts de performance plus importants dans la compréhension temporelle. Les résultats de la tâche de question-réponse sur les objets 4D révèlent des constatations surprenantes : même avec des vidéos simples d'un seul objet, les MLLMs obtiennent de faibles performances, avec GPT-4o, un modèle de pointe, atteignant seulement 63 % de précision par rapport à une référence humaine de 91 %. Ces résultats mettent en évidence un écart significatif dans la compréhension des objets 4D et la nécessité de progrès supplémentaires dans les MLLMs.
Le développement de systèmes d'IA fiables pour assister les cliniciens humains dans le diagnostic médical multimodal a longtemps été un objectif clé pour les chercheurs. Récemment, les modèles de langage multimodal de grande envergure (MLLMs) ont suscité une attention considérable et ont rencontré des succès dans divers domaines. Dotés de solides capacités de raisonnement et de la capacité à exécuter des tâches variées sur instruction de l'utilisateur, ils présentent un potentiel important pour améliorer le diagnostic médical. Cependant, l'application directe des MLLMs au domaine médical reste confrontée à des défis. Ils manquent d'une perception détaillée des entrées visuelles, limitant leur capacité à effectuer des analyses quantitatives d'images, pourtant cruciales pour le diagnostic médical. De plus, les MLLMs présentent souvent des hallucinations et des incohérences dans leur raisonnement, alors que les diagnostics cliniques doivent strictement respecter des critères établis. Pour relever ces défis, nous proposons MedAgent-Pro, un système agentique de raisonnement fondé sur des preuves, conçu pour atteindre des diagnostics médicaux fiables, explicables et précis. Cela est réalisé grâce à un flux de travail hiérarchique : au niveau des tâches, un raisonnement basé sur les connaissances génère des plans de diagnostic fiables pour des maladies spécifiques en suivant des critères cliniques récupérés. Au niveau des cas, plusieurs agents outils traitent les entrées multimodales, analysent différents indicateurs selon le plan établi, et fournissent un diagnostic final basé sur des preuves quantitatives et qualitatives. Des expériences approfondies sur des tâches de diagnostic médical en 2D et 3D démontrent la supériorité et l'efficacité de MedAgent-Pro, tandis que des études de cas mettent en avant sa fiabilité et son interprétabilité. Le code est disponible à l'adresse https://github.com/jinlab-imvr/MedAgent-Pro.
La classification d'images traditionnelle nécessite une liste prédéfinie de catégories sémantiques. En revanche, les modèles multimodaux de grande taille (LMMs) peuvent contourner cette exigence en classifiant directement les images à l'aide du langage naturel (par exemple, en répondant à la question "Quel est l'objet principal dans l'image ?"). Malgré cette capacité remarquable, la plupart des études existantes sur les performances de classification des LMMs sont étonnamment limitées en portée, supposant souvent un cadre en monde fermé avec un ensemble prédéfini de catégories. Dans ce travail, nous comblons cette lacune en évaluant minutieusement les performances de classification des LMMs dans un véritable cadre en monde ouvert. Nous formalisons d'abord la tâche et introduisons un protocole d'évaluation, définissant diverses métriques pour évaluer l'alignement entre les classes prédites et les classes de référence. Nous évaluons ensuite 13 modèles sur 10 benchmarks, couvrant des classes prototypiques, non prototypiques, fines et très fines, démontrant les défis auxquels les LMMs sont confrontés dans cette tâche. Des analyses supplémentaires basées sur les métriques proposées révèlent les types d'erreurs commises par les LMMs, mettant en lumière les défis liés à la granularité et aux capacités fines, et montrant comment des incitations et des raisonnements adaptés peuvent les atténuer.
L'IA pour l'ingénierie logicielle a récemment accompli des progrès remarquables, devenant un succès notable dans le domaine de l'IA générative. Malgré cela, de nombreux défis restent à relever avant que l'ingénierie logicielle automatisée n'atteigne son plein potentiel. Il devrait être possible d'atteindre des niveaux élevés d'automatisation où les humains pourront se concentrer sur les décisions critiques concernant ce qu'il faut construire et comment équilibrer des compromis difficiles, tandis que la plupart des efforts de développement routiniers seront automatisés. Atteindre ce niveau d'automatisation nécessitera des efforts substantiels de recherche et d'ingénierie à la fois dans le milieu académique et industriel. Dans cet article, nous visons à discuter des progrès dans ce domaine de manière tripartite. Premièrement, nous proposons une taxonomie structurée des tâches concrètes en IA pour l'ingénierie logicielle, en mettant l'accent sur les nombreuses autres tâches au-delà de la génération et de la complétion de code. Deuxièmement, nous identifions plusieurs goulots d'étranglement clés qui limitent les approches actuelles. Enfin, nous proposons une liste subjective de directions de recherche prometteuses pour progresser sur ces goulots d'étranglement, dans l'espoir d'inspirer de futures recherches dans ce domaine en pleine maturation.
La reconstruction tomographique quadridimensionnelle (4D CT) est essentielle pour capturer les changements anatomiques dynamiques, mais elle se heurte à des limitations inhérentes aux workflows conventionnels de regroupement par phases. Les méthodes actuelles discrétisent la résolution temporelle en phases fixes à l'aide de dispositifs de synchronisation respiratoire, introduisant des erreurs d'alignement des mouvements et limitant la praticité clinique. Dans cet article, nous proposons X^2-Gaussian, un cadre novateur qui permet une reconstruction 4D-CT en temps continu en intégrant un splatting gaussien radiographique dynamique avec un apprentissage auto-supervisé des mouvements respiratoires. Notre approche modélise la dynamique anatomique à travers une architecture encodeur-décodeur spatio-temporelle qui prédit les déformations gaussiennes variant dans le temps, éliminant ainsi la discrétisation par phases. Pour supprimer la dépendance aux dispositifs de synchronisation externes, nous introduisons une fonction de coût de cohérence périodique pilotée par la physiologie, qui apprend les cycles respiratoires spécifiques au patient directement à partir des projections via une optimisation différentiable. Des expériences approfondies démontrent des performances de pointe, avec un gain de 9,93 dB en PSNR par rapport aux méthodes traditionnelles et une amélioration de 2,25 dB par rapport aux techniques de splatting gaussien précédentes. En unifiant la modélisation continue des mouvements avec l'apprentissage de périodes sans matériel spécifique, X^2-Gaussian fait progresser la reconstruction 4D CT haute fidélité pour l'imagerie clinique dynamique. Site web du projet : https://x2-gaussian.github.io/.
L'intention, généralement formulée et planifiée de manière claire, fonctionne comme un cadre cognitif pour le raisonnement et la résolution de problèmes. Cet article introduit le concept de Parler avec Intention (Speaking with Intent, SWI) dans les grands modèles de langage (LLMs), où l'intention explicitement générée encapsule l'intention sous-jacente du modèle et fournit une planification de haut niveau pour guider l'analyse et la communication ultérieures. En imitant les pensées délibérées et intentionnelles de l'esprit humain, SWI est supposé améliorer les capacités de raisonnement et la qualité de génération des LLMs. Des expériences approfondies sur des benchmarks de raisonnement mathématique démontrent systématiquement la supériorité de Parler avec Intention par rapport à la ligne de base (c'est-à-dire, la génération sans intention explicite). De plus, SWI surpasse les méthodes de promptage déclenché par réponse Chain-of-Thought et Plan-and-Solve et maintient des performances compétitives avec la méthode forte ARR (Analyzing, Retrieving, and Reasoning). Par ailleurs, l'efficacité et la généralisabilité de SWI sont renforcées sur des benchmarks de question-réponse (QA) intensifs en raisonnement et de résumé de texte, où SWI apporte une amélioration constante à la génération de base. Dans le résumé de texte, les résumés générés par SWI présentent une plus grande précision, concision et exactitude factuelle, avec moins d'hallucinations. En outre, les évaluations humaines vérifient la cohérence, l'efficacité et l'interprétabilité de l'intention produite par SWI. Cette étude de preuve de concept ouvre une nouvelle voie pour améliorer les capacités de raisonnement des LLMs avec des notions cognitives.