Articles de recherche IA sélectionnés quotidiennement avec traductions
Nous présentons HACRL (Heterogeneous Agent Collaborative Reinforcement Learning), un nouveau paradigme d'apprentissage qui remédie aux inefficacités de l'optimisation isolée sur politique. HACRL permet une optimisation collaborative avec exécution indépendante : des agents hétérogènes partagent des épisodes vérifiés lors de l'entraînement pour s'améliorer mutuellement, tout en opérant de manière indépendante au moment de l'inférence. Contrairement à l'apprentissage par renforcement multi-agents (MARL) basé sur les LLM, HACRL ne nécessite pas de déploiement coordonné, et contrairement à la distillation sur/hors politique, il permet un apprentissage mutuel bidirectionnel entre agents hétérogènes plutôt qu'un transfert unidirectionnel du professeur vers l'élève. S'appuyant sur ce paradigme, nous proposons HACPO, un algorithme d'apprentissage par renforcement collaboratif qui permet un partage rigoureux des épisodes pour maximiser l'utilisation des échantillons et le transfert de connaissances inter-agents. Pour atténuer les écarts de capacités et les décalages de distribution de politique, HACPO introduit quatre mécanismes spécifiques avec des garanties théoriques sur l'estimation non biaisée de l'avantage et la correction de l'optimisation. Des expériences approfondies sur diverses combinaisons de modèles hétérogènes et benchmarks de raisonnement montrent que HACPO améliore systématiquement tous les agents participants, surpassant GSPO de 3,3 % en moyenne tout en n'utilisant que la moitié du coût en épisodes.
Nous présentons Helios, le premier modèle de génération vidéo 14B fonctionnant à 19,5 IPS sur une seule GPU NVIDIA H100, qui prend en charge une génération à l'échelle de la minute tout en égalant la qualité d'une base de référence solide. Nous réalisons des percées selon trois dimensions clés : (1) une robustesse à la dérive dans les vidéos longues sans les heuristiques anti-dérive couramment utilisées comme le forçage automatique, les banques d'erreurs ou l'échantillonnage d'images clés ; (2) une génération en temps réel sans les techniques d'accélération standard telles que le cache KV, l'attention clairsemée/linéaire ou la quantification ; et (3) un entraînement sans cadres de parallélisme ou de partitionnement, permettant des tailles de lot comparables à la diffusion d'images tout en logeant jusqu'à quatre modèles 14B dans 80 Go de mémoire GPU. Plus précisément, Helios est un modèle de diffusion autogressif 14B avec une représentation d'entrée unifiée qui prend nativement en charge les tâches T2V, I2V et V2V. Pour atténuer la dérive dans la génération de vidéos longues, nous caractérisons les modes d'échec typiques et proposons des stratégies d'entraînement simples mais efficaces qui simulent explicitement la dérive pendant l'entraînement, tout en éliminant à la source les mouvements répétitifs. Pour l'efficacité, nous compressons fortement le contexte historique et bruité et réduisons le nombre d'étapes d'échantillonnage, ce qui génère des coûts computationnels comparables – ou inférieurs – à ceux des modèles génératifs vidéo 1,3B. De plus, nous introduisons des optimisations au niveau de l'infrastructure qui accélèrent à la fois l'inférence et l'entraînement tout en réduisant la consommation mémoire. Des expériences approfondies démontrent qu'Helios surpasse constamment les méthodes antérieures pour la génération de vidéos courtes et longues. Nous prévoyons de publier le code, le modèle de base et le modèle distillé pour soutenir le développement ultérieur par la communauté.
Réfléchissez à la manière dont l’être humain traite des tâches de lecture complexes : en marquant les points clés, en inférant leurs relations et en structurant l’information pour guider la compréhension et les réponses. De même, un grand modèle de langage peut-il tirer parti de la structure textuelle pour améliorer ses performances de traitement ? Pour explorer cette question, nous introduisons dans ce travail Structure of Thought (SoT), une technique d’incitation qui guide explicitement les modèles à construire des structures textuelles intermédiaires, améliorant systématiquement les performances sur huit tâches et trois familles de modèles. Sur la base de cette idée, nous présentons T2S-Bench, le premier benchmark conçu pour évaluer et améliorer les capacités de conversion texte-structure des modèles. T2S-Bench comprend 1 800 échantillons couvrant six domaines scientifiques et 32 types de structures, rigoureusement construits pour garantir exactitude, équité et qualité. L’évaluation de 45 modèles grand public révèle un potentiel d’amélioration considérable : la précision moyenne sur la tâche de raisonnement à sauts multiples n’est que de 52,1 %, et même le modèle le plus avancé n’atteint que 58,1 % de précision nodale en extraction bout en bout. Par ailleurs, sur Qwen2.5-7B-Instruct, SoT seule apporte une amélioration moyenne de +5,7 % sur huit tâches de traitement textuel variées, et un affinage sur T2S-Bench porte ce gain à +8,6 %. Ces résultats soulignent l’intérêt d’une structuration explicite du texte ainsi que la complémentarité des apports de SoT et de T2S-Bench. Le jeu de données et le code d’évaluation sont disponibles à l’adresse https://t2s-bench.github.io/T2S-Bench-Page/.
Les expériences interactives proactives et en temps réel sont essentielles pour des compagnons IA humanoïdes, mais elles rencontrent trois défis majeurs : (1) réaliser une inférence à faible latence avec des entrées en flux continu, (2) décider de manière autonome du moment de répondre, et (3) contrôler à la fois la qualité et la quantité du contenu généré pour respecter les contraintes de temps réel. Dans ce travail, nous matérialisons ces compagnons IA à travers deux scénarios de jeu, commentateur et guide, choisis pour leur pertinence en évaluation automatique. Nous présentons le Live Gaming Benchmark, un jeu de données à grande échelle comprenant trois scénarios représentatifs : commentaire solo, co-commentaire et guidage utilisateur, et proposons Proact-VL, un cadre général transformant les modèles linguistiques multimodaux en agents interactifs proactifs et temps réel, capables d'une perception et d'interaction environnementale humanoïdes. Des expériences approfondies montrent que Proact-VL atteint une latence de réponse et une qualité supérieures tout en conservant de solides capacités de compréhension vidéo, démontrant ainsi sa praticabilité pour les applications interactives en temps réel.
Alors que les modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour des tâches de longue durée, la gestion efficace de la mémoire à long terme est devenue un défi crucial. Les méthodes actuelles se heurtent souvent à un compromis entre coût et précision. Les méthodes de stockage simples échouent souvent à récupérer les informations pertinentes, tandis que les méthodes d'indexation complexes (telles que les graphes de mémoire) nécessitent des calculs intensifs et peuvent entraîner une perte d'information. De plus, s'appuyer sur le LLM principal pour traiter l'intégralité des souvenirs est coûteux en calcul et lent. Pour résoudre ces limitations, nous proposons MemSifter, un nouveau cadre qui délègue le processus de récupération de la mémoire à un modèle proxy de petite taille. Au lieu d'accroître la charge du LLM de travail principal, MemSifter utilise un modèle plus petit pour raisonner sur la tâche avant de récupérer les informations nécessaires. Cette approche ne nécessite aucun calcul intensif pendant la phase d'indexation et ajoute une surcharge minimale lors de l'inférence. Pour optimiser le modèle proxy, nous introduisons un paradigme d'entraînement par apprentissage par renforcement (RL) spécifique à la mémoire. Nous concevons une récompense orientée résultat de tâche basée sur la performance réelle du LLM principal à accomplir la tâche. La récompense mesure la contribution réelle des souvenirs récupérés via de multiples interactions avec le LLM principal, et discrimine les classements de récupération par des contributions décroissantes par paliers. De plus, nous employons des techniques d'entraînement telles que l'apprentissage curriculaire et la fusion de modèles pour améliorer les performances. Nous avons évalué MemSifter sur huit benchmarks de mémoire pour LLM, incluant des tâches de recherche approfondie. Les résultats démontrent que notre méthode égale ou dépasse les performances des approches état de l'art existantes tant en précision de récupération qu'en accomplissement final de la tâche. MemSifter offre une solution efficace et évolutive pour la mémoire à long terme des LLM. Nous avons ouvert les poids des modèles, le code et les données d'entraînement pour soutenir la recherche future.
La synthèse d'interactions humain-objet (IHO) articulées physiquement plausibles sans supervision 3D/4D reste un défi fondamental. Si les approches récentes sans apprentissage exploitent des modèles de diffusion vidéo pour synthétiser des interactions humain-objet, elles se limitent largement à la manipulation d'objets rigides et manquent de raisonnement géométrique 4D explicite. Pour combler cette lacune, nous formulons la synthèse d'IHO articulées comme un problème de reconstruction 4D à partir d'a priori vidéo monoculaire : étant donnée seulement une vidéo générée par un modèle de diffusion, nous reconstruisons une scène articulée 4D complète sans aucune supervision 3D. Cette approche basée sur la reconstruction traite la vidéo 2D générée comme une supervision pour un problème de rendu inverse, en retrouvant des scènes 4D géométriquement cohérentes et physiquement plausibles qui respectent naturellement le contact, l'articulation et la cohérence temporelle. Nous présentons ArtHOI, le premier cadre sans apprentissage pour la synthèse d'interactions humain-objet articulées via la reconstruction 4D à partir d'a priori vidéo. Nos conceptions clés sont : 1) Segmentation des parties basée sur le flot : exploitation du flot optique comme indice géométrique pour séparer les régions dynamiques des régions statiques dans une vidéo monoculaire ; 2) Pipeline de reconstruction découplée : l'optimisation conjointe du mouvement humain et de l'articulation de l'objet étant instable sous l'ambiguïté monoculaire, nous retrouvons d'abord l'articulation de l'objet, puis synthétisons le mouvement humain conditionné par les états reconstruits de l'objet. ArtHOI fait le lien entre la génération basée vidéo et la reconstruction sensible à la géométrie, produisant des interactions à la fois sémantiquement alignées et physiquement fondées. Sur diverses scènes articulées (par ex., ouvrir des réfrigérateurs, des armoires, des micro-ondes), ArtHOI surpasse significativement les méthodes antérieures en précision du contact, réduction des pénétrations et fidélité de l'articulation, étendant la synthèse d'interactions sans apprentissage au-delà de la manipulation rigide grâce à une synthèse éclairée par la reconstruction.
Nous présentons Phi-4-reasoning-vision-15B, un modèle de raisonnement multimodal compact à poids ouvert, et partageons les motivations, les choix de conception, les expériences et les enseignements qui ont guidé son développement. Notre objectif est d'apporter un éclairage pratique à la communauté scientifique sur la construction de modèles de raisonnement multimodaux plus petits et efficaces, et de partager le fruit de ces apprentissages sous la forme d'un modèle à poids ouvert qui performe bien sur les tâches courantes de vision et de langage, et qui excelle dans le raisonnement scientifique et mathématique ainsi que dans la compréhension des interfaces utilisateur. Nos contributions incluent la démonstration que des choix architecturaux minutieux et une curation rigoureuse des données permettent à des modèles multimodaux ouverts plus petits d'atteindre des performances compétitives avec une consommation de calcul et de tokens significativement moindre lors de l'entraînement et de l'inférence. Les améliorations les plus substantielles proviennent d'un filtrage systématique, d'une correction des erreurs et d'une augmentation synthétique des données, confirmant ainsi que la qualité des données reste le principal levier de performance des modèles. Des ablations systématiques montrent que des encodeurs à haute résolution et à résolution dynamique apportent des améliorations constantes, car une perception précise est un prérequis pour un raisonnement de haute qualité. Enfin, un mélange hybride de données de raisonnement et de non-raisonnement, associé à des jetons de mode explicites, permet à un modèle unique de fournir des réponses directes rapides pour les tâches simples et un raisonnement en chaîne de pensée pour les problèmes complexes.
La mise à l'échelle au moment du test pour les tâches de raisonnement complexe montre que l'exploitation de la puissance de calcul lors de l'inférence, par des méthodes telles que l'échantillonnage et l'agrégation indépendants de multiples solutions, améliore considérablement les résultats des tâches. Cependant, un goulot d'étranglement critique est la vérification : l'échantillonnage n'est efficace que si les solutions correctes peuvent être identifiées de manière fiable parmi les candidats. Alors que les approches existantes évaluent généralement les candidats indépendamment via un score scalaire, nous démontrons que les modèles sont nettement plus performants pour l'auto-vérification par paires. En tirant parti de cette idée, nous introduisons V_1, un cadre qui unifie la génération et la vérification grâce à un classement par paires efficace. V_1 comprend deux composants : V_1-Infer, un algorithme guidé par l'incertitude utilisant un classement de type tournoi qui alloue dynamiquement les ressources de calcul d'auto-vérification aux paires de candidats dont la justesse relative est la plus incertaine ; et V_1-PairRL, un cadre d'apprentissage par renforcement qui entraîne conjointement un modèle unique à la fois comme générateur et auto-vérificateur par paires, garantissant que le vérificateur s'adapte à la distribution évolutive du générateur. Sur des benchmarks de génération de code (LiveCodeBench, CodeContests, SWE-Bench) et de raisonnement mathématique (AIME, HMMT), V_1-Infer améliore le Pass@1 jusqu'à 10 % par rapport à la vérification ponctuelle et surpasse les méthodes récentes de mise à l'échelle au moment du test tout en étant nettement plus efficace. De plus, V_1-PairRL obtient des gains de mise à l'échelle au moment du test de 7 à 9 % par rapport à l'apprentissage par renforcement standard et à l'entraînement conjoint ponctuel, et améliore le Pass@1 de base jusqu'à 8,7 % par rapport à l'apprentissage par renforcement standard dans un contexte de génération de code.
La génération de vidéos panoramiques 360° de haute qualité à partir d'une entrée perspective est l'une des applications cruciales pour la réalité virtuelle (RV), où les vidéos haute résolution sont particulièrement importantes pour l'expérience immersive. Les méthodes existantes sont limitées par les contraintes computationnelles des modèles de diffusion standards, ne supportant qu'une génération native en résolution ≤ 1K et reposant sur un suréchantillonnage postérieur sous-optimal pour augmenter la résolution. Nous présentons CubeComposer, un nouveau modèle de diffusion autogressif spatio-temporel qui génère nativement des vidéos 360° en résolution 4K. En décomposant les vidéos en représentations cubemap avec six faces, CubeComposer synthétise le contenu de manière autogressive selon un ordre spatio-temporel bien planifié, réduisant les demandes mémoire tout en permettant une sortie haute résolution. Plus précisément, pour relever les défis de l'autorégression multidimensionnelle, nous proposons : (1) une stratégie autogressive spatio-temporelle qui orchestre la génération vidéo 360° à travers les faces du cube et les fenêtres temporelles pour une synthèse cohérente ; (2) un mécanisme de gestion du contexte des faces du cube, équipé d'une conception d'attention contextuelle éparse pour améliorer l'efficacité ; et (3) des techniques de conscience de la continuité, incluant un codage positionnel adapté au cube, un remplissage et un mélange pour éliminer les coutures aux limites. Des expériences approfondies sur des jeux de données de référence démontrent que CubeComposer surpasse les méthodes de l'état de l'art en résolution native et qualité visuelle, supportant des scénarios d'application pratiques en RV. Page du projet : https://lg-li.github.io/project/cubecomposer
Les agents de modèles de langage de grande taille (LLM) sont fondamentalement limités par des fenêtres de contexte finies lors de tâches à long horizon. À mesure que les trajectoires s'allongent, la conservation en contexte des sorties d'outils et des raisonnements intermédiaires devient rapidement impossible : le contexte de travail devient prohibitivement long, finit par dépasser le budget de contexte et rend l'utilisation de preuves distantes plus difficile, même lorsqu'elles sont encore présentes. Les solutions existantes raccourcissent généralement le contexte par troncation ou par des résumés dynamiques, mais ces méthodes sont intrinsèquement avec perte car elles compressent ou suppriment les preuves passées elles-mêmes. Nous présentons Memex, un mécanisme de mémoire d'expérience indexée qui compresse le contexte sans supprimer les preuves. Memex maintient un contexte de travail compact composé de résumés structurés concis et d'indices stables, tout en stockant les interactions sous-jacentes en haute fidélité dans une base de données d'expérience externe sous ces indices. L'agent peut ensuite décider quand déréférencer un indice pour récupérer la preuve passée exacte nécessaire au sous-objectif en cours. Nous optimisons les comportements d'écriture et de lecture avec notre cadre d'apprentissage par renforcement MemexRL, en utilisant un façonnage de récompense adapté à l'utilisation de mémoire indexée sous un budget de contexte, afin que l'agent apprenne quoi résumer, quoi archiver, comment l'indexer et quand le récupérer. Cela permet une forme de mémoire à long horizon substantiellement moins sujette aux pertes que les approches basées uniquement sur les résumés. Nous fournissons en outre une analyse théorique montrant le potentiel de la boucle Memex à préserver la qualité décisionnelle avec un déréférencement borné tout en maintenant le calcul en contexte effectif borné malgré l'allongement de l'historique. Empiriquement, sur des tâches difficiles à long horizon, l'agent Memex entraîné avec MemexRL améliore le succès des tâches tout en utilisant un contexte de travail significativement plus réduit.
La classification de concepts visuels à granularité fine dans des contextes de monde ouvert, c'est-à-dire sans un ensemble d'étiquettes prédéfini, exige des modèles qu'ils soient à la fois précis et spécifiques. Les grands modèles multimodaux (LMM) de raisonnement récents présentent de solides capacités de compréhension visuelle, mais ont tendance à produire des prédictions excessivement génériques lors de la classification d'images à granularité fine. Notre analyse préliminaire révèle que les modèles possèdent bel et bien les connaissances intrinsèques du domaine à granularité fine. Cependant, favoriser des prédictions plus spécifiques (spécificité) sans compromettre les prédictions correctes (exactitude) reste un défi non trivial et peu étudié. Dans ce travail, nous étudions comment orienter les LMM de raisonnement vers des prédictions à la fois correctes et spécifiques. Nous proposons un nouveau cadre d'apprentissage par renforcement sensible à la spécificité, SpeciaRL, pour affiner les LMM de raisonnement sur la classification d'images à granularité fine en monde ouvert. SpeciaRL introduit un signal de récompense dynamique, basé sur un vérificateur et ancré aux meilleures prédictions dans des déploiements en ligne, favorisant la spécificité tout en respectant les capacités du modèle pour éviter les prédictions incorrectes. Nos expériences hors domaine montrent que SpeciaRL offre le meilleur compromis entre exactitude et spécificité sur de nombreux benchmarks à granularité fine, surpassant les méthodes existantes et faisant progresser la classification d'images à granularité fine en monde ouvert. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/s-angheben/SpeciaRL.
Les grands modèles de vision et langage (LVLM) ont adopté des stratégies d'élagage de tokens visuels pour atténuer la charge computationnelle substantielle induite par les longues séquences de tokens visuels. Bien que les travaux antérieurs se concentrent principalement sur des méthodes d'élagage basées soit sur l'attention soit sur la diversité, une analyse approfondie des caractéristiques et limitations de ces approches reste largement inexplorée. Dans ce travail, nous menons une analyse empirique approfondie en utilisant le rang effectif (erank) comme mesure de la diversité des caractéristiques et l'entropie des scores d'attention pour étudier les mécanismes de traitement des tokens visuels et analyser les forces et faiblesses de chaque approche. Notre analyse révèle deux insights : (1) Notre analyse quantitative basée sur l'erank montre que de nombreuses méthodes d'élagage axées sur la diversité préservent substantiellement moins de diversité caractéristique que prévu ; de plus, l'analyse utilisant le jeu de données CHAIR révèle que la diversité qu'elles conservent est étroitement liée à une fréquence accrue d'hallucinations par rapport à l'élagage basé sur l'attention. (2) Nous observons en outre que les approches basées sur l'attention sont plus efficaces sur les images simples où les preuves visuelles sont concentrées, tandis que les méthodes basées sur la diversité gèrent mieux les images complexes avec des caractéristiques distribuées. En nous appuyant sur ces insights empiriques, nous montrons qu'incorporer des ajustements conscients de l'image dans les stratégies d'élagage hybride existantes améliore constamment leurs performances. Nous fournissons également une instanciation minimale de nos résultats empiriques grâce à un mécanisme d'élagage adaptatif simple, qui atteint des performances solides et fiables sur les benchmarks standards ainsi que sur les évaluations spécifiques aux hallucinations. Notre page projet est disponible à l'adresse https://cvsp-lab.github.io/AgilePruner.
La génération de vidéos narratives de longue durée avec une continuité visuelle cohérente reste un défi majeur dans le domaine de la synthèse vidéo. Nous présentons un nouveau cadre méthodologique, un jeu de données et un modèle qui répondent à trois limitations critiques : la cohérence des arrière-plans d'un plan à l'autre, les transitions fluides entre plans impliquant plusieurs sujets, et l'extensibilité à des récits d'une heure. Notre approche introduit un pipeline de génération garantissant la cohérence des arrière-plans, qui préserve l'homogénéité visuelle entre les scènes tout en maintenant l'identité des personnages et les relations spatiales. Nous proposons en outre un module de synthèse vidéo sensible aux transitions, qui génère des enchaînements de plans fluides pour des scénarios complexes impliquant l'entrée ou la sortie de cadre de multiples sujets, dépassant ainsi les limitations des travaux antérieurs centrés sur un sujet unique. Pour étayer cette approche, nous contribuons avec un jeu de données synthétiques de 10 000 séquences de transitions multi-sujets couvrant des compositions scéniques dynamiques sous-représentées. Sur VBench, InfinityStory atteint le score le plus élevé en Cohérence des Arrière-plans (88,94), le score le plus élevé en Cohérence des Sujets (82,11) et le meilleur rang moyen global (2,80), démontrant une stabilité améliorée, des transitions plus fluides et une meilleure cohérence temporelle.
Les progrès rapides des modèles linguistiques multimodaux de grande taille ont démontré des capacités impressionnantes, mais presque tous fonctionnent selon un paradigme hors ligne, ce qui entrave l’interactivité en temps réel. Pour combler cette lacune, nous présentons le banc d’évaluation Real-tIme Video intERaction (RIVER Bench), conçu pour évaluer la compréhension vidéo en ligne. RIVER Bench introduit un cadre novateur comprenant des tâches de mémoire rétrospective, de perception en direct et d’anticipation proactive, imitant étroitement des dialogues interactifs plutôt que de répondre à des vidéos entières en une seule fois. Nous avons réalisé des annotations détaillées à l’aide de vidéos provenant de sources diverses et de longueurs variables, et avons défini précisément le format interactif en temps réel. Les évaluations menées sur diverses catégories de modèles révèlent que si les modèles hors ligne performent bien dans les tâches de questions-réponses uniques, ils peinent à traiter les données en temps réel. Face aux limites des modèles existants en matière d’interaction vidéo en ligne, notamment leurs lacunes en mémoire à long terme et en perception future, nous avons proposé une méthode d’amélioration générale permettant aux modèles d’interagir plus flexibly avec les utilisateurs en temps réel. Nous pensons que ces travaux feront significativement progresser le développement de modèles de compréhension vidéo interactifs en temps réel et inspireront les recherches futures dans ce domaine émergent. Les jeux de données et le code sont disponibles publiquement à l’adresse https://github.com/OpenGVLab/RIVER.
Les agents pilotés par des modèles de langage de grande taille (LLM) ont démontré de solides capacités dans l'automatisation de tâches de génie logiciel telles que la correction statique de bogues, comme en témoignent des benchmarks comme SWE-bench. Cependant, dans le monde réel, le développement de logiciels matures repose généralement sur des changements de besoins complexes et des itérations de fonctionnalités à long terme – un processus que les paradigmes de correction statique et ponctuelle ne parviennent pas à capturer. Pour combler cette lacune, nous proposons SWE-CI, le premier benchmark au niveau du référentiel construit sur la boucle d’intégration continue, visant à faire évoluer le paradigme d'évaluation pour la génération de code, passant d'une exactitude fonctionnelle statique et à court terme vers une maintenabilité dynamique et à long terme. Le benchmark comprend 100 tâches, chacune correspondant en moyenne à un historique d'évolution couvrant 233 jours et 71 commits consécutifs dans un référentiel de code réel. SWE-CI exige que les agents résolvent systématiquement ces tâches à travers des dizaines de cycles d'analyse et d'itérations de codage. SWE-CI offre des perspectives précises sur la capacité des agents à maintenir la qualité du code tout au long d'une évolution à long terme.
Les agents conversationnels incarnés (ECA) visent à reproduire l'interaction humaine en face-à-face par la parole, les gestes et les expressions faciales. Les agents conversationnels actuels basés sur de grands modèles de langage (LLM) manquent d'incarnation et des gestes expressifs essentiels à une interaction naturelle. Les solutions existantes pour les ECA produisent souvent des mouvements rigides et peu diversifiés, inadaptés à une interaction humaine. Alternativement, les méthodes génératives de synthèse de gestes co-paroliers produisent des gestes corporels naturels mais dépendent du contexte vocal futur et nécessitent des temps de calcul longs. Pour combler cette lacune, nous présentons MIBURI, le premier cadre causal en ligne générant des gestes expressifs du corps entier et des expressions faciales synchronisés avec un dialogue oral en temps réel. Nous utilisons des codecs gestuels conscients des parties du corps qui encodent des détails hiérarchiques du mouvement en jetons discrets multi-niveaux. Ces jetons sont ensuite générés de manière autorégressive par un cadre causal bidimensionnel conditionné par des embeddings texte-parole issus de LLM, modélisant à la fois la dynamique temporelle et la hiérarchie des mouvements par partie en temps réel. De plus, nous introduisons des objectifs auxiliaires pour favoriser des gestes expressifs et diversifiés tout en évitant la convergence vers des poses statiques. Des évaluations comparatives démontrent que notre approche causale et en temps réel produit des gestes naturels et contextuellement alignés par rapport aux références récentes. Nous invitons le lecteur à explorer les vidéos de démonstration sur https://vcai.mpi-inf.mpg.de/projects/MIBURI/.
L'évaluation de la sécurité et le test d'intrusion (red-teaming) des grands modèles de langage restent principalement centrés sur le texte, et les cadres existants manquent d'infrastructures pour tester systématiquement si l'alignement se généralise aux entrées audio, visuelles et vidéo. Nous présentons MUSE (Évaluation Unifiée de la Sécurité Multimodale), une plateforme open-source, axée sur l'exécution, qui intègre la génération automatique de charges utiles cross-modales, trois algorithmes d'attaque multi-tours (Crescendo, PAIR, Violent Durian), un routage de modèles agnostique aux fournisseurs, et un juge LLM avec une taxonomie de sécurité à cinq niveaux dans un système unique basé sur un navigateur. Un cadre à double métrique distingue le Taux de Réussite d'Attaque (TRA) dur (Compliance uniquement) du TRA doux (incluant la Compliance Partielle), capturant les fuites d'information partielles que les métriques binaires manquent. Pour explorer si l'alignement se généralise au-delà des frontières modales, nous introduisons la Commutation Modale Inter-Tour (ITMS), qui augmente les attaques multi-tours par une rotation modale à chaque tour. Les expériences sur six MLLM de quatre fournisseurs montrent que les stratégies multi-tours peuvent atteindre jusqu'à 90-100% de TRA contre des modèles ayant un refus quasi parfait en un seul tour. L'ITMS n'augmente pas uniformément le TRA final sur des bases de référence déjà saturées, mais accélère la convergence en déstabilisant les défenses des premiers tours, et une ablation révèle que la direction des effets modaux est spécifique à la famille de modèles plutôt qu'universelle, soulignant le besoin de tests de sécurité cross-modaux conscients du fournisseur.
Comprendre une scène 3D immédiatement lors de son exploration est essentiel pour les tâches incarnées, où un agent doit construire et appréhender la scène 3D de manière en ligne et quasi-temps réel. Dans cette étude, nous proposons EmbodiedSplat, un système 3DGS (Gaussian Splatting) en ligne à action directe pour la compréhension de scène à vocabulaire ouvert, permettant une reconstruction 3D en ligne simultanée et une compréhension sémantique 3D à partir d'un flux d'images. Contrairement aux méthodes 3DGS à vocabulaire ouvert existantes, généralement limitées à un réglage hors ligne ou par scène, nos objectifs sont doubles : 1) Reconstruire le modèle 3DGS intégrant la sémantique de la scène entière à partir de plus de 300 images en flux continu de manière en ligne. 2) Être hautement généralisable à de nouvelles scènes grâce à une conception à action directe et supporter une reconstruction sémantique 3D quasi-temps réel lorsqu'elle est combinée à des modèles 2D temps réel. Pour atteindre ces objectifs, nous proposons un Champ de Coefficients Faibles en Ligne avec un Codebook Global CLIP, qui lie les embeddings CLIP 2D à chaque Gaussienne 3D tout en minimisant la consommation mémoire et en préservant la pleine généralisabilité sémantique de CLIP. De plus, nous générons des caractéristiques CLIP conscientes de la géométrie 3D en agrégeant le nuage de points partiel du modèle 3DGS via un U-Net 3D, afin de compenser l'absence d'a priori géométrique 3D dans les embeddings linguistiques orientés 2D. Des expériences approfondies sur divers ensembles de données intérieures, notamment ScanNet, ScanNet++ et Replica, démontrent à la fois l'efficacité et l'efficience de notre méthode. Consultez notre page projet sur https://0nandon.github.io/EmbodiedSplat/.
L'apprentissage par renforcement avec des récompenses rigoureuses et vérifiables peut-il enseigner à un modèle linguistique compact à raisonner en physique, ou apprend-il principalement à reconnaître des motifs pour produire des réponses correctes ? Nous étudions cette question en entraînant un modèle de raisonnement de 1,5 milliard de paramètres sur la statique des poutres, un problème classique d'ingénierie, en utilisant l'algorithme RLVR à efficacité paramétrique avec des récompenses binaires de correction provenant de solveurs symboliques, et sans traces de raisonnement générées par un enseignant. Le meilleur checkpoint de BeamPERL réalise une amélioration de 66,7 % du Pass@1 par rapport au modèle de base. Cependant, la compétence apprise est anisotrope : le modèle généralise de manière compositionnelle (charges supplémentaires) mais échoue face à des modifications topologiques (appuis déplacés) qui nécessitent pourtant les mêmes équations d'équilibre. Les checkpoints intermédiaires produisent le raisonnement le plus solide, tandis qu'une optimisation prolongée dégrade la robustesse tout en maintenant la récompense. Ces résultats révèlent une limitation clé de l'alignement au niveau des résultats : l'apprentissage par renforcement avec des récompenses physiques exactes induit des modèles de solution procéduraux plutôt qu'une internalisation des équations gouvernantes. La précision du signal de récompense - même lorsqu'elle est analytiquement exacte - ne garantit pas à elle seule un raisonnement physique transférable. Nos résultats suggèrent que les récompenses vérifiables pourraient devoir être associées à un échafaudage de raisonnement structuré pour dépasser la reconnaissance de motifs et tendre vers un raisonnement scientifique robuste.
Le Detection Transformer (DETR) et ses variantes démontrent de fortes performances sur la détection d'objets, une tâche clé pour les systèmes autonomes. Cependant, une limitation critique de ces modèles est que leurs scores de confiance ne reflètent que l'incertitude sémantique, sans capturer l'incertitude spatiale tout aussi importante. Il en résulte une évaluation incomplète de la fiabilité de la détection. D'un autre côté, les Deep Ensembles peuvent résoudre ce problème en fournissant des estimations de haute qualité de l'incertitude spatiale. Cependant, leur consommation mémoire immense les rend impraticables pour les applications réelles. Une alternative moins coûteuse, le Monte Carlo (MC) Dropout, souffre d'une latence élevée en raison du besoin de multiples passes avant durant l'inférence pour estimer l'incertitude. Pour répondre à ces limitations, nous présentons GroupEnsemble, une méthode d'estimation d'incertitude efficace et efficiente pour les modèles de type DETR. GroupEnsemble prédit simultanément plusieurs ensembles de détections individuels en fournissant, lors de l'inférence, des groupes supplémentaires et diversifiés de requêtes d'objets au décodeur du transformer. Chaque groupe de requêtes est transformé de manière isolée par le décodeur partagé et prédit un ensemble complet de détections pour la même entrée. Un masque d'attention est appliqué au décodeur pour empêcher les interactions entre les requêtes de différents groupes, garantissant que chaque groupe détecte indépendamment pour obtenir une estimation d'incertitude fiable basée sur l'assemblage. En tirant parti du parallélisme inhérent au décodeur, GroupEnsemble estime efficacement l'incertitude en une seule passe avant, sans répétition séquentielle. Nous avons validé notre méthode dans des scènes de conduite autonome et des scènes quotidiennes courantes en utilisant respectivement les jeux de données Cityscapes et COCO. Les résultats montrent qu'une approche hybride combinant MC-Dropout et GroupEnsemble surpasse les Deep Ensembles sur plusieurs métriques pour une fraction du coût. Le code est disponible à l'adresse https://github.com/yutongy98/GroupEnsemble.
Malgré l'intérêt croissant pour la détection d'objets à vocabulaire ouvert ces dernières années, la plupart des méthodes existantes reposent fortement sur des ensembles de données d'entraînement manuellement organisés et à granularité fine, ainsi que sur une extraction de caractéristiques intermodales couche par couche gourmande en ressources. Dans cet article, nous proposons HDINO, un détecteur d'objets à vocabulaire ouvert concis mais efficace qui élimine la dépendance à ces composants. Plus précisément, nous proposons une stratégie d'entraînement en deux étapes basée sur le modèle DINO à base de transformers. Dans la première étape, les échantillons bruités sont traités comme des instances d'objets positifs supplémentaires pour construire un mécanisme d'alignement sémantique un-vers-plusieurs (O2M) entre les modalités visuelle et textuelle, facilitant ainsi l'alignement sémantique. Une fonction de perte de classification pondérée par la difficulté (DWCL) est également conçue sur la base de la difficulté de détection initiale pour extraire les exemples difficiles et améliorer davantage les performances du modèle. Dans la deuxième étape, un module de fusion de caractéristiques léger est appliqué aux représentations alignées pour améliorer la sensibilité à la sémantique linguistique. Avec le paramétrage Swin Transformer-T, HDINO-T atteint 49,2 mAP sur COCO en utilisant 2,2 millions d'images d'entraînement provenant de deux ensembles de données de détection publiques, sans aucune organisation manuelle des données ni utilisation de données d'ancrage, surpassant Grounding DINO-T et T-Rex2 de 0,8 mAP et 2,8 mAP respectivement, ces derniers étant entraînés sur 5,4 millions et 6,5 millions d'images. Après un affinage sur COCO, HDINO-T et HDINO-L atteignent respectivement 56,4 mAP et 59,2 mAP, soulignant l'efficacité et l'évolutivité de notre approche. Le code et les modèles sont disponibles à l'adresse https://github.com/HaoZ416/HDINO.