Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous démontrons que l'apprentissage par renforcement avec récompense vérifiable utilisant un seul exemple d'entraînement (RLVR en 1-shot) est efficace pour stimuler les capacités de raisonnement mathématique des grands modèles de langage (LLMs). En appliquant RLVR au modèle de base Qwen2.5-Math-1.5B, nous identifions un seul exemple qui améliore les performances du modèle sur MATH500 de 36,0 % à 73,6 %, et augmente la performance moyenne sur six benchmarks courants de raisonnement mathématique de 17,6 % à 35,7 %. Ce résultat correspond aux performances obtenues en utilisant le sous-ensemble DeepScaleR de 1,2k exemples (MATH500 : 73,6 %, moyenne : 35,9 %), qui inclut l'exemple mentionné. Des améliorations substantielles similaires sont observées sur divers modèles (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), algorithmes de RL (GRPO et PPO), et différents exemples mathématiques (dont beaucoup entraînent une amélioration d'environ 30 % ou plus sur MATH500 lorsqu'ils sont utilisés comme unique exemple d'entraînement). De plus, nous identifions des phénomènes intéressants lors du RLVR en 1-shot, notamment la généralisation inter-domaines, une fréquence accrue d'auto-réflexion, et une amélioration soutenue des performances en test même après que la précision en entraînement a saturé, un phénomène que nous appelons généralisation post-saturation. Par ailleurs, nous vérifions que l'efficacité du RLVR en 1-shot découle principalement de la perte de gradient de politique, la distinguant ainsi du phénomène de "grokking". Nous montrons également le rôle crucial de la promotion de l'exploration (par exemple, en ajoutant une perte d'entropie avec un coefficient approprié) dans l'entraînement RLVR en 1-shot. En bonus, nous observons que l'application de la perte d'entropie seule, sans aucune récompense de résultat, améliore significativement les performances de Qwen2.5-Math-1.5B sur MATH500 de 27,4 %. Ces résultats peuvent inspirer des travaux futurs sur l'efficacité des données en RLVR et encourager un réexamen des progrès récents ainsi que des mécanismes sous-jacents en RLVR. Notre code, modèle et données sont open source à l'adresse https://github.com/ypwang61/One-Shot-RLVR.
Mesurer les progrès est fondamental pour l'avancement de tout domaine scientifique. Alors que les benchmarks jouent un rôle de plus en plus central, ils deviennent également plus susceptibles de distorsion. Chatbot Arena s'est imposé comme le tableau de référence pour classer les systèmes d'IA les plus performants. Pourtant, dans ce travail, nous identifions des problèmes systémiques qui ont entraîné un terrain de jeu biaisé. Nous constatons que des pratiques de tests privés non divulguées profitent à un petit nombre de fournisseurs, qui peuvent tester plusieurs variantes avant leur publication publique et retirer les scores si nécessaire. Nous démontrons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores biaisés sur l'Arena en raison de la divulgation sélective des résultats de performance. À l'extrême, nous identifions 27 variantes privées de LLM testées par Meta en amont de la sortie de Llama-4. Nous établissons également que les modèles propriétaires fermés sont échantillonnés à des taux plus élevés (nombre de batailles) et ont moins de modèles retirés de l'arène que les alternatives open-weight et open-source. Ces deux politiques entraînent des asymétries importantes dans l'accès aux données au fil du temps. Des fournisseurs comme Google et OpenAI ont reçu respectivement environ 19,2 % et 20,4 % de toutes les données de l'arène. En revanche, 83 modèles open-weight combinés n'ont reçu qu'environ 29,7 % des données totales. Nous montrons que l'accès aux données de Chatbot Arena procure des avantages substantiels ; même des données supplémentaires limitées peuvent entraîner des gains de performance relatifs allant jusqu'à 112 % sur la distribution de l'arène, selon nos estimations prudentes. Ensemble, ces dynamiques conduisent à un surajustement aux spécificités de l'Arena plutôt qu'à la qualité générale des modèles. L'Arena repose sur les efforts considérables des organisateurs et d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation de Chatbot Arena et promouvoir un benchmarking plus équitable et transparent pour le domaine.
La Génération Augmentée par Récupération (RAG) a démontré un potentiel significatif pour améliorer la précision factuelle en ancrant les réponses des modèles avec des connaissances externes pertinentes aux requêtes. Cependant, la plupart des approches RAG existantes se limitent à un corpus textuel uniquement, et bien que des efforts récents aient étendu RAG à d'autres modalités telles que les images et les vidéos, elles opèrent généralement sur un corpus spécifique à une seule modalité. En revanche, les requêtes du monde réel varient considérablement dans le type de connaissances qu'elles nécessitent, ce qu'une seule source de connaissances ne peut pas satisfaire. Pour résoudre ce problème, nous introduisons UniversalRAG, un nouveau cadre RAG conçu pour récupérer et intégrer des connaissances provenant de sources hétérogènes avec des modalités et des granularités diverses. Plus précisément, motivés par l'observation que forcer toutes les modalités dans un espace de représentation unifié dérivé d'un corpus combiné unique crée un écart de modalité, où la récupération tend à favoriser les éléments de la même modalité que la requête, nous proposons un mécanisme de routage conscient des modalités qui identifie dynamiquement le corpus spécifique à la modalité la plus appropriée et effectue une récupération ciblée dans celui-ci. De plus, au-delà des modalités, nous organisons chaque modalité en plusieurs niveaux de granularité, permettant une récupération fine adaptée à la complexité et à la portée de la requête. Nous validons UniversalRAG sur 8 benchmarks couvrant plusieurs modalités, démontrant sa supériorité par rapport aux bases de référence spécifiques à une modalité et unifiées.
Nous présentons ReasonIR-8B, le premier système de recherche spécifiquement entraîné pour les tâches de raisonnement général. Les systèmes de recherche existants ont montré des gains limités sur les tâches de raisonnement, en partie parce que les ensembles de données d'entraînement actuels se concentrent sur des requêtes factuelles courtes liées à des documents qui y répondent de manière directe. Nous développons un pipeline de génération de données synthétiques qui, pour chaque document, crée une requête pertinente et stimulante, ainsi qu'un exemple négatif difficile plausiblement lié mais finalement inutile. En entraînant sur un mélange de nos données synthétiques et de données publiques existantes, ReasonIR-8B atteint un nouvel état de l'art de 29,9 nDCG@10 sans réordonnancement et de 36,9 nDCG@10 avec réordonnancement sur BRIGHT, un benchmark largement utilisé en recherche d'information (IR) intensif en raisonnement. Lorsqu'il est appliqué à des tâches de RAG, ReasonIR-8B améliore les performances sur MMLU et GPQA de 6,4 % et 22,6 % respectivement, par rapport à la base de référence en mode fermé, surpassant ainsi d'autres systèmes de recherche et moteurs de recherche. De plus, ReasonIR-8B utilise plus efficacement les ressources de calcul au moment du test : sur BRIGHT, ses performances augmentent systématiquement avec des requêtes réécrites plus longues et plus riches en informations ; il continue à surpasser d'autres systèmes de recherche lorsqu'il est combiné avec un réordonnanceur LLM. Notre méthode d'entraînement est générale et peut être facilement étendue aux futurs LLM ; à cette fin, nous rendons public notre code, nos données et notre modèle.
Les méthodes d'alignement basées sur les récompenses pour les grands modèles de langage (LLMs) rencontrent deux limitations majeures : une vulnérabilité au piratage des récompenses, où les modèles exploitent les failles du signal de récompense ; et une dépendance à l'ingénierie de prompts fragile et laborieuse lorsque les LLMs sont utilisés comme modèles de récompense. Nous introduisons l'Optimisation de Politique Méta (MPO), un cadre qui aborde ces défis en intégrant un modèle méta-récompense qui affine dynamiquement le prompt du modèle de récompense tout au long de l'entraînement. Dans MPO, le modèle méta-récompense surveille le contexte d'entraînement en évolution et ajuste continuellement le prompt du modèle de récompense pour maintenir un alignement élevé, fournissant ainsi un signal de récompense adaptatif résistant à l'exploitation par la politique. Cette approche de méta-apprentissage favorise une optimisation de politique plus stable et réduit considérablement le besoin de conception manuelle des prompts de récompense. Elle offre des performances comparables ou supérieures à celles des modèles guidés par des prompts de récompense soigneusement élaborés. De plus, nous montrons que MPO maintient son efficacité sur diverses tâches, telles que la réponse à des questions et le raisonnement mathématique, sans nécessiter de conceptions de récompense spécialisées. Au-delà du RLAIF standard, la formulation de méta-apprentissage de MPO est facilement extensible à des cadres d'alignement de niveau supérieur. Globalement, cette méthode aborde les défis théoriques et pratiques de l'alignement RL basé sur les récompenses pour les LLMs, ouvrant la voie à des stratégies d'alignement plus robustes et adaptables. Le code et les modèles seront partagés publiquement.
Cet article présente une approche efficace pour l'apprentissage de nouveaux modèles de monde incarné en 4D, qui prédisent l'évolution dynamique de scènes 3D au fil du temps en réponse aux actions d'un agent incarné, tout en assurant une cohérence spatiale et temporelle. Nous proposons d'apprendre un modèle de monde 4D en nous entraînant sur des vidéos RGB-DN (RGB, profondeur et normales). Cela dépasse non seulement les modèles 2D traditionnels en intégrant des informations détaillées sur la forme, la configuration et les changements temporels dans leurs prédictions, mais nous permet également d'apprendre efficacement des modèles dynamiques inverses précis pour un agent incarné. Plus précisément, nous commençons par enrichir les ensembles de données existants de vidéos de manipulation robotique avec des informations de profondeur et de normales en exploitant des modèles prêts à l'emploi. Ensuite, nous affinons un modèle de génération de vidéos sur cet ensemble de données annoté, qui prédit conjointement les valeurs RGB-DN (RGB, profondeur et normales) pour chaque image. Nous présentons ensuite un algorithme pour convertir directement les vidéos générées en RGB, profondeur et normales en une scène 4D de haute qualité du monde. Notre méthode garantit une cohérence temporelle et spatiale dans les prédictions de scènes 4D à partir de scénarios incarnés, permet la synthèse de nouvelles vues pour des environnements incarnés, et facilite l'apprentissage de politiques qui surpassent significativement celles dérivées de modèles de monde basés sur des vidéos antérieurs.
L'édition d'images basée sur des instructions permet une modification robuste des images via des prompts en langage naturel, mais les méthodes actuelles sont confrontées à un compromis entre précision et efficacité. Les méthodes de fine-tuning nécessitent des ressources computationnelles importantes et de grands ensembles de données, tandis que les techniques sans entraînement peinent à comprendre les instructions et à garantir la qualité des modifications. Nous résolvons ce dilemme en exploitant la capacité de génération améliorée et la conscience contextuelle native des Transformers de Diffusion à grande échelle (DiT). Notre solution introduit trois contributions : (1) un cadre d'édition en contexte pour la conformité aux instructions en zero-shot en utilisant des prompts contextuels, évitant les changements structurels ; (2) une stratégie hybride de réglage LoRA-MoE qui améliore la flexibilité avec une adaptation efficace et un routage dynamique des experts, sans nécessiter de réentraînement extensif ; et (3) une méthode de mise à l'échelle inférentielle précoce utilisant des modèles vision-langage (VLMs) pour sélectionner un meilleur bruit initial dès le début, améliorant ainsi la qualité des modifications. Des évaluations approfondies démontrent la supériorité de notre méthode : elle surpasse les approches de pointe tout en nécessitant seulement 0,5 % des données d'entraînement et 1 % des paramètres entraînables par rapport aux bases de référence conventionnelles. Ce travail établit un nouveau paradigme permettant une édition guidée par instructions à la fois de haute précision et efficace. Les codes et démonstrations sont disponibles sur https://river-zhang.github.io/ICEdit-gh-pages/.
L'exposition des grands modèles de langage (LLM) à du matériel protégé par des droits d'auteur pendant la phase de pré-entraînement soulève des inquiétudes concernant les infractions involontaires aux droits d'auteur après leur déploiement. Cela a conduit au développement de méthodes de "suppression des droits d'auteur", des approches post-entraînement visant à empêcher les modèles de générer un contenu substantiellement similaire à celui protégé. Bien que les approches d'atténuation actuelles soient relativement efficaces pour les risques moyens, nous démontrons qu'elles négligent les risques extrêmes liés aux droits d'auteur, mis en évidence par l'existence de longues citations textuelles provenant de sources protégées. Nous proposons BloomScrub, une approche remarquablement simple mais hautement efficace au moment de l'inférence, qui offre une suppression certifiée des droits d'auteur. Notre méthode entrelace de manière répétée la détection de citations avec des techniques de réécriture pour transformer les segments potentiellement infracteurs. En exploitant des esquisses de données efficaces (filtres de Bloom), notre approche permet un filtrage des droits d'auteur scalable, même pour des corpus de grande taille dans le monde réel. Lorsque des citations dépassant un seuil de longueur ne peuvent pas être supprimées, le système peut s'abstenir de répondre, offrant ainsi une réduction certifiée des risques. Les résultats expérimentaux montrent que BloomScrub réduit le risque d'infraction, préserve l'utilité et s'adapte à différents niveaux de rigueur d'application grâce à une abstention adaptative. Nos résultats suggèrent que des méthodes légères, appliquées au moment de l'inférence, peuvent être étonnamment efficaces pour la prévention des infractions aux droits d'auteur.
Nous proposons X-Fusion, un cadre qui étend les modèles de langage pré-entraînés (LLM) pour des tâches multimodales tout en préservant leurs capacités linguistiques. X-Fusion utilise une architecture à double tour avec des poids spécifiques à chaque modalité, gardant les paramètres du LLM figés tout en intégrant des informations spécifiques à la vision pour la compréhension et la génération. Nos expériences montrent que X-Fusion surpasse systématiquement les architectures alternatives sur les tâches de conversion image-texte et texte-image. Nous constatons que l'intégration de données axées sur la compréhension améliore la qualité de la génération, que la réduction du bruit dans les données d'image améliore les performances globales, et que l'alignement des caractéristiques accélère la convergence pour les modèles plus petits mais a un impact minimal sur les plus grands. Nos résultats fournissent des insights précieux pour la construction de modèles multimodaux unifiés et efficaces.
Les grands modèles multimodaux (par exemple, GPT-4, Gemini, Chameleon) sont devenus des outils puissants avec des millions d'utilisateurs. Cependant, ils restent des modèles génériques et manquent de connaissances personnalisées sur les concepts spécifiques des utilisateurs. Les travaux précédents ont exploré la personnalisation pour la génération de texte, mais il reste incertain comment ces méthodes peuvent être adaptées à de nouvelles modalités, telles que la génération d'images. Dans cet article, nous présentons Yo'Chameleon, la première tentative d'étudier la personnalisation pour les grands modèles multimodaux. Étant donné 3 à 5 images d'un concept particulier, Yo'Chameleon utilise l'ajustement par prompts souples pour intégrer des informations spécifiques au sujet afin de (i) répondre à des questions sur le sujet et (ii) recréer des détails au niveau des pixels pour produire des images du sujet dans de nouveaux contextes. Yo'Chameleon est entraîné avec (i) un mécanisme d'optimisation par auto-prompting pour équilibrer les performances sur plusieurs modalités, et (ii) une approche de génération d'images « soft-positive » pour améliorer la qualité des images dans un contexte de few-shot.
L'entraînement de grands modèles de langage (LLMs) en tant qu'agents interactifs présente des défis uniques, notamment la prise de décision à long terme et l'interaction avec des retours d'environnement stochastiques. Bien que l'apprentissage par renforcement (RL) ait permis des progrès dans des tâches statiques, l'entraînement RL d'agents multi-tours reste peu exploré. Nous proposons StarPO (State-Thinking-Actions-Reward Policy Optimization), un cadre général pour le RL d'agents au niveau de la trajectoire, et introduisons RAGEN, un système modulaire pour l'entraînement et l'évaluation d'agents LLM. Notre étude sur trois environnements stylisés révèle trois conclusions principales. Premièrement, notre entraînement RL d'agents montre un mode récurrent de "Echo Trap" où la variance des récompenses chute et les gradients connaissent des pics ; nous abordons cela avec StarPO-S, une variante stabilisée avec filtrage de trajectoire, incorporation de critique et découplage de l'écrêtage. Deuxièmement, nous constatons que la mise en forme des rollouts RL bénéficierait d'états initiaux divers, d'une granularité d'interaction moyenne et d'un échantillonnage plus fréquent. Troisièmement, nous montrons que sans signaux de récompense fins et conscients du raisonnement, le raisonnement des agents émerge difficilement à travers le RL multi-tours et ils peuvent adopter des stratégies superficielles ou des pensées hallucinées. Le code et les environnements sont disponibles à l'adresse https://github.com/RAGEN-AI/RAGEN.
La génération de drame spatial immersif multimodal se concentre sur la création d'un discours binaural continu à plusieurs locuteurs avec une prosodie dramatique basée sur des invites multimodales, avec des applications potentielles dans la réalité augmentée (AR), la réalité virtuelle (VR) et d'autres domaines. Cette tâche nécessite une modélisation simultanée des informations spatiales et de la prosodie dramatique à partir d'entrées multimodales, avec des coûts élevés de collecte de données. À notre connaissance, notre travail est la première tentative pour relever ces défis. Nous construisons MRSDrama, le premier ensemble de données de drame spatial enregistré multimodal, contenant des audios dramatiques binauraux, des scripts, des vidéos, des poses géométriques et des invites textuelles. Ensuite, nous proposons ISDrama, le premier modèle de génération de drame spatial immersif via des invites multimodales. ISDrama comprend ces composants principaux : 1) Un encodeur de pose multimodal, basé sur l'apprentissage contrastif, prenant en compte l'effet Doppler causé par les locuteurs en mouvement pour extraire des informations de pose unifiées à partir des invites multimodales. 2) Un transformateur de drame immersif, un modèle de type mamba-transformeur basé sur des flux qui génère un drame de haute qualité, incorporant Drama-MOE pour sélectionner les experts appropriés afin d'améliorer la prosodie et le contrôle de la pose. Nous concevons également une stratégie de guidage sans classificateur cohérente avec le contexte pour générer de manière cohérente un drame complet. Les résultats expérimentaux montrent qu'ISDrama surpasse les modèles de référence sur les mesures objectives et subjectives. Les démos et l'ensemble de données sont disponibles à l'adresse https://aaronz345.github.io/ISDramaDemo.
Les systèmes de génération augmentée par récupération (RAG) rencontrent des défis importants dans le domaine des réponses à questions multi-sauts (MHQA), où des requêtes complexes nécessitent la synthèse d'informations provenant de plusieurs segments de documents. Les approches existantes reposent généralement sur la réécriture et le routage itératifs des requêtes basés sur des modèles de langage de grande taille (LLM), entraînant des coûts de calcul élevés en raison des invocations répétées des LLM et des processus multi-étapes. Pour surmonter ces limitations, nous proposons TreeHop, un cadre opérant au niveau des embeddings sans nécessiter de LLM pour l'affinement des requêtes. TreeHop met à jour dynamiquement les embeddings des requêtes en fusionnant les informations sémantiques des requêtes précédentes et des documents récupérés, permettant une récupération itérative uniquement par des opérations dans l'espace des embeddings. Cette méthode remplace le cycle traditionnel "Récupérer-Réécrire-Vectoriser-Récupérer" par une boucle simplifiée "Récupérer-Embed-Récupérer", réduisant significativement la surcharge de calcul. De plus, un critère d'arrêt basé sur des règles est introduit pour élaguer davantage les récupérations redondantes, équilibrant ainsi l'efficacité et le taux de rappel. Les résultats expérimentaux montrent que TreeHop rivalise avec les méthodes RAG avancées sur trois ensembles de données MHQA en domaine ouvert, atteignant des performances comparables avec seulement 5\%-0.4\% de la taille des paramètres du modèle et réduisant la latence des requêtes d'environ 99\% par rapport aux approches concurrentes. Cela fait de TreeHop une solution plus rapide et plus économique pour le déploiement dans une gamme d'applications nécessitant une connaissance intensive. Pour des raisons de reproductibilité, les codes et les données sont disponibles ici : https://github.com/allen-li1231/TreeHop.
Les pipelines actuels d'apprentissage par renforcement à partir de retours humains (RLHF) pour l'alignement des grands modèles de langage (LLM) attribuent généralement des récompenses scalaires à des séquences, en utilisant le dernier jeton comme indicateur substitut de la qualité de l'ensemble de la séquence. Cependant, cela conduit à des retours épars et à une attribution de crédit au niveau des jetons sous-optimale. Dans ce travail, nous formulons le façonnage des récompenses comme un problème d'optimisation centré sur l'attribution de crédit au niveau des jetons. Nous proposons une fonction de façonnage des récompenses exploitant des méthodes d'explicabilité telles que SHAP et LIME pour estimer les récompenses par jeton à partir du modèle de récompense. Pour apprendre les paramètres de cette fonction de façonnage, nous utilisons un cadre d'optimisation bi-niveaux qui intègre l'optimisation bayésienne et l'entraînement des politiques pour gérer le bruit des estimations de récompense par jeton. Nos expériences montrent qu'un meilleur équilibre dans l'attribution des récompenses au niveau des jetons améliore les performances par rapport aux bases de référence sur les tâches en aval et permet de trouver une politique optimale plus rapidement pendant l'entraînement. De plus, nous démontrons théoriquement que les méthodes d'explicabilité qui sont des fonctions d'attribution additives par caractéristique maintiennent la politique optimale comme la récompense originale.
Les praticiens du droit, en particulier ceux en début de carrière, sont confrontés à des tâches complexes et à enjeux élevés qui nécessitent un raisonnement adaptatif et sensible au contexte. Bien que l'IA promette de soutenir le travail juridique, les ensembles de données et modèles actuels se concentrent étroitement sur des sous-tâches isolées et ne parviennent pas à capturer la prise de décision de bout en bout requise dans la pratique réelle. Pour combler cette lacune, nous présentons LawFlow, un ensemble de données de workflows juridiques complets de bout en bout, collectés auprès d'étudiants en droit formés, ancrés dans des scénarios réels de création d'entités commerciales. Contrairement aux ensembles de données antérieurs axés sur des paires entrée-sortie ou des chaînes de pensée linéaires, LawFlow capture des processus de raisonnement dynamiques, modulaires et itératifs qui reflètent l'ambiguïté, la révision et les stratégies adaptatives aux clients de la pratique juridique. En utilisant LawFlow, nous comparons les workflows générés par des humains et ceux générés par des modèles de langage (LLM), révélant des différences systématiques dans la structure, la flexibilité du raisonnement et l'exécution des plans. Les workflows humains tendent à être modulaires et adaptatifs, tandis que les workflows des LLM sont plus séquentiels, exhaustifs et moins sensibles aux implications ultérieures. Nos résultats suggèrent également que les professionnels du droit préfèrent que l'IA assume des rôles de soutien, tels que le brainstorming, l'identification des angles morts et la proposition d'alternatives, plutôt que d'exécuter des workflows complexes de bout en bout. Sur la base de ces constatations, nous proposons un ensemble de suggestions de conception, ancrées dans des observations empiriques, qui alignent l'assistance de l'IA sur les objectifs humains de clarté, d'exhaustivité, de créativité et d'efficacité, grâce à une planification hybride, une exécution adaptative et un soutien aux points de décision. Nos résultats mettent en lumière à la fois les limites actuelles des LLM dans le soutien des workflows juridiques complexes et les opportunités de développement de systèmes d'IA juridiques plus collaboratifs et conscients du raisonnement. Toutes les données et le code sont disponibles sur notre page de projet (https://minnesotanlp.github.io/LawFlow-website/).
Les récents progrès dans la génération de têtes parlantes (THG) ont permis d'obtenir une synchronisation labiale et une qualité visuelle impressionnantes grâce aux modèles de diffusion ; cependant, les méthodes existantes peinent à générer des portraits expressifs sur le plan émotionnel tout en préservant l'identité du locuteur. Nous identifions trois limitations majeures dans la génération actuelle de têtes parlantes émotionnelles : une utilisation insuffisante des indices émotionnels inhérents à l'audio, une fuite d'identité dans les représentations émotionnelles, et un apprentissage isolé des corrélations émotionnelles. Pour relever ces défis, nous proposons un nouveau framework appelé DICE-Talk, basé sur l'idée de dissocier l'identité de l'émotion, puis de coopérer les émotions partageant des caractéristiques similaires. Premièrement, nous développons un encodeur d'émotions dissocié qui modélise conjointement les indices émotionnels audio-visuels via une attention intermodale, représentant les émotions sous forme de distributions gaussiennes indépendantes de l'identité. Deuxièmement, nous introduisons un module de conditionnement émotionnel renforcé par les corrélations, doté de banques d'émotions apprenables qui capturent explicitement les relations inter-émotionnelles grâce à la quantification vectorielle et à l'agrégation de caractéristiques basée sur l'attention. Troisièmement, nous concevons un objectif de discrimination émotionnelle qui impose une cohérence affective pendant le processus de diffusion via une classification dans l'espace latent. Des expériences approfondies sur les ensembles de données MEAD et HDTF démontrent la supériorité de notre méthode, surpassant les approches de pointe en précision émotionnelle tout en maintenant des performances compétitives en synchronisation labiale. Les résultats qualitatifs et les études utilisateurs confirment en outre la capacité de notre méthode à générer des portraits préservant l'identité avec des expressions émotionnelles riches et corrélées, s'adaptant naturellement à des identités non vues.
L'incitation par chaîne de pensée a démontré un grand succès dans l'amélioration des capacités de raisonnement des grands modèles de langage. Dans ce travail, nous explorons comment ces capacités de raisonnement renforcées peuvent être exploitées pour améliorer la robustesse des grands modèles de langage dans des tâches qui ne sont pas nécessairement axées sur le raisonnement. En particulier, nous montrons comment un large éventail de grands modèles de langage présente une robustesse significativement améliorée contre la corruption des références grâce à une méthode simple appelée chaîne de pensée défensive, où seulement quelques exemples avec un raisonnement structuré et défensif sont fournis comme démonstrations. Empiriquement, les améliorations peuvent être stupéfiantes, surtout compte tenu de la simplicité et de l'applicabilité de la méthode. Par exemple, dans la tâche des Questions Naturelles, la précision de GPT-4o chute de 60 % à seulement 3 % avec une incitation standard lorsque 1 référence sur 10 fournie est corrompue par des attaques d'injection de prompt. En revanche, GPT-4o utilisant l'incitation par chaîne de pensée défensive maintient une précision de 50 %.
Nous étudions l'apprentissage par renforcement (RL) pour la planification privilégiée dans la conduite autonome. Les approches actuelles pour cette tâche sont basées sur des règles, mais ces méthodes ne s'adaptent pas bien aux cas marginaux. Le RL, en revanche, est évolutif et ne souffre pas des erreurs cumulatives comme l'apprentissage par imitation. Les approches contemporaines de RL pour la conduite utilisent des récompenses complexes qui combinent plusieurs récompenses individuelles, par exemple pour la progression, la position ou l'orientation. Nous montrons que PPO échoue à optimiser une version populaire de ces récompenses lorsque la taille des mini-lots est augmentée, ce qui limite l'évolutivité de ces approches. À la place, nous proposons une nouvelle conception de récompense basée principalement sur l'optimisation d'un seul terme de récompense intuitif : l'achèvement de l'itinéraire. Les infractions sont pénalisées en mettant fin à l'épisode ou en réduisant multiplicativement l'achèvement de l'itinéraire. Nous constatons que PPO s'adapte bien à des tailles de mini-lots plus élevées lorsqu'il est entraîné avec notre récompense simple, améliorant même les performances. L'entraînement avec de grands mini-lots permet une mise à l'échelle efficace via le parallélisme de données distribué. Nous avons mis à l'échelle PPO à 300 millions d'échantillons dans CARLA et 500 millions d'échantillons dans nuPlan avec un seul nœud à 8 GPU. Le modèle résultant atteint un score de 64 DS sur le benchmark CARLA longest6 v2, surpassant largement d'autres méthodes de RL avec des récompenses plus complexes. Ne nécessitant que des adaptations minimales par rapport à son utilisation dans CARLA, la même méthode est la meilleure approche basée sur l'apprentissage sur nuPlan. Elle obtient un score de 91,3 dans le trafic non réactif et 90,6 dans le trafic réactif sur le benchmark Val14, tout en étant un ordre de grandeur plus rapide que les travaux précédents.
Cette revue propose une analyse systématique d'une étude approfondie de la détection d'objets 3D avec des modèles vision-langage (VLMs), un domaine en pleine expansion à l'intersection de la vision 3D et de l'intelligence artificielle multimodale. En examinant plus de 100 articles de recherche, nous fournissons la première analyse systématique dédiée à la détection d'objets 3D avec des modèles vision-langage. Nous commençons par décrire les défis spécifiques de la détection d'objets 3D avec ces modèles, en mettant l'accent sur les différences par rapport à la détection 2D en termes de raisonnement spatial et de complexité des données. Les approches traditionnelles utilisant des nuages de points et des grilles voxel sont comparées aux frameworks modernes vision-langage comme CLIP et les LLMs 3D, qui permettent une détection en vocabulaire ouvert et une généralisation zero-shot. Nous passons en revue les architectures clés, les stratégies de pré-entraînement et les méthodes d'ingénierie de prompts qui alignent les caractéristiques textuelles et 3D pour une détection efficace d'objets 3D avec des modèles vision-langage. Des exemples de visualisation et des benchmarks d'évaluation sont discutés pour illustrer les performances et les comportements. Enfin, nous soulignons les défis actuels, tels que la limitation des ensembles de données 3D-langage et les exigences computationnelles, et proposons des directions de recherche futures pour faire progresser la détection d'objets 3D avec des modèles vision-langage. > Détection d'objets, Modèles Vision-Langage, Agents, VLMs, LLMs, IA