papers.description
Nous présentons Story2Board, un framework sans entraînement pour la génération expressive de storyboards à partir de langage naturel. Les méthodes existantes se concentrent étroitement sur l'identité du sujet, négligeant des aspects clés de la narration visuelle tels que la composition spatiale, l'évolution de l'arrière-plan et le rythme narratif. Pour remédier à cela, nous introduisons un framework de cohérence léger composé de deux éléments : l'Ancrage de Panneaux Latents, qui préserve une référence de personnage partagée entre les panneaux, et le Mélange Réciproque de Valeurs d'Attention, qui fusionne doucement les caractéristiques visuelles entre des paires de tokens avec une forte attention réciproque. Ensemble, ces mécanismes améliorent la cohérence sans modifications architecturales ni fine-tuning, permettant aux modèles de diffusion de pointe de générer des storyboards visuellement diversifiés tout en restant cohérents. Pour structurer la génération, nous utilisons un modèle de langage prêt à l'emploi pour convertir des histoires libres en prompts ancrés au niveau des panneaux. Pour l'évaluation, nous proposons le Rich Storyboard Benchmark, une suite de récits en domaine ouvert conçus pour évaluer la diversité de mise en page et la narration ancrée dans l'arrière-plan, en plus de la cohérence. Nous introduisons également une nouvelle métrique de Diversité de Scène qui quantifie les variations spatiales et de pose dans les storyboards. Nos résultats qualitatifs et quantitatifs, ainsi qu'une étude utilisateur, montrent que Story2Board produit des storyboards plus dynamiques, cohérents et engageants sur le plan narratif que les baselines existantes.
Les grands modèles de langage (LLMs), en particulier les modèles de raisonnement explicite à longue chaîne de pensée (CoT) comme DeepSeek-R1 et QWQ, ont démontré des capacités de raisonnement puissantes, obtenant des performances impressionnantes en raisonnement de bon sens et en inférence mathématique. Malgré leur efficacité, les modèles de raisonnement Long-CoT sont souvent critiqués pour leur capacité limitée et leur faible efficacité dans des domaines riches en connaissances, comme la découverte de molécules. Le succès dans ce domaine nécessite une compréhension précise des connaissances du domaine, incluant les structures moléculaires et les principes chimiques, ce qui est difficile en raison de la complexité inhérente des données moléculaires et de la rareté des annotations expertes de haute qualité. Pour combler cette lacune, nous introduisons Mol-R1, un nouveau cadre conçu pour améliorer l'explicabilité et les performances de raisonnement des LLMs de type R1 à CoT explicite dans la génération de molécules basée sur le texte. Notre approche commence par un ensemble de données de raisonnement de haute qualité, élaboré grâce à la Régulation Préalable via Distillation en Contexte (PRID), une stratégie de distillation dédiée pour générer efficacement des traces de raisonnement guidées par des régulations préalables. Sur cette base, nous introduisons MoIA, l'Adaptation Itérative Moléculaire, une stratégie d'entraînement sophistiquée qui combine de manière itérative le Fine-Tuning Supervisé (SFT) avec l'Optimisation de Politique Renforcée (RPO), conçue pour améliorer les performances de raisonnement des modèles de type R1 dans la découverte de molécules. Enfin, nous examinons les performances de Mol-R1 dans la tâche de génération de raisonnement moléculaire basée sur le texte, montrant une performance supérieure par rapport aux bases de référence existantes.
La génération de vidéos humaines haute fidélité correspondant à des identités spécifiées par l'utilisateur est un enjeu important mais complexe dans le domaine de l'IA générative. Les méthodes existantes reposent souvent sur un nombre excessif de paramètres d'entraînement et manquent de compatibilité avec d'autres outils AIGC. Dans cet article, nous proposons Stand-In, un framework léger et plug-and-play pour la préservation de l'identité dans la génération de vidéos. Plus précisément, nous introduisons une branche d'image conditionnelle dans un modèle de génération de vidéos pré-entraîné. Le contrôle de l'identité est réalisé via des mécanismes d'auto-attention restreinte avec un mapping positionnel conditionnel, et peut être appris rapidement avec seulement 2000 paires. Bien qu'il n'incorpore et n'entraîne qu'environ 1 % de paramètres supplémentaires, notre framework obtient d'excellents résultats en termes de qualité vidéo et de préservation de l'identité, surpassant d'autres méthodes d'entraînement à paramètres complets. De plus, notre framework peut être intégré de manière transparente pour d'autres tâches, telles que la génération de vidéos pilotée par un sujet, la génération de vidéos référencées par la pose, la stylisation et l'échange de visages.
Nous présentons M3-Agent, un nouveau cadre d'agent multimodal doté d'une mémoire à long terme. À l'instar des humains, M3-Agent est capable de traiter des entrées visuelles et auditives en temps réel pour construire et mettre à jour sa mémoire à long terme. Au-delà de la mémoire épisodique, il développe également une mémoire sémantique, lui permettant d'accumuler des connaissances sur le monde au fil du temps. Sa mémoire est organisée dans un format centré sur les entités et multimodal, permettant une compréhension plus profonde et plus cohérente de l'environnement. Face à une instruction, M3-Agent effectue de manière autonome un raisonnement itératif en plusieurs tours et récupère des informations pertinentes dans sa mémoire pour accomplir la tâche. Pour évaluer l'efficacité de la mémoire et le raisonnement basé sur la mémoire dans les agents multimodaux, nous avons développé M3-Bench, un nouveau benchmark de questions-réponses sur des vidéos longues. M3-Bench comprend 100 vidéos nouvellement enregistrées dans le monde réel, capturées depuis la perspective d'un robot (M3-Bench-robot), et 929 vidéos provenant du web couvrant divers scénarios (M3-Bench-web). Nous annotons des paires de questions-réponses conçues pour tester des capacités clés essentielles pour les applications d'agents, telles que la compréhension humaine, l'extraction de connaissances générales et le raisonnement intermodal. Les résultats expérimentaux montrent que M3-Agent, entraîné via l'apprentissage par renforcement, surpasse le meilleur modèle de référence, un agent utilisant des prompts avec Gemini-1.5-pro et GPT-4o, atteignant une précision supérieure de 6,7 %, 7,7 % et 5,3 % sur M3-Bench-robot, M3-Bench-web et VideoMME-long, respectivement. Notre travail fait progresser les agents multimodaux vers une mémoire à long terme plus proche de celle des humains et fournit des insights pour leur conception pratique. Le modèle, le code et les données sont disponibles à l'adresse suivante : https://github.com/bytedance-seed/m3-agent.
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) sont apparus comme une alternative prometteuse aux modèles de langage autoregressifs (AR) pour la génération de texte, avec la capacité potentielle de décoder plusieurs tokens en une seule itération. Cependant, aucun des dLLMs open-source existants n'a atteint une vitesse d'inférence supérieure à celle des modèles AR de taille similaire. Cet article surmonte cet obstacle grâce à une stratégie simple et efficace appelée **discrete diffusion forcing** (D2F). D2F dote les dLLMs de deux capacités clés : (1) la génération autoregressive par blocs pour permettre l'utilisation du cache KV ; (2) la prédiction des tokens suivants sans nécessiter la complétion des blocs précédents, permettant un décodage parallèle inter-blocs. Ainsi, les dLLMs classiques sont transformés en un paradigme hybride AR-diffusion pour une inférence efficace. D2F peut être mis en œuvre via un processus de distillation asymétrique basé sur des dLLMs pré-entraînés. Nous proposons également un algorithme de décodage parallèle en pipeline, qui permet un compromis entre efficacité et performance. Empiriquement, les dLLMs avec D2F atteignent une vitesse d'inférence plus de 2,5 fois supérieure à celle de LLaMA3 et Qwen2.5 sur GSM8K. Par rapport aux dLLMs classiques comme LLaDA et Dream, l'accélération peut dépasser 50 fois tout en maintenant une qualité de sortie comparable. Le code est disponible à l'adresse suivante : https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
L'évolution rapide des grands modèles de langage (LLMs) a permis aux agents intelligents d'exploiter divers outils externes pour résoudre des problèmes complexes du monde réel. Cependant, à mesure que les agents dépendent de plus en plus de multiples outils, ils rencontrent de nouveaux défis : des contextes étendus provenant de sources disparates ainsi que des sorties d'outils bruyantes ou non pertinentes peuvent compromettre la fiabilité et la précision du système. Ces défis soulignent la nécessité d'une stabilité accrue dans les systèmes basés sur des agents. Pour y remédier, nous introduisons des mécanismes de supervision dynamique et de manœuvre, construisant ainsi une architecture robuste et dynamique de système multi-agents (MAS) dans le cadre AWorld. Dans notre approche, l'Agent d'Exécution invoque l'Agent de Garde à des étapes critiques pour vérifier et corriger le processus de raisonnement, réduisant efficacement les erreurs dues au bruit et renforçant la robustesse de la résolution de problèmes. Des expériences approfondies sur le jeu de données de test GAIA révèlent que notre mécanisme de manœuvre dynamique améliore significativement à la fois l'efficacité et la stabilité des solutions, surpassant les systèmes mono-agent (SAS) et les systèmes standard augmentés d'outils. En conséquence, notre système MAS dynamique a atteint la première place parmi les projets open-source sur le prestigieux classement GAIA. Ces résultats mettent en lumière la valeur pratique des rôles collaboratifs des agents dans le développement de systèmes intelligents plus fiables et dignes de confiance.
Récemment, GPT-4o a suscité une attention considérable pour ses performances impressionnantes en génération d'images, bien que les modèles open-source restent à la traîne. Plusieurs études ont exploré la distillation de données d'images à partir de GPT-4o pour améliorer les modèles open-source, obtenant des progrès notables. Cependant, une question fondamentale persiste : étant donné que les ensembles de données d'images du monde réel constituent déjà une source naturelle de données de haute qualité, pourquoi devrions-nous utiliser des données synthétiques générées par GPT-4o ? Dans ce travail, nous identifions deux avantages clés des images synthétiques. Premièrement, elles peuvent compléter des scénarios rares dans les ensembles de données du monde réel, tels que des fantaisies surréalistes ou la génération d'images à références multiples, qui apparaissent fréquemment dans les requêtes des utilisateurs. Deuxièmement, elles fournissent une supervision propre et contrôlable. Les données du monde réel contiennent souvent un bruit de fond complexe et un décalage inhérent entre les descriptions textuelles et le contenu des images, tandis que les images synthétiques offrent des arrière-plans purs et des signaux de supervision à longue traîne, facilitant un alignement plus précis entre le texte et l'image. Sur la base de ces observations, nous introduisons Echo-4o-Image, un ensemble de données synthétiques de 180K généré par GPT-4o, exploitant la puissance des données d'images synthétiques pour combler les lacunes de couverture du monde réel. En utilisant cet ensemble de données, nous affinons le modèle de génération multimodale unifié Bagel pour obtenir Echo-4o. De plus, nous proposons deux nouveaux benchmarks d'évaluation pour une évaluation plus précise et exigeante des capacités de génération d'images : GenEval++, qui augmente la complexité des instructions pour atténuer la saturation des scores, et Imagine-Bench, qui se concentre sur l'évaluation à la fois de la compréhension et de la génération de contenu imaginatif. Echo-4o démontre de solides performances sur les benchmarks standards. Par ailleurs, l'application d'Echo-4o-Image à d'autres modèles de base (par exemple, OmniGen2, BLIP3-o) entraîne des gains de performance cohérents sur plusieurs métriques, mettant en évidence la forte transférabilité de l'ensemble de données.
Les méthodologies d'alignement sont apparues comme une voie essentielle pour améliorer les capacités d'alignement des modèles de langage. Bien que le SFT (supervised fine-tuning) accélère la convergence grâce à une intervention directe sur la perte au niveau des tokens, son efficacité est limitée par la trajectoire de politique hors ligne. En revanche, l'apprentissage par renforcement (RL) facilite l'optimisation exploratoire des politiques, mais souffre d'une faible efficacité d'échantillonnage et d'une dépendance stricte à des modèles de base de haute qualité. Pour relever ces deux défis, nous proposons GRAO (Group Relative Alignment Optimization), un cadre unifié qui combine les forces respectives du SFT et du RL à travers trois innovations clés : 1) Une stratégie de génération multi-échantillons permettant une évaluation comparative de la qualité via un retour de récompense ; 2) Une nouvelle formulation de la perte d'alignement directe de groupe exploitant une pondération des avantages relatifs intra-groupe ; 3) Des mises à jour de paramètres guidées par la dynamique des préférences par paires et prenant en compte des références. Notre analyse théorique établit les garanties de convergence de GRAO et ses avantages en termes d'efficacité d'échantillonnage par rapport aux approches conventionnelles. Des évaluations approfondies sur des tâches complexes d'alignement humain démontrent la performance supérieure de GRAO, avec des améliorations relatives de 57,70 %, 17,65 %, 7,95 % et 5,18 % par rapport aux bases de référence SFT, DPO, PPO et GRPO respectivement. Ce travail fournit à la fois un cadre d'alignement théoriquement fondé et des preuves empiriques pour une évolution efficace des capacités dans les modèles de langage.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables en raisonnement mathématique visuel sur divers benchmarks existants. Cependant, ces benchmarks sont principalement basés sur des entrées multimodales propres ou traitées, sans intégrer les images fournies par les utilisateurs éducatifs réels de la maternelle à la 12e année (K-12). Pour combler cette lacune, nous introduisons MathReal, un ensemble de données soigneusement constitué comprenant 2 000 questions mathématiques avec des images capturées par des appareils mobiles portables dans des scénarios authentiques. Chaque question est une image, contenant le texte de la question et un élément visuel. Nous classons systématiquement les images réelles en trois catégories principales : dégradation de la qualité de l'image, variation de perspective et interférence de contenu non pertinent, qui sont ensuite subdivisées en 14 sous-catégories. De plus, MathReal couvre cinq catégories de connaissances et de compétences fondamentales, qui englobent trois types de questions et sont divisées en trois niveaux de difficulté. Pour évaluer de manière exhaustive les capacités de raisonnement mathématique multimodal des MLLMs de pointe dans des scénarios réels, nous concevons six configurations expérimentales permettant une analyse systématique de leurs performances. À travers des expérimentations approfondies, nous constatons que les capacités de résolution de problèmes des MLLMs existants sont considérablement mises à l'épreuve dans des contextes éducatifs réalistes. Sur cette base, nous menons une analyse approfondie de leurs performances et de leurs schémas d'erreurs, fournissant des insights sur leurs capacités de reconnaissance, de compréhension et de raisonnement, et esquissant des directions pour des améliorations futures. Données et code : https://github.com/junfeng0288/MathReal.
Les grands modèles de langage (LLM) ont démontré des performances remarquables dans les tâches de raisonnement, où l'apprentissage par renforcement (RL) sert d'algorithme clé pour améliorer leurs capacités de raisonnement. Actuellement, il existe deux paradigmes de récompense dominants : les récompenses basées sur des modèles et les récompenses basées sur des règles. Cependant, ces deux approches présentent des limites : les récompenses basées sur des règles manquent de robustesse, tandis que les récompenses basées sur des modèles sont vulnérables au piratage des récompenses. Pour résoudre ces problèmes, nous proposons Cooper (Co-optimisation du modèle de politique et du modèle de récompense), un cadre RL qui optimise conjointement le modèle de politique et le modèle de récompense. Cooper exploite la haute précision des récompenses basées sur des règles pour identifier les réponses correctes, et construit et sélectionne dynamiquement des paires d'échantillons positifs-négatifs pour continuer à entraîner le modèle de récompense. Cette conception améliore la robustesse et atténue le risque de piratage des récompenses. Pour soutenir davantage Cooper, nous introduisons une stratégie d'annotation hybride qui génère efficacement et précisément des données d'entraînement pour le modèle de récompense. Nous proposons également un paradigme de modélisation des récompenses basé sur des références, où le modèle de récompense prend une réponse de référence en entrée. Sur la base de cette conception, nous entraînons un modèle de récompense nommé VerifyRM, qui atteint une précision plus élevée sur VerifyBench par rapport à d'autres modèles de même taille. Nous menons un apprentissage par renforcement en utilisant à la fois VerifyRM et Cooper. Nos expériences montrent que Cooper non seulement atténue le piratage des récompenses, mais améliore également les performances RL de bout en bout, par exemple en obtenant un gain de 0,54 % en précision moyenne sur Qwen2.5-1.5B-Instruct. Nos résultats démontrent que la mise à jour dynamique du modèle de récompense est un moyen efficace de lutter contre le piratage des récompenses, fournissant une référence pour mieux intégrer les modèles de récompense dans le RL.
Le nouveau paradigme de mise à l'échelle au moment du test a permis des avancées remarquables dans les modèles de langage à grande échelle (LLMs) (par exemple, les modèles de raisonnement) et dans les modèles génératifs visuels, permettant aux modèles d'allouer des calculs supplémentaires lors de l'inférence pour résoudre efficacement des problèmes de plus en plus complexes. Malgré les améliorations apportées par cette approche, une limitation importante apparaît : l'augmentation substantielle du temps de calcul rend le processus lent et peu pratique pour de nombreuses applications. Compte tenu du succès de ce paradigme et de son utilisation croissante, nous cherchons à préserver ses avantages tout en évitant la surcharge d'inférence. Dans ce travail, nous proposons une solution au problème critique de l'intégration des connaissances de mise à l'échelle au moment du test dans un modèle après l'entraînement. Plus précisément, nous remplaçons l'optimisation du bruit guidée par récompense au moment du test dans les modèles de diffusion par un Hypernetwork de Bruit qui module le bruit initial en entrée. Nous proposons un cadre théoriquement fondé pour apprendre cette distribution inclinée par récompense pour les générateurs distillés, à travers un objectif dans l'espace du bruit qui maintient la fidélité au modèle de base tout en optimisant les caractéristiques souhaitées. Nous montrons que notre approche récupère une partie substantielle des gains de qualité provenant de l'optimisation explicite au moment du test à une fraction du coût de calcul. Le code est disponible à l'adresse https://github.com/ExplainableML/HyperNoise.
Les modèles vision-langage (VLMs) ont montré des avancées significatives dans des tâches telles que l'ancrage visuel, où ils localisent des objets spécifiques dans des images en fonction de requêtes en langage naturel et d'images. Cependant, les problèmes de sécurité dans les tâches d'ancrage visuel pour les VLMs restent peu explorés, en particulier dans le contexte des attaques par porte dérobée. Dans cet article, nous introduisons une nouvelle méthode d'attaque par porte dérobée sensible à l'entrée, IAG, conçue pour manipuler le comportement d'ancrage des VLMs. Cette attaque force le modèle à ancrer un objet cible spécifique dans l'image d'entrée, indépendamment de la requête de l'utilisateur. Nous proposons un générateur de déclencheurs adaptatif qui intègre les informations sémantiques de la description de la cible d'attaque dans l'image originale à l'aide d'un U-Net conditionné par le texte, surmontant ainsi le défi de l'attaque à vocabulaire ouvert. Pour garantir la discrétion de l'attaque, nous utilisons une perte de reconstruction pour minimiser les écarts visuels entre les images empoisonnées et les images propres. De plus, nous introduisons une méthode unifiée pour générer des données d'attaque. IAG est évalué théoriquement et empiriquement, démontrant sa faisabilité et son efficacité. Notamment, notre ASR@0.5 sur InternVL-2.5-8B atteint plus de 65\% sur divers ensembles de test. IAG montre également un potentiel prometteur pour manipuler Ferret-7B et LlaVA-1.5-7B avec une très faible diminution de la précision sur les échantillons propres. Des expériences spécifiques approfondies, telles que l'étude d'ablation et la défense potentielle, indiquent également la robustesse et la transférabilité de notre attaque.
Les modèles de langage multimodaux de grande taille (MLLMs) ont considérablement fait progresser l'intégration de la compréhension visuelle et textuelle. Cependant, leur capacité à générer du code à partir d'entrées multimodales reste limitée. Dans ce travail, nous présentons VisCodex, un cadre unifié qui fusionne de manière transparente des modèles de vision et de langage de programmation pour doter les MLLMs de solides capacités de génération de code multimodal. En exploitant une technique de fusion de modèles basée sur des vecteurs de tâches, nous intégrons un modèle de langage de programmation de pointe dans une architecture robuste de vision et langage, tout en préservant à la fois la compréhension visuelle et les compétences avancées en programmation. Pour soutenir l'entraînement et l'évaluation, nous introduisons le Multimodal Coding Dataset (MCD), une collection à grande échelle et diversifiée de 598k échantillons, comprenant du code HTML de haute qualité, des paires image-code de graphiques, des questions-réponses StackOverflow enrichies d'images, et des problèmes algorithmiques. Par ailleurs, nous proposons InfiBench-V, un nouveau benchmark exigeant conçu spécifiquement pour évaluer les modèles sur des questions de programmation réalistes et visuellement riches, nécessitant une compréhension nuancée des contextes textuels et visuels. Des expériences approfondies montrent que VisCodex atteint des performances de pointe parmi les MLLMs open-source et se rapproche des modèles propriétaires comme GPT-4o, soulignant l'efficacité de notre stratégie de fusion de modèles et des nouveaux jeux de données.
Les récentes avancées dans les modèles de génération d'images à partir de texte (T2I) ont permis l'édition régionale d'images sans apprentissage en exploitant les connaissances génératives des modèles de base. Cependant, les méthodes existantes peinent à équilibrer l'adhésion au texte dans les zones éditées, la fidélité contextuelle dans les zones non modifiées et l'intégration harmonieuse des modifications. Nous présentons CannyEdit, un nouveau cadre sans apprentissage qui relève ces défis grâce à deux innovations clés : (1) Le Contrôle Canny Sélectif, qui masque le guidage structurel du Canny ControlNet dans les zones éditables spécifiées par l'utilisateur tout en préservant strictement les détails des images sources dans les zones non modifiées via la rétention d'information du ControlNet en phase d'inversion. Cela permet des modifications précises guidées par le texte sans compromettre l'intégrité contextuelle. (2) Le Guidage Double-Prompt, qui combine des prompts locaux pour des modifications spécifiques à des objets avec un prompt global cible pour maintenir des interactions cohérentes dans la scène. Sur des tâches d'édition d'images du monde réel (ajout, remplacement, suppression), CannyEdit surpasse les méthodes précédentes comme KV-Edit, avec une amélioration de 2,93 à 10,49 pour cent dans l'équilibre entre l'adhésion au texte et la fidélité contextuelle. En termes de fluidité des modifications, des études utilisateurs révèlent que seulement 49,2 pour cent des utilisateurs généraux et 42,0 pour cent des experts en AIGC ont identifié les résultats de CannyEdit comme étant édités par IA lorsqu'ils étaient associés à des images réelles sans modifications, contre 76,08 à 89,09 pour cent pour les méthodes concurrentes.
Dans le domaine en pleine évolution du traitement du langage naturel explicable (NLP), les explications textuelles, c'est-à-dire les justifications de type humain, sont essentielles pour expliquer les prédictions des modèles et enrichir les ensembles de données avec des étiquettes interprétables. Les approches traditionnelles reposent sur l'annotation humaine, qui est coûteuse, laborieuse et freine la scalabilité. Dans ce travail, nous présentons un cadre automatisé qui exploite plusieurs modèles de langage de pointe (LLMs) pour générer des explications textuelles de haute qualité. Nous évaluons rigoureusement la qualité de ces explications générées par LLM à l'aide d'une suite complète de métriques de génération de langage naturel (NLG). De plus, nous étudions l'impact en aval de ces explications sur la performance des modèles de langage pré-entraînés (PLMs) et des LLMs dans des tâches d'inférence en langage naturel sur deux ensembles de données de référence diversifiés. Nos expériences démontrent que les explications automatisées présentent une efficacité très compétitive par rapport aux explications annotées par des humains pour améliorer la performance des modèles. Nos résultats mettent en lumière une voie prometteuse pour la génération automatisée et scalable d'explications textuelles basées sur des LLMs, visant à étendre les ensembles de données NLP et à améliorer la performance des modèles.
Ces dernières années ont vu un intérêt croissant et une adoption accrue des LLMs, avec muTransfer devenant une technique clé pour le réglage des hyperparamètres dans l'entraînement à grande échelle. Parallèlement, l'architecture Mixture-of-Experts (MoE) s'est imposée comme une approche de premier plan dans les modèles extrêmement volumineux. Cependant, l'intersection de ces deux avancées est restée inexplorée. Dans ce travail, nous dérivons une mu-Paramétrisation (muP) pour MoE, fournissant des garanties théoriques pour l'apprentissage des caractéristiques à travers les largeurs de modèle, tant dans le routeur que dans les experts. Nous validons empiriquement notre paramétrisation et étudions en outre comment la mise à l'échelle du nombre d'experts et de la granularité affecte le taux d'apprentissage optimal.
Les grands modèles de langage entraînés par apprentissage par renforcement avec des récompenses vérifiables ont tendance à sacrifier la précision au profit de la longueur, gonflant la taille des réponses pour obtenir des gains en précision. Bien que des réponses plus longues puissent être justifiées pour des problèmes plus difficiles, de nombreux tokens ne sont que du "remplissage" : un texte répétitif et verbeux qui ne fait pas avancer la résolution. Nous introduisons GFPO (Group Filtered Policy Optimization), qui limite cette explosion de longueur en échantillonnant des groupes plus importants par problème pendant l'entraînement et en filtrant les réponses à entraîner selon deux métriques clés : (1) la longueur de la réponse et (2) l'efficacité des tokens : le ratio de récompense par token. En échantillonnant davantage pendant l'entraînement, nous apprenons aux modèles à réfléchir moins au moment de l'inférence. Sur le modèle Phi-4-reasoning, GFPO réduit l'inflation de longueur de GRPO de 46 à 71 % sur des benchmarks exigeants en STEM et en codage (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) tout en maintenant la précision. L'optimisation pour la récompense par token augmente encore les réductions de l'inflation de longueur à 71-85 %. Nous proposons également GFPO à Difficulté Adaptative, qui alloue dynamiquement plus de ressources d'entraînement aux problèmes plus difficiles en fonction d'estimations en temps réel de leur complexité, améliorant l'équilibre entre efficacité computationnelle et précision, en particulier sur les questions difficiles. GFPO démontre qu'une augmentation du calcul pendant l'entraînement se traduit directement par une réduction du calcul pendant les tests—un compromis simple mais efficace pour un raisonnement efficace.
La reconstruction de scènes 3D à l'aide de la technique de *3D Gaussian Splatting* (3DGS) à partir de vues éparses constitue un problème mal posé en raison d'informations insuffisantes, ce qui entraîne souvent des artefacts visibles. Bien que des approches récentes aient cherché à exploiter des *priors* génératifs pour compléter les informations dans les régions sous-contraintes, elles peinent à générer un contenu restant cohérent avec les observations d'entrée. Pour relever ce défi, nous proposons GSFixer, un nouveau cadre conçu pour améliorer la qualité des représentations 3DGS reconstruites à partir d'entrées éparses. Le cœur de notre approche repose sur un modèle de restauration vidéo guidé par référence, basé sur un modèle de diffusion vidéo *DiT* entraîné sur des rendus 3DGS avec artefacts et des images propres, enrichi de conditions supplémentaires basées sur des références. En considérant les vues éparses d'entrée comme références, notre modèle intègre à la fois les caractéristiques sémantiques 2D et les caractéristiques géométriques 3D des vues de référence extraites d'un modèle de fondation de géométrie visuelle, améliorant ainsi la cohérence sémantique et la consistance 3D lors de la correction des artefacts dans les nouvelles vues. Par ailleurs, face au manque de benchmarks adaptés pour l'évaluation de la restauration d'artefacts 3DGS, nous présentons DL3DV-Res, qui contient des images avec artefacts rendues à partir de 3DGS de faible qualité. Des expériences approfondies démontrent que GSFixer surpasse les méthodes actuelles de pointe en matière de restauration d'artefacts 3DGS et de reconstruction 3D à partir de vues éparses. Page du projet : https://github.com/GVCLab/GSFixer.
Cet article présente la première méthode décentralisée permettant la manipulation en 6 degrés de liberté (6-DoF) d'une charge suspendue par câble à l'aide d'une équipe de micro-drones aériens (MAVs). Notre méthode exploite l'apprentissage par renforcement multi-agent (MARL) pour entraîner une politique de contrôle en boucle externe pour chaque MAV. Contrairement aux contrôleurs de pointe qui utilisent un schéma centralisé, notre politique ne nécessite ni états globaux, ni communications inter-MAV, ni informations sur les MAV voisins. Au lieu de cela, les agents communiquent implicitement uniquement par des observations de la pose de la charge, ce qui permet une grande évolutivité et flexibilité. Cela réduit également de manière significative les coûts de calcul pendant l'inférence, permettant un déploiement embarqué de la politique. De plus, nous introduisons une nouvelle conception de l'espace d'action pour les MAVs utilisant l'accélération linéaire et les taux de rotation du corps. Ce choix, combiné avec un contrôleur de bas niveau robuste, permet un transfert fiable du simulateur au monde réel malgré les incertitudes importantes causées par la tension du câble pendant les mouvements dynamiques en 3D. Nous validons notre méthode dans diverses expériences en conditions réelles, y compris le contrôle de la pose complète sous incertitudes du modèle de charge, montrant des performances de suivi de consigne comparables à la méthode centralisée de pointe. Nous démontrons également la coopération entre agents avec des politiques de contrôle hétérogènes, et la robustesse à la perte complète en vol d'un MAV. Vidéos des expériences : https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
La résection précise des lésions dépend de l'identification exacte des structures anatomiques fines. Bien que de nombreuses méthodes de segmentation grossière (CGS) aient réussi dans la segmentation à grande échelle (par exemple, les organes), elles sont insuffisantes dans les scénarios cliniques nécessitant une segmentation fine (FGS), qui reste un défi en raison des variations individuelles fréquentes dans les structures anatomiques de petite échelle. Bien que les modèles récents basés sur Mamba aient fait progresser la segmentation d'images médicales, ils reposent souvent sur des ordres de balayage fixes définis manuellement, ce qui limite leur adaptabilité aux variations individuelles dans la FGS. Pour remédier à cela, nous proposons ASM-UNet, une nouvelle architecture basée sur Mamba pour la FGS. Elle introduit des scores de balayage adaptatifs pour guider dynamiquement l'ordre de balayage, générés en combinant les points communs au niveau du groupe et les variations au niveau individuel. Les expériences sur deux ensembles de données publics (ACDC et Synapse) et un nouvel ensemble de données difficile de segmentation fine des voies biliaires, nommé BTMS, démontrent qu'ASM-UNet obtient des performances supérieures dans les tâches de CGS et de FGS. Notre code et notre ensemble de données sont disponibles à l'adresse https://github.com/YqunYang/ASM-UNet.
Les attaques par inférence d'appartenance constituent un outil utile pour l'utilisation équitable des modèles de langage, comme la détection d'éventuelles violations de droits d'auteur et l'audit des fuites de données. Cependant, de nombreuses attaques actuelles de pointe nécessitent un accès aux états cachés ou à la distribution de probabilité des modèles, ce qui empêche l'investigation de modèles plus largement utilisés et accessibles uniquement via des API, comme GPT-4. Dans ce travail, nous introduisons l'attaque par couverture N-Gram, une attaque par inférence d'appartenance qui repose uniquement sur les sorties textuelles du modèle cible, permettant ainsi des attaques sur des modèles totalement boîte noire. Nous exploitons l'observation que les modèles sont plus susceptibles de mémoriser et de générer ensuite des motifs textuels fréquemment observés dans leurs données d'entraînement. Plus précisément, pour prédire si un candidat est membre, l'attaque par couverture N-Gram obtient d'abord plusieurs générations du modèle conditionnées par un préfixe du candidat. Elle utilise ensuite des métriques de chevauchement n-gram pour calculer et agréger les similarités de ces sorties avec le suffixe de référence ; des similarités élevées indiquent une probable appartenance. Nous démontrons d'abord sur un ensemble diversifié de benchmarks existants que l'attaque par couverture N-Gram surpasse d'autres méthodes boîte noire tout en atteignant de manière impressionnante des performances comparables, voire supérieures, aux attaques de pointe en boîte blanche - malgré l'accès uniquement aux sorties textuelles. Fait intéressant, nous constatons que le taux de réussite de notre méthode évolue avec le budget de calcul de l'attaque - à mesure que nous augmentons le nombre de séquences générées par le modèle cible conditionnées par le préfixe, les performances de l'attaque ont tendance à s'améliorer. Après avoir vérifié la précision de notre méthode, nous l'utilisons pour étudier des modèles fermés d'OpenAI précédemment non étudiés sur plusieurs domaines. Nous constatons que les modèles plus récents, comme GPT-4o, présentent une robustesse accrue à l'inférence d'appartenance, suggérant une tendance évolutive vers une meilleure protection de la vie privée.
Les modèles de langage de grande taille (LLMs) sont généralement affinés pour des tâches de raisonnement à travers un pipeline en deux étapes : un affinage supervisé (SFT) suivi d'un apprentissage par renforcement (RL), un processus souvent marqué par l'oubli catastrophique et des compromis sous-optimaux entre imitation et exploration. Les méthodes récentes en une seule étape tentent d'unifier SFT et RL en utilisant des heuristiques, mais manquent d'un mécanisme rigoureux pour équilibrer dynamiquement ces deux paradigmes. Dans cet article, nous reformulons ce défi à travers la lentille théorique des récompenses implicites, considérant SFT et RL non pas comme des méthodes distinctes mais comme des signaux de récompense complémentaires. Nous introduisons l'Affinage Méta Adaptatif (AMFT), un nouvel algorithme en une seule étape qui apprend l'équilibre optimal entre la récompense implicite au niveau du chemin de SFT et la récompense explicite basée sur les résultats de RL. Le cœur d'AMFT est un contrôleur de poids adaptatif à méta-gradient qui traite l'équilibre SFT-RL comme un paramètre apprenable, l'optimisant dynamiquement pour maximiser la performance à long terme des tâches. Cette approche prospective, régularisée par l'entropie de la politique pour la stabilité, découvre de manière autonome un curriculum d'entraînement efficace. Nous menons une évaluation exhaustive sur des benchmarks exigeants couvrant le raisonnement mathématique, le raisonnement visuel abstrait (General Points) et la navigation visio-linguistique (V-IRL). AMFT établit systématiquement un nouvel état de l'art et démontre une généralisation supérieure sur des tâches hors distribution (OOD). Les études d'ablation et l'analyse des dynamiques d'entraînement confirment que le contrôleur de méta-apprentissage est crucial pour la stabilité, l'efficacité en échantillons et la performance d'AMFT, offrant un paradigme plus rigoureux et efficace pour l'alignement des LLMs. Nos codes sont open-source via https://github.com/hlxtsyj/AMFT.
La prolifération rapide des modèles de langage à grande échelle (LLMs) a significativement contribué au développement de systèmes d'IA équitables capables de répondre à des questions factuelles (QA). Cependant, aucune étude connue ne teste la robustesse des LLMs lorsqu'ils sont confrontés à des versions obscurcies de questions. Pour évaluer systématiquement ces limites, nous proposons une nouvelle technique, ObfusQAte, et, en nous appuyant sur celle-ci, introduisons ObfusQA, un cadre complet et inédit avec des niveaux d'obscurcissement multi-niveaux conçu pour examiner les capacités des LLMs à travers trois dimensions distinctes : (i) l'indirection des entités nommées, (ii) l'indirection des distracteurs, et (iii) la surcharge contextuelle. En capturant ces distinctions fines dans le langage, ObfusQA fournit un benchmark complet pour évaluer la robustesse et l'adaptabilité des LLMs. Notre étude observe que les LLMs ont tendance à échouer ou à générer des réponses hallucinées lorsqu'ils sont confrontés à ces variations de plus en plus nuancées. Pour encourager la recherche dans cette direction, nous rendons ObfusQAte accessible au public.