Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré l'intégration rapide des capacités de perception vidéo dans les Grands Modèles Multimodaux (LMM), les mécanismes sous-jacents qui guident leur compréhension vidéo restent mal compris. Par conséquent, de nombreuses décisions de conception dans ce domaine sont prises sans justification ou analyse appropriée. Le coût computationnel élevé de la formation et de l'évaluation de tels modèles, associé à une recherche ouverte limitée, entrave le développement des modèles vidéo-LMM. Pour remédier à cela, nous présentons une étude approfondie qui aide à découvrir ce qui conduit efficacement la compréhension vidéo dans les LMM. Nous commençons par examiner de manière critique les principaux contributeurs aux exigences computationnelles élevées associées à la recherche sur les vidéo-LMM et découvrons la Cohérence de l'Échelle, où les décisions de conception et de formation prises sur des modèles et des ensembles de données plus petits (jusqu'à une taille critique) se transfèrent efficacement aux modèles plus grands. En tirant parti de ces connaissances, nous avons exploré de nombreux aspects spécifiques des vidéos dans les vidéo-LMM, notamment l'échantillonnage vidéo, les architectures, la composition des données, les calendriers de formation, et plus encore. Par exemple, nous avons démontré que l'échantillonnage fps pendant la formation est nettement préférable à l'échantillonnage uniforme des images et quels encodeurs de vision sont les meilleurs pour la représentation vidéo. Guidés par ces découvertes, nous présentons Apollo, une famille de LMM de pointe qui atteignent des performances supérieures sur différentes tailles de modèles. Nos modèles peuvent percevoir efficacement des vidéos d'une heure, avec Apollo-3B surpassant la plupart des modèles existants de 7B avec un impressionnant 55,1 sur LongVideoBench. Apollo-7B est à la pointe par rapport aux LMM de 7B avec un score de 70,9 sur MLVU, et 63,3 sur Video-MME.
Comprendre, naviguer et explorer le monde physique en 3D a longtemps été un défi central dans le développement de l'intelligence artificielle. Dans ce travail, nous avançons vers cet objectif en introduisant GenEx, un système capable de planifier une exploration complexe du monde incarné, guidé par son imagination générative qui forme des a priori (attentes) sur les environnements environnants. GenEx génère un environnement imaginaire entièrement cohérent en 3D à partir d'une simple image RGB, le rendant vivant à travers des flux vidéo panoramiques. En exploitant des données mondiales 3D évolutives issues d'Unreal Engine, notre modèle génératif est ancré dans le monde physique. Il capture un environnement continu à 360 degrés avec peu d'effort, offrant un paysage illimité pour que les agents d'IA explorent et interagissent. GenEx atteint une génération de monde de haute qualité, une cohérence de boucle robuste sur de longues trajectoires, et démontre de fortes capacités en 3D telles que la cohérence et la cartographie 3D active. Alimentés par l'imagination générative du monde, les agents assistés par GPT sont équipés pour accomplir des tâches incarnées complexes, comprenant à la fois une exploration sans but précis et une navigation orientée par un objectif. Ces agents utilisent des attentes prédictives concernant les parties invisibles du monde physique pour affiner leurs croyances, simuler différents résultats basés sur des décisions potentielles, et prendre des choix plus éclairés. En résumé, nous démontrons que GenEx fournit une plateforme transformative pour faire progresser l'IA incarnée dans des espaces imaginaires et ouvre la voie à l'extension de ces capacités à l'exploration du monde réel.
Le remarquable succès des Grands Modèles de Langage (GML) s'est étendu au domaine multimodal, atteignant des performances exceptionnelles dans la compréhension et la génération d'images. Les récents efforts pour développer des Grands Modèles de Langage Multimodaux Unifiés (GMLMU) qui intègrent ces capacités ont montré des résultats prometteurs. Cependant, les approches existantes impliquent souvent des conceptions complexes dans l'architecture du modèle ou le pipeline d'entraînement, augmentant la difficulté de l'entraînement et de l'échelle du modèle. Dans cet article, nous proposons SynerGen-VL, un GMLMU simple mais puissant, sans encodeur, capable à la fois de comprendre et de générer des images. Pour relever les défis identifiés dans les GMLMU unifiés existants sans encodeur, nous introduisons le mécanisme de pliage de jetons et la stratégie d'entraînement préalable à l'alignement progressif basée sur des experts en vision, qui soutiennent efficacement la compréhension d'images haute résolution tout en réduisant la complexité de l'entraînement. Après avoir été entraîné sur des données mixtes texte-image à grande échelle avec un objectif unifié de prédiction du prochain jeton, SynerGen-VL atteint ou dépasse les performances des GMLMU unifiés existants sans encodeur avec des tailles de paramètres comparables ou plus petites, et réduit l'écart avec les modèles de pointe spécifiques à la tâche, soulignant un chemin prometteur vers les futurs GMLMU unifiés. Notre code et nos modèles seront publiés.
À mesure que l'IA continue de progresser, il y a une demande croissante pour des systèmes allant au-delà de l'assistance basée sur le langage et se dirigeant vers des agents intelligents capables d'effectuer des actions dans le monde réel. Cette évolution nécessite la transition des modèles linguistiques traditionnels de grande taille (LLMs), qui excellent dans la génération de réponses textuelles, vers les modèles d'actions de grande taille (LAMs), conçus pour la génération et l'exécution d'actions dans des environnements dynamiques. Grâce aux systèmes d'agents, les LAMs ont le potentiel de transformer l'IA, passant d'une compréhension passive du langage à l'accomplissement actif de tâches, marquant ainsi une étape importante dans la progression vers une intelligence artificielle générale. Dans cet article, nous présentons un cadre complet pour le développement des LAMs, offrant une approche systématique de leur création, de l'initiation au déploiement. Nous commençons par une vue d'ensemble des LAMs, mettant en évidence leurs caractéristiques uniques et délimitant leurs différences par rapport aux LLMs. En utilisant un agent basé sur le système d'exploitation Windows comme étude de cas, nous fournissons un guide détaillé, étape par étape, sur les principales étapes du développement des LAMs, comprenant la collecte de données, l'entraînement du modèle, l'intégration de l'environnement, l'ancrage et l'évaluation. Ce flux de travail généralisable peut servir de modèle pour la création de LAMs fonctionnels dans divers domaines d'application. Nous concluons en identifiant les limitations actuelles des LAMs et en discutant des orientations pour les futures recherches et le déploiement industriel, en mettant l'accent sur les défis et les opportunités à venir pour réaliser pleinement le potentiel des LAMs dans des applications du monde réel. Le code du processus de collecte de données utilisé dans cet article est disponible publiquement sur : https://github.com/microsoft/UFO/tree/main/dataflow, et une documentation complète peut être trouvée sur https://microsoft.github.io/UFO/dataflow/overview/.
Cet article présente BiMediX2, un modèle multimodal large d'expertise biomédicale bilingue (arabe-anglais) avec une architecture unifiée qui intègre les modalités textuelles et visuelles, permettant une compréhension avancée des images et des applications médicales. BiMediX2 exploite l'architecture Llama3.1 et intègre les capacités textuelles et visuelles pour faciliter les interactions fluides en anglais et en arabe, prenant en charge les entrées basées sur le texte et les conversations multi-tours impliquant des images médicales. Le modèle est entraîné sur un vaste ensemble de données bilingues en santé composé de 1,6 million d'échantillons d'interactions médicales diverses pour les modalités textuelles et d'image, mélangées en arabe et en anglais. Nous proposons également le premier banc d'essai médical bilingue basé sur GPT-4o nommé BiMed-MBench. BiMediX2 est évalué sur des tâches basées sur le texte et l'image, atteignant des performances de pointe sur plusieurs bancs d'essai médicaux. Il surpasse les modèles récents de pointe dans les bancs d'essai d'évaluation des LMM médicaux. Notre modèle établit également une nouvelle référence dans les évaluations médicales multimodales avec plus de 9 % d'amélioration en anglais et plus de 20 % en arabe. De plus, il dépasse GPT-4 d'environ 9 % dans les évaluations de précision factuelle UPHILL et excelle dans diverses tâches de réponse à des questions visuelles médicales, de génération de rapports et de résumé de rapports. La page du projet, comprenant le code source et le modèle entraîné, est disponible sur https://github.com/mbzuai-oryx/BiMediX2.
Les modèles de diffusion visuelle réalisent des progrès remarquables, mais ils sont généralement entraînés à des résolutions limitées en raison du manque de données haute résolution et de ressources de calcul limitées, ce qui entrave leur capacité à générer des images ou des vidéos de haute qualité à des résolutions plus élevées. Des efforts récents ont exploré des stratégies sans réglage pour exploiter le potentiel inexploité de la génération visuelle à haute résolution des modèles pré-entraînés. Cependant, ces méthodes sont encore susceptibles de produire un contenu visuel de mauvaise qualité avec des motifs répétitifs. L'obstacle clé réside dans l'augmentation inévitable des informations haute fréquence lorsque le modèle génère un contenu visuel dépassant sa résolution d'entraînement, entraînant des motifs répétitifs indésirables résultant des erreurs accumulées. Pour relever ce défi, nous proposons FreeScale, un paradigme d'inférence sans réglage pour permettre la génération visuelle à haute résolution via la fusion d'échelle. Plus précisément, FreeScale traite les informations de différentes échelles réceptives, puis les fusionne en extrayant les composantes de fréquence souhaitées. Des expériences approfondies valident la supériorité de notre paradigme dans l'extension des capacités de génération visuelle à haute résolution pour les modèles d'images et de vidéos. Notamment, par rapport à la méthode précédente la plus performante, FreeScale débloque pour la première fois la génération d'images en résolution 8k.
Nous explorons l'utilisation de la Quantification Vectorielle Résiduelle (QVR) pour la génération haute fidélité dans les modèles génératifs quantifiés par vecteur. Cette technique de quantification maintient une fidélité de données plus élevée en utilisant des jetons plus approfondis. Cependant, augmenter le nombre de jetons dans les modèles génératifs entraîne des vitesses d'inférence plus lentes. À cette fin, nous introduisons ResGen, un modèle de diffusion discret efficace basé sur la QVR qui génère des échantillons haute fidélité sans compromettre la vitesse d'échantillonnage. Notre idée clé est une prédiction directe de l'incorporation vectorielle des jetons collectifs plutôt que individuels. De plus, nous démontrons que notre méthode de masquage de jetons proposée et de prédiction multi-jetons peut être formulée dans un cadre probabiliste fondé sur un processus de diffusion discret et une inférence variationnelle. Nous validons l'efficacité et la généralisabilité de la méthode proposée sur deux tâches difficiles à travers différentes modalités : génération d'images conditionnelles sur ImageNet 256x256 et synthèse de texte en parole sans apprentissage préalable. Les résultats expérimentaux montrent que ResGen surpasse les homologues autorégressifs dans les deux tâches, offrant des performances supérieures sans compromettre la vitesse d'échantillonnage. De plus, à mesure que nous augmentons la profondeur de la QVR, nos modèles génératifs présentent une fidélité de génération améliorée ou des vitesses d'échantillonnage plus rapides par rapport à des modèles de référence de taille similaire. La page du projet est disponible sur https://resgen-genai.github.io
La génération de vidéos à partir de texte a évolué rapidement ces dernières années, offrant des résultats remarquables. L'entraînement repose généralement sur des données appariées texte-vidéo, qui jouent un rôle crucial dans l'amélioration des performances de génération. Cependant, les légendes vidéo actuelles souffrent souvent de détails insuffisants, d'hallucinations et d'une représentation des mouvements imprécise, ce qui affecte la fidélité et la cohérence des vidéos générées. Dans ce travail, nous proposons un nouveau cadre de légendes structurées conscient des instances, appelé InstanceCap, pour parvenir pour la première fois à des légendes vidéo au niveau de l'instance et détaillées. Sur la base de ce schéma, nous concevons un cluster de modèles auxiliaires pour convertir la vidéo d'origine en instances afin d'améliorer la fidélité des instances. Les instances vidéo sont ensuite utilisées pour affiner des indications denses en phrases structurées, permettant d'obtenir des descriptions concises mais précises. De plus, un ensemble de données InstanceVid de 22K est élaboré pour l'entraînement, et un pipeline d'amélioration adapté à la structure d'InstanceCap est proposé pour l'inférence. Les résultats expérimentaux démontrent que notre InstanceCap proposé surpasse significativement les modèles précédents, garantissant une grande fidélité entre les légendes et les vidéos tout en réduisant les hallucinations.
Cet article présente une méthode sans réglage pour l'insertion d'objets et la génération pilotée par le sujet. La tâche consiste à composer un objet, en fonction de plusieurs vues, dans une scène spécifiée par une image ou un texte. Les méthodes existantes peinent à répondre pleinement aux objectifs exigeants de la tâche : (i) composer de manière transparente l'objet dans la scène avec une pose et un éclairage photoréalistes, et (ii) préserver l'identité de l'objet. Nous émettons l'hypothèse que pour atteindre ces objectifs, une supervision à grande échelle est nécessaire, mais la collecte manuelle de suffisamment de données est tout simplement trop coûteuse. L'observation clé de cet article est que de nombreux objets produits en masse se répètent à travers plusieurs images de vastes ensembles de données non étiquetées, dans des scènes, poses et conditions d'éclairage différentes. Nous utilisons cette observation pour créer une supervision massive en récupérant des ensembles de vues diverses du même objet. Ce jeu de données apparié puissant nous permet d'entraîner une architecture de diffusion texte-vers-image directe pour mapper les descriptions d'objet et de scène vers l'image composée. Nous comparons notre méthode, ObjectMate, avec les méthodes de pointe pour l'insertion d'objets et la génération pilotée par le sujet, en utilisant une ou plusieurs références. Empiriquement, ObjectMate parvient à une préservation d'identité supérieure et une composition plus photoréaliste. Contrairement à de nombreuses autres méthodes multi-références, ObjectMate ne nécessite pas de réglage lent à l'exécution.
Bien que les Flux Rectifiés (ReFlows) avec distillation offrent une méthode prometteuse pour un échantillonnage rapide, leur inversion rapide transforme les images en bruit structuré lors de la récupération, et l'édition qui suit reste non résolue. Cet article présente FireFlow, une approche simple mais efficace en zéro-shot qui hérite de la capacité étonnante des modèles basés sur ReFlow (comme FLUX) en génération tout en étendant ses capacités à l'inversion et à l'édition précises en 8 étapes. Nous démontrons d'abord qu'un solveur numérique soigneusement conçu est essentiel pour l'inversion ReFlow, permettant une inversion et une reconstruction précises avec la précision d'un solveur du second ordre tout en maintenant l'efficacité pratique d'une méthode d'Euler du premier ordre. Ce solveur permet un gain de vitesse de calcul 3 fois plus rapide par rapport aux techniques d'inversion et d'édition ReFlow de pointe, tout en offrant de plus petites erreurs de reconstruction et des résultats d'édition supérieurs en mode sans entraînement. Le code est disponible sur https://github.com/HolmesShuan/FireFlow{cette URL}.
Les LLM à long contexte ont permis de nombreuses applications ultérieures mais ont également introduit des défis significatifs liés à l'efficacité computationnelle et à la mémoire. Pour relever ces défis, des optimisations pour l'inférence à long contexte ont été développées, centrées autour du cache KV. Cependant, les benchmarks existants évaluent souvent en une seule requête, négligeant le cycle de vie complet du cache KV dans une utilisation réelle. Cette lacune est particulièrement critique, car la réutilisation du cache KV est largement adoptée dans les cadres d'inférence des LLM, tels que vLLM et SGLang, ainsi que par les fournisseurs de LLM, y compris OpenAI, Microsoft, Google et Anthropic. Pour combler ce fossé, nous présentons SCBench (SharedContextBench), un benchmark complet pour évaluer les méthodes à long contexte d'un point de vue centré sur le cache KV : 1) génération de cache KV, 2) compression de cache KV, 3) récupération de cache KV, 4) chargement de cache KV. Plus précisément, SCBench utilise des exemples de test avec un contexte partagé, couvrant 12 tâches avec deux modes de contexte partagé, abordant quatre catégories de capacités à long contexte : récupération de chaîne, récupération sémantique, information globale et multi-tâches. Avec cela, nous fournissons une analyse extensive centrée sur le cache KV de huit catégories de solutions à long contexte, incluant les RNN linéaires à portes, les hybrides Mamba-Attention, et des méthodes efficaces telles que l'attention clairsemée, la suppression de cache KV, la quantification, la récupération, le chargement et la compression de requête. L'évaluation est menée sur 8 LLM à long contexte. Nos résultats montrent que les méthodes de mémoire sub-O(n) souffrent dans des scénarios multi-tours, tandis que l'encodage clairsemé avec une mémoire O(n) et une computation de pré-remplissage sub-O(n^2) sont performants de manière robuste. La sparsité dynamique produit des caches KV plus expressifs que les motifs statiques, et la sparsité au niveau des couches dans les architectures hybrides réduit l'utilisation de mémoire avec de bonnes performances. De plus, nous identifions des problèmes de décalage de la distribution d'attention dans des scénarios de génération à long terme. https://aka.ms/SCBench.
La génération de vidéos à partir de texte améliore la création de contenu mais est très intensive en termes de calcul : le coût computationnel des Transformateurs de Diffusion (DiTs) croît de manière quadratique en fonction du nombre de pixels. Cela rend la génération de vidéos de courte durée extrêmement coûteuse, limitant la plupart des modèles existants à la création de vidéos d'une durée de seulement 10 à 20 secondes. Nous proposons un cadre de Génération de Vidéos à partir de Texte à Complexité Linéaire (LinGen) dont le coût croît de manière linéaire en fonction du nombre de pixels. Pour la première fois, LinGen permet la génération de vidéos de haute résolution d'une durée d'une minute sur un seul GPU sans compromettre la qualité. Il remplace le bloc dominant computationnellement et de complexité quadratique, l'auto-attention, par un bloc de complexité linéaire appelé MATE, qui se compose d'une branche MA et d'une branche TE. La branche MA cible les corrélations de courte à longue portée, combinant un bloc bidirectionnel Mamba2 avec notre méthode de réarrangement de jetons, le Balayage Majeur Rotatif, et nos jetons de révision développés pour la génération de vidéos longues. La branche TE est un nouveau bloc d'Attention Swin Temporelle qui se concentre sur les corrélations temporelles entre les jetons adjacents et les jetons de portée moyenne. Le bloc MATE résout le problème de préservation de l'adjacence de Mamba et améliore significativement la cohérence des vidéos générées. Les résultats expérimentaux montrent que LinGen surpasse DiT (avec un taux de réussite de 75,6 %) en termes de qualité vidéo avec une réduction allant jusqu'à 15 fois (11,5 fois) des FLOPs (latence). De plus, à la fois les mesures automatiques et l'évaluation humaine démontrent que notre LinGen-4B offre une qualité vidéo comparable aux modèles de pointe (avec un taux de réussite de 50,5 %, 52,1 %, 49,1 % par rapport à Gen-3, LumaLabs et Kling, respectivement). Cela ouvre la voie à la génération de films d'une durée d'une heure et à la génération de vidéos interactives en temps réel. Nous fournissons des résultats de génération de vidéos de 68 secondes et plus d'exemples sur notre site web du projet : https://lineargen.github.io/.
Les modèles de flux rectifiés se sont imposés comme une approche dominante en matière de génération d'images, mettant en avant des capacités impressionnantes dans la synthèse d'images de haute qualité. Cependant, malgré leur efficacité en matière de génération visuelle, les modèles de flux rectifiés ont souvent du mal avec l'édition désentrelacée d'images. Cette limitation empêche la capacité d'effectuer des modifications précises et spécifiques aux attributs sans affecter les aspects non liés de l'image. Dans cet article, nous présentons FluxSpace, une méthode d'édition d'images agnostique au domaine exploitant un espace de représentation avec la capacité de contrôler la sémantique des images générées par les transformateurs de flux rectifiés, tels que Flux. En exploitant les représentations apprises par les blocs transformateurs au sein des modèles de flux rectifiés, nous proposons un ensemble de représentations sémantiquement interprétables qui permettent une large gamme de tâches d'édition d'images, de l'édition d'images détaillée à la création artistique. Ce travail offre une approche d'édition d'images évolutive et efficace, ainsi que ses capacités de désentrelacement.
La génération de musique multimodale vise à produire de la musique à partir de diverses modalités d'entrée, y compris du texte, des vidéos et des images. Les méthodes existantes utilisent un espace d'incorporation commun pour la fusion multimodale. Malgré leur efficacité dans d'autres modalités, leur application dans la génération de musique multimodale rencontre des défis liés à la rareté des données, à une faible alignement intermodal et à une contrôlabilité limitée. Cet article aborde ces problèmes en utilisant des ponts explicites entre le texte et la musique pour l'alignement multimodal. Nous introduisons une nouvelle méthode appelée Pont Visuel Musique (VMB). Plus précisément, un Modèle de Description Musicale Multimodale convertit les entrées visuelles en descriptions textuelles détaillées pour fournir le pont textuel ; un module de Recherche Musicale à Double Piste qui combine des stratégies de recherche larges et ciblées pour fournir le pont musical et permettre le contrôle de l'utilisateur. Enfin, nous concevons un cadre de Génération de Musique Explicitement Conditionnée pour générer de la musique basée sur les deux ponts. Nous menons des expériences sur des tâches de vidéo-vers-musique, d'image-vers-musique, de texte-vers-musique et de génération de musique contrôlable, ainsi que des expériences sur la contrôlabilité. Les résultats démontrent que le VMB améliore significativement la qualité de la musique, l'alignement de la modalité et la personnalisation par rapport aux méthodes précédentes. Le VMB établit une nouvelle norme pour la génération de musique multimodale interprétable et expressive avec des applications dans divers domaines multimédias. Des démonstrations et du code sont disponibles sur https://github.com/wbs2788/VMB.
L'efficacité des grands modèles de langage (GML) est étroitement liée à la conception des invitations, rendant l'optimisation des invitations essentielle pour améliorer leurs performances sur une large gamme de tâches. De nombreuses approches existantes pour automatiser l'ingénierie des invitations reposent exclusivement sur des retours textuels, affinant les invitations uniquement en fonction des erreurs d'inférence identifiées par de grands GML coûteux en calcul. Malheureusement, les modèles plus petits ont du mal à générer des retours de haute qualité, ce qui entraîne une dépendance totale au jugement des grands GML. De plus, ces méthodes échouent à exploiter des informations plus directes et plus fines, telles que les gradients, en raison de leur fonctionnement purement dans l'espace textuel. À cette fin, nous présentons GReaTer, une nouvelle technique d'optimisation d'invitation qui intègre directement les informations de gradient sur le raisonnement spécifique à la tâche. En utilisant les gradients de perte de tâche, GReaTer permet l'auto-optimisation des invitations pour des modèles de langage open-source et légers sans avoir besoin de GML coûteux en source fermée. Cela permet une optimisation efficace des invitations sans dépendre de GML massifs, comblant ainsi l'écart entre les modèles plus petits et le raisonnement sophistiqué souvent nécessaire pour affiner les invitations. Des évaluations approfondies sur diverses tâches de raisonnement, y compris BBH, GSM8k et FOLIO, démontrent que GReaTer surpasse systématiquement les méthodes d'optimisation d'invitation de pointe précédentes, même celles reposant sur de puissants GML. De plus, les invitations optimisées par GReaTer présentent fréquemment une meilleure transférabilité et, dans certains cas, améliorent les performances des tâches à des niveaux comparables ou dépassant ceux obtenus par de plus grands modèles de langage, mettant en évidence l'efficacité de l'optimisation des invitations guidée par les gradients sur le raisonnement. Le code de GReaTer est disponible sur https://github.com/psunlpgroup/GreaTer.
Nous présentons SmolTulu-1.7b-Instruct, référencé dans ce rapport en tant que SmolTulu-DPO-1130, un modèle de langage ajusté aux instructions qui adapte le pipeline de post-entraînement Tulu 3 d'AllenAI pour améliorer le modèle de base SmolLM2-1.7B de Huggingface. À travers une analyse empirique approfondie en utilisant un modèle de 135 millions de paramètres, nous démontrons que la relation entre le taux d'apprentissage et la taille du lot impacte significativement les performances du modèle de manière dépendante de la tâche. Nos résultats révèlent une division claire : les tâches de raisonnement telles que ARC et GSM8K bénéficient de ratios plus élevés entre le taux d'apprentissage et la taille du lot, tandis que les tâches de reconnaissance de motifs comme HellaSwag et IFEval montrent des performances optimales avec des ratios plus bas. Ces observations ont guidé le développement de SmolTulu, qui atteint des performances de pointe parmi les modèles de moins de 2 milliards de paramètres en matière de suivi des instructions, avec un score de 67,7% sur IFEval (Delta11%), et en raisonnement mathématique avec 51,6% sur GSM8K (Delta3,4%), une version alternative obtenant un score de 57,1% sur ARC (Delta5,4%). Nous mettons à disposition notre modèle, nos recettes d'entraînement et nos études d'ablation pour faciliter de nouvelles recherches sur l'alignement efficace des modèles, démontrant qu'une adaptation minutieuse de la dynamique d'optimisation peut contribuer à combler l'écart de capacité entre les petits et grands modèles de langage.
Bien que les grands modèles vision-langage-action (VLA) pré-entraînés sur de vastes ensembles de données robotiques offrent des politiques généralistes prometteuses pour l'apprentissage robotique, ils rencontrent encore des difficultés avec la dynamique spatiale-temporelle en robotique interactive, les rendant moins efficaces pour gérer des tâches complexes, telles que la manipulation. Dans ce travail, nous introduisons la stimulation visuelle des traces, une approche simple mais efficace pour faciliter la conscience spatiale-temporelle des modèles VLA pour la prédiction d'actions en encodant visuellement les trajectoires état-action. Nous développons un nouveau modèle TraceVLA en affinant OpenVLA sur notre propre ensemble de données collecté de 150K trajectoires de manipulation de robots en utilisant la stimulation visuelle des traces. Les évaluations de TraceVLA sur 137 configurations dans SimplerEnv et 4 tâches sur un robot physique WidowX démontrent des performances de pointe, surpassant OpenVLA de 10% sur SimplerEnv et 3,5 fois sur les tâches de robot réel, et montrant une généralisation robuste à travers diverses incarnations et scénarios. Pour valider davantage l'efficacité et la généralité de notre méthode, nous présentons un modèle VLA compact basé sur 4B Phi-3-Vision, pré-entraîné sur l'Open-X-Embodiment et affiné sur notre ensemble de données, rivalisant avec la référence 7B OpenVLA tout en améliorant significativement l'efficacité de l'inférence.
Les réseaux neuronaux profonds (DNN) offrent un potentiel significatif pour améliorer le diagnostic du cancer du sein en imagerie médicale. Cependant, ces modèles sont très sensibles aux attaques adverses - de petits changements imperceptibles qui peuvent induire en erreur les classificateurs - soulevant des préoccupations critiques quant à leur fiabilité et leur sécurité. Les attaques traditionnelles reposent sur des perturbations à norme fixe, ne correspondant pas à la perception humaine. En revanche, les attaques basées sur la diffusion nécessitent des modèles pré-entraînés, exigeant des données substantielles lorsque ces modèles ne sont pas disponibles, limitant leur utilisation pratique dans des scénarios à faible disponibilité de données. Cependant, dans le domaine de l'imagerie médicale, cela est souvent irréalisable en raison de la disponibilité limitée des ensembles de données. S'appuyant sur les récents progrès en matière de consignes apprenantes, nous proposons Prompt2Perturb (P2P), une nouvelle méthode d'attaque guidée par le langage capable de générer des exemples d'attaque significatifs basés sur des instructions textuelles. Au cours de la phase d'apprentissage de la consigne, notre approche exploite des consignes apprenantes au sein de l'encodeur de texte pour créer des perturbations subtiles mais impactantes qui restent imperceptibles tout en guidant le modèle vers des résultats ciblés. Contrairement aux approches actuelles basées sur l'apprentissage de consignes, notre P2P se distingue en mettant à jour directement les plongements de texte, évitant ainsi la nécessité de ré-entraîner les modèles de diffusion. De plus, nous exploitons la découverte selon laquelle l'optimisation uniquement des premières étapes de diffusion inverse améliore l'efficacité tout en garantissant que les exemples adverses générés intègrent un bruit subtil, préservant ainsi la qualité de l'image échographique sans introduire d'artefacts perceptibles. Nous montrons que notre méthode surpasse les techniques d'attaque de pointe sur trois ensembles de données échographiques du sein en FID et LPIPS. De plus, les images générées sont à la fois plus naturelles en apparence et plus efficaces par rapport aux attaques adverses existantes. Notre code sera publiquement disponible sur https://github.com/yasamin-med/P2P.