papers.description
Pour dépasser les limites de contexte des grands modèles de langage (LLMs) qui entravent la précision et l'efficacité du raisonnement, nous proposons le Thread Inference Model (TIM), une famille de LLMs entraînés pour la résolution de problèmes récursive et décompositionnelle, ainsi que TIMRUN, un runtime d'inférence permettant un raisonnement structuré à long terme au-delà des limites de contexte. Ensemble, TIM hébergé sur TIMRUN prend en charge une mémoire de travail virtuellement illimitée et des appels d'outils multi-sauts au sein d'une seule inférence de modèle de langage, surmontant les limites de sortie, les contraintes d'encodage positionnel et les goulots d'étranglement de la mémoire GPU. Cette performance est atteinte en modélisant le langage naturel sous forme d'arbres de raisonnement mesurés à la fois par la longueur et la profondeur, plutôt que par des séquences linéaires. Les arbres de raisonnement sont composés de tâches avec des pensées, des sous-tâches récursives et des conclusions basées sur le concept que nous avons proposé dans Schroeder et al, 2025. Pendant la génération, nous maintenons une mémoire de travail qui ne conserve que les états clé-valeur des tokens de contexte les plus pertinents, sélectionnés par un mécanisme d'élagage de sous-tâches basé sur des règles, permettant la réutilisation des encodages positionnels et des pages de mémoire GPU tout au long du raisonnement. Les résultats expérimentaux montrent que notre système maintient un débit d'inférence élevé, même lors de la manipulation de jusqu'à 90 % du cache KV en mémoire GPU. Il offre également un raisonnement précis sur des tâches mathématiques et gère les défis de recherche d'information nécessitant un raisonnement à long terme et l'utilisation d'outils multi-sauts.
Cet article présente Step-Audio~2, un modèle de langage multimodal de bout en bout conçu pour la compréhension audio et les conversations vocales à l'échelle industrielle. En intégrant un encodeur audio latent et un apprentissage par renforcement (RL) axé sur le raisonnement, Step-Audio 2 obtient des performances prometteuses en reconnaissance automatique de la parole (ASR) et en compréhension audio. Pour faciliter des conversations vocales véritablement de bout en bout, Step-Audio 2 intègre la génération de tokens audio discrets dans la modélisation du langage, améliorant ainsi considérablement sa réactivité aux informations paralinguistiques telles que les styles de parole et les émotions. Pour exploiter efficacement les riches connaissances textuelles et acoustiques des données du monde réel, Step-Audio 2 intègre une génération augmentée par récupération (RAG) et est capable d'utiliser des outils externes tels que la recherche web pour atténuer les hallucinations et la recherche audio pour changer les timbres. Entraîné sur des millions d'heures de données vocales et audio, Step-Audio 2 offre intelligence et expressivité dans divers scénarios conversationnels. Les résultats d'évaluation montrent que Step-Audio 2 atteint des performances de pointe sur divers benchmarks de compréhension audio et conversationnelle par rapport à d'autres solutions open-source et commerciales. Pour plus d'informations, veuillez visiter https://github.com/stepfun-ai/Step-Audio2.
Le raisonnement scientifique est essentiel pour développer des IA scientifiques et soutenir les chercheurs humains dans l'exploration des frontières de la découverte en sciences naturelles. Cependant, la communauté open source s'est principalement concentrée sur les mathématiques et la programmation, tout en négligeant le domaine scientifique, en grande partie en raison de l'absence de jeux de données ouverts, à grande échelle, de haute qualité et vérifiables pour le raisonnement scientifique. Pour combler cette lacune, nous présentons d'abord TextbookReasoning, un jeu de données ouvert comprenant des réponses de référence exactes extraites de 12 000 manuels scientifiques universitaires, avec 650 000 questions de raisonnement couvrant 7 disciplines scientifiques. Nous introduisons également MegaScience, un mélange à grande échelle de jeux de données open source de haute qualité totalisant 1,25 million d'instances, développé grâce à des études d'ablation systématiques évaluant diverses méthodologies de sélection des données pour identifier le sous-ensemble optimal pour chaque jeu de données scientifique disponible publiquement. Parallèlement, nous construisons un système d'évaluation complet couvrant divers sujets et types de questions à travers 15 benchmarks, intégrant des stratégies d'extraction de réponses exhaustives pour garantir des métriques d'évaluation précises. Nos expériences démontrent que nos jeux de données atteignent des performances supérieures et une efficacité d'entraînement accrue avec des longueurs de réponse plus concises par rapport aux jeux de données scientifiques open source existants. De plus, nous entraînons les modèles de base Llama3.1, Qwen2.5 et Qwen3 sur MegaScience, qui surpassent significativement les modèles instruct officiels correspondants en termes de performance moyenne. Par ailleurs, MegaScience montre une plus grande efficacité pour les modèles plus grands et plus puissants, suggérant un avantage de mise à l'échelle pour l'ajustement scientifique. Nous mettons à disposition notre pipeline de curation de données, notre système d'évaluation, nos jeux de données et sept modèles entraînés à la communauté pour faire progresser la recherche en raisonnement scientifique.
Les tâches de raisonnement vision-langage-action (VLA) exigent des agents qu'ils interprètent des instructions multimodales, planifient sur un horizon temporel étendu et agissent de manière adaptative dans des environnements dynamiques. Les approches existantes entraînent généralement les modèles VLA de manière end-to-end, mappant directement les entrées aux actions sans raisonnement explicite, ce qui limite leur capacité à planifier sur plusieurs étapes ou à s'adapter à des variations complexes de tâches. Dans cet article, nous proposons ThinkAct, un cadre à double système qui relie le raisonnement de haut niveau à l'exécution d'actions de bas niveau via une planification latente visuelle renforcée. ThinkAct entraîne un modèle de langage multimodal (LLM) à générer des plans de raisonnement incarnés guidés par des récompenses visuelles alignées sur les actions, basées sur l'achèvement des objectifs et la cohérence des trajectoires. Ces plans de raisonnement sont compressés en un latent de plan visuel qui conditionne un modèle d'action en aval pour une exécution robuste des actions dans les environnements cibles. Des expériences approfondies sur des benchmarks de raisonnement incarné et de manipulation robotique démontrent que ThinkAct permet une adaptation en few-shot, une planification à long terme et des comportements d'auto-correction dans des tâches complexes d'IA incarnée.
Les transformateurs de diffusion sont apparus comme une alternative aux modèles de diffusion basés sur U-Net pour la génération d'images et de vidéos haute fidélité, offrant une meilleure scalabilité. Cependant, leur lourdeur computationnelle reste un obstacle majeur à leur déploiement dans des applications réelles. Les méthodes d'accélération existantes exploitent principalement la dimension temporelle, comme la réutilisation de caractéristiques mises en cache à travers les étapes de diffusion. Ici, nous proposons le suréchantillonnage latent adaptatif par région (RALU), un cadre sans apprentissage qui accélère l'inférence le long de la dimension spatiale. RALU effectue un échantillonnage à résolution mixte en trois étapes : 1) une diffusion latente de débruitage à basse résolution pour capturer efficacement la structure sémantique globale, 2) un suréchantillonnage adaptatif par région sur les zones sujettes à des artefacts en pleine résolution, et 3) un suréchantillonnage latent complet en pleine résolution pour l'affinement des détails. Pour stabiliser les générations lors des transitions de résolution, nous utilisons une reprogrammation du niveau de bruit en fonction du temps pour adapter le bruit à différentes résolutions. Notre méthode réduit significativement les calculs tout en préservant la qualité de l'image, permettant une accélération jusqu'à 7,0 fois sur FLUX et 3,0 fois sur Stable Diffusion 3 avec une dégradation minimale. De plus, RALU est complémentaire aux accélérations temporelles existantes, comme les méthodes de mise en cache, et peut donc être intégré de manière transparente pour réduire davantage la latence d'inférence sans compromettre la qualité de la génération.
Les humains utilisent souvent des aides visuelles, comme des diagrammes ou des croquis, pour résoudre des problèmes complexes. Entraîner des modèles multimodaux à faire de même, ce qu'on appelle le Raisonnement en Chaîne Visuel (Visual Chain of Thought ou Visual CoT), est un défi en raison de : (1) la faible performance des modèles de Visual CoT prêts à l'emploi, ce qui entrave l'apprentissage par renforcement, et (2) le manque de données d'entraînement de haute qualité pour le Visual CoT. Nous présentons Zebra-CoT, un ensemble de données diversifié et à grande échelle comprenant 182 384 échantillons, contenant des traces de raisonnement entrelacées texte-image logiquement cohérentes. Nous nous concentrons sur quatre catégories de tâches où l'esquisse ou le raisonnement visuel est particulièrement naturel, couvrant des questions scientifiques telles que la géométrie, la physique et les algorithmes ; des tâches de raisonnement visuel 2D comme la recherche visuelle et les puzzles ; des tâches de raisonnement 3D incluant l'inférence multi-sauts en 3D, la planification incarnée et robotique ; des problèmes de logique visuelle et des jeux stratégiques comme les échecs. Le fine-tuning du modèle Anole-7B sur le corpus d'entraînement Zebra-CoT entraîne une amélioration de +12 % sur la précision de notre ensemble de test et un gain de performance allant jusqu'à +13 % sur les évaluations de référence standard des modèles de langage visuel (VLM). Le fine-tuning de Bagel-7B produit un modèle générant des chaînes de raisonnement visuel entrelacées de haute qualité, soulignant l'efficacité de Zebra-CoT pour développer des capacités de raisonnement multimodal. Nous mettons à disposition en open source notre ensemble de données et nos modèles pour soutenir le développement et l'évaluation du Visual CoT.
L'amélioration des grands modèles vision-langage (LVLMs) grâce à un raisonnement visuel de type "pensée lente" est cruciale pour résoudre des tâches multimodales complexes. Cependant, comme les LVLMs sont principalement entraînés pour l'alignement vision-langage, il est difficile d'adopter l'apprentissage par renforcement (RL) on-policy pour développer cette capacité de pensée lente, car l'espace de déploiement est limité par leurs capacités initiales. Le RL off-policy offre une manière de dépasser la politique actuelle, mais la distillation directe de trajectoires à partir de modèles externes peut entraîner des hallucinations visuelles en raison de capacités de perception visuelle mal alignées entre les modèles. Pour résoudre ces problèmes, cet article propose SOPHIA, une méthode simple et évolutive de RL Semi-Off-Policy pour le raisonnement visuel-langage de type pensée lente. SOPHIA construit un modèle de comportement semi-off-policy en combinant la compréhension visuelle on-policy d'un LVLM entraînable avec le raisonnement de pensée lente off-policy d'un modèle de langage, attribue des récompenses basées sur les résultats au raisonnement, et propage les récompenses visuelles en arrière. Ensuite, le LVLM apprend la capacité de raisonnement de pensée lente à partir des trajectoires de raisonnement obtenues en utilisant les récompenses propagées via des algorithmes de RL off-policy. Des expériences approfondies avec InternVL2.5 et InternVL3.0 de tailles 8B et 38B montrent l'efficacité de SOPHIA. Notamment, SOPHIA améliore InternVL3.0-38B de 8,50 % en moyenne, atteignant des performances de pointe parmi les LVLMs open-source sur plusieurs benchmarks de raisonnement multimodal, et surpasse même certains modèles propriétaires (par exemple, GPT-4.1) sur les défis difficiles de MathVision et OlympiadBench, avec des précisions pass@1 de 49,08 % et 49,95 %, respectivement. L'analyse montre que SOPHIA surpasse le fine-tuning supervisé et les méthodes de RL on-policy directes, offrant une meilleure initialisation de politique pour un entraînement on-policy ultérieur.
Les modèles vision-langage (VLMs) ont été largement adoptés en robotique pour permettre une planification autonome. Cependant, l'ancrage des VLMs, initialement entraînés sur des données issues d'Internet, à des robots réels et diversifiés reste un défi. Cet article présente ExpTeach, un cadre qui ancre les VLMs à des robots physiques en construisant une mémoire auto-générée d'expériences du monde réel. Dans ExpTeach, le VLM planifie de manière autonome des actions, vérifie les résultats, réfléchit aux échecs et adapte les comportements du robot en boucle fermée. Les expériences auto-générées au cours de ce processus sont ensuite résumées dans une mémoire à long terme, permettant la récupération des connaissances acquises pour guider les tâches futures via la génération augmentée par récupération (RAG). De plus, ExpTeach améliore la compréhension spatiale des VLMs grâce à un module d'annotation d'images à la demande. Dans les expériences, nous montrons que la réflexion améliore les taux de réussite de 36 % à 84 % sur quatre tâches robotiques complexes et observons l'émergence d'interactions intelligentes avec les objets, y compris l'utilisation créative d'outils. À travers des tests approfondis sur 12 scénarios réels (dont huit inédits), nous constatons que l'ancrage avec une mémoire à long terme augmente les taux de réussite en un seul essai de 22 % à 80 %, démontrant ainsi l'efficacité et la généralisabilité d'ExpTeach.
Avec l'avancée rapide des modèles de langage à grande échelle (LLMs), le développement de modules critiques efficaces pour un guidage précis est devenu crucial mais également complexe. Dans cet article, nous démontrons d'abord que le fine-tuning supervisé pour construire des modules critiques (largement adopté dans les solutions actuelles) échoue à véritablement améliorer les capacités de critique des modèles, produisant des évaluations superficielles avec des réflexions et vérifications insuffisantes. Pour débloquer des capacités de critique sans précédent, nous proposons RefCritic, un module critique basé sur une chaîne de pensée étendue et sur l'apprentissage par renforcement avec des récompenses duales basées sur des règles : (1) la justesse au niveau des instances dans les jugements de solutions et (2) les précisions de raffinement du modèle de politique basées sur les critiques, visant à générer des évaluations de haute qualité avec des retours actionnables qui guident efficacement le raffinement du modèle. Nous évaluons RefCritic sur Qwen2.5-14B-Instruct et DeepSeek-R1-Distill-Qwen-14B à travers cinq benchmarks. Dans les configurations de critique et de raffinement, RefCritic démontre des avantages constants sur tous les benchmarks, par exemple, des gains de 6,8 % et 7,2 % sur AIME25 pour les modèles de base respectifs. Notamment, sous un vote majoritaire, les modèles de politique filtrés par RefCritic montrent une meilleure scalabilité avec l'augmentation du nombre de votes. De plus, malgré un entraînement sur une supervision au niveau des solutions, RefCritic surpasse les approches supervisées au niveau des étapes sur ProcessBench, un benchmark conçu pour identifier les étapes erronées dans le raisonnement mathématique.
Bien que les méthodes existantes de composition guidée par l'image puissent aider à insérer un objet au premier plan dans une région spécifiée par l'utilisateur d'une image de fond, en réalisant un mélange naturel à l'intérieur de la région tout en laissant le reste de l'image inchangé, nous observons que ces méthodes existantes peinent souvent à synthétiser des compositions fluides et conscientes des interactions lorsque la tâche implique des interactions humain-objet. Dans cet article, nous proposons d'abord HOComp, une nouvelle approche pour composer un objet au premier plan sur une image de fond centrée sur l'humain, tout en assurant des interactions harmonieuses entre l'objet au premier plan et la personne en arrière-plan, ainsi que des apparences cohérentes. Notre approche comprend deux conceptions clés : (1) le Guidage de Pose Basé sur la Région Piloté par les MLLMs (MRPG), qui utilise les MLLMs pour identifier la région d'interaction ainsi que le type d'interaction (par exemple, tenir et soulever) afin de fournir des contraintes allant du grossier au fin pour la pose générée pour l'interaction, tout en incorporant des repères de pose humaine pour suivre les variations d'action et imposer des contraintes de pose fines ; et (2) la Préservation d'Apparence Cohérente des Détails (DCAP), qui unifie un mécanisme de modulation d'attention conscient de la forme, une perte d'apparence multi-vue et une perte de cohérence de l'arrière-plan pour assurer des formes/textures cohérentes de l'objet au premier plan et une reproduction fidèle de la personne en arrière-plan. Nous proposons ensuite le premier ensemble de données, nommé Composition Humain-Objet Consciente des Interactions (IHOC), pour cette tâche. Les résultats expérimentaux sur notre ensemble de données montrent que HOComp génère efficacement des interactions humain-objet harmonieuses avec des apparences cohérentes, et surpasse qualitativement et quantitativement les méthodes pertinentes.
Les récents progrès dans les modèles de langage de grande taille (LLMs) ont ouvert de nouvelles opportunités pour la recherche de littérature académique. Cependant, les systèmes existants reposent souvent sur des pipelines rigides et présentent des capacités de raisonnement limitées. Nous présentons SPAR, un cadre multi-agent qui intègre une décomposition de requêtes basée sur RefChain et une évolution de requêtes pour permettre une recherche plus flexible et efficace. Pour faciliter une évaluation systématique, nous construisons également SPARBench, un benchmark exigeant avec des étiquettes de pertinence annotées par des experts. Les résultats expérimentaux démontrent que SPAR surpasse significativement les bases de référence solides, atteignant jusqu'à +56 % de F1 sur AutoScholar et +23 % de F1 sur SPARBench par rapport à la meilleure base de référence. Ensemble, SPAR et SPARBench fournissent une base évolutive, interprétable et performante pour faire progresser la recherche dans le domaine de la recherche académique. Le code et les données seront disponibles à l'adresse suivante : https://github.com/xiaofengShi/SPAR.
La quantification est une technique clé pour réduire la taille des réseaux et leur complexité computationnelle en représentant les paramètres du réseau avec une précision inférieure. Les méthodes de quantification traditionnelles reposent sur l'accès aux données d'entraînement originales, qui sont souvent restreintes en raison de préoccupations liées à la confidentialité ou à des défis de sécurité. La Quantification Zero-Shot (ZSQ) aborde ce problème en utilisant des données synthétiques générées à partir de modèles pré-entraînés, éliminant ainsi le besoin de données d'entraînement réelles. Récemment, la ZSQ a été étendue à la détection d'objets. Cependant, les méthodes existantes utilisent des images synthétiques non étiquetées et indépendantes de la tâche, qui manquent des informations spécifiques nécessaires à la détection d'objets, ce qui entraîne des performances sous-optimales. Dans cet article, nous proposons un nouveau cadre ZSQ spécifique à la tâche pour les réseaux de détection d'objets, qui se compose de deux étapes principales. Premièrement, nous introduisons une stratégie d'échantillonnage de boîtes englobantes et de catégories pour synthétiser un ensemble de calibration spécifique à la tâche à partir du réseau pré-entraîné, reconstruisant ainsi les emplacements, les tailles et les distributions de catégories des objets sans aucune connaissance préalable. Deuxièmement, nous intégrons un entraînement spécifique à la tâche dans le processus de distillation de connaissances pour restaurer les performances des réseaux de détection quantifiés. Des expériences approfondies menées sur les ensembles de données MS-COCO et Pascal VOC démontrent l'efficacité et les performances de pointe de notre méthode. Notre code est disponible publiquement à l'adresse suivante : https://github.com/DFQ-Dojo/dfq-toolkit.
La personnalisation des systèmes d'IA nécessite de comprendre non seulement les préférences des utilisateurs, mais aussi les raisons sous-jacentes à ces préférences - pourtant, les modèles de préférences actuels traitent généralement le jugement humain comme une boîte noire. Nous présentons PrefPalette, un cadre qui décompose les préférences en dimensions d'attributs et adapte sa prédiction des préférences aux valeurs distinctes des communautés sociales de manière interprétable par l'homme. PrefPalette opérationnalise un principe des sciences cognitives connu sous le nom de prise de décision multi-attributs de deux manières : (1) une étape de synthèse d'attributs contrefactuels scalable qui implique la génération de données d'entraînement synthétiques pour isoler les effets des attributs individuels (par exemple, la formalité, l'humour, les valeurs culturelles), et (2) une modélisation des préférences basée sur l'attention qui apprend comment différentes communautés sociales pondèrent dynamiquement ces attributs. Cette approche va au-delà de la modélisation agrégée des préférences pour capturer les divers cadres d'évaluation qui guident le jugement humain. Lorsqu'elle est évaluée sur 45 communautés sociales de la plateforme en ligne Reddit, PrefPalette surpasse GPT-4o de 46,6 % en précision moyenne de prédiction. Au-delà des améliorations prédictives brutes, PrefPalette a également mis en lumière des profils intuitifs spécifiques aux communautés : les communautés académiques privilégient la verbosité et la stimulation, les communautés axées sur les conflits valorisent le sarcasme et la directivité, et les communautés de soutien mettent l'accent sur l'empathie. En modélisant la structure médiée par les attributs du jugement humain, PrefPalette offre à la fois une modélisation supérieure des préférences et des insights transparents et interprétables, et constitue une première étape vers des applications personnalisées plus fiables et conscientes des valeurs.
La méthode 3D Gaussian Splatting est reconnue pour ses reconstructions haute fidélité et sa synthèse de nouvelles vues en temps réel, mais son manque de compréhension sémantique limite la perception au niveau des objets. Dans ce travail, nous proposons ObjectGS, un cadre orienté objet qui unifie la reconstruction de scènes 3D avec la compréhension sémantique. Plutôt que de traiter la scène comme un tout unifié, ObjectGS modélise les objets individuels comme des ancres locales qui génèrent des Gaussiennes neuronales et partagent des identifiants d'objet, permettant une reconstruction précise au niveau des objets. Pendant l'entraînement, nous faisons croître ou élaguons dynamiquement ces ancres et optimisons leurs caractéristiques, tandis qu'un encodage d'identifiant one-hot avec une perte de classification impose des contraintes sémantiques claires. Nous démontrons à travers des expériences approfondies qu'ObjectGS surpasse non seulement les méthodes de pointe dans les tâches de segmentation ouverte et panoptique, mais s'intègre également de manière transparente avec des applications comme l'extraction de maillages et l'édition de scènes. Page du projet : https://ruijiezhu94.github.io/ObjectGS_page
Récemment, Zaremba et al. ont démontré qu'augmenter le calcul au moment de l'inférence améliore la robustesse des grands modèles de langage (LLM) propriétaires spécialisés dans le raisonnement. Dans cet article, nous montrons d'abord que des modèles open-source à plus petite échelle (par exemple, DeepSeek R1, Qwen3, Phi-reasoning) peuvent également bénéficier d'une mise à l'échelle au moment de l'inférence grâce à une simple stratégie de forçage budgétaire. Plus important encore, nous révélons et examinons de manière critique une hypothèse implicite dans les travaux antérieurs : les étapes intermédiaires du raisonnement sont cachées aux adversaires. En relâchant cette hypothèse, nous identifions un risque de sécurité majeur, intuitivement motivé et empiriquement vérifié comme une loi d'échelle inverse : si les étapes intermédiaires du raisonnement deviennent explicitement accessibles, l'augmentation du calcul au moment de l'inférence réduit systématiquement la robustesse du modèle. Enfin, nous discutons des scénarios pratiques où les modèles avec des chaînes de raisonnement cachées restent vulnérables aux attaques, tels que les modèles intégrant des outils de raisonnement et les attaques avancées d'extraction de raisonnement. Nos résultats démontrent collectivement que les avantages de robustesse liés à la mise à l'échelle au moment de l'inférence dépendent fortement du contexte d'attaque et de déploiement. Nous exhortons les praticiens à peser soigneusement ces compromis subtils avant d'appliquer la mise à l'échelle au moment de l'inférence dans des applications réelles sensibles à la sécurité.
Le réglage fin des grands modèles de langage (LLMs) peut entraîner une généralisation involontaire hors distribution. Les approches standard pour résoudre ce problème reposent sur la modification des données d'entraînement, par exemple en ajoutant des données qui spécifient mieux la généralisation souhaitée. Cependant, cela n'est pas toujours pratique. Nous introduisons le Concept Ablation Fine-Tuning (CAFT), une technique qui exploite des outils d'interprétabilité pour contrôler la manière dont les LLMs généralisent à partir du réglage fin, sans avoir besoin de modifier les données d'entraînement ou d'utiliser des données de la distribution cible. Étant donné un ensemble de directions dans l'espace latent d'un LLM correspondant à des concepts indésirables, CAFT fonctionne en ablatant ces concepts à l'aide de projections linéaires pendant le réglage fin, orientant ainsi le modèle loin des généralisations non souhaitées. Nous appliquons avec succès CAFT à trois tâches de réglage fin, y compris le désalignement émergent, un phénomène où les LLMs réglés finement sur une tâche étroite généralisent pour donner des réponses gravement désalignées à des questions générales. Sans aucune modification des données de réglage fin, CAFT réduit les réponses désalignées par un facteur de 10 sans dégrader les performances sur la distribution d'entraînement. Globalement, CAFT représente une nouvelle approche pour orienter la généralisation des LLMs sans modifier les données d'entraînement.