MiroThinker-1.7 & H1: Op weg naar robuuste onderzoeksagenten via verificatie
MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
March 16, 2026
Auteurs: MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu
cs.AI
Samenvatting
Wij presenteren MiroThinker-1.7, een nieuwe onderzoeksagent ontworpen voor complexe redeneertaken met een lange horizon. Voortbouwend op deze basis introduceren we verder MiroThinker-H1, dat de agent uitbreidt met zware redeneercapaciteiten voor betrouwbaardere probleemoplossing in meerdere stappen. MiroThinker-1.7 verbetert in het bijzonder de betrouwbaarheid van elke interactiestap via een agent-gebaseerde mid-trainingfase die de nadruk legt op gestructureerde planning, contextueel redeneren en toolinteractie. Dit maakt effectievere multi-step interactie en volgehouden redenering bij complexe taken mogelijk. MiroThinker-H1 integreert verificatie verder direct in het redeneerproces, zowel op lokaal als globaal niveau. Tussentijdse redeneerbeslissingen kunnen tijdens de inferentie worden geëvalueerd en verfijnd, terwijl de algehele redeneertrajectorie wordt geaudit om te waarborgen dat eindantwoorden worden ondersteund door samenhangende bewijsketens. Over benchmarks die open-webonderzoek, wetenschappelijk redeneren en financiële analyse beslaan, behaalt MiroThinker-H1 state-of-the-art prestaties voor diepgaande onderzoektaken, terwijl het sterke resultaten handhaaft in gespecialiseerde domeinen. Wij brengen ook MiroThinker-1.7 en MiroThinker-1.7-mini uit als open-source modellen, die competitieve onderzoeksagent-capaciteiten bieden met aanzienlijk verbeterde efficiëntie.
English
We present MiroThinker-1.7, a new research agent designed for complex long-horizon reasoning tasks. Building on this foundation, we further introduce MiroThinker-H1, which extends the agent with heavy-duty reasoning capabilities for more reliable multi-step problem solving. In particular, MiroThinker-1.7 improves the reliability of each interaction step through an agentic mid-training stage that emphasizes structured planning, contextual reasoning, and tool interaction. This enables more effective multi-step interaction and sustained reasoning across complex tasks. MiroThinker-H1 further incorporates verification directly into the reasoning process at both local and global levels. Intermediate reasoning decisions can be evaluated and refined during inference, while the overall reasoning trajectory is audited to ensure that final answers are supported by coherent chains of evidence. Across benchmarks covering open-web research, scientific reasoning, and financial analysis, MiroThinker-H1 achieves state-of-the-art performance on deep research tasks while maintaining strong results on specialized domains. We also release MiroThinker-1.7 and MiroThinker-1.7-mini as open-source models, providing competitive research-agent capabilities with significantly improved efficiency.