AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

OS-Genesis: Automatiseren van de constructie van GUI-agenttrajecten via omgekeerde taaksynthese
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Grafische gebruikersinterface (GUI) agenten aangedreven door Visie-Taal Modellen (VLM's) hebben mensachtige computeraansturingscapaciteiten aangetoond. Ondanks hun nut bij het bevorderen van digitale automatisering, blijft een kritieke bottleneck bestaan: het verzamelen van hoogwaardige trajectdata voor training. Gangbare praktijken voor het verzamelen van dergelijke data vertrouwen op menselijk toezicht of synthetische data generatie door het uitvoeren van vooraf gedefinieerde taken, die ofwel veel middelen vergen of niet in staat zijn om de datakwaliteit te garanderen. Bovendien kampen deze methoden met beperkte data diversiteit en aanzienlijke discrepanties tussen synthetische data en echte omgevingen. Om deze uitdagingen aan te pakken, stellen wij OS-Genesis voor, een nieuw GUI data synthese proces dat het conventionele trajectverzamelingsproces omkeert. In plaats van te vertrouwen op vooraf gedefinieerde taken, stelt OS-Genesis agenten in staat om eerst omgevingen waar te nemen en stapsgewijze interacties uit te voeren, om vervolgens retrospectief hoogwaardige taken af te leiden om trajectniveau verkenning mogelijk te maken. Een trajectbeloningsmodel wordt vervolgens ingezet om de kwaliteit van de gegenereerde trajecten te waarborgen. We tonen aan dat het trainen van GUI agenten met OS-Genesis aanzienlijk hun prestaties verbetert op zeer uitdagende online benchmarks. Diepgaande analyse bevestigt verder de efficiëntie van OS-Genesis en de superieure datakwaliteit en diversiteit in vergelijking met bestaande synthese methoden. Onze codes, data en checkpoints zijn beschikbaar op https://qiushisun.github.io/OS-Genesis-Home/{OS-Genesis Homepage}.

Technisch Rapport Xmodel-2
Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Xmodel-2 is een taalmodel met 1,2 miljard parameters dat specifiek is ontworpen voor redeneertaken. De architectuur maakt het mogelijk dat verschillende modelgroottes een gemeenschappelijke set hyperparameters delen, waardoor uitgebreid geëxperimenteerd kan worden met kleinere modellen en optimale configuraties naadloos kunnen worden overgedragen naar grotere modellen. Om de trainings-efficiëntie en stabiliteit te maximaliseren, maakt Xmodel-2 gebruik van de WSD leersnelheidsscheduler van MiniCPM. Voorgetraind op 1,5 biljoen tokens uit diverse bronnen, behaalt Xmodel-2 state-of-the-art prestaties in complexe redeneer- en agent-gebaseerde taken, terwijl de trainingskosten laag blijven. Deze resultaten benadrukken het potentieel van efficiënt modelontwerp en trainingsstrategieën bij het bevorderen van redeneervermogens. Model checkpoints en code zijn openbaar beschikbaar op GitHub op https://github.com/XiaoduoAILab/Xmodel-2

Begrijpen Vision-Language modellen echt Multi-vision sensoren?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

Grote Vision-Language Modellen (VLM's) hebben zich ontwikkeld door visuele invoer te aligneren met tekst, wat de prestaties bij computervisietaken aanzienlijk verbetert. Bovendien is voor effectief gebruik van VLM's in praktische toepassingen een begrip van diverse multi-vision sensorgegevens, zoals thermische, diepte- en röntgeninformatie, essentieel. We merken echter op dat huidige VLM's multi-vision sensorafbeeldingen verwerken zonder diepgaand begrip van sensorinformatie, waarbij de unieke fysieke eigenschappen van elke sensor worden genegeerd. Deze beperking belemmert hun vermogen om complexe vragen die multi-vision sensorredenering vereisen, te interpreteren en erop te reageren. Om dit aan te pakken, stellen we een nieuw benchmark voor, genaamd Multi-vision Sensor Perceptie en Redenering (MS-PR), waarbij VLM's worden beoordeeld op hun vermogen tot sensor-specifieke redenering. Bovendien introduceren we Diverse Negatieve Kenmerken (DNA) optimalisatie om VLM's in staat te stellen diepgaande redenering uit te voeren over multi-vision sensor taken, wat helpt om de kerninformatiekloof tussen afbeeldingen en sensorgegevens te overbruggen. Uitgebreide experimentele resultaten bevestigen dat de voorgestelde DNA-methode aanzienlijke verbeteringen kan aanbrengen in de multi-vision sensorredenering voor VLM's.

HUNYUANPROVER: Een Schaalbaar Gegevenssynthesekader en Begeleide Boomzoekopdracht voor Geautomatiseerd Stellingbewijs
HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

We introduceren HunyuanProver, een taalmodel dat is gefinetuned vanuit de Hunyuan 7B voor interactief automatisch stellingen bewijzen met LEAN4. Om het probleem van data-schaarste te verlichten, hebben we een schaalbaar kader ontworpen om iteratief data te synthetiseren met lage kosten. Bovendien zijn begeleide boomzoekalgoritmes ontworpen om effectief "systeem 2 denken" van de bewijzer mogelijk te maken. HunyuanProver behaalt state-of-the-art (SOTA) prestaties op belangrijke benchmarks. Specifiek behaalt het een slagingspercentage van 68,4% op de miniF2F-test in vergelijking met 65,9%, de huidige SOTA-resultaten. Het bewijst 4 IMO-verklaringen (imo_1960_p2, imo_1962_p2, imo_1964_p2 en imo_1983_p6) in de miniF2F-test. Om de gemeenschap ten goede te komen, zullen we een dataset van 30k gesynthetiseerde gevallen open-source maken, waarbij elk geval de oorspronkelijke vraag in natuurlijke taal bevat, de omgezette verklaring door autoformalisering, en het bewijs door HunyuanProver.

VMix: Verbetering van het tekst-naar-afbeelding diffusiemodel met kruislingse aandachtcontrole
VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He

Hoewel diffusiemodellen buitengewone talenten tonen in tekst-naar-afbeelding generatie, kunnen ze nog steeds tekortschieten bij het genereren van zeer esthetische afbeeldingen. Meer specifiek is er nog steeds een kloof tussen de gegenereerde afbeeldingen en de esthetische afbeeldingen in de echte wereld op fijnere dimensies, waaronder kleur, belichting, compositie, enzovoort. In dit artikel stellen we Cross-Attention Value Mixing Control (VMix) Adapter voor, een plug-and-play esthetische adapter, om de kwaliteit van gegenereerde afbeeldingen te verbeteren terwijl de algemeenheid over visuele concepten behouden blijft door (1) de invoertekstprompt te ontwarren in de inhoudsbeschrijving en esthetische beschrijving door de initialisatie van esthetische embedding, en (2) esthetische voorwaarden te integreren in het denoising proces door middel van waarde-gemengde cross-attention, met het netwerk verbonden door nul-geïnitialiseerde lineaire lagen. Ons belangrijk inzicht is om de esthetische presentatie van bestaande diffusiemodellen te verbeteren door het ontwerpen van een superieure voorwaardenbeheersingsmethode, terwijl de afbeelding-tekst alignering behouden blijft. Door ons zorgvuldige ontwerp is VMix flexibel genoeg om toegepast te worden op community modellen voor betere visuele prestaties zonder opnieuw te trainen. Om de effectiviteit van onze methode te valideren, hebben we uitgebreide experimenten uitgevoerd, waaruit blijkt dat VMix andere state-of-the-art methoden overtreft en compatibel is met andere community modules (bijv. LoRA, ControlNet en IPAdapter) voor afbeeldingsgeneratie. De projectpagina is https://vmix-diffusion.github.io/VMix/.

OS-Genesis: Automatiseren van de constructie van GUI-agenttrajecten via omgekeerde taaksynthese

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Dec 27

ByQiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Technisch Rapport Xmodel-2

Xmodel-2 Technical Report

Dec 27

ByWang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling

Begrijpen Vision-Language modellen echt Multi-vision sensoren?

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Dec 30

BySangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro

HUNYUANPROVER: Een Schaalbaar Gegevenssynthesekader en Begeleide Boomzoekopdracht voor Geautomatiseerd Stellingbewijs

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Dec 30

ByYang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi

VMix: Verbetering van het tekst-naar-afbeelding diffusiemodel met kruislingse aandachtcontrole

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Dec 30

ByShaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He