Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodelpretraining omvat training op uitgebreide corpora, waarbij de kwaliteit van de data een cruciale rol speelt. In dit werk streven we ernaar om de bijdrage van data tijdens de pretraining direct te schatten en de pretrainingdata op een efficiënte manier te selecteren. Specifiek putten we inspiratie uit recente bevindingen die aantonen dat de compressie-efficiëntie (d.w.z. het genormaliseerde verlies) van diverse modellen op bepaalde tekst sterk correleert met hun prestaties op downstream taken, wanneer het tekstdomein overeenkomt met de downstream benchmark (Huang et al., 2024). Op basis van deze observatie stellen we de hypothese dat data waarop modelverliezen voorspellend zijn voor downstream vaardigheden, ook effectief bijdragen aan het leerproces. Om dit inzicht te benutten, introduceren we dataselectie gebaseerd op de voorspellende kracht van data (PreSelect), een lichtgewicht en efficiënte methode voor dataselectie die alleen het trainen en inzetten van een fastText-gebaseerde scorer vereist. Door uitgebreide experimenten met modellen van 1B en 3B parameters, tonen we aan dat modellen getraind op 30B tokens geselecteerd met PreSelect de prestaties overtreffen van een standaard baseline getraind op 300B tokens, wat resulteert in een 10x reductie in rekenvereisten. Bovendien presteert PreSelect aanzienlijk beter dan andere competitieve dataselectie-baselines, zoals DCLM en FineWeb-Edu, op een schaal van 3B modellen getraind op 100B tokens. We maken onze getrainde dataselectie-scorer samen met de samengestelde datasets openbaar op https://github.com/hkust-nlp/PreSelect.
Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties getoond bij het oplossen van complexe redeneertaken door mechanismen zoals Chain-of-Thought (CoT) prompting, waarbij uitgebreide, stapsgewijze redeneringen worden benadrukt. Mensen gebruiken echter doorgaans een efficiëntere strategie: het opstellen van beknopte tussenliggende gedachten die alleen essentiële informatie vastleggen. In dit werk introduceren we Chain of Draft (CoD), een nieuw paradigma geïnspireerd op menselijke cognitieve processen, waarbij LLM's minimalistische maar informatieve tussenliggende redeneeruitkomsten genereren tijdens het oplossen van taken. Door de uitgebreidheid te verminderen en te focussen op kritische inzichten, evenaart of overtreft CoD de nauwkeurigheid van CoT terwijl slechts 7,6% van de tokens wordt gebruikt, wat de kosten en latentie aanzienlijk vermindert bij diverse redeneertaken.
Het ontwerpen van oplossingen voor complexe technische uitdagingen is cruciaal in menselijke productieactiviteiten. Eerdere onderzoeken op het gebied van retrieval-augmented generation (RAG) hebben echter onvoldoende aandacht besteed aan taken die verband houden met het ontwerpen van complexe technische oplossingen. Om deze leemte op te vullen, introduceren we een nieuwe benchmark, SolutionBench, om het vermogen van een systeem te evalueren om complete en haalbare oplossingen te genereren voor technische problemen met meerdere complexe beperkingen. Om het ontwerp van complexe technische oplossingen verder te bevorderen, stellen we een nieuw systeem voor, SolutionRAG, dat gebruikmaakt van boomgebaseerde exploratie en een bi-punt denkmechanisme om betrouwbare oplossingen te genereren. Uitgebreide experimentele resultaten tonen aan dat SolutionRAG state-of-the-art (SOTA) prestaties behaalt op de SolutionBench, wat het potentieel ervan onderstreept om de automatisering en betrouwbaarheid van het ontwerpen van complexe technische oplossingen in real-world toepassingen te verbeteren.
We behandelen het probleem van codegeneratie op basis van meervoudige uitvoeringsfeedback. Bestaande methoden genereren ofwel code zonder feedback of gebruiken complexe, hiërarchische reinforcement learning om meervoudige beloningen te optimaliseren. We stellen een eenvoudige maar schaalbare aanpak voor, muCode, die meervoudige codegeneratie oplost met behulp van slechts enkelvoudige beloningen. Onze belangrijkste inzicht is dat codegeneratie een eenstaps herstelbaar MDP is, waarbij de correcte code in één stap kan worden hersteld vanuit elke tussenliggende codetoestand. muCode traint iteratief zowel een generator om codeoplossingen te bieden op basis van meervoudige uitvoeringsfeedback als een verifier om de nieuw gegenereerde code te beoordelen. Experimentele evaluaties tonen aan dat onze aanpak significante verbeteringen bereikt ten opzichte van de state-of-the-art baselines. We bieden een analyse van de ontwerpkeuzes van de beloningsmodellen en het beleid, en tonen de effectiviteit van muCode aan bij het benutten van de uitvoeringsfeedback. Onze code is beschikbaar op https://github.com/portal-cornell/muCode.
Recente tekst-naar-beeld (T2I) generatiemodellen hebben opmerkelijke resultaten behaald door te trainen op datasets van miljarden schaal, waarbij een 'groter is beter'-paradigma wordt gevolgd dat de hoeveelheid data boven de kwaliteit stelt. Wij dagen dit gevestigde paradigma uit door aan te tonen dat strategische data-augmentatie van kleine, goed samengestelde datasets modellen die getraind zijn op enorme, van het web geschraapte collecties, kan evenaren of overtreffen. Door alleen ImageNet te gebruiken, versterkt met goed ontworpen tekst- en beeldaugmentaties, behalen we een +2 algemene score ten opzichte van SD-XL op GenEval en +5 op DPGBench, terwijl we slechts 1/10e van de parameters en 1/1000e van de trainingsafbeeldingen gebruiken. Onze resultaten suggereren dat strategische data-augmentatie, in plaats van enorme datasets, een duurzamere weg vooruit zou kunnen bieden voor T2I-generatie.
Grote Taalmodellen (LLMs) hebben menselijk niveau bereikt in diverse taken, maar hun vermogen om rigoureuze wiskundige problemen op te lossen blijft een uitdaging. In dit werk onderzoeken we een fundamenteel maar computationeel onhandelbaar probleem: bepalen of een gegeven multivariate polynoom niet-negatief is. Dit probleem, nauw verwant aan het Zeventiende Probleem van Hilbert, speelt een cruciale rol in globale polynoomoptimalisatie en heeft toepassingen in verschillende vakgebieden. Eerst introduceren we SoS-1K, een zorgvuldig samengestelde dataset van ongeveer 1.000 polynomen, samen met expert-ontworpen redeneerinstructies gebaseerd op vijf progressief uitdagende criteria. Bij het evalueren van meerdere state-of-the-art LLMs, ontdekken we dat zonder gestructureerde begeleiding alle modellen slechts iets beter presteren dan de willekeurige gokbasis van 50%. Echter, hoogwaardige redeneerinstructies verbeteren de nauwkeurigheid aanzienlijk, wat de prestaties tot 81% verhoogt. Bovendien presteert ons 7B-model, SoS-7B, dat slechts 4 uur is afgestemd op SoS-1K, beter dan de 671B DeepSeek-V3 en GPT-4o-mini in nauwkeurigheid, terwijl het slechts 1,8% en 5% van de benodigde rekentijd voor letters vereist. Onze bevindingen benadrukken het potentieel van LLMs om de grenzen van wiskundig redeneren te verleggen en NP-hard problemen aan te pakken.
Het begrijpen van informatie uit visueel rijke documenten blijft een grote uitdaging voor traditionele Retrieval-Augmented Generation (RAG)-methoden. Bestaande benchmarks richten zich voornamelijk op beeldgebaseerde vraag-antwoordtaken (QA), waarbij de fundamentele uitdagingen van efficiënte retrieval, begrip en redeneren binnen dichte visuele documenten over het hoofd worden gezien. Om deze kloof te overbruggen, introduceren we ViDoSeek, een nieuwe dataset ontworpen om de RAG-prestaties te evalueren op visueel rijke documenten die complexe redenering vereisen. Op basis hiervan identificeren we belangrijke beperkingen in huidige RAG-benaderingen: (i) puur visuele retrievamethode hebben moeite om zowel tekstuele als visuele kenmerken effectief te integreren, en (ii) eerdere benaderingen reserveren vaak onvoldoende redeneertokens, wat hun effectiviteit beperkt. Om deze uitdagingen aan te pakken, stellen we ViDoRAG voor, een nieuw multi-agent RAG-framework dat is toegesneden op complexe redenering over visuele documenten. ViDoRAG maakt gebruik van een hybride strategie gebaseerd op een Gaussian Mixture Model (GMM) om multimodale retrieval effectief te hanteren. Om de redeneercapaciteiten van het model verder te stimuleren, introduceren we een iteratief agentwerkproces dat exploratie, samenvatting en reflectie omvat, wat een raamwerk biedt voor het onderzoeken van testtijd-schaling in RAG-domeinen. Uitgebreide experimenten op ViDoSeek valideren de effectiviteit en generalisatie van onze aanpak. Opmerkelijk is dat ViDoRAG bestaande methoden met meer dan 10% overtreft op de competitieve ViDoSeek-benchmark.
Reinforcement learning heeft veelbelovende resultaten opgeleverd bij het bereiken van menselijke of zelfs bovenmenselijke prestaties in diverse probleemdomeinen, maar succes in behendige robotmanipulatie blijft beperkt. Dit onderzoek richt zich op de belangrijkste uitdagingen bij het toepassen van reinforcement learning om een reeks contactrijke manipulatietaken op een humanoïde robot op te lossen. We introduceren nieuwe technieken om de geïdentificeerde uitdagingen te overwinnen, met empirische validatie. Onze belangrijkste bijdragen omvatten een automatische real-to-sim afstemmingsmodule die de gesimuleerde omgeving dichter bij de echte wereld brengt, een gegeneraliseerd beloningsontwerp dat de beloningsengineering voor langetermijn, contactrijke manipulatietaken vereenvoudigt, een verdeel-en-heers-distillatieproces dat de steekproefefficiëntie van moeilijk te verkennen problemen verbetert terwijl de sim-to-real prestaties behouden blijven, en een mix van spaarse en dichte objectrepresentaties om de sim-to-real perceptiekloof te overbruggen. We laten veelbelovende resultaten zien bij drie humanoïde behendige manipulatietaken, met ablatiestudies voor elke techniek. Ons werk presenteert een succesvolle aanpak voor het leren van humanoïde behendige manipulatie met behulp van sim-to-real reinforcement learning, waarbij robuuste generalisatie en hoge prestaties worden bereikt zonder de noodzaak van menselijke demonstraties.
Moderne automatische spraakherkenning (ASR) modellen, zoals OpenAI's Whisper, zijn gebaseerd op diepe encoder-decoder architecturen, waarbij de encoders een kritieke bottleneck vormen voor efficiënte implementatie vanwege de hoge rekenintensiteit. Wij introduceren LiteASR, een compressieschema met lage rang voor ASR-encoders dat de inferentiekosten aanzienlijk verlaagt terwijl de transcriptienauwkeurigheid behouden blijft. Onze aanpak maakt gebruik van de sterke eigenschappen met lage rang die worden waargenomen in tussenliggende activaties: door het toepassen van hoofdcomponentenanalyse (PCA) met een kleine kalibratiedataset, benaderen we lineaire transformaties met een keten van matrixvermenigvuldigingen met lage rang, en optimaliseren we verder self-attention om te werken in de gereduceerde dimensie. Evaluatieresultaten tonen aan dat onze methode de encoder-grootte van Whisper large-v3 met meer dan 50% kan comprimeren, waarbij de grootte van Whisper medium wordt geëvenaard met betere transcriptienauwkeurigheid, waardoor een nieuwe Pareto-optimale grens van efficiëntie en prestaties wordt gevestigd. De code van LiteASR is beschikbaar op https://github.com/efeslab/LiteASR.
Retrieval-augmented generation (RAG) breidt grote taalmodellen (LLMs) uit met externe gegevensbronnen om de feitelijke nauwkeurigheid en domeindekking te verbeteren. Moderne RAG-pijplijnen zijn afhankelijk van grote gegevensopslagen, wat leidt tot systeemuitdagingen in latentiegevoelige implementaties, vooral wanneer beperkte GPU-geheugen beschikbaar is. Om deze uitdagingen aan te pakken, stellen we TeleRAG voor, een efficiënt inferentiesysteem dat de RAG-latentie vermindert met minimale GPU-geheugenvereisten. De kerninnovatie van TeleRAG is lookahead retrieval, een prefetching-mechanisme dat benodigde gegevens anticipeert en deze parallel aan LLM-generatie van CPU naar GPU overbrengt. Door gebruik te maken van de modulariteit van RAG-pijplijnen, het inverted file index (IVF)-zoekalgoritme en overeenkomsten tussen queries, optimaliseert TeleRAG de overlap tussen gegevensverplaatsing en berekening. Experimentele resultaten tonen aan dat TeleRAG de end-to-end RAG-inferentielatentie met gemiddeld tot 1,72x vermindert in vergelijking met state-of-the-art systemen, waardoor snellere en geheugenefficiëntere implementaties van geavanceerde RAG-toepassingen mogelijk worden.
Visuele foundationmodellen (VFMs) zijn steeds populairder geworden vanwege hun state-of-the-art prestaties. Interpretatie blijft echter cruciaal voor kritieke toepassingen. In deze context streven zelf-verklaarbare modellen (SEM) ernaar om interpreteerbare classificatoren te bieden die voorspellingen ontbinden in een gewogen som van interpreteerbare concepten. Ondanks hun belofte hebben recente studies aangetoond dat deze verklaringen vaak gebrek aan trouw vertonen. In dit werk combineren we VFMs met een nieuwe prototypische architectuur en gespecialiseerde trainingsdoelen. Door alleen een lichtgewicht hoofd (ongeveer 1M parameters) te trainen bovenop bevroren VFMs, biedt onze aanpak (ProtoFM) een efficiënte en interpreteerbare oplossing. Evaluaties tonen aan dat onze aanpak competitieve classificatieprestaties bereikt terwijl het bestaande modellen overtreft op een reeks interpreteerbaarheidsmetrieken afgeleid uit de literatuur. Code is beschikbaar op https://github.com/hturbe/proto-fm.
Retrieval Augmented Generation (RAG)-systemen blijven kwetsbaar voor hallucinaties in antwoorden, ondanks het gebruik van externe kennisbronnen. Wij presenteren LettuceDetect, een raamwerk dat twee kritieke beperkingen in bestaande methoden voor hallucinatiedetectie aanpakt: (1) de contextvensterbeperkingen van traditionele encoder-gebaseerde methoden, en (2) de computationele inefficiëntie van LLM-gebaseerde benaderingen. Gebaseerd op de uitgebreide contextmogelijkheden van ModernBERT (tot 8k tokens) en getraind op de RAGTruth-benchmarkdataset, presteert onze aanpak beter dan alle voorgaande encoder-gebaseerde modellen en de meeste prompt-gebaseerde modellen, terwijl het ongeveer 30 keer kleiner is dan de beste modellen. LettuceDetect is een token-classificatiemodel dat context-vraag-antwoord-triples verwerkt, waardoor het mogelijk wordt om niet-ondersteunde beweringen op tokenniveau te identificeren. Evaluaties op de RAGTruth-corpus laten een F1-score van 79,22% zien voor detectie op voorbeeldniveau, wat een verbetering van 14,8% is ten opzichte van Luna, de vorige state-of-the-art encoder-gebaseerde architectuur. Daarnaast kan het systeem 30 tot 60 voorbeelden per seconde verwerken op een enkele GPU, wat het praktischer maakt voor real-world RAG-toepassingen.
De toenemende complexiteit en het groeiende aantal parameters van Convolutionele Neurale Netwerken (CNN's) en Transformers brengen uitdagingen met zich mee op het gebied van computationele efficiëntie en resourcebehoeften. Pruning is geïdentificeerd als een effectieve strategie om deze uitdagingen aan te pakken door overbodige elementen zoals neuronen, kanalen of verbindingen te verwijderen, waardoor de computationele efficiëntie wordt verbeterd zonder de prestaties sterk te beïnvloeden. Dit artikel bouwt voort op het fundamentele werk van Optimal Brain Damage (OBD) door de methodologie van het schatten van parameterbelang te verbeteren met behulp van de Hessiaanse matrix. In tegenstelling tot eerdere benaderingen die afhankelijk zijn van benaderingen, introduceren we Optimal Brain Apoptosis (OBA), een nieuwe pruningmethode die de Hessiaan-vector productwaarde direct voor elke parameter berekent. Door de Hessiaanse matrix over netwerklagen te decomponeren en de voorwaarden te identificeren waaronder inter-layer Hessiaanse submatrices niet-nul zijn, stellen we een zeer efficiënte techniek voor voor het berekenen van de tweede-orde Taylor-expansie van parameters. Deze benadering maakt een nauwkeuriger pruningproces mogelijk, met name in de context van CNN's en Transformers, zoals gevalideerd in onze experimenten met VGG19, ResNet32, ResNet50 en ViT-B/16 op de CIFAR10, CIFAR100 en Imagenet datasets. Onze code is beschikbaar op https://github.com/NEU-REAL/OBA.
Behend grijpen blijft een fundamenteel maar uitdagend probleem in de robotica. Een algemeen toepasbare robot moet in staat zijn om diverse objecten te grijpen in willekeurige scenario's. Bestaand onderzoek vertrouwt echter meestal op specifieke aannames, zoals omgevingen met één object of beperkte omgevingen, wat leidt tot beperkte generalisatie. Onze oplossing is DexGraspVLA, een hiërarchisch framework dat een vooraf getraind Vision-Language model gebruikt als de hoog-niveau taakplanner en een op diffusie gebaseerd beleid leert als de laag-niveau actiecontroller. De belangrijkste inzicht ligt in het iteratief omzetten van diverse taal- en visuele invoer in domein-invariante representaties, waarbij imitatieleren effectief kan worden toegepast vanwege de vermindering van domeinverschuiving. Hierdoor wordt robuuste generalisatie mogelijk gemaakt over een breed scala aan real-world scenario's. Opmerkelijk is dat onze methode een succespercentage van meer dan 90% behaalt onder duizenden ongeziene combinaties van objecten, belichting en achtergronden in een ``zero-shot'' omgeving. Empirische analyse bevestigt verder de consistentie van intern modelgedrag over verschillende omgevingsvariabelen, waardoor ons ontwerp wordt gevalideerd en de generalisatieprestatie wordt verklaard. We hopen dat ons werk een stap vooruit kan zijn in het bereiken van algemeen behend grijpen. Onze demo en code zijn te vinden op https://dexgraspvla.github.io/.
Het toepassen van grote taalmodellen (LLMs) om psychologische counseling te ondersteunen is een opkomende en betekenisvolle benadering, aangedreven door de aanzienlijke kloof tussen de behoeften van patiënten en de beschikbaarheid van mentale gezondheidsondersteuning. Huidige LLMs hebben echter moeite om consistent effectieve reacties te geven op uitspraken van cliënten, voornamelijk door het gebrek aan toezicht van hoogwaardige echte psychologische counselingsdata, waarvan de inhoud meestal ontoegankelijk is vanwege privacyoverwegingen van cliënten. Bovendien kan de kwaliteit van de reacties van therapeuten in beschikbare sessies aanzienlijk variëren, afhankelijk van hun professionele training en ervaring. Het beoordelen van de kwaliteit van de reacties van therapeuten blijft een open uitdaging. In dit werk pakken we deze uitdagingen aan door eerst een set professionele en uitgebreide principes voor te stellen om de reacties van therapeuten op uitspraken van cliënten te evalueren. Met behulp van deze principes creëren we een voorkeursdataset, PsychoCounsel-Preference, die 36k hoogwaardige voorkeursvergelijkingen bevat. Deze dataset sluit aan bij de voorkeuren van professionele psychotherapeuten en biedt een robuuste basis voor het evalueren en verbeteren van LLMs in psychologische counseling. Experimenten met beloningsmodellering en voorkeursleren tonen aan dat PsychoCounsel-Preference een uitstekende bron is voor LLMs om essentiële vaardigheden te verwerven voor het reageren op cliënten in een counselingsessie. Ons best afgestemde model, PsychoCounsel-Llama3-8B, behaalt een indrukwekkend winstpercentage van 87% tegen GPT-4o. We geven PsychoCounsel-Preference, PsychoCounsel-Llama3-8B en het beloningsmodel PsychoCounsel Llama3-8B-Reward vrij om onderzoek naar psychologische counseling met LLMs te faciliteren op: https://hf.co/Psychotherapy-LLM.
Menselijk gedrag wordt gemodereerd door normen. Bij het uitvoeren van acties in de echte wereld volgen mensen niet alleen normen, maar overwegen ze ook de afweging tussen verschillende normen. Machines worden echter vaak getraind zonder expliciet toezicht op normbegrip en -redenering, vooral wanneer de normen verankerd zijn in een fysieke en sociale context. Om het normatieve redeneervermogen van vision-language modellen (VLMs) te verbeteren en te evalueren, presenteren we EgoNormia |epsilon|, bestaande uit 1.853 ego-centrische video's van menselijke interacties, elk met twee gerelateerde vragen die zowel de voorspelling als de rechtvaardiging van normatieve acties evalueren. De normatieve acties omvatten zeven categorieën: veiligheid, privacy, proxemiek, beleefdheid, samenwerking, coördinatie/proactiviteit en communicatie/leesbaarheid. Om deze dataset op schaal samen te stellen, stellen we een nieuwe pijplijn voor die gebruikmaakt van video-sampling, automatische antwoordgeneratie, filtering en menselijke validatie. Ons werk toont aan dat de huidige state-of-the-art vision-language modellen een gebrek hebben aan robuust normbegrip, met een maximale score van 45% op EgoNormia (tegenover een menselijke benchmark van 92%). Onze analyse van de prestaties in elke dimensie benadrukt de aanzienlijke risico's op het gebied van veiligheid, privacy en het gebrek aan samenwerkings- en communicatievermogen bij toepassing op echte wereldagenten. We tonen daarnaast aan dat het mogelijk is om EgoNormia te gebruiken om het normatieve redeneervermogen in VLMs te verbeteren via een retrieval-gebaseerde generatiemethode.
Ondanks aanzienlijke vooruitgang in diffusiegebaseerde beeldgeneratie, blijven onderwerpgestuurde generatie en instructiegebaseerde bewerking uitdagend. Bestaande methoden behandelen deze doorgaans afzonderlijk, waarbij ze worstelen met beperkte hoogwaardige data en slechte generalisatie. Beide taken vereisen echter het vastleggen van complexe visuele variaties terwijl consistentie tussen invoer en uitvoer behouden blijft. Daarom stellen we MIGE voor, een uniform raamwerk dat taakrepresentaties standaardiseert met behulp van multimodale instructies. Het behandelt onderwerpgestuurde generatie als creatie op een blanco canvas en instructiegebaseerde bewerking als aanpassing van een bestaand beeld, waardoor een gedeelde invoer-uitvoerformulering wordt vastgesteld. MIGE introduceert een nieuwe multimodale encoder die vrije-vorm multimodale instructies afbeeldt naar een uniforme visie-taalruimte, waarbij visuele en semantische kenmerken worden geïntegreerd via een kenmerkfusie- mechanisme. Deze unificatie maakt gezamenlijke training van beide taken mogelijk, wat twee belangrijke voordelen biedt: (1) Cross-Task Verbetering: Door gedeelde visuele en semantische representaties te benutten, verbetert gezamenlijke training de naleving van instructies en visuele consistentie in zowel onderwerpgestuurde generatie als instructiegebaseerde bewerking. (2) Generalisatie: Leren in een uniform formaat vergemakkelijkt kennisoverdracht tussen taken, waardoor MIGE kan generaliseren naar nieuwe compositionele taken, inclusief instructiegebaseerde onderwerpgestuurde bewerking. Experimenten tonen aan dat MIGE uitblinkt in zowel onderwerpgestuurde generatie als instructiegebaseerde bewerking, terwijl het een state-of-the-art resultaat behaalt in de nieuwe taak van instructiegebaseerde onderwerpgestuurde bewerking. Code en model zijn publiekelijk beschikbaar gesteld op https://github.com/Eureka-Maggie/MIGE.
Recente Multi-modale Grote Taalmodellen (MLLMs) hebben grote vooruitgang geboekt in videobegrip. Hun prestaties op video's met menselijke acties zijn echter nog steeds beperkt door het gebrek aan hoogwaardige data. Om dit aan te pakken, introduceren we een tweestaps data-annotatiepijplijn. Eerst ontwerpen we strategieën om video's met duidelijke menselijke acties van het internet te verzamelen. Vervolgens worden de video's geannoteerd in een gestandaardiseerd bijschriftformaat dat menselijke attributen gebruikt om individuen te onderscheiden en hun acties en interacties chronologisch te beschrijven. Via deze pijplijn hebben we twee datasets samengesteld, namelijk HAICTrain en HAICBench. HAICTrain bestaat uit 126K video-bijschriftparen die zijn gegenereerd door Gemini-Pro en geverifieerd voor trainingsdoeleinden. HAICBench omvat daarentegen 500 handmatig geannoteerde video-bijschriftparen en 1.400 vraag-antwoordparen, voor een uitgebreide evaluatie van het begrip van menselijke acties. Experimentele resultaten tonen aan dat trainen met HAICTrain niet alleen het menselijk begrip aanzienlijk verbetert over 4 benchmarks, maar ook de resultaten van tekst-naar-video-generatie kan verbeteren. Zowel HAICTrain als HAICBench zijn vrijgegeven op https://huggingface.co/datasets/KuaishouHAIC/HAIC.