Génération d'hypothèses expérimentales novatrices à partir de modèles de langage : Une étude de cas sur la généralisation trans-dative
Generating novel experimental hypotheses from language models: A case study on cross-dative generalization
August 9, 2024
Auteurs: Kanishka Misra, Najoung Kim
cs.AI
Résumé
Les modèles de langage basés sur des réseaux de neurones (LMs) ont démontré leur capacité à capturer des connaissances linguistiques complexes. Cependant, leur utilité pour comprendre l'acquisition du langage reste débattue. Nous contribuons à ce débat en présentant une étude de cas où nous utilisons des LMs comme apprenants simulés pour dériver de nouvelles hypothèses expérimentales à tester avec des humains. Nous appliquons ce paradigme pour étudier la généralisation inter-dative (CDG) : la généralisation productive de nouveaux verbes à travers des constructions datives (elle m'a pilké la balle/elle a pilké la balle à moi) — dont l'acquisition est connue pour impliquer un large espace de caractéristiques contextuelles — en utilisant des LMs entraînés sur des discours adressés aux enfants. Nous posons spécifiquement la question : "quelles propriétés de l'exposition à l'entraînement facilitent la généralisation d'un nouveau verbe à la construction dative alternative (non modélisée) ?" Pour y répondre, nous faisons varier systématiquement le contexte d'exposition dans lequel un nouveau verbe datif apparaît, en termes des propriétés du thème et du destinataire, puis nous analysons l'utilisation du nouveau verbe par les LMs dans la construction dative non modélisée. Nous constatons que les LMs reproduisent les schémas connus de la CDG chez les enfants, une condition préalable à l'exploration de nouvelles hypothèses. Les simulations ultérieures révèlent un rôle nuancé des caractéristiques du contexte d'exposition des nouveaux verbes sur la CDG des LMs. Nous observons que la CDG est facilitée lorsque le premier argument postverbal du contexte d'exposition est pronominal, défini, court et conforme aux attentes typiques d'animacité du datif d'exposition. Ces schémas sont caractéristiques de l'alignement harmonique dans les datifs, où l'argument dont les caractéristiques se classent plus haut sur l'échelle de saillance discursive tend à précéder l'autre. Cela donne naissance à une nouvelle hypothèse selon laquelle la CDG est facilitée dans la mesure où les caractéristiques du contexte d'exposition — en particulier, son premier argument postverbal — sont harmoniquement alignées. Nous concluons en proposant de futures expériences pour tester cette hypothèse chez les enfants.
English
Neural network language models (LMs) have been shown to successfully capture
complex linguistic knowledge. However, their utility for understanding language
acquisition is still debated. We contribute to this debate by presenting a case
study where we use LMs as simulated learners to derive novel experimental
hypotheses to be tested with humans. We apply this paradigm to study
cross-dative generalization (CDG): productive generalization of novel verbs
across dative constructions (she pilked me the ball/she pilked the ball to me)
-- acquisition of which is known to involve a large space of contextual
features -- using LMs trained on child-directed speech. We specifically ask:
"what properties of the training exposure facilitate a novel verb's
generalization to the (unmodeled) alternate construction?" To answer this, we
systematically vary the exposure context in which a novel dative verb occurs in
terms of the properties of the theme and recipient, and then analyze the LMs'
usage of the novel verb in the unmodeled dative construction. We find LMs to
replicate known patterns of children's CDG, as a precondition to exploring
novel hypotheses. Subsequent simulations reveal a nuanced role of the features
of the novel verbs' exposure context on the LMs' CDG. We find CDG to be
facilitated when the first postverbal argument of the exposure context is
pronominal, definite, short, and conforms to the prototypical animacy
expectations of the exposure dative. These patterns are characteristic of
harmonic alignment in datives, where the argument with features ranking higher
on the discourse prominence scale tends to precede the other. This gives rise
to a novel hypothesis that CDG is facilitated insofar as the features of the
exposure context -- in particular, its first postverbal argument -- are
harmonically aligned. We conclude by proposing future experiments that can test
this hypothesis in children.Summary
AI-Generated Summary