Modelli più potenti NON sono Insegnanti più efficaci per il Tuning dell'IstruzioneStronger Models are NOT Stronger Teachers for Instruction Tuning
L'ottimizzazione delle istruzioni è stata ampiamente adottata per garantire che i grandi modelli linguistici (LLM) seguano efficacemente le istruzioni degli utenti. Le capacità di seguire le istruzioni dei LLM dipendono pesantemente dai set di dati di istruzioni utilizzati per l'ottimizzazione. Di recente, sono emersi set di dati di istruzioni sintetiche come soluzione economicamente valida per fornire istruzioni diverse e di alta qualità ai LLM. Tuttavia, gli approcci esistenti generalmente assumono che modelli più grandi o più potenti siano insegnanti più efficaci per l'ottimizzazione delle istruzioni e quindi adottano semplicemente questi modelli come generatori di risposte alle istruzioni sintetiche. In questo articolo, mettiamo in discussione questa assunzione comunemente adottata. I nostri ampi esperimenti su cinque modelli di base e venti generatori di risposte rivelano che modelli più grandi e più potenti non sono necessariamente insegnanti più efficaci per modelli più piccoli. Ci riferiamo a questo fenomeno come Paradosso dei Modelli Più Grandi. Osserviamo che le metriche esistenti non riescono a prevedere con precisione l'efficacia dei generatori di risposte poiché ignorano la compatibilità tra insegnanti e modelli di base in fase di sintonizzazione. Sviluppiamo quindi una nuova metrica, chiamata Ricompensa Corretta per la Compatibilità (CAR), per misurare l'efficacia dei generatori di risposte. I nostri esperimenti su cinque modelli di base dimostrano che CAR supera quasi tutti i confronti.