対話におけるデプロイデータからの暗黙的フィードバックの活用
Leveraging Implicit Feedback from Deployment Data in Dialogue
July 26, 2023
著者: Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston
cs.AI
要旨
我々は、デプロイされたモデルとユーザー間の自然な対話から学習することで、社会的対話エージェントを改善する方法を研究する。追加のアノテーションなしで、機械生成された発話の品質を暗黙的に測定するために、収集された対話エピソードにおけるユーザーの応答の長さ、感情、および反応といったシグナルを活用する。実験では、BlenderBot(Xu et al., 2023)から公開されたデプロイメントデータを使用する。人間による評価では、新しいモデルがベースライン応答よりも改善されていることが示されている。しかし、一部の代理シグナルは、望ましくない特性を持つ生成を増やす可能性もあることがわかった。例えば、会話の長さを最適化すると、ベースラインと比べてより論争的または不親切な生成が増える可能性がある一方で、肯定的な感情や反応を最適化すると、これらの行動を減少させることができる。
English
We study improving social conversational agents by learning from natural
dialogue between users and a deployed model, without extra annotations. To
implicitly measure the quality of a machine-generated utterance, we leverage
signals like user response length, sentiment and reaction of the future human
utterances in the collected dialogue episodes. Our experiments use the publicly
released deployment data from BlenderBot (Xu et al., 2023). Human evaluation
indicates improvements in our new models over baseline responses; however, we
find that some proxy signals can lead to more generations with undesirable
properties as well. For example, optimizing for conversation length can lead to
more controversial or unfriendly generations compared to the baseline, whereas
optimizing for positive sentiment or reaction can decrease these behaviors.Summary
AI-Generated Summary