Vibe Checker: コード評価と人間の選好の整合化
Vibe Checker: Aligning Code Evaluation with Human Preference
October 8, 2025
著者: Ming Zhong, Xiang Zhou, Ting-Yun Chang, Qingze Wang, Nan Xu, Xiance Si, Dan Garrette, Shyam Upadhyay, Jeremiah Liu, Jiawei Han, Benoit Schillings, Jiao Sun
cs.AI
要旨
大規模言語モデル(LLMs)は、ユーザーが自然言語のやり取りを通じてコードを生成し、反復的に改良し、自身の「ビーブチェック」を通過するまで調整する「ビーブコーディング」を促進している。ビーブチェックは、現実世界の人間の選好に結びついており、機能性を超えたものである。つまり、ソリューションは適切に感じられ、読みやすく、意図を保ち、正確であるべきである。しかし、現在のコード評価はpass@kに基づいており、機能的正しさのみを捉え、ユーザーが日常的に適用する非機能的な指示を見落としている。本論文では、指示の遵守が、機能的正しさに加えてコーディングにおける人間の選好を表すビーブチェックの欠けている要素であると仮説を立てる。モデルのコード指示遵守能力を測定可能な信号で定量化するために、30の検証可能なコード指示とそれに対応する決定論的検証器からなる分類体系であるVeriCodeを提示する。この分類体系を用いて確立された評価スイートを拡張し、コード指示遵守と機能的正しさの両方を評価するテストベッドであるVibe Checkerを構築する。31の主要なLLMsを評価した結果、最も強力なモデルでさえ複数の指示に従うことに苦戦し、明確な機能的な退行を示すことがわかった。最も重要なことに、機能的正しさと指示遵守の複合スコアは、人間の選好と最も高い相関を示し、後者が現実世界のプログラミングタスクにおいて主要な差別化要因として浮かび上がった。本研究は、ビーブチェックの核心的な要素を特定し、ユーザーのコーディングにおける選好により適したモデルのベンチマークと開発のための具体的な道筋を提供する。
English
Large Language Models (LLMs) have catalyzed vibe coding, where users leverage
LLMs to generate and iteratively refine code through natural language
interactions until it passes their vibe check. Vibe check is tied to real-world
human preference and goes beyond functionality: the solution should feel right,
read cleanly, preserve intent, and remain correct. However, current code
evaluation remains anchored to pass@k and captures only functional correctness,
overlooking the non-functional instructions that users routinely apply. In this
paper, we hypothesize that instruction following is the missing piece
underlying vibe check that represents human preference in coding besides
functional correctness. To quantify models' code instruction following
capabilities with measurable signals, we present VeriCode, a taxonomy of 30
verifiable code instructions together with corresponding deterministic
verifiers. We use the taxonomy to augment established evaluation suites,
resulting in Vibe Checker, a testbed to assess both code instruction following
and functional correctness. Upon evaluating 31 leading LLMs, we show that even
the strongest models struggle to comply with multiple instructions and exhibit
clear functional regression. Most importantly, a composite score of functional
correctness and instruction following correlates the best with human
preference, with the latter emerging as the primary differentiator on
real-world programming tasks. Our work identifies core factors of the vibe
check, providing a concrete path for benchmarking and developing models that
better align with user preferences in coding.