Vibe Checker: Ausrichtung der Code-Bewertung an menschlichen Präferenzen
Vibe Checker: Aligning Code Evaluation with Human Preference
October 8, 2025
papers.authors: Ming Zhong, Xiang Zhou, Ting-Yun Chang, Qingze Wang, Nan Xu, Xiance Si, Dan Garrette, Shyam Upadhyay, Jeremiah Liu, Jiawei Han, Benoit Schillings, Jiao Sun
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben das sogenannte Vibe Coding vorangetrieben, bei dem Nutzer LLMs nutzen, um Code durch natürliche Sprachinteraktionen zu generieren und iterativ zu verfeinern, bis er ihren Vibe Check besteht. Der Vibe Check ist an reale menschliche Präferenzen gebunden und geht über die reine Funktionalität hinaus: Die Lösung sollte sich richtig anfühlen, sauber lesbar sein, die Absicht bewahren und korrekt bleiben. Allerdings bleibt die aktuelle Code-Evaluierung an pass@k gebunden und erfasst nur die funktionale Korrektheit, während die nicht-funktionalen Anweisungen, die Nutzer routinemäßig anwenden, übersehen werden. In diesem Papier stellen wir die Hypothese auf, dass die Befolgung von Anweisungen das fehlende Puzzleteil ist, das dem Vibe Check zugrunde liegt und menschliche Präferenzen in der Programmierung neben der funktionalen Korrektheit repräsentiert. Um die Fähigkeiten von Modellen zur Befolgung von Code-Anweisungen mit messbaren Signalen zu quantifizieren, präsentieren wir VeriCode, eine Taxonomie von 30 überprüfbaren Code-Anweisungen zusammen mit entsprechenden deterministischen Verifizierern. Wir verwenden die Taxonomie, um etablierte Evaluierungssuiten zu erweitern, was in Vibe Checker resultiert, einer Testumgebung zur Bewertung sowohl der Befolgung von Code-Anweisungen als auch der funktionalen Korrektheit. Bei der Evaluierung von 31 führenden LLMs zeigen wir, dass selbst die stärksten Modelle Schwierigkeiten haben, mehrere Anweisungen zu befolgen, und klare funktionale Regressionen aufweisen. Am wichtigsten ist, dass ein zusammengesetzter Score aus funktionaler Korrektheit und Befolgung von Anweisungen am besten mit menschlichen Präferenzen korreliert, wobei letztere sich als primärer Unterscheidungsfaktor bei realen Programmieraufgaben erweist. Unsere Arbeit identifiziert Kernfaktoren des Vibe Checks und bietet einen konkreten Weg für die Benchmarking- und Modellentwicklung, um besser mit den Nutzerpräferenzen in der Programmierung übereinzustimmen.
English
Large Language Models (LLMs) have catalyzed vibe coding, where users leverage
LLMs to generate and iteratively refine code through natural language
interactions until it passes their vibe check. Vibe check is tied to real-world
human preference and goes beyond functionality: the solution should feel right,
read cleanly, preserve intent, and remain correct. However, current code
evaluation remains anchored to pass@k and captures only functional correctness,
overlooking the non-functional instructions that users routinely apply. In this
paper, we hypothesize that instruction following is the missing piece
underlying vibe check that represents human preference in coding besides
functional correctness. To quantify models' code instruction following
capabilities with measurable signals, we present VeriCode, a taxonomy of 30
verifiable code instructions together with corresponding deterministic
verifiers. We use the taxonomy to augment established evaluation suites,
resulting in Vibe Checker, a testbed to assess both code instruction following
and functional correctness. Upon evaluating 31 leading LLMs, we show that even
the strongest models struggle to comply with multiple instructions and exhibit
clear functional regression. Most importantly, a composite score of functional
correctness and instruction following correlates the best with human
preference, with the latter emerging as the primary differentiator on
real-world programming tasks. Our work identifies core factors of the vibe
check, providing a concrete path for benchmarking and developing models that
better align with user preferences in coding.