Vibe Checker: Ausrichtung der Code-Bewertung an menschlichen Präferenzen

papers.abstract

Große Sprachmodelle (LLMs) haben das sogenannte Vibe Coding vorangetrieben, bei dem Nutzer LLMs nutzen, um Code durch natürliche Sprachinteraktionen zu generieren und iterativ zu verfeinern, bis er ihren Vibe Check besteht. Der Vibe Check ist an reale menschliche Präferenzen gebunden und geht über die reine Funktionalität hinaus: Die Lösung sollte sich richtig anfühlen, sauber lesbar sein, die Absicht bewahren und korrekt bleiben. Allerdings bleibt die aktuelle Code-Evaluierung an pass@k gebunden und erfasst nur die funktionale Korrektheit, während die nicht-funktionalen Anweisungen, die Nutzer routinemäßig anwenden, übersehen werden. In diesem Papier stellen wir die Hypothese auf, dass die Befolgung von Anweisungen das fehlende Puzzleteil ist, das dem Vibe Check zugrunde liegt und menschliche Präferenzen in der Programmierung neben der funktionalen Korrektheit repräsentiert. Um die Fähigkeiten von Modellen zur Befolgung von Code-Anweisungen mit messbaren Signalen zu quantifizieren, präsentieren wir VeriCode, eine Taxonomie von 30 überprüfbaren Code-Anweisungen zusammen mit entsprechenden deterministischen Verifizierern. Wir verwenden die Taxonomie, um etablierte Evaluierungssuiten zu erweitern, was in Vibe Checker resultiert, einer Testumgebung zur Bewertung sowohl der Befolgung von Code-Anweisungen als auch der funktionalen Korrektheit. Bei der Evaluierung von 31 führenden LLMs zeigen wir, dass selbst die stärksten Modelle Schwierigkeiten haben, mehrere Anweisungen zu befolgen, und klare funktionale Regressionen aufweisen. Am wichtigsten ist, dass ein zusammengesetzter Score aus funktionaler Korrektheit und Befolgung von Anweisungen am besten mit menschlichen Präferenzen korreliert, wobei letztere sich als primärer Unterscheidungsfaktor bei realen Programmieraufgaben erweist. Unsere Arbeit identifiziert Kernfaktoren des Vibe Checks und bietet einen konkreten Weg für die Benchmarking- und Modellentwicklung, um besser mit den Nutzerpräferenzen in der Programmierung übereinzustimmen.

English

Large Language Models (LLMs) have catalyzed vibe coding, where users leverage LLMs to generate and iteratively refine code through natural language interactions until it passes their vibe check. Vibe check is tied to real-world human preference and goes beyond functionality: the solution should feel right, read cleanly, preserve intent, and remain correct. However, current code evaluation remains anchored to pass@k and captures only functional correctness, overlooking the non-functional instructions that users routinely apply. In this paper, we hypothesize that instruction following is the missing piece underlying vibe check that represents human preference in coding besides functional correctness. To quantify models' code instruction following capabilities with measurable signals, we present VeriCode, a taxonomy of 30 verifiable code instructions together with corresponding deterministic verifiers. We use the taxonomy to augment established evaluation suites, resulting in Vibe Checker, a testbed to assess both code instruction following and functional correctness. Upon evaluating 31 leading LLMs, we show that even the strongest models struggle to comply with multiple instructions and exhibit clear functional regression. Most importantly, a composite score of functional correctness and instruction following correlates the best with human preference, with the latter emerging as the primary differentiator on real-world programming tasks. Our work identifies core factors of the vibe check, providing a concrete path for benchmarking and developing models that better align with user preferences in coding.

Vibe Checker: Ausrichtung der Code-Bewertung an menschlichen Präferenzen

Vibe Checker: Aligning Code Evaluation with Human Preference

papers.abstract

Support