UCoder: Неавтоматическая генерация кода посредством внутреннего анализа больших языковых моделей

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в задачах генерации кода. Однако их эффективность в значительной степени зависит от обучения с учителем на обширных размеченных (например, парах «вопрос-ответ») или неразмеченных наборах данных (например, фрагментах кода), которые зачастую дорого и сложно получить в больших объемах. Чтобы устранить это ограничение, в данной статье представлен метод IPC — неконтролируемая структура, которая использует внутреннее зондирование LLM для генерации кода без какого-либо внешнего корпуса, включая даже неразмеченные фрагменты кода. Мы вводим зондирование пространства задач, зондирование понимания тестов, зондирование пространства решений, а также консолидацию и закрепление знаний для исследования внутренних знаний и паттернов уверенности, существующих в LLM. Кроме того, IPC идентифицирует надежные кандидаты в коде с помощью механизмов самосогласованности и оценки качества на основе репрезентаций для обучения UCoder (кодера с неконтролируемым обучением). Мы проверяем предложенный подход на нескольких эталонных тестах по коду, демонстрируя, что неконтролируемые методы могут достичь конкурентоспособной производительности по сравнению с контролируемыми подходами, одновременно значительно снижая зависимость от размеченных данных и вычислительных ресурсов. Аналитические эксперименты показывают, что внутренние состояния модели содержат богатые сигналы о качестве и корректности кода, и что правильное использование этих сигналов позволяет осуществлять эффективное неконтролируемое обучение для задач генерации кода, открывая новые направления для обучения кодогенерирующих LLM в условиях ограниченных ресурсов.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code generation tasks. However, their effectiveness heavily relies on supervised training with extensive labeled (e.g., question-answering pairs) or unlabeled datasets (e.g., code snippets), which are often expensive and difficult to obtain at scale. To address this limitation, this paper introduces a method IPC, an unsupervised framework that leverages Internal Probing of LLMs for Code generation without any external corpus, even unlabeled code snippets. We introduce the problem space probing, test understanding probing, solution space probing, and knowledge consolidation and reinforcement to probe the internal knowledge and confidence patterns existing in LLMs. Further, IPC identifies reliable code candidates through self-consistency mechanisms and representation-based quality estimation to train UCoder (coder with unsupervised learning). We validate the proposed approach across multiple code benchmarks, demonstrating that unsupervised methods can achieve competitive performance compared to supervised approaches while significantly reducing the dependency on labeled data and computational resources. Analytic experiments reveal that internal model states contain rich signals about code quality and correctness, and that properly harnessing these signals enables effective unsupervised learning for code generation tasks, opening new directions for training code LLMs in resource-constrained scenarios.

UCoder: Неавтоматическая генерация кода посредством внутреннего анализа больших языковых моделей

UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

Аннотация

Support