HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

14 papers found

SmolLM2: 작은 언어 모델의 데이터 중심 훈련 시, Smol이 커지다
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Feb 4

ByLoubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf

243

대형 언어 모델은 인공 지능의 많은 응용 분야에서의 획기적인 발전을 촉진했지만, 그들의 고유한 거대함은 계산적으로 비싸며 자원이 제한된 환경에서의 배포가 어렵게 만듭니다. 본 논문에서는 최첨단 "소형" (17억 개의 매개변수) 언어 모델(SmolLM2)의 개발을 기술합니다. 강력한 성능을 달성하기 위해 SmolLM2를 약 11조 토큰의 데이터로 다단계 훈련 과정을 통해 과적합시켰는데, 이 과정에서 웹 텍스트와 전문 수학, 코드, 그리고 지시어를 따르는 데이터를 혼합했습니다. 우리는 기존 데이터셋이 문제적으로 작거나 품질이 낮다고 판단된 단계에서 새로운 전문 데이터셋(FineMath, Stack-Edu, SmolTalk)을 도입했습니다. 설계 결정을 지원하기 위해 우리는 소규모 제거 실험과 이전 단계의 성능을 기반으로 각 단계에서 데이터셋 혼합 비율을 업데이트하는 수동 정제 과정을 수행했습니다. 결과적으로, SmolLM2가 Qwen2.5-1.5B와 Llama3.2-1B를 포함한 최근 소형 언어 모델을 능가함을 입증했습니다. LM 개발 및 소형 LM의 응용에 대한 향후 연구를 촉진하기 위해, 이 프로젝트 과정에서 준비한 모든 데이터셋과 함께 SmolLM2를 공개합니다.

추론을 위한 LIMO: 적은 것이 더 좋다
LIMO: Less is More for Reasoning

Feb 5

ByYixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu

대규모 언어 모델에서 복잡한 추론이 어떻게 발생하는지에 대한 우리의 이해를 도전하는 근본적인 발견을 제시합니다. 일반적인 상식은 정교한 추론 작업이 많은 학습 데이터(>100,000 예시)를 요구한다고 주장하지만, 우리는 복잡한 수학적 추론 능력이 놀랍도록 적은 예시로 효과적으로 유도될 수 있다는 것을 증명합니다. 포괄적인 실험을 통해 우리가 제안하는 LIMO 모델은 수학적 추론에서 전례 없는 성능을 보여줍니다. 817개의 선별된 훈련 샘플만 사용하여, LIMO는 AIME에서 57.1%의 정확도와 MATH에서 94.8%의 정확도를 달성하며, 이는 이전 SFT 기반 모델의 각각 6.5% 및 59.2%에서 향상되었습니다. 이는 이전 방법에 필요한 훈련 데이터의 1%만을 사용하였습니다. LIMO는 10가지 다양한 벤치마크에서 40.5%의 절대적인 향상을 달성하며, 100배 더 많은 데이터로 훈련된 모델들을 능가하여, SFT가 기억이 아닌 일반화로 이어진다는 개념에 도전합니다. 이러한 결과를 바탕으로, 우리는 Less-Is-More Reasoning 가설 (LIMO 가설)을 제안합니다. 이 가설은 사전 훈련 중에 도메인 지식이 철저히 부여된 기초 모델에서, 정교한 추론 능력이 최소한이지만 정확하게 조율된 인지 과정의 시연을 통해 발현될 수 있다고 주장합니다. 이 가설은 복잡한 추론을 유도하는 임계점이 두 가지 주요 요소에 의해 결정된다고 제안합니다: (1) 사전 훈련 중 모델의 부여된 지식 기초의 완성도, (2) 사후 훈련 예시가 모델에게 어떻게 지식 기반을 활용하여 복잡한 추론 작업을 해결할지를 보여주는 "인지 템플릿"으로서의 효과성. 데이터 효율적 추론에 대한 재현성과 미래 연구를 촉진하기 위해, 우리는 LIMO를 https://github.com/GAIR-NLP/LIMO에서 포괄적인 오픈 소스 스위트로 공개합니다.

LLM에서의 긴 사고 연쇄 추론 해부하기
Demystifying Long Chain-of-Thought Reasoning in LLMs

Feb 5

ByEdward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue

추론 컴퓨팅 규모 확장은 대규모 언어 모델(LLMs)에서 추론을 향상시키며, 긴 사고 체인(CoTs)은 backtracking 및 오류 수정과 같은 전략을 가능하게 합니다. 강화 학습(RL)은 이러한 능력을 개발하는 데 중요한 방법으로 등장했지만, 긴 CoTs가 발생하는 조건은 여전히 명확하지 않으며, RL 훈련은 신중한 설계 선택을 필요로 합니다. 본 연구에서는 긴 CoT 추론의 메커니즘을 체계적으로 조사하여 모델이 긴 CoT 궤적을 생성할 수 있도록 하는 주요 요소를 식별합니다. 광범위한 지도 미세 조정(SFT) 및 RL 실험을 통해 우리는 네 가지 주요 결과를 제시합니다: (1) SFT가 엄격히 필요하지는 않지만 훈련을 단순화하고 효율성을 향상시킵니다; (2) 추론 능력은 훈련 컴퓨팅 증가와 함께 나타나지만, 그 발전은 보장되지 않으며, 보상 형성이 CoT 길이 증가를 안정화하는 데 중요합니다; (3) 검증 가능한 보상 신호의 규모 확장은 RL에 중요합니다. 우리는 잡음이 많은 웹에서 추출된 솔루션을 필터링 메커니즘과 결합하여 OOD 작업(예: STEM 추론)에 특히 강점을 보이는 것으로 발견했습니다; 그리고 (4) 오류 수정과 같은 핵심 능력은 기본 모델에 내재되어 있지만, 이러한 기술을 효과적으로 장려하는 것은 RL을 통해 복잡한 작업에 대해 상당한 컴퓨팅을 요구하며, 그 발생을 측정하는 데는 세심한 접근이 필요합니다. 이러한 통찰력은 LLMs에서 긴 CoT 추론을 향상시키기 위한 훈련 전략을 최적화하는 데 실용적인 지침을 제공합니다. 우리의 코드는 다음에서 이용 가능합니다: https://github.com/eddycmu/demystify-long-cot.

TwinMarket: 금융 시장을 위한 확장 가능한 행동 및 사회 시뮬레이션
TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets

Feb 3

ByYuzhe Yang, Yifei Zhang, Minghao Wu, Kaidi Zhang, Yunmiao Zhang, Honghai Yu, Yan Hu, Benyou Wang

사회적 발생 현상의 연구는 오랫동안 사회과학의 중심 주제였습니다. 전통적인 모델링 접근 방식인 규칙 기반 에이전트 기반 모델(ABM)은 인간 행동의 다양성과 복잡성, 특히 행동 경제학에서 강조되는 이성적이지 않은 요소들을 포착하는 데 어려움을 겪었습니다. 최근에는 대형 언어 모델(LLM) 에이전트가 사회과학 및 롤플레잉 응용 프로그램에서 인간 행동을 모델링하는 시뮬레이션 도구로 주목받고 있습니다. 연구들은 LLM이 인지적 편향, 감정적 변동 및 기타 비이성적 영향을 설명할 수 있어 더 현실적인 사회경제 역학의 시뮬레이션을 가능케 한다고 제안합니다. 본 연구에서는 LLM을 활용하여 사회경제 시스템을 시뮬레이션하는 혁신적인 다중 에이전트 프레임워크인 TwinMarket을 소개합니다. 구체적으로, 우리는 개별 행동이 상호작용과 피드백 메커니즘을 통해 집단 역학과 발생 현상을 일으키는 방식을 조사합니다. 시뮬레이션된 주식 시장 환경에서의 실험을 통해, 우리는 개별 행동이 집단 행동을 유발하여 재정거품과 경기침체와 같은 발생적 결과를 초래할 수 있다는 것을 보여줍니다. 우리의 접근 방식은 개별 의사 결정과 집단 사회경제 패턴 간의 복잡한 상호작용에 대한 소중한 통찰을 제공합니다.

MCTS-자동화된 구조화된 사고를 활용한 멀티모달 추론 강화
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking

Feb 4

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Ruihan Jin, Feihu Che, Zengqi Wen, Jianhua Tao

다중 모달 대형 언어 모델(Multimodal large language models, MLLMs)은 인상적인 능력을 보여주지만 여전히 복잡한 시각적 추론에서 어려움을 겪고 있습니다. 최근의 노력들은 OpenAI의 o1과 유사한 구조화된 사고를 명시적인 탐색 구조나 교사 지도 증류를 통해 MLLMs의 추론을 강화하려고 시도했지만, 종종 성능과 효율성을 균형있게 유지하는 데 어려움을 겪고 있습니다. 중요한 제한 사항은 방대한 데이터와 탐색 공간에 대한 과도한 의존으로, 낮은 효율성의 암묵적 통찰력 추출과 데이터 활용이 발생합니다. 이를 해결하기 위해 우리는 다중 모달 추론을 위한 자동 구조화 사고 패러다임인 AStar를 제안합니다. AStar는 몬테 카를로 트리 탐색(Monte Carlo Tree Search, MCTS)를 통해 제한된 데이터에서 고수준의 인지 추론 패턴을 자동으로 도출합니다. 이러한 명시적 패턴을 기반으로, 모델의 내부 추론 능력과 외부 추론 지침을 신속하게 통합하는 통합 추론 프레임워크를 설계하여, 최소한의 트리 반복으로 효율적인 추론을 가능하게 합니다. 이 새로운 패러다임은 성능과 효율성 사이에 매력적인 균형을 이룹니다. 방대한 실험 결과는 AStar의 효과를 입증하며, MathVerse 벤치마크에서 7B 백본으로 우수한 정확도(54.0%)를 달성하여 GPT-4o(50.2%)를 능가하면서 상당한 데이터 및 계산 효율성을 유지합니다.

LayerTracer: 확산을 통한 인지-맞춤형 계층 SVG 합성 Transformer
LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer

Feb 3

ByYiren Song, Danze Chen, Mike Zheng Shou

인지에 맞는 층으로 구성된 SVG를 생성하는 것은 기존 방법들이 과도하게 단일 층으로 간소화된 결과물이나 최적화로 인한 모양의 중복으로 이어지는 경향으로 인해 여전히 어려운 문제입니다. LayerTracer라는 확산 트랜스포머 기반 프레임워크를 제안하여 이 간극을 메우고자 합니다. 이 프레임워크는 디자이너들의 층으로 구성된 SVG 생성 과정을 학습하기 위한 새로운 순차적 디자인 작업 데이터셋으로부터 학습합니다. 우리의 방법은 두 단계로 작동합니다. 먼저, 텍스트 조건화된 DiT가 인간의 디자인 작업 흐름을 모방하는 다상 구성 청사진을 생성합니다. 그 다음, 층별 벡터화와 경로 중복 제거를 통해 깨끗하고 편집 가능한 SVG를 생성합니다. 이미지 벡터화를 위해 우리는 참조 이미지를 잠재 토큰으로 인코딩하는 조건부 확산 메커니즘을 소개하여 계층적 재구성을 안내하면서 구조적 무결성을 보존합니다. 광범위한 실험을 통해 LayerTracer가 생성 품질과 편집 가능성 측면에서 최적화 기반 및 신경망 기반 기준에 비해 우수한 성능을 보여주며, AI가 생성한 벡터를 전문적인 디자인 인지와 효과적으로 일치시키는 것을 입증하였습니다.

언어 모델 증류에서의 교사 해킹에 관한 연구
On Teacher Hacking in Language Model Distillation

Feb 4

ByDaniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel

언어 모델(LMs)의 사후 훈련은 점점 더 다음 두 단계에 의존하고 있습니다: (i) 지식 증류, 여기서 LM은 더 큰 교사 LM을 모방하도록 훈련되고, (ii) 인간 피드백으로부터 강화 학습(RLHF), 여기서 LM은 보상 모델을 최적화하여 정렬됩니다. 두 번째 RLHF 단계에서 잘 알려진 도전 과제는 보상 해킹(reward hacking)인데, 여기서 LM은 보상 모델을 지나치게 최적화합니다. 이러한 현상은 Goodhart의 법칙과 일치하며, 참된 목표에 대한 성능 저하로 이어질 수 있습니다. 본 논문에서는, 우리가 교사 해킹(teacher hacking)이라고 부르는 유사한 현상이 지식 증류 과정 중 발생할 수 있는지 조사합니다. 이는 교사 LM이 참 분포의 불완전한 근사일 수 있기 때문에 발생할 수 있습니다. 이를 연구하기 위해, 우리는 다음을 포함하는 통제된 실험적 설정을 제안합니다: (i) 참 분포를 나타내는 오라클 LM, (ii) 오라클에서 증류된 교사 LM, 그리고 (iii) 교사에서 증류된 학생 LM. 우리의 실험은 다음 통찰을 드러냅니다. 증류를 위해 고정 오프라인 데이터셋을 사용할 때, 교사 해킹이 발생하며, 또한 최적화 과정이 다항 수렴 법칙에서 벗어날 때 이를 감지할 수 있습니다. 반면에 온라인 데이터 생성 기술을 사용하면 교사 해킹을 효과적으로 완화할 수 있습니다. 더 구체적으로, 데이터 다양성을 해킹 방지의 핵심 요소로 확인합니다. 전반적으로, 우리의 결과는 견고하고 효율적인 LM을 구축하기 위한 증류의 이점과 한계에 대한 깊은 이해를 제공합니다.

토큰 혼합: 향상된 언어 모델 추론을 위한 잠재 및 텍스트 토큰 혼합
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

Feb 5

ByDiJia Su, Hanlin Zhu, Yingchen Xu, Jiantao Jiao, Yuandong Tian, Qinqing Zheng

대형 언어 모델 (LLM)은 chain-of-thought (CoT) 데이터로 훈련될 때 추론 및 계획에 뛰어납니다. 여기서는 단계별 사고 과정이 텍스트 토큰에 의해 명시적으로 개요되어 있습니다. 그러나 이로 인해 핵심 추론 정보보다는 텍스트 일관성을 지원하는 많은 단어가 포함된 긴 입력이 발생하며, 이러한 입력을 처리하는 데 상당한 계산 자원이 소비됩니다. 본 연구에서는 추론 과정의 하이브리드 표현을 제안합니다. 여기서는 VQ-VAE에 의해 생성된 잠재 이산 토큰을 사용하여 초기 추론 단계를 일부 추상화하여 추론 트레이스의 길이를 크게 줄입니다. 우리는 잠재 추적 추상화의 사용을 두 가지 시나리오에서 탐구합니다: 1) Keys-Finding Maze 문제에 대해 모델을 처음부터 훈련하는 것, 2) 논리 및 수학적 추론 문제에 대해 보이지 않는 잠재 토큰을 포함한 확장된 어휘로 이 하이브리드 데이터에서 LLM을 세밀하게 조정하는 것. 효과적인 학습을 돕기 위해 우리는 잠재 및 텍스트 토큰을 무작위로 섞는 간단한 훈련 절차를 소개합니다. 이는 새로운 잠재 토큰에 빠르게 적응할 수 있도록 합니다. 우리의 접근 방식은 다양한 벤치마크에서 기존 방법보다 일관되게 우수한 성능을 보입니다.

대규모 언어 모델 안내 자체 디버깅 코드 생성
Large Language Model Guided Self-Debugging Code Generation

Feb 5

ByMuntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn

자동 코드 생성은 지능적인 컴퓨터 프로그래밍과 시스템 배포에서 중요성을 점차 얻고 있습니다. 그러나 현재의 방법들은 계산 효율성과 코드 구문 분석 및 오류 수정을 위한 견고한 메커니즘에 대한 도전에 직면하고 있습니다. 본 연구에서는 Python 코드 생성을 위한 간단하면서도 효과적인 두 에이전트 파이프라인과 효율적인 자체 디버깅 모듈을 갖춘 새로운 프레임워크인 PyCapsule을 제안합니다. PyCapsule은 정교한 프롬프트 추론, 반복적인 오류 처리, 케이스 테스트를 특징으로 하며, 높은 생성 안정성, 안전성, 정확성을 보장합니다. 경험적으로, PyCapsule은 최첨단 방법에 비해 HumanEval에서 성공률이 최대 5.7% 향상되었으며, HumanEval-ET에서 10.3%, BigCodeBench에서 24.4% 향상되었습니다. 더 많은 자체 디버깅 시도가 있을수록 표준화된 성공률이 감소하는 것을 관찰하였으며, 이는 제한적이고 소음이 있는 오류 피드백에 영향을 받을 수 있습니다. PyCapsule은 인공지능 시스템을 위한 경량이면서 효율적인 코드 생성을 발전시키는 데 더 넓은 영향을 보여줍니다.

LLM의 추론 시간 스케일링을 위한 확률적 추론 접근 입자 기반 몬테카를로 방법 사용
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Feb 3

ByIsha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

대형 언어 모델(Large language models, LLMs)은 모델 크기 및/또는 데이터 확장을 통해 상당한 성능 향상을 이룩했습니다. 그러나 최근의 증거는 이러한 방법들로부터의 한계가 있음을 시사하며, 추론 시 소비되는 계산을 확장하는 것을 동기로 합니다. 기존의 추론 시 확장 방법은 일반적으로 보상 모델을 사용하여 작업을 탐색 문제로 캐스팅하며, 이는 보상 모델의 근사 오차로 인한 보상 해킹에 취약할 수 있습니다. 본 논문에서는 추론 시 확장을 확률적 추론 작업으로 캐스팅하고, 근사 우도를 가진 상태 공간 모델의 일반적인 집합을 탐색하기 위해 샘플링 기반 기술을 활용합니다. 우리는 입자 기반 몬테카를로 방법을 이 작업에 적응시킨 새로운 추론 시 확장 접근 방식을 제안합니다. 우리의 경험적 평가는 우리의 방법이 다양한 어려운 수학적 추론 작업에서 우리의 결정론적 탐색 대조군에 비해 4-16배 더 나은 확장 속도를 갖는 것을 보여줍니다. 우리의 방법을 사용하여, Qwen2.5-Math-1.5B-Instruct는 4회 롤아웃만으로 GPT-4o 정확도를 능가할 수 있으며, Qwen2.5-Math-7B-Instruct는 32회 롤아웃만으로 o1 수준의 정확도에 도달할 수 있습니다. 우리의 연구는 추론 시 확장에 대한 효과적인 방법을 제시할 뿐만 아니라, 확률적 추론의 풍부한 문헌과 LLMs의 추론 시 확장을 연결하여 미래 작업에서 더 견고한 알고리즘을 개발하는 데 기여합니다. 코드 및 추가 정보는 https://probabilistic-inference-scaling.github.io에서 확인할 수 있습니다.

Universal Multi-Prompts를 사용한 탈옥
Jailbreaking with Universal Multi-Prompts

Feb 3

ByYu-Ling Hsu, Hsuan Su, Shang-Tse Chen

최근 몇 년간 대형 언어 모델(LLMs)은 급속한 발전을 보여, 다양한 응용 프로그램을 혁신적으로 변화시키고 편의성과 생산성을 크게 향상시켰습니다. 그러나 그들의 인상적인 능력과 함께 윤리적인 우려와 jailbreaking과 같은 새로운 유형의 공격이 등장했습니다. 대부분의 프롬프팅 기술은 개별 사례에 대한 적대적 입력을 최적화하는 데 초점을 맞추었으며, 이는 대규모 데이터셋을 처리할 때 더 높은 계산 비용을 초래합니다. 일반적인 설정에서 보다 일반적인 공격자를 훈련시킬 수 있는 방법에 대한 연구는 덜 이루어졌습니다. 본 논문에서는 universal multi-prompts를 사용하여 LLMs를 jailbreak하는 JUMP라는 프롬프트 기반 방법을 소개합니다. 또한 우리의 방법을 방어용으로 적응시켜 DUMP라고 명명합니다. 실험 결과는 우리의 universal multi-prompts 최적화 방법이 기존 기술을 능가한다는 것을 입증합니다.

대규모 언어 모델의 활성화 정보를 활용한 병합
Activation-Informed Merging of Large Language Models

Feb 4

ByAmin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan

모델 병합은 여러 개의 세밀하게 조정된 대형 언어 모델 (LLM)의 매개변수와 임베딩을 결합하는 방법으로, 계산 효율성을 유지하면서 다양한 작업에서 모델 성능을 향상시키는 유망한 방법을 제공합니다. 본 논문은 활성화 정보를 활용한 병합 (AIM)이라는 기술을 소개하며, LLM의 활성화 공간에서 정보를 통합하여 성능과 견고성을 향상시키는 방법을 제시합니다. AIM은 유연하고 보완적인 솔루션이며, 기존의 병합 방법에 적용 가능하도록 설계되었습니다. AIM은 기본 모델로부터 중요한 가중치를 보존하고, 계속적 학습 (CL) 및 모델 압축의 원칙을 활용합니다. 작업에 중립적인 보정 세트를 활용하여 AIM은 병합 중 중요한 가중치를 선택적으로 우선시합니다. 우리는 경험적으로 증명되었으며, AIM이 여러 벤치마크에서 병합된 모델의 성능을 크게 향상시킨다는 것을 보여줍니다. 우리의 연구 결과는 활성화 공간 정보를 고려함으로써, LLM의 모델 병합 전략에서 상당한 진전을 이룰 수 있으며, 벤치마크 성능이 최대 40% 향상될 수 있다는 것을 시사합니다.

이 문제를 푸시오! 검은색 멤버십 추론을 위한 은밀함 증가 생성
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Feb 1

ByAli Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr

검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)이 외부 지식 데이터베이스를 활용하여 모델 파라미터를 변경하지 않고 근거 있는 응답을 생성할 수 있게 합니다. 가중치 조정의 부재로 인해 모델 파라미터를 통한 정보 누출이 방지되지만, 이는 검색된 문서가 모델의 맥락에서 추론 적대자에 의해 악용될 위험을 도입합니다. 기존의 회원 정보 추론 및 데이터 추출 방법은 주로 탈옥이나 신중하게 설계된 비자연스러운 쿼리에 의존하는데, 이는 RAG 시스템에서 일반적인 쿼리 재작성 기술로 쉽게 감지되거나 방해될 수 있습니다. 본 연구에서는 RAG 데이터 저장소의 문서를 대상으로 하는 회원 정보 추론 기술인 Interrogation Attack (IA)을 제시합니다. 대상 문서의 존재로만 답변 가능한 자연어 쿼리를 작성함으로써, 우리의 접근 방식은 30개의 쿼리만으로 성공적인 추론을 시연하면서도 은밀하게 유지됩니다. 기존 방법에서의 적대적 프롬프트는 우리의 공격에 의해 생성된 것보다 약 76배 더 자주 감지됩니다. 우리는 다양한 RAG 구성에서 이전 추론 공격에 비해 TPR@1%FPR에서 2배의 성능 향상을 관찰하며, 문서 추론 당 비용이 $0.02 미만입니다.

HackerRank-ASTRA: 대규모 언어 모델의 정확성과 일관성 평가 다중 파일 프로젝트 문제에서의 교차 도메인 평가
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

Jan 31

ByJun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta

대형 언어 모델(Large Language Models, LLMs)의 실제 적용 가능성을 평가하는 것은 소프트웨어 개발 작업에서의 개발 및 사용에 대한 유용한 통찰을 제공합니다. 기존의 벤치마크는 종종 독립적인 코딩 문제나 특정 라이브러리에 초점을 맞추며, 다중 파일, 프로젝트 기반 시나리오를 간과하고 일관성에 대한 엄격한 평가를 미흡하게 합니다. HackerRank-ASTRA 벤치마크는 실제 시나리오를 반영하는 프로젝트 기반 코딩 문제를 소개합니다. 이는 32회의 실행(k = 32)과 중앙값 표준 편차를 통해 모델의 일관성을 평가하며, 세분화 수준 분석을 통해 하위 기술 능력을 평가합니다. 65개 문제에 대한 초기 평가 결과, 상위 세 모델인 o1, o1-preview, Claude-3.5-Sonnet-1022가 각각 75%의 평균 점수를 달성하며, 성능상 통계적으로 유의미한 차이가 없었습니다. 특히, Claude-3.5-Sonnet-1022는 문제 간에서 가장 높은 일관성을 보여주었으며(변동성이 낮음, SD = 0.0497), 다른 모델과 비교하여 통계적으로 유의미했으며, 실제 소프트웨어 개발 작업에 대한 신뢰성을 강조했습니다.

추론을 위한 LIMO: 적은 것이 더 좋다
LIMO: Less is More for Reasoning

Feb 5

ByYixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu