번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 다양한 응용 분야에서 뛰어난 텍스트 생성 능력을 바탕으로 혁신적인 기술로 부상했습니다. 그러나 생성된 콘텐츠의 정확성과 적절성에 대한 우려는 여전히 남아 있습니다. 이러한 문제를 해결하기 위해 최근에는 자기 수정(self-correction)이라는 방법론이 제안되었습니다. 본 논문은 이러한 전제를 바탕으로 LLMs 내에서 자기 수정의 역할과 효용성을 비판적으로 검토하며, 그 진정한 잠재력과 한계를 밝히고자 합니다. 우리의 연구에서 중점적으로 다루는 것은 내재적 자기 수정(intrinsic self-correction)의 개념으로, 이는 외부 피드백 없이 LLM이 자체 능력만을 바탕으로 초기 응답을 수정하려는 시도를 의미합니다. 특히 추론(reasoning) 맥락에서, 우리의 연구는 LLMs가 외부 피드백 없이 응답을 자기 수정하는 데 어려움을 겪으며, 경우에 따라 자기 수정 후 성능이 오히려 저하될 수 있음을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 이 분야의 향후 연구와 실용적 응용을 위한 제안을 제시합니다.
최근 다양한 조건부 이미지 생성 및 편집 모델이 텍스트-이미지 생성, 텍스트 기반 이미지 편집, 주체 기반 이미지 생성, 제어 기반 이미지 생성 등 다양한 하위 작업을 위해 개발되었습니다. 그러나 실험 조건(데이터셋, 추론, 평가 지표)에서 큰 불일치가 관찰되어 공정한 비교를 어렵게 만듭니다. 본 논문은 모든 조건부 이미지 생성 모델의 추론과 평가를 표준화하기 위한 원스톱 라이브러리인 ImagenHub를 제안합니다. 첫째, 7가지 주요 작업을 정의하고 이를 위한 고품질 평가 데이터셋을 구축했습니다. 둘째, 공정한 비교를 보장하기 위해 통합 추론 파이프라인을 구축했습니다. 셋째, 생성된 이미지를 평가하기 위해 의미적 일관성(Semantic Consistency)과 지각적 품질(Perceptual Quality)이라는 두 가지 인간 평가 점수와 포괄적인 가이드라인을 설계했습니다. 우리는 전문 평가자를 훈련시켜 제안된 지표를 기반으로 모델 출력을 평가하도록 했습니다. 인간 평가는 76%의 모델에서 Krippendorff's alpha 값이 0.4 이상으로 높은 평가자 간 일치도를 달성했습니다. 총 약 30개의 모델을 포괄적으로 평가한 결과 세 가지 주요 인사이트를 얻었습니다: (1) 텍스트 기반 이미지 생성과 주체 기반 이미지 생성을 제외한 기존 모델의 성능은 대체로 만족스럽지 않았으며, 74%의 모델이 전체 점수 0.5 미만을 기록했습니다. (2) 발표된 논문의 주장을 검토한 결과 83%가 몇 가지 예외를 제외하고 유효했습니다. (3) 주체 기반 이미지 생성을 제외하고는 기존의 자동 평가 지표 중 Spearman 상관계수가 0.2를 초과하는 경우가 없었습니다. 앞으로 우리는 새로 발표된 모델을 계속 평가하고 리더보드를 업데이트하여 조건부 이미지 생성 분야의 발전을 추적할 계획입니다.
사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅은 언어 모델이 추론 과제에서 인상적인 성능을 보여주지만, 일반적으로 추론 과정의 레이블이 지정된 예시가 필요합니다. 본 연구에서는 대형 언어 모델의 추론 과정을 자동으로 안내하기 위해 새로운 프롬프팅 접근법인 '유추 프롬프팅(Analogical Prompting)'을 소개합니다. 이 방법은 인간이 새로운 문제를 해결하기 위해 관련된 과거 경험을 활용하는 인지 과정인 유추적 추론에서 영감을 받았습니다. 우리의 접근법은 언어 모델이 주어진 문제를 해결하기 전에 관련된 예시나 지식을 스스로 생성하도록 유도합니다. 이 방법은 몇 가지 장점을 가지고 있습니다: 예시에 레이블을 지정하거나 검색할 필요가 없어 일반성과 편의성을 제공하며, 생성된 예시와 지식을 각 문제에 맞게 조정할 수 있어 적응성을 제공합니다. 실험 결과, 우리의 접근법은 GSM8K와 MATH의 수학 문제 해결, Codeforces의 코드 생성, 그리고 BIG-Bench의 기타 추론 과제 등 다양한 추론 과제에서 0-shot CoT와 수동 few-shot CoT를 능가하는 성능을 보여주었습니다.
최근 대규모 언어 모델(LLMs)은 지능형 에이전트와 차세대 자동화를 향해 큰 잠재력을 보여주고 있지만, 현재로서는 LLM의 에이전트로서의 능력을 평가하기 위한 체계적인 벤치마크가 부족한 상황입니다. 우리는 SmartPlay를 소개합니다: 이는 LLM을 에이전트로 평가하기 위한 도전적인 벤치마크이자 방법론입니다. SmartPlay는 가위바위보, 하노이의 탑, 마인크래프트를 포함한 6가지 다른 게임으로 구성되어 있습니다. 각 게임은 고유한 설정을 갖추고 있어 최대 20개의 평가 설정과 무한한 환경 변형을 제공합니다. SmartPlay의 각 게임은 지능형 LLM 에이전트의 9가지 중요한 능력 중 일부를 독특하게 테스트하며, 이에는 객체 의존성 추론, 미리 계획하기, 공간 추론, 역사로부터 학습하기, 무작위성 이해하기 등이 포함됩니다. 각 게임이 테스트하는 능력 집합 간의 차이를 통해 우리는 각 능력을 개별적으로 분석할 수 있습니다. SmartPlay는 LLM 에이전트의 전반적인 성능을 평가하기 위한 엄격한 테스트 환경으로서뿐만 아니라, 현재 방법론의 격차를 식별하기 위한 로드맵으로서도 기능합니다. 우리는 이 벤치마크를 github.com/LLMsmartplay/SmartPlay에서 공개합니다.