번역이 포함된 일일 선별된 AI 연구 논문
장거리 문맥 모델링은 차세대 언어 모델에 있어 중요하지만 표준 어텐션 메커니즘의 높은 계산 비용은 상당한 계산적 도전을 제기합니다. 희소 어텐션은 효율성을 향상시키면서 모델 기능을 유지하는 유망한 방향을 제시합니다. 본 논문에서는 알고리즘적 혁신과 하드웨어에 맞춘 최적화를 통합하여 효율적인 장거리 문맥 모델링을 달성하는 네이티브하게 학습 가능한 희소 어텐션 메커니즘인 NSA를 제안합니다. NSA는 전역 문맥 인식과 지역 정밀도를 보존하기 위해 거친 토큰 압축과 세밀한 토큰 선택을 결합하는 동적 계층적 희소 전략을 사용합니다. 우리의 접근 방식은 두 가지 주요 혁신을 통해 희소 어텐션 설계를 발전시킵니다: (1) 최신 하드웨어에 대한 구현 최적화를 통해 산술 강도 균형 조절 알고리즘 설계를 통해 상당한 가속을 달성합니다. (2) 모델 성능을 희생하지 않고 사전 훈련 계산을 줄이는 엔드-투-엔드 훈련을 가능하게 합니다. 그림 1에 나타난 바와 같이 실험 결과, NSA로 사전 훈련된 모델은 일반 벤치마크, 장거리 작업 및 명령 기반 추론에서 Full Attention 모델을 유지하거나 능가합니다. 한편, NSA는 디코딩, 순방향 전파 및 역방향 전파에서 64k 길이 시퀀스에서 Full Attention에 비해 상당한 가속을 달성하여 모델 수명 주기 전반에 걸쳐 효율성을 입증합니다.
우리는 SWE-Lancer를 소개합니다. 이는 Upwork에서 온 1,400개 이상의 프리랜서 소프트웨어 엔지니어링 작업들을 포함한 벤치마크로, 총 1백만 달러에 달하는 실제 보상이 이뤄지는 작업들입니다. SWE-Lancer는 50개의 버그 수정부터 32,000달러에 이르는 기능 구현과 같은 독립적인 엔지니어링 작업들과 기술적 구현 제안 사이에서 모델이 선택해야 하는 관리 작업들을 포함하고 있습니다. 독립적인 작업들은 경험 많은 소프트웨어 엔지니어들에 의해 세 번 검증된 종단간 테스트로 평가되며, 관리 결정은 원래 고용된 엔지니어링 관리자들의 선택과 비교됩니다. 우리는 모델 성능을 평가하고, 선두 모델이 여전히 대부분의 작업을 해결할 수 없는 것으로 밝혀졌습니다. 미래 연구를 촉진하기 위해 통합된 Docker 이미지와 공개 평가 분할인 SWE-Lancer Diamond을 오픈소스로 제공합니다 (https://github.com/openai/SWELancer-Benchmark). 모델 성능을 금전적 가치에 매핑함으로써, SWE-Lancer가 AI 모델 개발의 경제적 영향에 대한 보다 깊은 연구를 가능하게 할 것을 희망합니다.
자동 추락 복구는 인간형 로봇이 신뢰성 있게 배치되기 전에 중요한 선행 조건입니다. 일어서는 컨트롤러를 수동으로 설계하는 것은 어려운데, 이는 인간형 로봇이 추락 후 다양한 구성으로 끝날 수 있고, 인간형 로봇이 운영되기를 기대하는 도전적인 지형 때문입니다. 본 논문은 학습 프레임워크를 개발하여 인간형 로봇이 다양한 지형에서 다양한 구성에서 일어서도록 하는 컨트롤러를 생성합니다. 이전의 인간형 이동 학습의 성공적인 응용과 달리 일어서는 작업은 복잡한 접촉 패턴을 포함하며, 이는 충돌 지오메트리를 정확하게 모델링하고 보다 희소한 보상이 필요합니다. 이러한 도전에 대해 교육 과정을 따르는 두 단계 접근법을 통해 이를 해결합니다. 첫 번째 단계는 부드러움이나 속도/토크 제한에 대한 최소 제약 조건 하에 좋은 일어서는 궤적을 발견하는 데 초점을 맞춥니다. 그런 다음 두 번째 단계에서는 초기 구성과 지형의 변화에 견고한 (즉, 부드럽고 느린) 동작으로 발전된 동작을 개발합니다. 이러한 혁신들이 실제 세계의 G1 인간형 로봇이 우리가 고려한 두 가지 주요 상황에서 일어서도록 하는 것을 가능하게 합니다: a) 누워 얼굴을 위로 하고 b) 누워 얼굴을 아래로 하는 상황이며, 모두 평평하고 변형 가능하며 미끄러운 표면 및 경사 (예: 경사진 풀과 눈밭)에서 테스트되었습니다. 우리의 지식으로는 이것이 실제 세계에서 인간 크기의 인간형 로봇을 위한 학습된 일어서는 정책의 첫 성공적인 시연입니다. 프로젝트 페이지: https://humanoid-getup.github.io/
본 논문은 ThinkDiff를 제시하는데, 이는 시각-언어 모델의 강점을 통합하여 텍스트-이미지 확산 모델에 다중 모달 인-컨텍스트 이해 및 추론 능력을 부여하는 혁신적인 정렬 패러다임입니다. 기존의 다중 모달 확산 파인튜닝 방법은 주로 컨텍스트 추론보다는 픽셀 수준의 재구성에 중점을 두며, 추론 기반 데이터셋의 복잡성과 제한된 가용성에 제약을 받습니다. ThinkDiff는 시각-언어 훈련을 프록시 작업으로 활용하여 이러한 도전에 대처하며, 확산 디코더 대신 인코더-디코더 대형 언어 모델(LLM)의 디코더와 VLM을 정렬함으로써 이를 해결합니다. 이 프록시 작업은 LLM 디코더가 해당 LLM 인코더를 사용하여 프롬프트 임베딩에 사용하는 확산 디코더와 동일한 입력 특성 공간을 공유한다는 관찰에 기초합니다. 결과적으로, VLM을 확산 디코더와 정렬하는 것은 LLM 디코더와의 정렬을 통해 단순화될 수 있습니다. 복잡한 훈련과 데이터셋 없이 ThinkDiff는 확산 모델에서 이해, 추론 및 구성 능력을 효과적으로 발휘합니다. 실험 결과, ThinkDiff는 다중 모달 인-컨텍스트 추론 생성을 위한 어려운 CoBSAT 벤치마크에서 정확도를 19.2%에서 46.3%로 크게 향상시키며, 4대의 A100 GPU에서 5시간의 훈련만으로 이루어집니다. 또한, ThinkDiff는 여러 이미지와 텍스트를 논리적으로 일관된 이미지로 구성하는 데 뛰어난 성능을 보여줍니다. 프로젝트 페이지: https://mizhenxing.github.io/ThinkDiff.
대규모 언어 모델에 대한 현재 재학습 방법은 일반적으로 대상 토큰 확률을 줄이기 위해 역 최적화에 의존합니다. 그러나 이 패러다임은 후속 토큰 예측을 방해하여 모델 성능과 언어 일관성을 저하시킵니다. 게다가, 기존의 평가 지표는 맥락적인 잊힘을 과도하게 강조하면서 응답 유창성과 관련성을 부적절하게 평가합니다. 이러한 도전에 대처하기 위해 우리는 효과적인 재학습을 위한 데이터 증강 및 세밀 조정 파이프라인인 ReLearn과 포괄적인 평가 프레임워크를 제안합니다. 이 프레임워크는 지식 잊힘 비율(KFR) 및 지식 보존 비율(KRR)을 도입하여 지식 수준의 보존을 측정하며, 언어 점수(LS)를 통해 생성 품질을 평가합니다. 우리의 실험 결과, ReLearn이 목표로 하는 잊힘을 성공적으로 달성하면서 고품질 출력을 보존하는 것을 보여줍니다. 기계적 분석을 통해, 역 최적화가 일관된 텍스트 생성을 방해하는 반면, ReLearn은 이 중요한 능력을 보존하는 방법을 자세히 설명합니다. 코드는 https://github.com/zjunlp/unlearn에서 확인할 수 있습니다.
지식 집약적 작업에서 뛰어난 능력을 갖고 있음에도 불구하고 대규모 언어 모델(LLMs)은 어떻게 새로운 지식을 내재화하는지, 특히 획득한 지식을 신경 계산에 구조적으로 어떻게 포함시키는지에 대한 중요한 간극을 겪고 있습니다. 우리는 지식 회로 진화의 시각을 통해 이 문제에 대처하며, 지식 저장 및 처리를 용이하게 하는 계산 서브그래프를 식별합니다. 우리의 지속적 사전 훈련을 통한 회로 진화의 체계적 분석은 여러 가지 주요 발견을 드러냅니다: (1) 새로운 지식의 획득은 기존 지식과의 관련성에 영향을 받습니다; (2) 지식 회로의 진화는 형성에서 최적화로의 명확한 위상 변이를 보입니다; (3) 지식 회로의 진화는 깊은 것에서 얕은 것으로의 패턴을 따릅니다. 이러한 통찰은 LLMs에서 새로운 지식 획득 메커니즘에 대한 이론적 이해를 발전시킬 뿐만 아니라, 지속적 사전 훈련 전략을 개선하여 모델 성능을 향상시키는 잠재적 함의도 제공합니다. 코드와 데이터는 https://github.com/zjunlp/DynamicKnowledgeCircuits에서 제공될 예정입니다.
코드 생성, 상징적 수학 추론 및 기타 작업은 LLM이 구문적으로와 의미론적으로 올바른 출력물을 생성해야 하는 것을 요구합니다. 제약이 있는 LLM 생성은 공식 문법 준수를 강제하는 유망한 방향이지만, 이전 연구들은 공식적인 제약을 엄격히 시행하는 것이 종종 LLM의 추론 능력을 약화시킨다는 것을 경험적으로 관찰해왔습니다. 본 연구에서는 먼저 LLM 출력물을 구문적으로 유효한 최종 답변만 허용하는 매우 제한적인 문법으로 제약하는 것이 모델의 추론 능력을 감소시키는 이론적 설명을 제공합니다. 둘째, 우리는 출력 문법을 신중하게 설계된 추가 규칙으로 보강함으로써 LLM의 추론 능력을 보존하면서 출력물의 구문적 및 의미적 정확성을 보장하는 것이 항상 가능하다는 것을 시연합니다. 이러한 이론적 통찰을 기반으로, 우리는 추론을 강화한 제약 디코딩 알고리즘인 CRANE을 제안합니다. 이 알고리즘은 제약이 있는 생성의 정확성과 제약이 없는 생성의 유연성을 효과적으로 균형있게 유지합니다. 여러 오픈 소스 LLM 및 벤치마크에서의 실험 결과는 CRANE이 최첨단 제약 디코딩 전략과 표준 제약이 없는 디코딩보다 우수한 성능을 보여주며, 어려운 상징적 추론 벤치마크 GSM-symbolic 및 FOLIO에서 기준선 대비 최대 10% 포인트 정확도 향상을 보여줍니다.
우리는 자연 비디오의 가려진 영역을 예측하기 위해 훈련된 일반 목적의 심층 신경망 모델에서 직관적 물리학 이해의 발생을 조사합니다. 기대 위반 프레임워크를 활용하여, 학습된 표현 공간에서 결과를 예측하기 위해 훈련된 비디오 예측 모델은 물체의 영속성 및 모양 일관성과 같은 다양한 직관적 물리학 속성을 이해한다는 것을 발견했습니다. 이에 반해, 픽셀 공간 및 텍스트를 통해 추론하는 다중 모달 대형 언어 모델은 기대치에 더 가까운 성능을 달성합니다. 이러한 아키텍처들의 비교는 예측 코딩과 유사하게 감각 입력의 누락된 부분을 예측하면서 추상적 표현 공간을 공동으로 학습하는 것이 직관적 물리학을 이해하는 데 충분하다는 것을 보여주며, 심지어 일주일간의 고유 비디오로 훈련된 모델도 기대치 이상의 성능을 달성합니다. 이는 핵심 지식인 세트가 세계를 이해하는 데 도움을 주는 타고난 시스템의 집합이 직관적 물리학을 이해하기 위해 유선으로 되어야 한다는 아이디어에 도전합니다.
시스템 메시지부터 사용자 메시지, 대화 기록, 도구 출력에 이르는 우선순위를 설정하는 명령어 계층 구조는 언어 모델(LM)의 일관되고 안전한 동작을 보장하는 데 필수적입니다. 그 중요성에도 불구하고, 이 주제는 제한된 관심만을 받고 있으며, 모델이 명령어 계층 구조를 따르는 능력을 평가하기 위한 포괄적인 벤치마크가 부족한 실정입니다. 우리는 이러한 격차를 메우기 위해 IHEval이라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 9개 작업에 걸쳐 3,538개의 예시로 구성되어 있으며, 서로 다른 우선순위의 명령어가 일치하거나 충돌하는 경우를 다룹니다. 인기 있는 LM에 대한 우리의 평가는 이러한 모델들이 명령어 우선순위를 인식하는 데 어려움을 겪고 있음을 보여줍니다. 평가된 모든 모델은 원래의 명령어 수행 성능에 비해 충돌하는 명령어를 마주할 때 급격한 성능 저하를 경험했습니다. 더욱이, 가장 경쟁력 있는 오픈소스 모델조차도 이러한 충돌을 해결하는 데 있어 48%의 정확도만을 달성했습니다. 우리의 결과는 LM의 미래 개발에 있어 목표 지향적인 최적화의 필요성을 강조합니다.
Sailor2는 동남아시아(SEA) 언어를 위한 최첨단 다국어 언어 모델 패밀리로, 1B, 8B, 20B 크기로 제공되어 다양한 애플리케이션에 적합합니다. Qwen2.5를 기반으로 구축된 Sailor2는 500B 토큰(SEA 특화 400B 토큰 및 리플레이 100B 토큰)에 대한 지속적인 사전 학습을 거쳐 13개의 SEA 언어를 지원하면서도 중국어와 영어에 대한 숙련도를 유지합니다. Sailor2-20B 모델은 SEA 언어 전반에서 GPT-4o 대비 50-50의 승률을 달성합니다. 또한, 데이터 큐레이션, 사전 학습, 사후 학습, 모델 커스터마이징 및 평가라는 다섯 가지 핵심 측면을 포함하여 다국어 모델을 효율적으로 개발하는 방법에 대한 포괄적인 가이드북을 제공합니다. 우리는 Sailor2 모델(Apache 2.0 라이선스)이 SEA 지역의 언어 발전을 촉진하고, Sailor2 가이드북이 연구자들이 다른 소외된 언어를 위한 더 포용적인 대형 언어 모델(LLM)을 구축하는 데 영감을 줄 것으로 기대합니다.
대형 언어 모델(LLMs)은 정적인 학습 데이터에 의존하기 때문에 환각(hallucination)과 구식 지식 문제에 직면해 있습니다. 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부의 동적 정보를 통합하여 사실적이고 최신의 근거를 강화함으로써 이러한 문제를 완화합니다. 최근 다중모달 학습의 발전으로 텍스트, 이미지, 오디오, 비디오와 같은 다양한 모달리티를 통합하여 생성된 출력을 향상시키는 다중모달 RAG(Multimodal RAG)가 개발되었습니다. 그러나 크로스모달 정렬과 추론은 다중모달 RAG에 고유한 도전 과제를 제시하며, 이는 기존의 단일모달 RAG와 구별됩니다. 본 조사는 데이터셋, 메트릭, 벤치마크, 평가, 방법론 및 검색, 융합, 증강, 생성 분야의 혁신을 포괄적으로 분석한 다중모달 RAG 시스템에 대한 구조적이고 종합적인 분석을 제공합니다. 우리는 훈련 전략, 견고성 강화, 손실 함수를 정밀하게 검토하면서 다양한 다중모달 RAG 시나리오를 탐구합니다. 또한, 이 진화하는 분야의 발전을 지원하기 위해 열린 도전 과제와 미래 연구 방향에 대해 논의합니다. 본 조사는 다중모달 동적 외부 지식 기반을 효과적으로 활용할 수 있는 더 능력 있고 신뢰할 수 있는 AI 시스템 개발의 기반을 마련합니다. 관련 자료는 https://github.com/llm-lab-org/Multimodal-RAG-Survey에서 확인할 수 있습니다.
자가회귀 패러다임의 놀라운 성공은 다양한 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 중요한 발전을 이루었으며, Show-o, Transfusion, Emu3와 같은 강력한 모델들이 통합 이미지 이해와 생성에서 주목할만한 진전을 이루었습니다. 우리는 처음으로 MLLMs의 이해 능력이 일반적으로 생성 능력보다 강하며 두 가지 사이에 상당한 격차가 있다는 공통 현상을 발견했습니다. 이 통찰력을 기반으로, 우리는 이해와 생성 사이의 격차를 원활하게 교량짓는 간단하면서도 일반적인 프레임워크인 HermesFlow를 제안합니다. 구체적으로, 우리는 동질 데이터를 입력으로 삼아 이해와 생성의 동질 선호 데이터를 선별합니다. Pair-DPO와 자가 대결 반복 최적화를 통해 HermesFlow는 동질 선호 데이터를 사용하여 다모달 이해와 생성을 효과적으로 조정합니다. 광범위한 실험은 우리의 방법이 이전 방법에 비해 상당한 우위를 보이며, 특히 다모달 이해와 생성 간의 격차를 줄이는 데 뛰어난 성과를 거뒀음을 보여줍니다. 이러한 발견은 HermesFlow의 잠재력을 강조하며, 다음 세대 다모달 기초 모델을 위한 일반적인 조정 프레임워크로서의 가능성을 강조합니다. 코드: https://github.com/Gen-Verse/HermesFlow
저희는 샘플링 궤적을 최적화하여 하류 정렬을 향상시키는 세밀한 조정 방법인 확산-날카로운(Diffusion-Sharpening)을 제안합니다. 기존의 강화 학습 기반 세밀한 조정 방법은 단일 훈련 타임스텝에 초점을 맞추고 궤적 수준의 정렬을 무시하는 반면, 최근의 샘플링 궤적 최적화 방법은 상당한 추론 NFE 비용을 발생시킵니다. 확산-날카로운은 훈련 중에 최적의 궤적을 선택하기 위해 경로 적분 프레임워크를 활용하여 보상 피드백을 이용하고 추론 비용을 분담함으로써 이를 극복합니다. 저희 방법은 빠른 수렴으로 우수한 훈련 효율성을 보여주며, 추가 NFE를 필요로 하지 않으면서 최상의 추론 효율성을 제공합니다. 다양한 메트릭을 통해 확산-날카로운이 텍스트 정렬, 구성 능력, 인간의 선호도 등을 포함한 다양한 메트릭에서 강화 학습 기반 세밀한 조정 방법(예: 확산-DPO) 및 샘플링 궤적 최적화 방법(예: 추론 스케일링)을 능가하는 것을 입증하는 방대한 실험을 통해, 미래 확산 모델 세밀한 조정에 대한 확장 가능하고 효율적인 솔루션을 제공합니다. 코드: https://github.com/Gen-Verse/Diffusion-Sharpening
시스템 메시지는 대규모 언어 모델(LLMs)과의 상호작용에서 중요한 역할을 하며 종종 대화를 시작하는 프롬프트로 작용합니다. 시스템 메시지를 통해 사용자는 특정 역할을 할당하고 의도한 작업을 수행하며 배경 정보를 통합하고 다양한 출력 형식과 통신 스타일을 지정할 수 있습니다. 이러한 다양성에도 불구하고, 공개적으로 이용 가능한 데이터는 종종 시스템 메시지가 부족하며 산업 분야에서 엄격한 라이선스 제약을 받습니다. 사용자 지침과 일치하는 시스템 메시지로 공개적으로 이용 가능한 데이터를 수동으로 레이블링하는 것은 상당한 자원을 필요로 합니다. 이러한 도전에 대응하여, 본 연구는 시스템 메시지를 생성하는 파이프라인인 SysGen을 소개합니다. 이 파이프라인은 시스템 메시지가 없는 지도된 세밀 조정 데이터셋으로부터 더 잘 일치하는 보조 응답을 생성합니다. SysGen 데이터로 훈련하는 것은 모델 응답과 시스템 메시지 및 사용자 지침의 일치에 상당한 개선을 보여주었으며, 다양한 오픈 소스 모델에서 Multifacet 벤치마크를 통해 입증되었습니다. 이러한 훈련은 Open LLM Leaderboard 2와 같은 다른 보이지 않는 벤치마크에는 최소한의 영향을 미치면서 진행되었습니다. 우리의 질적 분석은 다양한 시스템 메시지의 중요성을 강조하여 다양한 맥락에서의 더 나은 적응성을 보장합니다.
LLM 기반 다중 에이전트 (LLM-MA) 시스템의 최근 발전은 유망성을 보여주었지만, 복잡한 작업에서 에이전트들이 협업할 때 의사 소통과 정제를 관리하는 데 중요한 도전 과제가 남아 있습니다. 본 논문에서는 Talk Structurally, Act Hierarchically (TalkHier)이라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 구조화된 통신 프로토콜을 도입하여 맥락이 풍부한 교환을 위한 시스템을 소개하고, 잘못된 출력, 거짓 정보 및 편향과 같은 문제를 해결하기 위한 계층적 정제 시스템을 제공합니다. TalkHier는 OpenAI-o1과 같은 추론 스케일링 모델, AgentVerse와 같은 오픈 소스 다중 에이전트 모델, 그리고 ReAct, GPT4o와 같은 단일 에이전트 기준선을 포함한 다양한 유형의 최고 수준 기술을 능가하며, 오픈 도메인 질문 응답, 도메인별 선택적 질문, 그리고 실용적 광고 텍스트 생성과 같은 다양한 작업에서 우수한 성과를 보여줍니다. 이러한 결과는 LLM-MA 시스템에 대한 새로운 표준을 설정할 잠재력을 강조하며, 더 효과적이고 적응 가능하며 협업적인 다중 에이전트 프레임워크를 위한 길을 열어줍니다. 코드는 https://github.com/sony/talkhier에서 이용할 수 있습니다.
최근 대규모 멀티모달 모델(LMM)의 성공은 복잡한 웹 작업을 자율적으로 완수할 수 있는 에이전트의 유망한 응용 가능성을 보여주었습니다. 오픈소스 LMM 에이전트는 오프라인 평가 벤치마크에서 상당한 진전을 이루었지만, 보다 현실적인 온라인 환경에서는 여전히 인간 수준의 능력에 크게 미치지 못하고 있습니다. 주요 병목 현상은 다양한 도메인에 걸친 대규모 궤적 수준 데이터셋의 부재인데, 이러한 데이터를 수집하는 데는 비용이 많이 듭니다. 본 논문에서는 이 문제를 해결하기 위해 지금까지 가장 크고 다양한 궤적 수준 데이터셋을 합성하는 확장 가능한 방법을 개발했습니다. 이 데이터셋은 49K개의 고유 URL, 720K개의 스크린샷, 33M개의 웹 요소를 포함하는 94K개 이상의 성공적인 멀티모달 웹 궤적으로 구성되어 있습니다. 특히, 다양한 작업 의도를 얻기 위해 광범위한 웹 탐색과 정제 과정을 활용했습니다. 성공적인 궤적당 평균 비용은 28센트로, 커뮤니티 내 다양한 사용자들이 부담 없이 이용할 수 있습니다. 이 데이터셋을 활용하여 멀티모달 웹 에이전트인 Explorer를 훈련시켰으며, Mind2Web-Live, Multimodal-Mind2Web, MiniWob++와 같은 오프라인 및 온라인 웹 에이전트 벤치마크에서 강력한 성능을 입증했습니다. 또한, 우리의 실험은 데이터 확장이 웹 에이전트 능력 향상의 주요 동인임을 강조합니다. 이 연구가 대규모 LMM 기반 에이전트 연구를 보다 접근 가능하게 만들기를 기대합니다.
인공 평가에서 거의 완벽한 결과를 얻었음에도, 모델 편집의 효과는 실제 응용 프로그램에서 미개척된 채로 남아 있습니다. 이 간극을 메우기 위해, 우리는 LLMs의 오류를 수정하는 효과를 평가하기 위한 엄격한 평가 방법을 수립하여 질문 응답(QA)에서 모델 편집을 연구하기를 제안합니다. 이는 인기 있는 QA 데이터셋에서 유래된 새로운 벤치마크인 QAEdit과 표준화된 평가 프레임워크로 구성됩니다. 우리의 단일 편집 실험은 현재의 편집 방법이 이전에 보고된 것보다 상당히 성능이 떨어진다는 것을 나타냅니다 (38.5% 대 ~96%). 모듈 분석과 통제된 실험을 통해, 이 성능 하락이 이전 편집 연구의 평가 방법의 문제에서 비롯된다는 것을 입증합니다. 한 가지 주요 문제는 테스트에서의 교사 강제 사용이 오류 전파를 방지하는데, 이는 실제 시나리오에서 접근할 수 없는 ground truth 토큰을 입력으로 제공합니다. 게다가, 우리는 순차적 편집을 통해 실제 배포를 시뮬레이션하여, 현재 방법이 1000회 편집만으로도 심각하게 실패한다는 것을 밝혀 냅니다. 우리의 분석은 기존 모델 편집 방법의 실제 응용 가능성과 그들의 평가 방법을 근본적으로 재검토하며, 신뢰할 수 있고 실용적인 모델 편집 연구를 진전시키기 위한 핵심 통찰력을 갖춘 엄격한 평가 프레임워크를 수립합니다.
대형 언어 모델(LLMs)은 코드 이해와 코드 생성과 같은 코드 관련 작업에서 놀라운 능력을 보여주었습니다. 그러나 똑같이 중요하지만 미개척된 질문은 LLMs가 프로그램을 실제로 실행하지 않고도 프로그램의 출력과 동작을 예측하는 일반 목적의 대리 코드 실행자로서 기능할 수 있는지 여부입니다. 이 능력을 체계적으로 조사하기 위해 우리는 여덟 가지 주요 측면을 다루는 포괄적인 벤치마크인 SURGE를 소개합니다: 다국어 프로그래밍 작업, 경쟁 수준의 프로그래밍 문제, 저장소 수준의 코드 분석, 고비용 과학 계산, 시간 복잡도 집중적인 알고리즘, 버그가 있는 코드 분석, 특정 컴파일러나 실행 환경에 의존하는 프로그램, 그리고 공식 수학적 증명 검증. 우리는 여러 오픈 소스 및 프로프리어터리 LLMs를 SURGE에서 평가하고 모델 크기와 훈련 데이터 규모가 대리 실행 정확도에 미치는 영향을 분석하기 위한 스케일링 연구를 실시합니다. 또한 모델 예측 오류를 분류하고 개선 가능한 영역을 탐색합니다. 우리의 연구 결과는 LLMs가 특정 경우에는 코드 실행 결과를 예측할 수 있지만, 일반 목적의 대리 실행에서 한계를 보인다는 것을 보여줍니다. 이 연구는 LLMs를 대리 코드 실행자로 사용할 수 있는 가능성에 대한 경험적인 통찰을 제공합니다. 코드와 데이터셋은 https://github.com/Imbernoulli/SURGE에서 공개되었습니다.
3D 콘텐츠 생성의 폭발적인 성장으로 정적 3D 모델을 현실적인 애니메이션을 지원하는 관절 준비 버전으로 자동으로 변환하는 수요가 증가하고 있습니다. 기존 방법은 주로 수동 주석에 의존하여 시간이 많이 소요되고 노동 집약적입니다. 더구나 대규모 벤치마크의 부재로 학습 기반 솔루션의 개발이 제약되어 왔습니다. 본 연구에서는 MagicArticulate를 제시하여 정적 3D 모델을 관절 준비 자산으로 자동으로 변환하는 효과적인 프레임워크를 소개합니다. 우리의 주요 기여는 세 가지입니다. 첫째, Objaverse-XL에서 세심하게 선별된 고품질 관절 주석이 포함된 33k개 이상의 3D 모델을 포함하는 대규모 벤치마크인 Articulation-XL을 소개합니다. 둘째, 시퀀스 모델링 문제로 작업을 공식화하는 새로운 스켈레톤 생성 방법을 제안하여, 자동 회귀 트랜스포머를 활용하여 스켈레톤 내의 뼈나 관절의 수와 서로 다른 3D 모델 간의 고유한 종속성을 자연스럽게 처리합니다. 셋째, 첨부되어 있는 부피 기하 거리 우선순위를 이용하여 정점과 관절 사이의 볼륨 기하 거리 사전을 포함하는 기능 확산 프로세스를 사용하여 스키닝 가중치를 예측합니다. 방대한 실험 결과, MagicArticulate가 다양한 객체 범주에서 기존 방법을 크게 능가하며 현실적인 애니메이션을 가능케 하는 고품질 관절을 달성함을 보여줍니다. 프로젝트 페이지: https://chaoyuesong.github.io/MagicArticulate.
최근 추론 최적화의 발전은 대형 언어 모델(LLM)의 능력을 크게 향상시켰지만, 추론을 개선하기 위한 기존 노력은 수학 문제 해결에 한정되어 시각적 그래픽 입력에 초점을 맞추어 일반 비디오 이해에 대한 더 넓은 응용을 간과해 왔습니다. 본 논문에서는 일반 비디오 이해 작업을 위해 설계된 최초의 오픈 소스 추론 강화 오디오-시각 LLM인 video-SALMONN-o1을 제안합니다. 추론 능력을 향상하기 위해 도전적인 오디오-시각 질문과 단계별 솔루션을 갖춘 추론 집중 데이터셋을 개발합니다. 또한, 다중 모달 입력에 맞춘 효율적인 단계 수준 보상 모델링을 달성하기 위해 대조적 단계 선택을 활용하는 프로세스 직접 선호 최적화(pDPO)를 제안합니다. 게다가, standup 코미디, 학술 발표 및 합성 비디오 감지와 같은 시나리오를 포함한 4,000개 이상의 고품질 전문가가 선별한 질문-답변 쌍을 특징으로 하는 최초의 추론 집중 비디오 이해 벤치마크인 RivaBench를 소개합니다. video-SALMONN-o1은 다양한 비디오 추론 벤치마크에서 LLaVA-OneVision 기준선에 비해 3-8% 정확도 향상을 달성합니다. 또한, pDPO는 RivaBench에서 지도된 세밀한 조정 모델에 비해 6-8%의 향상을 달성합니다. 향상된 추론은 video-SALMONN-o1이 제로샷 합성 비디오 감지 능력을 갖게 합니다.
본 논문은 확산 모델(diffusion model) 훈련을 위한 새로운 목적 함수인 Model-guidance(MG)를 제안하며, 이는 널리 사용되던 Classifier-free guidance(CFG)를 대체하고 제거합니다. 우리의 혁신적인 접근법은 단순히 데이터 분포를 모델링하는 표준 방식을 넘어 조건부 사후 확률을 통합합니다. 제안된 기법은 CFG의 아이디어에서 출발하였으며, 간단하면서도 효과적이어서 기존 모델에 플러그 앤 플레이 방식으로 쉽게 적용할 수 있습니다. 우리의 방법은 훈련 과정을 크게 가속화하고, 추론 속도를 두 배로 향상시키며, CFG를 사용한 동시대의 확산 모델들과 견줄 만하거나 이를 능가하는 우수한 품질을 달성합니다. 다양한 모델과 데이터셋에 대한 광범위한 실험을 통해 이 방법의 효과성, 효율성, 확장성을 입증하였습니다. 마지막으로, 우리는 ImageNet 256 벤치마크에서 FID 1.34라는 최첨단 성능을 달성하였습니다. 코드는 https://github.com/tzco/Diffusion-wo-CFG에서 확인할 수 있습니다.
대형 언어 모델은 수학 및 논리 추론을 포함한 다양한 영역에서 놀라운 능력을 보여줍니다. 그러나 현재의 평가는 물리학 기반 추론을 간과하고 있습니다. 이는 물리학 이론과 제약 조건이 필요한 복잡한 작업입니다. 본 연구에서는 지식 기반(25%)과 추론 기반(75%) 문제로 구성된 1,200개의 문제 벤치마크 PhysReason을 제시합니다. 후자는 쉬운, 중간, 어려운 세 난이도로 나뉘어 있습니다. 특히, 문제들은 평균 8.1개의 해결 단계가 필요하며, 어려운 문제는 15.6개의 단계가 필요하여 물리학 기반 추론의 복잡성을 반영합니다. 물리학 솔루션 자동 채점 프레임워크를 제안하며, 효율적인 답변 수준 및 포괄적인 단계 수준 평가를 통합합니다. Deepseek-R1, Gemini-2.0-Flash-Thinking, o3-mini-high와 같은 최고 성능 모델은 답변 수준 평가에서 60% 미만을 달성하며, 성능은 지식 문제(75.11%)에서 어려운 문제(31.95%)로 갈수록 하락합니다. 단계 수준 평가를 통해 물리학 이론 적용, 물리학 과정 이해, 계산, 물리학 조건 분석이라는 네 가지 주요 병목 현상을 확인했습니다. 이러한 발견으로 PhysReason은 대형 언어 모델의 물리학 기반 추론 능력을 평가하기 위한 혁신적이고 포괄적인 벤치마크로 위치하게 되었습니다. 우리의 코드와 데이터는 https:/dxzxy12138.github.io/PhysReason에서 공개될 예정입니다.
Text-to-SQL은 자연어 질문을 실행 가능한 SQL 쿼리로 변환하는 것을 목표로 합니다. 이전 접근 방식인 스켈레톤-마스크 선택과 같은 방법은 대규모 언어 모델(LLMs)을 안내하기 위해 유사한 훈련 예제를 검색함으로써 강력한 성능을 나타내었지만, 실제 시나리오에서는 해당 예제를 사용할 수 없는 경우에 어려움을 겪습니다. 이 한계를 극복하기 위해 우리는 Self-Augmentation in-context 학습과 Fine-grained Example 선택을 결합한 Text-to-SQL (SAFE-SQL)을 제안합니다. 이 혁신적인 프레임워크는 SQL 생성을 개선하기 위해 자가 증강된 예제를 생성하고 필터링합니다. SAFE-SQL은 먼저 LLM에게 테스트 입력과 관련된 여러 Text-to-SQL 예제를 생성하도록 요청합니다. 그런 다음 SAFE-SQL은 이러한 예제를 세 가지 관련성 평가를 통해 필터링하여 고품질의 인-컨텍스트 학습 예제를 구성합니다. 자체 생성된 예제를 사용하여 SAFE-SQL은 이전의 제로샷 및 퓨샷 Text-to-SQL 프레임워크를 능가하여 더 높은 실행 정확도를 달성합니다. 특히, 우리의 접근 방식은 전통적인 방법이 종종 실패하는 추가 어려운 및 보이지 않는 시나리오에서 성능 향상을 제공합니다.
우리는 Dyve를 제시합니다. Dyve는 카네먼의 시스템 이론에서 영감을 받아 빠르고 느린 사고를 통합하여 대형 언어 모델에서 추론 오류 감지를 향상시키는 동적 프로세스 확인기입니다. Dyve는 간단한 단계에 대해 즉각적인 토큰 수준 확인 System 1과 복잡한 단계에 대해 포괄적인 분석 System 2를 적응적으로 적용합니다. 몬테 카를로 추정과 LLM 기반 평가를 결합한 새로운 단계별 합의 필터링된 프로세스 감독 기술을 활용하여 Dyve는 소음이 있는 데이터에서 고품질 감독 신호를 선별합니다. ProcessBench와 MATH 데이터셋에서의 실험 결과는 Dyve가 기존의 프로세스 기반 확인기를 크게 능가하고 Best-of-N 설정에서 성능을 향상시킨다는 것을 확인합니다.
잠재 생성 모델(Latent Generative Models)은 고품질 이미지 합성을 위한 주요 접근법으로 부상했습니다. 이러한 모델들은 이미지를 잠재 공간으로 압축하는 오토인코더와 잠재 분포를 학습하는 생성 모델로 구성됩니다. 우리는 기존 오토인코더들이 크기 조정 및 회전과 같은 의미 보존 변환에 대해 등변성(equivariance)이 부족하여, 생성 성능을 저해하는 복잡한 잠재 공간을 초래한다는 점을 발견했습니다. 이를 해결하기 위해, 우리는 EQ-VAE를 제안합니다. 이는 잠재 공간에서 등변성을 강제하는 간단한 정규화 접근법으로, 복원 품질을 저하시키지 않으면서 잠재 공간의 복잡성을 줄입니다. 사전 훈련된 오토인코더를 EQ-VAE로 미세 조정함으로써, DiT, SiT, REPA, MaskGIT 등 여러 최신 생성 모델의 성능을 향상시켰으며, SD-VAE 미세 조정을 단 5 에포크만 수행하여 DiT-XL/2에서 7배의 속도 향상을 달성했습니다. EQ-VAE는 연속형 및 이산형 오토인코더 모두와 호환되므로, 다양한 잠재 생성 모델에 대한 다목적 개선을 제공합니다. 프로젝트 페이지 및 코드: https://eq-vae.github.io/.
수학적 대규모 언어 모델(LLMs)을 활용한 증명 생성은 LLMs 연구의 근본적인 주제입니다. 현재 LLMs의 명제를 증명하는 능력은 주로 훈련 중 해당 증명 과정을 만났는지에 따라 크게 달라집니다. 이 의존성은 수학 정리 및 관련 개념에 대한 깊은 이해를 제한합니다. 인간 수학 교육에서 흔히 사용되는 "반례에 의한 증명" 교육 방법에서 영감을 받아, 우리의 연구는 LLMs의 수학적 추론과 증명 능력을 개선하기 위해 반례를 통해 진행됩니다. 구체적으로, 우리는 고등 교육 수준의 수학적 벤치마크인 CounterMATH를 수동으로 작성하여 LLMs가 반례를 제시하여 수학적 명제를 증명하고 수학적 개념을 평가하도록 합니다. 더불어, 모델 개선을 위해 훈련 데이터를 자동으로 얻기 위한 데이터 엔지니어링 프레임워크를 개발합니다. 광범위한 실험과 자세한 분석을 통해 CounterMATH가 도전적임을 입증하며, OpenAI o1과 같은 LLMs가 충분한 반례 주도 증명 능력을 갖추고 있지 않다는 것을 보여줍니다. 또한, 모델 훈련에 대한 우리의 탐구는 LLMs의 반례 주도 개념적 추론 능력을 강화하는 것이 전반적인 수학 능력 향상에 중요하다는 것을 밝혀냅니다. 우리는 우리의 연구가 수학적 LLMs 커뮤니티에 새로운 시각을 제공한다고 믿습니다.
기존 언어 모델은 데이터 부족으로 증명 중심 프로그래밍에 어려움을 겪고 있습니다. 이는 두 가지 주요 방식으로 나타납니다: (1) F*와 같은 증명 중심 프로그래밍 언어에 충분한 말뭉치의 부족, (2) 모델이 증명 중심 프로그래밍을 수행할 때 복잡한 추론 과정을 학습할 수 있는 대규모 프로젝트 수준의 증명 중심 구현의 부재. 우리는 프로젝트 수준 증명 중심 프로그래밍을 위한 합성 데이터 증강에 대한 첫 번째 방법을 제시합니다. 우리의 방법은 해당 언어에 능숙해지기 위해 기본 증명 중심 프로그래밍 문제를 합성함으로써 데이터 부족 문제를 해결하며, 추론 능력 유도를 위해 다양한 코딩 데이터를 통합하고 기존 저장소 내에서 새로운 증명과 수리 데이터를 생성합니다. 이 접근법은 언어 모델이 함수 및 저장소 수준 코드에 대해 증명을 합성하고 수리할 수 있게 합니다. 우리는 세밀하게 조정된 14B 매개변수 모델인 PoPilot이 프로젝트 수준 증명 중심 프로그래밍에서 GPT-4o를 64% 상대적으로 능가하는 모델의 성능을 보여주며, GPT-4o의 성능을 54% 향상시키는 것으로 나타냅니다. 이는 GPT-4o의 자가 수리를 통해 GPT-4o의 출력을 수리함으로써 달성됩니다.
대규모 고품질 데이터인 사전 훈련 원시 텍스트와 사후 훈련 주석은 고급 대형 언어 모델(LLMs)을 육성하기 위해 주의 깊게 준비되었습니다. 반면, 정보 추출(IE)의 경우, BIO 태그가 지정된 시퀀스와 같은 사전 훈련 데이터는 확장하기 어렵습니다. 우리는 IE 모델이 다음 토큰 예측을 추출로 재구성함으로써 LLM 자원에 무료로 탑승할 수 있다는 것을 보여줍니다. 구체적으로, 우리가 제안하는 다음 토큰 추출(NTE) 패러다임은 다재다능한 IE 모델인 Cuckoo를 학습하며, 102.6M의 추출 데이터를 사용하여 LLM의 사전 훈련 및 사후 훈련 데이터로부터 변환되었습니다. 소수의 데이터셋 설정에서, Cuckoo는 기존 사전 훈련된 IE 모델보다 더 나은 성능으로 전통적이고 복잡한 지시 따르기 IE에 효과적으로 적응합니다. 무료 탑승자로서, Cuckoo는 추가적인 수동 노력 없이 LLM 데이터 준비의 지속적인 발전으로 진화할 수 있으며, LLM 훈련 파이프라인의 개선으로 혜택을 받을 수 있습니다.
기억은 에이전트가 시간적 및 공간적 종속성이 있는 복잡한 작업에 대처하는 데 중요합니다. 많은 강화 학습 (RL) 알고리즘이 기억을 통합하고 있지만, 이 분야에는 에이전트의 기억 능력을 다양한 시나리오에서 평가하는 표준화된 기준이 부족합니다. 이러한 공백은 특히 탁상 로봇 조작에서 두드러지며, 여기서 기억은 부분 관측성을 갖는 작업을 해결하고 견고한 성능을 보장하는 데 중요하지만 표준화된 벤치마크가 없습니다. 이를 해결하기 위해 우리는 MIKASA (에이전트를 위한 기억 집중적 기술 평가 스위트)를 소개합니다. 이는 기억 강화 강화 학습을 위한 포괄적인 벤치마크로, 세 가지 주요 기여를 제공합니다: (1) 기억 집중적 RL 작업에 대한 포괄적인 분류 프레임워크를 제안합니다, (2) 다양한 시나리오에서 기억 강화 에이전트를 체계적으로 평가할 수 있게 하는 통합된 벤치마크인 MIKASA-Base를 수집하고, (3) 탁상 로봇 조작에서 기억 능력을 평가하는 32가지 신중하게 설계된 기억 집중적 작업의 혁신적인 벤치마크인 MIKASA-Robo를 개발합니다. 우리의 기여는 기억 강화 강화 학습 연구를 발전시키기 위한 통합된 프레임워크를 수립하며, 실제 응용 프로그램을 위한 더 신뢰할 수 있는 시스템의 개발을 촉진합니다. 코드는 https://sites.google.com/view/memorybenchrobots/에서 확인할 수 있습니다.
API 호출 기능을 갖춘 대형 언어 모델(LLM)은 효과적인 언어 에이전트(LA) 구축을 가능하게 하면서도 기존의 작업 지향 대화(TOD) 패러다임을 혁신적으로 변화시켰습니다. 그러나 현재의 접근 방식은 중요한 딜레마에 직면해 있습니다: TOD 시스템은 종종 제한된 대상 API 세트에 대해 훈련되어 새로운 서비스와 인터페이스할 때 품질을 유지하기 위해 새로운 데이터가 필요하며, LA는 다중 턴 대화에서 사용자 의도를 유지하도록 훈련되지 않았습니다. 강력한 다중 턼 관리와 고급 기능 호출 모두 효과적인 대화 에이전트에 필수적이기 때문에, 우리는 이러한 능력을 세 가지 인기 벤치마크인 MultiWOZ 2.4(TOD), BFCL V3(LA), API-Bank(LA)에서 평가하였으며, 분석 결과 특화된 접근 방식이 한 영역에서는 뛰어나지만 다른 영역에서는 성능이 떨어지는 것을 확인했습니다. 이러한 격차를 해소하기 위해, 우리는 대화 및 에이전트 기능을 통합한 통합 접근 방식인 CALM(Conversational Agentic Language Model)을 소개합니다. 우리는 다중 턼 ReAct 추론과 복잡한 API 사용을 교차하는 신중하게 구성된 다중 작업 데이터셋인 CALM-IT를 생성했습니다. CALM-IT를 사용하여 CALM 8B, CALM 70B, CALM 405B 세 가지 모델을 훈련시켰으며, 이들은 GPT-4o를 포함한 최고의 도메인 특화 모델을 모든 세 벤치마크에서 능가하는 성능을 보였습니다.
본 연구는 대규모 인스턴스 수준 이미지 검색을 위한 새로운 테스트 데이터셋인 ILIAS를 소개합니다. 이 데이터셋은 현재 및 미래의 파운데이션 모델과 검색 기술이 특정 객체를 인식하는 능력을 평가하기 위해 설계되었습니다. 기존 데이터셋에 비해 주요 장점으로는 대규모 데이터, 다양한 도메인, 정확한 실측 데이터, 그리고 아직 포화되지 않은 성능이 있습니다. ILIAS는 1,000개의 객체 인스턴스에 대한 쿼리 및 긍정 이미지를 포함하며, 이는 도전적인 조건과 다양한 도메인을 포착하기 위해 수동으로 수집되었습니다. 대규모 검색은 YFCC100M의 1억 개의 디스트랙터 이미지에 대해 수행됩니다. 추가 주석 작업 없이도 거짓 부정을 피하기 위해, 우리는 YFCC100M의 컴파일 날짜인 2014년 이후에 등장한 것으로 확인된 쿼리 객체만 포함시켰습니다. 광범위한 벤치마킹을 수행한 결과 다음과 같은 관찰을 얻었습니다: i) 랜드마크나 제품과 같은 특정 도메인에 맞춰 미세 조정된 모델은 해당 도메인에서는 뛰어나지만 ILIAS에서는 실패함, ii) 다중 도메인 클래스 감독을 사용하여 선형 적응 계층을 학습하면 성능이 향상되며, 특히 비전-언어 모델에서 두드러짐, iii) 검색 재순위에서의 로컬 디스크립터는 여전히 핵심 요소이며, 특히 심각한 배경 혼란 상황에서 중요함, iv) 비전-언어 파운데이션 모델의 텍스트-이미지 성능은 해당 이미지-이미지 경우와 놀라울 정도로 가까움. 웹사이트: https://vrg.fel.cvut.cz/ilias/
온라인 미디어에서 대형 언어 모델과 생성적 AI의 보급으로 인해 허위 정보의 양과 정교함이 증가하면서 효과적인 자동 사실 확인이 필요성이 증대되었습니다. 복잡한 사실 확인의 본질은 자동 사실 확인 시스템이 판단을 내릴 수 있도록 하는 설명을 제공해야 한다는 점에서 요구됩니다. 그러나 이러한 설명이 판단과 추론 프로세스와 어떻게 일치해야 하는지, 이를 효과적으로 작업 흐름에 통합시키기 위한 방법은 아직 명확하지 않습니다. 사실 확인 전문가들과의 반구조화된 인터뷰를 통해 우리는 이 간극을 메웠습니다. (i) 사실 확인자가 증거를 평가하고 결정을 내리며 과정을 설명하는 방식에 대한 설명을 제공하고, (ii) 사실 확인자가 실제로 자동화된 도구를 어떻게 활용하는지를 조사하며, (iii) 자동 사실 확인 도구에 대한 사실 확인자의 설명 요구 사항을 식별합니다. 연구 결과는 충족되지 않은 설명 요구 사항을 보여주며, 모델의 추론 경로를 추적하고 구체적인 증거를 참조하며 불확실성과 정보 부족을 강조하는 반복 가능한 사실 확인 설명에 대한 중요한 기준을 확인합니다.
본 논문은 50개의 새로 작성된 고교 수준의 단어 문제를 사용하여 대규모 언어 모델(Large Language Models, LLMs)의 수학적 추론 능력을 조사합니다. 이전 연구들이 주로 정답의 정확성에만 초점을 맞추는 반면, 우리는 최종 답변과 해결 과정을 모두 철저히 분석하여 추론 실패를 식별합니다. Mixtral, Llama, Gemini, GPT-4o, OpenAI의 o1 변형을 포함한 여덟 가지 최첨단 모델을 평가한 결과, o3-mini, deepseek-r1과 같은 최신 모델들이 더 높은 정확도를 달성하지만, 모든 모델이 공간 추론, 전략적 계획, 산술에서 오류를 보이며 때로는 잘못된 논리를 통해 올바른 답변을 내놓습니다. 흔한 실패 모드로는 타당하지 않은 가정, 숫자 패턴에 대한 지나친 의존, 물리적 직관을 수학적 단계로 옮기는 데 어려움이 포함됩니다. 수동 분석 결과, 모델들이 다단계 추론이나 현실 지식이 필요한 문제에서 고민하는 것으로 나타났으며, 넓은 수학적 지식을 보유하고 있음에도 불구하고 일반적인 추론 능력에 계속적인 공백이 있음을 강조합니다. 우리의 결과는 답변뿐만 아니라 추론 과정을 평가하는 중요성을 강조하며, LLMs의 문제 해결 능력을 과대평가하는 데 주의를 줍니다. 이 연구는 LLMs의 일반화 능력에 지속적인 공백을 강조하며, 구조화된 추론과 제약 처리에 대한 목표 지향적 개선의 필요성을 강조합니다.
본 논문은 최근의 원자 속성 예측 패러다임에 도전하여 진전을 데이터셋 크기와 계산 자원의 증가에 연결시키는 것을 제시합니다. 우리는 신중하게 선정된 작업 관련 데이터셋에서 사전 훈련을 통해 대규모 사전 훈련을 능가하거나 심지어 능가할 수 있음을 보여줍니다. 이를 위해 계산 비용의 1/24만 사용하면 됩니다. 우리는 분자 구조에 대한 컴퓨터 비전의 Fr\'echet Inception Distance에서 영감을 받은 새로운 측정 항목인 화학 유사성 지수 (CSI)를 소개합니다. 이는 상류 사전 훈련 데이터셋과 하류 작업 간의 정렬을 측정합니다. 최소 CSI 거리로 가장 관련성 높은 데이터셋을 선택함으로써, 작은 집중 데이터셋에서 사전 훈련된 모델이 관련 데이터셋을 포함한 대규모 혼합 데이터셋인 JMP와 같은 데이터셋에서 사전 훈련된 모델을 일관되게 능가함을 보여줍니다. 역설적으로, 추가 데이터를 무차별적으로 추가하는 것이 작업과 부적합하게 정렬된 경우 모델 성능을 저하시킬 수 있다는 것을 발견합니다. 우리의 연구 결과는 원자 속성 예측을 위한 사전 훈련에서 질이 종종 양을 능가한다는 점을 강조합니다.
영향 함수(Influence functions)는 모델 학습에 대한 중요한 통찰을 제공하지만, 기존 방법들은 높은 계산 비용과 제한된 일반화 능력으로 인해 어려움을 겪고 있습니다. 특히, 최근 연구들은 언어 모델을 사용하여 데이터의 영향을 계산하기 위한 다양한 메트릭과 알고리즘을 제안했지만, 이러한 방법들은 대규모 모델과 데이터셋에 대해 확장성이 떨어집니다. 이는 계산을 위해 필요한 고비용의 순방향 및 역방향 패스, 대규모 모델을 저장하기 위한 상당한 메모리 요구 사항, 그리고 새로운 데이터에 대한 영향 추정의 낮은 일반화 능력 때문입니다. 본 논문에서는 소규모 신경망(우리는 이를 InfluenceNetwork라고 부름)을 사용하여 영향 값을 추정하는 방법을 탐구하며, 최대 99%의 비용 절감을 달성했습니다. 우리의 평가 결과, 전체 언어 모델 크기의 단 0.0027%에 불과한 모델(7B 및 8B 버전 사용)로도 영향 값을 추정할 수 있음을 보여줍니다. 우리는 영향 값을 추정하기 위한 알고리즘(NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning)을 일반 지시어 미세 조정을 위한 하위 집합 선택 작업에 적용했습니다. 연구에서는 네 가지 최신 영향 함수를 포함시켰으며, NN-CIFT와 원래의 영향 함수 간에 성능 저하 없이도 큰 속도 향상을 달성했음을 보여줍니다. 또한, NN-CIFT의 하이퍼파라미터에 대한 심층 분석을 제공합니다. 우리의 방법에 대한 코드는 여기에서 확인할 수 있습니다: https://github.com/agarwalishika/NN-CIFT.
LLM은 놀라운 능력을 가지고 있지만, 이들은 이해하기 어려운 특징인 이방성을 나타내는 단어 표현을 학습합니다. 본 논문에서는 Adam의 두 번째 모멘트가 이방성 임베딩의 원인이라고 주장하고, 문제를 완화하기 위해 Coupled Adam이라는 수정된 옵티마이저를 제안합니다. 실험 결과, Coupled Adam이 임베딩의 품질을 크게 향상시키는 것을 보여주며, 충분히 큰 데이터셋에서 상류 및 하류 성능도 향상시킵니다.
대형 언어 모델 (LLMs)은 자연어 생성에서 상당한 발전을 이루었지만, 종종 정확한 계산과 구조적 분석이 필요한 작업에서 어려움을 겪습니다. 본 논문은 최신 LLMs의 성능을 언어 복잡성 측정 작업에서 조사하며, LIX 가독성 측정 및 평균 의존 거리(ADD)를 계산합니다. 스웨덴 고등학교 및 대학 수준의 수필을 사용하여, 우리는 모델이 LIX 점수를 계산하고 의존 구문 분석을 수행하는 능력을 평가하며, 그 결과를 확립된 기준과 비교합니다. 우리의 연구 결과는 모든 모델이 이러한 작업을 수행할 능력을 보여주지만, ChatGPT-o1-mini가 가장 일관되게 성과를 내며, LIX 계산 및 의존 구문 분석 모두에서 가장 높은 정확도를 달성한다는 것을 보여줍니다. 게다가, 우리는 LIX 계산에서 모델의 정확도와 Massive Multitask Language Understanding (MMLU) 벤치마크에서의 전반적인 성능 사이에 강력한 유의한 상관 관계 -0.875 p 0.026 (N=6)를 관찰합니다. 이러한 결과는 언어 복잡성 측정 능력이 LLMs의 일반적인 능력을 평가하는 데에 사용될 수 있는 소음이 있는 제로샷 프록시로 작용할 수 있음을 시사하며, 방대한 벤치마킹 데이터셋이 필요하지 않은 모델 평가를 위한 실용적인 방법을 제공합니다.
대형 언어 모델(LLM)에 의해 생성된 텍스트를 탐지하는 것은 잘못된 결정으로 인해 심각한 실수를 초래할 수 있으며, 이는 학생의 학문적 품위를 훼손하는 등의 문제를 야기할 수 있습니다. 따라서 LLM 텍스트 탐지는 결정의 해석 가능성을 보장해야 하며, 이를 통해 사용자가 예측의 신뢰성을 판단할 수 있도록 해야 합니다. 인간이 텍스트가 인간이 작성한 것인지 아니면 LLM이 생성한 것인지 확인할 때, 그들은 직관적으로 텍스트가 어느 쪽과 더 유사한 구간을 공유하는지 조사합니다. 그러나 기존의 해석 가능한 탐지기들은 인간의 의사결정 과정과 일치하지 않으며, 사용자가 쉽게 이해할 수 있는 증거를 제공하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 텍스트의 출처를 검증하기 위한 인간의 의사결정 과정에 기반한 해석 가능한 탐지 접근법인 ExaGPT를 소개합니다. ExaGPT는 텍스트가 데이터 저장소에서 인간이 작성한 텍스트와 더 유사한 구간을 공유하는지, 아니면 LLM이 생성한 텍스트와 더 유사한 구간을 공유하는지를 확인하여 텍스트를 식별합니다. 이 접근법은 텍스트의 각 구간에 대한 결정에 기여하는 유사 구간 예시를 증거로 제공할 수 있습니다. 우리의 인간 평가는 유사 구간 예시를 제공하는 것이 기존의 해석 가능한 방법보다 결정의 정확성을 판단하는 데 더 효과적으로 기여한다는 것을 보여줍니다. 또한, 네 가지 도메인과 세 가지 생성기에 대한 광범위한 실험을 통해 ExaGPT가 기존의 강력한 탐지기들을 최대 40.9%의 정확도 차이로 크게 능가하며, 1%의 오탐률에서도 우수한 성능을 보임을 확인했습니다.