번역이 포함된 일일 선별된 AI 연구 논문
우리는 자동화, 최적화 및 일반화를 목적으로 설계된 Agent K v1.0을 소개합니다. Agent K v1.0은 다양한 데이터 과학 작업에 걸쳐 자동화되고 최적화되며 일반화되도록 설계된 end-to-end 자율 데이터 과학 에이전트입니다. 완전히 자동화된 Agent K v1.0은 경험으로부터 학습함으로써 전체 데이터 과학 수명주기를 관리합니다. Agent K v1.0은 높은 유연성을 가진 구조화된 추론 프레임워크를 활용하여 중첩 구조에서 메모리를 동적으로 처리할 수 있도록 하여, 복잡한 추론 작업을 처리하기 위해 저장된 누적 경험으로부터 효과적으로 학습합니다. Agent K v1.0은 환경적 보상에 기초하여 미래 결정을 안내하기 위해 핵심 정보를 선택적으로 저장하고 검색함으로써 장기 및 단기 기억을 최적화합니다. 이 반복적인 접근 방식을 통해 Agent K v1.0은 미세 조정이나 역전파 없이 결정을 정제하고 경험적 학습을 통해 지속적인 개선을 달성합니다. 우리는 Kaggle 대회를 사례 연구로 사용하여 에이전트의 능력을 평가합니다. 완전히 자동화된 프로토콜을 따라 Agent K v1.0은 베이지안 최적화를 사용하여 하이퍼파라미터 조정 및 피처 엔지니어링을 수행하며 복잡하고 다중 모달 데이터 과학 작업을 체계적으로 다룹니다. 우리의 새로운 평가 프레임워크는 Agent K v1.0의 end-to-end 능력을 엄격하게 평가하여 Kaggle 대회 URL에서 시작하여 제출을 생성하고 보냅니다. 결과는 Agent K v1.0이 표 형식, 컴퓨터 비전, NLP 및 다중 모달 도메인을 포함한 작업 전반에 걸쳐 92.5%의 성공률을 달성한다는 것을 보여줍니다. 5,856명의 인간 Kaggle 경쟁자와 Elo-MMR 점수를 계산하여 벤치마킹할 때, Agent K v1.0은 상위 38%에 랭크되어 전문가 수준 사용자와 유사한 전반적인 기술 수준을 보여줍니다. 특히, Elo-MMR 점수는 인간 그랜드마스터들이 달성한 점수의 제1사분위와 제3사분위 사이에 위치하고 있음을 나타냅니다. 더 나아가, 우리의 결과는 Agent K v1.0이 Kaggle 그랜드마스터와 동등한 성능 수준에 도달했으며, Kaggle의 진행 시스템에 따라 6개의 금메달, 3개의 은메달 및 7개의 동메달을 기록했다는 것을 보여줍니다.
다중 모달 대형 언어 모델(MLLMs)의 신속한 발전은 다양한 다중 모달 벤치마크에서 우수한 성능을 보여주었습니다. 그러나 훈련 중 발생하는 데이터 오염 문제는 성능 평가와 비교에 어려움을 줍니다. 대형 언어 모델(LLMs)에서 데이터셋 오염을 감지하는 다양한 방법이 존재하지만, MLLMs의 다양한 모달리티와 다중 훈련 단계로 인해 이러한 방법들은 효과적이지 않습니다. 본 연구에서는 MLLMs를 위해 고안된 다중 모달 데이터 오염 감지 프레임워크 MM-Detect를 소개합니다. 실험 결과는 MM-Detect가 다양한 오염 정도에 민감하며, 다중 모달 벤치마크의 훈련 세트 유출로 인한 중요한 성능 향상을 강조할 수 있음을 보여줍니다. 더 나아가, MLLMs에서 사용되는 LLMs의 사전 훈련 단계와 MLLMs의 미세 조정 단계에서 발생할 수 있는 오염 가능성을 탐구하여, 오염이 어느 단계에서 발생할 수 있는지에 대한 새로운 통찰을 제공합니다.
트랜스포머는 강력한 fitting 능력으로 인해 다양한 영역에서 광범위한 응용 분야를 찾았습니다. 이 성공은 그들의 내재적인 비선형성에 부분적으로 기인합니다. 따라서 원래의 트랜스포머 아키텍처에서 사용된 ReLU 함수에 추가하여, 연구자들은 GeLU 및 SwishGLU와 같은 대안적인 모듈을 탐구하여 비선형성을 향상시키고 이로써 표현 능력을 증가시키기 위해 노력했습니다. 본 논문에서는 트랜스포머의 동역합성 활성화 함수(PolyCom)라는 새로운 범주를 제안하며, 이는 트랜스포머의 동역학을 최적화하기 위해 설계되었습니다. 이론적으로, 우리는 PolyCom의 향상된 표현 능력과 효과를 강조하는 포괄적인 수학적 분석을 제공합니다. 특히, PolyCom을 포함하는 네트워크가 최적의 근사율을 달성하며, 이는 PolyCom 네트워크가 Sobolev 공간에서 일반적인 부드러운 함수를 근사하기 위해 최소한의 매개변수를 필요로 한다는 것을 보여줍니다. 우리는 대규모 언어 모델(Large Language Models, LLMs)의 사전 훈련 구성에 대한 실험을 수행하였으며, 밀집 및 희소 아키텍처를 모두 포함합니다. PolyCom으로 전통적인 활성화 함수를 대체함으로써, LLMs가 데이터 내에서 고차 상호작용을 포착할 수 있도록 하여 정확도 및 수렴 속도 측면에서 성능 지표를 향상시킵니다. 광범위한 실험 결과는 우리의 방법의 효과를 입증하며, 다른 활성화 함수보다 상당한 개선을 보여줍니다. 코드는 https://github.com/BryceZhuo/PolyCom에서 사용할 수 있습니다.
자가 정렬은 모델이 인간 주석 없이 스스로 개선하는 방식으로, 빠르게 성장하고 있는 연구 분야입니다. 그러나 기존 기술은 올바른 보상을 할당하는 어려움 때문에 복잡한 추론 작업의 개선에 실패하는 경우가 많습니다. 정확도를 향상시키는 데 알려진 직교적인 접근 방식은 자일일성(self-consistency)이며, 이는 가장 일관된 답변을 찾기 위해 추론 시간에 여러 샘플링을 기반으로 적용되는 방법입니다. 본 연구에서는 자일일성 개념을 모델 훈련에 도움을 주기 위해 확장합니다. 따라서 우리는 자일일성 선호도 최적화(ScPO)를 소개합니다. ScPO는 비지도 학습의 새로운 문제에서 일관된 답변을 불일치하는 답변보다 선호되도록 반복적으로 훈련합니다. 우리는 ScPO가 GSM8K 및 MATH와 같은 추론 작업에서 일반적인 보상 모델 훈련에 비해 큰 개선을 이끌어내며, 금 답변이나 선호도로 지도된 훈련과의 격차를 줄이는 것을 보여줍니다. 또한 ScPO를 표준 지도 학습과 결합하면 결과를 더욱 향상시킬 수 있습니다. ZebraLogic에서 ScPO는 Llama-3 8B를 Llama-3 70B, Gemma-2 27B 및 Claude-3 Haiku보다 우수하게 만들기 위해 Llama-3 8B를 세밀하게 조정합니다.
런타임 조종 전략인 Medprompt와 같은 전략은 어려운 작업에서 대형 언어 모델(LLMs)을 최상의 성능으로 이끌어내는 데 유용합니다. Medprompt는 일반적인 LLM이 프롬프트를 사용하여 의학과 같은 전문 분야에서 최첨단 성능을 제공할 수 있도록 집중시킬 수 있음을 보여줍니다. 이는 사고 체인 및 앙상블링을 포함하는 런타임 전략을 유도하기 위한 프롬프트를 사용합니다. OpenAI의 o1-preview 모델은 최종 응답을 생성하기 전에 런타임 추론을 수행하도록 설계된 새로운 패러다임을 대표합니다. 우리는 o1-preview가 다양한 의료 도전 문제 벤치마크에서 어떻게 작동하는지 이해하려고 합니다. GPT-4와 Medprompt를 사용한 Medprompt 연구를 바탕으로, 우리는 o1-preview 모델을 다양한 의료 벤치마크에서 체계적으로 평가합니다. 특히, 프롬프트 기술을 사용하지 않아도 o1-preview는 대부분의 경우 Medprompt와 함께 GPT-4 시리즈를 크게 능가합니다. 우리는 새로운 추론 모델 패러다임 내에서 Medprompt로 표현된 클래식 프롬프트 엔지니어링 전략의 효과를 체계적으로 연구합니다. 우리는 몇몇 프롬프트를 통한 학습이 o1의 성능을 저해한다는 것을 발견했으며, 이는 문맥 내 학습이 추론 원천 모델에 대한 효과적인 조종 접근이 아닐 수 있음을 시사합니다. 앙상블링은 여전히 실행 가능하지만, 리소스가 많이 소모되며 비용-성능 최적화가 필요합니다. 런타임 전략을 통한 비용 및 정확도 분석을 통해 GPT-4o가 더 저렴한 옵션을 대표하고 o1-preview가 높은 비용으로 최첨단 성능을 달성하는 파레토 프론티어를 보여줍니다. o1-preview가 최상의 성능을 제공하지만, Medprompt와 같은 조종 전략을 사용하는 GPT-4o는 특정 맥락에서 가치를 유지합니다. 더욱이, 우리는 o1-preview 모델이 많은 기존 의료 벤치마크에서 거의 포화 상태에 도달했음을 강조하며, 새로운 도전적인 벤치마크의 필요성을 강조합니다. 우리는 LLMs와 추론 시간 계산에 대한 일반적인 방향에 대한 고찰로 마무리합니다.