번역이 포함된 일일 선별된 AI 연구 논문
. 얼굴 바꾸기 작업이 최근 연구 커뮤니티에서 주목을 받고 있지만, 머리 바꾸기라는 관련 문제는 여전히 크게 탐구되지 않고 있습니다. 피부색 전달 외에도, 머리 바꾸기는 합성 과정에서 전체 머리의 구조적 정보를 보존하고, 바뀐 머리와 배경 사이의 간극을 채워야 하는 등의 추가적인 과제를 안고 있습니다. 본 논문에서는 이러한 문제를 GHOST 2.0으로 해결합니다. GHOST 2.0은 두 가지 문제 특화 모듈로 구성됩니다. 첫째, 다양한 스케일에서 신원 정보를 보존하고 극단적인 자세 변화에도 강건한 향상된 얼라이너 모델을 소개합니다. 둘째, 피부색을 전달하고 불일치 영역을 채워 재현된 머리를 대상 배경에 자연스럽게 통합하는 블렌더 모듈을 사용합니다. 두 모듈 모두 해당 작업에서 기준선을 능가하며, 머리 바꾸기 분야에서 최첨단 결과를 달성할 수 있게 합니다. 또한 소스와 타겟의 헤어스타일이 크게 다른 복잡한 사례도 해결합니다. 코드는 https://github.com/ai-forever/ghost-2.0에서 확인할 수 있습니다.
우리는 한국어에서 탁월한 성능을 보이며 영어에서도 경쟁력 있는 성능을 보이는 이중 언어 모델 시리즈인 Kanana를 소개합니다. Kanana의 계산 비용은 유사한 규모의 최첨단 모델에 비해 상당히 낮습니다. 본 보고서는 계산 효율적이면서도 경쟁력 있는 모델을 달성하기 위해 사전 학습 과정에서 사용된 기술들을 상세히 설명하며, 이에는 고품질 데이터 필터링, 단계적 사전 학습, 깊이 확장, 가지치기 및 지식 증류가 포함됩니다. 또한, Kanana 모델의 사후 학습 단계에서 사용된 방법론들을 개괄하며, 이는 사용자와의 원활한 상호작용을 강화하기 위한 지도 미세 조정과 선호 최적화를 포함합니다. 마지막으로, 특정 시나리오에 대한 언어 모델 적응을 위해 사용된 가능한 접근 방식들, 예를 들어 임베딩, 검색 강화 생성, 함수 호출 등에 대해 상세히 설명합니다. Kanana 모델 시리즈는 2.1B에서 32.5B 파라미터 규모로 구성되며, 한국어 언어 모델 연구를 촉진하기 위해 2.1B 모델(기본, 지시, 임베딩)을 공개하였습니다.
과학적 발견은 과학자들이 새로운 가설을 생성하고 이를 엄격한 실험적 검증을 통해 입증하는 과정에 의존합니다. 이 과정을 보완하기 위해, 우리는 Gemini 2.0을 기반으로 구축된 다중 에이전트 시스템인 AI 공동 과학자를 소개합니다. 이 AI 공동 과학자는 새로운 지식을 발견하고, 이전의 증거를 바탕으로 과학자가 제공한 연구 목표와 지침에 부합하는 새로운 연구 가설과 제안을 공식화하는 데 도움을 주기 위해 설계되었습니다. 이 시스템의 설계는 과학적 방법론에서 영감을 받은 가설 생성의 생성, 토론, 진화 접근법을 통합하며, 테스트 시점의 컴퓨팅 자원 확장을 통해 가속화됩니다. 주요 기여 사항은 다음과 같습니다: (1) 유연한 컴퓨팅 확장을 위한 비동기 작업 실행 프레임워크를 갖춘 다중 에이전트 아키텍처; (2) 자기 개선형 가설 생성을 위한 토너먼트 진화 프로세스. 자동화된 평가는 테스트 시점의 컴퓨팅 자원이 가설의 질을 지속적으로 향상시킨다는 것을 보여줍니다. 범용적인 목적을 가지고 있지만, 우리는 약물 재창출, 새로운 표적 발견, 그리고 세균 진화 및 항생제 내성 메커니즘 설명이라는 세 가지 생물의학 분야에 초점을 맞춰 개발과 검증을 진행했습니다. 약물 재창출의 경우, 이 시스템은 임상적으로 적용 가능한 농도에서 시험관 내 종양 억제를 보이는 급성 골수성 백혈병 후보 물질을 포함하여 유망한 검증 결과를 제안했습니다. 새로운 표적 발견의 경우, AI 공동 과학자는 인간 간 오가노이드에서 항섬유화 활성과 간세포 재생을 통해 검증된 간 섬유화에 대한 새로운 후성유전학적 표적을 제안했습니다. 마지막으로, AI 공동 과학자는 세균 진화에서 새로운 유전자 전달 메커니즘에 대한 병렬적 in silico 발견을 통해 아직 발표되지 않은 실험 결과를 재현했습니다. 이러한 결과들은 별도의 동시 발표 보고서에 상세히 기술되어 있으며, 생물의학 및 과학적 발견을 보완하고 AI가 강화된 과학자 시대를 열 수 있는 잠재력을 보여줍니다.
도메인 특정 정리를 이해하는 데는 단순히 텍스트 기반 추론만으로는 부족하며, 구조화된 시각적 설명을 통한 효과적인 커뮤니케이션이 더 깊은 이해를 위해 필수적입니다. 대규모 언어 모델(LLM)은 텍스트 기반 정리 추론에서 강력한 성능을 보이지만, 일관적이고 교육적으로 의미 있는 시각적 설명을 생성하는 능력은 여전히 해결되지 않은 과제로 남아 있습니다. 본 연구에서는 Manim 애니메이션을 사용하여 5분 이상의 장편 정리 설명 동영상을 생성하는 에이전트 기반 접근법인 TheoremExplainAgent를 소개합니다. 다중 모드 정리 설명을 체계적으로 평가하기 위해, 우리는 여러 STEM 분야에 걸친 240개의 정리를 포함하고 5개의 자동화된 평가 지표를 갖춘 TheoremExplainBench 벤치마크를 제안합니다. 우리의 결과는 에이전트 기반 계획이 상세한 장편 동영상 생성에 필수적이며, o3-mini 에이전트가 93.8%의 성공률과 0.77의 종합 점수를 달성함을 보여줍니다. 그러나 정량적 및 정성적 연구 결과, 생성된 대부분의 동영상에서 시각적 요소 배치에 사소한 문제가 있음이 드러났습니다. 또한, 다중 모드 설명은 텍스트 기반 설명이 드러내지 못한 더 깊은 추론 결함을 노출시켜, 다중 모드 설명의 중요성을 강조합니다.
그리스가 세계 경제에서 중추적인 역할을 담당하고 있음에도 불구하고, 그리스어의 언어적 복잡성과 도메인 특화 데이터셋의 부족으로 인해 대규모 언어 모델(LLM)은 그리스 금융 맥락에서 충분히 탐구되지 못했습니다. 다국어 금융 자연어 처리(NLP) 분야의 선행 연구들은 상당한 성능 격차를 드러냈지만, 현재까지 전용 그리스 금융 벤치마크나 그리스 특화 금융 LLM은 개발되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 그리스 금융 평가 벤치마크인 Plutus-ben과 그리스 도메인 특화 데이터로 미세 조정된 최초의 그리스 금융 LLM인 Plutus-8B를 소개합니다. Plutus-ben은 그리스어로 된 다섯 가지 핵심 금융 NLP 작업(숫자 및 텍스트 개체명 인식, 질의응답, 추상적 요약, 주제 분류)을 다루어 체계적이고 재현 가능한 LLM 평가를 용이하게 합니다. 이러한 작업을 지원하기 위해, 우리는 전문 그리스어 원어민이 철저히 주석을 달은 세 가지 새로운 고품질 그리스 금융 데이터셋을 제시하고, 기존의 두 가지 리소스를 보강했습니다. Plutus-ben에서 22개의 LLM을 종합적으로 평가한 결과, 그리스 금융 NLP는 언어적 복잡성, 도메인 특화 용어, 금융 추론의 격차로 인해 여전히 도전적인 과제로 남아 있음을 보여줍니다. 이러한 결과는 교차 언어 전이의 한계, 그리스어로 훈련된 모델에서의 금융 전문성 필요성, 그리고 그리스어 텍스트에 금융 LLM을 적용하는 데 따른 어려움을 강조합니다. 우리는 재현 가능한 연구를 촉진하고 그리스 금융 NLP를 발전시키며, 금융 분야에서 더 넓은 다국어 포용성을 조성하기 위해 Plutus-ben, Plutus-8B 및 관련 데이터셋을 공개합니다.
다국어 언어 모델(LM)은 여러 언어에 걸쳐 사실적 지식을 일관되게 기억할 것으로 기대되지만, 종종 한 언어에서는 정확한 정보를 가지고 있음에도 불구하고 다른 언어 간의 지식 전달에 실패합니다. 예를 들어, LM이 아랍어로 질문받았을 때 Rashed Al Shashai가 사우디아라비아 출신임을 정확히 식별할 수 있지만, 영어나 스와힐리어로 질문받았을 때는 이를 지속적으로 실패하는 경우가 있습니다. 이러한 한계를 체계적으로 조사하기 위해, 우리는 13개 언어에 걸친 10,000개의 국가 관련 사실로 구성된 벤치마크를 도입하고, LM의 사실 기억 능력과 지식 전달 능력을 정량화하기 위해 세 가지 새로운 지표를 제안합니다: 사실 기억 점수(Factual Recall Score), 지식 전달 가능성 점수(Knowledge Transferability Score), 그리고 교차 언어 사실 지식 전달 가능성 점수(Cross-Lingual Factual Knowledge Transferability Score). 우리의 결과는 최신 최첨단 LM들이 특히 교차 언어 일반화에서 지식을 효과적으로 전달하지 못해 사용된 언어에 따라 성능이 일관되지 않다는 근본적인 약점을 보여줍니다. 이러한 발견은 LM이 언어별 사실적 신뢰도를 인식하고 여러 언어에 걸쳐 가장 신뢰할 수 있는 정보를 활용할 필요성을 강조합니다. 우리는 다국어 지식 전달 분야의 미래 연구를 촉진하기 위해 벤치마크와 평가 프레임워크를 공개합니다.
최근 o1-like 모델들이 큰 주목을 받고 있는데, 이러한 모델들은 기존 대형 언어 모델(LLMs)의 추론 능력을 향상시키기 위해 긴 사고의 연쇄(Chain-of-Thought, CoT) 단계를 생성합니다. 본 논문에서는 이러한 긴 CoT의 특성을 이해하고 기존 LLM들이 이러한 긴 CoT에 대한 비판 능력을 측정하기 위해 DeltaBench을 소개합니다. DeltaBench은 다양한 o1-like 모델(예: QwQ, DeepSeek-R1)에서 생성된 긴 CoT를 포함하며, 다양한 추론 작업(예: 수학, 코드, 일반 추론)에 대해 긴 CoT 추론에서의 오류를 탐지하는 능력을 측정합니다. DeltaBench을 기반으로, 우리는 먼저 생성된 긴 CoT에 대한 세부 분석을 수행하여 다양한 o1-like 모델의 효과성과 효율성을 발견합니다. 그런 다음, 기존의 과정 보상 모델(PRMs)과 비평 모델(critic models)을 광범위하게 평가하여 각 주석 처리된 과정의 오류를 탐지함으로써 기존 PRMs와 비평 모델의 한계와 경계를 조사합니다. 마지막으로, DeltaBench이 개발자들이 자신의 모델의 긴 CoT 추론 능력을 더 잘 이해할 수 있도록 안내할 수 있기를 바랍니다.
우리는 테스트 시간 계산을 활용하도록 훈련된 첫 번째 리랭킹 모델인 Rank1을 소개합니다. Rank1은 검색 분야에서 추론 언어 모델(예: OpenAI의 o1, Deepseek의 R1 등)을 활용하여 더 작은 모델의 성능을 빠르게 향상시키는 방법의 적용 가능성을 입증합니다. 우리는 MS MARCO의 쿼리와 문서에서 수집한 60만 개 이상의 R1 추론 트레이스 데이터셋을 공개했습니다. 이 데이터셋으로 훈련된 모델은 다음과 같은 특징을 보입니다: (1) 고급 추론 및 지시 따르기 데이터셋에서 최첨단 성능을 달성; (2) 사용자 입력 프롬프트에 응답할 수 있는 능력 덕분에 분포 외 데이터에서도 뛰어난 성능 발휘; (3) 사용자나 RAG 기반 시스템에 제공할 수 있는 설명 가능한 추론 체인 보유. 또한, 이러한 모델의 양자화 버전이 계산/메모리 사용량을 줄이면서도 강력한 성능을 유지함을 보여줍니다. 전반적으로, Rank1은 테스트 시간 계산이 검색을 위한 설명 가능하고 성능이 뛰어난 새로운 유형의 리랭커 모델을 가능하게 함을 입증합니다.
보상 모델(Reward Models, RMs)은 대규모 언어 모델(Large Language Models, LLMs)의 학습 및 추론 단계에서의 확장에 있어 핵심적인 역할을 합니다. 그러나 기존의 보상 모델은 주로 인간의 선호도에 초점을 맞추고 있으며, LLMs 학습에 있어 강력한 잠재력을 보여준 검증 가능한 정확성 신호를 간과하고 있습니다. 본 논문에서는 에이전트 기반 보상 모델링(agentic reward modeling)을 제안합니다. 이는 보상 모델과 다양한 측면에서의 검증 가능한 정확성 신호를 결합하여 신뢰할 수 있는 보상을 제공하는 시스템입니다. 우리는 RewardAgent라는 보상 에이전트를 실험적으로 구현하였는데, 이는 인간 선호도 보상과 사실성(factuality), 지시 이행(instruction following)이라는 두 가지 검증 가능한 신호를 결합하여 더욱 신뢰할 수 있는 보상을 제공합니다. 기존 보상 모델 벤치마크와 실제 세계의 다운스트림 작업에 대한 추론 단계의 best-of-n 탐색을 포함한 포괄적인 실험을 수행한 결과, RewardAgent는 기존의 기본 보상 모델을 크게 능가하는 성능을 보여주었습니다. 또한, RewardAgent를 사용하여 학습 선호 쌍(training preference pairs)을 구성하고 DPO 목적 함수를 통해 LLM을 학습시킨 결과, 다양한 NLP 벤치마크에서 기존 보상 모델 대비 우수한 성능을 달성하였습니다. 본 연구의 코드는 추가 연구를 위해 공개되었습니다(https://github.com/THU-KEG/Agentic-Reward-Modeling).
언어 모델(Language Models, LMs)이 과학적 발견을 가속화할 잠재력에 대한 기대가 점차 커지고 있다. 가설을 반증하는 것은 과학적 진보의 핵심이며, 이를 통해 주장이 시간에 걸쳐 반복적으로 정제될 수 있다. 이 과정은 상당한 연구자의 노력, 추론, 그리고 창의성을 요구한다. 그러나 현재의 LM 벤치마크는 주로 해결책을 생성하는 능력을 평가하는 데 초점이 맞춰져 있으며, 이를 반증하는 능력은 평가하지 않는다. 우리는 이와 반대되는 능력, 즉 미묘하게 잘못된 해결책에 대한 반례를 생성하는 능력을 평가하는 벤치마크를 개발할 것을 주장한다. 이를 입증하기 위해, 우리는 코드 실행을 통해 반례를 자동으로 평가할 수 있는 알고리즘 문제 해결 분야에서 시작한다. 구체적으로, 우리는 최근의 문제와 프로그래밍 대회에서 잘못된 제출물을 포함하며, 인간 전문가들이 성공적으로 반례를 식별한 REFUTE라는 동적으로 업데이트되는 벤치마크를 소개한다. 우리의 분석에 따르면, 최고의 추론 에이전트들, 심지어 코드 실행 피드백을 제공하는 OpenAI o3-mini(high)조차도 REFUTE의 잘못된 해결책 중 <9%에 대해서만 반례를 생성할 수 있으며, 이는 해당 문제를 처음부터 해결할 수 있는 능력이 48%에 달한다는 평가와 대조된다. 우리는 이 연구가 잘못된 해결책을 반증하는 LM의 능력을 평가하고 향상시키는 데 진전을 이끌어, 연구 가속화와 모델이 신뢰할 수 있는 반성적 추론을 통해 스스로 개선할 수 있도록 하는 데 기여하기를 바란다.
페이월, 라이선스, 저작권 규정은 종종 과학 지식의 광범위한 보급과 재사용을 제한합니다. 우리는 학술 텍스트에서 과학 지식을 추출하는 것이 법적으로도 기술적으로도 가능하다는 입장을 취합니다. 텍스트 임베딩과 같은 현재의 방법들은 사실적 내용을 신뢰성 있게 보존하지 못하며, 단순한 패러프레이징은 법적으로 안전하지 않을 수 있습니다. 우리는 학술 문서를 LLM을 사용하여 지식 단위(Knowledge Units)로 변환하는 새로운 아이디어를 커뮤니티에 채택할 것을 촉구합니다. 이러한 단위는 스타일적 내용 없이 엔티티, 속성 및 관계를 포착하는 구조화된 데이터를 사용합니다. 우리는 지식 단위가 (1) 독일 저작권법과 미국 공정 사용 원칙에 대한 법적 분석을 바탕으로 저작권이 있는 연구 텍스트의 지식을 공유하기 위한 법적으로 방어 가능한 프레임워크를 형성하며, (2) 네 가지 연구 분야에서 원본 저작권 텍스트의 사실에 대한 MCQ 성능을 측정한 결과, 원본 텍스트의 대부분(~95%)의 사실적 지식을 보존한다는 증거를 제시합니다. 과학 지식을 저작권으로부터 해방시키는 것은 언어 모델이 저작권이 있는 텍스트의 중요한 사실을 재사용할 수 있게 함으로써 과학 연구와 교육에 혁신적인 이점을 약속합니다. 이를 지원하기 위해 연구 문서를 지식 단위로 변환하는 오픈소스 도구를 공유합니다. 전반적으로, 우리의 작업은 저작권을 존중하면서 과학 지식에 대한 접근을 민주화하는 것이 가능하다는 점을 제시합니다.
그래픽 사용자 인터페이스(GUI) 에이전트를 위한 비전-언어 모델(VLM)을 강화 학습(RL)을 통해 훈련시키는 데는 중요한 과제가 있습니다: 환경 기반 RL은 비용이 많이 드는 상호작용을 요구하는 반면, 환경 없는 방법론은 분포 변화와 보상 일반화에 어려움을 겪습니다. 우리는 사전 훈련된 가치 환경 모델(VEM)을 활용하여 가치 추정과 정책 최적화를 분리하는 환경 없는 RL 프레임워크를 제안합니다. VEM은 오프라인 데이터에서 직접 상태-행동 가치를 예측하며, 다음 상태 예측이나 환경 피드백 없이도 GUI 상호작용 결과에 대한 인간과 유사한 사전 지식을 추출합니다. 이는 오류 누적을 피하고 의미론적 추론(예: 이 행동이 사용자의 목표를 진전시키는가?)에 초점을 맞춤으로써 UI 변화에 대한 탄력성을 향상시킵니다. 이 프레임워크는 두 단계로 작동합니다: (1) 장기적 행동 효용을 추정하기 위해 VEM을 사전 훈련시키고, (2) 고정된 VEM 신호로 정책 탐색을 안내하여 레이아웃에 구애받지 않는 GUI 자동화를 가능하게 합니다. Android-in-the-Wild 벤치마크에서 평가한 결과, VEM은 오프라인 및 온라인 설정 모두에서 최신 기술 수준의 성능을 달성하며, 환경 없는 기준선을 크게 능가하고 상호작용 비용 없이 환경 기반 접근법과 동등한 성능을 보였습니다. 특히, VEM은 의미론적 인식을 통한 가치 추정이 온라인 훈련 방법과 견줄 만한 성능을 달성할 수 있음을 입증했습니다.
단안 깊이 추정(Monocular Depth Estimation, MDE)은 단일 RGB 이미지로부터 장면 깊이를 예측하는 것을 목표로 하며, 3D 장면 이해에서 중요한 역할을 합니다. 최근의 제로샷 MDE 연구는 정규화된 깊이 표현과 증류 기반 학습을 활용하여 다양한 장면에서의 일반화 성능을 향상시키고 있습니다. 그러나 현재의 깊이 정규화 방법은 전역 정규화에 의존함으로써 잡음이 포함된 의사 레이블을 증폭시킬 수 있어 증류 효과를 감소시키는 문제가 있습니다. 본 논문에서는 의사 레이블 증류에 대한 다양한 깊이 정규화 전략의 영향을 체계적으로 분석합니다. 이를 바탕으로, 우리는 전역 및 지역 깊이 단서를 통합하여 의사 레이블 품질을 향상시키는 Cross-Context Distillation을 제안합니다. 또한, 서로 다른 깊이 추정 모델의 상호 보완적 강점을 활용하는 멀티 티처 증류 프레임워크를 도입함으로써 더욱 견고하고 정확한 깊이 예측을 가능하게 합니다. 벤치마크 데이터셋에서의 광범위한 실험을 통해, 우리의 접근 방식이 양적 및 질적으로 최신 방법들을 크게 능가함을 입증합니다.
언어 모델은 최적의 성능을 위해 고품질 데이터에 크게 의존합니다. 기존 접근 방식은 수동으로 설계된 휴리스틱, 기존 모델의 perplexity, 분류기 훈련 또는 신중한 프롬프트 엔지니어링에 의존하는데, 이는 상당한 전문가 경험과 인간 주석 노력을 요구하면서도 편향을 도입합니다. 우리는 CritiQ라는 새로운 데이터 선택 방법을 소개합니다. 이 방법은 단 30개의 인간 주석 쌍만으로 인간 선호도에서 데이터 품질 기준을 자동으로 추출하고 효율적인 데이터 선택을 수행합니다. 주요 구성 요소인 CritiQ Flow는 품질 기준을 발전시키는 관리자 에이전트와 쌍별 판단을 내리는 작업자 에이전트를 사용합니다. 우리는 CritiQ Flow를 강화하기 위해 이전 연구에서 품질 기준을 추출한 지식 기반을 구축합니다. Perplexity 및 분류기 기반 방법과 비교하여, 언어적 기준은 더 해석 가능하고 재사용 가능한 가치를 지닙니다. 기준을 도출한 후, 우리는 CritiQ Scorer를 훈련시켜 품질 점수를 부여하고 효율적인 데이터 선택을 수행합니다. 우리는 코드, 수학 및 논리 영역에서 이 방법의 효과를 입증하며, 인간 주석 테스트 세트에서 높은 정확도를 달성합니다. 선택된 데이터의 품질을 검증하기 위해, 우리는 Llama 3.1 모델을 지속적으로 훈련시키고 균일 샘플링에 비해 다운스트림 작업에서 향상된 성능을 관찰합니다. Ablation 연구는 지식 기반과 반성 프로세스의 이점을 검증합니다. 우리는 기준이 어떻게 진화하는지와 다수결 투표의 효과를 분석합니다.
대형 언어 모델(LLMs)은 일상적인 애플리케이션에 점점 더 많이 배포되면서, 강력한 일반 추론 능력과 다양한 추론 기술을 요구하고 있습니다. 그러나 현재의 LLM 추론 벤치마크는 주로 수학 및 코딩 능력에 초점을 맞추고 있어, 더 넓은 범위의 추론 능력을 평가하는 데 있어 공백이 존재합니다. 한 가지 예외는 BIG-Bench 데이터셋으로, 이는 다양한 도전적인 작업을 통해 통합된 프레임워크 내에서 다양한 기술에 걸친 일반 추론 능력을 종합적으로 평가할 수 있게 해주어 LLM의 일반 추론 능력을 평가하는 중요한 벤치마크 역할을 해왔습니다. 그러나 최근 LLM의 발전으로 인해 BIG-Bench와 그 어려운 버전인 BIG-Bench Hard(BBH)에서 포화 상태에 이르렀습니다. 최첨단 모델들은 BBH의 많은 작업에서 거의 완벽한 점수를 달성하여 그 유용성이 감소하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 LLM 추론 평가의 한계를 뛰어넘기 위해 설계된 새로운 벤치마크인 BIG-Bench Extra Hard(BBEH)를 소개합니다. BBEH는 BBH의 각 작업을 유사한 추론 능력을 탐구하지만 훨씬 더 높은 난이도를 보이는 새로운 작업으로 대체합니다. 우리는 다양한 모델을 BBEH에서 평가하였고, 최고의 범용 모델은 9.8%의 (조화) 평균 정확도를, 최고의 추론 전용 모델은 44.8%의 정확도를 보였습니다. 이는 개선의 여지가 상당히 크며, LLM에서 강력한 일반 추론을 달성하는 것이 여전히 도전적인 과제임을 강조합니다. 우리는 BBEH를 공개적으로 공개합니다: https://github.com/google-deepmind/bbeh.
대규모 언어 모델(LLM)의 효과적인 개인화는 가상 어시스턴트 및 콘텐츠 큐레이션과 같은 다양한 사용자 인터페이스 애플리케이션에서 매우 중요합니다. LLM의 강력한 컨텍스트 내 학습 능력에 영감을 받아, 우리는 보상 모델링을 메타 학습 문제로 재구성하는 Few-Shot Preference Optimization(FSPO)을 제안합니다. 이 프레임워크에서 LLM은 사용자의 몇 가지 라벨링된 선호도를 통해 빠르게 적응하여 개인화된 보상 함수를 구성합니다. 또한, 실제 선호도 데이터는 부족하고 대규모로 수집하기 어렵기 때문에, 우리는 공개적으로 이용 가능한 LLM을 사용하여 100만 개 이상의 합성 개인화 선호도 데이터셋을 구축하기 위한 신중한 설계 선택을 제안합니다. 특히, 합성 데이터를 실제 사용자에게 성공적으로 전이시키기 위해서는 데이터가 높은 다양성과 일관성 있는 구조를 모두 갖추는 것이 중요하다는 것을 발견했습니다. 우리는 FSPO를 영화 리뷰, 교육 배경에 기반한 교육적 적응, 일반 질문 응답 등 세 가지 도메인에서 최대 1,500명의 합성 사용자를 대상으로 개인화된 개방형 생성 작업에서 평가하고, 통제된 인간 연구를 수행했습니다. 전반적으로, FSPO는 합성 사용자에게 개인화된 응답 생성에서 평균 87%의 Alpaca Eval 승률을 달성했으며, 개방형 질문 응답에서 실제 인간 사용자와의 비교에서 72%의 승률을 기록했습니다.
Mixture of Experts(MoE) 아키텍처는 동일한 용량의 밀집 모델(dense model)에 비해 학습 및 추론 비용을 크게 절감합니다. 업사이클링(Upcycling)은 사전 학습된 밀집 모델을 사용하여 MoE 모델을 초기화하고 학습시키는 접근 방식입니다. 업사이클링은 초기 성능 향상을 가져오지만, 처음부터 학습을 시작할 때보다 학습 진행 속도가 느려 장기적으로는 최적의 성능을 달성하지 못하는 문제가 있습니다. 우리는 이 문제를 효과적으로 해결하는 Drop-Upcycling 방법을 제안합니다. Drop-Upcycling은 사전 학습된 밀집 모델의 지식을 활용하면서도 일부 가중치를 통계적으로 재초기화하는 두 가지 상반된 접근 방식을 결합합니다. 이 방법은 전문가(expert)의 특화를 전략적으로 촉진하여 MoE 모델의 지식 습득 효율을 크게 향상시킵니다. 대규모 실험을 통해 Drop-Upcycling이 장기적으로, 특히 수천억 개 이상의 토큰을 학습할 때 이전의 MoE 구축 방법을 크게 능가함을 입증했습니다. 결과적으로, 5.9B 활성 파라미터를 가진 우리의 MoE 모델은 동일 모델 계열의 13B 밀집 모델과 비슷한 성능을 달성하면서도 학습 FLOPs를 약 1/4로 줄였습니다. 재현성과 MoE에 대한 향후 연구를 촉진하기 위해 소스 코드, 학습 데이터, 모델 체크포인트 및 로그를 포함한 모든 실험 리소스를 공개합니다.
항공 교통 관제(ATC)에서의 효과적인 의사 소통은 항공 안전을 유지하는 데 중요하지만, 강조된 영어로 인한 도전에 대한 대응은 자동 음성 인식(ASR) 시스템에서 여전히 주로 다루지 않고 있습니다. 기존 모델은 특히 소음이 있는 ATC 환경에서 동남아시아(SEA) 사투리의 음성에 대한 전사 정확도에 어려움을 겪습니다. 본 연구는 새롭게 생성된 데이터셋을 사용하여 동남아시아 사투리에 특화된 ASR 모델의 개발을 제시합니다. 우리의 연구는 SEA 사투리 ATC 음성에 대해 0.0982 또는 9.82%의 단어 오류율(WER)을 달성하는 중요한 개선을 이루었습니다. 더불어, 본 논문은 지역별 데이터셋과 사투리 중심의 교육의 중요성을 강조하며, 자원 부족한 군사 작전에서 ASR 시스템을 배치하는 길을 제시합니다. 이 연구 결과는 비서구 사투리에 대한 ATC 의사 소통의 전사 정확도를 향상시키기 위해 소음에 강건한 교육 기술과 지역별 데이터셋의 필요성을 강조합니다.
AI 모델이 다양한 실제 시나리오에 점점 더 많이 배포됨에 따라, 그 안전성을 보장하는 것은 여전히 중요하면서도 충분히 탐구되지 않은 과제로 남아 있습니다. AI 안전성을 평가하고 강화하기 위한 상당한 노력이 기울여졌음에도 불구하고, 표준화된 프레임워크와 포괄적인 툴킷의 부재는 체계적인 연구와 실질적인 도입에 상당한 장애물로 작용하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 AI 안전성을 위한 대표적인 공격, 방어 및 평가 방법론을 통합한 통합 프레임워크 및 툴킷인 AISafetyLab을 소개합니다. AISafetyLab은 직관적인 인터페이스를 통해 개발자들이 다양한 기술을 원활하게 적용할 수 있도록 하면서도, 향후 발전을 위해 잘 구조화되고 확장 가능한 코드베이스를 유지할 수 있도록 설계되었습니다. 또한, 우리는 Vicuna에 대한 실증 연구를 수행하여 다양한 공격 및 방어 전략의 상대적 효과를 분석함으로써 유용한 통찰을 제공합니다. AI 안전성 분야의 지속적인 연구와 개발을 촉진하기 위해, AISafetyLab은 https://github.com/thu-coai/AISafetyLab에서 공개적으로 제공되며, 우리는 지속적인 유지보수와 개선에 전념하고 있습니다.
3D 구조와 분자 시스템의 에너지 상태 간의 관계를 수립하는 것은 3D 분자 표현을 학습하는 데 있어 유망한 접근 방식으로 입증되었습니다. 그러나 기존 방법들은 고전 역학에서의 분자 에너지 상태 모델링에 국한되어 있습니다. 이러한 한계는 양자 역학적 효과, 예를 들어 양자화된(이산적인) 에너지 준위 구조와 같은 요소들을 간과하게 되며, 이는 분자 에너지를 더 정확하게 추정할 수 있고 에너지 스펙트럼을 통해 실험적으로 측정할 수 있는 요소들입니다. 본 논문에서는 에너지 스펙트럼을 활용하여 3D 분자 표현(MolSpectra)의 사전 학습을 강화함으로써, 양자 역학적 지식을 분자 표현에 통합하고자 제안합니다. 구체적으로, 마스킹된 패치 재구성을 통해 분자 스펙트럼을 인코딩하는 다중 스펙트럼 인코더인 SpecFormer를 제안합니다. 3D 인코더와 스펙트럼 인코더의 출력을 대조적 목표를 통해 추가로 정렬함으로써, 3D 인코더의 분자 이해를 강화합니다. 공개 벤치마크에 대한 평가 결과, 우리의 사전 학습된 표현이 분자 특성 예측 및 역학 모델링에서 기존 방법들을 능가하는 것으로 나타났습니다.
지식 편집 기술은 대규모 언어 모델 (LLM) 및 다중 모달 모델 (LMM)의 사실적 지식을 업데이트하는 데 중요한 도구로 등장했습니다. 이를 통해 이러한 모델들이 처음부터 재학습할 필요 없이 오래된 또는 부정확한 정보를 수정할 수 있습니다. 그러나 다중 모달 지식 편집을 위한 기존 벤치마크는 주로 간단한 삼중체로 표현된 개체 수준의 지식에 초점을 맞추어 현실 세계의 다중 모달 정보의 복잡성을 포착하지 못합니다. 이 문제를 해결하기 위해 우리는 MMKE-Bench를 소개합니다. 이는 실제 시나리오에서 LMM의 다양한 시각적 지식을 편집하는 능력을 평가하기 위해 설계된 포괄적인 MultiModal 지식 편집 벤치마크입니다. MMKE-Bench는 시각적 개체 편집, 시각적 의미 편집 및 사용자별 편집 세 가지 유형의 편집 작업을 통합하여 이러한 한계를 해결합니다. 또한 MMKE-Bench는 지식을 표현하고 편집하기 위해 자유 형식의 자연어를 사용하여 더 유연하고 효과적인 형식을 제공합니다. 이 벤치마크는 33개의 넓은 범주를 통해 2,940개의 지식 조각과 8,363개의 이미지로 구성되어 있으며, 자동으로 생성된 평가 문항과 인간 검증이 이루어집니다. 우리는 세 가지 주요 LMM에서 다섯 가지 최첨단 지식 편집 방법을 평가하여, 어떤 방법도 모든 기준에서 뛰어나지 않으며, 시각적 및 사용자별 편집이 특히 어려움을 보여줍니다. MMKE-Bench는 다중 모달 지식 편집 기술의 견고성을 평가하는 새로운 기준을 제시하여 이 분야의 발전을 주도합니다.
대규모 언어 모델(LLMs)은 자연어 처리 작업에서 필수적인 요소가 되었습니다. 그러나 자기회귀적 샘플링은 효율성의 병목 현상으로 작용하고 있습니다. 최근 제안된 다중 초안 추측 디코딩(MDSD)은 각 토큰을 생성할 때 작은 초안 모델이 여러 초안을 생성하고, 대상 LLM이 이를 병렬로 검증하여 최종 출력이 대상 모델의 분포를 따르도록 보장하는 접근법입니다. MDSD의 주요 설계 선택 요소는 초안 샘플링 방법과 검증 알고리즘입니다. 고정된 초안 샘플링 방법에 대해 최적 수용률은 최적 운송 문제의 해결책이지만, 이 문제의 복잡성으로 인해 최적 수용률을 구하고 기존 검증 알고리즘과 이론적 상한 간의 차이를 측정하기가 어렵습니다. 본 논문은 최적 운송 문제의 쌍대 문제를 논의함으로써 최적 수용률을 효율적으로 계산하는 방법을 제시합니다. 우리는 처음으로 수천 개의 어휘 크기에 대해 MDSD 효율성의 이론적 상한을 측정하고, 기존 검증 알고리즘과 이 상한 간의 차이를 정량화합니다. 또한, 우리는 다양한 초안 샘플링 방법을 최적 수용률을 기준으로 비교합니다. 우리의 결과는 초안 샘플링 방법이 최적 수용률에 큰 영향을 미치며, 복원 없이 샘플링하는 것이 복원 샘플링보다 우수함을 보여줍니다. 또한, 기존 검증 알고리즘은 복원 없이 샘플링과 복원 샘플링 모두에서 이론적 상한에 도달하지 못합니다. 우리의 연구 결과는 신중하게 설계된 초안 샘플링 방법이 최적 수용률을 개선하고, 이론적 상한에 근접한 검증 알고리즘 개발을 가능하게 할 수 있음을 시사합니다.
시각적으로 복잡한 콘텐츠, 특히 과학 포스터와 같은 자료에서 정확하고 간결한 텍스트 요약을 생성하는 것은 어려운 과제입니다. 우리는 과학 포스터를 이해하고 이를 연구 논문의 초록으로 요약할 수 있는 비전-언어 모델의 발전을 촉진하기 위해 새로운 벤치마크인 PosterSum을 소개합니다. 우리의 데이터셋은 16,305개의 컨퍼런스 포스터와 그에 해당하는 초록을 요약으로 포함하고 있습니다. 각 포스터는 이미지 형식으로 제공되며, 복잡한 레이아웃, 밀집된 텍스트 영역, 표, 그림 등 다양한 시각적 이해 과제를 제시합니다. 우리는 PosterSum에서 최신 멀티모달 대형 언어 모델(MLLMs)을 벤치마킹하고, 이들이 과학 포스터를 정확하게 해석하고 요약하는 데 어려움을 겪는다는 것을 보여줍니다. 우리는 Segment & Summarize라는 계층적 방법을 제안하며, 이는 자동화된 메트릭에서 현재의 MLLMs를 능가하여 ROUGE-L에서 3.14%의 성능 향상을 달성합니다. 이는 포스터 요약에 대한 향후 연구의 출발점으로 활용될 것입니다.
약하게 지도된 의미론적 분할 (WSSS)은 일반적으로 제한된 의미 주석을 활용하여 초기 Class Activation Maps (CAMs)을 획득합니다. 그러나 고차원 공간에서 클래스 활성화 응답과 의미 정보 간의 불충분한 결합으로 인해 CAM은 물체 공존 또는 미활성화로 취약해져 인식 정확도가 저하될 수 있습니다. 이 문제를 해결하기 위해 우리는 DOEI, Dual Optimization of Embedding Information을 제안합니다. 이는 임베딩 표현을 재구성하여 의미 인식 주의 가중치 행렬을 통해 임베딩 정보의 표현 능력을 최적화하는 혁신적인 방법입니다. 구체적으로, DOEI는 클래스-패치 상호작용 중에 높은 확신을 가진 토큰을 증폭시키고 낮은 확신을 가진 토큰을 억제합니다. 이러한 활성화 응답과 의미 정보의 조정은 대상 특징의 전파와 분리를 강화시켜 생성된 임베딩이 고수준 의미 공간에서 대상 특징을 더 정확하게 표현할 수 있도록 합니다. 또한, 우리는 RGB 값, 임베딩 가이드 특징 및 자기 주의 가중치를 결합하여 후보 토큰의 신뢰성을 높이는 하이브리드 특징 정렬 모듈을 DOEI에 제안합니다. 포괄적인 실험 결과는 DOEI가 최신 비주얼 트랜스포머 기반 WSSS 모델의 CAM 품질과 세분화 성능을 크게 향상시키는 효과적인 플러그 앤 플레이 모듈임을 보여줍니다. 이는 PASCAL VOC (+3.6%, +1.5%, +1.2% mIoU) 및 MS COCO (+1.2%, +1.6% mIoU)를 포함한 인기 있는 벤치마크에서 세그멘테이션 성능을 향상시킵니다. 코드는 https://github.com/AIGeeksGroup/DOEI에서 사용할 수 있습니다.