번역이 포함된 일일 선별된 AI 연구 논문
LG AI 연구팀이 개발한 대형 언어 모델(Large Language Models, LLMs) 패밀리의 첫 번째 오픈 모델인 EXAONE 3.0 instruction-tuned 언어 모델을 소개합니다. 다양한 모델 크기 중에서, 우리는 78억 개의 instruction-tuned 모델을 공개하여 오픈 연구와 혁신을 촉진합니다. 공개 및 내부 벤치마크를 통한 포괄적인 평가를 통해, EXAONE 3.0은 instruction-following 능력을 갖춘 다른 유사 크기의 최첨단 오픈 모델들에 대해 매우 경쟁력 있는 실제 성능을 보여줍니다. 우리의 비교 분석 결과, EXAONE 3.0은 특히 한국어에서 뛰어나며 일반적인 작업 및 복잡한 추론에서도 탁월한 성능을 달성합니다. 강력한 실제 세계 효과성과 이중 언어 능력을 갖춘 EXAONE이 전문가 수준의 AI 발전에 기여할 것으로 기대합니다. 저희의 EXAONE 3.0 instruction-tuned 모델은 https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct에서 이용 가능합니다.
인공지능 분야에서 일반적인 목적의 에이전트를 구축하는 것은 오랜 역사를 가진 비전입니다. 기존의 에이전트들은 많은 영역에서 현저한 진전을 이루었지만, 여전히 개방된 환경에서 장기적인 과제를 완수하는 데 어려움을 겪고 있습니다. 우리는 이를 필요한 세계 지식과 다중 모달 경험의 부족으로 설명합니다. 이러한 부족으로 인해 에이전트들이 다양한 장기적인 과제를 수행하는 데 안내할 수 있는 세계 지식을 학습하는 데 어려움을 겪고 있습니다. 본 논문에서는 위 기술적 도전에 대처하기 위해 Hybrid Multimodal Memory 모듈을 제안합니다. 이 모듈은 1) 에이전트가 명시적으로 표현하고 세계 지식을 학습할 수 있도록 계층적 방향성 지식 그래프로 지식을 변환하며, 2) 역사적 정보를 요약하여 에이전트에게 맥락 속 학습을 위한 풍부한 참고 자료를 제공하는 Abstracted Multimodal Experience Pool로 변환합니다. Hybrid Multimodal Memory 모듈을 기반으로 한 다중 모달 에이전트인 Optimus-1은 전용 지식 안내 플래너와 경험 주도 반사기를 갖추어 마인크래프트의 장기적인 과제에 대한 계획 및 반성을 개선합니다. 광범위한 실험 결과는 Optimus-1이 어려운 장기적인 과제 벤치마크에서 기존의 모든 에이전트들을 크게 능가하며, 많은 과제에서 거의 인간 수준의 성능을 보여준다는 것을 보여줍니다. 또한, Optimus-1의 기바인으로 다양한 다중 모달 대형 언어 모델(MLLMs)을 소개합니다. 실험 결과는 Hybrid Multimodal Memory 모듈의 도움으로 Optimus-1이 GPT-4V 기준을 많은 과제에서 능가하며 강력한 일반화 능력을 보여준다는 것을 보여줍니다.
로봇 공학 연구 커뮤니티에 있어서 인간 수준의 속도와 성능을 달성하는 것은 목표로 삼는 중심 별이다. 본 연구는 그 목표에 한 발짝 더 나아가, 경쟁적인 탁구에서 아마추어 수준의 인간과 동등한 성능에 이르는 최초의 학습된 로봇 에이전트를 제시한다. 탁구는 인간 선수들이 숙련된 수준을 달성하기 위해 몇 년간의 훈련을 거쳐야 하는 신체적으로 요구되는 스포츠이다. 본 논문에서는 (1) 에이전트의 능력을 모델링하고 시뮬레이션과 현실 간의 간극을 줄이는 데 도움이 되는 상세한 기술 설명을 갖춘 저수준 컨트롤러와 (ii) 저수준 기술을 선택하는 고수준 컨트롤러로 이루어진 계층적이고 모듈식 정책 아키텍처, (2) 과업 분배를 정의하는 반복적 접근을 포함한 시뮬레이션과 현실 간의 영(0)-샷을 가능하게 하는 기술, 그리고 현지적이며 자동 교육과정을 정의하는 기술, (3) 보이지 않는 상대에 대한 실시간 적응 기법을 기여한다. 정책 성능은 29번의 로봇 대 인간 경기를 통해 평가되었으며 로봇은 그 중 45% (13/29)를 이겼다. 모든 인간은 보이지 않는 선수들로, 그들의 실력 수준은 초보부터 대회 수준까지 다양했다. 로봇은 가장 숙련된 선수에게 모든 경기에서 패배했지만 초보자에 대해서는 100%의 승리를 거두었으며 중급자에 대해서는 55%의 승리를 거두었으며, 견고한 아마추어 수준의 인간 수준 성능을 보여주었다. 경기 영상은 https://sites.google.com/view/competitive-robot-table-tennis에서 확인할 수 있다.
대규모 언어 모델(Large Language Models, LLMs)은 HumanEval 및 MBPP와 같은 독립형 코드 작업에서 뛰어나지만 전체 코드 저장소를 처리하는 데 어려움을 겪습니다. 이러한 도전에 대응하기 위해 현재 연구는 저장소 규모에서 LLM-코드베이스 상호 작용을 향상시키는 방법에 대해 진행되고 있습니다. 현재 솔루션은 유사성 기반 검색이나 수동 도구 및 API에 의존하며, 각각이 주목할만한 단점을 가지고 있습니다. 유사성 기반 검색은 복잡한 작업에서 저 회수율을 보이는 반면, 수동 도구 및 API는 일반화가 어렵고 전문 지식이 필요하여 다양한 코드 작업 및 실제 응용 프로그램에서의 적용 범위가 제한됩니다. 이러한 한계를 극복하기 위해 우리는 \framework을 소개합니다. 이 시스템은 코드 저장소에서 추출된 그래프 데이터베이스 인터페이스와 통합되는 LLM 에이전트를 결합합니다. 그래프 데이터베이스의 구조적 특성과 그래프 쿼리 언어의 유연성을 활용하여 \framework은 LLM 에이전트가 쿼리를 작성하고 실행할 수 있도록 하여 정확한 코드 구조 인식 문맥 검색 및 코드 탐색을 가능하게 합니다. 우리는 \framework을 CrossCodeEval, SWE-bench 및 EvoCodeBench 세 가지 벤치마크를 사용하여 평가합니다. 또한 다섯 가지의 실제 코딩 응용 프로그램을 개발합니다. 통합된 그래프 데이터베이스 스키마를 사용하여 \framework은 소프트웨어 공학 분야에서의 다양한 환경에서 경쟁력 있는 성능과 잠재력을 보여주며, 학술 및 실제 환경에서의 다용성과 효과를 뽐냅니다. 저희의 응용 프로그램 데모: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval은 대규모 언어 모델(LLM)을 평가하기 위해 설계된 포괄적인 AI 안전성 테스트 툴킷입니다. 이는 오픈 웨이트 및 API 기반 모델을 포함한 다양한 모델을 수용하며, 다국어 안전성, 과장된 안전성, 그리고 프롬프트 주입과 같은 영역을 포함하는 35개 이상의 안전성 벤치마크를 제공합니다. 이 프레임워크는 LLM과 판사 벤치마킹을 모두 지원하며, 미래 시제 및 다양한 텍스트 스타일 변이에 대한 안전성을 테스트하기 위해 사용자 정의 뮤테이터를 통합하고 있습니다. 게다가, WalledEval은 새롭고 작고 성능이 우수한 콘텐츠 모더레이션 도구인 WalledGuard와 문화적 맥락에서 과장된 안전성을 평가하기 위한 벤치마크인 SGXSTest를 소개합니다. WalledEval은 https://github.com/walledai/walledevalA에서 공개되어 있습니다.
3D 가우시안 스플래팅 (3DGS)은 최근에 등장한 대안 표현 방식으로, 3D 가우시안 기반 표현을 활용하고 근사 체적 렌더링을 도입하여 매우 빠른 렌더링 속도와 고품질 이미지를 달성합니다. 더불어, 후속 연구들에서는 3DGS를 동적 3D 장면으로 성공적으로 확장하여 다양한 응용 분야를 보여주었습니다. 그러나, 3DGS 및 이후 방법들은 렌더링된 이미지의 고신뢰도를 유지하기 위해 상당 수의 가우시안을 필요로 하며, 이는 많은 메모리와 저장 공간을 요구하는 중요한 단점이 발생합니다. 이 심각한 문제를 해결하기 위해, 우리는 두 가지 주요 목표에 특별히 초점을 맞추고 있습니다: 성능을 희생하지 않으면서 가우시안 점의 수를 줄이고, 뷰에 따라 다른 색상 및 공분산과 같은 가우시안 속성을 압축하는 것입니다. 이를 위해, 우리는 높은 성능을 유지하면서 가우시안의 수를 크게 줄이는 학습 가능한 마스크 전략을 제안합니다. 또한, 우리는 구 형태의 신경장을 활용하여 구 형태의 조화함수에 의존하는 대신 뷰에 따라 다른 색상을 간결하고 효과적으로 표현하는 방법을 제안합니다. 마지막으로, 우리는 잔차 벡터 양자화를 통해 기하학적 및 시간적 속성을 간결하게 표현하기 위해 코드북을 학습합니다. 양자화 및 엔트로피 부호화와 같은 모델 압축 기술을 사용하여, 정적 장면에 대해 3DGS와 비교하여 일관되게 25배 이상의 저장 공간 절감과 향상된 렌더링 속도를 보여줍니다. 동적 장면의 경우, 우리의 접근 방식은 기존 최첨단 방법과 비교하여 12배 이상의 저장 효율성을 달성하고 장면 표현의 고품질 재구성을 유지합니다. 우리의 연구는 고성능, 빠른 학습, 간결성 및 실시간 렌더링을 달성하는 3D 장면 표현을 위한 포괄적인 프레임워크를 제공합니다. 우리의 프로젝트 페이지는 https://maincold2.github.io/c3dgs/에서 확인할 수 있습니다.
최근 이미지 생성 모델은 간단한 캡션으로부터 고품질 이미지를 생성하는 데 뛰어납니다. 그러나 긴 맥락을 다룰 때 여러 인스턴스 간 일관성을 유지하는 데 실패합니다. 이 불일치는 기존의 훈련 데이터셋에서 세부 인스턴스 특성 레이블링이 부족하기 때문입니다. 이러한 문제를 해결하기 위해 우리는 Openstory++를 소개합니다. 이는 이미지와 텍스트에 추가적인 인스턴스 수준 주석을 결합한 대규모 데이터셋입니다. 더 나아가, 우리는 엔티티 중심의 이미지-텍스트 생성을 강조하는 훈련 방법론을 개발했습니다. 이를 통해 모델이 시각적 및 텍스트 정보를 효과적으로 얽히도록 학습하도록 보장합니다. 구체적으로, Openstory++는 오픈 도메인 비디오에서 키프레임 추출 과정을 간소화하고, 시각-언어 모델을 활용하여 캡션을 생성한 후 이를 서술적 일관성을 위해 대규모 언어 모델에 의해 정제합니다. 이는 자동 캡션 생성, 인스턴스 수에 맞게 조정된 고해상도 이미지, 시간적 일관성을 위한 포괄적인 프레임 시퀀스를 통합한 보다 포괄적인 오픈 도메인 자원을 제공하여 이전 데이터셋을 능가합니다. 더불어, 우리는 긴 다중 모달 맥락이 제공될 때 이미지 생성 작업을 평가하기 위한 혁신적인 벤치마크 프레임워크인 Cohere-Bench를 제시합니다. 이는 배경, 스타일, 주어진 맥락의 인스턴스를 일관되게 유지하는 능력을 포함합니다. 기존의 벤치마크와 비교하여, 우리의 연구는 다중 모달 생성에서 중요한 간극을 메우며, 오픈 도메인 환경에서 복잡한 서술을 능숙하게 생성하고 해석할 수 있는 모델의 발전을 촉진합니다. Cohere-Bench 내에서 수행된 실험은 Openstory++의 우수성을 확인하며 고품질 시각적 서술 모델을 육성하고 오픈 도메인 생성 작업에 대응하는 능력을 향상시킵니다. 더 많은 세부 정보는 https://openstorypp.github.io/에서 확인할 수 있습니다.
우리는 Speech-MASSIVE을 제시합니다. 이는 MASSIVE 텍스트 말뭉치의 일부에 대한 음성 대응물을 포함하는 다국어 음성 언어 이해(Spoken Language Understanding, SLU) 데이터셋입니다. Speech-MASSIVE은 서로 다른 가족들의 12개 언어를 다루며, 의도 예측과 슬롯 채우기 작업에 대한 MASSIVE 주석을 상속합니다. 우리의 확장은 대규모 다국어 SLU 데이터셋의 부족과 다국어 및 작업 간에 기초 모델(LLM, 음성 인코더)을 평가하기 위한 다목적 음성 데이터셋에 대한 증가하는 필요성에 의해 촉발되었습니다. 우리는 다중 모달, 다중 작업, 다국어 데이터셋을 제공하고 다양한 교육 시나리오(제로샷, 퓨샷 및 완전한 파인튜닝)에서 계층 및 종단 간 구조를 사용한 SLU 기준선을 보고합니다. 더불어, 우리는 Speech-MASSIVE의 다른 작업들(음성 전사, 언어 식별, 음성 번역)을 평가하기 위한 적합성을 증명합니다. 데이터셋, 모델 및 코드는 다음에서 공개적으로 이용 가능합니다: https://github.com/hlt-mt/Speech-MASSIVE
차별화 가능한 체적 렌더링 기반 방법은 신규 시점 합성에서 상당한 진전을 이루었습니다. 한편, 혁신적인 방법은 Neural Radiance Fields (NeRF) 네트워크를 지역적 매개변수화된 구조로 대체하여 합리적인 시간 내에 고품질 렌더링을 가능케 했습니다. 다른 한편으로, 접근 방식은 NeRF의 광선 캐스팅 대신 가우시안 커널을 사용하여 광도 필드를 신속하게 최적화하는 차별화 가능한 스플래팅을 채택함으로써 장면에 민감하게 적응할 수 있게 했습니다. 그러나 불규칙하게 분포된 커널의 차별화 가능한 광선 캐스팅은 잘 탐구되지 않았으며, 스플래팅은 빠른 렌더링 시간을 제공하지만 명확히 보이는 아티팩트에 취약합니다. 저희 연구는 이 간극을 메워, 가우시안 함수로 분해된 방출 광도 c와 밀도 σ을 위해 구 형태 가우시안/하모닉과 연관된 방법을 제공함으로써 물리적으로 일관된 공식을 제시합니다. 또한, 불규칙하게 분포된 가우시안의 차별화 가능한 광선 캐스팅을 가능하게 하는 방법을 소개합니다. 이 방법은 광도 필드를 슬랩 단위로 통합하고 BVH 구조를 활용하여 장면에 섬세하게 적응할 수 있도록 합니다. 결과적으로, Blender 데이터셋에서 초당 25프레임의 추론 속도를 달성하면서 최신 기술과 비교하여 우수한 렌더링 품질을 달성합니다. 비디오와 코드가 있는 프로젝트 페이지: https://raygauss.github.io/
본 논문은 애니메이션 그래픽을 스프라이트로 분해하는 방법론을 제시합니다. 스프라이트는 기본 요소 또는 레이어의 집합입니다. 저희 방법론은 래스터 비디오에 맞게 스프라이트 매개변수를 최적화하는 데 기반을 두고 있습니다. 효율성을 위해, 스프라이트에 대해 정적 텍스처를 가정하여 검색 공간을 줄이고 텍스처 우선 모델을 사용하여 아티팩트를 방지합니다. 최적화 속도를 높이기 위해, 사전 훈련된 비디오 객체 분할 모델과 사용자의 단일 프레임 주석 입력을 활용하여 스프라이트 매개변수의 초기화를 소개합니다. 연구를 위해 온라인 디자인 서비스에서 Crello Animation 데이터셋을 구축하고 추출된 스프라이트의 품질을 측정하는 양적 측정 항목을 정의합니다. 실험 결과, 저희 방법은 품질/효율성 균형 측면에서 유사한 분해 작업에 대해 기존 방법을 현저히 능가함을 보여줍니다.
시네마틱 오디오 소스 분리(CASS)는 오디오 소스 분리의 비교적 새로운 하위 작업입니다. CASS의 전형적인 설정은 대화 스템(DX), 음악 스템(MX) 및 효과 스템(FX)으로 혼합물을 분리하는 것을 목표로 하는 세 스템 문제입니다. 그러나 실제로는 일부 소리 원본이 이 세 스템 중 어느 것에도 깔끔하게 들어 맞지 않아 제작 시 추가 보조 스템의 사용이 필요합니다. 영화 오디오에서 노래하는 목소리가 DX 또는 MX 중 어디에 속하는지가 크게 시네마틱 맥락에 따라 달라지는 매우 흔한 예가 있습니다. 본 연구에서는 전형적인 디코더 Bandit 및 쿼리 기반 단일 디코더 Banquet 모델을 비음악적 대화, 악기 음악, 노래하는 목소리 및 효과를 별도의 스템으로 취급하는 네 스템 문제로 확장하는 매우 직관적인 방법을 시연합니다. 흥미로운 점은 쿼리 기반 Banquet 모델이 전용 디코더 Bandit 모델을 능가했다는 것입니다. 이는 밴드에 중립적인 FiLM 레이어에 의해 강제된 더 나은 특징 정렬 때문이라고 가설을 세웠습니다. 데이터셋 및 모델 구현은 https://github.com/kwatcharasupat/source-separation-landing에서 제공될 예정입니다.