번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 복잡한 언어 및 비전 작업을 해결하기 위해 다양한 전문가 모델을 통합하는 데 있어 큰 가능성을 보여주고 있습니다. 인공지능 생성 콘텐츠(AIGC) 분야를 발전시키는 데 있어 그 중요성에도 불구하고, 지능형 오디오 콘텐츠 생성에서의 잠재력은 아직 탐구되지 않았습니다. 본 연구에서는 텍스트 지시에 따라 대화, 음악, 음향 효과를 포함한 스토리라인을 가진 오디오 콘텐츠를 생성하는 문제를 다룹니다. 우리는 WavJourney를 제안하는데, 이는 다양한 오디오 모델을 연결하여 오디오 콘텐츠를 생성하기 위해 LLMs를 활용하는 시스템입니다. 청각적 장면에 대한 텍스트 설명이 주어지면, WavJourney는 먼저 LLMs를 사용하여 오디오 스토리텔링을 위한 구조화된 스크립트를 생성합니다. 이 오디오 스크립트는 다양한 오디오 요소를 포함하며, 이들은 시공간적 관계에 따라 조직됩니다. 오디오의 개념적 표현으로서, 오디오 스크립트는 인간의 참여를 위한 상호작용적이고 해석 가능한 근거를 제공합니다. 이후, 오디오 스크립트는 스크립트 컴파일러에 입력되어 컴퓨터 프로그램으로 변환됩니다. 프로그램의 각 라인은 작업별 오디오 생성 모델이나 계산 작업 함수(예: 연결, 혼합)를 호출합니다. 그런 다음 컴퓨터 프로그램이 실행되어 오디오 생성을 위한 설명 가능한 솔루션을 얻습니다. 우리는 WavJourney의 실용성을 과학 소설, 교육, 라디오 드라마 등 다양한 실제 시나리오에서 입증합니다. WavJourney의 설명 가능하고 상호작용적인 설계는 다중 라운드 대화에서 인간-기계 공동 창작을 촉진하며, 오디오 제작에서의 창의적 통제와 적응성을 강화합니다. WavJourney는 인간의 상상력을 오디오로 구현함으로써 멀티미디어 콘텐츠 창작에서 새로운 창의적 가능성을 열어줍니다.
저순위 적응(LoRA)은 대규모 언어 모델(LLM)을 새로운 작업에 맞게 미세 조정하는 데 자주 사용됩니다. 본 논문은 교차 작업 일반화를 위한 LoRA 구성 가능성을 탐구하고, 다양한 주어진 작업에 대해 훈련된 LoRA 모듈을 목적에 맞게 조합하여 보이지 않는 작업에 대한 적응 가능한 성능을 달성하기 위해 설계된 전략적 프레임워크인 LoraHub를 소개합니다. 새로운 작업의 몇 가지 예시만으로도 LoraHub는 여러 LoRA 모듈의 유연한 조합을 가능하게 하여 인간의 전문 지식을 필요로 하지 않습니다. 특히, 이 조합은 추가적인 모델 매개변수나 그래디언트를 필요로 하지 않습니다. Big-Bench Hard(BBH) 벤치마크에서 도출된 우리의 실험 결과는 LoraHub가 퓨샷 시나리오에서 컨텍스트 내 학습의 성능을 효과적으로 모방할 수 있음을 시사하며, 각 추론 입력과 함께 컨텍스트 내 예시를 필요로 하지 않습니다. 우리 연구의 중요한 기여는 LoRA 커뮤니티를 조성하여 사용자가 훈련된 LoRA 모듈을 공유할 수 있게 함으로써 새로운 작업에의 적용을 용이하게 하는 것입니다. 우리는 이 자원이 일반 지능 및 생산 환경에서의 LLM에 대한 접근성을 넓히고 발전을 촉진할 것으로 기대합니다. 코드는 https://github.com/sail-sg/lorahub에서 제공될 예정입니다.
대규모 언어 모델(LLM)은 질문에 답하기 전에 단계별 "사고의 연쇄(Chain-of-Thought, CoT)" 추론을 생성할 때 더 나은 성능을 보이지만, 이러한 추론이 모델의 실제 추론 과정(즉, 질문에 답하는 과정)을 충실히 설명하는지는 명확하지 않습니다. 우리는 CoT 추론이 어떻게 불충실할 수 있는지에 대한 가설을 조사하기 위해, CoT에 개입(예: 실수를 추가하거나 재구성)할 때 모델 예측이 어떻게 변화하는지 살펴봅니다. 모델은 답변을 예측할 때 CoT에 얼마나 강하게 의존하는지 작업에 따라 큰 차이를 보이며, 때로는 CoT에 크게 의존하기도 하고 다른 경우에는 주로 무시하기도 합니다. CoT의 성능 향상은 CoT가 추가한 테스트 시간 계산량만으로 설명되거나 CoT의 특정 문구를 통해 인코딩된 정보로 설명되지 않는 것으로 보입니다. 모델이 더 크고 능력이 향상될수록, 우리가 연구한 대부분의 작업에서 덜 충실한 추론을 생성합니다. 전반적으로, 우리의 결과는 모델 크기와 작업과 같은 조건을 신중하게 선택할 경우 CoT가 충실할 수 있음을 시사합니다.
생성형 AI의 발전으로 인해, 자연어 명령을 통해 일상 작업을 관리할 수 있는 자율 에이전트의 흥미로운 잠재력이 부각되고 있습니다. 그러나 현재의 에이전트는 주로 단순화된 합성 환경에서 생성 및 테스트되어, 실제 시나리오를 충분히 반영하지 못하는 한계가 있습니다. 본 논문에서는 매우 현실적이고 재현 가능한 에이전트 명령 및 제어 환경을 구축합니다. 특히, 웹사이트에서 작업을 수행하는 에이전트에 초점을 맞추고, 전자상거래, 소셜 포럼 토론, 협업 소프트웨어 개발, 콘텐츠 관리 등 네 가지 일반적인 도메인의 완전히 기능적인 웹사이트로 구성된 환경을 생성합니다. 우리의 환경은 지도와 같은 도구 및 사용자 매뉴얼과 같은 외부 지식 기반으로 풍부하게 구성되어 인간과 유사한 문제 해결을 장려합니다. 이 환경을 기반으로, 작업 완료의 기능적 정확성을 평가하는 데 초점을 맞춘 벤치마크 작업 세트를 공개합니다. 우리 벤치마크의 작업은 다양하고 장기적인 작업으로, 인간이 인터넷에서 일상적으로 수행하는 작업을 모방하도록 설계되었습니다. 우리는 행동 전 사고와 같은 최신 기술을 통합한 여러 자율 에이전트를 설계 및 구현합니다. 결과는 복잡한 작업을 해결하는 것이 어려운 과제임을 보여줍니다: GPT-4 기반 최고 성능의 에이전트도 종단 간 작업 성공률이 10.59%에 불과합니다. 이러한 결과는 강력한 에이전트의 추가 개발 필요성, 현재 최첨단 언어 모델이 이러한 실제 작업에서 완벽한 성능과는 거리가 멀다는 점, 그리고 WebArena이 이러한 진전을 측정하는 데 사용될 수 있음을 강조합니다. 우리의 코드, 데이터, 환경 재현 리소스 및 비디오 데모는 https://webarena.dev/에서 공개적으로 제공됩니다.
대형 언어 모델(LLMs)은 다양한 정량적 추론 및 지식 벤치마크에서 뛰어난 성능을 보여왔습니다. 그러나 이러한 벤치마크 중 상당수는 LLMs가 점점 더 높은 점수를 기록함에 따라 유용성을 잃어가고 있으며, 이러한 분야에서 아직 전문가 수준의 성능에 도달하지 못한 상태입니다. 우리는 여러 분야의 고급 추론 문제로 구성된 새로운 벤치마크인 ARB를 소개합니다. ARB는 수학, 물리학, 생물학, 화학, 법학 등 다양한 분야의 문제를 포함하여 기존 벤치마크보다 더 도전적인 테스트를 제공합니다. ARB의 하위 집합으로, 고급 기호 추론과 도메인 지식을 요구하는 수학 및 물리학 문제 세트를 도입했습니다. 우리는 GPT-4와 Claude와 같은 최신 모델을 ARB에서 평가하고, 현재 모델들이 더 까다로운 작업에서 50% 미만의 점수를 기록함을 보여줍니다. 자동 및 보조 평가 능력을 개선하기 위해, GPT-4가 자신의 중간 추론 단계를 평가할 수 있는 루브릭 기반 평가 방식을 도입했습니다. 또한, ARB의 기호 추론 하위 집합에 대한 인간 평가를 수행하여, 평가자와 GPT-4 루브릭 평가 점수 간에 유망한 일치를 발견했습니다.
기존의 추천 시스템은 사용자의 아이템 선호 이력을 활용하여 사용자가 좋아할 만한 새로운 콘텐츠를 추천합니다. 그러나 사용자가 언어 기반 선호도를 표현할 수 있는 현대적인 대화형 인터페이스는 선호도 입력에 있어 근본적으로 다른 방식을 제공합니다. 대규모 언어 모델(LLM)의 프롬프팅 패러다임의 최근 성공에 영감을 받아, 우리는 아이템 기반 및 언어 기반 선호도 모두를 활용한 추천을 최신 아이템 기반 협업 필터링(CF) 방법과 비교하여 연구합니다. 이 연구를 지원하기 위해, 우리는 사용자로부터 수집된 아이템 기반 및 언어 기반 선호도와 함께 다양한 (편향된) 추천 아이템 및 (편향되지 않은) 무작위 아이템에 대한 평점으로 구성된 새로운 데이터셋을 구축했습니다. 수많은 실험 결과 중에서, 우리는 LLM이 특정 작업에 대한 지도 학습 없이(zero-shot) 또는 소량의 레이블만 사용하여(few-shot) 아이템 기반 CF 방법과 비교하여 순수 언어 기반 선호도(아이템 선호도 없음)에 대해 근접한 콜드 스타트 상황에서 경쟁력 있는 추천 성능을 제공한다는 것을 발견했습니다. 이는 언어 기반 선호도 표현이 아이템 기반 또는 벡터 기반 표현보다 더 설명 가능하고 검토 가능하기 때문에 특히 유망합니다.
코드 커버리지는 테스트 중에 실행된 프로그램 요소(예: 구문 또는 분기)의 범위를 정량화하는 데 널리 사용되는 지표입니다. 코드 커버리지를 계산하는 것은 코드 빌드 및 실행과 계측을 위한 추가 오버헤드가 필요하여 자원 집약적입니다. 더욱이, 코드 스니펫의 커버리지를 계산하려면 전체 프로그램 컨텍스트가 필요합니다. 머신러닝을 사용하여 이 비용이 많이 드는 프로세스를 분산시키면 소스 코드 컨텍스트만 필요로 하여 코드 커버리지 비용을 낮출 수 있으며, 코드 커버리지 예측 작업은 모델이 코드를 이해하는 능력을 판단하는 새로운 벤치마크가 될 수 있습니다. 우리는 대규모 언어 모델(LLM)을 위한 코드 커버리지 예측이라는 새로운 벤치마크 작업을 제안합니다. 이 작업을 공식화하여 주어진 테스트 케이스와 입력에 의해 메서드의 어떤 라인이 실행되는지 결정함으로써 LLM의 코드 실행 이해 능력을 평가합니다. 우리는 HumanEval 데이터셋의 테스트와 코드를 실행하고 코드 커버리지 정보를 수집하여 COVERAGEEVAL이라는 데이터셋을 구축 및 공개합니다. OpenAI의 GPT-4와 GPT-3.5-Turbo, Google의 BARD, Anthropic의 Claude를 포함한 코드 관련 작업에 사용되는 4개의 최첨단 LLM의 코드 커버리지 예측 작업 성능을 보고합니다. 마지막으로, 코드 커버리지가 지표 및 사전 학습 데이터 소스로서 소프트웨어 엔지니어링 작업에서 전반적인 LLM 성능에 유용하다고 주장합니다.
우리는 3D 장면을 희소하게 분포된 컴팩트하게 인수분해된 로컬 텐서 특성 그리드로 구성된 복사장(radiance field)으로 모델링하는 새로운 신경망 표현인 Strivec를 제안합니다. 우리의 접근 방식은 최근 연구인 TensoRF를 따라 텐서 그리드를 모델링하기 위해 텐서 분해를 활용합니다. TensoRF가 전역 텐서를 사용하고 벡터-행렬 분해에 초점을 맞추는 것과 달리, 우리는 로컬 텐서 클라우드를 활용하고 고전적인 CANDECOMP/PARAFAC(CP) 분해를 적용하여 각 텐서를 공간 축을 따라 로컬 특성 분포를 표현하고 로컬 신경망 필드를 컴팩트하게 인코딩하는 삼중 벡터로 분해할 것을 제안합니다. 또한, 우리는 다중 스케일 텐서 그리드를 적용하여 기하학적 및 외관적 공통성을 발견하고 다중 로컬 스케일에서 삼중 벡터 분해를 통해 공간 일관성을 활용합니다. 최종 복사장 특성은 모든 스케일에서 다중 로컬 텐서로부터 신경망 특성을 집계하여 회귀합니다. 우리의 삼중 벡터 텐서는 빠른 개략적 재구성을 통해 발견된 실제 장면 표면 주변에 희소하게 분포하며, 3D 장면의 희소성을 활용합니다. 우리는 우리의 모델이 TensoRF와 Instant-NGP를 포함한 이전 방법들보다 훨씬 적은 매개변수를 사용하면서도 더 나은 렌더링 품질을 달성할 수 있음을 입증합니다.
강화 학습의 적용이 유용할 수 있는 많은 실제 문제들이 있지만, 이러한 문제들은 MDP(마르코프 결정 과정) 틀에 잘 맞지 않는 경우가 많습니다. 환경과의 상호작용은 종종 비용이 많이 들고, 보상 함수를 명시하는 것도 어려운 과제입니다. 이러한 문제점들을 해결하기 위해, 기존 연구에서는 전이 역학의 샘플과 높은 보상 상태의 예시로부터 완전히 학습하는 데이터 기반 접근법을 개발해 왔습니다. 이러한 방법들은 일반적으로 높은 보상 상태로부터 보상 함수를 학습하고, 그 보상 함수를 사용하여 전이 데이터에 레이블을 지정한 다음, 오프라인 강화 학습 알고리즘을 이러한 전이 데이터에 적용합니다. 이러한 방법들은 많은 작업에서 좋은 결과를 얻을 수 있지만, 정규화와 시간 차이 업데이트가 필요한 등 복잡한 경우가 많습니다. 본 논문에서는 보상 함수 대신 다단계 전이를 암묵적으로 모델링하는 오프라인, 예시 기반 제어 방법을 제안합니다. 우리는 이 암묵적 모델이 예시 기반 제어 문제에 대한 Q-값을 표현할 수 있음을 보여줍니다. 다양한 상태 기반 및 이미지 기반 오프라인 제어 작업에서, 우리의 방법은 학습된 보상 함수를 사용하는 베이스라인보다 우수한 성능을 보였으며, 추가 실험을 통해 데이터셋 크기에 따른 견고성과 확장성이 개선되었음을 입증했습니다.