번역이 포함된 일일 선별된 AI 연구 논문
우리는 새로운 형태의 비디오 표현 방식으로서 콘텐츠 변형 필드(CoDeF)를 제안합니다. 이는 전체 비디오에서 정적 콘텐츠를 집계하는 정규 콘텐츠 필드와, 정규 이미지(즉, 정규 콘텐츠 필드에서 렌더링된 이미지)로부터 각 개별 프레임까지의 변형을 기록하는 시간적 변형 필드로 구성됩니다. 주어진 타겟 비디오에 대해, 이 두 필드는 신중하게 설계된 렌더링 파이프라인을 통해 비디오를 재구성하도록 공동으로 최적화됩니다. 우리는 최적화 과정에 몇 가지 정규화를 도입하여, 정규 콘텐츠 필드가 비디오로부터 의미론적 정보(예: 객체 형태)를 상속받도록 유도합니다. 이러한 설계로 인해, CoDeF는 이미지 알고리즘을 비디오 처리에 자연스럽게 확장할 수 있게 합니다. 즉, 이미지 알고리즘을 정규 이미지에 적용하고, 시간적 변형 필드의 도움으로 그 결과를 전체 비디오에 손쉽게 전파할 수 있습니다. 우리는 실험을 통해 CoDeF가 이미지-이미지 변환을 비디오-비디오 변환으로, 키포인트 검출을 키포인트 추적으로 별도의 학습 없이 확장할 수 있음을 보여줍니다. 더 중요한 것은, 우리의 확장 전략이 단일 이미지에만 알고리즘을 적용함으로써, 기존의 비디오-비디오 변환 접근법에 비해 처리된 비디오에서 뛰어난 프레임 간 일관성을 달성하고, 물이나 연기와 같은 비강체 객체까지 추적할 수 있다는 점입니다. 프로젝트 페이지는 https://qiuyu96.github.io/CoDeF/에서 확인할 수 있습니다.
GPT-4 및 PaLM-2와 같은 대규모 언어 모델(LLMs)의 최근 발전은 수학적 추론 문제 해결에 있어 상당한 진전을 가져왔다. 특히, OpenAI의 최신 버전인 GPT-4 Code Interpreter는 도전적인 수학 데이터셋에서 뛰어난 성능을 보여준다. 본 논문에서는 GPT-4 Code Interpreter의 코드 사용 빈도에 다양한 제약을 도입함으로써 코드가 LLMs의 추론 능력 향상에 미치는 영향을 탐구한다. 우리는 그 성공이 주로 코드 생성 및 실행, 코드 실행 결과 평가, 그리고 비합리적인 출력을 받았을 때 해결책을 수정하는 강력한 능력에 기인한다는 사실을 발견했다. 이러한 통찰을 바탕으로, 우리는 GPT-4 Code Interpreter의 수학적 추론 잠재력을 더욱 향상시키기 위해 새로운 효과적인 프롬프트 방법인 명시적 코드 기반 자체 검증(CSV)을 제안한다. 이 방법은 GPT-4 Code Interpreter에 제로샷 프롬프트를 적용하여 코드를 사용해 자신의 답을 자체 검증하도록 유도한다. 검증 상태가 "False"로 기록되는 경우, 모델은 수학 시험 중 오류를 수정하는 방식과 유사하게 자동으로 해결책을 수정한다. 또한, 검증 결과의 상태는 해결책의 신뢰도를 나타내며, 이는 다수결 투표의 효과를 향상시킬 수 있다. GPT-4 Code Interpreter와 CSV를 사용하여, 우리는 MATH 데이터셋에서 인상적인 제로샷 정확도(53.9%에서 84.3%)를 달성했다.
본 논문에서는 검색 기반 인코더-디코더 언어 모델의 인컨텍스트 학습 능력을 조사한다. 먼저 최신 ATLAS 모델에 대한 포괄적인 분석을 수행하고, 사전 학습과 테스트 간의 불일치 및 제한된 컨텍스트 길이로 인한 인컨텍스트 학습의 한계를 확인한다. 이러한 문제를 해결하기 위해, 검색 기반 마스크 언어 모델링과 프리픽스 언어 모델링을 결합한 RAVEN 모델을 제안한다. 또한, 추가 학습이나 모델 수정 없이 더 많은 인컨텍스트 예제를 활용할 수 있도록 하는 Fusion-in-Context Learning을 도입하여 퓨샷 성능을 향상시킨다. 광범위한 실험을 통해 RAVEN이 ATLAS를 크게 능가하며, 특정 시나리오에서 가장 진보된 언어 모델과 비슷한 결과를 달성함을 보여준다. 이는 매개변수가 훨씬 적음에도 불구하고 가능한 일이다. 본 연구는 인컨텍스트 학습을 위한 검색 기반 인코더-디코더 언어 모델의 잠재력을 강조하며, 이 방향으로의 추가 연구를 촉구한다.
새로운 개념을 맥락에서 학습하고 적절한 응답을 제공하는 능력은 인간 대화에서 필수적입니다. 현재의 다중모달 대형 언어 모델(MLLM)과 대형 언어 모델(LLM)이 대규모 데이터셋으로 훈련되었음에도 불구하고, 보지 못한 이미지를 인식하거나 새로운 개념을 훈련 없이 이해하는 것은 여전히 어려운 과제로 남아 있습니다. 인-컨텍스트 학습(ICL)은 훈련 없이 소수의 샘플로 학습하는 방법을 탐구하며, 모델이 제한된 작업에서 "학습하는 법을 배우고" 보지 못한 작업으로 일반화하도록 장려합니다. 본 연구에서는 MLLM의 학습 능력을 강화하기 위해 "원인과 결과로부터 추론"을 강조하는 링크-컨텍스트 학습(LCL)을 제안합니다. LCL은 전통적인 ICL을 넘어 지원 세트와 질의 세트 간의 인과 관계를 명시적으로 강화합니다. 인과적 연결을 포함한 데모를 제공함으로써, LCL은 모델이 유사성뿐만 아니라 데이터 포인트 간의 근본적인 인과적 연관성을 파악하도록 안내하며, 이를 통해 MLLM이 보지 못한 이미지를 인식하고 새로운 개념을 더 효과적으로 이해할 수 있게 합니다. 이 새로운 접근법의 평가를 용이하게 하기 위해, 링크-컨텍스트 학습을 위해 설계된 보지 못한 생성된 이미지-레이블 쌍으로 구성된 ISEKAI 데이터셋을 소개합니다. 광범위한 실험을 통해 우리의 LCL-MLLM이 기존 MLLM보다 새로운 개념에 대한 강력한 링크-컨텍스트 학습 능력을 보임을 확인했습니다. 코드와 데이터는 https://github.com/isekai-portal/Link-Context-Learning에서 공개될 예정입니다.
본 논문은 미지의 조명 하에서 동적 인간의 희소 시점(또는 단안) 비디오로부터 재조명 가능하고 애니메이션 가능한 신경 아바타를 생성하는 문제를 다룬다. 스튜디오 환경과 비교하여 이 설정은 더 실용적이고 접근 가능하지만, 극도로 어려운 부적절 문제를 제기한다. 기존의 신경 인간 재구성 방법들은 변형된 부호 거리 필드(SDF)를 사용하여 희소 시점에서 애니메이션 가능한 아바타를 재구성할 수 있지만, 재조명을 위한 재질 매개변수를 복구할 수 없다. 한편, 미분 가능한 역렌더링 기반 방법들은 정적 물체의 재질 복구에 성공했지만, 동적 인간으로 확장하는 것은 변형된 SDF에서 픽셀-표면 교차 및 광선 가시성을 계산하는 데 계산 비용이 많이 들기 때문에 간단하지 않다. 이 문제를 해결하기 위해, 우리는 임의의 인간 자세에서 세계 공간 거리를 근사화하기 위한 계층적 거리 쿼리(HDQ) 알고리즘을 제안한다. 구체적으로, 우리는 파라메트릭 인간 모델을 기반으로 거친 거리를 추정하고, SDF의 국소 변형 불변성을 활용하여 세밀한 거리를 계산한다. HDQ 알고리즘을 기반으로, 우리는 구체 추적을 활용하여 표면 교차 및 광선 가시성을 효율적으로 추정한다. 이를 통해 희소 시점(또는 단안) 입력으로부터 애니메이션 가능하고 재조명 가능한 신경 아바타를 복구하는 최초의 시스템을 개발할 수 있었다. 실험 결과, 우리의 접근법은 최신 방법들과 비교하여 우수한 결과를 생성할 수 있음을 보여준다. 재현성을 위해 우리의 코드를 공개할 예정이다.
최근의 심층 강화 학습(Deep Reinforcement Learning, DRL) 연구는 실행된 행동에 대한 명시적 정보가 없는 오프라인 데이터에서도 좋은 정책에 대한 알고리즘 정보를 추출할 수 있음을 지적했습니다. 예를 들어, 인간이나 로봇의 비디오는 보상이 높은 행동 시퀀스에 대한 많은 암묵적 정보를 전달할 수 있지만, 이러한 비디오를 관찰하여 이익을 얻고자 하는 DRL 기계는 먼저 관련된 상태/행동/보상을 식별하고 인식하는 방법을 스스로 학습해야 합니다. 우리의 새로운 방법인 Deep State Identifier는 실측 데이터 주석에 의존하지 않고, 비디오로 인코딩된 에피소드로부터 수익을 예측하는 방법을 학습합니다. 그런 다음, 마스크 기반 민감도 분석을 사용하여 중요한 핵심 상태를 추출/식별합니다. 광범위한 실험을 통해 우리의 방법이 에이전트 행동을 이해하고 개선하는 데 있어 잠재력을 보여줍니다. 소스 코드와 생성된 데이터셋은 https://github.com/AI-Initiative-KAUST/VideoRLCS에서 확인할 수 있습니다.
자동 음성 인식(ASR)을 위한 텍스트 주입(text injection)은 짝지어진 오디오-텍스트 데이터를 보완하기 위해 짝지어지지 않은 텍스트 전용 데이터를 사용하는 방법으로, 단어 오류율 개선에 유망한 성과를 보여왔습니다. 본 연구에서는 종단 간(end-to-end) 모델이 종종 수행하는 비 ASR 작업인 보조 작업에 텍스트 주입을 활용하는 방안을 검토합니다. 이 연구에서는 두 가지 보조 작업을 수행하는 ASR 모델을 훈련하기 위해 텍스트 주입 알고리즘으로 JEIT(Joint End-to-End and Internal Language Model Training)를 사용합니다. 첫 번째 작업은 비정규화 작업인 대문자화(capitalization)이며, 두 번째 작업은 디지털 어시스턴트 상호작용에서 사용자의 대화 턴이 완료되었는지 여부를 판단하려는 턴 전환 예측(turn-taking prediction)입니다. 우리는 텍스트 주입 방법이 롱테일 데이터에 대한 대문자화 성능을 향상시키고 턴 전환 탐색 재현율을 개선한다는 결과를 보여줍니다.