번역이 포함된 일일 선별된 AI 연구 논문
우리는 장면 동역학에 대한 이미지 공간 사전 모델링 접근법을 제시한다. 우리의 사전 모델은 나무, 꽃, 촛불, 바람에 날리는 옷 등 자연스러운 진동 운동을 포함한 실제 비디오 시퀀스에서 추출된 운동 궤적 집합으로부터 학습된다. 단일 이미지가 주어졌을 때, 우리의 학습된 모델은 푸리에 영역에서 픽셀 단위의 장기 운동 표현을 예측하기 위해 주파수 조정 확산 샘플링 과정을 사용하며, 이를 신경 확률적 운동 텍스처라고 부른다. 이 표현은 전체 비디오에 걸친 밀집된 운동 궤적으로 변환될 수 있다. 이미지 기반 렌더링 모듈과 함께, 이러한 궤적은 정지 이미지를 원활하게 반복되는 동적 비디오로 변환하거나 사용자가 실제 사진 속 물체와 현실적으로 상호작용할 수 있도록 하는 등 다양한 하위 작업에 활용될 수 있다.
대규모 언어 모델(LLMs)의 최근 발전으로 연구자와 개발자들은 자연어 인터페이스를 통해 다양한 작업을 자동으로 해결하고 환경, 인간, 그리고 다른 에이전트와 상호작용할 수 있는 자율 언어 에이전트를 구축할 수 있게 되었습니다. 우리는 언어 에이전트를 인공 일반 지능(AGI)으로 나아가는 유망한 방향으로 간주하며, 이러한 발전을 비전문가들에게도 개방하기 위해 오픈소스 라이브러리인 Agents를 공개합니다. Agents는 계획, 메모리, 도구 사용, 다중 에이전트 통신, 그리고 세밀한 기호 제어와 같은 중요한 기능을 지원하도록 신중하게 설계되었습니다. Agents는 비전문가도 코딩 없이 최신 자율 언어 에이전트를 구축, 사용자 정의, 테스트, 튜닝 및 배포할 수 있도록 사용자 친화적입니다. 또한, 이 라이브러리는 모듈화된 설계로 인해 연구자들이 쉽게 확장할 수 있어 연구 친화적입니다. Agents는 https://github.com/aiwaves-cn/agents에서 이용 가능합니다.
오디오 초해상도는 저해상도 오디오의 고주파수 성분을 예측하여 디지털 애플리케이션에서 오디오 품질을 향상시키는 기본적인 작업이다. 기존 방법들은 다룰 수 있는 오디오 유형(예: 음악, 음성)과 특정 대역폭 설정(예: 4kHz에서 8kHz)의 제한적인 범위와 같은 한계점을 가지고 있다. 본 논문에서는 사운드 효과, 음악, 음성을 포함한 다양한 오디오 유형에 대해 강력한 오디오 초해상도를 수행할 수 있는 확산 기반 생성 모델인 AudioSR을 소개한다. 구체적으로, AudioSR은 2kHz에서 16kHz 대역폭 범위 내의 모든 입력 오디오 신호를 48kHz 샘플링 레이트의 24kHz 대역폭 고해상도 오디오 신호로 업샘플링할 수 있다. 다양한 오디오 초해상도 벤치마크에 대한 광범위한 객관적 평가는 제안된 모델이 달성한 강력한 결과를 보여준다. 또한, 주관적 평가를 통해 AudioSR이 AudioLDM, Fastspeech2, MusicGen을 포함한 다양한 오디오 생성 모델의 생성 품질을 향상시키는 플러그 앤 플레이 모듈로 작동할 수 있음을 보여준다. 우리의 코드와 데모는 https://audioldm.github.io/audiosr에서 확인할 수 있다.
방대한 텍스트 데이터를 샅샅이 살펴보고 핵심 정보를 요약하는 작업은 임상의들이 시간을 할애하는 방식에 상당한 부담을 줍니다. 대규모 언어 모델(LLM)이 자연어 처리(NLP) 작업에서 엄청난 잠재력을 보여주고 있지만, 다양한 임상 요약 작업에서의 효과는 아직 엄격하게 검증되지 않았습니다. 본 연구에서는 8개의 LLM에 도메인 적응 방법을 적용하여, 6개의 데이터셋과 4가지 구체적인 요약 작업(영상의학 보고서, 환자 질문, 진료 기록, 의사-환자 대화)을 수행했습니다. 철저한 정량적 평가를 통해 모델과 적응 방법 간의 트레이드오프를 밝혀냈으며, 최근의 LLM 발전이 개선된 결과로 이어지지 않는 사례도 확인했습니다. 더 나아가, 6명의 의사를 대상으로 한 임상 독자 연구에서 최적화된 LLM이 생성한 요약이 인간이 작성한 요약보다 완전성과 정확성 측면에서 더 우수한 것으로 나타났습니다. 이어지는 질적 분석에서는 LLM과 인간 전문가가 공통적으로 직면하는 과제를 명확히 했습니다. 마지막으로, 전통적인 정량적 NLP 지표와 독자 연구 점수를 연관시켜 이러한 지표가 의사들의 선호도와 어떻게 일치하는지에 대한 이해를 높였습니다. 본 연구는 여러 임상 텍스트 요약 작업에서 LLM이 인간 전문가를 능가하는 첫 번째 증거를 제시합니다. 이는 LLM을 임상 업무 흐름에 통합함으로써 문서 작업 부담을 줄이고, 임상의들이 개인 맞춤형 환자 치료 및 의학의 다른 대체 불가능한 인간적 측면에 더 집중할 수 있도록 할 수 있음을 시사합니다.
비디오 매팅(matteing)은 캐주얼하게 촬영한 영상에 흥미로운 효과를 추가하는 것부터 전문가용 비디오 제작을 지원하는 것까지 다양한 응용 분야를 가지고 있습니다. 그림자와 반사와 같은 관련 효과를 포함한 매팅 또한 점점 더 많은 연구 활동을 끌어모으고 있으며, Omnimatte와 같은 방법들이 동적인 전경 객체를 별도의 레이어로 분리하기 위해 제안되었습니다. 그러나 기존 연구들은 비디오 배경을 2D 이미지 레이어로 표현함으로써 더 복잡한 장면을 표현하는 데 한계가 있었고, 이는 실제 비디오에 적용하는 것을 방해했습니다. 본 논문에서는 동적인 2D 전경 레이어와 3D 배경 모델을 결합한 새로운 비디오 매팅 방법인 OmnimatteRF를 제안합니다. 2D 레이어는 피사체의 세부 사항을 보존하는 반면, 3D 배경은 실제 비디오의 장면을 견고하게 재구성합니다. 다양한 비디오에 대한 광범위한 실험을 통해 우리의 방법이 더 나은 품질로 장면을 재구성함을 입증했습니다.
컨텍스트 내 학습(In-context learning, ICL), 즉 대형 언어 모델(LLM)에 작업별 몇 가지 데모만 보여주는 방식은 작업별 미세 조정 없이도 다운스트림 성능 향상을 이끌어냈습니다. 그러나 LLM은 프롬프트 선택에 민감하기 때문에, ICL을 위한 좋은 데모를 어떻게 선택할지가 중요한 연구 주제입니다. 한 가지 효과적인 전략은 텍스트 검색기를 사용하여 ICL 데모와 테스트 입력 간의 의미적 유사성을 활용하는 것이지만, 이는 해당 작업에 대한 LLM의 기존 지식을 고려하지 않기 때문에 최적이 아닙니다. 선행 연구(Min et al., 2022)에서 우리는 이미 데모와 함께 제공된 레이블이 모델 예측에 편향을 일으킨다는 사실을 알고 있습니다. 이는 LLM의 기존 작업 지식, 특히 출력 레이블 공간과 관련된 지식을 고려하는 것이 더 나은 데모 선택 전략에 도움이 될 수 있는지에 대한 가설로 이어집니다. 세 가지 텍스트 분류 작업에 대한 광범위한 실험을 통해, 우리는 의미적으로 유사한 ICL 데모를 선택하는 것뿐만 아니라 테스트 예제 주변의 내재된 레이블 모호성을 해결하는 데 도움이 되는 데모를 선택하는 것이 유리하다는 사실을 발견했습니다. 흥미롭게도, LLM이 이전에 잘못 분류했고 테스트 예제의 결정 경계에 위치한 데모를 포함하는 것이 가장 큰 성능 향상을 가져온다는 점도 확인했습니다.
대형 언어 모델(LLM)은 질의응답, 요약, 분류와 같은 자연어 처리(NLP) 작업에서 인상적인 성능을 보여왔습니다. 기존 평가 기법의 한계, 즉 적절한 벤치마크와 메트릭의 부족, 비용 문제, 인간 주석자 접근성의 어려움 등으로 인해, 다른 모델(주로 LLM)의 출력을 순위 매기거나 점수화할 수 있는 평가자로서 LLM의 사용이 점점 더 인기를 끌고 있습니다. LLM은 약 100개 언어를 처리할 수 있지만, 상위 20개 언어를 제외한 대부분의 언어는 다양한 작업, 메트릭, 벤치마크에 걸쳐 체계적인 평가가 이루어지지 않고 있습니다. 이는 다양한 언어에서의 LLM 성능을 정확히 이해하기 위해 다국어 평가를 확장해야 할 긴급한 필요성을 만들어냅니다. LLM 기반 평가자는 인간 주석자, 인간이 작성한 참조 문장, 벤치마크가 필요하지 않으며, 이론적으로 LLM이 지원하는 모든 언어를 평가하는 데 사용할 수 있기 때문에 이 문제에 대한 완벽한 해결책처럼 보입니다. 본 논문에서는 LLM 기반 평가자가 다국어 평가 확장에 도움을 줄 수 있는지 조사합니다. 구체적으로, 우리는 8개 언어에서 세 가지 텍스트 생성 작업에 걸친 다섯 가지 메트릭에 대한 2만 건의 인간 평가를 기준으로 LLM 기반 평가를 보정합니다. 연구 결과, LLM 기반 평가자는 높은 점수에 편향될 가능성이 있으며, 특히 저자원 언어 및 비라틴 문자 언어에서는 원어민 평가 데이터셋을 통해 보정을 거친 후 신중하게 사용해야 함을 보여줍니다.