번역이 포함된 일일 선별된 AI 연구 논문
대규모 텍스트-이미지 확산 모델은 고품질 이미지 생성에서 인상적인 능력을 보여주고 있습니다. 그러나 이러한 모델을 비디오 영역에 적용할 때, 비디오 프레임 간의 시간적 일관성을 보장하는 것은 여전히 큰 과제로 남아 있습니다. 본 논문은 이미지 모델을 비디오에 적응시키기 위한 새로운 제로샷 텍스트 기반 비디오-투-비디오 변환 프레임워크를 제안합니다. 이 프레임워크는 키 프레임 변환과 전체 비디오 변환 두 부분으로 구성됩니다. 첫 번째 부분은 적응된 확산 모델을 사용하여 키 프레임을 생성하며, 계층적 프레임 간 제약을 적용하여 형태, 질감 및 색상의 일관성을 강화합니다. 두 번째 부분은 시간적 인식 패치 매칭과 프레임 블렌딩을 통해 키 프레임을 다른 프레임으로 전파합니다. 우리의 프레임워크는 재학습이나 최적화 없이도 전역 스타일과 지역 질감의 시간적 일관성을 낮은 비용으로 달성합니다. 이 적응은 기존의 이미지 확산 기술과 호환되어, LoRA를 사용한 특정 주체의 맞춤화나 ControlNet을 통한 추가 공간 가이드와 같은 기술을 활용할 수 있게 합니다. 광범위한 실험 결과는 우리가 제안한 프레임워크가 기존 방법들보다 고품질이고 시간적으로 일관된 비디오를 렌더링하는 데 효과적임을 입증합니다.
우리는 범용적인 파라미터 효율적 미세 조정 작업을 위한 고급 접근법인 Generalized LoRA(GLoRA)를 제안합니다. GLoRA는 Low-Rank Adaptation(LoRA)을 개선하여, 사전 훈련된 모델의 가중치를 최적화하고 중간 활성화를 조정하기 위해 일반화된 프롬프트 모듈을 사용함으로써 다양한 작업과 데이터셋에서 더 큰 유연성과 능력을 제공합니다. 또한, GLoRA는 각 계층의 개별 어댑터를 학습하는 확장 가능하고 모듈화된 계층별 구조 탐색을 통해 효율적인 파라미터 적응을 가능하게 합니다. 통합된 수학적 공식에서 출발한 GLoRA는 가중치와 활성화에 추가 차원을 통해 새로운 작업에 적응함으로써 강력한 전이 학습, 소수 샷 학습 및 도메인 일반화 능력을 보여줍니다. 포괄적인 실험을 통해 GLoRA가 자연어, 전문 및 구조화된 벤치마크에서 이전의 모든 방법을 능가하며, 다양한 데이터셋에서 더 적은 파라미터와 계산량으로 우수한 정확도를 달성함을 입증했습니다. 더욱이, 우리의 구조적 재파라미터화 설계는 GLoRA가 추가 추론 비용을 발생시키지 않도록 보장하여, 자원이 제한된 응용 프로그램에 실용적인 솔루션으로 자리매김합니다. 코드는 https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA에서 확인할 수 있습니다.
본 논문에서는 인공지능(AI)이 사용자의 애니메이션 초상화 제작을 보조하는 방법, 즉 스케치 과정에서의 간략한 스케치를 애니메이션 초상화로 변환하는 데 초점을 맞춥니다. 입력은 점진적으로 한 획씩 다듬어지는 불완전한 자유 스케치의 시퀀스이며, 출력은 입력 스케치에 대응하는 고품질 애니메이션 초상화의 시퀀스로, 이를 가이드로 활용합니다. 최근 GAN(Generative Adversarial Network)은 고품질 이미지를 생성할 수 있지만, 낮은 완성도를 가진 스케치에서 고품질 이미지를 생성하는 것은 조건부 이미지 생성에서의 잘못된 문제 설정(ill-posed problem)으로 인해 여전히 어려운 과제입니다. 최신 스케치-투-이미지(S2I) 기술을 사용하더라도, 애니메이션 스타일은 사실적 스타일보다 더 추상적이기 때문에 불완전한 간략한 스케치에서 고품질 애니메이션 초상화를 생성하는 것은 쉽지 않습니다. 이 문제를 해결하기 위해, 우리는 StyleGAN의 잠재 공간 탐색과 두 단계의 학습 전략을 채택했습니다. 자유 스케치의 입력 획을 StyleGAN의 잠재 구조 코드에서 에지 정보와 관련된 속성에 대응하는 것으로 간주하고, 이 획과 속성 간의 매칭을 '획 수준의 분리(stroke-level disentanglement)'라고 명명했습니다. 첫 번째 단계에서는 사전 학습된 StyleGAN 모델을 교사 인코더(teacher encoder)로 사용하여 이미지 인코더를 학습했습니다. 두 번째 단계에서는 추가 데이터(레이블) 없이 생성된 이미지의 그리기 과정을 시뮬레이션하고, 불완전한 점진적 스케치를 위한 스케치 인코더를 학습시켜 교사 인코더의 분리된 표현과 특징 정렬(feature alignment)을 통해 고품질 초상화 이미지를 생성했습니다. 우리는 제안된 점진적 S2I 시스템을 정성적 및 정량적 평가를 통해 검증하고, 불완전한 점진적 스케치에서 고품질 애니메이션 초상화를 생성하는 데 성공했습니다. 사용자 연구를 통해 애니메이션 스타일의 예술 창작 보조에서의 효과성을 입증했습니다.
우리는 일반 언어 모델(General Language Model, GLM)을 기반으로 한 웹 강화 질의응답 시스템인 WebGLM을 소개합니다. WebGLM의 목표는 사전 훈련된 대규모 언어 모델(Large Language Model, LLM)에 웹 검색 및 검색 기능을 추가하면서도 실제 환경 배포에 효율적이도록 하는 것입니다. 이를 위해 우리는 LLM 강화 검색기, 부트스트랩 생성기, 그리고 인간 선호도를 고려한 스코어러 전략을 통해 WebGLM을 개발했습니다. 특히, WebGPT(OpenAI)의 한계를 식별하고 이를 해결함으로써 WebGLM이 정확성, 효율성, 비용 효율성 측면에서 우위를 갖추도록 했습니다. 또한, 웹 강화 질의응답 시스템을 평가하기 위한 체계적인 기준을 제안합니다. 다차원적인 인간 평가와 정량적 제거 연구를 수행하여, 제안된 WebGLM 설계가 기존 시스템을 능가함을 보여줍니다. 100억 파라미터 GLM(10B)을 탑재한 WebGLM은 유사한 규모의 WebGPT(13B)보다 우수한 성능을 보이며, 인간 평가에서는 WebGPT(175B)와도 비슷한 수준의 성능을 나타냅니다. 코드, 데모 및 데이터는 https://github.com/THUDM/WebGLM에서 확인할 수 있습니다.
웹에서 수집된 이미지-텍스트 쌍에 대한 대조적 사전 학습은 특히 대규모 다중모달 모델의 맥락에서 시각 백본을 위한 가장 널리 사용되는 대규모 사전 학습 전략 중 하나입니다. 동시에, 이러한 유형의 데이터에 대한 이미지 캡셔닝은 일반적으로 열등한 사전 학습 전략으로 간주됩니다. 본 논문에서는 이러한 두 가지 사전 학습 전략을 공정하게 비교하며, 학습 데이터, 컴퓨팅 자원, 모델 용량을 신중하게 일치시켰습니다. 표준 인코더-디코더 트랜스포머를 사용하여, 캡셔닝만으로도 놀라울 정도로 효과적임을 발견했습니다: 분류 작업에서 캡셔닝은 대조적 사전 학습 인코더와 경쟁력 있는 시각 인코더를 생성하며, 시각 및 언어 작업에서는 이를 능가했습니다. 또한 모델 아키텍처와 규모, 그리고 사전 학습 데이터가 표현 품질에 미치는 영향을 분석한 결과, 캡셔닝은 이러한 축에서 동일하거나 더 나은 확장성을 보였습니다. 전반적으로 우리의 결과는 단순한 이미지 캡셔닝이 이전에 생각했던 것보다 더 강력한 사전 학습 전략임을 보여줍니다.
대규모 언어 모델(LLMs)은 특정 작업에 대한 별도의 훈련 없이도 여러 작업을 수행할 수 있는 문맥 학습 능력을 보여줍니다. 이와 대조적으로, 전통적인 적응 방식인 미세 조정(fine-tuning)은 각 작업에 맞게 기본 모델을 수정합니다. 그러나 문맥 학습은 동일한 예제가 주어졌을 때에도 작업별 조정 방식에 비해 일관적으로 낮은 성능을 보입니다. 기존의 대부분의 접근 방식(예: 프롬프트 엔지니어링)은 이러한 성능 격차를 메우기 위해 LLM의 학습된 표현에 초점을 맞추지만, 우리의 분석은 LLM 표현이 좋은 예측을 하기에 충분한 정보를 포함하고 있음을 보여줍니다. 따라서 우리는 LLM의 추론 능력에 주목하고, 이 성능 격차가 단순한 확률적 추론 작업을 수행하지 못하는 데서 비롯된다는 것을 입증합니다. 이는 흥미로운 질문을 제기합니다: LLM은 실제로 작업에 구애받지 않는 방식으로 추론하는 법을 배울 수 있는가? 우리는 이에 대해 긍정적으로 답하며, 합성적으로 훈련된 Transformer 기반 추론 모듈을 사용하여 LLM의 추론 능력을 일반적으로 향상시키는 TART를 제안합니다. TART는 이 추론 모듈을 합성 로지스틱 회귀 작업만을 사용하여 작업에 구애받지 않는 방식으로 훈련하고, 추가적인 훈련 없이도 임의의 실세계 사전 훈련 모델과 결합합니다. 단일 추론 모듈로 TART는 다양한 모델 패밀리(GPT-Neo, Pythia, BLOOM), 모델 크기(100M - 6B), 작업(14개의 NLP 이진 분류 작업), 심지어 다른 모달리티(오디오 및 비전)에 걸쳐 성능을 향상시킵니다. 또한, RAFT 벤치마크에서 TART는 GPT-Neo(125M)의 성능을 BLOOM(176B)을 능가하고 GPT-3(175B)의 4% 이내로 향상시킵니다. 우리의 코드와 모델은 https://github.com/HazyResearch/TART에서 확인할 수 있습니다.
텍스트-3D 모델링은 생성적 텍스트-이미지 모델과 Neural Radiance Fields와 같은 이미지-3D 방법을 결합함으로써 흥미로운 발전을 이루어 왔습니다. DreamFusion은 최근 고품질의 결과를 달성했지만, 3D 객체를 생성하기 위해 긴 시간이 소요되는 프롬프트별 최적화가 필요합니다. 이를 해결하기 위해, 우리는 개별적으로 최적화하는 대신 통합된 모델을 사용하여 여러 프롬프트를 동시에 학습함으로써 텍스트 프롬프트에 걸친 최적화를 분산시켰습니다. 이를 통해 프롬프트 세트 간의 계산을 공유하여 프롬프트별 최적화보다 더 짧은 시간 내에 학습할 수 있습니다. 우리의 프레임워크인 Amortized Text-to-3D(ATT3D)는 프롬프트 간의 지식 공유를 가능하게 하여 보이지 않는 설정에 일반화하고, 새로운 자산과 간단한 애니메이션을 위한 텍스트 간의 부드러운 보간을 가능하게 합니다.
대규모 언어 모델(LLM)은 고수준의 계획을 수행할 수 있는 잠재력을 보여주었습니다. 그러나 관절 각도 목표나 모터 토크와 같은 저수준 명령을 이해하는 것은 여전히 LLM에게 도전적인 과제로 남아 있습니다. 본 논문은 자연어로 표현된 인간의 명령과 이러한 저수준 명령을 출력하는 보행 제어기 사이의 인터페이스로 발 접촉 패턴을 사용하는 접근 방식을 제안합니다. 이를 통해 사용자가 다양한 보행 행동을 유연하게 설계할 수 있는 사족 보행 로봇용 상호작용 시스템을 구현합니다. 우리는 LLM 프롬프트 설계, 보상 함수, 그리고 제어기가 실현 가능한 접촉 패턴 분포에 노출될 수 있도록 하는 방법을 제시합니다. 그 결과, 실제 로봇 하드웨어로 전환 가능한 다양한 보행 패턴을 달성할 수 있는 제어기를 개발했습니다. 다른 설계 선택과 비교했을 때, 제안된 접근 방식은 올바른 접촉 패턴을 예측하는 데 50% 이상의 성공률을 보였으며, 총 30개 작업 중 10개 이상의 작업을 해결할 수 있었습니다. 우리의 프로젝트 사이트는 https://saytap.github.io 입니다.
본 연구에서는 인터넷 사진을 통해 대규모 랜드마크의 시간에 따라 변화하는 3D 모델을 재구성하고, 시점, 조명, 시간을 독립적으로 제어할 수 있는 사실적인 렌더링을 구현하는 것을 목표로 합니다. 핵심적인 과제는 두 가지입니다. 첫째, 조명 변화와 장면 자체의 변화(예: 그래피티 작품 교체)와 같은 다양한 유형의 시간적 변화가 이미지에서 서로 얽혀 있다는 점입니다. 둘째, 장면 수준의 시간적 변화는 연속적이기보다는 이산적이고 산발적으로 발생하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 이산적인 장면 수준의 내용 변화를 시간에 따라 조각별 상수 함수로 모델링할 수 있는 새로운 시간적 계단 함수 인코딩 방법을 갖춘 장면 표현 방식을 제안합니다. 구체적으로, 우리는 장면을 공간-시간 복사 필드로 표현하고, 각 이미지에 대한 조명 임베딩을 사용하며, 시간에 따라 변화하는 장면 변화는 학습된 계단 함수 집합을 통해 인코딩합니다. 인터넷 이미지로부터 연대기 재구성을 용이하게 하기 위해, 우리는 시간에 따라 다양한 변화를 보이는 네 개의 장면으로 구성된 새로운 데이터셋을 수집했습니다. 우리는 이 데이터셋에서 최첨단의 시점 합성 결과를 보여주면서도 시점, 시간, 조명을 독립적으로 제어할 수 있음을 입증합니다.
과학 문서 내 수치 데이터의 정확한 전사 없이는 과학자가 정확한 결론을 도출할 수 없습니다. 불행히도, 한 논문에서 다른 논문으로 수치 데이터를 복사하는 과정은 인간의 실수에 취약합니다. 본 논문에서는 이 문제를 해결하기 위해 새로운 과제인 자동 테이블 검증(AutoTV)을 제안합니다. 이 과제의 목표는 인용된 출처를 교차 참조하여 테이블 내 수치 데이터의 정확성을 검증하는 것입니다. 이 과제를 지원하기 위해, arXiv의 오픈 액세스 학술 논문에서 추출한 표 형식의 데이터로 구성된 새로운 벤치마크인 arXiVeri를 제안합니다. 우리는 테이블 검증기의 성능을 평가하기 위해 두 가지 주요 영역에서 지표를 소개합니다: (i) 인용 문서 내에서 대상 테이블에 해당하는 소스 테이블을 식별하는 테이블 매칭, 그리고 (ii) 대상 테이블과 소스 테이블 간의 공유 셀을 찾고 해당 셀의 행과 열 인덱스를 정확히 식별하는 셀 매칭. 현대의 대규모 언어 모델(LLM)의 유연한 능력을 활용하여, 우리는 테이블 검증을 위한 간단한 베이스라인을 제안합니다. 우리의 연구 결과는 OpenAI의 GPT-4와 같은 최첨단 LLM조차도 이 과제의 복잡성을 강조합니다. 코드와 벤치마크는 공개될 예정입니다.
대규모 언어 모델(LLMs)은 음성 영역에 적용되어 왔지만, 음성과 언어 표현 간의 불일치로 인해 종종 성능 저하를 초래해 왔습니다. 이러한 격차를 해소하기 위해, 우리는 Speech2Text 어댑터를 사용한 공동 음성 및 언어 모델(SLM)을 제안합니다. 이 모델은 음성 정보의 손실 없이 음성을 텍스트 토큰 임베딩 공간으로 매핑합니다. 또한 CTC 기반의 공백 필터링을 사용하여 음성 시퀀스 길이를 텍스트 길이로 줄일 수 있습니다. 음성 MultiWoz 데이터셋(DSTC11 챌린지)에서 SLM은 대화 상태 추적(DST) 성능을 크게 향상시켰습니다(24.7%에서 28.4% 정확도). 더 나아가 희귀 엔티티에 대한 오류를 해결하기 위해, 우리는 Speech2Entity 검색기를 추가하여 음성을 통해 관련 엔티티를 검색하고 이를 원래 SLM 입력에 접두사로 추가합니다. 이 검색 강화 SLM(ReSLM)을 사용하면 DST 성능이 34.6% 정확도로 급증합니다. 또한 ASR 작업에 대화 이해 작업을 추가함으로써 ASR 성능을 9.4%에서 8.5% WER로 개선할 수 있습니다.
우리는 정규 그리드 상의 원자 밀도로 표현된 3D 분자를 생성하기 위한 새로운 스코어 기반 접근법을 제안한다. 먼저, 노이즈가 추가된 분자의 부드러운 분포에서 실제 분자의 분포로 매핑하는 방법을 학습하는 노이즈 제거 신경망을 훈련시킨다. 그런 다음, 신경 경험적 베이즈 프레임워크[Saremi and Hyvarinen, 2019]를 따라 두 단계로 분자를 생성한다: (i) 언더댐프드 랑주뱅 마르코프 체인 몬테 카를로를 통해 부드러운 분포에서 노이즈가 있는 밀도 그리드를 샘플링하고, (ii) 노이즈가 있는 그리드를 단일 단계로 노이즈 제거하여 "깨끗한" 분자를 복구한다. 우리의 방법인 VoxMol은 현재 최신 기술(즉, 원자 포인트 클라우드에 적용된 확산 모델)과 근본적으로 다른 방식으로 분자를 생성한다. 이는 데이터 표현, 노이즈 모델, 네트워크 아키텍처 및 생성 모델링 알고리즘 측면에서 차이가 있다. VoxMol은 무조건적 3D 분자 생성에서 최신 기술과 비슷한 결과를 달성하면서도 훈련이 더 간단하고 분자 생성이 더 빠르다.
우리는 '유사성'이라는 개념이 다양하며, 모델도 인간처럼 이러한 개념에 동적으로 적응할 수 있어야 한다고 주장합니다. 이는 대부분의 표현 학습 방법, 지도 학습이나 자기 지도 학습을 포함하여, 고정된 임베딩 함수를 학습함으로써 단일한 유사성 개념을 암묵적으로 가정하는 것과 대조됩니다. 예를 들어, ImageNet으로 훈련된 모델은 객체 카테고리에 편향되어 있는 반면, 사용자는 모델이 색상, 질감 또는 장면의 특정 요소에 초점을 맞추기를 원할 수 있습니다. 본 논문에서는 다양한 유사성 조건에 모델이 적응하는 능력을 측정하는 GeneCIS('genesis') 벤치마크를 제안합니다. 기존 연구를 확장하여, 이 벤치마크는 제로샷 평가만을 위해 설계되었으며, 따라서 열린 유사성 조건 집합을 고려합니다. 우리는 강력한 CLIP 모델의 베이스라인이 GeneCIS에서 어려움을 겪으며, 벤치마크 성능이 ImageNet 정확도와 약한 상관관계를 보인다는 것을 발견했습니다. 이는 기존 방법을 단순히 확장하는 것이 효과적이지 않음을 시사합니다. 또한, 우리는 기존 이미지-캡션 데이터셋에서 정보를 자동으로 추출하는 간단하고 확장 가능한 솔루션을 제안합니다. 우리의 방법은 GeneCIS에서 베이스라인 대비 상당한 성능 향상을 제공하며, 관련 이미지 검색 벤치마크에서의 제로샷 성능도 추가로 개선합니다. 실제로, 제로샷으로 평가되었음에도 불구하고, 우리의 모델은 MIT-States에서 최첨단 지도 학습 모델을 능가합니다. 프로젝트 페이지는 https://sgvaze.github.io/genecis/에서 확인할 수 있습니다.
우리는 실내 환경에서의 로봇 이동 조작을 위한 대규모 시뮬레이션 및 강화학습(RL) 프레임워크인 Galactic을 소개합니다. 구체적으로, Fetch 로봇(모바일 베이스, 7자유도 암, RGBD 카메라, 자체 운동 및 온보드 센싱 장비를 갖춘)이 가정 환경에 생성되고, 물체를 재배치하라는 명령을 받습니다. 이는 물체로 이동하여 집어들고, 목표 위치로 이동한 후 물체를 목표 위치에 놓는 과정을 포함합니다. Galactic은 빠릅니다. 시뮬레이션 속도(렌더링 + 물리) 측면에서, Galactic은 8-GPU 노드에서 초당 421,000 스텝(SPS)을 달성하며, 이는 Habitat 2.0(7699 SPS)보다 54배 빠른 속도입니다. 더 중요한 것은, Galactic은 렌더링 + 물리 + RL의 전체 상호작용을 최적화하도록 설계되었습니다. 이러한 상호작용에서 발생하는 병목 현상은 훈련 속도를 저하시키기 때문입니다. 시뮬레이션+RL 속도(렌더링 + 물리 + 추론 + 학습) 측면에서, Galactic은 초당 108,000 스텝을 달성하며, 이는 Habitat 2.0(1243 SPS)보다 88배 빠른 속도입니다. 이러한 대규모 속도 향상은 기존 실험의 벽시계 훈련 시간을 크게 단축할 뿐만 아니라, 전례 없는 규모의 새로운 실험을 가능하게 합니다. 첫째, Galactic은 모바일 피킹 기술을 16분 이내에 80% 이상의 정확도로 훈련할 수 있으며, 이는 Habitat 2.0에서 동일한 기술을 훈련하는 데 걸리는 24시간 이상에 비해 100배 빠른 속도입니다. 둘째, 우리는 Galactic을 사용하여 지금까지 가장 큰 규모의 재배치 실험을 수행했습니다. 이 실험은 46시간 동안 50억 스텝의 경험을 사용하며, 이는 20년 분량의 로봇 경험에 해당합니다. 이러한 스케일링은 작업에 구애받지 않는 구성 요소로 이루어진 단일 신경망이 GeometricGoal 재배치에서 85%의 성공률을 달성하게 했으며, 이는 동일한 접근 방식으로 Habitat 2.0에서 보고된 0%의 성공률과 대조적입니다. 코드는 github.com/facebookresearch/galactic에서 확인할 수 있습니다.
기존의 조밀한 의미론적 대응을 갖춘 3D 헤드 데이터셋을 캡처하는 방법은 느리며, 일반적으로 두 단계로 문제를 해결한다: 다중 뷰 스테레오(MVS) 재구성 후 비강체 등록(non-rigid registration). 이 과정을 단순화하기 위해, 우리는 TEMPEH(Towards Estimation of 3D Meshes from Performances of Expressive Heads)를 도입하여 캘리브레이션된 다중 뷰 이미지에서 직접 조밀한 대응을 갖춘 3D 헤드를 추론한다. 3D 스캔 데이터셋을 등록하는 것은 일반적으로 스캔 표면을 정확하게 맞추는 것과 스캔 노이즈 및 이상치에 강인함 사이의 적절한 균형을 찾기 위해 수동 파라미터 튜닝을 필요로 한다. 대신, 우리는 TEMPEH를 훈련하는 동시에 3D 헤드 데이터셋을 공동으로 등록할 것을 제안한다. 구체적으로, 훈련 중에 우리는 표면 등록에 일반적으로 사용되는 기하학적 손실을 최소화함으로써 TEMPEH를 정규화자(regularizer)로 효과적으로 활용한다. 우리의 다중 뷰 헤드 추론은 카메라 캘리브레이션 정보를 사용하여 각 뷰에서 특징을 샘플링하고 융합하는 볼륨트릭 특징 표현에 기반을 둔다. 부분적 폐색과 헤드 움직임을 가능하게 하는 큰 캡처 볼륨을 고려하기 위해, 우리는 뷰 및 표면 인식 특징 융합과 공간 변환 기반 헤드 위치 지정 모듈을 각각 사용한다. 훈련 중에는 원시 MVS 스캔을 감독으로 사용하지만, 훈련이 완료되면 TEMPEH는 스캔 없이도 직접 조밀한 대응을 갖춘 3D 헤드를 예측한다. 하나의 헤드를 예측하는 데 약 0.3초가 소요되며, 중간 재구성 오차는 0.26mm로 현재 최신 기술보다 64% 낮다. 이를 통해 여러 사람과 다양한 얼굴 움직임을 포함한 대규모 데이터셋을 효율적으로 캡처할 수 있다. 코드, 모델 및 데이터는 https://tempeh.is.tue.mpg.de에서 공개적으로 제공된다.
전화 통화 기록은 영업, 고객 서비스, 의료, 법 집행 등 다양한 분야에서 상당한 가치를 지닙니다. 그러나 이러한 녹음된 대화를 분석하는 작업은 특히 길거나 복잡한 대화를 다룰 때 매우 힘들고 시간이 많이 소요되는 과정일 수 있습니다. 본 연구에서는 효율적이고 정확한 통화 분할 및 주제 추출을 위한 새로운 방법론인 GPT-distilled Calls Segmentation and Tagging(GPT-Calls)을 제안합니다. GPT-Calls는 오프라인 단계와 온라인 단계로 구성됩니다. 오프라인 단계는 주어진 주제 목록에 대해 한 번 적용되며, GPT 모델을 사용하여 각 주제에 대한 합성 문장 분포를 생성하고 앵커 벡터를 추출하는 과정을 포함합니다. 온라인 단계는 각 통화에 개별적으로 적용되며, 전사된 대화와 오프라인 단계에서 찾은 주제 앵커 간의 유사성을 점수화합니다. 그런 다음, 유사성 점수에 시간 영역 분석을 적용하여 발화를 세그먼트로 그룹화하고 주제로 태깅합니다. 제안된 패러다임은 레이블이 지정된 데이터가 필요 없이도 정확하고 효율적인 통화 분할 및 주제 추출 방법을 제공하므로 다양한 도메인에 적용 가능한 다용도 접근 방식입니다. 우리의 알고리즘은 Dynamics 365 Sales Conversation Intelligence에서 실제로 운영 중이며, 본 연구는 다양한 Dynamics 365 Sales 테넌트에서 수집된 실제 영업 대화를 기반으로 합니다.
오늘날 온라인과 오프라인에서 이용 가능한 방대한 양의 데이터로 인해, 사용자의 관심사에 맞는 항목을 찾는 데 도움을 주기 위해 추천 시스템은 필수적인 도구가 되었습니다. 소셜 네트워크 정보가 존재할 때, 이 정보를 활용하여 더 나은 추천을 제공하는 방법들이 있지만, 이러한 방법들은 복잡한 아키텍처와 학습 절차로 인해 종종 번거롭습니다. 더욱이, 기존의 많은 방법들은 학습하기 어려운 것으로 알려진 그래프 신경망을 활용합니다. 이를 해결하기 위해, 우리는 Socially-aware Temporally caUsal Decoder 추천 시스템(STUDY)을 제안합니다. STUDY는 수정된 트랜스포머 디코더 네트워크의 단일 순방향 전달을 사용하여 소셜 네트워크 그래프에서 인접한 사용자 그룹에 대해 공동 추론을 수행합니다. 우리는 학교 기반 교육 콘텐츠 환경에서 이 방법을 테스트하며, 교실 구조를 사용하여 소셜 네트워크를 정의합니다. 우리의 방법은 데이터의 모든 상호작용을 모델링하는 단일 동종 네트워크의 설계 단순성을 유지하면서도, 소셜 및 순차적 방법 모두를 능가합니다. 또한, 우리는 성능 향상의 원인을 이해하기 위해 어블레이션 연구를 수행하고, 사용자 행동의 유사성을 효과적으로 모델링하는 소셜 네트워크 구조를 활용하는 것이 우리 모델의 핵심임을 발견했습니다.