번역이 포함된 일일 선별된 AI 연구 논문
언어 모델 사전 학습은 방대한 코퍼스에 대한 훈련을 포함하며, 여기서 데이터 품질이 중요한 역할을 합니다. 본 연구에서는 사전 학습 중 데이터의 기여도를 직접 추정하고, 효율적인 방식으로 사전 학습 데이터를 선택하는 것을 목표로 합니다. 구체적으로, 최근 연구 결과에서 다양한 모델의 특정 텍스트에 대한 압축 효율성(즉, 정규화된 손실)이 해당 텍스트 도메인이 다운스트림 벤치마크와 일치할 때 다운스트림 성능과 강한 상관관계를 보인다는 점(Huang et al., 2024)에서 영감을 얻었습니다. 이 관찰을 바탕으로, 모델 손실이 다운스트림 능력을 예측할 수 있는 데이터가 학습에 효과적으로 기여한다는 가설을 세웠습니다. 이러한 통찰을 활용하기 위해, 데이터의 예측 강도(Predictive strength, PreSelect)를 기반으로 한 데이터 선택 방법을 제안합니다. 이 방법은 fastText 기반 스코어만을 훈련하고 배포하는 가볍고 효율적인 데이터 선택 방법입니다. 1B 및 3B 파라미터 모델을 사용한 포괄적인 실험을 통해, PreSelect로 선택된 30B 토큰으로 훈련된 모델이 300B 토큰으로 훈련된 일반 베이스라인 모델의 성능을 능가하며, 계산 요구량을 10배 감소시킨다는 것을 입증했습니다. 또한, PreSelect는 100B 토큰으로 훈련된 3B 모델 규모에서 DCLM 및 FineWeb-Edu와 같은 다른 경쟁적인 데이터 선택 베이스라인을 크게 앞질렀습니다. 우리는 훈련된 데이터 선택 스코어와 선별된 데이터셋을 https://github.com/hkust-nlp/PreSelect에서 공개합니다.
대형 언어 모델(LLMs)은 Chain-of-Thought(CoT) 프롬프팅과 같은 메커니즘을 통해 복잡한 추론 과제를 해결하는 데 있어 뛰어난 성능을 보여왔습니다. CoT는 상세하고 단계별로 진행되는 추론을 강조합니다. 그러나 인간은 일반적으로 더 효율적인 전략을 사용합니다: 필수적인 정보만을 담은 간결한 중간 사고를 초안으로 작성하는 것입니다. 본 연구에서는 인간의 인지 과정에서 영감을 받은 새로운 패러다임인 Chain of Draft(CoD)를 제안합니다. CoD는 LLM이 과제를 해결하는 동안 최소한이지만 유익한 중간 추론 출력을 생성하도록 합니다. 불필요한 장황함을 줄이고 핵심 통찰에 집중함으로써, CoD는 다양한 추론 과제에서 CoT와 동등하거나 더 나은 정확도를 달성하면서 토큰 사용량을 최소 7.6%까지 줄여 비용과 지연 시간을 크게 감소시킵니다.
복잡한 공학적 문제에 대한 해결책을 설계하는 것은 인간의 생산 활동에서 매우 중요합니다. 그러나 기존의 검색 강화 생성(Retrieval-Augmented Generation, RAG) 분야 연구는 복잡한 공학적 해결책 설계와 관련된 과제를 충분히 다루지 못했습니다. 이러한 공백을 메우기 위해, 우리는 복잡한 제약 조건이 있는 공학적 문제에 대해 완전하고 실행 가능한 해결책을 생성하는 시스템의 능력을 평가하기 위한 새로운 벤치마크인 SolutionBench을 소개합니다. 또한, 복잡한 공학적 해결책 설계를 더욱 발전시키기 위해, 트리 기반 탐색과 이중 포인트 사고 메커니즘을 활용하여 신뢰할 수 있는 해결책을 생성하는 새로운 시스템인 SolutionRAG를 제안합니다. 광범위한 실험 결과는 SolutionRAG가 SolutionBench에서 최첨단(State-of-the-Art, SOTA) 성능을 달성함을 보여주며, 이는 실제 응용 프로그램에서 복잡한 공학적 해결책 설계의 자동화와 신뢰성을 향상시킬 수 있는 잠재력을 강조합니다.
우리는 다중 턴 실행 피드백을 통한 코드 생성 문제를 다룹니다. 기존 방법들은 피드백 없이 코드를 생성하거나, 다중 턴 보상을 최적화하기 위해 복잡한 계층적 강화 학습을 사용했습니다. 우리는 단일 단계 보상만을 사용하여 다중 턴 코드 생성을 해결하는 간단하면서도 확장 가능한 접근 방식인 muCode를 제안합니다. 우리의 핵심 통찰은 코드 생성이 단일 턴 내에서 어떤 중간 코드 상태에서도 올바른 코드를 복구할 수 있는 단일 단계 복구 가능 MDP(Markov Decision Process)라는 것입니다. muCode는 다중 턴 실행 피드백을 조건으로 코드 솔루션을 제공하는 생성기와 새로 생성된 코드를 평가하는 검증기를 반복적으로 학습합니다. 실험 평가 결과, 우리의 접근 방식이 최신 베이스라인 대비 상당한 개선을 달성함을 보여줍니다. 우리는 보상 모델과 정책의 설계 선택에 대한 분석을 제공하고, muCode가 실행 피드백을 효과적으로 활용하는 능력을 입증합니다. 우리의 코드는 https://github.com/portal-cornell/muCode에서 확인할 수 있습니다.
최근 텍스트-이미지(T2I) 생성 모델은 '더 크면 더 좋다'라는 패러다임에 따라 수십억 규모의 데이터셋으로 학습함으로써 놀라운 결과를 달성했습니다. 이 패러다임은 데이터의 양을 질보다 우선시합니다. 우리는 이 기존 패러다임에 도전하며, 소규모이지만 잘 정제된 데이터셋에 전략적인 데이터 증강을 적용하면 대규모 웹 스크랩 데이터셋으로 학습한 모델을 능가하거나 동등한 성능을 달성할 수 있음을 보여줍니다. 잘 설계된 텍스트 및 이미지 증강 기법으로 강화된 ImageNet만을 사용하여, 우리는 GenEval에서 SD-XL 대비 +2점, DPGBench에서 +5점의 성능 향상을 달성했으며, 이는 매개변수 수는 1/10, 학습 이미지 수는 1/1000 수준으로 훨씬 적은 자원을 사용한 결과입니다. 우리의 결과는 대규모 데이터셋보다 전략적인 데이터 증강이 T2I 생성의 지속 가능한 발전 방향을 제시할 수 있음을 시사합니다.
대규모 언어 모델(LLM)은 다양한 작업에서 인간 수준의 숙련도를 달성했지만, 엄격한 수학적 문제 해결 능력은 여전히 해결해야 할 과제로 남아 있습니다. 본 연구에서는 기본적이면서도 계산적으로 다루기 어려운 문제, 즉 주어진 다변수 다항식이 음수가 아닌지 여부를 판단하는 문제를 조사합니다. 이 문제는 힐베르트의 17번째 문제와 밀접한 관련이 있으며, 전역 다항식 최적화에서 중요한 역할을 하며 다양한 분야에 응용됩니다. 먼저, 우리는 약 1,000개의 다항식으로 구성된 신중하게 선별된 데이터셋인 SoS-1K와 다섯 가지 점진적으로 어려워지는 기준에 기반한 전문가 설계 추론 지침을 소개합니다. 여러 최첨단 LLM을 평가한 결과, 구조화된 지침 없이는 모든 모델이 무작위 추측 기준인 50%보다 약간 높은 성능을 보였습니다. 그러나 고품질의 추론 지침은 정확도를 크게 향상시켜 성능을 최대 81%까지 끌어올렸습니다. 또한, SoS-1K에서 단 4시간 동안 미세 조정된 7B 모델인 SoS-7B는 671B DeepSeek-V3와 GPT-4o-mini를 정확도에서 능가하면서도 각각 필요한 계산 시간의 1.8%와 5%만을 요구했습니다. 우리의 연구 결과는 LLM이 수학적 추론의 한계를 넓히고 NP-난제 문제를 해결할 수 있는 잠재력을 강조합니다.
시각적으로 풍부한 문서에서 정보를 이해하는 것은 기존의 검색 증강 생성(Retrieval-Augmented Generation, RAG) 방법들에게 여전히 중요한 과제로 남아 있습니다. 기존 벤치마크는 주로 이미지 기반 질의응답(Question Answering, QA)에 초점을 맞추고 있어, 밀집된 시각적 문서 내에서의 효율적인 검색, 이해, 그리고 추론의 근본적인 문제들을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 복잡한 추론이 필요한 시각적으로 풍부한 문서에서의 RAG 성능을 평가하기 위해 설계된 새로운 데이터셋인 ViDoSeek를 소개합니다. 이를 바탕으로, 우리는 현재 RAG 접근법의 주요 한계점들을 확인했습니다: (i) 순수 시각적 검색 방법은 텍스트와 시각적 특징을 효과적으로 통합하는 데 어려움을 겪으며, (ii) 이전 접근법들은 종종 충분한 추론 토큰을 할당하지 않아 그 효과가 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 시각적 문서 간의 복잡한 추론을 위해 특화된 새로운 다중 에이전트 RAG 프레임워크인 ViDoRAG를 제안합니다. ViDoRAG는 다중 모달 검색을 효과적으로 처리하기 위해 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 기반의 하이브리드 전략을 사용합니다. 또한, 모델의 추론 능력을 더욱 끌어내기 위해 탐색, 요약, 그리고 반성을 포함하는 반복적 에이전트 워크플로우를 도입하여, RAG 도메인에서의 테스트 시간 확장성을 조사할 수 있는 프레임워크를 제공합니다. ViDoSeek에 대한 광범위한 실험을 통해 우리의 접근법의 효과성과 일반화 능력을 검증했습니다. 특히, ViDoRAG는 경쟁력 있는 ViDoSeek 벤치마크에서 기존 방법들을 10% 이상 능가하는 성능을 보였습니다.
강화 학습은 다양한 문제 영역에서 인간 수준 또는 그 이상의 능력을 달성하는 데 있어 유망한 결과를 보여주었지만, 정교한 로봇 조작 분야에서의 성공은 여전히 제한적입니다. 본 연구는 휴머노이드 구현체에서 접촉이 풍부한 조작 작업 집합을 해결하기 위해 강화 학습을 적용하는 데 있어 주요 과제를 조사합니다. 우리는 실증적 검증을 통해 확인된 과제를 극복하기 위한 새로운 기법들을 소개합니다. 우리의 주요 기여는 시뮬레이션 환경을 실제 세계에 더 가깝게 만드는 자동화된 실세계-시뮬레이션 조정 모듈, 장기간 접촉이 풍부한 조작 작업을 위한 보상 설계를 단순화하는 일반화된 보상 설계 방식, 시뮬레이션-실세계 성능을 유지하면서 어려운 탐색 문제의 샘플 효율성을 개선하는 분할 정복 증류 과정, 그리고 시뮬레이션-실세계 인식 격차를 줄이기 위한 희소 및 밀집 객체 표현의 혼합을 포함합니다. 우리는 세 가지 휴머노이드 정교 조작 작업에서 유망한 결과를 보여주며, 각 기법에 대한 절제 연구를 수행합니다. 본 연구는 인간 시연 없이도 강력한 일반화와 높은 성능을 달성하며, 시뮬레이션-실세계 강화 학습을 사용한 휴머노이드 정교 조작 학습에 대한 성공적인 접근 방식을 제시합니다.
현대의 자동 음성 인식(ASR) 모델, 예를 들어 OpenAI의 Whisper는 깊은 인코더-디코더 아키텍처에 의존하며, 그 중 인코더는 높은 계산 집약성으로 인해 효율적인 배포에 있어 중요한 병목 현상을 일으킵니다. 우리는 LiteASR을 소개합니다. 이는 ASR 인코더를 위한 저랭크 압축 기법으로, 추론 비용을 크게 줄이면서도 음성 인식 정확도를 유지합니다. 우리의 접근 방식은 중간 활성화에서 관찰된 강력한 저랭크 특성을 활용합니다: 작은 캘리브레이션 데이터셋을 사용한 주성분 분석(PCA)을 적용하여 선형 변환을 저랭크 행렬 곱셈의 연쇄로 근사하고, 더 나아가 자기 주의(self-attention)를 축소된 차원에서 작동하도록 최적화합니다. 평가 결과는 우리의 방법이 Whisper large-v3의 인코더 크기를 50% 이상 압축할 수 있으며, Whisper medium의 크기에 맞추면서 더 나은 음성 인식 정확도를 달성함으로써 효율성과 성능의 새로운 파레토 최적 경계를 설정함을 보여줍니다. LiteASR의 코드는 https://github.com/efeslab/LiteASR에서 확인할 수 있습니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(Large Language Models, LLMs)을 외부 데이터 소스와 결합하여 사실 정확성과 도메인 커버리지를 향상시킵니다. 현대의 RAG 파이프라인은 대규모 데이터 저장소에 의존하므로, 특히 GPU 메모리가 제한된 환경에서 지연 시간에 민감한 배포 시 시스템적 어려움이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 GPU 메모리 요구량을 최소화하면서 RAG 지연 시간을 줄이는 효율적인 추론 시스템인 TeleRAG를 제안합니다. TeleRAG의 핵심 혁신은 필요한 데이터를 미리 예측하여 CPU에서 GPU로 병렬로 전송하는 선행 검색(lookahead retrieval) 메커니즘입니다. RAG 파이프라인의 모듈성, 역파일 인덱스(Inverted File Index, IVF) 검색 알고리즘, 그리고 쿼리 간 유사성을 활용함으로써, TeleRAG는 데이터 이동과 계산을 최적으로 중첩시킵니다. 실험 결과에 따르면, TeleRAG는 최신 시스템 대비 평균 최대 1.72배의 종단 간 RAG 추론 지연 시간을 단축하여, 고급 RAG 애플리케이션의 더 빠르고 메모리 효율적인 배포를 가능하게 합니다.
시각적 기반 모델(VFMs)은 최첨단 성능으로 인해 점점 더 인기를 얻고 있습니다. 그러나 중요한 응용 분야에서는 해석 가능성이 여전히 중요합니다. 이러한 관점에서, 자기 설명 가능 모델(SEM)은 예측을 해석 가능한 개념들의 가중 합으로 분해하는 해석 가능한 분류기를 제공하는 것을 목표로 합니다. 이러한 모델들이 유망함에도 불구하고, 최근 연구들은 이러한 설명들이 종종 충실도가 부족함을 보여주었습니다. 본 연구에서는 VFMs를 새로운 프로토타입 아키텍처와 특화된 학습 목표와 결합합니다. 고정된 VFMs 위에 경량 헤드(약 1M 파라미터)만을 학습함으로써, 우리의 접근 방식(ProtoFM)은 효율적이고 해석 가능한 솔루션을 제공합니다. 평가 결과, 우리의 접근 방식은 경쟁력 있는 분류 성능을 달성하는 동시에 문헌에서 도출된 다양한 해석 가능성 지표에서 기존 모델들을 능가함을 보여줍니다. 코드는 https://github.com/hturbe/proto-fm에서 확인할 수 있습니다.
외부 지식 소스를 통합함에도 불구하고 검색 증강 생성(Retrieval Augmented Generation, RAG) 시스템은 여전히 허구적인 답변에 취약합니다. 본 연구에서는 기존의 환각(hallucination) 탐지 방법이 가진 두 가지 주요 한계를 해결하는 LettuceDetect 프레임워크를 제안합니다: (1) 전통적인 인코더 기반 방법의 컨텍스트 윈도우 제약과 (2) 대형 언어 모델(LLM) 기반 접근법의 계산 비효율성. ModernBERT의 확장된 컨텍스트 처리 능력(최대 8,000 토큰)을 기반으로 하고 RAGTruth 벤치마크 데이터셋에서 학습된 우리의 접근법은 모든 기존 인코더 기반 모델과 대부분의 프롬프트 기반 모델을 능가하며, 최고 성능 모델보다 약 30배 더 작은 규모를 가집니다. LettuceDetect는 컨텍스트-질문-답변 삼중항을 처리하는 토큰 분류 모델로, 토큰 수준에서 지원되지 않는 주장을 식별할 수 있습니다. RAGTruth 코퍼스에 대한 평가 결과, 예제 수준 탐지에서 79.22%의 F1 점수를 달성했으며, 이는 이전 최신 인코더 기반 아키텍처인 Luna보다 14.8% 향상된 성능입니다. 또한, 이 시스템은 단일 GPU에서 초당 30~60개의 예제를 처리할 수 있어 실제 RAG 애플리케이션에 더 실용적입니다.
컨볼루션 신경망(CNN)과 트랜스포머의 복잡성과 파라미터 수가 증가함에 따라 계산 효율성과 자원 요구량 측면에서 도전 과제가 대두되고 있습니다. 가지치기(Pruning)는 뉴런, 채널 또는 연결과 같은 중복 요소를 제거하여 성능을 크게 저하시키지 않으면서 계산 효율성을 향상시키는 효과적인 전략으로 확인되었습니다. 본 논문은 헤시안 행렬을 사용하여 파라미터 중요도 추정 방법론을 발전시킴으로써 최적 뇌 손상(Optimal Brain Damage, OBD)의 기초 작업을 확장합니다. 근사치에 의존하는 기존 접근 방식과 달리, 우리는 각 파라미터에 대해 헤시안-벡터 곱 값을 직접 계산하는 새로운 가지치기 방법인 최적 뇌 세포사멸(Optimal Brain Apoptosis, OBA)을 소개합니다. 네트워크 계층 간 헤시안 부분 행렬이 0이 아닌 조건을 식별하고 계층별로 헤시안 행렬을 분해함으로써, 우리는 파라미터의 2차 테일러 확장을 계산하는 매우 효율적인 기법을 제안합니다. 이 접근 방식은 특히 CNN과 트랜스포머의 경우 더 정밀한 가지치기 프로세스를 가능하게 하며, CIFAR10, CIFAR100 및 Imagenet 데이터셋에서 VGG19, ResNet32, ResNet50 및 ViT-B/16을 포함한 실험을 통해 검증되었습니다. 우리의 코드는 https://github.com/NEU-REAL/OBA에서 확인할 수 있습니다.
민첩한 그리핑은 로보틱스에서 여전히 근본적이면서도 도전적인 문제로 남아 있습니다. 범용 로봇은 다양한 물체를 임의의 시나리오에서 잡을 수 있는 능력을 갖추어야 합니다. 그러나 기존 연구는 일반적으로 단일 물체 설정이나 제한된 환경과 같은 특정 가정에 의존하여 제한된 일반화를 초래합니다. 우리의 솔루션은 DexGraspVLA로, 사전 훈련된 Vision-Language 모델을 상위 수준의 작업 계획자로 활용하고 확산 기반 정책을 하위 수준의 동작 제어기로 학습하는 계층적 프레임워크입니다. 핵심 통찰은 다양한 언어 및 시각적 입력을 도메인 불변 표현으로 반복적으로 변환하는 데 있으며, 이는 도메인 이동이 완화됨에 따라 모방 학습을 효과적으로 적용할 수 있게 합니다. 이를 통해 광범위한 실제 시나리오에서 강력한 일반화가 가능해집니다. 특히, 우리의 방법은 '제로샷' 환경에서 수천 가지의 보지 못한 물체, 조명, 배경 조합에서 90% 이상의 성공률을 달성합니다. 실증적 분석은 환경 변화에 따른 내부 모델 행동의 일관성을 추가로 확인하여 우리의 설계를 검증하고 일반화 성능을 설명합니다. 우리의 작업이 일반적인 민첩한 그리핑을 달성하는 데 한 걸음 나아갈 수 있기를 바랍니다. 데모와 코드는 https://dexgraspvla.github.io/에서 확인할 수 있습니다.
대형 언어 모델(LLM)을 심리 상담 보조에 적용하는 것은 환자 요구와 정신 건강 지원 간의 상당한 격차로 인해 등장한 유의미한 접근법입니다. 그러나 현재의 LLM은 내담자의 발화에 대해 일관되게 효과적인 응답을 제공하는 데 어려움을 겪고 있으며, 이는 주로 내담자 프라이버시 문제로 인해 접근하기 어려운 고품질 실제 심리 상담 데이터의 부재 때문입니다. 또한, 이용 가능한 상담 세션에서 치료사의 응답 품질은 그들의 전문 교육과 경험에 따라 크게 달라질 수 있습니다. 치료사의 응답 품질을 평가하는 것은 여전히 해결되지 않은 과제입니다. 본 연구에서는 이러한 과제를 해결하기 위해 먼저 내담자 발화에 대한 치료사의 응답을 평가하기 위한 전문적이고 포괄적인 원칙 세트를 제안합니다. 이러한 원칙을 사용하여 전문 심리치료사의 선호도와 일치하는 36,000개의 고품질 선호도 비교 쌍을 포함한 선호도 데이터셋, PsychoCounsel-Preference를 구축했습니다. 이 데이터셋은 LLM의 심리 상담 능력을 평가하고 개선하기 위한 견고한 기반을 제공합니다. 보상 모델링과 선호도 학습 실험을 통해 PsychoCounsel-Preference가 LLM이 상담 세션에서 내담자에게 응답하는 데 필요한 필수적인 기술을 습득하는 데 탁월한 자원임을 입증했습니다. 우리의 최적화된 모델인 PsychoCounsel-Llama3-8B는 GPT-4o 대비 87%의 인상적인 승률을 달성했습니다. LLM을 활용한 심리 상담 연구를 촉진하기 위해 PsychoCounsel-Preference, PsychoCounsel-Llama3-8B 및 보상 모델 PsychoCounsel-Llama3-8B-Reward를 https://hf.co/Psychotherapy-LLM에서 공개합니다.
인간의 활동은 규범에 의해 조절됩니다. 현실 세계에서 행동을 수행할 때, 인간은 규범을 따를 뿐만 아니라 서로 다른 규범 간의 균형도 고려합니다. 그러나 기계는 종종 규범 이해와 추론에 대한 명시적인 지도 없이 훈련되며, 특히 규범이 물리적 및 사회적 맥락에 기반할 때 더욱 그러합니다. 시각-언어 모델(VLMs)의 규범적 추론 능력을 향상하고 평가하기 위해, 우리는 EgoNormia |ε|를 제시합니다. 이 데이터셋은 인간 상호작용을 담은 1,853개의 자기 중심적 비디오로 구성되어 있으며, 각 비디오에는 규범적 행동의 예측과 정당성을 평가하는 두 가지 관련 질문이 포함되어 있습니다. 규범적 행동은 안전, 프라이버시, 근접성, 예의, 협력, 조정/주도성, 의사소통/명료성 등 일곱 가지 범주를 포괄합니다. 이 데이터셋을 대규모로 구축하기 위해, 우리는 비디오 샘플링, 자동 답변 생성, 필터링, 그리고 인간 검증을 활용한 새로운 파이프라인을 제안합니다. 우리의 연구는 현재 최첨단 시각-언어 모델들이 견고한 규범 이해가 부족하며, EgoNormia에서 최대 45%의 점수를 기록함을 보여줍니다(인간 벤치마크는 92%). 각 차원에서의 성능 분석은 실제 세계의 에이전트에 적용할 때 안전, 프라이버시, 그리고 협력 및 의사소통 능력의 부재와 같은 중대한 위험을 강조합니다. 또한, 우리는 검색 기반 생성 방법을 통해 EgoNormia를 사용하여 시각-언어 모델의 규범적 추론을 향상시킬 수 있음을 보여줍니다.
확산 기반 이미지 생성에서 상당한 진전이 있었음에도 불구하고, 주체 기반 생성과 지시 기반 편집은 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 일반적으로 이를 별도로 처리하며, 고품질 데이터의 부족과 낮은 일반화 성능으로 어려움을 겪습니다. 그러나 두 작업 모두 입력과 출력 간의 일관성을 유지하면서 복잡한 시각적 변화를 포착해야 합니다. 따라서 우리는 다중 모달 지침을 사용하여 작업 표현을 표준화하는 통합 프레임워크인 MIGE를 제안합니다. MIGE는 주체 기반 생성을 빈 캔버스 위의 창작으로, 지시 기반 편집을 기존 이미지의 수정으로 간주하여 공유된 입력-출력 공식을 수립합니다. MIGE는 자유 형식의 다중 모달 지침을 통합된 시각-언어 공간으로 매핑하는 새로운 다중 모달 인코더를 도입하며, 특징 융합 메커니즘을 통해 시각적 및 의미적 특징을 통합합니다. 이러한 통합은 두 작업의 공동 학습을 가능하게 하여 두 가지 주요 이점을 제공합니다: (1) 작업 간 강화: 공유된 시각적 및 의미적 표현을 활용함으로써, 공동 학습은 주체 기반 생성과 지시 기반 편집 모두에서 지시 준수와 시각적 일관성을 개선합니다. (2) 일반화: 통합된 형식으로 학습함으로써 작업 간 지식 전달이 용이해져, MIGE는 지시 기반 주체 편집을 포함한 새로운 조합 작업으로 일반화할 수 있습니다. 실험 결과, MIGE는 주체 기반 생성과 지시 기반 편집 모두에서 뛰어난 성능을 보이며, 지시 기반 주체 편집이라는 새로운 작업에서 최첨단 성과를 달성했습니다. 코드와 모델은 https://github.com/Eureka-Maggie/MIGE에서 공개되어 있습니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 비디오 이해 분야에서 큰 진전을 이루었습니다. 그러나 인간 행동이 포함된 비디오에 대한 성능은 여전히 고품질 데이터의 부족으로 제한되고 있습니다. 이를 해결하기 위해, 우리는 두 단계의 데이터 주석 파이프라인을 도입했습니다. 첫째, 인터넷에서 명확한 인간 행동을 보여주는 비디오를 축적하기 위한 전략을 설계했습니다. 둘째, 비디오는 인간 속성을 사용하여 개인을 구분하고 시간 순서대로 그들의 행동과 상호작용을 상세히 기술하는 표준화된 캡션 형식으로 주석이 달렸습니다. 이 파이프라인을 통해 우리는 HAICTrain과 HAICBench이라는 두 가지 데이터셋을 구축했습니다. HAICTrain은 Gemini-Pro에 의해 생성되고 훈련 목적으로 검증된 126K개의 비디오-캡션 쌍으로 구성됩니다. 한편, HAICBench은 인간 행동 이해를 종합적으로 평가하기 위해 수동으로 주석이 달린 500개의 비디오-캡션 쌍과 1,400개의 QA 쌍을 포함합니다. 실험 결과는 HAICTrain으로 훈련하는 것이 4개의 벤치마크에서 인간 이해 능력을 크게 향상시킬 뿐만 아니라, 텍스트-투-비디오 생성 결과도 개선할 수 있음을 보여줍니다. HAICTrain과 HAICBench 모두 https://huggingface.co/datasets/KuaishouHAIC/HAIC에서 공개되었습니다.