번역이 포함된 일일 선별된 AI 연구 논문
구조 정보는 문서, 표, 차트 등 텍스트가 풍부한 이미지의 의미를 이해하는 데 있어 핵심적입니다. 기존의 시각적 문서 이해를 위한 다중모달 대형 언어 모델(MLLMs)은 텍스트 인식 능력을 갖추고 있지만, 텍스트가 풍부한 문서 이미지에 대한 일반적인 구조 이해 능력은 부족합니다. 본 연구에서는 시각적 문서 이해에서 구조 정보의 중요성을 강조하고, MLLMs의 성능을 향상시키기 위해 통합 구조 학습(Unified Structure Learning)을 제안합니다. 우리의 통합 구조 학습은 문서, 웹페이지, 표, 차트, 자연 이미지 등 5개 영역에 걸친 구조 인식 파싱 작업과 다중 수준 텍스트 위치 지정 작업으로 구성됩니다. 구조 정보를 더 효과적으로 인코딩하기 위해, 우리는 간단하면서도 효과적인 비전-투-텍스트 모듈인 H-Reducer를 설계했습니다. 이 모듈은 레이아웃 정보를 유지하면서도 컨볼루션을 통해 수평적으로 인접한 패치를 병합하여 시각적 특징의 길이를 줄임으로써, LLM이 고해상도 이미지를 더 효율적으로 이해할 수 있도록 합니다. 또한, 공개적으로 이용 가능한 텍스트가 풍부한 이미지에 대해 구조 인식 텍스트 시퀀스와 다중 수준의 텍스트 및 바운딩 박스 쌍을 구성하여, 구조 학습을 지원하는 포괄적인 학습 데이터셋 DocStruct4M을 구축했습니다. 마지막으로, 문서 영역에서 상세한 설명 능력을 촉발하기 위해 소규모이지만 고품질의 추론 튜닝 데이터셋 DocReason25K를 구성했습니다. 우리의 모델 DocOwl 1.5는 10개의 시각적 문서 이해 벤치마크에서 최첨단 성능을 달성하며, 7B LLM을 사용한 MLLMs의 SOTA 성능을 10개 벤치마크 중 5개에서 10점 이상 향상시켰습니다. 우리의 코드, 모델, 데이터셋은 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5에서 공개되어 있습니다.
본 논문은 더 나은 일반화와 효율성을 위한 작업에 구애받지 않는 프롬프트 압축에 초점을 맞춥니다. 자연어의 중복성을 고려할 때, 기존 접근법은 LLaMa-7B와 같은 인과적 언어 모델에서 얻은 정보 엔트로피를 기반으로 토큰이나 어휘 단위를 제거하여 프롬프트를 압축합니다. 그러나 정보 엔트로피는 최적의 압축 지표가 아닐 수 있는 문제가 있습니다: (i) 단방향 컨텍스트만 활용하여 프롬프트 압축에 필요한 모든 필수 정보를 포착하지 못할 수 있으며, (ii) 프롬프트 압축 목표와 일치하지 않습니다. 이러한 문제를 해결하기 위해, 우리는 중요한 정보를 잃지 않고 프롬프트를 압축하기 위해 대형 언어 모델(LLM)로부터 지식을 추출하는 데이터 증류 절차를 제안하고, 동시에 추출적 텍스트 압축 데이터셋을 소개합니다. 프롬프트 압축을 토큰 분류 문제로 공식화하여 압축된 프롬프트가 원본 프롬프트에 충실하도록 보장하며, 양방향 컨텍스트에서 프롬프트 압축에 필요한 모든 필수 정보를 포착하기 위해 Transformer 인코더를 기본 아키텍처로 사용합니다. 우리의 접근 방식은 XLM-RoBERTa-large 및 mBERT와 같은 더 작은 모델로 압축 목표를 명시적으로 학습함으로써 더 낮은 지연 시간을 달성합니다. 우리는 MeetingBank, LongBench, ZeroScrolls, GSM8K, BBH를 포함한 도메인 내 및 도메인 외 데이터셋에서 우리의 방법을 평가합니다. 우리의 모델은 작은 크기에도 불구하고 강력한 베이스라인 대비 상당한 성능 향상을 보이며, 다양한 LLM에 걸쳐 견고한 일반화 능력을 입증합니다. 또한, 우리의 모델은 기존 프롬프트 압축 방법보다 3배에서 6배 빠르며, 2배에서 5배의 압축 비율로 엔드투엔드 지연 시간을 1.6배에서 2.9배 단축합니다.
비정형 텍스트를 구조적이고 의미 있는 형태로 변환하여 유용한 범주 레이블로 조직화하는 것은 다운스트림 분석 및 응용을 위한 텍스트 마이닝의 기본 단계입니다. 그러나 기존의 레이블 분류체계 생성 및 텍스트 기반 레이블 분류기 구축 방법은 여전히 도메인 전문 지식과 수동 큐레이션에 크게 의존하고 있어, 이 과정이 비용이 많이 들고 시간이 소모적입니다. 이는 특히 레이블 공간이 불충분하게 정의되고 대규모 데이터 주석이 없는 경우 더욱 어려운 문제가 됩니다. 본 논문에서는 이러한 문제를 대규모 언어 모델(LLM)을 통해 해결하고자 합니다. LLM의 프롬프트 기반 인터페이스는 대규모 가짜 레이블의 생성과 사용을 용이하게 합니다. 우리는 TnT-LLM이라는 두 단계 프레임워크를 제안하며, 이는 LLM을 활용하여 최소한의 인간 노력으로 주어진 사용 사례에 대한 종단 간 레이블 생성 및 할당 과정을 자동화합니다. 첫 번째 단계에서는 LLM이 반복적으로 레이블 분류체계를 생성하고 개선할 수 있도록 하는 제로샷, 다단계 추론 접근법을 소개합니다. 두 번째 단계에서는 LLM을 데이터 레이블러로 사용하여 경량의 지도 학습 분류기를 안정적으로 구축, 배포 및 대규모로 서비스할 수 있도록 학습 샘플을 생성합니다. 우리는 TnT-LLM을 오픈 도메인 채팅 기반 검색 엔진인 Bing Copilot(이전 Bing Chat)의 사용자 의도 및 대화 도메인 분석에 적용했습니다. 인간 평가 및 자동 평가 지표를 사용한 광범위한 실험을 통해 TnT-LLM이 최신 베이스라인과 비교하여 더 정확하고 관련성 높은 레이블 분류체계를 생성하며, 대규모 분류에서 정확도와 효율성 간의 유리한 균형을 달성함을 입증했습니다. 또한, 실제 애플리케이션에서 대규모 텍스트 마이닝을 위해 LLM을 사용할 때의 도전과 기회에 대한 실용적인 경험과 통찰을 공유합니다.
오픈소스 대형 언어 모델(LLMs)은 다양한 자연어 처리(NLP) 작업에서 큰 성공을 거두었지만, 에이전트로 작동할 때는 여전히 API 기반 모델에 비해 크게 뒤떨어집니다. 일반 LLMs에 에이전트 능력을 통합하는 방법은 중요하고 시급한 문제로 대두되고 있습니다. 본 논문은 먼저 세 가지 주요 관찰을 제시합니다: (1) 현재의 에이전트 학습 코퍼스는 형식 준수와 에이전트 추론이 혼재되어 있어 사전 학습 데이터의 분포와 크게 다르다는 점, (2) LLMs는 에이전트 작업에 필요한 능력에 대해 서로 다른 학습 속도를 보인다는 점, (3) 현재의 접근 방식은 에이전트 능력을 향상시키면서 환각(hallucination) 문제를 유발한다는 점입니다. 이러한 발견을 바탕으로, 우리는 에이전트를 위한 언어 모델을 효과적으로 미세 조정하는 Agent-FLAN을 제안합니다. 학습 코퍼스를 신중하게 분해하고 재설계함으로써, Agent-FLAN은 Llama2-7B가 다양한 에이전트 평가 데이터셋에서 기존 최고의 작업보다 3.5% 더 나은 성능을 달성하도록 합니다. 또한, 철저히 구성된 부정 샘플을 통해 Agent-FLAN은 우리가 구축한 평가 벤치마크를 기반으로 환각 문제를 크게 완화합니다. 더불어, 모델 크기를 확장할 때 LLMs의 에이전트 능력을 지속적으로 향상시키면서 일반적인 능력도 약간 개선합니다. 코드는 https://github.com/InternLM/Agent-FLAN에서 확인할 수 있습니다.
초고속 비디오 생성을 위한 AnimateDiff-Lightning을 소개합니다. 우리의 모델은 점진적 적대적 확산 증류(progressive adversarial diffusion distillation)를 사용하여 적은 단계의 비디오 생성에서 새로운 최첨단 성능을 달성했습니다. 비디오 모달리티에 적응하기 위해 가한 수정 사항에 대해 논의합니다. 더 나아가, 여러 기본 확산 모델의 확률 흐름을 동시에 증류하여 더 넓은 스타일 호환성을 가진 단일 증류된 모션 모듈을 제안합니다. 우리는 증류된 AnimateDiff-Lightning 모델을 커뮤니티 사용을 위해 공개하게 되어 기쁩니다.
대규모 로봇 시스템은 일반적으로 작업을 위해 텍스트 기반 지침에 의존하지만, 본 연구는 다른 접근 방식을 탐구합니다: 로봇이 인간의 행동을 관찰하여 작업을 직접 추론할 수 있을까요? 이러한 전환은 로봇이 인간의 의도를 해독하고 이를 물리적 제약과 환경 내에서 실행 가능한 동작으로 변환할 수 있는 능력을 필요로 합니다. 우리는 Vid2Robot라는 새로운 종단 간(end-to-end) 비디오 기반 학습 프레임워크를 소개합니다. 조작 작업의 비디오 데모와 현재 시각적 관찰을 입력으로 받아 Vid2Robot는 직접 로봇 동작을 생성합니다. 이는 인간 비디오와 로봇 궤적의 대규모 데이터셋으로 훈련된 통합 표현 모델을 통해 달성됩니다. 이 모델은 교차 주의 메커니즘(cross-attention mechanisms)을 활용하여 프롬프트 비디오 특징을 로봇의 현재 상태에 융합하고, 관찰된 작업을 모방한 적절한 동작을 생성합니다. 정책 성능을 더욱 개선하기 위해, 우리는 인간과 로봇 비디오 표현 간의 정렬을 강화하는 보조 대조 손실(auxiliary contrastive losses)을 제안합니다. 우리는 Vid2Robot를 실제 로봇에서 평가하며, 인간 데모 비디오를 사용할 때 다른 비디오 조건 정책(video-conditioned policies) 대비 20%의 성능 향상을 보여줍니다. 또한, 우리의 모델은 관찰된 동작을 한 객체에서 다른 객체로 성공적으로 전이하거나, 장기적 구성(long-horizon composition)과 같은 새로운 능력을 보여주어 실제 응용 가능성을 입증합니다. 프로젝트 웹사이트: vid2robot.github.io
비전-언어 모델(VLMs)은 멀티모달 작업에서 점점 더 강력한 성능을 달성하고 있습니다. 그러나 특히 소규모 VLMs의 경우 추론 능력은 여전히 제한적인 반면, 대규모 언어 모델(LLMs)의 추론 능력은 수많은 개선이 이루어졌습니다. 우리는 LLMs의 능력을 VLMs로 전이하는 기술을 제안합니다. 최근 소개된 ChartQA에서, 우리의 방법은 chen2023pali3의 PaLI3-5B VLM에 적용되었을 때 최첨단 성능을 달성했으며, PlotQA와 FigureQA에서도 훨씬 더 나은 성능을 보였습니다. 우리는 먼저 liu2023deplot의 개선된 차트-테이블 변환 작업을 사용하여 사전 학습 단계를 계속함으로써 차트 표현을 개선했습니다. 그런 다음 원래 학습 데이터셋보다 20배 더 큰 데이터셋을 구축할 것을 제안합니다. 일반적인 추론 능력을 향상시키고 수치 연산을 개선하기 위해, 차트의 테이블 표현을 사용하여 추론 흔적을 합성합니다. 마지막으로, hsieh2023distilling에서 소개된 멀티태스크 손실을 사용하여 모델을 미세 조정합니다. 우리의 변형인 ChartPaLI-5B는 상위 OCR 시스템을 사용하지 않으면서도 PaLIX-55B와 같은 10배 더 큰 모델을 능가하며, PaLI3-5B 기준선과 비교하여 추론 시간을 일정하게 유지합니다. 간단한 프로그램-생각 프롬프트(chen2023program)로 근거를 더욱 정제할 때, 우리의 모델은 최근 소개된 Gemini Ultra와 GPT-4V를 능가합니다.
이미지나 비디오로부터 가우시안 스플래팅(Gaussian Splatting)을 사용하여 4D 필드를 생성하는 것은 그 과소제약적 특성으로 인해 어려운 과제입니다. 입력 비디오로부터 광도 측정적 참조를 얻거나 생성 모델에 의해 규제될 수 있지만, 가우시안 움직임을 직접 감독하는 방법은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 연속 프레임 간의 3D 가우시안 역학과 픽셀 속도를 연결하는 새로운 개념인 가우시안 플로우(Gaussian flow)를 소개합니다. 가우시안 플로우는 가우시안 역학을 이미지 공간으로 스플래팅함으로써 효율적으로 얻을 수 있습니다. 이 미분 가능한 프로세스는 광학 흐름(optical flow)으로부터 직접적인 동적 감독을 가능하게 합니다. 우리의 방법은 특히 기존 방법으로 처리하기 어려운 풍부한 움직임을 가진 콘텐츠에 대해 가우시안 스플래팅을 사용한 4D 동적 콘텐츠 생성 및 4D 새로운 시점 합성에 큰 이점을 제공합니다. 또한, 4D 생성에서 흔히 발생하는 색상 드리프트(color drifting) 문제도 개선된 가우시안 역학으로 해결되었습니다. 광범위한 실험에서 우수한 시각적 품질은 우리 방법의 효과를 입증합니다. 양적 및 질적 평가를 통해 우리의 방법이 4D 생성 및 4D 새로운 시점 합성 작업에서 최첨단 결과를 달성했음을 보여줍니다. 프로젝트 페이지: https://zerg-overmind.github.io/GaussianFlow.github.io/
주어진 이미지로부터 고품질의 3D 자산을 생성하는 것은 AR/VR과 같은 다양한 응용 분야에서 매우 바람직한 기술입니다. 최근 단일 이미지 3D 생성 분야의 발전은 최적화 없이도 객체의 3D 모델을 추론하는 피드포워드 모델을 탐구하고 있습니다. 단일 객체 생성에서는 유망한 결과를 달성했지만, 이러한 방법들은 본질적으로 여러 객체를 포함하는 복잡한 3D 자산을 모델링하는 데 어려움을 겪는 경우가 많습니다. 본 연구에서는 여러 모델을 결합하는 방법을 학습하여 복잡한 구성을 가진 고품질 3D 자산을 생성하는 ComboVerse라는 3D 생성 프레임워크를 제안합니다. 1) 먼저, 모델과 데이터 관점에서 이 "다중 객체 간극"에 대한 심층 분석을 수행합니다. 2) 다음으로, 다양한 객체의 재구성된 3D 모델을 기반으로 크기, 회전 각도, 위치를 조정하여 주어진 이미지와 일치하는 3D 자산을 생성합니다. 3) 이 과정을 자동화하기 위해, 사전 학습된 확산 모델로부터 공간 인식 점수 증류 샘플링(SSDS)을 적용하여 객체의 위치를 안내합니다. 제안된 프레임워크는 표준 점수 증류 샘플링과 비교하여 객체의 공간 정렬을 강조함으로써 더 정확한 결과를 달성합니다. 광범위한 실험을 통해 ComboVerse가 기존 방법 대비 구성적 3D 자산 생성에서 명확한 개선을 이루었음을 검증합니다.
본 연구에서는 사전 학습된 확산 모델을 통해 고해상도 이미지를 생성하는 과정에서, 모델이 학습된 해상도를 넘어서 적용될 때 발생하는 반복적인 패턴 및 구조적 왜곡과 같은 지속적인 문제들을 다룹니다. 이 문제를 해결하기 위해, 우리는 주파수 영역 분석의 관점에서 혁신적인 학습 없는 접근 방식인 FouriScale을 제안합니다. 우리는 사전 학습된 확산 모델의 기존 합성곱 레이어를 확장 기법과 저역 통과 연산을 결합하여 대체함으로써, 각각 구조적 일관성과 해상도 간의 스케일 일관성을 달성하고자 합니다. 또한 패딩 후 크롭 전략을 통해 더욱 향상된 우리의 방법은 다양한 종횡비의 텍스트-이미지 생성을 유연하게 처리할 수 있습니다. FouriScale을 가이드로 사용함으로써, 우리의 방법은 생성된 이미지의 구조적 무결성과 충실도를 성공적으로 균형 잡아, 임의의 크기, 고해상도, 고품질 생성을 놀라운 수준으로 달성합니다. 단순성과 호환성을 갖춘 우리의 방법은 초고해상도 이미지 합성에 대한 미래의 탐구에 유용한 통찰을 제공할 수 있습니다. 코드는 https://github.com/LeonHLJ/FouriScale에서 공개될 예정입니다.
텍스트-이미지 확산 모델의 놀라운 효능은 비디오 영역에서의 잠재적 응용 가능성에 대한 광범위한 탐구를 촉진해 왔습니다. 제로샷 방법은 모델 학습 없이도 이미지 확산 모델을 비디오로 확장하려는 시도입니다. 최근의 방법들은 주로 프레임 간 대응 관계를 어텐션 메커니즘에 통합하는 데 초점을 맞추고 있습니다. 그러나 유효한 특징에 주의를 기울일 위치를 결정하는 데 부과되는 소프트 제약은 때때로 불충분하여 시간적 불일치를 초래할 수 있습니다. 본 논문에서는 더 강력한 시공간적 제약을 확립하기 위해 프레임 간 대응 관계와 함께 프레임 내 대응 관계를 도입한 FRESCO를 소개합니다. 이 개선은 프레임 간 의미적으로 유사한 콘텐츠의 더 일관된 변환을 보장합니다. 단순한 어텐션 가이드라인을 넘어, 우리의 접근 방식은 입력 비디오와 높은 시공간적 일관성을 달성하기 위해 특징을 명시적으로 업데이트함으로써 결과적으로 생성된 변환 비디오의 시각적 일관성을 크게 향상시킵니다. 광범위한 실험을 통해 우리가 제안한 프레임워크가 고품질의 일관된 비디오를 생성하는 데 효과적임을 입증하며, 기존의 제로샷 방법 대비 뚜렷한 개선을 보여줍니다.
최근 몇 년 동안 3D 가우시안 스플래팅(3D Gaussian splatting)은 빠르고 고품질의 렌더링 능력으로 인해 3D 재구성 및 생성 분야에서 강력한 기술로 부상했습니다. 이러한 단점을 해결하기 위해, 본 논문은 텍스트 입력으로부터 3D 가우시안 표현을 효율적으로 생성하기 위한 새로운 확산 기반 프레임워크인 GVGEN을 소개합니다. 우리는 두 가지 혁신적인 기술을 제안합니다: (1) 구조화된 볼륨 표현. 먼저, 무질서한 3D 가우시안 점들을 구조화된 형태인 GaussianVolume으로 배열합니다. 이 변환은 고정된 수의 가우시안으로 구성된 볼륨 내에서 복잡한 텍스처 세부 사항을 포착할 수 있게 합니다. 이러한 세부 사항의 표현을 더욱 최적화하기 위해, 우리는 후보 풀 전략(Candidate Pool Strategy)이라는 독특한 가지치기 및 밀도 조절 방법을 제안하여 선택적 최적화를 통해 세부 충실도를 향상시킵니다. (2) 코스-투-파인 생성 파이프라인. GaussianVolume의 생성을 단순화하고 모델이 세부적인 3D 기하학을 가진 인스턴스를 생성할 수 있도록 하기 위해, 우리는 코스-투-파인 파이프라인을 제안합니다. 이 파이프라인은 기본적인 기하학적 구조를 먼저 구축한 후, 완전한 가우시안 속성을 예측합니다. 우리의 프레임워크인 GVGEN은 기존의 3D 생성 방법들과 비교하여 정성적 및 정량적 평가에서 우수한 성능을 보여줍니다. 동시에, 빠른 생성 속도(약 7초)를 유지하며 품질과 효율성 사이의 균형을 효과적으로 달성합니다.
의미론적 UV 맵을 사용하여 3D 인간 모델에 텍스처를 입히는 것은 합리적으로 펼쳐진 UV를 획득하기 어렵다는 점 때문에 여전히 도전적인 과제로 남아 있습니다. 최근 텍스트-이미지(T2I) 대형 모델을 활용한 다중 뷰 렌더링 감독을 통한 텍스트-3D 발전에도 불구하고, 생성 속도, 텍스트 일관성, 텍스처 품질과 관련된 문제들이 지속되고 있으며, 이는 기존 데이터셋 간의 데이터 부족 현상을 초래하고 있습니다. 우리는 TexDreamer를 소개합니다. 이는 제로샷 멀티모달 고해상도 3D 인간 텍스처 생성 모델로서, 효율적인 텍스처 적응 미세 조정 전략을 통해 대형 T2I 모델을 의미론적 UV 구조에 적응시키면서도 원래의 일반화 능력을 유지합니다. 새로운 특징 변환 모듈을 활용하여, 훈련된 모델은 텍스트 또는 이미지로부터 몇 초 내에 고해상도 3D 인간 텍스처를 생성할 수 있습니다. 또한, 우리는 ArTicuLated humAn textureS (ATLAS)를 소개합니다. 이는 50,000개의 고해상도 텍스처와 텍스트 설명을 포함한 가장 큰 고해상도(1024 X 1024) 3D 인간 텍스처 데이터셋입니다.