번역이 포함된 일일 선별된 AI 연구 논문
최근 비디오 확산 모델의 발전은 현실 세계 역학을 시뮬레이션하고 3D 일관성을 유지하는 뛰어난 능력을 보여주었습니다. 이 발전은 우리에게 이러한 모델의 잠재력을 조사하여 다양한 관점에서 동적 일관성을 보장하는 가능성을 영감을 주었습니다. 이는 가상 촬영과 같은 응용 프로그램에 매우 바람직한 기능입니다. 4D 재구성을 위해 단일 객체의 다중 뷰 생성에 중점을 둔 기존 방법과는 달리, 우리의 관심은 임의의 관점에서 오픈 월드 비디오를 생성하고 6 DoF 카메라 포즈를 통합하는 데 있습니다. 이를 달성하기 위해, 우리는 사전 훈련된 텍스트-비디오 모델을 향상시키는 플러그 앤 플레이 모듈을 제안하여 다양한 관점에서 일관된 콘텐츠를 보장하는 다중 카메라 비디오 생성을 위한 것입니다. 구체적으로, 우리는 외관 및 기하학적 일관성을 유지하기 위해 다중 뷰 동기화 모듈을 소개합니다. 고품질 훈련 데이터의 부족으로 인해, 우리는 Unreal Engine으로 렌더링된 다중 카메라 비디오를 보충하기 위해 다중 카메라 이미지와 단안 비디오를 활용하는 하이브리드 훈련 체계를 설계했습니다. 더 나아가, 우리의 방법은 새로운 관점에서 비디오를 다시 렌더링하는 등 흥미로운 확장 기능을 제공합니다. 또한, SynCamVideo-Dataset이라는 다중 뷰 동기화 비디오 데이터 세트를 공개합니다. 프로젝트 페이지: https://jianhongbai.github.io/SynCamMaster/.
텍스트에서 이미지로의 생성(T2I)에서의 최근 발전은 텍스트로부터 고품질 이미지를 생성하는 데 놀라운 성과를 보여주었습니다. 그러나 기존의 T2I 모델은 여러 객체와 복잡한 관계를 포함하는 합성 이미지 생성에서 성능이 저하되는 것으로 나타났습니다. 우리는 이 문제를 이미지-텍스트 쌍의 기존 데이터셋의 한계로 귀속하며, 이 데이터셋은 정확한 객체 간 관계 주석이 부족하며 단순한 프롬프트만을 제공합니다. 이 문제를 해결하기 위해 우리는 복잡한 장면의 의미 구조를 효과적으로 나타내는 다중 객체의 속성과 관계를 정확히 설명하는 씬 그래프(SG)의 고품질 구조적 주석을 갖는 대규모 데이터셋 LAION-SG를 구축했습니다. LAION-SG를 기반으로, 우리는 구조적 주석 정보를 생성 프로세스에 통합하는 새로운 기반 모델 SDXL-SG를 훈련시켰습니다. 철저한 실험 결과, LAION-SG에서 훈련된 고급 모델이 기존 데이터셋의 모델보다 복잡한 장면 생성에서 상당한 성능 향상을 보여주었습니다. 또한 복합 이미지 생성에 대해 모델을 평가하는 벤치마크인 CompSG-Bench를 소개하여 이 도메인에 대한 새로운 기준을 확립했습니다.
최근에는 비전-언어 모델이 상당한 발전을 이루어, 광학 문자 인식 및 복잡한 다이어그램 분석과 같은 다양한 작업에서 우수한 성능을 보여주고 있습니다. 이러한 추세를 바탕으로, 우리는 다양한 실제 응용 분야에서 뛰어난 성과를 거두도록 설계된 새로운 비전-언어 모델인 POINTS1.5를 소개합니다. POINTS1.5는 POINTS1.0의 개선판으로, 여러 가지 핵심 혁신을 통합하였습니다. i) 우리는 고정된 이미지 해상도를 가진 원래의 CLIP 비전 인코더를 NaViT 스타일의 비전 인코더로 대체하여, 원본 이미지 해상도를 지원하는 동적 고해상도를 지원합니다. 이로써 POINTS1.5는 이미지를 타일로 분할하지 않고도 모든 해상도의 이미지를 처리할 수 있습니다. ii) POINTS1.5에 이중 언어 지원을 추가하여 중국어의 능력을 크게 향상시켰습니다. 비전-언어 모델을 위한 오픈 소스 중국어 데이터셋의 부족으로, 우리는 인터넷에서 다수의 이미지를 수집하고 수동 및 자동 방법을 결합하여 주석을 달았습니다. iii) 시각적 지시 튜닝 데이터셋을 위한 엄격한 필터링 방법을 제안합니다. 우리는 모든 이러한 필터링 방법을 철저히 평가하고, 가장 효과적인 방법을 선택하여 최종 시각적 지시 튜닝 세트를 획득합니다. 이러한 혁신들 덕분에 POINTS1.5는 POINTS1.0을 크게 능가하며 다양한 실제 응용 분야에서 강력한 성능을 보여줍니다. 특히, 40억 토큰 미만으로 훈련된 POINTS1.5-7B는 100억 개 이하의 매개변수를 가진 모델 중 OpenCompass 리더보드에서 1위를 차지합니다.
가능한 인물 이미지 생성은 참조 이미지에 의존하여 인물의 외모나 자세를 정밀하게 제어할 수 있도록 하는 것을 목표로 합니다. 그러나 이전 방법들은 종종 참조 이미지로부터 미세한 질감 세부 사항을 왜곡시키지만 전체적인 이미지 품질은 높게 유지하는 것을 성취했습니다. 우리는 이러한 왜곡을 참조 이미지의 해당 영역에 충분한 주의를 기울이지 않은 데 기인한다고 합니다. 이를 해결하기 위해 우리는 훈련 중에 대상 쿼리가 올바른 참조 키에 주의를 기울도록 명시적으로 안내하는 주의 흐름을 학습하는 Leffa를 제안합니다. 구체적으로, 이는 확산 기반 기준선 내 주의 맵 위에 정규화 손실을 통해 실현됩니다. 우리의 포괄적인 실험 결과는 Leffa가 외모(가상 시착)와 자세 이전(자세 이전)을 제어하는 성능에서 최고 수준을 달성하며 미세한 세부 사항 왜곡을 크게 줄이면서 높은 이미지 품질을 유지한다는 것을 보여줍니다. 게다가, 우리의 손실은 모델에 구애받지 않으며 다른 확산 모델의 성능을 향상시키는 데 사용될 수 있다는 것을 보여줍니다.
BrowserGym 생태계는 자동화 및 대형 언어 모델 (LLM)을 활용하는 웹 상호 작용 작업에 대한 효율적인 평가와 벤치마킹의 증가하는 필요성에 대응합니다. 많은 기존 벤치마크는 단편화와 일관성 없는 평가 방법론으로 인해 신뢰할 수 있는 비교와 재현 가능한 결과를 얻기가 어려워지고 있습니다. BrowserGym은 잘 정의된 관측 및 행동 공간을 갖춘 통합된 체육관과 같은 환경을 제공하여 다양한 벤치마크 간의 표준화된 평가를 용이하게 합니다. 에이전트 생성, 테스트 및 분석을 지원하는 보조 프레임워크인 AgentLab과 결합된 BrowserGym은 새로운 벤치마크를 통합하는 유연성을 제공하면서 일관된 평가와 포괄적인 실험 관리를 보장합니다. 이 표준화된 접근 방식은 웹 에이전트 개발의 시간과 복잡성을 줄이고 더 신뢰할 수 있는 비교를 지원하며 에이전트 행동의 심층 분석을 용이하게 하여 더 적응 가능하고 능력 있는 에이전트를 만들어 LLM 기반 자동화의 혁신을 가속화하려 합니다. 지원하는 증거로, 우리는 최초의 대규모, 다중 벤치마크 웹 에이전트 실험을 수행하고 현재 BrowserGym에서 사용 가능한 모든 벤치마크에서 6개의 최첨단 LLM의 성능을 비교합니다. 다른 결과 중에서 우리의 결과는 OpenAI와 Anthropic의 최신 모델 간의 큰 차이를 강조하며, Claude-3.5-Sonnet이 대부분의 벤치마크에서 선두를 달리고 있지만 GPT-4o가 우수한 시각 관련 작업에서 우세함을 보여줍니다. 이러한 발전에도 불구하고, 우리의 결과는 견고하고 효율적인 웹 에이전트 구축이 현실 세계 웹 환경의 본질적인 복잡성과 현재 모델의 한계로 인해 여전히 중요한 도전 과제임을 강조합니다.
최근의 기본 비디오 생성기는 시각적으로 풍부한 출력물을 생성하지만 여전히 외관 변화로 인한 문제에 직면하며, 물체가 점차적으로 저하되거나 일관성 없이 프레임 간에 변화하여 시각적 일관성이 깨집니다. 이는 특징 수준에서의 공간 추적에 대한 명시적인 지도가 없기 때문이라고 가정합니다. 저희는 이러한 문제를 해결하기 위해 공간적으로 인식하는 비디오 생성기인 Track4Gen을 제안합니다. Track4Gen은 비디오 확산 손실과 프레임 간의 점 추적을 결합하여 확산 특징에 대한 향상된 공간 지도를 제공합니다. 기존 비디오 생성 아키텍처를 최소한으로 수정하여 비디오 생성 및 점 추적 작업을 단일 네트워크로 병합하는 Track4Gen은 안정적인 비디오 확산을 기반으로 하여 비디오 생성과 점 추적을 통합할 수 있다는 것을 보여줍니다. 일반적으로 별도로 처리되는 비디오 생성 및 점 추적 작업을 통합하는 것이 가능함을 입증하는 Track4Gen의 포괄적인 평가 결과는 외관 변화를 효과적으로 줄이고, 시간적으로 안정적이며 시각적으로 일관된 비디오 생성을 도출합니다. 프로젝트 페이지: hyeonho99.github.io/track4gen
비디오 생성 모델에서 스타일 제어는 인기가 있습니다. 기존 방법은 주어진 스타일과 거리가 먼 비디오를 생성하고, 콘텐츠 누출을 유발하며, 하나의 비디오를 원하는 스타일로 전환하는 데 어려움을 겪습니다. 우리의 첫 번째 관찰은 스타일 추출 단계가 중요하다는 것이며, 기존 방법은 전역 스타일을 강조하지만 지역적 질감을 무시합니다. 콘텐츠 누출을 방지하면서 질감 특징을 가져오기 위해, 우리는 프롬프트-패치 유사성에 기초하여 콘텐츠 관련 패치를 걸러내고 스타일 패치를 유지합니다. 전역 스타일 추출을 위해, 대조적 학습을 용이하게 하기 위해 모델 일루전을 통해 쌍으로 된 스타일 데이터셋을 생성합니다. 이는 절대적인 스타일 일관성을 크게 향상시킵니다. 더불어 이미지-비디오 간격을 메꾸기 위해, 우리는 정지된 비디오에서 가벼운 모션 어댑터를 훈련시킵니다. 이는 암묵적으로 스타일 적용 범위를 향상시키고 이미지로 훈련된 모델을 비디오에 매끄럽게 적용할 수 있도록 합니다. 이러한 노력의 결과로, 우리의 StyleMaster 접근 방식은 스타일 유사성과 시간적 일관성 모두에서 상당한 향상을 이루어내며, 그레이 타일 ControlNet을 사용하여 비디오 스타일 전송에 쉽게 일반화할 수 있습니다. 광범위한 실험과 시각화를 통해 StyleMaster가 경쟁 상대를 크게 능가하며, 텍스트 콘텐츠와 밀접하게 일치하며 참조 이미지의 스타일과 밀접하게 닮은 고품질 스타일화된 비디오를 효과적으로 생성한다는 것을 보여줍니다. 우리의 프로젝트 페이지는 https://zixuan-ye.github.io/stylemaster 에 있습니다.
일반화된 피드포워드 가우시안 모델은 대규모 다중 뷰 데이터셋으로부터의 사전 지식을 활용하여 희소한 뷰 3D 재구성에서 상당한 진전을 이루었습니다. 그러나 이러한 모델들은 종종 가우시안의 제한된 수로 인해 고주파 세부 사항을 표현하는 데 어려움을 겪습니다. per-scene 3D 가우시안 스플래팅 (3D-GS) 최적화에서 사용된 밀집화 전략은 피드포워드 모델에 적응시킬 수 있지만, 일반화된 시나리오에 적합하지 않을 수 있습니다. 본 논문에서는 효율적이고 일반화 가능한 Generative Densification 방법을 제안합니다. 3D-GS 밀집화 전략과 달리, 우리의 방법은 피드포워드 모델로부터 특징 표현을 업샘플링하고 그에 해당하는 세부 가우시안을 단일 전방향 패스에서 생성하여 포함된 사전 지식을 활용하여 향상된 일반화를 달성합니다. 객체 수준 및 장면 수준 재구성 작업에 대한 실험 결과는 우리의 방법이 상태-of-the-art 접근 방식을 능가하며, 비교적 작거나 유사한 모델 크기로 세부 사항을 효과적으로 표현하는 뚜렷한 개선을 이룬다는 것을 보여줍니다.
본 논문은 StreamChat을 제시하는데, 이는 스트리밍 비디오 콘텐츠와 대형 다중모달 모델(LMMs)의 상호작용 능력을 향상시키는 혁신적인 방법론을 소개합니다. 스트리밍 상호작용 시나리오에서 기존 방법은 질문이 제기될 때의 시각적 정보에만 의존하여, 스트리밍 비디오의 이후 변경 사항에 대해 모델이 미각할 때까지 지연이 발생합니다. StreamChat은 이 한계를 극복하기 위해 각 디코딩 단계에서 시각적 맥락을 혁신적으로 업데이트하여, 모델이 디코딩 과정 전반에 걸쳐 최신 비디오 콘텐츠를 활용하도록 보장합니다. 더불어, 우리는 동적 스트리밍 입력을 처리하는 유연하고 효율적인 크로스어텐션 기반 아키텍처를 소개하여, 스트리밍 상호작용에 대한 추론 효율성을 유지합니다. 게다가, 스트리밍 상호작용 모델의 훈련을 용이하게 하는 새로운 밀집 지시 데이터셋을 구축하였으며, 시각적 및 텍스트 토큰의 상대적 시간 정보를 인코딩하는 병렬 3D-RoPE 메커니즘을 보완하였습니다. 실험 결과는 StreamChat이 이미지 및 비디오 벤치마크에서 경쟁력 있는 성능을 달성하며, 최첨단 비디오 LMM에 비해 스트리밍 상호작용 시나리오에서 우수한 능력을 나타낸다는 것을 입증합니다.
사전 훈련된 텍스트-이미지 (T2I) 확산/흐름 모델을 사용하여 실제 이미지를 편집할 때 종종 이미지를 해당하는 잡음 맵으로 반전시키는 과정이 포함됩니다. 그러나 반전 그 자체로는 일반적으로 만족할만한 결과를 얻기에는 충분하지 않으며, 따라서 많은 방법들이 샘플링 과정에 추가 개입합니다. 이러한 방법들은 향상된 결과를 얻지만 모델 아키텍처 간에 원활하게 전이되지는 않습니다. 본 논문에서는 FlowEdit을 소개합니다. 이는 사전 훈련된 T2I 흐름 모델을 위한 텍스트 기반 편집 방법으로, 반전 없이 최적화 없이 모델에 중립적입니다. 저희 방법은 소스와 타겟 분포(소스와 타겟 텍스트 프롬프트에 해당) 사이를 직접 매핑하는 ODE를 구성하며, 반전 방법보다 낮은 전송 비용을 달성합니다. 이는 Stable Diffusion 3 및 FLUX를 통해 보여주는 것처럼 최첨단 결과를 이끌어 냅니다. 코드와 예시는 프로젝트 웹페이지에서 확인하실 수 있습니다.
3D 공간 추론은 3D 공간 내 객체의 위치, 방향 및 공간적 관계를 분석하고 해석하는 능력을 말합니다. 이를 통해 모델은 3D 장면에 대한 포괄적인 이해를 발전시켜 자율 주행, 로봇 공학, AR/VR과 같은 다양한 분야에 적용할 수 있습니다. 대규모 다중 모달 모델(LMMs)은 이미지 및 비디오 이해 작업의 다양한 영역에서 현저한 진전을 이루었지만, 이러한 모델들이 다양한 자연 이미지에서 3D 공간 추론을 수행하는 능력에 대한 연구는 미비합니다. 본 연구에서는 12가지 질문 유형을 포함한 2,772개의 수동으로 주석이 달린 시각적 질문-답변 쌍을 포함하는 첫 번째 포괄적인 3D 공간 추론 벤치마크인 3DSRBench를 제안합니다. 데이터 분포를 균형 있게 조정하고 새로운 FlipEval 전략을 채택하여 3D 공간 추론 능력을 견고하고 철저하게 평가합니다. 또한, 카메라 3D 시점에 대한 3D 공간 추론의 견고성을 더 연구하기 위해 3DSRBench에는 일반 및 비표준 시점을 가진 이미지에 대한 3D 공간 추론 질문을 포함하는 두 가지 하위 집합이 포함되어 있습니다. 우리는 다양한 측면에서 LMMs의 한계를 밝히는 넓은 범위의 오픈 소스 및 프로프리어터리 LMMs를 벤치마킹하며, 높이, 방향, 위치 및 다중 객체 추론과 같은 3D 인식 측면에서의 성능 하락 및 비표준 카메라 시점 이미지에 대한 성능 하락을 확인합니다. 우리의 3DSRBench는 강력한 3D 추론 능력을 갖춘 LMMs의 미래 발전에 대한 소중한 발견과 통찰을 제공합니다. 프로젝트 페이지와 데이터셋은 https://3dsrbench.github.io에서 확인할 수 있습니다.
텍스트 대 동작 생성 분야에서는 Bert 유형의 마스크 모델 (MoMask, MMM)이 현재 GPT 유형의 자기회귀 모델 (T2M-GPT)보다 더 높은 품질의 출력물을 생산합니다. 그러나 이러한 Bert 유형 모델은 종종 비디오 게임 및 멀티미디어 환경에서 필요한 스트리밍 출력 기능이 부족하며, 이는 GPT 유형 모델에 내재된 기능입니다. 또한, 이러한 모델들은 분포 밖 생성에서 성능이 약합니다. 데이터 확장을 복잡하게 하는 추가 세부 조정 모델을 추가하지 않고 BERT 유형 모델의 품질을 능가하면서 GPT 유형 구조를 활용하기 위해 단일 트랜스포머 모델을 훈련시켜 고품질의 사실적인 3D 인간 동작을 생성하는 혁신적인 아키텍처인 Mogo (Motion Only Generate Once)를 제안합니다. Mogo는 두 가지 주요 구성 요소로 구성됩니다: 1) RVQ-VAE, 계층적 잔여 벡터 양자화 변이 오토인코더로 연속적인 동작 시퀀스를 높은 정밀도로 이산화합니다. 2) 계층적 인과 트랜스포머는 자기회귀 방식으로 기본 동작 시퀀스를 생성하면서 동시에 다른 계층 간 잔여를 추론합니다. 실험 결과는 Mogo가 260프레임 (13초)까지 연속적이고 순환적인 동작 시퀀스를 생성할 수 있으며, HumanML3D와 같은 기존 데이터셋의 196프레임 (10초) 길이 제한을 능가한다는 것을 보여줍니다. HumanML3D 테스트 세트에서 Mogo는 FID 점수가 0.079로, GPT 유형 모델 T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) 및 BERT 유형 모델 MMM (FID = 0.080)를 능가합니다. 더불어, 우리 모델은 분포 밖 생성에서 최상의 정량적 성능을 달성합니다.
우리는 새로운 비디오 생성 경험, 즉 시연을 통한 비디오 생성을 탐구합니다. 시연 비디오와 다른 장면의 컨텍스트 이미지가 주어졌을 때, 우리는 컨텍스트 이미지에서 자연스럽게 이어지며 시연에서 제시된 행동 개념을 수행하는 물리적으로 타당한 비디오를 생성합니다. 이 능력을 가능하게 하기 위해 우리는 미지도 학습 방식인 delta-Diffusion을 제시합니다. 이 방법은 미래 프레임 예측에 조건을 걸어 라벨이 없는 비디오로부터 학습합니다. 대부분의 기존 비디오 생성 제어 방법이 명시적 신호에 기반한 것과는 달리, 우리는 일반적인 비디오에서 요구되는 최대한의 유연성과 표현력을 위해 암묵적 잠재 제어 형태를 채택합니다. 우리는 상단에 외관 병목 설계를 갖춘 비디오 기반 모델을 활용하여 시연 비디오에서 행동 잠재 변수를 추출하여 생성 프로세스를 최소한의 외관 누출로 조건부화합니다. 경험적으로, delta-Diffusion은 인간의 선호도와 대규모 기계 평가 측면에서 관련 기준 모델을 능가하며 상호작용하는 세계 시뮬레이션 방향으로의 잠재력을 보여줍니다. 샘플 비디오 생성 결과는 https://delta-diffusion.github.io/에서 확인할 수 있습니다.
대형 언어 모델은 실제 세계 지식을 포착하여 많은 하위 작업에서 뛰어난 성과를 거둘 수 있는 것으로 알려져 있습니다. 최근의 발전에도 불구하고, 이러한 모델은 여전히 일반적으로 알려진 환각으로 인해 원치 않는 사실적으로 부정확한 텍스트를 생성할 수 있는 취약점을 가지고 있습니다. 본 연구에서는 환각을 대항할 수 있는 새로운 보정 방법을 제안합니다. 우리는 모델의 어휘에 특별한 "[IDK] (I don't know)" 토큰을 추가하고, 잘못된 예측에 대해 [IDK] 토큰으로 확률을 이동시키는 목적 함수를 도입합니다. 이 접근 방식은 모델이 출력에서 불확실성을 명시적으로 표현할 수 있게 합니다. 우리는 제안한 방법을 여러 모델 아키텍처와 사실적인 하위 작업을 통해 평가합니다. 우리는 우리의 방법으로 훈련된 모델이 이전에 실수를 저지르던 곳에서 불확실성을 표현할 수 있으며, 인코딩된 지식의 손실이 거의 없다는 것을 발견합니다. 또한 우리의 접근 방식의 여러 변형에 대한 철저한 제거 연구를 수행하고, 우리의 방법의 정밀도-재현율 균형에 대한 상세한 분석을 제공합니다.
대형 언어 모델(LLMs)의 증가하는 크기는 이러한 모델을 특정 작업이나 도메인에 적응시킬 때 상당한 계산 오버헤드와 메모리 사용량을 초래합니다. 다양한 매개변수 효율적 미세 조정(PEFT) 방법들은 작업별 업데이트를 위해 모델 가중치의 작은 매개변수 집합을 훈련시킴으로써 이러한 도전에 대처하기 위해 고안되었습니다. PEFT 방법 중에서 LoRA는 그 간결함과 효율성으로 두드러지며, 일련의 변형 개발에 영감을 주었습니다. 그러나 LoRA와 그 후속작들은 대상 작업에 대해 소음이나 관련성이 없는 지식을 무시하여 모델 성능에 해를 끼치고 최적화를 방해합니다. 이 한계를 극복하기 위해 우리는 지식인식 특이값 적응(KaSA)을 소개합니다. 이는 특이값 분해(SVD)를 활용하여 작업과 관련성에 따라 지식을 동적으로 활성화하는 PEFT 방법입니다. 우리는 자연어 이해(NLU), 생성(NLG), 지시 따르기, 상식적 추론을 포함하는 작업에 걸쳐 다양한 LLMs에서 광범위한 실험을 실시했습니다. 실험 결과는 KaSA가 16개의 벤치마크와 4개의 합성 데이터셋에서 FFT 및 14가지 인기 있는 PEFT 기준선을 일관되게 능가함을 보여주며, 우리 방법의 효과성과 적응성을 강조합니다. 우리 방법의 소스 코드는 https://github.com/juyongjiang/KaSA에서 확인할 수 있습니다.
텍스트 주도 스타일 전이는 참조 이미지의 스타일을 텍스트 프롬프트로 설명된 콘텐츠와 병합하는 것을 목표로 합니다. 최근 텍스트에서 이미지로 모델을 전환하는 발전으로 스타일 변환의 세세함이 향상되었지만, 참조 스타일에 오버피팅되는 문제, 스타일적 제어의 제한, 텍스트 콘텐츠와의 불일치 등 주요 도전 과제가 여전히 남아 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 세 가지 보완적 전략을 제안합니다. 첫째, 스타일과 텍스트 특징을 더 잘 통합하여 정렬을 향상시키는 교모달 적응 인스턴스 정규화(AdaIN) 메커니즘을 소개합니다. 둘째, 스타일 기반 분류기 없는 가이던스(SCFG) 접근 방식을 개발하여 스타일 요소에 대한 선택적 제어를 가능하게 하여 관련 없는 영향을 줄입니다. 마지막으로 초기 생성 단계에서 교사 모델을 통합하여 공간 레이아웃을 안정화하고 아티팩트를 완화합니다. 우리의 포괄적인 평가는 스타일 전이 품질과 텍스트 프롬프트와의 정렬에서 상당한 향상을 입증합니다. 더불어, 우리의 방법론은 세밀한 조정 없이 기존의 스타일 전이 프레임워크에 통합될 수 있습니다.
강인한 언어 지시 에이전트를 훈련시키기 위한 고품질 데이터를 생성하는 것은 신체적 AI에서 오랜 기간 동안 지속되어 온 과제입니다. 본 논문에서는 인간의 개입 없이 두 모델, 즉 지시 생성기와 내비게이터 간의 협업을 통해 데이터 풀을 반복적으로 개선하여 고품질과 대규모의 항법 지시-궤적 쌍을 생성하는 Self-Refining Data Flywheel (SRDF)를 소개합니다. 구체적으로 SRDF는 초기 데이터 풀을 생성하기 위해 기본 생성기를 사용하여 기본 내비게이터를 훈련한 후, 훈련된 내비게이터를 사용하여 데이터 풀을 필터링하는 과정을 거칩니다. 이는 더 나은 생성기를 훈련시키기 위한 고정도 데이터로 이어지며, 이는 다시 더 나은 내비게이터를 훈련시키기 위한 고품질 데이터를 생성할 수 있습니다. 이러한 플라이휠은 데이터 자체 개선 프로세스를 확립하여 지속적으로 향상된 매우 효과적인 대규모 언어 지도 항법 학습용 데이터셋을 제공합니다. 실험 결과는 여러 플라이휠 라운드 이후 내비게이터가 클래식 R2R 테스트 세트에서 70%에서 78% SPL로 성능 경계를 높여, 인간의 성능(76%)을 처음으로 능가함을 보여줍니다. 동시에 이 과정은 SPICE가 23.5에서 26.2로 증가하여 이전 VLN 지시 생성 방법보다 우수한 생성기를 보여주었습니다. 마지막으로, 우리의 방법의 확장성을 증명하기 위해 환경 및 지시 다양성을 늘리고, 사전 훈련된 내비게이터의 일반화 능력을 각종 하류 항법 작업에서 상당히 뛰어나게 나타냄으로써 모든 경우에서 최첨단 방법을 크게 능가했습니다.
이미지 번역 (IT)은 다양한 영역에서 엄청난 잠재력을 지니고 있으며, 이미지 내 텍스트 콘텐츠를 다양한 언어로 번역하는 것을 가능케 합니다. 그러나 기존 데이터셋은 종종 규모, 다양성, 품질 면에서 한계를 가지고 있어 IT 모델의 개발과 평가를 방해합니다. 이 문제를 해결하기 위해 우리는 MIT-10M을 소개합니다. 이는 실제 데이터에서 유래된 10백만 개 이상의 이미지-텍스트 쌍을 포함한 대규모 병렬 말뭉치로, 철저한 데이터 정제와 다국어 번역 유효성 검사를 거쳤습니다. 이는 기존 데이터셋에 비해 상당한 향상이 있으며, 세 가지 크기의 840,000개 이미지, 28가지 카테고리, 난이도 세 가지 수준의 작업, 14개 언어 이미지-텍스트 쌍을 포함하고 있습니다. 우리는 MIT-10M에서 모델을 평가하고 훈련하기 위해 광범위한 실험을 수행했습니다. 실험 결과는 우리 데이터셋이 어려운 복잡한 이미지 번역 작업을 해결하는 모델의 성능을 평가할 때 높은 적응성을 보여준다는 것을 명백히 보여줍니다. 게다가, MIT-10M으로 세밀하게 조정된 모델의 성능은 기준 모델 대비 세 배 향상되었으며, 이는 그 우수성을 더욱 확신하는 결과입니다.