번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 확산 모델은 고품질 이미지를 생성하지만 새로운 개인화된 예술적 스타일을 학습하는 데 어려움을 겪어 독특한 스타일 템플릿을 만드는 것을 제한합니다. 참조 이미지를 사용한 파인튜닝은 가장 유망한 접근 방식이지만 종종 사전 훈련에 사용된 목적 및 잡음 수준 분포를 맹목적으로 활용하여 최적의 스타일 정렬을 방해합니다. 우리는 스타일 친화적 SNR 샘플러를 제안합니다. 이 방법은 파인튜닝 중에 신호 대 잡음 비율(SNR) 분포를 공격적으로 변화시켜 스타일적 특징이 나타나는 잡음 수준에 초점을 맞춥니다. 이를 통해 모델이 독특한 스타일을 더 잘 포착하고 더 높은 스타일 정렬을 갖는 이미지를 생성할 수 있습니다. 우리의 방법은 확산 모델이 새로운 "스타일 템플릿"을 학습하고 공유할 수 있도록 하여 개인화된 콘텐츠 생성을 향상시킵니다. 우리는 개인용 수채화, 미니멀한 평면 카툰, 3D 렌더링, 다중 패널 이미지, 텍스트가 포함된 밈 등과 같은 스타일을 생성하는 능력을 증명하여 스타일 중심 생성의 범위를 확대합니다.
언어 모델 사후 훈련은 최근 언어 모델의 넓은 범위에서 행동을 정제하고 새로운 기술을 개방하는 데 적용되지만, 이러한 기술을 적용하는 방법에 대한 공개 레시피는 전용 레시피에 뒤처지고 있습니다. 사후 훈련을 위한 근본적인 훈련 데이터와 레시피는 퍼즐의 가장 중요한 부분이면서 가장 투명성이 적은 부분입니다. 이 간극을 메우기 위해, 우리는 T\"ULU 3을 소개합니다. 이는 최신 사후 훈련 기술에 대한 포괄적인 안내서 역할을 하는 완전히 개방된 최첨단 사후 훈련 모델 패밀리로, 데이터, 코드 및 훈련 레시피를 함께 제공합니다. Llama 3.1 기본 모델을 기반으로 하는 T\"ULU 3은 Llama 3.1, Qwen 2.5, Mistral 및 GPT-4o-mini, Claude 3.5-Haiku와 같은 닫힌 모델을 능가하는 결과를 달성합니다. 우리 모델의 훈련 알고리즘에는 지도된 미세조정 (SFT), 직접적인 선호도 최적화 (DPO), 그리고 우리가 Verifiable Rewards와 함께 한 강화 학습이라고 부르는 새로운 방법이 포함됩니다. T\"ULU 3을 통해, 개발 및 보이지 않는 평가, 표준 벤치마크 구현, 그리고 해당 벤치마크에 대한 기존 개방 데이터 세트의 심각한 오염 제거를 포함한 사후 훈련 레시피에 대한 다중 작업 평가 체계를 소개합니다. 신뢰할 수 없이 성능을 향상시키지 못한 훈련 방법에 대한 분석과 토론으로 마무리합니다. T\"ULU 3 모델 가중치와 데모뿐만 아니라, 다양한 핵심 기술을 위한 데이터 세트, 데이터 정제 및 평가를 위한 견고한 툴킷, 훈련 코드 및 인프라, 그리고 더 많은 도메인에 대한 T\"ULU 3 접근 방식을 재현하고 추가적으로 적응하기 위한 상세 보고서를 포함한 완전한 레시피를 공개합니다.
본 논문에서는 이미지 조건을 사전 훈련된 확산 트랜스포머(Diffusion Transformer, DiT) 모델에 통합하는 매우 다재다능하고 매개변수 효율적인 프레임워크인 OminiControl을 소개합니다. OminiControl의 핵심은 매개변수 재사용 메커니즘을 활용하여 DiT가 이미지 조건을 강력한 백본으로 사용하고 유연한 다중 모달 어텐션 프로세서로 처리할 수 있도록 하는 것입니다. 기존 방법과 달리 OminiControl은 (1) 약 0.1%의 추가 매개변수만 사용하여 주입된 이미지 조건을 효과적이고 효율적으로 통합하며, (2) 주체 주도 생성 및 가장자리, 깊이 등과 같은 공간적으로 정렬된 조건을 포함한 다양한 이미지 조건 작업을 통합적으로 다룹니다. 놀랍게도 이러한 기능들은 DiT 자체에 의해 생성된 이미지로 학습하여 얻어지며, 이는 특히 주체 주도 생성에 유리합니다. 포괄적인 평가 결과, OminiControl은 주체 주도 및 공간적으로 정렬된 조건부 생성에서 기존 UNet 기반 및 DiT 적응 모델을 능가함을 입증합니다. 게다가, 저희는 훈련 데이터셋 Subjects200K를 공개하며, 이는 20만 개 이상의 동일한 정체성을 가진 이미지의 다양한 컬렉션으로, 주체 일관성 있는 생성 연구를 발전시키기 위한 효율적인 데이터 합성 파이프라인을 함께 제공합니다.
얼굴 노화는 성별, 인종, 생활 방식 등 다양한 요소에 매우 의존적인 복잡한 과정으로, 어떤 개인에 대한 노화를 정확하게 예측하기 위한 전역적인 노화를 학습하는 것은 매우 어려운 과제입니다. 기존 기술은 현실적이고 타당한 노화 결과를 종종 제공하지만, 재노화된 이미지는 종종 대상 연령에서의 개인의 외모와 닮지 않아 개인화가 필요합니다. 영화와 TV 프로그램의 VFX와 같은 가상 노화의 많은 실용적인 응용 분야에서 사용자의 소규모 시간 간격(20-40년)에 걸친 노화를 묘사하는 개인 사진 컬렉션에 접근할 수 있습니다. 그러나 개인 사진 컬렉션에 전역적인 노화 기술을 개인화하는 단순한 시도는 종종 실패합니다. 따라서 우리는 MyTimeMachine(MyTM)을 제안합니다. 이는 전역적인 노화 우선순위를 개인 사진 컬렉션(50장 이상 사용)과 결합하여 개인화된 연령 변환을 학습합니다. 우리는 개인화된 노화 특징과 전역적인 노화 특징을 결합하여 새로운 어댑터 네트워크를 소개하고 StyleGAN2로 재노화된 이미지를 생성합니다. 또한 개인화된 노화 손실, 외삽법 규제 및 적응형 w-노름 규제와 같은 세 가지 손실 함수를 소개하여 어댑터 네트워크를 개인화합니다. 우리의 방법은 비디오로 확장할 수 있으며, 실제 외모를 닮은 고품질, 신원 보존 및 시간적 일관성 있는 노화 효과를 달성하여 대상 연령에서의 실제 외모를 닮은 상태 최신 기술 접근법보다 우수함을 입증합니다.
대형 언어 모델은 주로 의도되지 않은 범위를 벗어나는 사용 방식에 취약합니다. 사용자가 이러한 모델에 의도된 범위를 벗어나는 작업을 수행하도록 유도할 수 있습니다. 현재의 가드레일은 주로 선별된 예제나 사용자 정의 분류기에 의존하는데, 이러한 방법들은 높은 거짓 양성률, 제한된 적응성, 그리고 사전 제작 단계에서 사용할 수 없는 실제 데이터를 요구하는 불합리함이 있습니다. 본 논문에서는 이러한 도전에 대처하는 유연하고 데이터 무관한 가드레일 개발 방법론을 소개합니다. 우리는 문제 공간을 질적으로 철저히 정의하고 이를 대규모 언어 모델(Large Language Models, LLM)에 전달하여 다양한 프롬프트를 생성하도록 함으로써, 합성 데이터셋을 구축하여 범위를 벗어난 사용 방지 가드레일을 평가하고 훈련시킵니다. 또한 사용자 프롬프트가 시스템 프롬프트와 관련이 있는지를 분류하는 작업으로 설정함으로써, 우리의 가드레일은 감옥 탈출 및 유해한 프롬프트를 포함한 다른 남용 범주에 효과적으로 일반화됩니다. 마지막으로, 우리는 합성 데이터셋과 범위를 벗어난 가드레일 모델을 오픈 소스로 공개함으로써, 사전 제작 환경에서 가드레일을 개발하고 LLM 안전성에 대한 미래 연구 및 개발을 지원하는 가치 있는 자원을 제공합니다.
대형 언어 모델(Large Language Models, LLMs)과 시각 언어 모델(Vision Language Models, VLMs)은 방대한 지식을 보유하고 유망한 추론 능력을 나타내지만, 여전히 복잡하고 동적인 환경에서 잘 수행하기 어려워합니다. 실제 세계의 작업은 복잡한 상호 작용, 고급 공간 추론, 장기 계획, 그리고 새로운 전략을 지속적으로 탐색하는 것을 필요로 합니다. 이러한 영역들에 대해 우리는 이러한 능력을 체계적으로 평가하는 효과적인 방법론이 부족합니다. 이러한 공백을 해결하기 위해 우리는 LLMs와 VLMs의 에이전트 능력을 다양한 어려운 게임들을 통해 평가하기 위해 설계된 혁신적인 벤치마크인 BALROG을 소개합니다. 우리의 벤치마크는 난이도가 다양한 기존 강화 학습 환경을 포함하며, 초보자가 몇 초 안에 해결할 수 있는 작업부터 연구자가 몇 년이 걸릴 수도 있는 매우 어려운 작업(예: NetHack Learning Environment)까지 포함합니다. 우리는 성능을 측정하기 위한 세밀한 지표를 설계하고, 여러 인기 있는 오픈 소스 및 폐쇄 소스 LLMs와 VLMs를 철저히 평가합니다. 우리의 연구 결과는 현재 모델이 쉬운 게임에서 일부 성공을 거두지만, 더 어려운 작업에서는 심각한 어려움을 겪는다는 것을 보여줍니다. 특히, 환경의 시각적 표현이 제공될 때 모델이 더 나쁜 성과를 내는 시각 기반 의사 결정에서 심각한 결핍을 관찰합니다. 우리는 BALROG을 오픈 및 사용자 친화적인 벤치마크로 공개하여 에이전트 커뮤니티에서의 미래 연구 및 개발을 촉진합니다.
대규모 다중모달 모델(LMMs)의 최근 발전은 학계와 산업 모두에서 중요한 진전을 이끌어내고 있습니다. 하나의 의문은 우리 인간으로서 이러한 모델의 내부 신경 표현을 어떻게 이해할 수 있는지입니다. 본 논문은 LMMs 내에서 의미를 식별하고 해석하기 위한 다재다능한 프레임워크를 제시함으로써 이 의문에 대한 초기 단계를 밟아갑니다. 구체적으로 1) 먼저 희소 오토인코더(SAE)를 적용하여 표현을 인간이 이해할 수 있는 특징들로 분리합니다. 2) 그런 다음 SAE에서 학습한 개방적 의미 특징들을 LMMs 자체에 의해 해석하는 자동 해석 프레임워크를 제시합니다. 우리는 이 프레임워크를 활용하여 LLaVA-NeXT-8B 모델을 LLaVA-OV-72B 모델을 사용하여 분석하였으며, 이러한 특징들이 모델의 행동을 효과적으로 조절할 수 있음을 입증하였습니다. 우리의 결과는 LMMs가 특정 작업에서 뛰어난 이유와 EQ 테스트를 포함한 작업에서의 실수의 본질을 명확히 하고, 그들의 교정을 위한 잠재적 전략을 제시함으로써 보다 심층적인 이해를 제공합니다. 이러한 발견은 LMMs의 내부 메커니즘에 대한 새로운 통찰을 제공하며, 인간 뇌의 인지 과정과 유사점을 제시합니다.
대규모 비전 언어 모델(LVLMs)의 발전은 다중 모달 이해를 크게 향상시켰지만, 고품질 대규모 데이터셋의 부족으로 비디오 추론 작업에서 여전히 도전이 남아 있습니다. 기존 비디오 질의응답(VideoQA) 데이터셋은 종종 고품질의 수동 주석이 부족하거나 중복된 프레임별 분석을 사용하는 자동 생성 방법에 의존하여 확장성과 복잡한 추론에 대한 효과를 제한합니다. 이러한 도전에 대처하기 위해 우리는 VideoEspresso를 소개합니다. 이는 중요한 공간적 세부사항과 시간적 일관성을 보존하는 VideoQA 쌍과 중간 추론 단계의 다중 모달 주석을 특징으로 하는 새로운 데이터셋입니다. 저희의 구축 파이프라인은 중복성을 줄이기 위한 의미론적인 방법을 사용하며, GPT-4o를 사용하여 QA 쌍을 생성합니다. 또한 비디오 Chain-of-Thought(CoT) 주석을 개발하여 추론 과정을 풍부하게 하고, GPT-4o가 QA 쌍과 비디오 콘텐츠에서 논리적 관계를 추출하도록 안내합니다. 고품질 VideoQA 쌍의 잠재력을 활용하기 위해, 우리는 Frame Selector 및 두 단계의 지시 fine-tuned 추론 LVLM을 특징으로 하는 Hybrid LVLMs 협업 프레임워크를 제안합니다. 이 프레임워크는 핵심 프레임을 선택하고 다중 모달 증거를 사용하여 CoT 추론을 수행합니다. 우리의 제안된 벤치마크에서 14가지 작업에 대해 9가지 인기 있는 LVLMs와 비교하여 평가한 결과, 대부분의 작업에서 기존 기준선을 능가하는 우리의 방법은 우수한 비디오 추론 능력을 보여줍니다. 우리의 코드와 데이터셋은 다음에서 공개될 예정입니다: https://github.com/hshjerry/VideoEspresso
비디오의 효율적인 토큰화는 긴 비디오를 처리할 수 있는 비전 모델을 훈련하는 데 여전히 어려운 과제입니다. 하나 유망한 방향은 긴 비디오 클립을 인코딩할 수 있는 토크나이저를 개발하는 것인데, 이는 비디오의 시간적 일관성을 더 잘 활용하여 토큰화할 수 있게 합니다. 그러나 기존의 토크나이저를 긴 비디오에 훈련시키는 것은 종종 모든 프레임을 한꺼번에 재구성하도록 훈련되어 막대한 훈련 비용이 발생합니다. 본 논문에서는 최근 3D 생성 모델의 발전을 영감으로 받아, 입력 비디오의 해당 패치로부터 좌표 기반 표현에 대한 매핑을 학습하는 비디오 토크나이저인 CoordTok을 소개합니다. 특히, CoordTok은 비디오를 인수화된 삼면체 표현으로 인코딩하고 임의로 샘플링된 (x, y, t) 좌표에 해당하는 패치를 재구성합니다. 이를 통해 과도한 훈련 자원이 필요하지 않고 직접 긴 비디오에 대한 대규모 토크나이저 모델을 훈련할 수 있습니다. 실험 결과 CoordTok은 긴 비디오 클립을 인코딩하는 데 필요한 토큰 수를 현저히 줄일 수 있음을 보여줍니다. 예를 들어, CoordTok은 128프레임, 128x128 해상도의 비디오를 1280개의 토큰으로 인코딩할 수 있으며, 기준 모델은 유사한 재구성 품질을 얻기 위해 6144 또는 8192개의 토큰이 필요합니다. 또한 이 효율적인 비디오 토큰화를 통해 한 번에 128프레임을 생성할 수 있는 확산 트랜스포머의 메모리 효율적인 훈련이 가능함을 보여줍니다.
소설적 시야 합성 분야는 방사도장 메소드의 발전 덕분에 상당한 발전을 이루었습니다. 그러나 대부분의 방사도장 기술은 새로운 시야 보간에 뛰어나지만, 관측된 훈련 시야를 크게 벗어난 새로운 시야 외삽에서는 떨어집니다. 저희는 안정적 비디오 확산(SVD)의 생성 사전을 활용하여 현실적인 새로운 시야 외삽을 위한 ViewExtrapolator라는 새로운 시야 합성 접근 방식을 설계했습니다. SVD의 노이즈 제거 과정을 재설계함으로써 ViewExtrapolator는 방사도장에 의해 렌더링된 아티팩트가 많은 시야를 개선하여 합성된 새로운 시야의 명확성과 현실감을 크게 향상시킵니다. ViewExtrapolator는 단일 시야나 단안 비디오만 사용 가능한 경우와 같이 포인트 클라우드에서 렌더링된 시야와 같은 다양한 유형의 3D 렌더링과 함께 작동할 수 있는 일반적인 새로운 시야 외삽기입니다. 또한 ViewExtrapolator는 SVD의 세부 조정이 필요하지 않아 데이터 및 계산 효율적이며, 새로운 시야 외삽에서 ViewExtrapolator의 우수성을 입증하는 광범위한 실험을 통해 확인되었습니다. 프로젝트 페이지: https://kunhao-liu.github.io/ViewExtrapolator/.
최근 텍스트-비디오(T2V) 확산 모델들은 다양한 영역에서 인상적인 생성 능력을 보여주었습니다. 그러나 이러한 모델들은 종종 복수의 객체와 속성을 포함한 복잡한 장면을 설명하는 프롬프트와 맞지 않는 비디오를 생성합니다. 이를 해결하기 위해, 우리는 VideoRepair를 소개합니다. 이는 새로운 모델에 중립적이며 훈련이 필요 없는 비디오 정제 프레임워크로, 세밀한 텍스트-비디오 불일치를 자동으로 식별하고 명시적인 공간적 및 텍스트적 피드백을 생성하여 T2V 확산 모델이 특정하고 지역화된 정제를 수행할 수 있도록 합니다. VideoRepair는 네 단계로 구성됩니다: (1) 비디오 평가 단계에서는 MLLM을 사용하여 세밀한 평가 질문을 생성하고 답변하여 불일치를 감지합니다. (2) 정제 계획 단계에서는 정확하게 생성된 객체를 식별한 후 비디오의 다른 영역을 정제하기 위해 지역화된 프롬프트를 생성합니다. 그 다음, (3) 영역 분해 단계에서는 결합된 그라운딩 모듈을 사용하여 정확하게 생성된 영역을 분할합니다. 우리는 (4) 지역화된 정제에서 정렬되지 않은 영역을 조정하면서 올바른 영역을 보존하여 비디오를 재생성합니다. EvalCrafter 및 T2V-CompBench 두 가지 인기 있는 비디오 생성 벤치마크에서 VideoRepair는 다양한 텍스트-비디오 정렬 메트릭에서 최근의 기준 모델을 크게 능가합니다. VideoRepair 구성 요소와 질적 예제에 대한 포괄적인 분석을 제공합니다.
'야외' 모바일 조작은 로봇을 다양한 현실 세계 환경에 배치하는 것을 목표로 하며, 이는 로봇이 (1) 물체 구성에 걸쳐 일반화되는 기술을 갖추어야 하고, (2) 다양한 환경에서 장기적인 과제 실행이 가능해야 하며, (3) 픽 앤 플레이스를 넘어 복잡한 조작을 수행해야 합니다. 조작기를 갖춘 네 다리 로봇은 작업 공간을 확장하고 견고한 이동을 가능하게 하는 잠재력을 지니고 있지만, 기존 결과는 이러한 능력을 조사하지 않았습니다. 본 논문은 이러한 문제를 해결하기 위해 세 가지 구성 요소를 갖춘 WildLMa를 제안합니다: (1) VR을 활용한 전신 원격 조작 및 횡단성을 위한 학습된 저수준 컨트롤러의 적응; (2) WildLMa-Skill - 흉내 내기 학습 또는 휴리스틱을 통해 획득된 일반화 가능한 시각 운동 기술 라이브러리; (3) WildLMa-Planner - 학습된 기술의 인터페이스로, LLM 플래너가 장기적인 과제를 위해 기술을 조정할 수 있습니다. 우리는 수십 개의 데모만 사용하여 기존 RL 베이스라인보다 높은 그랩 성공률을 달성함으로써 고품질 훈련 데이터의 중요성을 입증합니다. WildLMa는 언어 조건부 흉내 학습을 위해 CLIP를 활용하며, 훈련 데모에서 보지 못한 물체에 대해 경험적으로 일반화됩니다. 방대한 양의 양적 평가 외에도, 우리는 대학 복도나 야외 지형에서 쓰레기를 정리하거나 관절이 있는 물체를 작동하며 책장의 물건을 재배열하는 등의 실용적인 로봇 응용을 질적으로 증명합니다.
원격 감지 이미지 해석에서 구름 분할은 중요한 과제로, 정확성은 후속 데이터 처리 및 분석의 효과에 직접적으로 영향을 미칩니다. 최근에는 시각 기반 모델(VFM)이 다양한 시각 작업에서 강력한 일반화 능력을 보여주었습니다. 본 논문에서는 Cloud-Adapter라는 매개 변수 효율적인 적응 접근 방식을 제안하여 구름 분할의 정확성과 견고성을 향상시키는 방법을 제시합니다. 우리의 방법은 일반 도메인 데이터에 사전 학습된 VFM을 활용하며, 추가적인 학습이 필요하지 않도록 동결됩니다. Cloud-Adapter는 가벼운 공간 인식 모듈을 통합하며, 초기에는 합성곱 신경망(ConvNet)을 사용하여 밀집한 공간 표현을 추출합니다. 이러한 다중 스케일 특징은 집계되어 적응 모듈에 문맥적 입력으로 제공되며, 이 모듈은 VFM 내의 동결된 트랜스포머 레이어를 조절합니다. 실험 결과는 동결된 백본의 학습 가능한 매개 변수의 0.6%만을 활용하는 Cloud-Adapter 접근 방식이 상당한 성능 향상을 달성한다는 것을 보여줍니다. Cloud-Adapter는 다양한 위성 소스, 센서 시리즈, 데이터 처리 수준, 토지 피복 시나리오 및 주석 세분성에 걸쳐 다양한 구름 분할 데이터셋에서 최첨단 성능을 일관되게 달성합니다. 우리는 추가 연구를 지원하기 위해 소스 코드와 사전 학습된 모델을 https://github.com/XavierJiezou/Cloud-Adapter 에 공개하였습니다.
최근 몇 년간 인간-로봇 상호작용 분야의 연구는 복잡한 인간 지시를 이해하고 동적이고 다양한 환경에서 작업을 수행할 수 있는 로봇을 개발하는 데 초점을 맞추었습니다. 이러한 시스템은 개인 보조부터 산업 로봇에 이르기까지 다양한 응용 분야가 있으며, 로봇이 유연하고 자연스럽게 그리고 안전하게 인간과 상호작용하는 중요성을 강조합니다. 본 논문은 대규모 언어 모델 (Large Language Models, LLMs)과 통합된 로봇 작업 계획을 위한 고급 아키텍처를 제시합니다. 우리의 시스템은 자연어로 표현된 명령을 실행 가능한 로봇 작업으로 변환하고 환경 정보를 통합하며 실시간 피드백에 기반한 계획을 동적으로 업데이트하는 것을 목표로 합니다. 계획 모듈은 시스템의 핵심으로, 수정된 ReAct 프레임워크에 포함된 LLMs를 활용하여 사용자 명령을 해석하고 실행합니다. 사전 훈련된 방대한 지식을 활용함으로써 LLMs는 환경 변화에 대한 새로운 지식을 도입할 필요 없이 사용자 요청을 효과적으로 처리할 수 있습니다. 수정된 ReAct 프레임워크는 실시간 환경 인식과 물리적 작업 결과를 제공함으로써 실행 공간을 더욱 향상시킵니다. 강력하고 동적인 의미 지도 표현을 그래프로 결합하여 제어 구성 요소 및 실패 설명과 함께, 이 아키텍처는 로봇의 적응성, 작업 실행 및 공유 및 동적 환경에서 인간 사용자와의 원활한 협업을 강화합니다. 환경과의 지속적인 피드백 루프를 통합함으로써 시스템은 예상치 못한 변화를 수용하기 위해 계획을 동적으로 조정하여 로봇의 작업 수행 능력을 최적화할 수 있습니다. 이전 경험 데이터 세트를 활용하여 실패에 대한 상세한 피드백을 제공할 수 있습니다. 다음 반복의 LLMs 컨텍스트를 업데이트하여 문제를 극복하는 방법에 대한 제안을 제공할 수 있습니다.