번역이 포함된 일일 선별된 AI 연구 논문
최근 비디오 생성 기술의 발전은 인상적인 움직임의 사실감을 달성했지만, 자동화된 영화 및 애니메이션 생성에 있어 중요한 요소인 캐릭터 중심 스토리텔링을 종종 간과해 왔습니다. 본 논문에서는 음성과 텍스트로부터 직접 캐릭터 애니메이션을 생성하는 더 현실적인 과제인 Talking Characters를 소개합니다. Talking Head와 달리, Talking Characters는 얼굴 영역을 넘어 하나 이상의 캐릭터 전체 초상을 생성하는 것을 목표로 합니다. 이 논문에서는 이러한 유형의 첫 번째 모델인 MoCha를 제안합니다. 비디오와 음성 간의 정확한 동기화를 보장하기 위해, 음성과 비디오 토큰을 효과적으로 정렬하는 음성-비디오 윈도우 어텐션 메커니즘을 제안합니다. 대규모 음성 레이블이 달린 비디오 데이터셋의 부족 문제를 해결하기 위해, 음성 레이블과 텍스트 레이블이 달린 비디오 데이터를 모두 활용하는 공동 학습 전략을 도입하여 다양한 캐릭터 동작에 대한 일반화를 크게 개선했습니다. 또한, 캐릭터 태그가 포함된 구조화된 프롬프트 템플릿을 설계하여, 처음으로 턴 기반 대화를 통해 다중 캐릭터 대화가 가능하도록 하여 AI 생성 캐릭터가 시네마틱 일관성을 유지하며 상황 인식 대화를 나눌 수 있게 했습니다. 인간 선호도 연구 및 벤치마크 비교를 포함한 광범위한 정성적 및 정량적 평가를 통해, MoCha가 AI 생성 시네마틱 스토리텔링 분야에서 새로운 기준을 세우며 우수한 사실감, 표현력, 제어 가능성 및 일반화를 달성했음을 입증했습니다.
본 논문은 시각적 이미지 내 다양한 영역에 분포된 복잡한 텍스트 콘텐츠를 생성하는 과제인 복합 시각 텍스트 생성(Complex Visual Text Generation, CVTG)을 탐구한다. CVTG에서 이미지 생성 모델은 종종 왜곡되고 흐릿한 시각적 텍스트를 렌더링하거나 일부 시각적 텍스트를 누락시키는 문제를 보인다. 이러한 문제를 해결하기 위해, 우리는 새로운 다중 시각 텍스트 렌더링 방법인 TextCrafter를 제안한다. TextCrafter는 복잡한 시각 텍스트를 별개의 구성 요소로 분해하면서 텍스트 콘텐츠와 시각적 매체 간의 견고한 정렬을 보장하는 점진적 전략을 채택한다. 또한, 생성 과정에서 시각적 텍스트의 두드러짐을 강화하기 위해 토큰 포커스 강화 메커니즘을 통합한다. TextCrafter는 텍스트 혼동, 누락, 흐릿함과 같은 CVTG 과제의 주요 문제를 효과적으로 해결한다. 더불어, CVTG 과제에서 생성 모델의 성능을 엄격히 평가하기 위해 새로운 벤치마크 데이터셋인 CVTG-2K를 제시한다. 광범위한 실험을 통해 우리의 방법이 최신 기술을 능가함을 입증한다.
우리는 확장성, 단순성 및 접근성에 초점을 맞춘 대규모 추론 지향 강화학습(RL) 훈련의 첫 번째 오픈소스 구현체인 Open-Reasoner-Zero를 소개합니다. 광범위한 실험을 통해, KL 정규화 없이도 GAE(lambda=1, gamma=1)를 사용한 기본 PPO와 직관적인 규칙 기반 보상만으로도 DeepSeek-R1-Zero에서 관찰된 현상과 유사하게 응답 길이와 벤치마크 성능을 확장할 수 있음을 입증했습니다. DeepSeek-R1-Zero-Qwen-32B와 동일한 기본 모델을 사용하여, 우리의 구현은 AIME2024, MATH500 및 GPQA Diamond 벤치마크에서 우수한 성능을 달성하면서도 DeepSeek-R1-Zero 파이프라인 대비 단 1/10의 훈련 단계만으로도 놀라운 효율성을 보여주었습니다. 오픈소스 정신에 따라, 우리는 다양한 크기의 소스 코드, 파라미터 설정, 훈련 데이터 및 모델 가중치를 공개합니다.
사전 학습 시대에서 계산(데이터와 파라미터) 확장에 대한 열기가 점차 줄어들면서, 테스트 시간 확장(TTS, Test-Time Scaling) 또는 "테스트 시간 컴퓨팅"이라 불리는 연구 분야가 주요 관심사로 부상하고 있다. 최근 연구들은 TTS가 대규모 언어 모델(LLM)의 문제 해결 능력을 더욱 끌어내어, 수학 및 코딩과 같은 전문적인 추론 작업뿐만 아니라 개방형 질의응답과 같은 일반적인 작업에서도 중대한 돌파구를 마련할 수 있음을 보여주고 있다. 그러나 이 분야에서 최근의 노력이 폭발적으로 증가했음에도 불구하고, 체계적인 이해를 제공하는 포괄적인 조사가 시급히 필요한 상황이다. 이러한 공백을 메우기 위해, 우리는 TTS 연구의 네 가지 핵심 차원(무엇을 확장할 것인가, 어떻게 확장할 것인가, 어디에서 확장할 것인가, 얼마나 잘 확장할 것인가)을 기반으로 한 통합적이고 다차원적인 프레임워크를 제안한다. 이 분류 체계를 바탕으로, 우리는 방법론, 적용 시나리오, 평가 측면에 대한 광범위한 리뷰를 수행하고, 더 넓은 TTS 환경에서 개별 기술의 독특한 기능적 역할을 강조하는 체계적인 분해를 제시한다. 이 분석을 통해, 우리는 현재까지의 TTS 주요 발전 궤적을 도출하고 실질적인 배포를 위한 실용적인 가이드라인을 제공한다. 더 나아가, 우리는 몇 가지 열린 과제를 식별하고, 추가 확장, 기술의 기능적 본질 명확화, 더 많은 작업으로의 일반화, 그리고 더 많은 속성 분석을 포함한 유망한 미래 방향에 대한 통찰을 제시한다.
대형 추론 모델(LRMs)은 추론 능력을 학습함으로써 대형 언어 모델(LLMs)의 추론 능력을 크게 향상시키며, 복잡한 문제 해결에서 유망한 성능을 보여줍니다. 그러나 이러한 숙고적 추론 과정은 토큰 사용, 메모리 소비, 추론 시간 측면에서 비효율성을 초래합니다. 따라서 본 논문은 LRMs를 위해 특별히 설계된 효율적인 추론 방법을 검토하며, 추론 품질을 유지하면서 토큰 비효율성을 완화하는 데 초점을 맞춥니다. 먼저, 최근의 방법들을 두 가지 주요 범주로 분류하는 체계를 소개합니다: (a) 명시적 간결한 사고의 연쇄(CoT)는 명시적 추론 구조를 유지하면서 토큰을 줄이는 방법이며, (b) 암묵적 잠재 CoT는 명시적 토큰 대신 숨겨진 표현 내에 추론 단계를 인코딩하는 방법입니다. 동시에, 이러한 방법들의 강점과 약점을 논의합니다. 그런 다음, 기존 방법들을 성능과 효율성 측면에서 실증적으로 분석합니다. 또한, 이 분야의 열린 과제들, 예를 들어 인간 중심의 제어 가능한 추론, 추론의 해석 가능성과 효율성 간의 균형, 효율적 추론의 안전성 보장, 그리고 효율적 추론의 광범위한 응용 등을 제시합니다. 더불어, 모델 병합, 새로운 아키텍처, 에이전트 라우터와 같은 기술을 통해 LRMs의 추론 효율성을 향상시키기 위한 주요 통찰을 강조합니다. 본 연구가 이 활기찬 분야의 도전을 극복하는 데 유용한 가이드가 되기를 바랍니다.
다양하고 물리적으로 타당한 인간-장면 상호작용(HSI)을 합성하는 것은 컴퓨터 애니메이션과 구체화된 AI 모두에게 매우 중요합니다. 고무적인 진전이 있었음에도 불구하고, 현재의 방법들은 주로 특정 상호작용 작업에 특화된 개별 컨트롤러를 개발하는 데 초점을 맞추고 있습니다. 이는 여러 기술의 통합이 필요한 다양한 도전적인 HSI 작업(예: 물건을 들고 앉기)을 해결하는 능력을 크게 저해합니다. 이 문제를 해결하기 위해, 우리는 다중 기술 통합과 유연한 적응이 가능한 단일 통합 트랜스포머 기반 정책인 TokenHSI를 제시합니다. 핵심 통찰은 휴머노이드의 프로프리오셉션을 별도의 공유 토큰으로 모델링하고 이를 마스킹 메커니즘을 통해 구별된 작업 토큰과 결합하는 것입니다. 이러한 통합 정책은 기술 간 효과적인 지식 공유를 가능하게 하여 다중 작업 학습을 촉진합니다. 또한, 우리의 정책 아키텍처는 가변 길이 입력을 지원하여 학습된 기술을 새로운 시나리오에 유연하게 적응시킬 수 있습니다. 추가 작업 토크나이저를 훈련함으로써, 우리는 상호작용 대상의 기하학을 수정할 뿐만 아니라 복잡한 작업을 해결하기 위해 여러 기술을 조정할 수 있습니다. 실험 결과, 우리의 접근 방식이 다양한 HSI 작업에서 다재다능성, 적응성 및 확장성을 크게 향상시킬 수 있음을 보여줍니다. 웹사이트: https://liangpan99.github.io/TokenHSI/
비전-언어 모델(VLM)을 훈련시키는 데는 일반적으로 대규모의 고품질 이미지-텍스트 쌍이 필요하지만, 이러한 데이터를 수집하거나 합성하는 데는 비용이 많이 듭니다. 반면, 텍스트 데이터는 풍부하고 저렴하여 다음과 같은 질문을 제기합니다: 고품질의 다중모드 훈련 데이터를 순수하게 텍스트로부터 합성할 수 있을까요? 이를 해결하기 위해, 우리는 교차 통합된 3단계 다중모드 데이터 합성 프레임워크를 제안하며, 이는 Unicorn-1.2M과 Unicorn-471K-Instruction이라는 두 가지 데이터셋을 생성합니다. 1단계: 다양한 캡션 데이터 합성에서는, 희소한 캡션 시드를 대규모 언어 모델(LLM)을 사용하여 확장함으로써 120만 개의 의미론적으로 다양한 고품질 캡션을 구성합니다. 2단계: 인스트럭션 튜닝 데이터 생성에서는, 471,000개의 캡션을 추가로 처리하여 복잡한 추론을 지원하는 다중 턴 인스트럭션 튜닝 작업으로 변환합니다. 마지막으로, 3단계: 모달리티 표현 전이에서는, 이러한 텍스트 캡션 표현을 시각적 표현으로 변환하여 다양한 합성 이미지 표현을 생성합니다. 이 3단계 프로세스를 통해, 우리는 실제 이미지에 의존하지 않고도 프리트레이닝을 위한 Unicorn-1.2M과 인스트럭션 튜닝을 위한 Unicorn-471K-Instruction을 구성할 수 있습니다. 실제 이미지에 대한 의존성을 제거하면서도 데이터 품질과 다양성을 유지함으로써, 우리의 프레임워크는 VLM 훈련을 위한 비용 효율적이고 확장 가능한 솔루션을 제공합니다. 코드는 https://github.com/Yu-xm/Unicorn.git에서 확인할 수 있습니다.
복잡한 개방형 환경에서 작동하는 구체화된 에이전트에게는 행동 전 사고와 잠재적 결과 상상(즉, 세계 모델)이 필수적입니다. 그러나 기존 연구는 종단 간(end-to-end) 에이전트에 이러한 능력 중 하나만 통합하거나, 여러 전문화된 모델을 에이전트 시스템에 통합하여 정책의 학습 효율성과 일반화를 제한했습니다. 따라서 본 논문은 사고(Reasoning)와 상상(Imagination)을 종단 간 일반주의 정책(Generalist policy)인 RIG로 최초로 통합하려는 시도를 합니다. RIG를 종단 간 방식으로 학습시키기 위해, 우리는 기존 에이전트에서 수집된 궤적에 상상과 사고의 내용을 점진적으로 통합하고 풍부하게 만드는 데이터 파이프라인을 구축했습니다. 사고와 다음 이미지 생성을 함께 학습함으로써 사고, 행동, 환경 역학 간의 내재적 상관관계를 명시적으로 모델링하여, 기존 연구 대비 17배 이상의 샘플 효율성 향상과 일반화를 달성했습니다. 추론 과정에서 RIG는 먼저 다음 행동을 사고하고, 잠재적 행동을 생성한 후, 행동 결과를 예측함으로써 에이전트가 실제 행동을 취하기 전에 상상을 바탕으로 검토하고 자기 수정할 기회를 제공합니다. 실험 결과는 사고와 상상의 시너지가 일반주의 정책의 견고성, 일반화, 상호 운용성을 향상시킬 뿐만 아니라 테스트 시 스케일링을 통해 전반적인 성능을 강화할 수 있음을 보여줍니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 잘 구조화된 참조 답변이 존재하는 수학적 추론 및 코딩 작업에서 유망한 결과를 보여왔습니다. 그러나 보다 광범위한 도메인에 대한 적용 가능성은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 RLVR을 의학, 화학, 심리학, 경제학 등 다양한 도메인으로 확장하는 방안을 탐구합니다. 객관적인 참조 답변이 존재할 때, 서로 다른 대규모 언어 모델(LLM) 간의 이진 판단에서 높은 일치도를 관찰함으로써, 도메인 특화 보상 모델 학습을 위한 대규모 주석의 필요성에 의문을 제기합니다. 비구조화된 참조 답변을 다룰 때 이진 보상의 한계를 해결하기 위해, 우리는 RLVR에 모델 기반의 소프트 스코어링을 추가하여 유연성을 개선합니다. 실험 결과, 증류된 생성형 보상 모델이 도메인 특화 주석 없이도 RL을 위한 신뢰할 수 있는 보상 신호를 제공하는 효과적인 크로스 도메인 검증자 역할을 할 수 있음을 확인했습니다. 7B 베이스 모델을 다양한 RL 알고리즘을 사용해 우리의 보상 모델에 맞춰 미세 조정함으로써, Qwen2.5-72B-Instruct 및 DeepSeek-R1-Distill-Qwen-32B와 같은 최첨단 오픈소스 정렬 LLM을 자유 형식 답변 설정에서 크게 능가하는 정책을 얻었습니다. 이는 또한 RLVR의 견고성과 확장성을 강화하며, 노이즈가 있거나 약한 레이블이 있는 실제 세계 응용 프로그램에 대한 잠재력을 강조합니다.
텍스트 프롬프트나 이미지에 기반한 비디오 생성 및 편집 기술은 상당한 발전을 이루어 왔습니다. 그러나 텍스트만으로 전역적인 레이아웃과 기하학적 세부 사항을 정확하게 제어하거나, 이미지를 통해 모션 제어와 지역적 수정을 지원하는 데는 여전히 과제가 남아 있습니다. 본 논문에서는 스케치 기반의 공간 및 모션 제어를 통해 비디오 생성을 달성하고, 실제 또는 합성 비디오의 세밀한 편집을 지원하는 것을 목표로 합니다. DiT 비디오 생성 모델을 기반으로, 스킵된 DiT 블록의 잔차 특징을 예측하는 스케치 제어 블록을 포함한 메모리 효율적인 제어 구조를 제안합니다. 스케치는 하나 또는 두 개의 키프레임(임의의 시간 지점)에 그려져 쉬운 상호작용을 가능하게 합니다. 이러한 시간적으로 희소한 스케치 조건을 모든 프레임에 전파하기 위해, 키프레임과 각 비디오 프레임 간의 관계를 분석하는 프레임 간 주의 메커니즘을 제안합니다. 스케치 기반 비디오 편집을 위해, 새로 편집된 콘텐츠와 원본 비디오의 공간적 특징 및 동적 모션 간의 일관성을 유지하는 추가 비디오 삽입 모듈을 설계합니다. 추론 과정에서는 편집되지 않은 영역의 정확한 보존을 위해 잠재 융합을 사용합니다. 광범위한 실험을 통해 우리의 SketchVideo가 제어 가능한 비디오 생성 및 편집에서 우수한 성능을 달성함을 입증합니다.
추론 강화 대형 언어 모델(LLM)은 최종 답변을 생성하기 전에 중간 추론 단계를 명시적으로 생성함으로써 복잡한 문제 해결에서 뛰어난 성능을 발휘합니다. 본 논문에서는 이러한 새로운 생성 프레임워크가 모델 행동을 보다 세밀하게 제어할 수 있는 독특한 기회를 제공한다는 것을 보여줍니다. 우리는 특정 사고 토큰을 전략적으로 삽입하거나 수정함으로써 LLM의 내부 추론 과정을 명시적으로 안내하기 위해 설계된 새로운 패러다임인 '사고 개입(Thinking Intervention)'을 제안합니다. IFEval에서의 지시 따르기, SEP에서의 지시 계층 구조, XSTest와 SORRY-Bench에서의 안전성 정렬을 포함한 다양한 작업에 걸쳐 포괄적인 평가를 수행했습니다. 우리의 결과는 사고 개입이 기본 프롬프트 접근법을 크게 능가하며, 지시 따르기 시나리오에서 최대 6.7%의 정확도 향상, 지시 계층 구조 추론에서 15.4%의 개선, 그리고 오픈소스 DeepSeek R1 모델을 사용한 안전하지 않은 프롬프트에 대한 거부율에서 40.0%의 증가를 달성함을 보여줍니다. 전반적으로, 우리의 연구는 추론 LLM을 제어하기 위한 유망한 새로운 연구 방향을 열어줍니다.
복잡한 출력을 생성하기 위한 새로운 접근 방식을 제안하며, 이는 텍스트-to-SQL 작업에서 정확도를 크게 향상시킵니다. 우리의 방법은 실행 결과를 활용하여 여러 후보 중에서 의미적으로 가장 일관된 쿼리를 선택함으로써, 더 작고 비용 효율적인 모델이 o1, o3-mini, DeepSeek R1과 같은 계산 집약적인 추론 방법을 능가할 수 있게 합니다. 동시에 추론 비용을 최대 30배까지 절감합니다. 이 방법은 기존 모델과 원활하게 통합되어, 최신 SQL 생성을 위한 실용적이고 확장 가능한 경로를 제공합니다.
텍스트 프롬프트로부터 단 몇 초 만에 고품질 3D 메시를 생성할 수 있는 모델을 얻는 것은 매우 바람직한 일입니다. 최근 시도들은 Stable Diffusion(SD)과 같은 사전 학습된 텍스트-이미지 확산 모델을 3D 표현(예: Triplane) 생성기로 적응시키려 했지만, 고품질 3D 학습 데이터의 부족으로 인해 종종 품질이 낮은 문제가 발생했습니다. 이러한 데이터 부족 문제를 극복하기 위해, 우리는 Progressive Rendering Distillation(PRD)이라는 새로운 학습 방식을 제안합니다. PRD는 3D 실측 데이터(ground-truth) 없이도 다중 뷰 확산 모델을 증류하고 SD를 네이티브 3D 생성기로 적응시킵니다. 학습의 각 반복에서 PRD는 U-Net을 사용하여 무작위 노이즈로부터 잠재 변수를 점진적으로 몇 단계에 걸쳐 노이즈 제거하고, 각 단계에서 노이즈가 제거된 잠재 변수를 3D 출력으로 디코딩합니다. MVDream과 RichDreamer를 포함한 다중 뷰 확산 모델은 SD와 함께 사용되어 텍스트 일관성 있는 텍스처와 기하학적 구조를 점수 증류를 통해 3D 출력에 증류합니다. PRD는 3D 실측 데이터 없이도 학습을 지원하므로, 학습 데이터를 쉽게 확장하고 창의적인 개념을 포함한 도전적인 텍스트 프롬프트에 대한 생성 품질을 향상시킬 수 있습니다. 동시에 PRD는 단 몇 단계만으로 생성 모델의 추론 속도를 가속화할 수 있습니다. PRD를 통해 우리는 TriplaneTurbo라는 Triplane 생성기를 학습시켰으며, 이는 SD를 Triplane 생성에 적응시키기 위해 학습 가능한 매개변수를 단 2.5%만 추가합니다. TriplaneTurbo는 이전의 텍스트-3D 생성기들보다 효율성과 품질 모두에서 우수한 성능을 보입니다. 특히, 1.2초 만에 고품질 3D 메시를 생성할 수 있으며 도전적인 텍스트 입력에도 잘 일반화됩니다. 코드는 https://github.com/theEricMa/TriplaneTurbo에서 확인할 수 있습니다.
액션 모델은 자율 에이전트가 복잡한 작업을 수행할 수 있도록 하는 데 필수적입니다. 그러나 다양한 에이전트 환경과 에이전트 데이터의 복잡성으로 인해 대규모 액션 모델을 훈련하는 것은 여전히 어려운 과제로 남아 있습니다. 점점 더 많은 관심이 집중되고 있음에도 불구하고, 기존 인프라는 확장 가능한 에이전트 특화 미세 조정을 위한 지원이 제한적입니다. 우리는 대규모 액션 모델을 위해 설계된 경량화되고 확장 가능한 데이터 및 훈련 프레임워크인 ActionStudio를 소개합니다. ActionStudio는 표준화된 형식을 통해 이질적인 에이전트 궤적을 통합하고, LoRA, 전체 미세 조정, 분산 설정을 포함한 다양한 훈련 패러다임을 지원하며, 강력한 전처리 및 검증 도구를 통합합니다. 우리는 공개 및 현실적인 산업 벤치마크를 통해 그 효과를 검증하며, 강력한 성능과 실용적인 확장성을 입증합니다. 커뮤니티의 연구를 촉진하기 위해 코드와 데이터를 https://github.com/SalesforceAIResearch/xLAM에서 오픈소스로 공개했습니다.
통신 사기 탐지는 오디오 신호와 추론 중심의 텍스트 분석을 통합한 고품질의 다중모드(multimodal) 학습 데이터가 부족하다는 점에서 상당한 어려움에 직면해 있습니다. 이러한 격차를 해결하기 위해, 우리는 자동화된 통신 사기 분석을 위해 특별히 설계된 첫 번째 오픈소스 오디오-텍스트 "느린 사고(slow-thinking)" 데이터셋인 TeleAntiFraud-28k를 제안합니다. 우리의 데이터셋은 세 가지 전략을 통해 구축되었습니다: (1) 자동 음성 인식(ASR)으로 전사된 통화 녹음(원본 오디오는 익명 처리)을 사용하여 개인정보 보호가 적용된 텍스트-진실 샘플 생성 및 텍스트-음성(TTS) 모델 재생성을 통해 현실 세계의 일관성 보장; (2) 실제 ASR 출력에 대해 대형 언어 모델(LLM) 기반 자기 지도(self-instruction) 샘플링을 통해 시나리오 범위 확장 및 의미론적 강화; (3) 사전 정의된 통신 시나리오와 사기 유형을 통해 신흥 사기 전술을 시뮬레이션하는 다중 에이전트 적대적 합성. 생성된 데이터셋은 28,511개의 엄격하게 처리된 음성-텍스트 쌍으로 구성되며, 사기 추론을 위한 상세한 주석이 포함되어 있습니다. 데이터셋은 시나리오 분류, 사기 탐지, 사기 유형 분류의 세 가지 작업으로 나뉩니다. 또한, 우리는 데이터셋에서 비례적으로 샘플링된 인스턴스로 구성된 표준화된 평가 벤치마크인 TeleAntiFraud-Bench를 구축하여 통신 사기 탐지 작업에서 모델 성능을 체계적으로 테스트할 수 있도록 합니다. 또한, 우리는 실제/합성 데이터를 혼합하여 학습한 프로덕션 최적화된 지도 미세 조정(SFT) 모델을 제공하며, 데이터 처리 프레임워크를 오픈소스로 공개하여 커뮤니티 주도의 데이터셋 확장을 가능하게 합니다. 이 작업은 데이터 프라이버시와 시나리오 다양성이라는 중요한 문제를 해결하면서 다중모드 반사기 연구를 위한 기초 프레임워크를 마련합니다. 이 프로젝트는 https://github.com/JimmyMa99/TeleAntiFraud에서 공개될 예정입니다.
최근 몇 년 동안, 대형 언어 모델(LLM)은 다양한 인공지능 문제에서 놀라운 능력을 보여주었습니다. 그러나 이들은 계획 작업에 대한 상세한 정의를 프롬프트로 제공하더라도 신뢰할 만한 계획을 세우지 못합니다. 사고의 연쇄(chain-of-thought) 프롬프트, 미세 조정(fine-tuning), 명시적 "추론"과 같은 방법으로 계획 능력을 개선하려는 시도도 잘못된 계획을 생성하며, 일반적으로 더 큰 작업으로 일반화하지 못합니다. 본 논문에서는 LLM을 사용하여 증가하는 크기의 분포 외(out-of-distribution) 작업에 대해서도 올바른 계획을 생성하는 방법을 보여줍니다. 주어진 계획 도메인에 대해, LLM에게 Python 코드 형태의 여러 도메인 의존적 휴리스틱 함수를 생성하도록 요청하고, 이를 탐욕적 최상우선 탐색(greedy best-first search) 내의 훈련 작업 집합에서 평가한 후 가장 강력한 것을 선택합니다. 그 결과, LLM이 생성한 휴리스틱은 고전적 계획(classical planning)을 위한 최첨단 도메인 독립적 휴리스틱보다 훨씬 더 많은 보이지 않는 테스트 작업을 해결합니다. 이는 도메인 의존적 계획을 위한 가장 강력한 학습 알고리즘과도 경쟁력이 있습니다. 이러한 결과는 특히 우리의 개념 증명(proof-of-concept) 구현이 최적화되지 않은 Python 플래너를 기반으로 하고, 비교 대상들이 모두 고도로 최적화된 C++ 코드를 기반으로 한다는 점에서 주목할 만합니다. 일부 도메인에서는 LLM이 생성한 휴리스틱이 비교 대상보다 더 적은 상태를 확장하며, 이는 이들이 효율적으로 계산 가능할 뿐만 아니라 때로는 최첨단 휴리스틱보다 더 유익할 수 있음을 보여줍니다. 전반적으로, 우리의 결과는 계획 휴리스틱 함수 프로그램 집합을 샘플링하는 것이 LLM의 계획 능력을 크게 향상시킬 수 있음을 보여줍니다.
본 연구는 오픈 도메인 4D 아바타 생성에 초점을 맞추며, 임의의 스타일로 된 초상화 이미지로부터 4D 아바타를 생성하는 것을 목표로 합니다. 우리는 중간 4D 표현으로 파라메트릭 트라이플레인을 선택하고, 생성적 적대 신경망(GAN)과 확산 모델의 장점을 모두 활용하는 실용적인 학습 패러다임을 제안합니다. 이 설계는 4D GAN이 지도 없이도 이미지와 트라이플레인을 연결하는 데 뛰어나지만, 다양한 데이터 분포를 처리하는 데 어려움을 겪는 관찰에서 출발했습니다. 강력한 2D 확산 사전 모델이 해결책으로 등장하여, GAN이 다양한 도메인 간에 전문성을 전이하는 데 도움을 줍니다. 이러한 전문가들 간의 시너지는 다중 도메인 이미지-트라이플레인 데이터셋 구축을 가능하게 하며, 이를 통해 일반적인 4D 아바타 생성기의 개발을 이끌어냅니다. 광범위한 실험 결과, 우리의 모델인 AvatarArtist는 다양한 소스 이미지 도메인에 대해 강력한 견고성을 보이며 고품질의 4D 아바타를 생성할 수 있음을 보여줍니다. 코드, 데이터 및 모델은 향후 연구를 촉진하기 위해 공개될 예정입니다.
DUSt3R의 최근 발전은 Transformer 네트워크 아키텍처와 대규모 3D 데이터셋에 대한 직접적인 지도를 활용하여 정적 장면의 조밀한 포인트 클라우드와 카메라 파라미터를 견고하게 추정할 수 있게 했습니다. 이와 대조적으로, 사용 가능한 4D 데이터셋의 제한된 규모와 다양성은 고도로 일반화 가능한 4D 모델을 훈련하는 데 주요한 병목 현상을 야기합니다. 이러한 제약으로 인해 기존의 4D 방법들은 광학 흐름 및 깊이와 같은 추가적인 기하학적 사전 지식을 활용하여 확장 가능한 동적 비디오 데이터에 3D 모델을 미세 조정하는 방식을 채택해 왔습니다. 본 연구에서는 이와 반대의 접근법을 취하여, 훈련이 필요 없는 간단하면서도 효율적인 4D 재구성 방법인 Easi3R을 소개합니다. 우리의 접근법은 추론 과정에서 주의(attention) 적응을 적용함으로써, 처음부터 사전 훈련하거나 네트워크를 미세 조정할 필요를 없앱니다. 우리는 DUSt3R의 주의 계층이 카메라와 객체의 움직임에 대한 풍부한 정보를 내재적으로 인코딩하고 있음을 발견했습니다. 이러한 주의 맵을 신중하게 분리함으로써, 정확한 동적 영역 분할, 카메라 포즈 추정, 그리고 4D 조밀 포인트 맵 재구성을 달성합니다. 실제 동적 비디오에 대한 광범위한 실험을 통해, 우리의 경량 주의 적응 방식이 광범위한 동적 데이터셋에서 훈련되거나 미세 조정된 기존의 최첨단 방법들을 크게 능가함을 입증했습니다. 우리의 코드는 연구 목적으로 https://easi3r.github.io/에서 공개되어 있습니다.
3D 콘텐츠 제작 분야에서 AI 모델을 통해 최적의 메시 토폴로지를 달성하는 것은 오랫동안 3D 아티스트들의 목표였습니다. 이전의 방법들, 예를 들어 MeshGPT는 메시 자동회귀 기법을 통해 바로 사용 가능한 3D 객체를 생성하는 방법을 탐구했습니다. 이러한 방법들은 시각적으로 인상적인 결과를 생성하지만, 자동회귀 과정에서 토큰 단위의 예측에 의존하기 때문에 몇 가지 중요한 한계점을 가지고 있습니다. 이로 인해 생성 속도가 매우 느리고, 메시 면의 수를 제어할 수 없다는 문제가 발생합니다. 본 논문에서는 연속적인 공간 확산을 활용하여 이산적인 삼각형 면을 생성하는 효율적이고 제어 가능한 메시 생성 프레임워크인 MeshCraft를 소개합니다. 구체적으로, MeshCraft는 두 가지 핵심 구성 요소로 이루어져 있습니다: 1) 원시 메시를 연속적인 면 수준의 토큰으로 인코딩하고 이를 다시 원래의 메시로 디코딩하는 트랜스포머 기반 VAE, 그리고 2) 면의 수를 조건으로 하는 플로우 기반 확산 트랜스포머로, 이는 미리 정의된 면의 수를 가진 고품질 3D 메시를 생성할 수 있게 합니다. MeshCraft는 확산 모델을 활용하여 전체 메시 토폴로지를 동시에 생성함으로써, 자동회귀 방법에 비해 훨씬 빠른 속도로 고해상도 메시 생성을 달성합니다. 구체적으로, MeshCraft는 800개의 면을 가진 메시를 단 3.2초 만에 생성할 수 있으며(기존 기준선보다 35배 빠름), ShapeNet 데이터셋에서의 정성적 및 정량적 평가에서 최신 기술을 능가하는 성능을 보여줍니다. 또한, Objaverse 데이터셋에서도 우수한 성능을 입증하며, 기존의 조건부 지침 전략과 원활하게 통합되어 메시 생성에 소요되는 시간 소모적인 수작업을 줄이는 데 있어 그 잠재력을 보여줍니다.
대부분의 3D 객체 생성기는 미적 품질에 초점을 맞추며, 실제 응용에서 필요한 물리적 제약 조건을 종종 간과합니다. 이러한 제약 조건 중 하나는 3D 객체가 자체적으로 지지되어야 한다는 것, 즉 중력 하에서 균형을 유지해야 한다는 것입니다. 안정적인 3D 객체를 생성하기 위한 기존 접근법은 미분 가능한 물리 시뮬레이터를 사용하여 테스트 시간에 기하학을 최적화하는 방식이었는데, 이는 느리고 불안정하며 지역 최적점에 빠지기 쉬운 문제가 있었습니다. 생성 모델을 외부 피드백에 맞추는 문헌에서 영감을 받아, 우리는 (미분 불가능한) 시뮬레이터의 피드백을 활용하여 3D 생성기가 직접 안정적인 3D 객체를 출력할 가능성을 높이는 Direct Simulation Optimization (DSO) 프레임워크를 제안합니다. 우리는 물리 시뮬레이터로부터 얻은 안정성 점수로 라벨링된 3D 객체 데이터셋을 구축합니다. 그런 다음, 안정성 점수를 정렬 메트릭으로 사용하여 3D 생성기를 미세 조정할 수 있으며, 이를 위해 직접 선호 최적화(DPO) 또는 우리가 소개한 새로운 목적 함수인 직접 보상 최적화(DRO)를 사용합니다. DRO는 쌍별 선호도 없이도 확산 모델을 정렬할 수 있습니다. 우리의 실험 결과, DPO 또는 DRO 목적 함수를 사용하여 미세 조정된 피드포워드 생성기는 테스트 시간 최적화보다 훨씬 빠르고 안정적인 객체를 생성할 가능성이 높음을 보여줍니다. 특히, DSO 프레임워크는 훈련을 위한 실제 3D 객체 없이도 작동하며, 3D 생성기가 자체 출력에 대한 시뮬레이션 피드백을 자동으로 수집하여 스스로 개선할 수 있도록 합니다.
다중모달 대형 언어 모델(MLLMs)은 시각적 질의응답(VQA)의 도전 과제를 해결하기 위해 등장했으며, 이러한 모델에 대한 객관적 평가를 수행하는 새로운 연구 분야를 촉발시켰습니다. 기존의 평가 방법은 시각적 이미지에 대한 질문-답변 쌍을 설계하는 데 필요한 상당한 인간의 작업량으로 인해 한계에 직면해 있으며, 이는 평가의 규모와 범위를 본질적으로 제한합니다. 자동화된 MLLM-as-judge 접근법은 자동 평가를 통해 인간의 작업량을 줄이려고 시도하지만, 종종 편향을 유발합니다. 이러한 문제를 해결하기 위해, 우리는 비지도 동료 검토 MLLM 평가 프레임워크를 제안합니다. 이 프레임워크는 이미지 데이터만을 활용하여 모델이 자동으로 질문을 생성하고 다른 모델의 답변에 대해 동료 검토 평가를 수행할 수 있도록 하여, 인간의 작업량에 대한 의존을 효과적으로 완화합니다. 또한, 우리는 편향 문제를 완화하기 위해 시각-언어 채점 시스템을 도입했습니다. 이 시스템은 (i) 응답의 정확성, (ii) 시각적 이해와 추론, (iii) 이미지-텍스트 상관관계라는 세 가지 측면에 초점을 맞춥니다. 실험 결과는 UPME가 MMstar 데이터셋에서 인간 평가와 0.944의 피어슨 상관관계를, ScienceQA 데이터셋에서 0.814의 상관관계를 달성함을 보여주며, 이는 우리의 프레임워크가 인간이 설계한 벤치마크와 본질적인 인간의 선호도와 밀접하게 일치함을 나타냅니다.
대규모 언어 모델의 수학적 문제 해결 능력은 연구의 주요 초점이 되었으며, 이러한 모델을 개선하고 강화하기 위한 유망한 방법으로 자체 생성 추론 경로를 활용하는 데 대한 관심이 증가하고 있습니다. 이러한 경로는 단계별 논리적 과정을 포착하면서도 정답만을 지도 정보로 요구합니다. 자기 학습 방법은 외부 모델과 수동 주석이 필요 없이도 추론 과제에서 효과적인 것으로 입증되었습니다. 그러나 모델 학습을 위해 자체 생성 데이터를 최적화하는 것은 여전히 해결해야 할 과제로 남아 있습니다. 본 연구에서는 자기 학습 중 불확실한 데이터를 우선적으로 고려하기 위해 엔트로피 기반 적응 가중치 전략(Entropy-Based Adaptive Weighting for Self-Training, EAST)을 제안합니다. 구체적으로, EAST는 가중치의 선명도를 조절하는 튜닝 가능한 매개변수를 가진 매핑 함수를 사용하여 모델이 더 큰 불확실성을 보이는 데이터에 더 높은 가중치를 부여합니다. 이 접근법은 모델이 더 유익하고 도전적인 예제에 집중하도록 유도함으로써 추론 능력을 향상시킵니다. 우리는 이 방법을 GSM8K와 MATH 벤치마크에서 평가했습니다. 실험 결과, 기본 방법은 MATH에서 거의 개선을 보이지 않은 반면(0%), EAST는 백본 모델 대비 약 1%의 성능 향상을 달성했습니다. GSM8K에서는 EAST가 기본 방법 대비 추가로 1-2%의 성능 향상을 보였습니다.
최근 대규모 시각-언어 모델(VLMs)의 등장으로 이러한 모델을 평가하기 위한 다양한 벤치마크가 개발되었습니다. 그러나 우리는 기존 평가 방법들이 대부분 사전에 정의된 응답 중에서 선택하도록 요구함으로써 개방성을 희생하거나, 판단 모델을 사용하여 응답을 평가함으로써 주관적이고 신뢰할 수 없는 평가를 초래한다는 점을 관찰했습니다. 또한, 한국어로 된 VLMs 벤치마크가 부족하다는 점을 발견했는데, 이는 생성형 언어 모델의 성능이 사용되는 언어에 따라 크게 달라질 수 있기 때문에 더 일반적인 영어 벤치마크와는 별도의 지표로 필요합니다. 따라서 우리는 한국어로 된 일반 목적의 자유 형식 시각 질의응답 벤치마크인 KOFFVQA를 제안합니다. 우리의 벤치마크는 각각 이미지와 함께 제공되는 275개의 신중하게 구성된 질문과 VLMs 성능의 10가지 다른 측면을 다루는 채점 기준으로 구성되어 있습니다. 채점 기준은 판단 모델이 사전에 정의된 규칙 집합을 기반으로 각 응답을 평가할 수 있도록 함으로써 신뢰성 문제를 제거합니다. 평가 기준을 객관적인 방식으로 정의함으로써, 심지어 소규모 오픈소스 모델도 우리의 벤치마크에서 모델을 신뢰할 수 있게 평가할 수 있습니다. 우리는 기존의 많은 VLMs을 우리의 벤치마크에서 평가하는 것 외에도, 기존 채점 기준을 사용한 평가 방법이 기존 방법보다 훨씬 더 신뢰할 수 있음을 실험적으로 검증했습니다. 우리의 평가 코드는 https://github.com/maum-ai/KOFFVQA에서 확인할 수 있습니다.
진화적 다목적 최적화(EMO)는 지난 20년 동안 상당한 발전을 이루어 왔습니다. 그러나 문제의 규모와 복잡성이 증가함에 따라, 기존의 EMO 알고리즘은 병렬성과 확장성의 부족으로 인해 상당한 성능 한계에 직면하고 있습니다. 대부분의 연구가 이러한 문제를 해결하기 위한 알고리즘 설계에 초점을 맞추고 있는 반면, 하드웨어 가속화에는 거의 주목하지 않아 EMO 알고리즘과 GPU와 같은 고성능 컴퓨팅 장치 간의 명백한 격차가 존재합니다. 이 격차를 해소하기 위해, 우리는 텐서화 방법론을 통해 GPU에서 EMO 알고리즘을 병렬화하는 것을 제안합니다. 텐서화를 사용함으로써, EMO 알고리즘의 데이터 구조와 연산이 간결한 텐서 표현으로 변환되어 GPU 컴퓨팅의 자동 활용이 원활하게 가능해집니다. 우리는 이 접근법의 효과를 입증하기 위해 NSGA-III, MOEA/D, HypE라는 세 가지 대표적인 EMO 알고리즘에 적용했습니다. 또한, GPU 가속 물리 엔진을 사용한 다목적 로봇 제어 벤치마크를 도입하여 우리의 방법론을 종합적으로 평가했습니다. 실험 결과, 텐서화된 EMO 알고리즘은 CPU 기반 대비 최대 1113배의 속도 향상을 달성하면서도 솔루션 품질을 유지하고 개체군 크기를 수십만 개까지 효과적으로 확장할 수 있음을 보여주었습니다. 더 나아가, 텐서화된 EMO 알고리즘은 복잡한 다목적 로봇 제어 작업을 효율적으로 처리하며 다양한 행동을 보이는 고품질 솔루션을 생성합니다. 소스 코드는 https://github.com/EMI-Group/evomo에서 확인할 수 있습니다.
사전 학습된 비디오 대형 언어 모델(Video LLMs)은 뛰어난 추론 능력을 보여주지만, 오디오나 3D 정보와 같은 추가적인 모달리티나 데이터 유형을 포함하는 새로운 작업에 이러한 모델을 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 사전 학습된 Video LLMs를 오디오, 3D 단서, 다중 뷰 비디오와 같은 사이드 채널 신호를 포함하는 다운스트림 작업에 적응시키기 위한 유연한 프레임워크인 PAVE를 소개합니다. PAVE는 "패치"라고 불리는 경량 어댑터를 도입하여, 기본 모델의 아키텍처나 사전 학습된 가중치를 수정하지 않고도 소수의 파라미터와 연산만을 추가합니다. 이를 통해 PAVE는 사전 학습된 기본 모델을 오디오-시각적 질의 응답, 3D 추론, 다중 뷰 비디오 인식, 고프레임 레이트 비디오 이해와 같은 다양한 다운스트림 작업에 효과적으로 적응시킬 수 있습니다. 이러한 작업들에서 PAVE는 기본 모델의 성능을 크게 향상시키며, 최신 작업별 모델을 능가하면서도 약 0.1%의 추가 FLOPs와 파라미터 비용만을 발생시킵니다. 또한, PAVE는 다중 작업 학습을 지원하며 다양한 Video LLMs에 걸쳐 잘 일반화됩니다. 우리의 코드는 https://github.com/dragonlzm/PAVE에서 확인할 수 있습니다.
파라미터 효율적 미세조정(Parameter-Efficient FineTuning, PEFT) 방법은 대규모 사전 학습 모델의 광범위한 보급 덕분에 최근 상당한 인기를 얻고 있습니다. 이러한 방법은 최소한의 계산 비용으로 하위 작업에 빠르게 적응할 수 있게 해줍니다. 그러나 LoRA와 같은 인기 있는 미세조정 방법은 하이퍼파라미터 선택이나 장기간의 학습 체계에서 제한된 견고성을 보여, 즉시 사용 가능한 최적의 성능을 달성하는 데 방해가 됩니다. 반면, ETHER와 같은 경계적 접근 방식은 더 큰 견고성을 제공하지만, 극도로 낮은 순위의 적응과 고정 강도의 변환으로 제한되어 적응 표현력이 감소합니다. 본 연구에서는 학습 가능한 저순위 행렬을 정규화하고 스케일링하는 새로운 미세조정 방법인 Decoupled Low-rank Adaptation(DeLoRA)를 제안합니다. DeLoRA는 변환의 거리를 제한함으로써 각도 학습과 적응 강도를 효과적으로 분리하여 성능 저하 없이 견고성을 향상시킵니다. 주제 기반 이미지 생성, 자연어 이해, 명령어 튜닝에 대한 평가를 통해 DeLoRA가 경쟁 PEFT 방법의 성능을 따라가거나 능가하면서도 더 강력한 견고성을 보임을 입증합니다. 코드는 https://github.com/ExplainableML/DeLoRA에서 확인할 수 있습니다.
동반 발화 제스처는 비언어적 커뮤니케이션에서 중요한 역할을 합니다. 본 논문에서는 실제 환경에서의 동반 발화 제스처 이해를 위한 새로운 프레임워크를 소개합니다. 구체적으로, 모델의 제스처-텍스트-음성 연관성 이해 능력을 평가하기 위한 세 가지 새로운 과제와 벤치마크를 제안합니다: (i) 제스처 기반 검색, (ii) 제스처 단어 탐지, (iii) 제스처를 활용한 활성 발화자 탐지. 우리는 이러한 과제를 해결하기 위해 음성-텍스트-비디오-제스처의 삼중 모달 표현을 학습하는 새로운 접근 방식을 제시합니다. 글로벌 구문 대조 손실과 로컬 제스처-단어 결합 손실을 결합하여, 실제 환경의 비디오로부터 약한 감독 하에서 강력한 제스처 표현을 학습할 수 있음을 보여줍니다. 우리가 학습한 표현은 대규모 시각-언어 모델(VLMs)을 포함한 기존 방법들을 모든 세 과제에서 능가합니다. 추가 분석을 통해 음성과 텍스트 모달리티가 서로 다른 제스처 관련 신호를 포착함을 확인하였으며, 이는 공유 삼중 모달 임베딩 공간 학습의 장점을 강조합니다. 데이터셋, 모델, 코드는 다음에서 확인할 수 있습니다: https://www.robots.ox.ac.uk/~vgg/research/jegal