번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 종종 내재된 편향성을 가진 응답을 생성하여 실제 응용에서의 신뢰성을 저해합니다. 기존 평가 방법들은 장문 응답에서의 편향성과 LLM 출력의 본질적 변동성을 간과하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 FiSCo(Fine-grained Semantic Computation)라는 새로운 통계적 프레임워크를 제안합니다. FiSCo는 인구통계학적 그룹 간 장문 응답에서 미묘한 의미적 차이를 탐지함으로써 LLM의 그룹 수준 공정성을 평가합니다. 감정이나 토큰 수준 비교에 초점을 맞춘 기존 연구와 달리, FiSCo는 표면적 분석을 넘어 주장 수준에서 작동하며, 함의 검사를 활용하여 응답 간 의미의 일관성을 평가합니다. 모델 출력을 의미적으로 구분되는 주장으로 분해하고 통계적 가설 검정을 적용하여 그룹 간 및 그룹 내 유사성을 비교함으로써 미묘한 편향성을 강력하게 탐지할 수 있습니다. 우리는 새로운 그룹 반사실적 공정성 정의를 공식화하고, 성별, 인종, 연령에 걸친 합성 및 인간 주석 데이터셋에서 FiSCo를 검증합니다. 실험 결과, FiSCo는 다양한 평가 지표를 능가하며, LLM의 확률적 변동성의 영향을 줄이면서도 미묘한 편향성을 더욱 신뢰성 있게 식별하는 것으로 나타났습니다.
우리는 비디오 확산 모델의 동작 사전 지식과 스켈레톤 기반 애니메이션의 제어 가능한 구조를 연결하는 피드포워드 3D 애니메이션 프레임워크인 AnimaX를 소개합니다. 기존의 동작 합성 방법은 고정된 스켈레톤 토폴로지에 제한되거나 고차원 변형 공간에서의 비용이 많이 드는 최적화가 필요했습니다. 반면, AnimaX는 비디오 기반 동작 지식을 3D 도메인으로 효과적으로 전달하며, 임의의 스켈레톤을 가진 다양한 관절 메쉬를 지원합니다. 우리의 방법은 3D 동작을 다중 뷰, 다중 프레임 2D 포즈 맵으로 표현하고, 템플릿 렌더링과 텍스트 동작 프롬프트에 기반한 비디오-포즈 확산을 가능하게 합니다. 비디오와 포즈 시퀀스 간의 시공간적 정렬을 보장하기 위해 공유 위치 인코딩과 모달리티 인식 임베딩을 도입하여 비디오 사전 지식을 동작 생성 작업에 효과적으로 전달합니다. 결과적으로 생성된 다중 뷰 포즈 시퀀스는 3D 관절 위치로 삼각측량되고, 역운동학을 통해 메쉬 애니메이션으로 변환됩니다. 160,000개의 리깅 시퀀스로 구성된 새롭게 구축된 데이터셋으로 학습된 AnimaX는 VBench에서 일반화, 동작 충실도 및 효율성 측면에서 최첨단 결과를 달성하며, 범주에 구애받지 않는 3D 애니메이션을 위한 확장 가능한 솔루션을 제공합니다. 프로젝트 페이지: https://anima-x.github.io/{https://anima-x.github.io/}.
최근 결과 지도 학습 GRPO와 같은 강화 학습 접근법은 대형 언어 모델(LLM)에서의 사고 연쇄(Chain-of-Thought) 추론을 발전시켰으나, 이를 다중 모달 LLM(MLLM)에 적용하는 연구는 아직 이루어지지 않았다. MLLM 사후 학습 방법에 대한 엄격한 평가가 부족한 문제를 해결하기 위해, 우리는 복잡한 실세계 비디오를 포함하여 균형 잡힌 인지와 추론을 요구하는 벤치마크인 SEED-Bench-R1을 소개한다. 이 벤치마크는 대규모 학습 데이터셋을 제공하며, 세 가지 점진적으로 증가하는 도전 과제(분포 내, 환경 간, 환경-작업 간 시나리오)에서의 일반화 능력을 평가한다. SEED-Bench-R1을 사용하여, 표준 GRPO가 답변 정확도를 향상시키는 반면, 추론 단계와 답변 간의 논리적 일관성을 감소시키며, 일관성 비율이 57.9%에 불과함을 발견했다. 이는 보상 신호가 최종 답변에만 초점을 맞추어 단축 경로를 유도하고, 엄격한 KL 페널티가 탐색을 제한하기 때문이다. 이를 해결하기 위해, 우리는 답변 정확성과 추론 일관성을 명시적 지도 없이 최적화하는 일관성 인식 강화 학습 프레임워크인 GRPO-CARE를 제안한다. GRPO-CARE는 두 가지 계층의 보상을 도입한다: (1) 답변 정확성을 위한 기본 보상, (2) 모델의 추론-답변 가능성(느리게 진화하는 참조 모델을 통해 계산)을 그룹 동료들과 비교하여 계산되는 적응형 일관성 보너스. 이 이중 메커니즘은 정확하고 논리적으로 일관된 추론 경로에 대한 보상을 증폭시킨다. KL 페널티를 이 적응형 보너스로 대체함으로써, GRPO-CARE는 SEED-Bench-R1에서 표준 GRPO를 능가하며, 가장 어려운 평가 수준에서 6.7%의 성능 향상과 일관성에서 24.5%의 개선을 달성했다. 또한, 다양한 비디오 이해 벤치마크에서 모델 성능을 향상시키는 강력한 전이 능력을 보여준다. 우리의 연구는 체계적으로 설계된 벤치마크와 일반화 가능한 사후 학습 프레임워크를 제공함으로써, 더 해석 가능하고 견고한 MLLM 개발을 진전시킨다.
본 논문은 포괄적이고 상세한 이미지 캡션을 생성하는 추론 시점 확장 가능한 이미지 캡션 전략인 ScaleCap을 소개한다. 고품질 이미지 캡션 생성의 주요 과제는 LVLM(Large Vision-Language Model)의 내재적 편향에 있다: 다중 모달리티 편향으로 인해 일부 요소에 대한 상세한 설명이 제공되는 반면 다른 요소는 간략히 언급되는 불균형적인 기술 수준이 나타나며, 언어적 편향으로 인해 존재하지 않는 객체에 대한 환각적 설명이 발생한다. 이러한 문제를 해결하기 위해, 우리는 추론 예산이 증가함에 따라 캡션을 지속적으로 풍부하게 하고 보정하는 확장 가능한 편향 제거 캡션 전략을 제안한다. 구체적으로, 우리는 두 가지 새로운 구성 요소를 제안한다: 휴리스틱 질문 응답과 대조적 문장 평가. 전자는 이미지를 기반으로 콘텐츠 특정 질문을 생성하고 이를 답변함으로써 캡션에 관련 정보를 점진적으로 주입한다. 후자는 문장 수준의 오프라인 대조적 디코딩을 사용하여 언어적 편향으로 인한 환각을 효과적으로 식별하고 제거한다. 추론 비용이 증가함에 따라 ScaleCap은 더 많은 휴리스틱 질문을 생성하여 추가적인 시각적 세부 사항을 점진적으로 포착함으로써 더 정확하고 균형 잡힌 정보를 제공하는 캡션을 생성한다. 광범위한 모달리티 정렬 실험을 통해 ScaleCap의 효과를 입증하였다. ScaleCap으로 450K 이미지를 주석 처리하고 이를 LVLM 사전 학습에 사용한 결과, 11개의 널리 사용되는 벤치마크에서 일관된 성능 향상을 보였다. 또한, ScaleCap은 VQA 작업에서 이미지를 캡션으로 대체하고 캡션에서 이미지를 재구성하여 의미론적 범위를 평가하는 두 가지 추가 작업을 통해 생성된 캡션의 탁월한 풍부성과 충실도를 입증하였다. 코드는 https://github.com/Cooperx521/ScaleCap에서 확인할 수 있다.
소프트웨어 엔지니어링(SWE)은 최근 차세대 대형 언어 모델(LLM) 에이전트의 중요한 테스트베드로 부상하며, 두 가지 핵심 차원에서의 고유한 역량을 요구하고 있습니다: 지속적인 반복적 문제 해결(예: 50회 이상의 상호작용 라운드)과 장기 컨텍스트 의존성 해결(예: 32,000 토큰 이상). 그러나 SWE의 데이터 큐레이션 프로세스는 여전히 시간이 많이 소요되는 것으로 악명이 높습니다. 이는 코드 파일 필터링과 단위 테스트 실행 및 검증을 위한 전용 런타임 환경 설정에 수동 주석이 크게 의존하기 때문입니다. 결과적으로, 대부분의 기존 데이터셋은 수천 개의 GitHub 소스 인스턴스로만 제한됩니다. 이를 위해, 우리는 SWE 데이터셋의 규모와 다양성을 체계적으로 확장할 수 있는 점진적이고 자동화된 데이터 큐레이션 파이프라인을 제안합니다. 우리의 데이터셋은 2,531개의 독립적인 GitHub 저장소에서 추출한 10,169개의 실제 Python 작업 인스턴스로 구성되며, 각각은 자연어로 지정된 작업과 자동화된 단위 테스트 검증을 위한 전용 런타임 환경 이미지와 함께 제공됩니다. 우리는 제안한 SWE 데이터셋에서 8,000개 이상의 성공적으로 런타임 검증된 학습 궤적을 신중하게 큐레이션했습니다. 이러한 궤적을 사용하여 Skywork-SWE 모델을 미세 조정할 때, 데이터 크기가 증가함에 따라 LLM의 소프트웨어 엔지니어링 역량이 계속해서 향상되고 포화 현상이 나타나지 않는 놀라운 데이터 스케일링 현상을 발견했습니다. 특히, 우리의 Skywork-SWE 모델은 검증기나 다중 롤아웃을 사용하지 않고 SWE-bench Verified 벤치마크에서 38.0%의 pass@1 정확도를 달성하며, OpenHands 에이전트 프레임워크를 기반으로 구축된 Qwen2.5-Coder-32B 기반 LLM 중에서 새로운 최첨단(SOTA) 성능을 확립했습니다. 또한, 테스트 시간 스케일링 기술을 도입함으로써 성능은 47.0% 정확도로 더욱 향상되어, 32B 파라미터 미만 모델의 이전 SOTA 결과를 능가했습니다. 우리는 향후 연구를 가속화하기 위해 Skywork-SWE-32B 모델 체크포인트를 공개합니다.
대규모 언어 모델(LLMs)은 추론 작업에서 놀라운 진전을 이루었으나, 지도 미세 조정(SFT)과 강화 학습(RL)의 최적 통합은 여전히 근본적인 과제로 남아 있다. 토큰 분포, 학습 역학, 그리고 엔트로피 기반 관점에서의 통합 메커니즘에 대한 포괄적인 분석을 통해, 우리는 이러한 패러다임 간의 주요 차이점을 밝혀냈다: SFT는 LLM 정책 분포에 대해 거시적 전역 변화를 유도하는 반면, RL은 미시적 선택적 최적화를 수행하며, 엔트로피는 훈련 효과의 중요한 지표로 작용한다. 이러한 관찰을 바탕으로, 우리는 엔트로피 인식 가중치 메커니즘을 통해 두 미세 조정 패러다임을 통합한 단일 단계 방법인 지도 강화 미세 조정(SRFT)을 제안한다. 우리의 접근 방식은 SFT와 RL을 동시에 적용하여 두 단계 순차적 방법 대신 시연과 자기 탐색 롤아웃을 통해 LLM을 직접 최적화한다. 광범위한 실험 결과, SRFT는 평균 59.1%의 정확도를 달성하며, 다섯 가지 수학적 추론 벤치마크에서 제로-RL 방법보다 9.0%, 분포 외 벤치마크 세 가지에서 10.9% 더 우수한 성능을 보였다.
잠재 확산 모델(Latent Diffusion Models)은 효율적인 비디오 생성을 위한 주요 패러다임으로 부상했다. 그러나 사용자 기대가 고해상도 출력으로 전환됨에 따라, 잠재 공간 계산에만 의존하는 것은 한계를 보인다. 이를 해결하기 위한 유망한 접근법은 프로세스를 두 단계로 분리하는 것이다: 의미론적 콘텐츠 생성과 세부 합성. 전자는 낮은 해상도에서 계산 집약적인 기본 모델을 사용하고, 후자는 경량화된 캐스케이드 비디오 초해상도(VSR) 모델을 활용하여 고해상도 출력을 달성한다. 본 연구에서는 현재까지 충분히 탐구되지 않은 캐스케이드 VSR 모델의 핵심 설계 원칙을 연구하는 데 초점을 맞춘다. 첫째, 기본 모델의 출력 특성을 더 잘 모방하는 훈련 쌍을 생성하기 위한 두 가지 저하 전략을 제안하여 VSR 모델과 상위 생성기 간의 정렬을 보장한다. 둘째, (1) 시간 단계 샘플링 전략과 (2) 저해상도(LR) 입력에 대한 노이즈 증강 효과를 체계적으로 분석함으로써 VSR 모델의 동작에 대한 중요한 통찰을 제공한다. 이러한 발견은 우리의 아키텍처 및 훈련 혁신에 직접적으로 기여한다. 마지막으로, 인터리빙 시간 단위와 희소 지역 주의 메커니즘을 도입하여 효율적인 훈련과 추론을 달성함으로써 계산 오버헤드를 크게 줄인다. 광범위한 실험을 통해 우리의 프레임워크가 기존 방법들을 능가하는 우수성을 입증하며, 각 설계 선택의 효용성을 확인하는 절제 연구를 수행한다. 본 연구는 캐스케이드 비디오 초해상도 생성을 위한 간단하지만 효과적인 기준을 확립함으로써, 효율적인 캐스케이드 합성 시스템의 미래 발전을 이끌 실용적인 통찰을 제공한다.
대규모 언어 모델(LLMs)은 데이터 분석 작업의 자동화에서 유망한 가능성을 보여주지만, 오픈소스 모델들은 이러한 추론 집약적인 시나리오에서 상당한 한계에 직면해 있습니다. 본 연구에서는 오픈소스 LLM의 데이터 분석 능력을 향상시키기 위한 전략을 탐구합니다. 다양한 현실적인 시나리오로 구성된 시드 데이터셋을 구축하여, 모델을 데이터 이해, 코드 생성, 전략적 계획이라는 세 가지 차원에서 평가했습니다. 우리의 분석은 세 가지 주요 발견을 보여줍니다: (1) 전략적 계획의 질이 모델 성능의 주요 결정 요인으로 작용함; (2) 상호작용 설계와 작업 복잡성이 추론 능력에 상당한 영향을 미침; (3) 최적의 성능 달성에 있어 데이터 다양성보다 데이터 품질이 더 큰 영향을 미침. 이러한 통찰을 활용하여 데이터 합성 방법론을 개발했으며, 이를 통해 오픈소스 LLM의 분석적 추론 능력이 크게 개선됨을 입증했습니다.
자기 지도 학습(Self-supervised learning, SSL)은 오디오 표현 분야에 혁신을 가져왔지만, 모델들은 여전히 음성 또는 비음성 작업 중 하나에 특화된 도메인별로 제한되는 경우가 많습니다. 본 연구에서는 다양한 오디오 유형(음성, 소리, 음악)을 단일 모델로 통합하는 통합 오디오 표현 학습 접근법인 Universal Speech and Audio Distillation(USAD)을 제안합니다. USAD는 도메인별 SSL 모델로부터 효율적인 계층 간 지식 증류를 활용하여 포괄적인 오디오 데이터셋으로 학생 모델을 학습시킵니다. USAD는 프레임 및 인스턴스 수준의 음성 처리 작업, 오디오 태깅, 소리 분류 등 다양한 벤치마크와 데이터셋에서 경쟁력 있는 성능을 보이며, SUPERB 및 HEAR 벤치마크에서 단일 인코더를 사용하여 거의 최신 기술 수준의 결과를 달성합니다.
복잡한 SQL 문제 해결은 현실 세계의 데이터베이스 애플리케이션에서 여전히 주요 병목 현상으로 남아 있습니다. 현재의 대형 언어 모델(LLMs)은 텍스트-to-SQL 번역에는 능숙하지만, 더 도전적인 SQL 문제 디버깅 작업에 대해서는 엄격하게 평가되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 BIRD-CRITIC이라는 새로운 SQL 문제 디버깅 벤치마크를 소개합니다. 이 벤치마크는 실제 사용자 문제에서 추출된 530개의 PostgreSQL 작업(BIRD-CRITIC-PG)과 570개의 다중 방언 작업(BIRD-CRITIC-Multi)으로 구성되어 있으며, 엄격한 평가를 위해 새로운 환경에서 재현되었습니다. 베이스라인 평가는 이 작업의 복잡성을 강조하며, 선두 추론 모델인 O3-Mini는 BIRD-CRITIC-PG에서 38.87%, BIRD-CRITIC-Multi에서 33.33%의 성공률을 보였습니다. 한편, 데이터베이스 작업을 위한 오픈소스 모델의 발전은 지역 개발을 강화하고 데이터 프라이버시를 보호하는 데 중요합니다. 따라서, 우리는 SQL 문제 디버깅을 위한 오픈소스 모델 능력을 향상시키기 위한 훈련 환경인 Six-Gym(Sql-fIX-Gym)을 제시합니다. 이 환경은 검증된 SQL에서 문제를 역공학하여 실행 가능한 문제-해결 데이터셋을 자동으로 생성하는 SQL-Rewind 전략을 활용합니다. 그러나 인기 있는 궤적 기반 미세 조정 방법은 상당한 감독 신호를 탐구하지 않습니다. 우리는 더 나아가 SQL 솔루션에서 고수준 디버깅 계획을 추출하는 f-Plan Boosting을 제안하며, 이를 통해 교사 LLMs가 훈련을 위해 73.7% 더 성공적인 궤적을 생성할 수 있게 합니다. 우리는 이러한 구성 요소를 오픈소스 에이전트인 Bird-Fixer에 통합했습니다. Qwen-2.5-Coder-14B를 기반으로 한 Bird-Fixer는 BIRD-CRITIC-PG에서 38.11%, BIRD-CRITIC-Multi에서 29.65%의 성공률을 달성하며, Claude-3.7-Sonnet 및 GPT-4.1과 같은 선두 독점 모델을 능가하여, 정교한 SQL 디버깅 능력을 민주화하는 데 중요한 한 걸음을 내디뎠습니다. 리더보드와 소스 코드는 https://bird-critic.github.io/에서 확인할 수 있습니다.
대형 언어 모델(LLMs), 특히 느린 사고(slow-thinking) 모델은 종종 심각한 환각(hallucination) 현상을 보이며, 추론 과정에서 지식의 경계를 정확히 인식하지 못해 잘못된 내용을 출력합니다. 강화 학습(Reinforcement Learning, RL)은 복잡한 추론 능력을 향상시킬 수 있지만, 결과 중심의 보상 메커니즘은 사고 과정에 대한 사실적 감독이 부족하여 환각 문제를 더욱 악화시키는 경우가 많습니다. 느린 사고 모델의 높은 환각 현상을 해결하기 위해, 우리는 지식 기반 강화 학습(Knowledge-enhanced RL, KnowRL)을 제안합니다. KnowRL은 지식 검증을 기반으로 한 사실성 보상(factuality reward)을 RL 훈련 과정에 통합함으로써 모델이 지식의 경계를 인식하고 사실에 기반한 느린 사고를 수행하도록 유도합니다. RL 훈련 중 이러한 목표적인 사실적 입력은 모델이 사실 기반 추론 전략을 학습하고 내재화할 수 있게 합니다. 추론 단계 내에서 사실을 준수하는 행위에 직접 보상을 제공함으로써, KnowRL은 더 신뢰할 수 있는 사고 과정을 조성합니다. 세 가지 환각 평가 데이터셋과 두 가지 추론 평가 데이터셋에 대한 실험 결과는 KnowRL이 느린 사고 모델의 환각 현상을 효과적으로 완화하면서도 원래의 강력한 추론 능력을 유지한다는 것을 보여줍니다. 우리의 코드는 https://github.com/zjunlp/KnowRL에서 확인할 수 있습니다.
분류자 없는 지도(Classifier-Free Guidance, CFG)는 현대의 조건부 확산 모델에서 필수적인 구성 요소로 자리 잡았습니다. 실질적으로 매우 효과적이지만, CFG가 품질, 세부 사항 및 프롬프트 정렬을 향상시키는 근본적인 메커니즘은 완전히 이해되지 않고 있습니다. 본 연구에서는 주파수 영역에서 CFG의 효과를 분석함으로써 CFG에 대한 새로운 관점을 제시하며, 저주파와 고주파가 생성 품질에 각각 다른 영향을 미친다는 것을 보여줍니다. 구체적으로, 저주파 지도는 전역 구조와 조건 정렬을 주도하는 반면, 고주파 지도는 주로 시각적 충실도를 향상시킵니다. 그러나 모든 주파수에 동일한 스케일을 적용하는 표준 CFG 방식은 높은 스케일에서 과포화 및 다양성 감소를 초래하고, 낮은 스케일에서는 시각적 품질이 저하되는 문제를 야기합니다. 이러한 통찰을 바탕으로, 본 연구에서는 CFG를 저주파와 고주파 구성 요소로 분리하고 각 구성 요소에 별도의 지도 강도를 적용하는 주파수 분리 지도(Frequency-Decoupled Guidance, FDG)를 제안합니다. FDG는 낮은 지도 스케일에서 이미지 품질을 개선하고, 높은 CFG 스케일의 단점을 설계 상 회피합니다. 다양한 데이터셋과 모델을 대상으로 한 광범위한 실험을 통해, FDG가 샘플 충실도를 일관되게 향상시키면서도 다양성을 유지하여 CFG 대비 개선된 FID(Fréchet Inception Distance)와 리콜(Recall)을 달성함을 입증하였습니다. 이를 통해 본 방법은 표준 분류자 없는 지도의 플러그 앤 플레이 대안으로 자리 잡았습니다.
사진 보정은 현대 시각적 스토리텔링의 필수 요소가 되었으며, 사용자들이 미학을 포착하고 창의성을 표현할 수 있게 해줍니다. Adobe Lightroom과 같은 전문 도구는 강력한 기능을 제공하지만 상당한 전문 지식과 수동 작업을 요구합니다. 반면, 기존의 AI 기반 솔루션은 자동화를 제공하지만 조정 가능성이 제한적이고 일반화가 부족하여 다양한 개인화된 편집 요구를 충족시키지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 JarvisArt를 소개합니다. JarvisArt는 다중 모드 대형 언어 모델(MLLM) 기반 에이전트로, 사용자의 의도를 이해하고 전문 아티스트의 사고 과정을 모방하며 Lightroom 내 200개 이상의 보정 도구를 지능적으로 조율합니다. JarvisArt는 두 단계의 훈련 과정을 거칩니다: 기본적인 사고 및 도구 사용 기술을 확립하기 위한 Chain-of-Thought 지도 미세 조정과, 의사 결정 및 도구 숙련도를 더욱 향상시키기 위한 Group Relative Policy Optimization for Retouching (GRPO-R)입니다. 또한, Lightroom과의 원활한 통합을 위한 Agent-to-Lightroom 프로토콜을 제안합니다. 성능 평가를 위해, 우리는 실제 사용자 편집을 기반으로 구성된 새로운 벤치마크인 MMArt-Bench를 개발했습니다. JarvisArt는 사용자 친화적인 상호작용, 우수한 일반화, 그리고 전역 및 지역 조정에 대한 세밀한 제어를 보여주며, 지능형 사진 보정을 위한 새로운 길을 열었습니다. 특히, JarvisArt는 MMArt-Bench에서 콘텐츠 충실도에 대한 평균 픽셀 수준 지표에서 GPT-4o를 60% 앞서며, 동시에 비슷한 명령 수행 능력을 유지합니다. 프로젝트 페이지: https://jarvisart.vercel.app/.
코드 스위칭(Code-switching, CSW)은 단일 담화 내에서 두 개 이상의 언어를 번갈아 사용하는 행위를 말합니다. 이 현상은 다국어 공동체에서 널리 퍼져 있으며, 특히 온라인 콘텐츠에서 사용자들이 일상적인 커뮤니케이션에서 자연스럽게 언어를 혼합하는 경우가 점점 더 많아지고 있습니다. 그 결과, 콘텐츠 처리 및 생성의 핵심이 된 대형 언어 모델(Large Language Models, LLMs)은 빈번하게 코드 스위칭된 입력에 노출됩니다. 이러한 모델의 광범위한 사용을 고려할 때, LLM이 혼합 언어 텍스트를 어떻게 처리하고 이해하는지 파악하는 것이 중요합니다. 본 논문은 기존의 추론 및 이해 벤치마크를 코드 스위칭 변형으로 생성하여 LLM의 코드 스위칭 이해 능력을 체계적으로 평가합니다. 외국어 토큰이 영어 텍스트를 방해할 경우—언어학적 제약 하에서도—이해도가 저하되는 것이 분명하지만, 영어를 다른 언어에 내장시키는 경우 종종 이해도가 향상됩니다. 프롬프팅은 혼합된 결과를 보이지만, 미세 조정(fine-tuning)은 이해도 저하를 완화하는 더 안정적인 방법을 제공합니다.
비전-언어-행동 모델(VLAs)은 로봇 조작 기술 발전에 있어 그 잠재력으로 인해 상당한 주목을 받고 있습니다. 그러나 기존의 접근 방식들은 주로 비전-언어 모델(VLMs)의 일반적인 이해 능력에 의존하여 행동 신호를 생성하는 데 치중함으로써, 시각적 관찰에 내재된 풍부한 시간적 및 인과적 구조를 간과하는 경향이 있었습니다. 본 논문에서는 비전, 언어, 행동 신호를 이산적 토큰 시퀀스로 자동회귀적으로 모델링하는 통합적이고 본질적인 다중 모달 VLA 모델인 UniVLA를 제안합니다. 이와 같은 형식화는 특히 대규모 비디오 데이터로부터 유연한 다중 모달 작업 학습을 가능하게 합니다. 사후 학습 과정에서 세계 모델링을 통합함으로써, UniVLA는 비디오로부터 인과적 역학을 포착하여, 특히 장기적 작업에 대한 하위 정책 학습으로의 효과적인 전이를 용이하게 합니다. 우리의 접근 방식은 CALVIN, LIBERO, Simplenv-Bridge를 포함한 여러 널리 사용되는 시뮬레이션 벤치마크에서 새로운 최첨단 결과를 달성하며, 기존 방법들을 크게 능가합니다. 예를 들어, UniVLA는 LIBERO 벤치마크에서 95.5%의 평균 성공률을 달성하여 pi0-FAST의 85.5%를 상회합니다. 또한, 실제 세계의 ALOHA 조작 및 자율 주행에서의 광범위한 적용 가능성을 추가로 입증합니다.