번역이 포함된 일일 선별된 AI 연구 논문
우리는 제어 가능한 게임 세계 생성을 위한 인터랙티브 월드 파운데이션 모델인 Matrix-Game을 소개한다. Matrix-Game은 환경 이해를 위한 대규모 비지도 사전 학습을 수행한 후, 인터랙티브 비디오 생성을 위한 액션 레이블 학습을 진행하는 두 단계 파이프라인으로 훈련된다. 이를 지원하기 위해, 2,700시간 이상의 비지도 게임플레이 비디오 클립과 1,000시간 이상의 고품질 레이블 클립(세분화된 키보드 및 마우스 액션 주석 포함)으로 구성된 포괄적인 Minecraft 데이터셋인 Matrix-Game-MC를 구축했다. 우리의 모델은 참조 이미지, 모션 컨텍스트, 사용자 액션을 조건으로 하는 제어 가능한 이미지-투-월드 생성 패러다임을 채택한다. 170억 개 이상의 파라미터를 가진 Matrix-Game은 캐릭터 액션과 카메라 이동을 정밀하게 제어하면서도 높은 시각적 품질과 시간적 일관성을 유지한다. 성능 평가를 위해, Minecraft 세계 생성을 위한 시각적 품질, 시간적 품질, 액션 제어 가능성, 물리적 규칙 이해를 측정하는 통합 벤치마크인 GameWorld Score를 개발했다. 광범위한 실험 결과, Matrix-Game은 모든 지표에서 기존 오픈소스 Minecraft 세계 모델(Oasis 및 MineWorld 포함)을 지속적으로 능가하며, 특히 제어 가능성과 물리적 일관성에서 큰 향상을 보였다. 이중 맹검 인간 평가는 Matrix-Game의 우수성을 추가로 확인하며, 다양한 게임 시나리오에서 지각적으로 현실적이고 정밀하게 제어 가능한 비디오를 생성하는 능력을 강조한다. 인터랙티브 이미지-투-월드 생성에 대한 미래 연구를 촉진하기 위해, Matrix-Game 모델 가중치와 GameWorld Score 벤치마크를 https://github.com/SkyworkAI/Matrix-Game에서 오픈소스로 공개할 예정이다.
사진 보정은 현대 시각적 스토리텔링의 필수 요소가 되었으며, 사용자들이 미학을 포착하고 창의성을 표현할 수 있게 해줍니다. Adobe Lightroom과 같은 전문 도구는 강력한 기능을 제공하지만 상당한 전문 지식과 수동 작업을 요구합니다. 반면, 기존의 AI 기반 솔루션은 자동화를 제공하지만 조정 가능성이 제한적이고 일반화가 부족하여 다양한 개인화된 편집 요구를 충족시키지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 JarvisArt를 소개합니다. JarvisArt는 다중 모드 대형 언어 모델(MLLM) 기반 에이전트로, 사용자의 의도를 이해하고 전문 아티스트의 사고 과정을 모방하며 Lightroom 내 200개 이상의 보정 도구를 지능적으로 조율합니다. JarvisArt는 두 단계의 훈련 과정을 거칩니다: 기본적인 사고 및 도구 사용 기술을 확립하기 위한 Chain-of-Thought 지도 미세 조정과, 의사 결정 및 도구 숙련도를 더욱 향상시키기 위한 Group Relative Policy Optimization for Retouching (GRPO-R)입니다. 또한, Lightroom과의 원활한 통합을 위한 Agent-to-Lightroom 프로토콜을 제안합니다. 성능 평가를 위해, 우리는 실제 사용자 편집을 기반으로 구성된 새로운 벤치마크인 MMArt-Bench를 개발했습니다. JarvisArt는 사용자 친화적인 상호작용, 우수한 일반화, 그리고 전역 및 지역 조정에 대한 세밀한 제어를 보여주며, 지능형 사진 보정을 위한 새로운 길을 열었습니다. 특히, JarvisArt는 MMArt-Bench에서 콘텐츠 충실도에 대한 평균 픽셀 수준 지표에서 GPT-4o를 60% 앞서며, 동시에 비슷한 명령 수행 능력을 유지합니다. 프로젝트 페이지: https://jarvisart.vercel.app/.
우리는 비디오 확산 모델의 동작 사전 지식과 스켈레톤 기반 애니메이션의 제어 가능한 구조를 연결하는 피드포워드 3D 애니메이션 프레임워크인 AnimaX를 소개합니다. 기존의 동작 합성 방법은 고정된 스켈레톤 토폴로지에 제한되거나 고차원 변형 공간에서의 비용이 많이 드는 최적화가 필요했습니다. 반면, AnimaX는 비디오 기반 동작 지식을 3D 도메인으로 효과적으로 전달하며, 임의의 스켈레톤을 가진 다양한 관절 메쉬를 지원합니다. 우리의 방법은 3D 동작을 다중 뷰, 다중 프레임 2D 포즈 맵으로 표현하고, 템플릿 렌더링과 텍스트 동작 프롬프트에 기반한 비디오-포즈 확산을 가능하게 합니다. 비디오와 포즈 시퀀스 간의 시공간적 정렬을 보장하기 위해 공유 위치 인코딩과 모달리티 인식 임베딩을 도입하여 비디오 사전 지식을 동작 생성 작업에 효과적으로 전달합니다. 결과적으로 생성된 다중 뷰 포즈 시퀀스는 3D 관절 위치로 삼각측량되고, 역운동학을 통해 메쉬 애니메이션으로 변환됩니다. 160,000개의 리깅 시퀀스로 구성된 새롭게 구축된 데이터셋으로 학습된 AnimaX는 VBench에서 일반화, 동작 충실도 및 효율성 측면에서 최첨단 결과를 달성하며, 범주에 구애받지 않는 3D 애니메이션을 위한 확장 가능한 솔루션을 제공합니다. 프로젝트 페이지: https://anima-x.github.io/{https://anima-x.github.io/}.
소프트웨어 엔지니어링(SWE)은 최근 차세대 대형 언어 모델(LLM) 에이전트의 중요한 테스트베드로 부상하며, 두 가지 핵심 차원에서의 고유한 역량을 요구하고 있습니다: 지속적인 반복적 문제 해결(예: 50회 이상의 상호작용 라운드)과 장기 컨텍스트 의존성 해결(예: 32,000 토큰 이상). 그러나 SWE의 데이터 큐레이션 프로세스는 여전히 시간이 많이 소요되는 것으로 악명이 높습니다. 이는 코드 파일 필터링과 단위 테스트 실행 및 검증을 위한 전용 런타임 환경 설정에 수동 주석이 크게 의존하기 때문입니다. 결과적으로, 대부분의 기존 데이터셋은 수천 개의 GitHub 소스 인스턴스로만 제한됩니다. 이를 위해, 우리는 SWE 데이터셋의 규모와 다양성을 체계적으로 확장할 수 있는 점진적이고 자동화된 데이터 큐레이션 파이프라인을 제안합니다. 우리의 데이터셋은 2,531개의 독립적인 GitHub 저장소에서 추출한 10,169개의 실제 Python 작업 인스턴스로 구성되며, 각각은 자연어로 지정된 작업과 자동화된 단위 테스트 검증을 위한 전용 런타임 환경 이미지와 함께 제공됩니다. 우리는 제안한 SWE 데이터셋에서 8,000개 이상의 성공적으로 런타임 검증된 학습 궤적을 신중하게 큐레이션했습니다. 이러한 궤적을 사용하여 Skywork-SWE 모델을 미세 조정할 때, 데이터 크기가 증가함에 따라 LLM의 소프트웨어 엔지니어링 역량이 계속해서 향상되고 포화 현상이 나타나지 않는 놀라운 데이터 스케일링 현상을 발견했습니다. 특히, 우리의 Skywork-SWE 모델은 검증기나 다중 롤아웃을 사용하지 않고 SWE-bench Verified 벤치마크에서 38.0%의 pass@1 정확도를 달성하며, OpenHands 에이전트 프레임워크를 기반으로 구축된 Qwen2.5-Coder-32B 기반 LLM 중에서 새로운 최첨단(SOTA) 성능을 확립했습니다. 또한, 테스트 시간 스케일링 기술을 도입함으로써 성능은 47.0% 정확도로 더욱 향상되어, 32B 파라미터 미만 모델의 이전 SOTA 결과를 능가했습니다. 우리는 향후 연구를 가속화하기 위해 Skywork-SWE-32B 모델 체크포인트를 공개합니다.
우리는 각 레이어 내에서 순차적인 전문가 간 통신을 도입한 새로운 Mixture-of-Experts(MoE) 아키텍처인 Chain-of-Experts(CoE)를 제안합니다. 기존의 MoE 모델에서 전문가들이 병렬로 독립적으로 동작하는 것과 달리, CoE는 레이어 내부의 전문가 체인을 통해 토큰을 반복적으로 처리합니다. 각 반복 단계에서 동적 전문가 선택을 지원하기 위해, CoE는 레이어 내 각 반복 단계마다 전용 라우터를 사용합니다. 이 설계는 토큰이 각 반복 동안 전문가를 재평가하고 다른 전문가를 선택할 수 있게 하여, 정적으로 할당되는 것을 방지합니다. 결과적으로, CoE는 전문가 조합의 다양성을 증가시키고 모델의 표현 능력을 풍부하게 하는 유연한 라우팅 메커니즘을 도입합니다. CoE는 고정된 계산량 하에서 향상된 성능을 보여줍니다: 수학적 추론 작업에서 표준 MoE 대비 검증 손실을 1.20에서 1.12로 감소시킵니다. 성능 외에도, CoE는 기존의 너비/깊이 스케일링을 보완하는 새로운 스케일링 축인 전문가 반복을 통한 깊이를 제공합니다. 예를 들어, 2배의 반복을 사용하면 3배의 전문가 선택(너비 기준)과 동등한 성능을 달성하면서도 다른 스케일링 전략 대비 메모리 사용량을 17.6-42% 감소시킵니다. 우리의 분석은 CoE의 이점이 반복적 잔차 구조와 반복 라우팅에 의해 강화된 전문가 전문화에서 비롯되며, 이 둘이 결합되어 더욱 표현력 있는 표현을 가능하게 한다는 것을 보여줍니다. 코드는 https://github.com/ZihanWang314/coe에서 확인할 수 있습니다.
비전-언어-행동 모델(VLAs)은 로봇 조작 기술 발전에 있어 그 잠재력으로 인해 상당한 주목을 받고 있습니다. 그러나 기존의 접근 방식들은 주로 비전-언어 모델(VLMs)의 일반적인 이해 능력에 의존하여 행동 신호를 생성하는 데 치중함으로써, 시각적 관찰에 내재된 풍부한 시간적 및 인과적 구조를 간과하는 경향이 있었습니다. 본 논문에서는 비전, 언어, 행동 신호를 이산적 토큰 시퀀스로 자동회귀적으로 모델링하는 통합적이고 본질적인 다중 모달 VLA 모델인 UniVLA를 제안합니다. 이와 같은 형식화는 특히 대규모 비디오 데이터로부터 유연한 다중 모달 작업 학습을 가능하게 합니다. 사후 학습 과정에서 세계 모델링을 통합함으로써, UniVLA는 비디오로부터 인과적 역학을 포착하여, 특히 장기적 작업에 대한 하위 정책 학습으로의 효과적인 전이를 용이하게 합니다. 우리의 접근 방식은 CALVIN, LIBERO, Simplenv-Bridge를 포함한 여러 널리 사용되는 시뮬레이션 벤치마크에서 새로운 최첨단 결과를 달성하며, 기존 방법들을 크게 능가합니다. 예를 들어, UniVLA는 LIBERO 벤치마크에서 95.5%의 평균 성공률을 달성하여 pi0-FAST의 85.5%를 상회합니다. 또한, 실제 세계의 ALOHA 조작 및 자율 주행에서의 광범위한 적용 가능성을 추가로 입증합니다.
최근 결과 지도 학습 GRPO와 같은 강화 학습 접근법은 대형 언어 모델(LLM)에서의 사고 연쇄(Chain-of-Thought) 추론을 발전시켰으나, 이를 다중 모달 LLM(MLLM)에 적용하는 연구는 아직 이루어지지 않았다. MLLM 사후 학습 방법에 대한 엄격한 평가가 부족한 문제를 해결하기 위해, 우리는 복잡한 실세계 비디오를 포함하여 균형 잡힌 인지와 추론을 요구하는 벤치마크인 SEED-Bench-R1을 소개한다. 이 벤치마크는 대규모 학습 데이터셋을 제공하며, 세 가지 점진적으로 증가하는 도전 과제(분포 내, 환경 간, 환경-작업 간 시나리오)에서의 일반화 능력을 평가한다. SEED-Bench-R1을 사용하여, 표준 GRPO가 답변 정확도를 향상시키는 반면, 추론 단계와 답변 간의 논리적 일관성을 감소시키며, 일관성 비율이 57.9%에 불과함을 발견했다. 이는 보상 신호가 최종 답변에만 초점을 맞추어 단축 경로를 유도하고, 엄격한 KL 페널티가 탐색을 제한하기 때문이다. 이를 해결하기 위해, 우리는 답변 정확성과 추론 일관성을 명시적 지도 없이 최적화하는 일관성 인식 강화 학습 프레임워크인 GRPO-CARE를 제안한다. GRPO-CARE는 두 가지 계층의 보상을 도입한다: (1) 답변 정확성을 위한 기본 보상, (2) 모델의 추론-답변 가능성(느리게 진화하는 참조 모델을 통해 계산)을 그룹 동료들과 비교하여 계산되는 적응형 일관성 보너스. 이 이중 메커니즘은 정확하고 논리적으로 일관된 추론 경로에 대한 보상을 증폭시킨다. KL 페널티를 이 적응형 보너스로 대체함으로써, GRPO-CARE는 SEED-Bench-R1에서 표준 GRPO를 능가하며, 가장 어려운 평가 수준에서 6.7%의 성능 향상과 일관성에서 24.5%의 개선을 달성했다. 또한, 다양한 비디오 이해 벤치마크에서 모델 성능을 향상시키는 강력한 전이 능력을 보여준다. 우리의 연구는 체계적으로 설계된 벤치마크와 일반화 가능한 사후 학습 프레임워크를 제공함으로써, 더 해석 가능하고 견고한 MLLM 개발을 진전시킨다.
본 논문은 포괄적이고 상세한 이미지 캡션을 생성하는 추론 시점 확장 가능한 이미지 캡션 전략인 ScaleCap을 소개한다. 고품질 이미지 캡션 생성의 주요 과제는 LVLM(Large Vision-Language Model)의 내재적 편향에 있다: 다중 모달리티 편향으로 인해 일부 요소에 대한 상세한 설명이 제공되는 반면 다른 요소는 간략히 언급되는 불균형적인 기술 수준이 나타나며, 언어적 편향으로 인해 존재하지 않는 객체에 대한 환각적 설명이 발생한다. 이러한 문제를 해결하기 위해, 우리는 추론 예산이 증가함에 따라 캡션을 지속적으로 풍부하게 하고 보정하는 확장 가능한 편향 제거 캡션 전략을 제안한다. 구체적으로, 우리는 두 가지 새로운 구성 요소를 제안한다: 휴리스틱 질문 응답과 대조적 문장 평가. 전자는 이미지를 기반으로 콘텐츠 특정 질문을 생성하고 이를 답변함으로써 캡션에 관련 정보를 점진적으로 주입한다. 후자는 문장 수준의 오프라인 대조적 디코딩을 사용하여 언어적 편향으로 인한 환각을 효과적으로 식별하고 제거한다. 추론 비용이 증가함에 따라 ScaleCap은 더 많은 휴리스틱 질문을 생성하여 추가적인 시각적 세부 사항을 점진적으로 포착함으로써 더 정확하고 균형 잡힌 정보를 제공하는 캡션을 생성한다. 광범위한 모달리티 정렬 실험을 통해 ScaleCap의 효과를 입증하였다. ScaleCap으로 450K 이미지를 주석 처리하고 이를 LVLM 사전 학습에 사용한 결과, 11개의 널리 사용되는 벤치마크에서 일관된 성능 향상을 보였다. 또한, ScaleCap은 VQA 작업에서 이미지를 캡션으로 대체하고 캡션에서 이미지를 재구성하여 의미론적 범위를 평가하는 두 가지 추가 작업을 통해 생성된 캡션의 탁월한 풍부성과 충실도를 입증하였다. 코드는 https://github.com/Cooperx521/ScaleCap에서 확인할 수 있다.
복잡한 SQL 문제 해결은 현실 세계의 데이터베이스 애플리케이션에서 여전히 주요 병목 현상으로 남아 있습니다. 현재의 대형 언어 모델(LLMs)은 텍스트-to-SQL 번역에는 능숙하지만, 더 도전적인 SQL 문제 디버깅 작업에 대해서는 엄격하게 평가되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 BIRD-CRITIC이라는 새로운 SQL 문제 디버깅 벤치마크를 소개합니다. 이 벤치마크는 실제 사용자 문제에서 추출된 530개의 PostgreSQL 작업(BIRD-CRITIC-PG)과 570개의 다중 방언 작업(BIRD-CRITIC-Multi)으로 구성되어 있으며, 엄격한 평가를 위해 새로운 환경에서 재현되었습니다. 베이스라인 평가는 이 작업의 복잡성을 강조하며, 선두 추론 모델인 O3-Mini는 BIRD-CRITIC-PG에서 38.87%, BIRD-CRITIC-Multi에서 33.33%의 성공률을 보였습니다. 한편, 데이터베이스 작업을 위한 오픈소스 모델의 발전은 지역 개발을 강화하고 데이터 프라이버시를 보호하는 데 중요합니다. 따라서, 우리는 SQL 문제 디버깅을 위한 오픈소스 모델 능력을 향상시키기 위한 훈련 환경인 Six-Gym(Sql-fIX-Gym)을 제시합니다. 이 환경은 검증된 SQL에서 문제를 역공학하여 실행 가능한 문제-해결 데이터셋을 자동으로 생성하는 SQL-Rewind 전략을 활용합니다. 그러나 인기 있는 궤적 기반 미세 조정 방법은 상당한 감독 신호를 탐구하지 않습니다. 우리는 더 나아가 SQL 솔루션에서 고수준 디버깅 계획을 추출하는 f-Plan Boosting을 제안하며, 이를 통해 교사 LLMs가 훈련을 위해 73.7% 더 성공적인 궤적을 생성할 수 있게 합니다. 우리는 이러한 구성 요소를 오픈소스 에이전트인 Bird-Fixer에 통합했습니다. Qwen-2.5-Coder-14B를 기반으로 한 Bird-Fixer는 BIRD-CRITIC-PG에서 38.11%, BIRD-CRITIC-Multi에서 29.65%의 성공률을 달성하며, Claude-3.7-Sonnet 및 GPT-4.1과 같은 선두 독점 모델을 능가하여, 정교한 SQL 디버깅 능력을 민주화하는 데 중요한 한 걸음을 내디뎠습니다. 리더보드와 소스 코드는 https://bird-critic.github.io/에서 확인할 수 있습니다.
실제 환경에서 대규모 멀티모달 모델(LMM)의 견고한 배치를 위해서는 현실 세계 정보의 복잡성과 동적 특성을 고려하여 외부 지식 소스에 대한 접근이 필수적입니다. 기존의 접근 방식인 검색 강화 생성(RAG) 및 프롬프트 엔지니어링 기반 검색 에이전트는 경직된 파이프라인에 의존하여 종종 비효율적이거나 과도한 검색 행동을 초래합니다. 본 논문에서는 LMM이 실제 인터넷 환경에서 요청에 따라 다중 턴 검색을 수행할 수 있도록 하는 최초의 종단 간 강화 학습 프레임워크인 MMSearch-R1을 소개합니다. 우리의 프레임워크는 이미지와 텍스트 검색 도구를 통합하여 모델이 결과 기반 보상과 검색 패널티의 지도 하에 언제 그리고 어떻게 이를 호출할지 추론할 수 있도록 합니다. 학습을 지원하기 위해, 우리는 다양한 시각적 및 텍스트 기반 지식 요구를 포괄하는 반자동화 파이프라인을 통해 멀티모달 검색 VQA 데이터셋을 수집하고, 검색이 필요한 샘플과 검색이 필요 없는 샘플을 모두 포함한 검색 균형 잡힌 하위 집합을 선별하였습니다. 이는 효율적이고 요청에 따른 검색 행동을 형성하는 데 필수적인 것으로 입증되었습니다. 지식 집약적 및 정보 탐색 VQA 작업에 대한 광범위한 실험을 통해 우리의 모델이 동일한 모델 크기의 RAG 기반 베이스라인을 능가할 뿐만 아니라, 더 큰 RAG 기반 모델의 성능을 유지하면서 검색 호출을 30% 이상 줄일 수 있음을 보여줍니다. 또한, 우리는 멀티모달 검색 연구를 발전시키기 위한 실행 가능한 통찰력을 제공하기 위해 주요 실험 결과를 심층적으로 분석합니다.
인간 주석 변동성(즉, 주석 불일치)은 자연어 처리(NLP)에서 흔히 발생하며, 작업의 주관성과 샘플의 모호성과 같은 중요한 정보를 반영하는 경우가 많다. 대형 언어 모델(LLMs)은 인간의 노력을 줄이기 위해 자동 주석에 점점 더 많이 사용되고 있지만, 이러한 모델의 평가는 종종 다수결로 결정된 "기준 진실" 레이블을 예측하는 데 초점을 맞춘다. 그러나 이러한 모델이 정보를 담고 있는 인간 주석 변동성도 포착하는지 여부는 여전히 불분명하다. 본 연구는 반복된 인간 레이블에 접근하지 않고도 LLMs가 주석 불일치를 예측하는 능력을 광범위하게 평가함으로써 이러한 격차를 해소한다. 연구 결과에 따르면, LLMs는 불일치를 모델링하는 데 어려움을 겪으며, 이는 다수 레이블 기반 평가에서 간과될 수 있다. 특히, RLVR(검증 가능한 보상을 통한 강화 학습) 스타일의 추론은 일반적으로 LLM 성능을 향상시키지만, 불일치 예측에서는 성능을 저하시킨다. 본 연구 결과는 불일치 모델링에서 LLM 주석자의 평가와 개선이 절실히 필요함을 강조한다. 코드와 데이터는 https://github.com/EdisonNi-hku/Disagreement_Prediction에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 추론 작업에서 놀라운 진전을 이루었으나, 지도 미세 조정(SFT)과 강화 학습(RL)의 최적 통합은 여전히 근본적인 과제로 남아 있다. 토큰 분포, 학습 역학, 그리고 엔트로피 기반 관점에서의 통합 메커니즘에 대한 포괄적인 분석을 통해, 우리는 이러한 패러다임 간의 주요 차이점을 밝혀냈다: SFT는 LLM 정책 분포에 대해 거시적 전역 변화를 유도하는 반면, RL은 미시적 선택적 최적화를 수행하며, 엔트로피는 훈련 효과의 중요한 지표로 작용한다. 이러한 관찰을 바탕으로, 우리는 엔트로피 인식 가중치 메커니즘을 통해 두 미세 조정 패러다임을 통합한 단일 단계 방법인 지도 강화 미세 조정(SRFT)을 제안한다. 우리의 접근 방식은 SFT와 RL을 동시에 적용하여 두 단계 순차적 방법 대신 시연과 자기 탐색 롤아웃을 통해 LLM을 직접 최적화한다. 광범위한 실험 결과, SRFT는 평균 59.1%의 정확도를 달성하며, 다섯 가지 수학적 추론 벤치마크에서 제로-RL 방법보다 9.0%, 분포 외 벤치마크 세 가지에서 10.9% 더 우수한 성능을 보였다.
분류자 없는 지도(Classifier-Free Guidance, CFG)는 현대의 조건부 확산 모델에서 필수적인 구성 요소로 자리 잡았습니다. 실질적으로 매우 효과적이지만, CFG가 품질, 세부 사항 및 프롬프트 정렬을 향상시키는 근본적인 메커니즘은 완전히 이해되지 않고 있습니다. 본 연구에서는 주파수 영역에서 CFG의 효과를 분석함으로써 CFG에 대한 새로운 관점을 제시하며, 저주파와 고주파가 생성 품질에 각각 다른 영향을 미친다는 것을 보여줍니다. 구체적으로, 저주파 지도는 전역 구조와 조건 정렬을 주도하는 반면, 고주파 지도는 주로 시각적 충실도를 향상시킵니다. 그러나 모든 주파수에 동일한 스케일을 적용하는 표준 CFG 방식은 높은 스케일에서 과포화 및 다양성 감소를 초래하고, 낮은 스케일에서는 시각적 품질이 저하되는 문제를 야기합니다. 이러한 통찰을 바탕으로, 본 연구에서는 CFG를 저주파와 고주파 구성 요소로 분리하고 각 구성 요소에 별도의 지도 강도를 적용하는 주파수 분리 지도(Frequency-Decoupled Guidance, FDG)를 제안합니다. FDG는 낮은 지도 스케일에서 이미지 품질을 개선하고, 높은 CFG 스케일의 단점을 설계 상 회피합니다. 다양한 데이터셋과 모델을 대상으로 한 광범위한 실험을 통해, FDG가 샘플 충실도를 일관되게 향상시키면서도 다양성을 유지하여 CFG 대비 개선된 FID(Fréchet Inception Distance)와 리콜(Recall)을 달성함을 입증하였습니다. 이를 통해 본 방법은 표준 분류자 없는 지도의 플러그 앤 플레이 대안으로 자리 잡았습니다.
잠재 확산 모델(Latent Diffusion Models)은 효율적인 비디오 생성을 위한 주요 패러다임으로 부상했다. 그러나 사용자 기대가 고해상도 출력으로 전환됨에 따라, 잠재 공간 계산에만 의존하는 것은 한계를 보인다. 이를 해결하기 위한 유망한 접근법은 프로세스를 두 단계로 분리하는 것이다: 의미론적 콘텐츠 생성과 세부 합성. 전자는 낮은 해상도에서 계산 집약적인 기본 모델을 사용하고, 후자는 경량화된 캐스케이드 비디오 초해상도(VSR) 모델을 활용하여 고해상도 출력을 달성한다. 본 연구에서는 현재까지 충분히 탐구되지 않은 캐스케이드 VSR 모델의 핵심 설계 원칙을 연구하는 데 초점을 맞춘다. 첫째, 기본 모델의 출력 특성을 더 잘 모방하는 훈련 쌍을 생성하기 위한 두 가지 저하 전략을 제안하여 VSR 모델과 상위 생성기 간의 정렬을 보장한다. 둘째, (1) 시간 단계 샘플링 전략과 (2) 저해상도(LR) 입력에 대한 노이즈 증강 효과를 체계적으로 분석함으로써 VSR 모델의 동작에 대한 중요한 통찰을 제공한다. 이러한 발견은 우리의 아키텍처 및 훈련 혁신에 직접적으로 기여한다. 마지막으로, 인터리빙 시간 단위와 희소 지역 주의 메커니즘을 도입하여 효율적인 훈련과 추론을 달성함으로써 계산 오버헤드를 크게 줄인다. 광범위한 실험을 통해 우리의 프레임워크가 기존 방법들을 능가하는 우수성을 입증하며, 각 설계 선택의 효용성을 확인하는 절제 연구를 수행한다. 본 연구는 캐스케이드 비디오 초해상도 생성을 위한 간단하지만 효과적인 기준을 확립함으로써, 효율적인 캐스케이드 합성 시스템의 미래 발전을 이끌 실용적인 통찰을 제공한다.
추론 모델은 긴 사고 사슬을 생성함으로써 뛰어난 성능을 발휘하지만, 그 결과로 생성된 수천 개의 토큰을 디코딩하는 과정은 느립니다. 토큰 수준의 스펙티브 디코딩(SD)은 이를 돕지만, 전체 감마-토큰 추측이 정확할 확률이 감마가 증가함에 따라 기하급수적으로 감소하기 때문에 그 이점은 한계가 있습니다. 이는 더 긴 토큰 초안을 위해 더 많은 계산 자원을 할당하는 것이 알고리즘적 한계에 직면한다는 것을 의미하며, 이로 인해 속도 향상은 미미하고 하드웨어에 독립적입니다. 우리는 이 한계를 룩어헤드 추론(Lookahead Reasoning)을 통해 극복합니다. 룩어헤드 추론은 두 번째, 단계 수준의 병렬 처리 계층을 활용합니다. 우리의 핵심 통찰은 추론 모델이 단계별로 생성되며, 각 단계는 정확한 토큰 매칭이 아닌 의미적으로 정확하기만 하면 된다는 것입니다. 룩어헤드 추론에서는 경량화된 초안 모델이 여러 미래 단계를 제안하고, 대상 모델이 각 제안을 한 번의 배치 처리로 확장하며, 검증기가 의미적으로 정확한 단계를 유지하고 실패한 단계는 대상 모델이 재생성하도록 합니다. 토큰 수준의 SD는 여전히 각 추론 단계 내에서 작동하므로, 두 계층의 병렬 처리가 곱셈적으로 작용합니다. 우리는 룩어헤드 추론이 SD의 최대 속도 향상을 이론적으로 그리고 실증적으로 높인다는 것을 보여줍니다. GSM8K, AIME 및 기타 벤치마크에서 룩어헤드 추론은 SD의 속도 향상을 1.4배에서 2.1배로 개선하면서 답변 품질을 유지하며, 추가 GPU 처리량에 따라 속도 향상이 더 잘 확장됩니다. 우리의 코드는 https://github.com/hao-ai-lab/LookaheadReasoning에서 확인할 수 있습니다.
자기 지도 학습(Self-supervised learning, SSL)은 오디오 표현 분야에 혁신을 가져왔지만, 모델들은 여전히 음성 또는 비음성 작업 중 하나에 특화된 도메인별로 제한되는 경우가 많습니다. 본 연구에서는 다양한 오디오 유형(음성, 소리, 음악)을 단일 모델로 통합하는 통합 오디오 표현 학습 접근법인 Universal Speech and Audio Distillation(USAD)을 제안합니다. USAD는 도메인별 SSL 모델로부터 효율적인 계층 간 지식 증류를 활용하여 포괄적인 오디오 데이터셋으로 학생 모델을 학습시킵니다. USAD는 프레임 및 인스턴스 수준의 음성 처리 작업, 오디오 태깅, 소리 분류 등 다양한 벤치마크와 데이터셋에서 경쟁력 있는 성능을 보이며, SUPERB 및 HEAR 벤치마크에서 단일 인코더를 사용하여 거의 최신 기술 수준의 결과를 달성합니다.
코드 스위칭(Code-switching, CSW)은 단일 담화 내에서 두 개 이상의 언어를 번갈아 사용하는 행위를 말합니다. 이 현상은 다국어 공동체에서 널리 퍼져 있으며, 특히 온라인 콘텐츠에서 사용자들이 일상적인 커뮤니케이션에서 자연스럽게 언어를 혼합하는 경우가 점점 더 많아지고 있습니다. 그 결과, 콘텐츠 처리 및 생성의 핵심이 된 대형 언어 모델(Large Language Models, LLMs)은 빈번하게 코드 스위칭된 입력에 노출됩니다. 이러한 모델의 광범위한 사용을 고려할 때, LLM이 혼합 언어 텍스트를 어떻게 처리하고 이해하는지 파악하는 것이 중요합니다. 본 논문은 기존의 추론 및 이해 벤치마크를 코드 스위칭 변형으로 생성하여 LLM의 코드 스위칭 이해 능력을 체계적으로 평가합니다. 외국어 토큰이 영어 텍스트를 방해할 경우—언어학적 제약 하에서도—이해도가 저하되는 것이 분명하지만, 영어를 다른 언어에 내장시키는 경우 종종 이해도가 향상됩니다. 프롬프팅은 혼합된 결과를 보이지만, 미세 조정(fine-tuning)은 이해도 저하를 완화하는 더 안정적인 방법을 제공합니다.
직교 미세 조정(Orthogonal Finetuning, OFT)은 높은 매개변수 효율성을 제공하면서도 치명적 망각(catastrophic forgetting)을 방지하지만, 높은 실행 시간과 메모리 요구량으로 인해 실제 배포에 제약이 있습니다. 본 연구에서는 OFT의 핵심 계산 병목 현상을 가중치 중심 구현으로 규명하였으며, 이는 복잡도가 3차인 고비용의 행렬-행렬 곱셈에 의존함을 확인했습니다. 이를 극복하기 위해, 우리는 입력 중심의 재구성인 OFTv2를 제안합니다. 이는 행렬-벡터 곱셈(즉, 행렬 없는 계산)을 사용하여 계산 비용을 2차로 줄입니다. 또한, 우리는 Cayley 변환에서의 행렬 역행렬을 절단된 Neumann 급수로 근사하는 효율적인 직교 매개변수화인 Cayley-Neumann 매개변수화를 도입했습니다. 이러한 수정을 통해 OFTv2는 성능 저하 없이 최대 10배 빠른 학습과 3배 낮은 GPU 메모리 사용량을 달성할 수 있습니다. 추가적으로, 우리는 OFTv2를 양자화된 기반 모델(foundation model)의 미세 조정을 지원하도록 확장하였으며, 이는 인기 있는 QLoRA를 학습 안정성, 효율성, 메모리 사용량 측면에서 능가함을 보여줍니다.
대규모 언어 모델(LLMs)은 데이터 분석 작업의 자동화에서 유망한 가능성을 보여주지만, 오픈소스 모델들은 이러한 추론 집약적인 시나리오에서 상당한 한계에 직면해 있습니다. 본 연구에서는 오픈소스 LLM의 데이터 분석 능력을 향상시키기 위한 전략을 탐구합니다. 다양한 현실적인 시나리오로 구성된 시드 데이터셋을 구축하여, 모델을 데이터 이해, 코드 생성, 전략적 계획이라는 세 가지 차원에서 평가했습니다. 우리의 분석은 세 가지 주요 발견을 보여줍니다: (1) 전략적 계획의 질이 모델 성능의 주요 결정 요인으로 작용함; (2) 상호작용 설계와 작업 복잡성이 추론 능력에 상당한 영향을 미침; (3) 최적의 성능 달성에 있어 데이터 다양성보다 데이터 품질이 더 큰 영향을 미침. 이러한 통찰을 활용하여 데이터 합성 방법론을 개발했으며, 이를 통해 오픈소스 LLM의 분석적 추론 능력이 크게 개선됨을 입증했습니다.
고차원 시각적 모달리티를 생성하는 것은 계산적으로 매우 부담스러운 작업이다. 일반적인 해결책은 출력물을 거친 스펙트럼에서 세밀한 스펙트럼으로 점진적으로 합성하는 점진적 생성 방식이다. 확산 모델은 노이즈 제거의 거친-세밀한 특성으로부터 이점을 얻지만, 명시적인 다단계 아키텍처는 드물게 채택된다. 이러한 아키텍처는 전체 접근 방식의 복잡성을 증가시키며, 맞춤형 확산 공식, 분해에 의존하는 단계 전환, 임시 샘플러 또는 모델 캐스케이드의 필요성을 도입한다. 우리의 기여인 분해 가능한 흐름 매칭(Decomposable Flow Matching, DFM)은 시각적 미디어의 점진적 생성을 위한 간단하면서도 효과적인 프레임워크이다. DFM은 사용자 정의 다중 스케일 표현(예: 라플라시안 피라미드)의 각 단계에서 독립적으로 흐름 매칭을 적용한다. 우리의 실험에서 보여준 바와 같이, 이 접근 방식은 이미지와 비디오 모두에서 시각적 품질을 향상시키며, 기존의 다단계 프레임워크에 비해 우수한 결과를 보인다. Imagenet-1k 512px에서 DFM은 기본 아키텍처 대비 FDD 점수에서 35.2%의 개선을 달성했으며, 동일한 학습 계산량 하에서 최고 성능의 베이스라인 대비 26.4%의 개선을 보였다. FLUX와 같은 대형 모델의 미세 조정에 적용할 경우, DFM은 학습 분포에 더 빠르게 수렴하는 속도를 보였다. 무엇보다도, 이러한 모든 이점은 단일 모델, 아키텍처적 단순성, 그리고 기존 학습 파이프라인의 최소한의 수정만으로 달성되었다.
대형 언어 모델(LLMs), 특히 느린 사고(slow-thinking) 모델은 종종 심각한 환각(hallucination) 현상을 보이며, 추론 과정에서 지식의 경계를 정확히 인식하지 못해 잘못된 내용을 출력합니다. 강화 학습(Reinforcement Learning, RL)은 복잡한 추론 능력을 향상시킬 수 있지만, 결과 중심의 보상 메커니즘은 사고 과정에 대한 사실적 감독이 부족하여 환각 문제를 더욱 악화시키는 경우가 많습니다. 느린 사고 모델의 높은 환각 현상을 해결하기 위해, 우리는 지식 기반 강화 학습(Knowledge-enhanced RL, KnowRL)을 제안합니다. KnowRL은 지식 검증을 기반으로 한 사실성 보상(factuality reward)을 RL 훈련 과정에 통합함으로써 모델이 지식의 경계를 인식하고 사실에 기반한 느린 사고를 수행하도록 유도합니다. RL 훈련 중 이러한 목표적인 사실적 입력은 모델이 사실 기반 추론 전략을 학습하고 내재화할 수 있게 합니다. 추론 단계 내에서 사실을 준수하는 행위에 직접 보상을 제공함으로써, KnowRL은 더 신뢰할 수 있는 사고 과정을 조성합니다. 세 가지 환각 평가 데이터셋과 두 가지 추론 평가 데이터셋에 대한 실험 결과는 KnowRL이 느린 사고 모델의 환각 현상을 효과적으로 완화하면서도 원래의 강력한 추론 능력을 유지한다는 것을 보여줍니다. 우리의 코드는 https://github.com/zjunlp/KnowRL에서 확인할 수 있습니다.
본 연구는 예측 정비 모델의 효과성과 지능형 운영 및 유지보수(O&M) 시스템의 최적화가 풍력 발전 효율 향상에 미치는 영향을 탐구한다. 질적 연구 방법을 통해, 각각 터빈 운영 분야에서 풍부한 경험을 가진 5명의 풍력발전소 엔지니어 및 유지보수 관리자와의 구조화된 인터뷰를 진행하였다. 주제 분석을 통해, 예측 정비 모델이 주요 고장을 식별하여 가동 중단 시간을 효과적으로 줄이는 반면, 작고 점진적인 고장을 탐지하는 데는 어려움을 겪는 것으로 나타났다. 주요 도전 과제로는 오탐지, 센서 오작동, 그리고 기존 터빈 시스템과 새로운 모델의 통합 문제가 확인되었다. 디지털 트윈, SCADA 시스템, 상태 모니터링과 같은 첨단 기술은 터빈 유지보수 관행을 크게 개선시켰다. 그러나 이러한 기술들은 특히 AI 정제 및 실시간 데이터 통합 측면에서 여전히 개선이 필요하다. 연구 결과는 풍력 터빈 성능을 완전히 최적화하고 재생 가능 에너지의 광범위한 채택을 지원하기 위해 지속적인 개발의 필요성을 강조한다.
대규모 도시 환경에서의 비전-언어 내비게이션(Vision-and-Language Navigation, VLN)은 구현된 에이전트가 복잡한 장면에서 언어적 지시를 이해하고 장기간에 걸쳐 관련 경험을 회상할 것을 요구합니다. 기존의 모듈식 파이프라인은 해석 가능성을 제공하지만 통합된 메모리가 부족하며, 종단 간 (M)LLM 에이전트는 비전과 언어를 융합하는 데 뛰어나지만 고정된 컨텍스트 창과 암묵적 공간 추론에 제약을 받습니다. 우리는 Mem4Nav를 소개합니다. 이는 계층적 공간 인식 장단기 메모리 시스템으로, 모든 VLN 백본을 보강할 수 있습니다. Mem4Nav는 세밀한 복셀 인덱싱을 위한 희소 옥트리와 고수준 랜드마크 연결성을 위한 의미론적 토폴로지 그래프를 융합하며, 이를 가역적 트랜스포머를 통해 임베딩된 학습 가능한 메모리 토큰에 저장합니다. 장기 메모리(LTM)는 옥트리와 그래프 노드 모두에서 역사적 관찰을 압축하고 유지하며, 단기 메모리(STM)는 최근의 다중 모드 항목을 상대 좌표로 캐싱하여 실시간 장애물 회피 및 지역 계획을 가능하게 합니다. 각 단계에서 STM 검색은 동적 컨텍스트를 날카롭게 정제하며, 더 깊은 역사가 필요할 때 LTM 토큰은 무손실로 디코딩되어 과거 임베딩을 재구성합니다. Touchdown과 Map2Seq에서 세 가지 백본(모듈식, 프롬프트 기반 LLM을 사용한 최신 VLN, 스트라이드 어텐션 MLLM을 사용한 최신 VLN)에 대해 평가한 결과, Mem4Nav는 작업 완료율에서 7-13pp 향상, 충분한 SPD 감소, 그리고 >10pp의 nDTW 개선을 보였습니다. 어블레이션 실험은 계층적 지도와 이중 메모리 모듈의 필수성을 확인합니다. 우리의 코드는 https://github.com/tsinghua-fib-lab/Mem4Nav를 통해 오픈소스로 제공됩니다.
대규모 언어 모델(LLMs)은 종종 내재된 편향성을 가진 응답을 생성하여 실제 응용에서의 신뢰성을 저해합니다. 기존 평가 방법들은 장문 응답에서의 편향성과 LLM 출력의 본질적 변동성을 간과하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 FiSCo(Fine-grained Semantic Computation)라는 새로운 통계적 프레임워크를 제안합니다. FiSCo는 인구통계학적 그룹 간 장문 응답에서 미묘한 의미적 차이를 탐지함으로써 LLM의 그룹 수준 공정성을 평가합니다. 감정이나 토큰 수준 비교에 초점을 맞춘 기존 연구와 달리, FiSCo는 표면적 분석을 넘어 주장 수준에서 작동하며, 함의 검사를 활용하여 응답 간 의미의 일관성을 평가합니다. 모델 출력을 의미적으로 구분되는 주장으로 분해하고 통계적 가설 검정을 적용하여 그룹 간 및 그룹 내 유사성을 비교함으로써 미묘한 편향성을 강력하게 탐지할 수 있습니다. 우리는 새로운 그룹 반사실적 공정성 정의를 공식화하고, 성별, 인종, 연령에 걸친 합성 및 인간 주석 데이터셋에서 FiSCo를 검증합니다. 실험 결과, FiSCo는 다양한 평가 지표를 능가하며, LLM의 확률적 변동성의 영향을 줄이면서도 미묘한 편향성을 더욱 신뢰성 있게 식별하는 것으로 나타났습니다.