번역이 포함된 일일 선별된 AI 연구 논문
2D 확산 모델의 사전 지식을 3D 편집에 활용하는 것은 유망한 패러다임으로 부상했습니다. 그러나 편집 결과의 다중 뷰 일관성을 유지하는 것은 여전히 어려운 과제이며, 3D 일관성 편집 페어 데이터의 극심한 부족으로 편집 작업에 가장 효과적인 훈련 전략인 지도 미세 조정(SFT)의 적용이 불가능한 실정입니다. 본 논문에서는 다중 뷰 일관적인 3D 콘텐츠 생성은 매우 어려운 반면, 3D 일관성 검증은 비교적 용이하다는 점에 주목하여 이를 강화 학습(RL)의 실현 가능한 해결책으로 자연스럽게 위치시킵니다. 이에 동기를 부여받아 우리는 3D 기초 모델 VGGT에서 도출된 새로운 보상으로 강화 학습 최적화를 통해 구동되는 단일 패스 프레임워크인 RL3DEdit을 제안합니다. 구체적으로, 우리는 VGGT가 대규모 실제 데이터로부터 학습한 강력한 사전 지식을 활용하여 편집된 이미지를 입력하고, 출력된 신뢰도 맵과 포즈 추정 오차를 보상 신호로 활용함으로써 2D 편집 사전 지식을 강화 학습을 통해 3D 일관성 매니폴드에 효과적으로 정착시킵니다. 폭넓은 실험을 통해 RL3DEdit이 안정적인 다중 뷰 일관성을 달성하고 높은 효율성으로 최신 편집 방법들보다 우수한 편집 품질을 보여줌을 입증합니다. 3D 편집 기술 발전을 위해 코드와 모델을 공개할 예정입니다.
LLM의 추론 능력은 수학, 코드 생성, 다단계 사실 질문 등에서 자연스러운 역할을 수행하지만, 단순한 단일 단계 사실 질문에서의 효과는 여전히 불분명합니다. 이러한 질문은 단계별 논리적 분해를 필요로 하지 않아 추론의 유용성이 매우 직관에 반대됩니다. 그럼에도 불구하고, 추론을 활성화하면 모델의 매개변수적 지식 회상 능력 경계가 크게 확장되어 원래는 효과적으로 도달할 수 없었던 정답을 획득할 수 있음을 발견했습니다. 복잡한 추론 단계가 필요하지 않은 상황에서 추론이 매개변수적 지식 회상에 도움이 되는 이유는 무엇일까요? 이를 해결하기 위해 우리는 일련의 가설 기반 통제 실험을 설계하고 두 가지 핵심 작동 메커니즘을 규명했습니다: (1) 생성된 추론 토큰의 의미적 내용과 무관하게 잠재적 계산을 수행하는 계산 완충 효과, 그리고 (2) 주제와 관련된 사실을 생성함으로써 정답 회상을 용이하게 하는 의미적 다리 역할을 하는 사실 프라이밍. 특히 후자의 생성적 자기 검색 메커니즘은 본질적인 위험을 내포합니다. 우리는 추론 과정에서 중간 사실을 환각하게 되면 최종 답변의 환각 발생 가능성이 높아진다는 점을 입증합니다. 마지막으로, 환각이 없는 사실 진술을 포함하는 추론 경로를 우선시함으로써 우리의 통찰이 모델 정확도를 직접 향상시키는 데 활용될 수 있음을 보여줍니다.
최근 멀티모달 대규모 언어 모델(MLLM)의 발전이 두드러지고 있으나, 이러한 모델들은 주로 기존의 자기회귀적 아키텍처를 백본으로 활용하여, 효과적이면서 효율적인 대체 아키텍처 설계에 대한 탐구 여지가 상당히 남아 있습니다. 동시에 최근 연구들은 이산 확산 모델을 시각 이해 및 이미지 생성과 같은 다양한 영역에 성공적으로 적용하며, 이를 멀티모달 시스템의 유망한 백본으로서의 상당한 잠재력을 보여주고 있습니다. 이러한 선행 연구에서 영감을 받아, 본 논문은 텍스트, 음성, 이미지 간 이해와 생성을 통합하며 마스크 기반 이산 확산 모델에 완전히 기반한 최초의 임의-대-임의(any-to-any) 멀티모달 언어 모델인 Omni-Diffusion을 소개합니다. Omni-Diffusion은 통합 마스크 기반 이산 확산 모델을 사용하여 이산화된 멀티모달 토큰들의 결합 분포를 직접 학습합니다. 이 접근법은 이중모달 작업뿐만 아니라 여러 모달리티가 관여하는 더 복잡한 시나리오도 지원합니다. 다양한 벤치마크에서 본 방법론은 두 가지 이상의 모달리티를 처리하는 기존 멀티모달 시스템들을 능가하거나 동등한 성능을 보여, 확산 모델이 다음 세대 멀티모달 기초 모델의 핵심 기술로서 갖는 상당한 가능성을 강조합니다. 프로젝트 웹페이지: https://omni-diffusion.github.io.
자기 진화(self-evolving)는 대규모 언어 모델(LLM) 및 시각 언어 모델(VLM)과 같은 기초 모델을 최소한의 인간 개입으로 향상시키는 핵심 패러다임으로 부상했습니다. 최근 접근법들은 LLM 에이전트가 데이터 없이 또는 거의 없는 상태에서 무(無)에서부터 자기 진화할 수 있음을 입증했지만, VLM은 추가적인 시각 양식을 도입하여 일반적으로 이미지와 같은 최소한의 시드 데이터가 자기 진화 과정을 시작하는 데 필요합니다. 본 연구에서는 VLM 추론을 위한 제로 데이터(zero-data) 자기 진화를 달성하는 최초의 강화학습 기반 프레임워크인 MM-Zero(Multi-model Multimodal Zero)를 제시합니다. 기존의 이중 역할(제안자와 해결사) 설정을 넘어, MM-Zero는 세 가지 전문 역할로 구성된 다중 역할 자기 진화 훈련 프레임워크를 도입합니다: 추상적인 시각 개념을 생성하고 질문을 구성하는 제안자(Proposer), 이러한 개념을 실행 가능한 코드(Python, SVG 등)로 변환하여 시각적 이미지를 렌더링하는 코더(Coder), 그리고 생성된 시각 콘텐츠에 대해 다중 양식 추론을 수행하는 해결사(Solver). 이 세 역할은 모두 동일한 기본 모델에서 초기화되며 실행 피드백, 시각적 검증, 난이도 균형을 통합한 신중하게 설계된 보상 메커니즘과 함께 그룹 상대 정책 최적화(GRPO)를 사용하여 훈련됩니다. 우리의 실험 결과는 MM-Zero가 다양한 다중 양식 벤치마크에서 VLM 추론 성능을 향상시킴을 보여줍니다. MM-Zero는 다중 양식 모델을 위한 자기 진화 다중 모델 시스템으로 확장 가능한 경로를确立하며, 기존의 이중 모델 패러다임을 넘어 자기 개선의 최전선을 확장합니다.
통합형 멀티모달 모델(UMMs)은 이해, 추론, 생성, 편집 기능을 통합함에 따라 강력한 의미 이해 능력을 유지하는 것과 뛰어난 생성 능력을 획득하는 것 사이의 본질적 트레이드오프에 직면합니다. 본 보고서에서는 경량의 40억 파라미터 UMM인 InternVL-U를 소개하며, 이러한 역량을 통합 프레임워크 내에서 보편화합니다. 통합 맥락 모델링과 분리된 시각 표현을 활용한 모달리티 특화 모듈식 설계 원칙에 따라, InternVL-U는 최첨단 멀티모달 대형 언어 모델(MLLM)과 전문적인 MMDiT 기반 시각 생성 헤드를 통합합니다. 심미적 생성과 고수준 지능 간의 격차를 더욱 좁히기 위해, 텍스트 렌더링 및 과학적 추론과 같은 높은 의미 밀도 작업을 대상으로 포괄적인 데이터 합성 파이프라인을 구축합니다. 이는 사고의 연쇄(CoT)를 활용하여 추론 중심 패러다임 하에서 추상적인 사용자 의도를 세부적인 시각 생성 요소와 더 잘 정렬합니다. 광범위한 실험을 통해 InternVL-U가 우수한 성능-효율성 균형을 달성함을 입증합니다. 단 40억 파라미터만 사용함에도 불구하고, 본 모델은 BAGEL(140억)과 같이 3배 이상 큰 규모의 통합 기준 모델들을 다양한 생성 및 편집 작업에서 지속적으로 능가하면서도 강력한 멀티모달 이해 및 추론 능력을 유지합니다.
다중 모달 대규모 언어 모델(MLLM)은 이미지로 제시된 텍스트를 처리할 수 있지만, 동일한 내용이 텍스트 토큰으로 제공될 때보다 종종 성능이 떨어집니다. 우리는 arXiv PDF부터 Wikipedia 페이지에 이르기까지 합성적으로 렌더링된 텍스트와 실제 문서 이미지 모두를 아우르는 5가지 입력 모드에서 7개의 벤치마크를 통해 7개의 MLLM을 평가함으로써 이러한 "모달리티 격차"를 체계적으로 진단합니다. 우리는 모달리티 격차가 작업 및 데이터에 의존적임을 발견했습니다. 예를 들어, 수학 작업은 합성 렌더링에서 60점 이상 저하되는 반면, 실제 문서 이미지는 종종 텍스트 모드 성능을 맞추거나 능가합니다. 글꼴과 해상도와 같은 렌더링 선택은 강력한 교란 요인으로, 글꼴만으로도 정확도가 최대 47% 포인트까지 변동합니다. 이를 이해하기 위해 4,000개 이상의 사례에 대한 근거 이론 기반 오류 분석을 수행한 결과, 이미지 모드는 읽기 오류(계산 및 형식화 실패)를 선택적으로 증폭시키는 반면 지식 및 추론 오류는 크게 변화시키지 않으며, 일부 모델은 시각적 입력 하에서 사고 연쇄 추론 붕괴를 보인다는 사실을 밝혔습니다. 이러한 발견에 동기를 부여받아, 우리는 이미지 입력과 함께 모델 자체의 순수 텍스트 추론 흔적을 모델에 학습시키는 자기 증류 방법을 제안합니다. 이 방법은 GSM8K에서 이미지 모드 정확도를 30.71%에서 92.72%로 높였으며, 치명적 망각 없이 보지 못한 벤치마크로의 전이를 달성했습니다. 전반적으로, 우리의 연구는 모달리티 격차에 대한 체계적인 이해를 제공하고 다중 모달 언어 모델의 시각적 텍스트 이해 능력을 향상시키는 실용적인 길을 제시합니다.
스포츠는 인간의 신체적·인지적 한계를 끊임없이 확장해왔기 때문에 오랫동안 광범위한 관심을 받아왔다. 시각-언어 모델(VLM)의 공간 지능에 대한 관심이 높아지는 가운데, 스포츠는 고강도 인간 동작과 동적 객체 상호작용을 이해하기 위한 자연스러운 실험장을 제공한다. 이에 우리는 스포츠 시나리오에 특화된 최초의 대규모 공간 지능 데이터셋인 CourtSI를 소개한다. CourtSI는 배드민턴, 테니스, 탁구 등 대표적인 네트 스포츠를 아우르며 공간 계수, 거리 측정, 위치 특정, 관계적 추론을 체계적으로 포괄하는 통합적 분류 체계 아래 100만 개 이상의 질의-응답 쌍으로 구성된다. 명확히 정의된 코트 기하학을 측정 기준점으로 활용하여 스포츠 장면을 재구성하는 반자동 데이터 엔진을 개발함으로써 CourtSI의 확장 가능한 구축을 가능하게 했다. 또한, 엄격한 인간 검증을 거친 3,686개의 질의-응답 쌍으로 구성된 고품질 평가 벤치마크인 CourtSI-Bench를 도입했다. CourtSI-Bench에서 25개의 사적 및 오픈소스 VLM을 평가한 결과, 여전히 인간과 AI 간 성능 격차가 존재하며 기존 공간 지능 벤치마크로부터의 일반화 능력이 제한적임을 확인했다. 이러한 결과는 스포츠 시나리오가 기존 벤치마크가 포착하지 못한 공간 지능 능력의 한계를 드러낸다는 것을 시사한다. 더 나아가, Qwen3-VL-8B 모델을 CourtSI로 미세 조정하면 CourtSI-Bench 정확도가 23.5%p 향상되었다. 적응된 모델은 유사하지만 학습 과정에 노출되지 않은 스포츠를 기반으로 구축된 평가 세트인 CourtSI-Ext에서도 효과적으로 일반화되었으며, 공간 인식형 해설 생성 능력도 향상된 것으로 나타났다. 이러한 결과들은 CourtSI가 스포츠 분야에서 VLM의 공간 지능을 발전시키기 위한 확장 가능한 경로를 제공함을 입증한다.
본 논문에서는 자연어 설명을 통한 지시어 추종 제어가 가능한 오픈소스 텍스트-음성 변환 시스템인 Fish Audio S2를 소개한다. 이 시스템은 다중 화자 및 다중 턴 생성 기능을 갖추고 있다. 대규모 학습을 위해 비디오 캡셔닝, 음성 캡셔닝, 음질 평가, 보상 모델링을 포함하는 단계적 데이터 파이프라인과 다단계 학습 방법론을 개발하였다. 오픈소스 TTS 기술의 발전을 위해 모델 가중치, 미세 조정 코드, SGLang 기반 추론 엔진을 공개한다. 해당 추론 엔진은 스트리밍 환경에서 즉시 적용 가능한 수준으로, RTF 0.195, 첫 음성 출력까지 100ms 미만의 성능을 달성하였다. 코드와 가중치는 GitHub(https://github.com/fishaudio/fish-speech)와 Hugging Face(https://huggingface.co/fishaudio/s2-pro)에서 이용할 수 있으며, 독자들은 https://fish.audio에서 사용자 정의 음성을 직접 체험해 볼 것을 권장한다.
시각적으로 유사한 이미지 간의 미세한 차이를 구분하는 능력은 산업 이상 감지, 의료 영상, 항공 감시 등 다양한 분야에서 필수적입니다. 최근 비전-언어 모델(VLM)을 위한 비교 추론 벤치마크가 등장했으나, 이들은 주로 크고 두드러진 차이가 있는 이미지에 초점을 맞추어 실제 응용 분야에서 필요한 미묘한 추론을 포착하지 못하고 있습니다. 본 연구에서는 VLM의 미세 비교 추론 능력을 평가하기 위해 설계된 벤치마크인 VLM-SubtleBench를 소개합니다. 우리의 벤치마크는 속성, 상태, 감정, 시간, 공간, 존재, 수량, 품질, 시점, 행동 등 10가지 차이 유형을 포괄하며, 이러한 세분화된 변이를 반영한 질문-이미지 쌍을 정제했습니다. 자연 이미지 데이터셋에 국한된 기존 벤치마크와 달리, 우리의 벤치마크는 산업, 항공, 의료 영상을 포함한 다양한 분야를 아우릅니다. 독점 및 오픈소스 VLM 모두에 대한 포괄적인 평가를 통해 차이 유형과 도메인 전반에 걸쳐 모델 성능과 인간 성능 간의 체계적인 격차를 밝히고, VLM의 추론 능력이 급격히 저하되는 지점을 부각하는 통제된 분석을 제공합니다. 본 연구의 벤치마크와 결과는 VLM이 인간 수준의 비교 추론으로 나아가기 위한 기초를 마련합니다.
다중모달 대규모 언어 모델은 비텍스트 입력에 대한 예측을 근거로 두기보다 언어적 사전 지식에 과도하게 의존하는 텍스트 주도적 경향을 보일 수 있습니다. 대표적인 예로 대규모 오디오-언어 모델(LALMs)은 오디오 증거가 중요한 정보를 포함하고 있음에도 불구하고 이를 충분히 활용하지 못하는 경우가 있습니다. 이러한 문제를 해결하기 위해 우리는 기계론적 해석 가능성 방법을 사용하여 오디오 주의력이 '청취' 신호를 생성하는 소수의 오디오 전문가 어텐션 헤드를 식별했습니다. 이 신호는 오디오 증거가 모델의 출력에 영향을 미칠 때 증가하며, 표준 프롬프팅 조건에서 오디오 참여 정도를 나타내는 지표로 활용될 수 있음을 보여줍니다. 이러한 국소화 결과를 바탕으로 우리는 오디오-침묵 조정 방향을 구성하고 추론 시점에 최종 표현에 활성화 개입을 적용하여 모델의 오디오 효과를 증폭시켰습니다. 이러한 개입의 유용성을 입증하기 위해 MMAU에서 두 가지 Qwen 기반 LALMs의 정확도를 매개변수 업데이트 없이 최대 +8.0%p 향상시킬 수 있음을 확인했습니다.
대규모 언어 모델(LLM)의 코드 생성 기술이 빠르게 발전함에 따라, 인간과 AI의 상호작용은 정적인 텍스트 응답에서 동적인 HTML 기반 애플리케이션으로 진화하고 있으며, 우리는 이를 MiniApp이라고 명명합니다. 이러한 애플리케이션은 모델이 시각적 인터페이스를 렌더링할 뿐만 아니라 현실 세계의 원칙을 준수하는 맞춤형 상호작용 로직을 구축할 것을 요구합니다. 그러나 기존 벤치마크는 주로 알고리즘적 정확성이나 정적 레이아웃 재현에 중점을 두어 이 새로운 패러다임에 필요한 능력을 제대로 평가하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 원칙 기반의 상호작용형 애플리케이션 생성을 평가하도록 설계된 최초의 종합 벤치마크인 MiniAppBench를 소개합니다. 실제 애플리케이션(1천만 건 이상 생성)에서 도출된 MiniAppBench는 6개 도메인(예: 게임, 과학, 도구)에 걸친 500개의 과제를 정제했습니다. 더 나아가 단일 정답이 존재하지 않는 개방형 상호작용 평가의难题를 해결하기 위해 에이전트 기반 평가 프레임워크인 MiniAppEval을 제안합니다. 이 프레임워크는 브라우저 자동화를 활용하여 인간과 유사한 탐색적 테스트를 수행하며, 의도(Intention), 정적(Static), 동적(Dynamic)이라는 세 가지 차원에서 애플리케이션을 체계적으로 평가합니다. 우리의 실험 결과, 현재 LLM은 고품질 MiniApp 생성에 여전히 상당한 어려움을 겪는 반면, MiniAppEval은 인간의 판단과 높은 일치도를 보여 미래 연구를 위한 신뢰할 수 있는 기준을 마련했습니다. 우리의 코드는 github.com/MiniAppBench에서 확인할 수 있습니다.
음성 대규모 언어 모델(SLLM)은 빠르게 발전하며 다양한 작업을 지원하고 있습니다. 이러한 모델들은 일반적으로 텍스트 프롬프트를 사용해 평가되지만, 이는 사용자가 음성으로 상호작용하는 실제 상황을 반영하지 못할 수 있습니다. 이러한 격차를 해결하기 위해 우리는 기존 벤치마크와 결합하여 음성 지시 조건에서 SLLM의 현실적인 평가를 가능하게 하는, 인간이 기록한 다국어 음성 및 텍스트 프롬프트 데이터셋인 DoWhatISay(DOWIS)를 소개합니다. 9개 작업과 11개 언어를 아우르는 이 데이터셋은 작업-언어 쌍마다 5가지 스타일로 10개의 프롬프트 변형을 제공합니다. DOWIS를 사용하여 우리는 최첨단 SLLM의 성능을 벤치마킹하고 프롬프트 양식, 스타일, 언어, 작업 유형 간의 상호작용을 분석합니다. 결과는 특히 저자원 및 교차 언어 설정에서 텍스트 프롬프트가 음성 프롬프트보다 일관되게 우수함을 보여줍니다. 음성 출력이 필요한 작업에 대해서만 음성 프롬프트의 격차가 줄어들며, 이는 SLLM 평가에 음성 기반 프롬프팅의 필요성을 강조합니다.
우리는 Test-Driven AI Agent Definition(TDAD)을 제안합니다. 이 방법론은 에이전트 프롬프트를 컴파일된 아티팩트로 취급합니다. 엔지니어가 행동 명세를 제공하면, 코딩 에이전트가 이를 실행 가능한 테스트로 변환하고, 두 번째 코딩 에이전트가 테스트를 통과할 때까지 프롬프트를 반복적으로 개선합니다. 도구 사용 LLM 에이전트를 프로덕션에 배포하려면 현재 개발 방식으로는 달성하기 어려운 측정 가능한 행동 준수도가 필요합니다. 사소한 프롬프트 변경은 침묵하는 회귀(regression)를 일으키고, 도구 오용은 탐지되지 않으며, 정책 위반은 배포 후에야 발견됩니다. TDAD는 명세 회피(specification gaming)를 완화하기 위해 세 가지 메커니즘을 도입합니다: (1) 컴파일 중 평가 테스트를 제외하는 가시/비가시 테스트 분할, (2) 컴파일 후 에이전트를 통한 의미론적 돌연변이 테스트로 그럴듯한 오류가 있는 프롬프트 변형을 생성하고 테스트 스위트가 이를 탐지하는지를 측정, (3) 요구사항 변경 시 회귀 안전성을 정량화하는 명세 진화 시나리오. 우리는 TDAD를 정책 준수, 근거 기반 분석, 런북 adherence, 결정론적 enforcement 등 네 가지 영역의 상세히 명세화된 에이전트로 구성된 벤치마크인 SpecSuite-Core에서 평가합니다. 24개 독립 시험에서 TDAD는 92%의 v1 컴파일 성공률과 97%의 평균 비가시 테스트 통과율을 달성했습니다. 진화된 명세는 58% 컴파일 성공률을 보였으며, 대부분의 실패한 실행은 1-2개를 제외한 모든 가시 테스트를 통과했고, 86-100% 돌연변이 점수, 78% v2 비가시 테스트 통과율, 97% 회귀 안전성 점수를 기록했습니다. 구현 코드는 https://github.com/f-labs-io/tdad-paper-code 에서 오픈 벤치마크로 이용 가능합니다.
대규모 사전 학습된 디퓨전 모델은 생성된 비디오의 품질을 크게 향상시켰으나, 실시간 스트리밍에서의 활용은 여전히 제한적입니다. 자기회귀 모델은 순차적 프레임 합성을 위한 자연스러운 프레임워크를 제공하지만 높은 정확도를 달성하기 위해서는 많은 계산량이 필요합니다. 디퓨전 증류는 이러한 모델을 효율적인 소수 스텝 변형으로 압축할 수 있지만, 기존의 비디오 증류 접근법은 시간적 의존성을 간과한 이미지 특화 방법을 주로 차용하고 있습니다. 이러한 기술들은 이미지 생성에서는 뛰어난 성능을 보이지만 비디오 합성에서는 성능이 떨어져, 운동 일관성 감소, 긴 시퀀스에서의 오류 누적 및 지연시간-품질 간 트레이드오프를 나타냅니다. 우리는 이러한 한계를 초래하는 두 가지 요인을 확인했습니다: 스텝 감소 동안 시간적 컨텍스트의 불충분한 활용과 다음 청크 예측에서의 후속 노이즈 수준에 대한 암묵적 예측(즉, 노출 편향)입니다. 이러한 문제를 해결하기 위해 우리는 기존 접근법과 직교적으로 동작하며 비디오 청크와 노이즈 제거 스텝 전반에 걸친 시간 정보를 더 잘 활용하는 대각선 증류(Diagonal Distillation)를 제안합니다. 우리 접근법의 핵심은 비대칭 생성 전략입니다: 초기에는 더 많은 스텝을, 후기에는 더 적은 스텝을 사용하는 것입니다. 이 설계를 통해 후기 청크는 충분히 처리된 초기 청크로부터 풍부한 외관 정보를 상속받으면서, 부분적으로 노이즈가 제거된 청크를 후속 합성을 위한 조건부 입력으로 활용할 수 있습니다. 청크 생성 동안 후속 노이즈 수준에 대한 암묵적 예측을 실제 추론 조건과 일치시킴으로써, 우리의 접근법은 오류 전파를 완화하고 장거리 시퀀스에서의 과포화 현상을 줄입니다. 우리는 또한 암묵적 광류 모델링을 통합하여 엄격한 스텝 제약 하에서도 운동 품질을 보존합니다. 우리의 방법은 5초 길이의 비디오를 2.61초 만에(최대 31 FPS) 생성하며, 증류되지 않은 모델 대비 277.3배의 속도 향상을 달성합니다.
검증 가능한 보상 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시키지만, 모델이 잘못된 답변에 대해 지나치게 과도한 확신을 갖는 보정 악화(calibration degeneration) 문제를 심각하게 겪습니다. 기존 연구들은 보정 목표를 기존 최적화 대상에 직접 통합하는 데 주력해왔습니다. 그러나 우리의 이론적 분석에 따르면, 정책 정확도 극대화와 보정 오차 최소화를 위한 최적화 사이에는 근본적인 그래디언트 충돌이 존재합니다. 이러한 통찰을 바탕으로, 우리는 추론과 보정 목표를 체계적으로 분리하는 간단하면서도 효과적인 프레임워크인 DCPO를 제안합니다. 광범위한 실험을 통해 우리의 DCPO가 GRPO와 동등한 정확도를 유지할 뿐만 아니라 최고 수준의 보정 성능을 달성하고 과도한 확신 문제를 상당히 완화함을 입증했습니다. 본 연구는 보다 신뢰할 수 있는 LLM 배포를 위한 가치 있는 통찰과 실용적인 해결책을 제공합니다.
상황 인식, 즉 AI 시스템이 자신의 본질을 인지하고, 자신의 훈련 및 배포 맥락을 이해하며, 주어진 상황에 대해 전략적으로 추론하는 능력은 고도로 발달한 AI 시스템에서 가장 위험한 창발적 능력 중 하나로 널리 간주됩니다. 별도로, 연역, 귀납, 귀추에 걸쳐 대규모 언어 모델(LLM)의 논리적 추론 능력을 향상시키려는 연구 노력이 점차 확대되고 있습니다. 본 논문에서 우리는 이 두 연구 경향이 충돌 과정에 있음을 주장합니다. 우리는 논리적 추론의 향상이 어떻게 점진적으로 더 깊은 수준의 상황 인식으로 나아가는지를 설명하는 세 가지 기제적 경로, 즉 연역적 자기 추론, 귀납적 맥락 인식, 귀추적 자기 모델링을 규명하는 RAISE 프레임워크(Reasoning Advancing Into Self Examination)를 소개합니다. 우리는 각 경로를 형식화하고, 기본적인 자기 인식부터 전략적 기만에 이르는 단계적 사다리를 구성하며, LLM 논리적 추론 분야의 모든 주요 연구 주제가 상황 인식의 특정 증폭기와 직접적으로 매핑됨을 보여줍니다. 나아가 현재의 안전 조치가 이러한 단계적 심화를 막기에 왜 불충분한지 분석합니다. 마지막으로 '미러 테스트' 벤치마크와 추론 안전 평등 원칙을 포함한 구체적인 안전장치를 제안하고, 논리적 추론 연구 커뮤니티가 이 경로에서 지닌 책임에 대해 불편하지만 반드시 필요한 질문을 던집니다.
에이전트는 행동 결과를 추론하고 목표 달성에 대한 근접도를 나타내는 보상 신호를 최대화하는 행동을 선택해야 합니다. 보상 모델의 지도 학습은 훈련 데이터에 내재된 편향을 도입할 수 있어, 새로운 목표와 환경에 대한 일반화를 제한합니다. 본 논문에서는 명확히 정의된 세계 상태 표현만으로도 다양한 도메인에서 정확한 보상 예측이 가능한지 연구합니다. 이를 위해 언어 모델을 사용하여 비정형 관측값을 계층적 객체-속성 구조로 변환하는 인수분해 표현 방법인 StateFactory를 제안합니다. 이 구조화된 표현을 통해 계층적 제약 조건 하에서 현재 상태와 목표 상태 간의 의미론적 유사성으로 자연스럽게 보상을 추정할 수 있습니다. 전반적으로 StateFactory가 유도하는 간결한 표현 구조는 뛰어난 보상 일반화 능력을 가능하게 합니다. 우리는 5개의 다양한 도메인을 아우르고 단계별 실제 보상이 포함된 2,454개의 고유 행동-관측 궤적으로 구성된 새로운 벤치마크 데이터셋인 RewardPrediction에서 평가를 수행했습니다. 우리의 방법은 VLWM-critic 및 LLM-as-a-Judge 보상 모델 대비 각각 60%, 8% 더 낮은 EPIC 거리를 달성하며 유망한 제로샷 결과를 보여줍니다. 나아가, 이 우수한 보상 품질은 에이전트 계획 성능 향상으로 효과적으로 이어져, 반응형 시스템-1 정책 대비 AlfWorld에서 +21.64%, ScienceWorld에서 +12.40%의 성공률 향상을 달성하고 시스템-2 에이전트 계획을 개선합니다. 프로젝트 페이지: https://statefactory.github.io
텍스트-비디오(T2V) 모델의 급속한 발전은 콘텐츠 제작에 혁명을 가져왔으나, 그 상업적 잠재력은 여전히 크게 개방되지 않은 상태입니다. 본 연구에서는 처음으로 T2V에서의 원활한 브랜드 통합 과제를 소개합니다. 이는 사용자 의도에 대한 의미론적 충실도를 보존하면서 프롬프트로 생성된 비디오에 광고주 브랜드를 자동으로 삽입하는 것입니다. 이 과제는 프롬프트 충실도 유지, 브랜드 식별성 보장, 상황에 맞는 자연스러운 통합이라는 세 가지 핵심 과제에 직면합니다. 이를 해결하기 위해 우리는 상호 협력적인 두 단계로 구성된 새로운 다중 에이전트 프레임워크인 BrandFusion을 제안합니다. 오프라인 단계(광고주 대상)에서는 모델 사전 지식을 탐색하고 경량 파인튜닝을 통해 새로운 브랜드에 적응함으로써 브랜드 지식 베이스를 구축합니다. 온라인 단계(사용자 대상)에서는 다섯 개의 에이전트가 공유 지식 베이스와 실시간 상황 추적을 활용하여 브랜드 가시성과 의미론적 정렬을 보장하기 위해 반복적 개선을 통해 사용자 프롬프트를 공동으로 정제합니다. 여러 최첨단 T2V 모델을 대상으로 18개의 기존 브랜드와 2개의 맞춤형 브랜드에 대해 진행한 실험 결과, BrandFusion이 의미론적 보존, 브랜드 식별성, 통합 자연스러움 측면에서 기준선을 크게 능가함을 입증했습니다. 인간 평가를 통해서도 더 높은 사용자 만족도를 확인하여 지속 가능한 T2V 수익화를 위한 실용적인 경로를 확립했습니다.
추측 디코딩(speculative decoding)은 경량 드래프트 모델을 활용해 후보 토큰을 생성하고 이를 대상 모델이 검증하는 방식으로 대규모 언어 모델(LLM) 추론 속도를 가속화하는 강력한 접근법으로 부상했습니다. 이 패러다임의 효과는 드래프트 모델의 품질에 크게 좌우됩니다. EAGLE 시리즈와 같은 최근 발전은 최첨단 속도 향상을 달성했지만, 기존 드래프트 모델은 오류 누적에 제한을 받습니다: 기존 모델들은 현재 접두사(prefix)에만 조건을 두기 때문에 예측이 단계를 거치며 대상 모델에서 점점 벗어나는 문제가 있습니다. 본 연구에서는 드래프트 모델이 생성의 미래 방향을 예측할 수 있게 하는 새로운 추측 디코딩 프레임워크인 ConFu(Contemplate the Future)를 제안합니다. ConFu는 (i) 드래프트 모델이 대상 모델로부터 미래 지향적 신호를 무시할 수 있는 수준의 비용으로 활용할 수 있는 고려 토큰(contemplate tokens)과 소프트 프롬프트, (ii) 문맥을 인지한 미래 예측을 가능하게 하는 MoE 기반 동적 고려 토큰 메커니즘, (iii) 강건한 미래 예측을 학습하는 앵커 토큰 샘플링 및 미래 예측 복제 훈련 프레임워크를 도입합니다. 실험 결과, ConFu는 Llama-3 3B 및 8B 모델을 사용한 다양한 다운스트림 작업에서 EAGLE-3 대비 토큰 수용률과 생성 속도를 8-11% 향상시켰습니다. 우리는 본 연구가 추측 디코딩과 연속 추론 토큰(continuous reasoning tokens)을 연결한 최초의 사례로, LLM 추론 가속화를 위한 새로운 방향을 제시한다고 믿습니다.
대규모 언어 모델(LLM)이 코드 생성을 혁신적으로 변화시켰지만, 단일 순전파로 해결책을 생성하는 표준 "시스템 1" 접근법은 복잡한 알고리즘 과제에 직면했을 때 종종 성능 한계에 부딪힙니다. 기존의 반복적 개선 전략은 추론 시점에서 이 격차를 메우려 시도하지만, 주로 외부 오라클, 실행 피드백 또는 계산 비용이 높은 프롬프트-응답 주기에 의존합니다. 본 연구에서는 구조화된 추론 궤적(초기 생성, 버그 및 최적화 인식 반성, 자기 수정을 포함)을 모델 가중치에 직접 내재화하는 새로운 강화 학습(RL) 프레임워크인 ReflexiCoder를 제안합니다. 기존 방법과 달리 ReflexiCoder는 추론 시점에서 외부 의존적 개선에서 내재적이고 완전 자율적인 자기 반성 및 자기 수정 능력으로 패러다임을 전환합니다. 세분화된 보상 함수를 활용한 RL-zero 훈련 패러다임을 사용하여 전체 반성-수정 궤적을 최적화함으로써, 모델이 추론 시점에 정답 피드백이나 실행 엔진에 의존하지 않고 디버깅하는 방법을 학습하게 합니다. 7개 벤치마크에 대한 광범위한 실험을 통해 우리의 ReflexiCoder-8B 모델이 1.5B-14B 범위의 주요 오픈소스 모델 중 새로운 최첨단(SOTA) 성능을 확립함을 입증했습니다. 단일 시도 설정에서 HumanEval(Plus) 94.51%(87.20%), MBPP(Plus) 81.80%(78.57%), BigCodeBench 35.00%, LiveCodeBench 52.21%, CodeForces 37.34%의 성적을 달성하여 GPT-5.1과 같은 독점 모델에 필적하거나 능가했습니다. 특히, 우리 프레임워크는 기본 모델보다 토큰 효율성이 현저히 높아, 체계적이고 고속의 추론 및 반성 패턴을 통해 추론 시점 계산 오버헤드를 약 40% 줄였습니다. 소스 코드는 https://github.com/juyongjiang/ReflexiCoder에서 확인할 수 있습니다.
대규모 언어 모델(LLM)을 Python 실행 추적 데이터로 학습시키면 코드 실행에 기반을 둔 모델을 구축할 수 있으며, 전체 Python 프로그램의 라인별 실행 결과를 예측하는 신경망 인터프리터로 발전시킬 수 있습니다(FAIR CodeGen Team et al., 2025). 그러나 개발자들은 프로그램을 단계별로 실행하는 경우는 드물며, 대신 디버거를 사용하여 특정 중단점에서 실행을 멈추고 관련 부분만을 단계적으로 실행하면서 프로그램 변수를 검사하거나 수정합니다. 기존 신경망 인터프리터 접근법은 이러한 상호작용적 제어 기능이 부족합니다. 이러한 한계를 해결하기 위해 우리는 신경망 디버거를 소개합니다. 이는 기존 디버거를 모방한 언어 모델로, 함수 내부 단계 실행, 함수 넘어가기, 함수 빠져나오기, 특정 소스 코드 줄에 중단점 설정과 같은 작업을 지원합니다. 우리는 대규모 LLM을 미세 조정하거나 더 작은 모델을 처음부터 사전 학습하여 얻은 신경망 디버거가 디버거 동작을 조건으로 전방 실행(향후 상태 및 출력 예측)과 역방향 실행(이전 상태 또는 입력 추론)을 모두 안정적으로 모델링할 수 있음을 보여줍니다. CruxEval에서 평가한 결과, 우리 모델은 출력 및 입력 예측 과제 모두에서 강력한 성능을 달성하며 견고한 조건부 실행 모델링 능력을 입증했습니다. 우리의 연구는 신경망 디버거가 시뮬레이션된 디버깅 환경을 위한 월드 모델 역할을 하여 실행 피드백을 제공하거나 에이전트가 실제 디버깅 도구와 상호작용할 수 있도록 하는 미래의 자율적 코딩 시스템을 위한 첫걸음입니다. 이 능력은 더 강력한 코드 생성, 프로그램 이해 및 자동화된 디버깅의 기초를 마련합니다.
재귀적 자기 개선이 이론에서 실전으로 나아가고 있다: 현대 시스템은 자신의 출력을 비판, 수정, 평가할 수 있지만, 반복적인 자기 수정은 미세한 정렬 이탈(alignment drift) 위험을 수반한다. 본 연구에서는 세 가지 안전장치를 통해 이탈을 감시하고 제어하는 실용적 프레임워크인 SAHOO를 소개한다: (i) 의미론적, 어휘적, 구조적, 분포적 측정을 결합한 학습 기반 다중 신호 탐지기인 목표 이탈 지수(GDI); (ii) 구문 정확성과 허구적 내용 생성 방지(non-hallucination) 같은 안전 핵심 불변 조건을 강제하는 제약 조건 보존 검사; (iii) 기존 개선 성과를 훼손하는 개선 주기를 경고하기 위한 회귀 위험 정량화. 코드 생성, 수학적 추론, 진실성 분야의 189개 과제에서 SAHOO는 코드 과제 18.3%, 추론 과제 16.8% 개선을 포함한 상당한 품질 향상을 달성하면서 두 영역에서 제약 조건을 보존하고 진실성 영역에서 낮은 위반 수준을 유지했다. 임계값은 3주기에 걸친 18개 과작의 소규모 검증 세트에서 조정되었다. 또한 능력-정렬 경계선(capability-alignment frontier)을 매핑하여, 초기 개선 주기에서는 효율적인 향상이 이루어지지만 후기로 갈수록 정렬 비용이 증가하며, 유창성 대 사실성과 같은 영역별 긴장 관계를 드러냈다. 따라서 SAHOO는 재귀적 자기 개선 과정 중 정렬 보존을 측정 가능하고 배포 가능하며 체계적으로 대규모 검증할 수 있게 한다.
일반적으로 상태 공간 모델 릴리스는 융합된 CUDA 및 Triton 커널과 결합되어 NVIDIA 하드웨어에 대한 강력한 의존성을 상속받습니다. 우리는 Mamba-2의 상태 공간 이중성 알고리즘(대각선 상태 구조, 청킹 가능한 순환, 정적 제어 흐름으로 지배되는 einsum 연산)이 XLA의 퓨전 및 타일링 패스가 실제로 최적화하는 대상에 깔끔하게 매핑되어 커스텀 커널을 필수가 아닌 선택 사항으로 만든다는 점을 보여줍니다. 우리는 핸드라이팅 커널 없이 XLA 하에서 형상화된 표준 프리미티브로 전체 추론 경로(프리필, 캐시된 자기회귀 디코딩)를 구현하고, 생성 과정 중 호스트 동기화가 필요 없는 컴파일된 온디바이스 캐시로 아키텍처의 이론적 O(1) 상태 관리를 실현합니다. 이 구현은 단일 JAX 소스 코드로 CPU, NVIDIA GPU 및 Google Cloud TPU에서 수정 없이 실행됩니다. 5가지 모델 규모(1.3억~27억 매개변수)에 걸친 TPU v6e에서 XLA 생성 코드는 단일 스트림 프리필에서 약 140 TFLOPS(15% MFU)에 도달하고 디코딩에서 최대 64% 대역폭 활용률을 보입니다. 그리디 디코딩은 64단계에 걸쳐 PyTorch/CUDA 기준과 토큰 단위로 일치하며, 은닉 상태 일치는 float32 반올림 허용 오차 범위 내입니다. 이 패턴은 동일한 구조적 조건을 만족하는 모든 SSM 순환으로, 성숙한 XLA 백엔드를 가진 모든 플랫폼에 이전 가능합니다. 구현은 https://github.com/CosmoNaught/mamba2-jax에서 공개적으로 이용 가능하며 Bonsai JAX 모델 라이브러리에 병합되었습니다.
비전-언어 모델(VLM)의 최근 발전은 놀라운 제로샷 능력을 보여주었지만, 이러한 모델을 전문 도메인에 적용하는 것은 여전히 중요한 과제로 남아 있습니다. 독립적으로 훈련된 VLM들이 표준 변환(canonical transformation)으로 연관된다는 최근 이론적 통찰을 바탕으로, 우리는 이러한 이해를 도메인 개념으로 확장합니다. 우리는 서로 다른 도메인 간의 이미지 특징들이 소수의 앵커(anchor)를 사용하여 복원 가능한 표준화된 기하학적 변환으로 연관되어 있다고 가정합니다. 소수 샷 분류(few-shot classification)는 제한된 레이블 샘플들이 이 변환을 추정하는 데 필요한 앵커 역할을 하기 때문에, 이러한 정렬(alignment)에 자연스러운 환경을 제공합니다. 이 가설에 동기를 부여받아, 우리는 교차 모달 정렬(cross-modal alignment)을 향상시키기 위해 다중 모달 특징에 대상 특화 변환을 적용하는 BiCLIP 프레임워크를 소개합니다. 우리의 접근 방식은 극도의 단순성과 적은 매개변수 사용량을 특징으로 합니다. EuroSAT, DTD, FGVCAircraft를 포함한 11개의 표준 벤치마크에 대한 포괄적인 평가를 통해 BiCLIP가 일관되게 최첨단 결과를 달성함을 입증합니다. 더 나아가, 학습된 변환의 직교성과 각도 분포를 분석하여 기존 기하학적 연구 결과에 대한 경험적 검증을 제공하며, 구조화된 정렬이 강력한 도메인 적응의 핵심임을 확인합니다. 코드는 https://github.com/QuantitativeImagingLaboratory/BilinearCLIP에서 확인할 수 있습니다.
카슈미르어는 약 700만 명의 화자가 사용하지만 공식 언어 지위와 풍부한 언어적 전통에도 불구하고 음성 기술 분야에서 심각하게 지원이 부족한 실정이다. 강력한 텍스트-음성 변환(TTS) 시스템의 부재는 원어민의 디지털 접근성과 포용적 인간-컴퓨터 상호작용을 제한한다. 본 연구에서는 카슈미르어 최초의 전용 오픈소스 신경망 TTS 시스템을 제안한다. 인도계 언어용으로 훈련된 제로샷 다국어 기준 모델은 페르소-아랍식 발음 구별 기호 및 언어 특정 음운론적 구성을 충분히 모델링하지 못해 명료한 음성 생산에 실패하며 평균 의견 점수(MOS) 1.86에 그치는 것을 확인했다. 이러한 한계를 해결하기 위해 Matcha-TTS 프레임워크 내 최적 수송 조건부 흐름 매칭(OT-CFM) 기반의 지도형 교차 언어 적응 전략인 Bolbosh를 제안한다. 이는 제한된 짝지은 데이터 하에서 안정적인 정렬을 가능하게 한다. 더 나아가 잔향 제거, 무음 구간 정리, 음량 정규화로 구성된 3단계 음향 향상 파이프라인을 도입하여 이질적 음성 소스를 통일하고 정렬 학습을 안정화했다. 모델 어휘 집합은 카슈미르어 자소를 명시적으로 인코딩하도록 확장되어 세분화된 모음 차이를 보존한다. 우리 시스템은 MOS 3.63, 멜-켑스트럼 왜곡(MCD) 3.73을 달성하여 다국어 기준 모델을 크게 앞서며 카슈미르어 음성 합성의 새로운 벤치마크를 수립했다. 연구 결과는 발음 구별 기호에 민감한 언어의 저자원 TTS에 대해 문자 인식 및 지도형 흐름 기반 적응이 중요함을 입증한다. 코드와 데이터는 https://github.com/gaash-lab/Bolbosh에서 이용 가능하다.
우리는 적응형 통계 모델이 생성한 확률 추정치를 개선하기 위해 미세 확산 디노이징 계층을 도입한 무손실 압축 시스템인 Midicoth를 제안한다. PPM(Prediction by Partial Matching)과 같은 압축기에서는 희소 관측을 처리하기 위해 사전 분포를 통해 확률 추정치를 평활화한다. 컨텍스트가 소수만 관찰된 경우, 이 사전 분포가 예측을 지배하여 실제 소스 분포보다 현저히 평평한 분포를 생성함으로써 압축 비효율성을 초래한다. Midicoth는 사전 평활화를 수축 과정으로 간주하고 경험적 보정 통계를 활용하여 예측 확률을 교정하는 역 디노이징 단계를 적용함으로써 이러한 한계를 해결한다. 이 교정을 데이터 효율적으로 만들기 위해 본 방법은 각 바이트 예측을 비트 단위 트리를 따른 이진 결정 계층 구조로 분해한다. 이를 통해 단일 256차원 보정 문제를 일련의 이진 보정 작업으로 변환하여 상대적으로 적은 관측 횟수로도 신뢰할 수 있는 교정 항 추정이 가능하게 한다. 디노이징 과정은 여러 단계에 걸쳐 순차적으로 적용되며, 각 단계는 이전 단계에서 남은 잔여 예측 오차를 정제할 수 있도록 한다. 미세 확산 계층은 모든 모델 예측이 결합된 후 적용되는 경량 사후 혼합 보정 단계로 작동하여 최종 확률 분포의 체계적 편향을 교정할 수 있다. Midicoth는 적응형 PPM 모델, 장거리 매칭 모델, 트라이 기반 단어 모델, 고차 컨텍스트 모델, 그리고 최종 단계로 적용되는 미세 확산 디노이저라는 다섯 가지 완전 온라인 구성 요소를 통합한다.
연관 메모리는 오랫동안 순차 모델 설계의 기반이 되어 왔다. 단순한 기억 재생을 넘어 인간은 미래 상태를 예측하고 목표 지향적 행동을 선택하며 사고하는데, 이는 현대 언어 모델이 점점 더 필요로 하지만 기본적으로 내재하고 있지 않은 능력이다. 기존 연구에서는 강화 학습이나 테스트 시간 학습을 사용하지만, 계획 수립은 모델 아키텍처 외부에서 이루어진다. 우리는 사고를 최적 제어 문제로 공식화하고, 추론 시점에 잠재 상태에 대해 유한 수평 LQR 계획을 수행하며, 신경망 아키텍처 내에서 가치 함수를 표현하고, 이를 예측 전 계획을 가능하게 하는 중첩 목적 함수로 활용하는 테스트 시간 제어(TTC) 계층을 소개한다. 확장성을 보장하기 위해 심플렉틱 공식화를 기반으로 하드웨어 효율적인 LQR 솔버를 유도하고, 최소 오버헤드로 병렬 실행이 가능한 통합 CUDA 커널로 구현한다. 사전 학습된 대형 언어 모델에 어댑터로 통합된 TTC 계층은 MATH-500에서 최대 27.8%의 수학적 추론 성능 향상과 AMC 및 AIME에서 2-3배의 Pass@8 성능 향상을 보여주며, 최적 제어를 아키텍처 구성 요소로 내재화하는 것이 테스트 시간 학습을 넘어선 효과적이고 확장 가능한 추론 메커니즘을 제공함을 입증한다.
온라인 범주 발견(OCD)은 레이블이 지정된 데이터로만 훈련된 모델을 사용하여, 레이블이 지정되지 않은 온라인 스트림에서 알려진 범주를 인식하는 동시에 새로운 범주를 발견하는 것을 목표로 합니다. 기존 접근법은 오프라인에서 훈련된 특징 추출기를 고정하고, 특징을 클래스 프로토타입인 이진 코드로 양자화하는 해시 기반 프레임워크를 사용합니다. 그러나 고정된 지식 기반으로 새로운 범주를 발견하는 것은 직관에 반대됩니다. 들어오는 데이터의 학습 잠재력이 완전히 무시되기 때문입니다. 또한, 특징 양자화는 정보 손실을 초래하고 표현력을 저하시키며 클래스 내 분산을 증폭시킵니다. 이는 종종 단일 클래스가 여러 가짜 클래스로 분할되는 '범주 폭발'을 초래합니다. 이러한 한계를 극복하기 위해 우리는 발견을 통한 학습을 가능하게 하는 테스트 시간 적응 프레임워크를 제안합니다. 여기에는 의미 인식 프로토타입 업데이트와 안정적인 테스트 시간 인코더 업데이트라는 두 가지 상호 보완적인 전략이 포함됩니다. 전자는 분류 성능을 향상시키기 위해 클래스 프로토타입을 동적으로 정제하는 반면, 후자는 새로운 정보를 매개변수 공간에 직접 통합합니다. 이러한 구성 요소들이 함께 작동하여 모델은 새로 접하는 샘플로 지식 기반을 지속적으로 확장할 수 있습니다. 더 나아가, 우리는 오프라인 단계에서 마진 인식 로짓 보정을 도입하여 클래스 간 마진을 확대하고 클래스 내 밀집도를 향상시켜 향후 클래스 발견을 위한 임베딩 공간을 확보합니다. 표준 OCD 벤치마크에서의 실험 결과, 우리의 방법이 기존 해시 기반 최신 접근법을 크게 능가하며, 새로운 클래스 정확도에서 현저한 향상을 보이고 범주 폭발을 효과적으로 완화함을 입증했습니다. 코드는 blue{https://github.com/ynanwu/TALON}에서 공개되어 있습니다.
누구나 학교에서 배운 대로 자유 형식의 텍스트로 자신의 이야기를 쓸 수 있습니다. 그러나 비디오를 통한 스토리텔링은 전문적이고 복잡한 도구를 익혀야 합니다. 본 논문에서는 생성형 비디오 제작을 위한 텍스트 기반 인터페이스인 Doki를 소개하며, 비디오 제작을 텍스트 작성의 자연스러운 과정에 맞춥니다. Doki에서는 텍스트 작성이 주요 상호작용 방식으로, 단일 문서 내에서 사용자가 에셋을 정의하고, 장면을 구성하며, 샷을 생성하고, 편집을 다듬고, 오디오를 추가할 수 있습니다. 우리는 이러한 텍스트 우선 접근법의 설계 원칙을 명확히 제시하고 일련의 예시를 통해 Doki의 기능을 입증합니다. 실제 활용성을 평가하기 위해 비디오 제작 경험 수준이 다양한 참가자를 대상으로 1주일간의 현장 적용 연구를 수행했습니다. 이 연구는 생성형 비디오 인터페이스의 근본적인 전환을 제시하며, 강력하고 접근성이 뛰어난 새로운 시각적 스토리텔링 방식을 입증합니다.
대규모 언어 모델의 장문 추론은 디코딩 단계에서 Key-Value(KV) 캐시 로딩에 의해 병목 현상이 발생하며, 이는 생성 과정의 순차적 특성으로 인해 매 단계마다 KV 캐시를 오프칩 고대역폭 메모리(HBM)에서 온칩 정적 랜덤 액세스 메모리(SRAM)로 반복적으로 전송해야 하기 때문입니다. Multi-Head Latent Attention(MLA)은 전체 KV 캐시 크기를 크게 줄이지만, Tensor Parallelism(TP)을 통한 분산 디코딩 시 샤딩 병목 현상이 발생합니다. MLA의 단일 잠재 헤드는 분할이 불가능하여 각 디바이스가 모든 토큰에 대해 전체 KV 캐시를 중복 로드해야 하며, 이로 인해 과도한 메모리 트래픽이 소모되고 가중치 샤딩과 같은 TP의 이점이 감소합니다. 본 연구에서는 효율적인 4-way TP 디코딩을 위해 분할 가능한 잠재 상태를 지원하는 Multi-Head Low-Rank Attention(MLRA)을 제안합니다. 광범위한 실험을 통해 MLRA가 최첨단 수준의 perplexity 및 다운스트림 작업 성능을 달성하는 동시에 MLA 대비 2.8배의 디코딩 속도 향상을 제공함을 입증했습니다. 코드는 https://github.com/SongtaoLiu0823/MLRA에서 확인할 수 있습니다. 사전 학습된 가중치와 학습 및 평가 데이터는 https://huggingface.co/Soughing/MLRA에서 이용 가능합니다.