번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 대형 언어 모델(MLLMs)은 다양한 작업에서 인상적인 능력을 보여주었지만, 여전히 복잡한 수학적 추론에는 어려움을 겪고 있습니다. 기존 연구는 주로 데이터셋 구축과 방법론 최적화에 초점을 맞추며, 종종 두 가지 중요한 측면인 포괄적인 지식 기반 설계와 모델 중심 데이터 공간 모델링을 간과해 왔습니다. 본 논문에서는 We-Math 2.0을 소개합니다. 이는 구조화된 수학적 지식 시스템, 모델 중심 데이터 공간 모델링, 그리고 강화 학습(RL) 기반 훈련 패러다임을 통합하여 MLLMs의 수학적 추론 능력을 종합적으로 향상시키는 통합 시스템입니다. We-Math 2.0의 주요 기여는 다음과 같습니다: (1) MathBook 지식 시스템: 491개의 지식 포인트와 1,819개의 기본 원리를 포함하는 5단계 계층적 시스템을 구축했습니다. (2) MathBook-Standard & Pro: 이중 확장을 통해 광범위한 개념적 커버리지와 유연성을 보장하는 MathBook-Standard 데이터셋을 개발했습니다. 또한, 3차원 난이도 공간을 정의하고 각 문제에 대해 7개의 점진적 변형을 생성하여 강력한 훈련을 위한 도전적인 데이터셋인 MathBook-Pro를 구축했습니다. (3) MathBook-RL: 두 단계의 RL 프레임워크를 제안합니다: (i) 콜드 스타트 미세 조정은 모델을 지식 중심의 사고 연쇄 추론과 일치시키고, (ii) 점진적 정렬 RL은 평균 보상 학습과 동적 데이터 스케줄링을 활용하여 난이도 수준 간 점진적 정렬을 달성합니다. (4) MathBookEval: 491개의 모든 지식 포인트를 포괄하고 다양한 추론 단계 분포를 포함하는 종합적인 벤치마크를 도입했습니다. 실험 결과, MathBook-RL은 널리 사용되는 4개의 벤치마크에서 기존 베이스라인과 경쟁력 있는 성능을 보였으며, MathBookEval에서도 강력한 결과를 달성하여 수학적 추론에서 유망한 일반화 능력을 보여주었습니다.
텍스트-이미지 생성을 위한 기존의 자기회귀(AR) 모델들은 연속적인 이미지 토큰을 처리하기 위해 계산 집약적인 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 사용합니다. 본 논문에서는 NextStep-1이라는 14B 크기의 자기회귀 모델과 157M 크기의 플로우 매칭 헤드를 결합하여, 이산 텍스트 토큰과 연속적인 이미지 토큰을 다음 토큰 예측 목표로 학습시키는 방식으로 자기회귀 패러다임을 한 단계 더 발전시켰습니다. NextStep-1은 텍스트-이미지 생성 작업에서 자기회귀 모델의 최신 성능을 달성하며, 고품질 이미지 합성에서 강력한 능력을 보여줍니다. 또한, 우리의 방법은 이미지 편집에서도 뛰어난 성능을 보여주며, 통합 접근법의 강력함과 다양성을 입증합니다. 개방형 연구를 촉진하기 위해, 우리는 코드와 모델을 커뮤니티에 공개할 예정입니다.
우리는 캐릭터의 프리퀄 스토리가 원작 서사의 정식 설정과 일관성을 유지하는지를 판단하는 과제를 통해 장문맥 이해 능력을 평가하는 벤치마크인 PRELUDE를 소개한다. 우리의 과제는 기존 벤치마크들보다 더 강력한 전반적 이해와 심층 추론을 요구한다. 프리퀄은 원작 스토리의 일부가 아니기 때문에, 그 타당성을 평가하기 위해서는 간접적으로 관련된 정보를 탐색하고 통합해야 하는 경우가 많다. 실증적으로, 88%의 사례에서 서사의 여러 부분에 걸친 증거가 필요하다. 실험 결과는 우리 과제의 도전적 성격을 보여준다: 최첨단 대형 언어 모델(LLM)을 활용한 인컨텍스트 학습, RAG, 도메인 특화 학습, 그리고 상용 딥리서치 서비스 모두 인간의 성능에 비해 15% 이상 뒤처지는 것으로 나타났다. 추가 인간 연구에서 모델들이 종종 잘못된 추론 과정을 통해 정답을 도출함으로써, 인간 대비 추론 정확도에서 30% 이상의 격차가 발생함이 밝혀졌다. 이러한 발견들은 장문맥 이해와 추론 분야에서 개선의 여지가 상당함을 강조한다.
전통적인 만화와 애니메이션 제작은 키프레임 작업, 인비트윈닝, 그리고 채색 단계로 이루어지며, 이는 많은 수작업을 필요로 합니다. 최근 AI 기술의 발전에도 불구하고, 기존 방법들은 이러한 단계를 별도로 처리하여 오류 누적과 아티팩트를 초래하는 경우가 많습니다. 예를 들어, 인비트윈닝 접근법은 큰 움직임을 처리하는 데 어려움을 겪고, 채색 방법들은 프레임별로 밀집된 스케치를 요구합니다. 이를 해결하기 위해, 우리는 인비트윈닝과 채색을 단일 키프레임 후 처리 단계로 통합한 생성 모델인 ToonComposer를 소개합니다. ToonComposer는 키프레임 스케치를 사용하여 정밀한 제어를 제공하기 위해 희소 스케치 주입 메커니즘을 사용합니다. 또한, 공간적 저순위 어댑터를 활용한 만화 적응 방법을 통해 현대 비디오 기반 모델을 만화 도메인에 맞게 조정하면서도 시간적 사전 정보를 유지합니다. 단일 스케치와 색상 참조 프레임만으로도 ToonComposer는 희소 입력에서 뛰어난 성능을 발휘하며, 더 정밀한 움직임 제어를 위해 임의의 시간적 위치에서 여러 스케치를 지원합니다. 이러한 이중 기능은 수작업 부담을 줄이고 유연성을 높여 실무에서 아티스트들의 작업을 지원합니다. 우리의 모델을 평가하기 위해, 실제 사용 사례를 시뮬레이션한 인간이 그린 스케치를 포함한 PKBench 벤치마크를 추가로 개발했습니다. 평가 결과, ToonComposer는 시각적 품질, 움직임 일관성, 그리고 제작 효율성 측면에서 기존 방법들을 능가하며, AI 지원 만화 제작을 위한 우수하고 더 유연한 솔루션을 제공합니다.
스크린샷만을 입력으로 받는 멀티모달 대형 언어 모델 기반의 네이티브 UI 에이전트인 UI-Venus를 소개합니다. UI-Venus는 Qwen2.5-VL 기반의 강화 미세조정(RFT)을 통해 수십만 개의 고품질 학습 샘플만으로도 UI 그라운딩 및 네비게이션 작업에서 SOTA(State-of-the-Art) 성능을 달성했습니다. 구체적으로, UI-Venus의 7B와 72B 변형은 표준 그라운딩 벤치마크인 Screenspot-V2 / Pro에서 각각 94.1% / 50.8%와 95.3% / 61.9%의 성능을 보이며, 오픈소스 GTA1과 클로즈드소스 UI-TARS-1.5를 포함한 기존 SOTA 베이스라인을 능가했습니다. UI-Venus의 요약 및 계획 능력을 보여주기 위해, 온라인 UI 네비게이션 아레나인 AndroidWorld에서도 평가를 진행했으며, 7B와 72B 변형은 각각 49.1%와 65.9%의 성공률을 기록하여 기존 모델들을 뛰어넘었습니다. 이를 달성하기 위해, UI 그라운딩 및 네비게이션 작업을 위한 신중하게 설계된 보상 함수와 이에 상응하는 효율적인 데이터 클리닝 전략을 도입했습니다. 또한, 네비게이션 성능을 더욱 향상시키기 위해, Self-Evolving Trajectory History Alignment & Sparse Action Enhancement를 제안하여 역사적 추적을 정제하고 희소하지만 중요한 액션의 분포를 균형 있게 조정함으로써 복잡한 UI 작업에서 더 일관된 계획과 더 나은 일반화를 이끌어냈습니다. 우리의 기여는 SOTA 오픈소스 UI 에이전트의 공개, 포괄적인 데이터 클리닝 프로토콜, 그리고 네비게이션 성능을 개선하기 위한 새로운 자기 진화 프레임워크를 포함하며, 이를 통해 커뮤니티의 추가 연구와 개발을 촉진하고자 합니다. 코드는 https://github.com/antgroup/UI-Venus에서 확인할 수 있습니다.
확산 언어 모델(Diffusion Language Models, DLMs)은 현재 지배적인 자기회귀(autoregressive, AR) 패러다임에 대한 강력하고 유망한 대안으로 빠르게 부상하고 있습니다. DLM은 반복적인 노이즈 제거 과정을 통해 토큰을 병렬로 생성함으로써, 추론 지연 시간을 줄이고 양방향 문맥을 포착하는 데 있어 본질적인 장점을 가지고 있어 생성 과정에 대한 세밀한 제어가 가능합니다. 몇 배의 속도 향상을 달성하면서도, 최근의 발전으로 인해 DLM은 자기회귀 모델과 비슷한 성능을 보여주어 다양한 자연어 처리 작업에서 매력적인 선택지로 자리 잡고 있습니다. 본 논문에서는 현재 DLM의 전반적인 현황을 종합적으로 살펴봅니다. 우리는 DLM의 진화와 자기회귀 모델 및 마스크 언어 모델과의 관계를 추적하고, 기초 원리부터 최신 모델까지 폭넓게 다룹니다. 이 연구는 최신의 포괄적인 분류 체계와 사전 학습 전략부터 고급 사후 학습 방법에 이르기까지 현재의 기술에 대한 심층 분석을 제공합니다. 또한, 이 논문의 또 다른 기여는 DLM 추론 전략과 최적화에 대한 철저한 검토로, 디코딩 병렬화, 캐싱 메커니즘, 생성 품질 개선 등을 포함합니다. 우리는 또한 DLM의 다중 모달 확장에 대한 최신 접근법을 강조하고 다양한 실제 시나리오에서의 응용을 명확히 설명합니다. 더 나아가, 우리의 논의는 DLM의 효율성, 장문 처리, 인프라 요구 사항 등의 한계와 도전 과제를 다루며, 이 빠르게 진화하는 분야에서의 지속적인 발전을 위한 미래 연구 방향을 제시합니다. 프로젝트 GitHub는 https://github.com/VILA-Lab/Awesome-DLMs에서 확인할 수 있습니다.
현대의 인터랙티브 애플리케이션은 점점 더 동적인 3D 콘텐츠를 요구하고 있지만, 정적인 3D 모델을 애니메이션 자산으로 변환하는 과정은 콘텐츠 제작 파이프라인에서 상당한 병목 현상을 일으키고 있습니다. 최근 생성형 AI의 발전으로 정적 3D 모델 생성이 혁신적으로 개선되었음에도 불구하고, 리깅과 애니메이션은 여전히 전문가의 개입에 크게 의존하고 있습니다. 본 논문에서는 다양한 3D 객체에 대한 자동 리깅과 애니메이션을 모두 해결하는 포괄적인 프레임워크인 Puppeteer를 소개합니다. 우리의 시스템은 먼저, 조인트 기반 토큰화 전략을 통해 간결한 표현을 도입하고, 확률적 섭동을 포함한 계층적 순서화 방법론을 통해 양방향 학습 능력을 향상시키는 자기회귀 트랜스포머를 통해 가능성 있는 골격 구조를 예측합니다. 그런 다음, 골격 그래프 거리를 기반으로 조인트 간 관계를 명시적으로 인코딩하는 토폴로지 인식 조인트 어텐션을 통합한 어텐션 기반 아키텍처를 통해 스키닝 가중치를 추론합니다. 마지막으로, 이러한 리깅 기술을 보완하기 위해 기존 접근법보다 계산적으로 더 효율적이면서도 안정적이고 고품질의 애니메이션을 생성하는 미분 가능한 최적화 기반 애니메이션 파이프라인을 제안합니다. 다양한 벤치마크에 대한 광범위한 평가를 통해 우리의 방법이 골격 예측 정확도와 스키닝 품질 모두에서 최신 기술을 크게 능가함을 입증했습니다. 이 시스템은 전문적으로 디자인된 게임 자산부터 AI 생성 형상에 이르기까지 다양한 3D 콘텐츠를 견고하게 처리하며, 기존 방법에서 흔히 발생하는 지터링 문제를 제거한 시간적 일관성을 가진 애니메이션을 생성합니다.
우리는 포인트맵 예측을 디코더 전용 트랜스포머 문제로 재구성하는 새로운 3D 재구성 접근법인 STream3R를 소개한다. 기존의 최신 다중 뷰 재구성 방법들은 비용이 많이 드는 전역 최적화에 의존하거나 시퀀스 길이에 따라 확장성이 떨어지는 단순한 메모리 메커니즘을 사용한다. 이와 대조적으로, STream3R는 현대 언어 모델링의 발전에서 영감을 받은 인과적 어텐션을 사용하여 이미지 시퀀스를 효율적으로 처리하는 스트리밍 프레임워크를 도입한다. 대규모 3D 데이터셋으로부터 기하학적 사전 지식을 학습함으로써, STream3R는 전통적인 방법들이 종종 실패하는 동적 장면을 포함한 다양한 도전적인 시나리오에서도 잘 일반화된다. 광범위한 실험을 통해 우리의 방법이 정적 및 동적 장면 벤치마크에서 모두 기존 작업을 꾸준히 능가함을 보여준다. 더욱이, STream3R는 LLM 스타일의 훈련 인프라와 본질적으로 호환되어 다양한 하위 3D 작업을 위한 효율적인 대규모 사전 훈련 및 미세 조정을 가능하게 한다. 우리의 결과는 온라인 3D 인식을 위한 인과적 트랜스포머 모델의 잠재력을 강조하며, 스트리밍 환경에서 실시간 3D 이해를 위한 길을 열어준다. 더 자세한 내용은 프로젝트 페이지에서 확인할 수 있다: https://nirvanalan.github.io/projects/stream3r.
검증 가능한 보상을 사용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 일반적으로 Pass@1을 보상으로 채택하면서 탐색(exploration)과 활용(exploitation) 간의 균형을 맞추는 데 어려움을 겪어왔고, 이로 인해 정책이 보수적인 행동을 선호하며 지역 최적점(local optimum)에 수렴하는 문제가 발생해왔습니다. 따라서 적절한 보상 지표를 식별하는 것이 중요합니다. 기존 연구와 관련하여, Pass@k가 평가에 사용되었음에도 불구하고, RLVR에서의 대형 언어 모델(LLM) 탐색 능력과의 연관성은 크게 간과되어 왔습니다. 이를 조사하기 위해, 우리는 먼저 Pass@k를 보상으로 사용하여 정책 모델을 학습시키고(즉, Pass@k Training), 그 탐색 능력의 향상을 관찰했습니다. 다음으로, 우리는 Pass@k Training의 이점에 대한 분석적 해결책을 도출하여 효율적이고 효과적인 프로세스를 제시했습니다. 이를 바탕으로, 우리의 분석은 탐색과 활용이 본질적으로 상충되는 목표가 아니며, 오히려 서로를 강화할 수 있음을 보여줍니다. 또한, 분석적 도출을 통한 Pass@k Training은 본질적으로 이점 함수(advantage function)를 직접 설계하는 것을 포함합니다. 이에 영감을 받아, 우리는 RLVR을 위한 이점 설계를 예비적으로 탐구하였고, 이를 통해 유망한 결과를 보여주며 잠재적인 미래 방향성을 강조했습니다.
다중모달 대형 언어 모델(MLLMs)은 진정한 인간과 같은 상호작용을 달성하는 데 있어 엄청난 잠재력을 보여주지만, 복잡한 인간의 의도를 이해하고 공감적이며 상황을 고려한 응답을 제공하는 등 인간 중심 시나리오에 대한 세밀한 평가 프레임워크의 부재로 인해 진전이 더딘 상황이다. 여기서 우리는 HumanSense를 소개한다. HumanSense는 MLLMs의 인간 중심 인지 및 상호작용 능력을 평가하기 위한 포괄적인 벤치마크로, 특히 확장된 다중모달 컨텍스트에 대한 깊은 이해와 합리적인 피드백의 형성에 초점을 맞추고 있다. 우리의 평가 결과, 선도적인 MLLMs도 여전히 상당한 개선의 여지가 있으며, 특히 고급 상호작용 지향 작업에서 그러하다는 것을 보여준다. 시각적 입력에 오디오와 텍스트 정보를 추가하면 상당한 개선이 이루어지며, 오므니모달 모델이 이러한 작업에서 우위를 보인다. 더 나아가, 적절한 피드백은 상대방의 요구와 감정에 대한 상황적 분석에서 비롯되며, 이를 해제하는 열쇠는 추론 능력이 된다고 주장한다. 이에 따라, 우리는 다단계, 모달리티 점진적 강화 학습을 활용하여 오므니 모델의 추론 능력을 강화하고, 평가 결과에서 상당한 향상을 달성했다. 또한, 성공적인 추론 과정은 매우 일관된 사고 패턴을 보인다는 것을 관찰했다. 이에 상응하는 프롬프트를 설계함으로써, 우리는 훈련 없이도 비추론 모델의 성능을 향상시켰다. 프로젝트 페이지: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
기존 연구에서는 특히 훈련 과정에서 접하지 못한 이미지 변환 및 손상에 대한 시각 인코더의 견고성을 분석해왔습니다. 이러한 변환이 발생할 경우, 테스트 시점에서 일종의 분포 변화를 초래하며 종종 성능 저하로 이어집니다. 주요 초점은 심각한 손상에 맞춰져 있었는데, 이러한 손상이 과도하게 적용되면 정확한 의미론적 예측에 필요한 유용한 신호를 왜곡시키는 경우가 많습니다. 우리는 이미지 획득 과정의 매개변수와 인간의 눈에는 미묘하거나 심지어 감지하기 어려운 변환을 분석함으로써 다른 관점을 제시합니다. 이러한 매개변수가 학습된 시각 표현에 체계적으로 인코딩되어 있으며 쉽게 복구될 수 있음을 발견했습니다. 더욱 놀라운 점은 이러한 요소가 의미론적 예측에 긍정적이거나 부정적인 심오한 영향을 미칠 수 있다는 것입니다. 이러한 효과는 의미 레이블과 이러한 획득 기반 또는 처리 기반 레이블 간에 강한 상관관계 또는 반대 상관관계가 있는지 여부에 따라 달라집니다. 우리의 코드와 데이터는 https://github.com/ryan-caesar-ramos/visual-encoder-traces에서 확인할 수 있습니다.
최근 머신러닝의 발전으로 자동 통역 품질 평가에 대한 관심이 높아지고 있습니다. 그러나 기존 연구는 언어 사용 품질에 대한 충분한 검토 부족, 데이터 부족과 불균형으로 인한 모델링 효과의 미흡, 그리고 모델 예측을 설명하려는 노력의 부재 등의 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 특징 공학, 데이터 증강, 설명 가능한 머신러닝을 통합한 다차원 모델링 프레임워크를 제안합니다. 이 접근법은 "블랙박스" 예측보다 설명 가능성을 우선시하며, 구성과 관련된 투명한 특징만을 활용하고 Shapley Value(SHAP) 분석을 수행합니다. 우리의 결과는 새로운 영어-중국어 연속 통역 데이터셋에서 강력한 예측 성능을 보여주며, 충실도(fidelity)에 대한 BLEURT 및 CometKiwi 점수, 유창성(fluency)에 대한 일시정지 관련 특징, 그리고 언어 사용에 대한 중국어 특정 구문 다양성 지표가 가장 강력한 예측 특징임을 확인했습니다. 전반적으로, 설명 가능성에 특별히 중점을 둠으로써, 우리는 전통적인 인간 평가에 대한 확장 가능하고 신뢰할 수 있으며 투명한 대안을 제시하며, 학습자에게 상세한 진단 피드백을 제공하고 자율 학습의 이점을 지원하는 데 기여합니다. 이는 단순히 자동화된 점수만으로는 제공할 수 없는 장점입니다.
신뢰할 수 있는 자연어 처리(NLP) 연구에서 설명 가능성과 프라이버시를 포함한 여러 중요한 연구 분야가 등장했습니다. 설명 가능하고 프라이버시를 보존하는 NLP에 대한 연구 관심이 최근 몇 년 동안 크게 증가했음에도 불구하고, 이 두 분야의 교차점에 대한 조사는 여전히 부족한 상태입니다. 이로 인해 설명 가능성과 프라이버시를 동시에 달성할 수 있는지, 아니면 이 두 가지가 상충되는지에 대한 이해에 상당한 공백이 존재합니다. 본 연구에서는 차등 프라이버시(DP)와 사후 설명 가능성이라는 널리 사용되는 포괄적인 방법론을 바탕으로 NLP 맥락에서 프라이버시와 설명 가능성 간의 상충 관계를 실증적으로 조사합니다. 우리의 연구 결과는 하위 작업의 특성과 텍스트 프라이버시화 및 설명 가능성 방법의 선택을 포함한 여러 요인에 의해 형성되는 프라이버시와 설명 가능성 간의 복잡한 관계를 조명합니다. 이를 통해 프라이버시와 설명 가능성이 공존할 가능성을 강조하고, 이 중요한 교차점에서의 향후 연구를 위한 실용적인 권장 사항들을 정리하여 제시합니다.