번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 대형 언어 모델(MLLMs)은 다양한 작업에서 인상적인 능력을 보여주었지만, 여전히 복잡한 수학적 추론에는 어려움을 겪고 있습니다. 기존 연구는 주로 데이터셋 구축과 방법론 최적화에 초점을 맞추며, 종종 두 가지 중요한 측면인 포괄적인 지식 기반 설계와 모델 중심 데이터 공간 모델링을 간과해 왔습니다. 본 논문에서는 We-Math 2.0을 소개합니다. 이는 구조화된 수학적 지식 시스템, 모델 중심 데이터 공간 모델링, 그리고 강화 학습(RL) 기반 훈련 패러다임을 통합하여 MLLMs의 수학적 추론 능력을 종합적으로 향상시키는 통합 시스템입니다. We-Math 2.0의 주요 기여는 다음과 같습니다: (1) MathBook 지식 시스템: 491개의 지식 포인트와 1,819개의 기본 원리를 포함하는 5단계 계층적 시스템을 구축했습니다. (2) MathBook-Standard & Pro: 이중 확장을 통해 광범위한 개념적 커버리지와 유연성을 보장하는 MathBook-Standard 데이터셋을 개발했습니다. 또한, 3차원 난이도 공간을 정의하고 각 문제에 대해 7개의 점진적 변형을 생성하여 강력한 훈련을 위한 도전적인 데이터셋인 MathBook-Pro를 구축했습니다. (3) MathBook-RL: 두 단계의 RL 프레임워크를 제안합니다: (i) 콜드 스타트 미세 조정은 모델을 지식 중심의 사고 연쇄 추론과 일치시키고, (ii) 점진적 정렬 RL은 평균 보상 학습과 동적 데이터 스케줄링을 활용하여 난이도 수준 간 점진적 정렬을 달성합니다. (4) MathBookEval: 491개의 모든 지식 포인트를 포괄하고 다양한 추론 단계 분포를 포함하는 종합적인 벤치마크를 도입했습니다. 실험 결과, MathBook-RL은 널리 사용되는 4개의 벤치마크에서 기존 베이스라인과 경쟁력 있는 성능을 보였으며, MathBookEval에서도 강력한 결과를 달성하여 수학적 추론에서 유망한 일반화 능력을 보여주었습니다.
텍스트-이미지 생성을 위한 기존의 자기회귀(AR) 모델들은 연속적인 이미지 토큰을 처리하기 위해 계산 집약적인 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 사용합니다. 본 논문에서는 NextStep-1이라는 14B 크기의 자기회귀 모델과 157M 크기의 플로우 매칭 헤드를 결합하여, 이산 텍스트 토큰과 연속적인 이미지 토큰을 다음 토큰 예측 목표로 학습시키는 방식으로 자기회귀 패러다임을 한 단계 더 발전시켰습니다. NextStep-1은 텍스트-이미지 생성 작업에서 자기회귀 모델의 최신 성능을 달성하며, 고품질 이미지 합성에서 강력한 능력을 보여줍니다. 또한, 우리의 방법은 이미지 편집에서도 뛰어난 성능을 보여주며, 통합 접근법의 강력함과 다양성을 입증합니다. 개방형 연구를 촉진하기 위해, 우리는 코드와 모델을 커뮤니티에 공개할 예정입니다.
우리는 캐릭터의 프리퀄 스토리가 원작 서사의 정식 설정과 일관성을 유지하는지를 판단하는 과제를 통해 장문맥 이해 능력을 평가하는 벤치마크인 PRELUDE를 소개한다. 우리의 과제는 기존 벤치마크들보다 더 강력한 전반적 이해와 심층 추론을 요구한다. 프리퀄은 원작 스토리의 일부가 아니기 때문에, 그 타당성을 평가하기 위해서는 간접적으로 관련된 정보를 탐색하고 통합해야 하는 경우가 많다. 실증적으로, 88%의 사례에서 서사의 여러 부분에 걸친 증거가 필요하다. 실험 결과는 우리 과제의 도전적 성격을 보여준다: 최첨단 대형 언어 모델(LLM)을 활용한 인컨텍스트 학습, RAG, 도메인 특화 학습, 그리고 상용 딥리서치 서비스 모두 인간의 성능에 비해 15% 이상 뒤처지는 것으로 나타났다. 추가 인간 연구에서 모델들이 종종 잘못된 추론 과정을 통해 정답을 도출함으로써, 인간 대비 추론 정확도에서 30% 이상의 격차가 발생함이 밝혀졌다. 이러한 발견들은 장문맥 이해와 추론 분야에서 개선의 여지가 상당함을 강조한다.
스크린샷만을 입력으로 받는 멀티모달 대형 언어 모델 기반의 네이티브 UI 에이전트인 UI-Venus를 소개합니다. UI-Venus는 Qwen2.5-VL 기반의 강화 미세조정(RFT)을 통해 수십만 개의 고품질 학습 샘플만으로도 UI 그라운딩 및 네비게이션 작업에서 SOTA(State-of-the-Art) 성능을 달성했습니다. 구체적으로, UI-Venus의 7B와 72B 변형은 표준 그라운딩 벤치마크인 Screenspot-V2 / Pro에서 각각 94.1% / 50.8%와 95.3% / 61.9%의 성능을 보이며, 오픈소스 GTA1과 클로즈드소스 UI-TARS-1.5를 포함한 기존 SOTA 베이스라인을 능가했습니다. UI-Venus의 요약 및 계획 능력을 보여주기 위해, 온라인 UI 네비게이션 아레나인 AndroidWorld에서도 평가를 진행했으며, 7B와 72B 변형은 각각 49.1%와 65.9%의 성공률을 기록하여 기존 모델들을 뛰어넘었습니다. 이를 달성하기 위해, UI 그라운딩 및 네비게이션 작업을 위한 신중하게 설계된 보상 함수와 이에 상응하는 효율적인 데이터 클리닝 전략을 도입했습니다. 또한, 네비게이션 성능을 더욱 향상시키기 위해, Self-Evolving Trajectory History Alignment & Sparse Action Enhancement를 제안하여 역사적 추적을 정제하고 희소하지만 중요한 액션의 분포를 균형 있게 조정함으로써 복잡한 UI 작업에서 더 일관된 계획과 더 나은 일반화를 이끌어냈습니다. 우리의 기여는 SOTA 오픈소스 UI 에이전트의 공개, 포괄적인 데이터 클리닝 프로토콜, 그리고 네비게이션 성능을 개선하기 위한 새로운 자기 진화 프레임워크를 포함하며, 이를 통해 커뮤니티의 추가 연구와 개발을 촉진하고자 합니다. 코드는 https://github.com/antgroup/UI-Venus에서 확인할 수 있습니다.
다중모달 대형 언어 모델(MLLMs)은 진정한 인간과 같은 상호작용을 달성하는 데 있어 엄청난 잠재력을 보여주지만, 복잡한 인간의 의도를 이해하고 공감적이며 상황을 고려한 응답을 제공하는 등 인간 중심 시나리오에 대한 세밀한 평가 프레임워크의 부재로 인해 진전이 더딘 상황이다. 여기서 우리는 HumanSense를 소개한다. HumanSense는 MLLMs의 인간 중심 인지 및 상호작용 능력을 평가하기 위한 포괄적인 벤치마크로, 특히 확장된 다중모달 컨텍스트에 대한 깊은 이해와 합리적인 피드백의 형성에 초점을 맞추고 있다. 우리의 평가 결과, 선도적인 MLLMs도 여전히 상당한 개선의 여지가 있으며, 특히 고급 상호작용 지향 작업에서 그러하다는 것을 보여준다. 시각적 입력에 오디오와 텍스트 정보를 추가하면 상당한 개선이 이루어지며, 오므니모달 모델이 이러한 작업에서 우위를 보인다. 더 나아가, 적절한 피드백은 상대방의 요구와 감정에 대한 상황적 분석에서 비롯되며, 이를 해제하는 열쇠는 추론 능력이 된다고 주장한다. 이에 따라, 우리는 다단계, 모달리티 점진적 강화 학습을 활용하여 오므니 모델의 추론 능력을 강화하고, 평가 결과에서 상당한 향상을 달성했다. 또한, 성공적인 추론 과정은 매우 일관된 사고 패턴을 보인다는 것을 관찰했다. 이에 상응하는 프롬프트를 설계함으로써, 우리는 훈련 없이도 비추론 모델의 성능을 향상시켰다. 프로젝트 페이지: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
최근 머신러닝의 발전으로 자동 통역 품질 평가에 대한 관심이 높아지고 있습니다. 그러나 기존 연구는 언어 사용 품질에 대한 충분한 검토 부족, 데이터 부족과 불균형으로 인한 모델링 효과의 미흡, 그리고 모델 예측을 설명하려는 노력의 부재 등의 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 특징 공학, 데이터 증강, 설명 가능한 머신러닝을 통합한 다차원 모델링 프레임워크를 제안합니다. 이 접근법은 "블랙박스" 예측보다 설명 가능성을 우선시하며, 구성과 관련된 투명한 특징만을 활용하고 Shapley Value(SHAP) 분석을 수행합니다. 우리의 결과는 새로운 영어-중국어 연속 통역 데이터셋에서 강력한 예측 성능을 보여주며, 충실도(fidelity)에 대한 BLEURT 및 CometKiwi 점수, 유창성(fluency)에 대한 일시정지 관련 특징, 그리고 언어 사용에 대한 중국어 특정 구문 다양성 지표가 가장 강력한 예측 특징임을 확인했습니다. 전반적으로, 설명 가능성에 특별히 중점을 둠으로써, 우리는 전통적인 인간 평가에 대한 확장 가능하고 신뢰할 수 있으며 투명한 대안을 제시하며, 학습자에게 상세한 진단 피드백을 제공하고 자율 학습의 이점을 지원하는 데 기여합니다. 이는 단순히 자동화된 점수만으로는 제공할 수 없는 장점입니다.