번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델은 함수 및 파일 수준의 코드 생성에서 뛰어난 성능을 보이지만, 처음부터 완전한 저장소를 생성하는 것은 여전히 근본적인 과제로 남아 있습니다. 이 과정은 제안 및 구현 단계에 걸쳐 일관되고 신뢰할 수 있는 계획을 요구하며, 자연어는 모호성과 장황함으로 인해 복잡한 소프트웨어 구조를 충실히 표현하기에는 적합하지 않습니다. 이를 해결하기 위해, 우리는 저장소 계획 그래프(Repository Planning Graph, RPG)를 도입합니다. RPG는 기능, 파일 구조, 데이터 흐름 및 함수를 하나의 그래프로 통합하여 제안 및 구현 단계의 계획을 통합하는 지속적인 표현입니다. RPG는 모호한 자연어를 명시적인 청사진으로 대체하여 장기적인 계획과 확장 가능한 저장소 생성을 가능하게 합니다. RPG를 기반으로, 우리는 처음부터 저장소 생성을 위한 그래프 기반 프레임워크인 ZeroRepo를 개발했습니다. ZeroRepo는 그래프를 구성하기 위한 제안 수준 계획 및 구현 수준 정제의 세 단계로 작동하며, 이후 그래프 기반 코드 생성과 테스트 검증을 수행합니다. 이 설정을 평가하기 위해, 우리는 1,052개의 작업으로 구성된 6개의 실제 프로젝트를 포함한 벤치마크인 RepoCraft를 구축했습니다. RepoCraft에서 ZeroRepo는 평균 약 36K LOC(Line of Code)의 저장소를 생성하며, 이는 가장 강력한 베이스라인(Claude Code)보다 약 3.9배, 다른 베이스라인보다 약 64배 더 많은 양입니다. ZeroRepo는 81.5%의 기능적 커버리지와 69.7%의 통과율을 달성하여 Claude Code를 각각 27.3%와 35.8% 포인트 앞섭니다. 추가 분석은 RPG가 복잡한 의존성을 모델링하고, 거의 선형적인 확장을 통해 점점 더 정교한 계획을 가능하게 하며, LLM이 저장소를 이해하는 능력을 향상시켜 에이전트 현지화를 가속화한다는 것을 보여줍니다.
시각적 콘텐츠를 이해하고 생성할 수 있는 통합 멀티모달 대형 언어 모델(LLM)은 엄청난 잠재력을 가지고 있습니다. 그러나 기존의 오픈소스 모델들은 종종 이러한 기능 간의 성능 상충 관계에 직면합니다. 우리는 하이브리드 이미지 토크나이저와 잘 정제된 훈련 레시피를 결합하여 이러한 긴장을 상당히 완화하는 간단하고 확장 가능한 통합 프레임워크인 Manzano를 제시합니다. 단일 공유 비전 인코더가 두 개의 경량 어댑터에 입력을 제공하며, 이 어댑터들은 공통의 의미 공간 내에서 이미지-텍스트 이해를 위한 연속 임베딩과 텍스트-이미지 생성을 위한 이산 토큰을 생성합니다. 통합된 자동회귀 LLM은 텍스트와 이미지 토큰 형태의 고수준 의미를 예측하며, 보조 디퓨전 디코더는 이후 이미지 토큰을 픽셀로 변환합니다. 이 아키텍처는 이해와 생성 데이터에 대한 통합 훈련 레시피와 함께 두 기능의 확장 가능한 공동 학습을 가능하게 합니다. Manzano는 통합 모델 중에서 최첨단 결과를 달성하며, 특히 텍스트 중심 평가에서 전문 모델과 경쟁력을 보입니다. 우리의 연구는 하이브리드 토크나이저 설계 선택의 타당성을 검증하며, 최소한의 작업 충돌과 모델 크기 확장에서의 일관된 이득을 보여줍니다.
생성 모델링, 표현 학습, 그리고 분류는 기계 학습(ML)의 세 가지 핵심 문제이지만, 이들의 최첨단(SoTA) 솔루션은 여전히 대부분 분리된 상태로 남아 있다. 본 논문에서 우리는 다음과 같은 질문을 던진다: 단일 원칙이 이 세 가지 문제를 모두 해결할 수 있을까? 이러한 통합은 ML 파이프라인을 단순화하고 다양한 작업 간의 시너지를 증진시킬 수 있다. 우리는 이러한 목표를 향한 한 걸음으로서 잠재 구역 네트워크(Latent Zoning Network, LZN)를 소개한다. LZN의 핵심은 모든 작업에 걸쳐 정보를 인코딩하는 공유된 가우시안 잠재 공간을 생성하는 것이다. 각 데이터 유형(예: 이미지, 텍스트, 레이블)은 샘플을 분리된 잠재 구역으로 매핑하는 인코더와 잠재 공간을 다시 데이터로 매핑하는 디코더로 구성된다. ML 작업은 이러한 인코더와 디코더의 조합으로 표현된다: 예를 들어, 레이블 조건부 이미지 생성은 레이블 인코더와 이미지 디코더를 사용하며, 이미지 임베딩은 이미지 인코더를 사용하고, 분류는 이미지 인코더와 레이블 디코더를 사용한다. 우리는 LZN의 잠재력을 세 가지 점점 더 복잡한 시나리오에서 입증한다: (1) LZN은 기존 모델을 향상시킬 수 있다(이미지 생성): SoTA Rectified Flow 모델과 결합했을 때, LZN은 CIFAR10에서 FID를 2.76에서 2.59로 개선한다—훈련 목표를 수정하지 않고도. (2) LZN은 독립적으로 작업을 해결할 수 있다(표현 학습): LZN은 보조 손실 함수 없이도 비지도 표현 학습을 구현할 수 있으며, ImageNet에서의 하위 선형 분류에서 MoCo와 SimCLR 방법을 각각 9.3%와 0.2% 앞선다. (3) LZN은 여러 작업을 동시에 해결할 수 있다(생성과 분류의 결합): 이미지와 레이블 인코더/디코더를 사용하여 LZN은 설계상 두 작업을 동시에 수행하며, FID를 개선하고 CIFAR10에서 SoTA 분류 정확도를 달성한다. 코드와 훈련된 모델은 https://github.com/microsoft/latent-zoning-networks에서 확인할 수 있다. 프로젝트 웹사이트는 https://zinanlin.me/blogs/latent_zoning_networks.html에 있다.
실내 환경의 고품질 3D 모델을 생성하는 것은 디자인, 가상 현실, 로보틱스 분야의 응용에 필수적입니다. 그러나 수동 3D 모델링은 여전히 시간이 많이 들고 노동 집약적입니다. 최근 생성형 AI의 발전으로 자동화된 장면 합성이 가능해졌지만, 기존 방법들은 시각적 품질, 다양성, 의미론적 일관성, 사용자 제어 간의 균형을 맞추는 데 어려움을 겪고 있습니다. 이러한 문제의 주요 병목 현상은 이 작업에 적합한 대규모 고품질 데이터셋의 부재입니다. 이 격차를 해결하기 위해, 우리는 12,328개의 구조화된 주석이 달린 장면, 57,440개의 방, 그리고 470만 개의 사실적인 2D 렌더링으로 구성된 포괄적인 합성 데이터셋을 소개합니다. 이 데이터셋을 활용하여, 우리는 현실적이고 의미론적으로 일관된 3D 실내 장면을 생성하는 새로운 다중 뷰 다중 모달 디퓨전 모델인 SpatialGen을 제시합니다. 3D 레이아웃과 텍스트 프롬프트에서 파생된 참조 이미지가 주어지면, 우리의 모델은 임의의 시점에서 외관(컬러 이미지), 기하학(장면 좌표 맵), 의미론(의미론적 분할 맵)을 합성하면서 모달리티 간의 공간적 일관성을 유지합니다. SpatialGen은 실험에서 이전 방법들보다 우수한 결과를 일관되게 생성합니다. 우리는 데이터와 모델을 오픈소스로 공개하여 커뮤니티를 지원하고 실내 장면 이해 및 생성 분야의 발전을 촉진하고자 합니다.
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 급속한 발전은 이를 인간의 선호와 일치시키는 것이 중요한 과제로 대두되고 있다. 보상 모델(Reward Models, RMs)은 이러한 목표를 달성하기 위한 핵심 기술이지만, 최신 멀티모달 보상 모델(Multimodal Reward Models, MRMs)을 구축하기 위한 체계적인 가이드는 현재 학계와 산업계 모두에서 부족한 상황이다. 본 논문은 철저한 실험적 분석을 통해 고성능 MRMs를 구축하기 위한 명확한 "레시피"를 제공하고자 한다. 우리는 MRM 개발 파이프라인의 모든 중요한 구성 요소를 체계적으로 조사하였으며, 이에는 보상 모델링 패러다임(예: Naive-RM, Critic-based RM, Generative RM), 보상 헤드 아키텍처, 훈련 전략, 데이터 큐레이션(10개 이상의 멀티모달 및 텍스트 전용 선호 데이터셋 포함), 백본 모델 및 모델 규모, 앙상블 방법 등이 포함된다. 이러한 실험적 통찰을 바탕으로, 우리는 멀티모달 보상 모델링을 위한 강력하고 효율적인 베이스라인인 BaseReward를 소개한다. BaseReward는 간단하지만 효과적인 아키텍처를 채택하며, {Qwen2.5-VL} 백본을 기반으로 최적화된 2층 보상 헤드를 특징으로 하고, 고품질의 멀티모달 및 텍스트 전용 선호 데이터를 신중하게 선별하여 훈련되었다. 우리의 결과는 BaseReward가 MM-RLHF-Reward Bench, VL-Reward Bench, Multimodal Reward Bench와 같은 주요 벤치마크에서 새로운 SOTA(State-of-the-Art)를 달성하며, 이전 모델들을 능가함을 보여준다. 또한, 정적 벤치마크를 넘어 실용적인 유용성을 검증하기 위해, BaseReward를 실제 강화 학습 파이프라인에 통합하여 다양한 인지, 추론, 대화 작업에서 MLLM의 성능을 성공적으로 향상시켰다. 이 연구는 최고 수준의 MRM을 제공할 뿐만 아니라, 차세대 MLLMs를 위한 견고한 보상 모델을 개발하기 위한 명확하고 실증적으로 입증된 가이드를 커뮤니티에 제공한다는 점에서 더 큰 의의를 가진다.
비전-언어-행동(VLA) 모델을 활용한 로봇의 실세계 강화학습(RL)은 희소하고 수작업으로 설계된 보상과 비효율적인 탐색으로 인해 병목 현상을 겪고 있습니다. 우리는 대규모 이질적 데이터셋을 기반으로 훈련된 InternVL 위에 구축된 일반적인 과정 보상 모델인 VLAC를 소개합니다. 이 모델은 쌍으로 주어진 관측값과 언어 목표를 입력받아 조밀한 진행도 변화량과 완료 신호를 출력함으로써, 작업별 보상 설계의 필요성을 없애고, 보지 못한 작업과 환경에 대한 원샷 인컨텍스트 전이를 지원합니다. VLAC는 비전-언어 데이터셋을 통해 지각, 대화 및 추론 능력을 강화하고, 로봇 및 인간 궤적 데이터를 통해 행동 생성과 진행도 추정을 기반으로 하며, 또한 대량의 부정적 및 의미론적으로 불일치하는 샘플을 구성하여 관련 없는 프롬프트를 거부하고 퇴행 또는 정체를 감지하는 능력을 추가로 강화합니다. 프롬프트 제어를 통해, 단일 VLAC 모델이 보상과 행동 토큰을 번갈아 생성하며 비평가와 정책을 통합합니다. 비동기식 실세계 RL 루프 내부에 배치된 VLAC는 단계적 인간-참여 프로토콜(오프라인 데모 재생, 반환 및 탐색, 인간 지도 탐색)을 계층화하여 탐색을 가속화하고 초기 학습을 안정화합니다. 네 가지 독립적인 실세계 조작 작업에서 VLAC는 약 200회의 실세계 상호작용 에피소드 내에서 성공률을 약 30%에서 약 90%로 향상시켰으며, 인간-참여 개입을 통합함으로써 샘플 효율성을 추가로 50% 개선하고 최대 100%의 최종 성공률을 달성했습니다.
단일 입력 이미지로부터 개인화된 비디오를 합성하기 위한 고품질 모델인 Lynx를 소개한다. 오픈소스 Diffusion Transformer(DiT) 기반 모델을 기반으로 구축된 Lynx는 두 가지 경량 어댑터를 도입하여 신원 충실도를 보장한다. ID-어댑터는 ArcFace에서 추출된 얼굴 임베딩을 컴팩트한 신원 토큰으로 변환하기 위해 Perceiver Resampler를 사용하여 조건화를 수행하며, Ref-어댑터는 고정된 참조 경로에서 추출된 밀집 VAE 특징을 통합하여 교차 주의를 통해 모든 트랜스포머 계층에 걸쳐 세밀한 디테일을 주입한다. 이러한 모듈들은 시간적 일관성과 시각적 현실감을 유지하면서도 강력한 신원 보존을 가능하게 한다. 40명의 대상과 20개의 편향되지 않은 프롬프트로 구성된 벤치마크에서 800개의 테스트 케이스를 통해 평가한 결과, Lynx는 우수한 얼굴 유사성, 경쟁력 있는 프롬프트 준수, 그리고 강력한 비디오 품질을 입증함으로써 개인화된 비디오 생성 기술의 발전을 이끌었다.
AI 기반 인간-GUI 상호작용 자동화 분야에서, 다중 모드 대형 언어 모델과 강화 미세 조정 기술의 급속한 발전이 놀라운 진전을 이루었음에도 불구하고, 근본적인 문제가 여전히 존재한다: 이들의 상호작용 논리가 자연스러운 인간-GUI 커뮤니케이션 패턴과 크게 벗어난다는 점이다. 이러한 격차를 메우기 위해, 우리는 인간의 인지 과정을 모방한 "Blink-Think-Link"(BTL)이라는 인간-GUI 상호작용을 위한 뇌 영감 프레임워크를 제안한다. 이 시스템은 상호작용을 생물학적으로 타당한 세 단계로 분해한다: (1) Blink - 사카딕 안구 운동과 유사하게 관련 화면 영역을 신속하게 탐지하고 주의를 기울이는 단계; (2) Think - 인지 계획을 반영하는 고차원적 추론 및 의사결정 단계; (3) Link - 인간의 행동 선택 메커니즘을 모방하여 정밀한 운동 제어를 위한 실행 가능한 명령을 생성하는 단계. 또한, 우리는 BTL 프레임워크를 위한 두 가지 핵심 기술 혁신을 소개한다: (1) Blink Data Generation - Blink 데이터에 특화된 자동 주석 파이프라인, 그리고 (2) BTL Reward - 과정과 결과 모두에 의해 강화 학습을 가능하게 하는 최초의 규칙 기반 보상 메커니즘. 이 프레임워크를 기반으로, 우리는 BTL-UI라는 GUI 에이전트 모델을 개발하였으며, 이 모델은 포괄적인 벤치마크에서 정적 GUI 이해와 동적 상호작용 작업 모두에서 일관된 최첨단 성능을 보여준다. 이러한 결과는 고급 GUI 에이전트 개발에 있어 이 프레임워크의 효능을 결정적으로 실증적으로 검증한다.
정적 장면에서 카메라 파라미터 최적화를 위한 주된 방법으로 오랫동안 COLMAP이 사용되어 왔지만, 이 방법은 긴 실행 시간과 동적 장면에 적용하기 위해 필요한 실측(GT) 모션 마스크에 대한 의존성으로 인해 제약을 받아왔습니다. 많은 연구들이 GT 초점 거리, 모션 마스크, 3D 포인트 클라우드, 카메라 포즈, 메트릭 깊이와 같은 추가적인 사전 정보를 통합하여 이를 개선하려 시도했으나, 이러한 정보들은 일반적으로 캐주얼하게 촬영된 RGB 비디오에서는 사용할 수 없습니다. 본 논문에서는 단일 RGB 비디오만을 감독 정보로 사용하여 동적 장면에서 더 정확하고 효율적인 카메라 파라미터 최적화를 위한 새로운 방법을 제안합니다. 우리의 방법은 세 가지 주요 구성 요소로 이루어져 있습니다: (1) 패치 단위 추적 필터(Patch-wise Tracking Filters)는 RGB 비디오 전반에 걸쳐 견고하고 최대한 희소한 힌지 관계를 설정합니다. (2) 이상치 인식 공동 최적화(Outlier-aware Joint Optimization)는 모션 사전 정보에 의존하지 않고 이동하는 이상치를 적응적으로 가중치를 낮춰 효율적으로 카메라 파라미터를 최적화합니다. (3) 두 단계 최적화 전략(Two-stage Optimization Strategy)은 손실 함수에서 소프트플러스 한계와 볼록 최소값 사이의 균형을 통해 안정성과 최적화 속도를 향상시킵니다. 우리는 카메라 추정치를 시각적 및 수치적으로 평가합니다. 정확성을 더 검증하기 위해, 카메라 추정치를 4D 재구성 방법에 입력하고 결과로 나온 3D 장면, 렌더링된 2D RGB 및 깊이 맵을 평가합니다. 우리는 4개의 실제 데이터셋(NeRF-DS, DAVIS, iPhone, TUM-dynamics)과 1개의 합성 데이터셋(MPI-Sintel)에서 실험을 수행하여, 우리의 방법이 단일 RGB 비디오만을 감독 정보로 사용하여 더 효율적이고 정확하게 카메라 파라미터를 추정함을 입증합니다.
지시어 기반 텍스트-음성 변환(ITTS)은 사용자가 자연어 프롬프트를 통해 음성 생성을 제어할 수 있게 하여 기존 TTS보다 더 직관적인 인터페이스를 제공합니다. 그러나 사용자 스타일 지시와 청자 인식 간의 정렬은 여전히 크게 탐구되지 않은 상태입니다. 본 연구는 먼저 두 가지 표현적 차원(정도 부사와 등급화된 감정 강도)에 걸친 ITTS 제어 가능성에 대한 인지적 분석을 제시하고, 화자 연령과 단어 수준 강조 속성에 대한 인간 평가를 수집합니다. 지시어-인식 간격을 포괄적으로 밝히기 위해, 우리는 대규모 인간 평가를 포함한 데이터 수집인 Expressive VOice Control(E-VOC) 코퍼스를 제공합니다. 더 나아가, 우리는 (1) gpt-4o-mini-tts가 음향적 차원에서 지시어와 생성된 발화 간의 훌륭한 정렬을 보이는 가장 신뢰할 수 있는 ITTS 모델임을 밝혔습니다. (2) 분석된 5개의 ITTS 시스템은 지시어가 아동이나 노인 목소리를 요구할 때에도 성인 목소리를 생성하는 경향이 있습니다. (3) 세밀한 제어는 여전히 주요 과제로, 대부분의 ITTS 시스템이 약간 다른 속성 지시어를 해석하는 데 있어 상당한 개선의 여지가 있음을 나타냅니다.
역할 수행 에이전트(RPAs)는 몰입적이고 상호작용적인 캐릭터를 시뮬레이션할 수 있는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 그러나 기존 접근 방식은 주로 정적인 역할 프로필에 초점을 맞추고 있어 인간에게 내재된 동적인 지각 능력을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오 모달리티를 RPAs에 통합하여 동적 역할 프로필 개념을 도입합니다. 이를 지원하기 위해, 60,000개의 비디오와 700,000개의 대응하는 대화로 구성된 대규모 고품질 데이터셋인 Role-playing-Video60k를 구축했습니다. 이 데이터셋을 기반으로, 우리는 적응형 시간 샘플링과 동적 및 정적 역할 프로필 표현을 결합한 포괄적인 RPA 프레임워크를 개발합니다. 구체적으로, 동적 프로필은 비디오 프레임을 적응적으로 샘플링하고 이를 시간 순서대로 LLM에 입력하여 생성되며, 정적 프로필은 (1) 미세 조정 중 훈련 비디오의 캐릭터 대화와 (2) 추론 중 입력 비디오의 요약 컨텍스트로 구성됩니다. 이러한 통합은 RPAs가 더 나은 응답을 생성할 수 있도록 합니다. 또한, 우리는 8가지 메트릭을 포함한 강력한 평가 방법을 제안합니다. 실험 결과는 우리 프레임워크의 효과를 입증하며, RPAs 개발에서 동적 역할 프로필의 중요성을 강조합니다.
인간의 대화는 언어, 음성, 시각적 단서를 포함하며, 각 매체는 상호 보완적인 정보를 제공합니다. 예를 들어, 음성은 텍스트만으로는 완전히 포착되지 않는 분위기나 어조를 전달합니다. 다중모드 LLM(대형 언어 모델)이 다양한 입력으로부터 텍스트 응답을 생성하는 데 초점을 맞추는 동안, 자연스럽고 매력적인 음성 생성을 위한 연구는 상대적으로 덜 주목받아 왔습니다. 우리는 대화의 분위기와 반응 스타일 정보를 기반으로 음성 응답을 생성하는 인간과 유사한 에이전트를 제안합니다. 이를 위해, 우리는 에이전트가 자연스러운 음성을 생성할 수 있도록 음성에 초점을 맞춘 새로운 MultiSensory Conversation 데이터셋을 구축했습니다. 그런 다음, 텍스트 응답과 음성 설명을 생성하기 위한 다중모드 LLM 기반 모델을 제안하며, 이는 부언어적 정보를 포함한 음성 생성을 위해 사용됩니다. 실험 결과는 대화에서 시각 및 청각 모달리티를 모두 활용하여 매력적인 음성을 생성하는 데 있어서의 효과성을 입증합니다. 소스 코드는 https://github.com/kimtaesu24/MSenC에서 확인할 수 있습니다.
Whisper와 같은 사전 학습된 자동 음성 인식(ASR) 모델은 우수한 성능을 보이지만, 보이지 않는 어휘와 표현을 처리하기 위해서는 도메인 적응이 여전히 필요합니다. 많은 실제 환경에서는 음성 데이터를 수집하는 것이 비현실적이어서 텍스트만을 이용한 적응이 필수적입니다. 본 연구에서는 사전 학습된 인코더-디코더 ASR 모델을 위한 심층 감독 방식의 텍스트 전용 적응 방법인 WhisTLE을 제안합니다. WhisTLE은 텍스트로부터 인코더 출력을 모델링하기 위해 변분 오토인코더(VAE)를 학습하고, 학습된 텍스트-잠재 인코더를 사용하여 디코더를 미세 조정하며, 선택적으로 텍스트-음성 변환(TTS) 적응과 결합할 수 있습니다. 추론 단계에서는 원래의 인코더가 복원되어 추가적인 런타임 비용이 발생하지 않습니다. 4개의 도메인 외 데이터셋과 4개의 ASR 모델을 대상으로 한 실험에서, WhisTLE은 TTS와 결합했을 때 TTS 전용 적응 대비 단어 오류율(WER)을 12.3% 상대적으로 감소시켰으며, 32개 시나리오 중 27개에서 모든 비-WhisTLE 베이스라인을 능가하는 성능을 보였습니다.
구현된 에이전트의 궁극적인 목표는 단순히 지시를 수동적으로 실행하는 존재가 아니라 인간과 상호작용할 수 있는 협력자를 만드는 것입니다. 이를 위해서는 에이전트가 의사소통하고, 조율하며, 인간의 피드백에 따라 행동을 조정할 수 있어야 합니다. 최근 VLA(Vision-Language-Action) 분야의 발전이 이러한 목표를 향한 길을 제시하고 있습니다. 그러나 현재 대부분의 VLA 기반 구현 에이전트는 일방향 모드로 작동합니다: 지시를 받고 피드백 없이 실행합니다. 이러한 접근 방식은 지시가 종종 모호한 실제 시나리오에서는 실패합니다. 본 논문에서는 이러한 문제를 'Ask-to-Clarify' 프레임워크로 해결합니다. 우리의 프레임워크는 먼저 다중 턴 대화를 통해 질문을 함으로써 모호한 지시를 해결합니다. 그런 다음 엔드투엔드 방식으로 저수준 행동을 생성합니다. 구체적으로, Ask-to-Clarify 프레임워크는 협력을 위한 하나의 VLM(Vision-Language Model)과 행동 생성을 위한 하나의 디퓨전 모델로 구성됩니다. 또한 VLM의 출력을 기반으로 디퓨전을 위한 조건을 생성하는 연결 모듈을 도입했습니다. 이 모듈은 지시에 따라 관측을 조정하여 신뢰할 수 있는 조건을 만듭니다. 우리는 두 단계의 지식 분리 전략으로 프레임워크를 학습시킵니다. 먼저, 모호성 해결 대화 데이터를 사용하여 협력 구성 요소를 미세 조정하여 모호성을 처리합니다. 그런 다음, 협력 구성 요소를 고정한 상태에서 행동 구성 요소를 통합합니다. 이는 상호작용 능력을 유지하면서 디퓨전을 미세 조정하여 행동을 생성합니다. 이 학습 전략은 우리 프레임워크가 먼저 질문을 하고, 그 다음 행동을 생성할 수 있도록 보장합니다. 추론 과정에서 신호 감지기는 우리 프레임워크가 질문과 행동 사이를 전환하도록 돕는 라우터 역할을 합니다. 우리는 Ask-to-Clarify 프레임워크를 8가지 실제 작업에서 평가했으며, 기존의 최첨단 VLA를 능가하는 성능을 보였습니다. 결과는 우리가 제안한 프레임워크와 학습 전략이 협력적인 구현 에이전트를 향한 길을 제공한다는 것을 시사합니다.