번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델(LLM) 강화 학습(RL)에서 보상을 극대화하는 대신 보상 분포 전체를 매칭하는 FlowRL을 제안합니다. 최근의 고급 추론 모델들은 PPO와 GRPO와 같은 보상 극대화 방법을 채택하고 있는데, 이 방법들은 지배적인 보상 신호를 과도하게 최적화하면서 덜 빈번하지만 유효한 추론 경로를 소홀히 하여 다양성을 감소시키는 경향이 있습니다. 이에 반해, 우리는 스칼라 보상을 학습 가능한 분할 함수를 사용하여 정규화된 목표 분포로 변환한 후, 정책과 목표 분포 간의 역 KL 발산을 최소화합니다. 우리는 이러한 아이디어를 다양한 탐색과 일반화 가능한 추론 궤적을 촉진하는 흐름 균형 최적화 방법으로 구현합니다. 수학 및 코드 추론 과제에 대한 실험을 수행한 결과, FlowRL은 수학 벤치마크에서 GRPO 대비 평균 10.0%, PPO 대비 5.1%의 유의미한 성능 향상을 달성했으며, 코드 추론 과제에서도 일관되게 더 나은 성능을 보였습니다. 이러한 결과는 LLM 강화 학습에서 효율적인 탐색과 다양한 추론을 위한 핵심 단계로서 보상 분포 매칭의 중요성을 강조합니다.
비전-언어 모델(VLMs)은 GUI를 자율적으로 조작하는 컴퓨터 사용 에이전트(CUAs)를 가능하게 하여 큰 잠재력을 보여주고 있지만, 대규모 오픈소스 컴퓨터 사용 데이터와 기초 모델의 부족으로 인해 진전이 제한되고 있습니다. 본 연구에서는 오픈소스 CUAs의 확장을 위한 한 걸음인 ScaleCUA를 소개합니다. ScaleCUA는 6개의 운영 체제와 3개의 작업 영역을 아우르는 대규모 데이터셋을 제공하며, 자동화된 에이전트와 인간 전문가를 결합한 폐쇄 루프 파이프라인을 통해 구축되었습니다. 이 확장된 데이터로 학습된 ScaleCUA는 다양한 플랫폼에서 원활하게 작동할 수 있습니다. 특히, 베이스라인 대비 큰 성능 향상을 보여주며(WebArena-Lite-v2에서 +26.6, ScreenSpot-Pro에서 +10.7), 새로운 최첨단 결과를 달성했습니다(MMBench-GUI L1-Hard에서 94.4%, OSWorld-G에서 60.6%, WebArena-Lite-v2에서 47.4%). 이러한 결과는 일반 목적의 컴퓨터 사용 에이전트를 위한 데이터 기반 확장의 힘을 강조합니다. 향후 연구를 촉진하기 위해 데이터, 모델 및 코드를 공개할 예정입니다: https://github.com/OpenGVLab/ScaleCUA.
대형 언어 모델(LLM)은 다양한 실제 시나리오에 점점 더 많이 적용되고 있으며, 각 시나리오는 사용자나 조직이 맞춤화한 행동 및 안전 사양(spec)에 의해 규제됩니다. 이러한 사양은 안전 사양(safety-spec)과 행동 사양(behavioral-spec)으로 분류되며, 시나리오마다 다르고 변화하는 선호도와 요구 사항에 따라 진화합니다. 우리는 이러한 문제를 사양 정렬(specification alignment)로 공식화하며, LLM이 행동적 및 안전적 관점에서 동적이고 시나리오별 사양을 따르는 능력에 초점을 맞춥니다. 이 문제를 해결하기 위해, 우리는 계층적 반성과 수정을 통한 테스트 타임 숙고(Test-Time Deliberation, TTD)를 사용하여 사양 경계를 추론하는 경량화된 방법인 Align3를 제안합니다. 또한, 5개 시나리오, 103개 사양, 1,500개의 프롬프트를 포함한 통합 벤치마크인 SpecBench를 소개합니다. Self-Refine, TPO, MoreThink 등 여러 TTD 방법을 사용하여 15개의 추론 모델과 18개의 지시 모델에 대한 실험을 통해 세 가지 주요 결과를 얻었습니다: (i) 테스트 타임 숙고는 사양 정렬을 향상시킵니다; (ii) Align3는 최소한의 오버헤드로 안전성과 도움성 간의 트레이드오프 경계를 발전시킵니다; (iii) SpecBench는 정렬 격차를 효과적으로 드러냅니다. 이러한 결과는 테스트 타임 숙고가 실제 세계의 사양 경계를 추론하는 효과적인 전략으로서의 잠재력을 강조합니다.
우리는 이미지, 비디오, 3D 자산에 걸쳐 고해상도 재구성과 의미 이해를 동시에 달성하는 최초의 통합 시각 토크나이저인 AToken을 소개합니다. 기존의 단일 모달리티에 특화된 재구성 또는 이해에 초점을 맞춘 토크나이저들과 달리, AToken은 다양한 시각 입력을 공유된 4D 잠재 공간으로 인코딩하여 단일 프레임워크 내에서 두 작업과 모달리티를 통합합니다. 구체적으로, 우리는 임의의 해상도와 시간적 지속 시간을 가진 시각 입력을 처리하기 위해 4D 회전 위치 임베딩을 갖춘 순수 트랜스포머 아키텍처를 도입했습니다. 안정적인 학습을 보장하기 위해, 우리는 지각 손실과 Gram 행렬 손실을 결합한 적대적 학습 목표를 도입하여 최신 수준의 재구성 품질을 달성했습니다. 점진적 학습 커리큘럼을 통해 AToken은 단일 이미지, 비디오, 3D로 점차 확장되며 연속적 및 이산적 잠재 토큰을 모두 지원합니다. AToken은 이미지에서 0.21 rFID와 82.2% ImageNet 정확도, 비디오에서 3.01 rFVD와 32.6% MSRVTT 검색 정확도, 3D에서 28.19 PSNR와 90.9% 분류 정확도를 달성했습니다. 다운스트림 애플리케이션에서 AToken은 시각 생성 작업(예: 연속적 및 이산적 토큰을 사용한 이미지 생성, 텍스트-투-비디오 생성, 이미지-투-3D 합성)과 이해 작업(예: 멀티모달 LLM)을 모두 가능하게 하여 모든 벤치마크에서 경쟁력 있는 성능을 보여줍니다. 이러한 결과는 통합 시각 토크나이징을 기반으로 한 차세대 멀티모달 AI 시스템의 가능성을 제시합니다.
대규모 언어 모델(LLMs)은 검증 가능한 보상으로부터의 강화 학습(RLVR)을 통해 점점 더 많이 훈련되고 있지만, 실제 세계에서의 배포는 레이블이나 외부 판단 없이도 스스로 개선할 수 있는 모델을 요구합니다. 기존의 레이블 없는 방법들, 즉 신뢰도 최소화, 자기 일관성, 또는 다수결 목표는 학습을 안정화하지만 탐색을 꾸준히 축소시켜 엔트로피 붕괴를 초래합니다: 생성물이 더 짧고, 다양성이 줄어들며, 취약해집니다. 즉각적인 레이블 없는 데이터셋에 모델을 적응시키는 데 주력하는 테스트 타임 강화 학습(TTRL)과 같은 기존 접근법과 달리, 우리의 목표는 더 넓습니다: 모델의 고유한 탐색 능력과 일반화 능력, 즉 진화를 희생하지 않으면서도 일반적인 개선을 가능하게 하는 것입니다. 우리는 이 문제를 공식화하고, 레이블 없는 설정에서 안정성과 변이를 결합하는 간단한 규칙인 EVolution-Oriented and Label-free Reinforcement Learning (EVOL-RL)을 제안합니다. EVOL-RL은 다수결 답변을 안정적인 앵커(선택)로 유지하면서, 이미 생성된 것과 다른 추론을 선호하는 새로움 인식 보상을 추가합니다(변이), 이는 의미 공간에서 측정됩니다. GRPO로 구현된 EVOL-RL은 또한 강한 신호를 보존하기 위해 비대칭 클리핑을 사용하고, 탐색을 유지하기 위해 엔트로피 정규화기를 사용합니다. 이 다수결-선택 + 새로움-변이 설계는 붕괴를 방지하고, 더 길고 정보가 풍부한 사고의 연쇄를 유지하며, pass@1과 pass@n 모두를 개선합니다. EVOL-RL은 다수결만을 사용하는 TTRL 기준선을 꾸준히 능가합니다; 예를 들어, 레이블 없는 AIME24로 훈련하면 Qwen3-4B-Base AIME25 pass@1이 TTRL의 4.6%에서 16.4%로, pass@16이 18.5%에서 37.9%로 상승합니다. EVOL-RL은 다양성 붕괴를 방지할 뿐만 아니라, 도메인 간(예: GPQA)에서 더 강력한 일반화를 가능하게 합니다. 또한, EVOL-RL이 RLVR 설정에서도 성능을 향상시킴을 보여주며, 그 광범위한 적용 가능성을 강조합니다.
최근 비디오 확산 모델은 풍부한 잠재 세계 사전 지식 덕분에 공간 지능 작업에서 강력한 잠재력을 보여주고 있습니다. 그러나 이러한 잠재력은 제한된 제어 가능성과 기하학적 불일치로 인해 방해를 받아, 강력한 사전 지식과 3D/4D 작업에서의 실제 사용 사이에 간극이 생기고 있습니다. 결과적으로, 현재의 접근 방식은 사전 학습된 지식을 저하시킬 위험과 높은 계산 비용을 초래하는 재학습 또는 미세 조정에 의존하는 경우가 많습니다. 이를 해결하기 위해, 우리는 WorldForge를 제안합니다. 이는 훈련이 필요 없는 추론 시점 프레임워크로, 세 가지 긴밀하게 결합된 모듈로 구성되어 있습니다. Intra-Step Recursive Refinement은 추론 중에 네트워크 예측을 반복적으로 최적화하여 정확한 궤적 주입을 가능하게 하는 재귀적 정제 메커니즘을 도입합니다. Flow-Gated Latent Fusion은 광학 흐름 유사성을 활용하여 잠재 공간에서 모션과 외관을 분리하고, 모션 관련 채널에 선택적으로 궤적 지도를 주입합니다. Dual-Path Self-Corrective Guidance는 지도된 경로와 지도되지 않은 경로를 비교하여 노이즈가 있거나 잘못 정렬된 구조적 신호로 인한 궤적 드리프트를 적응적으로 수정합니다. 이들 구성 요소는 훈련 없이도 세밀한 궤적 정렬 지도를 주입하여 정확한 모션 제어와 사실적인 콘텐츠 생성을 동시에 달성합니다. 다양한 벤치마크에서의 광범위한 실험을 통해 우리의 방법이 사실성, 궤적 일관성, 시각적 충실도에서 우수함을 입증했습니다. 이 연구는 제어 가능한 비디오 합성을 위한 새로운 플러그 앤 플레이 패러다임을 소개하며, 공간 지능을 위한 생성적 사전 지식을 활용하는 새로운 관점을 제시합니다.
검색은 LLM 기반 에이전트의 핵심 인프라로 부상했으며, 보다 일반적인 지능으로 나아가는 데 있어 중요한 요소로 널리 인식되고 있다. 금융은 특히 까다로운 시험대인데, 분석가들은 시간에 민감하고 도메인 특화된 데이터에 대해 복잡한 다단계 검색을 정기적으로 수행하므로, 검색 숙련도와 지식 기반 추론 능력을 평가하기에 이상적이다. 그러나 기존의 공개 금융 데이터셋은 종단 간 에이전트의 데이터 검색 능력을 평가하지 않는데, 이는 현실적이고 복잡한 작업을 구성하려면 깊은 금융 전문성이 필요하며 시간에 민감한 데이터를 평가하기 어렵기 때문이다. 우리는 현실적이고 개방형 도메인의 금융 검색 및 추론을 위한 최초의 완전 오픈소스 에이전트 벤치마크인 FinSearchComp를 소개한다. FinSearchComp는 시간에 민감한 데이터 가져오기, 단순한 과거 조회, 복잡한 과거 조사라는 세 가지 작업으로 구성되며, 이는 실제 금융 분석가의 업무 흐름을 면밀히 재현한다. 난이도와 신뢰성을 보장하기 위해 70명의 전문 금융 전문가를 참여시켜 주석 작업을 진행하고, 엄격한 다단계 품질 보증 파이프라인을 구현했다. 이 벤치마크는 글로벌 및 대중국 시장을 아우르는 635개의 질문을 포함하며, 21개의 모델(제품)을 평가했다. Grok 4(웹)는 글로벌 부분에서 전문가 수준의 정확도에 근접하며 선두를 차지했다. DouBao(웹)는 대중국 부분에서 앞섰다. 실험 분석 결과, 에이전트에 웹 검색 및 금융 플러그인을 추가하면 FinSearchComp에서 결과가 크게 개선되며, 모델과 도구의 국가적 기원이 성능에 상당한 영향을 미치는 것으로 나타났다. 현실적인 분석가 작업과 일치하고 종단 간 평가를 제공함으로써, FinSearchComp는 복잡한 금융 검색 및 추론을 위한 전문적이고 고난이도의 테스트베드를 제공한다.
최근 연구들은 이미지 생성에서 고품질 시각적 표현의 중요성을 입증하고, 이미지 이해에 있어 생성 모델의 한계를 부각시켰습니다. 자연어 처리용으로 원래 설계된 생성 패러다임인 자기회귀 모델도 유사한 문제에 직면하고 있습니다. 본 연구에서는 다음 토큰 예측 패러다임을 시각적 영역에 적용하는 메커니즘에 대한 첫 번째 체계적인 조사를 제시합니다. 우리는 고수준 시각적 의미 학습을 방해하는 세 가지 주요 속성을 확인했습니다: 지역적 및 조건적 의존성, 단계 간 의미 불일치, 공간 불변성 결핍. 이러한 문제들이 훈련 과정에서 자기지도 목적 함수를 도입함으로써 효과적으로 해결될 수 있음을 보여주며, 이를 통해 새로운 훈련 프레임워크인 자기회귀 모델을 위한 자기 지도 훈련(ST-AR)을 제안합니다. 사전 훈련된 표현 모델에 의존하지 않고도 ST-AR은 자기회귀 모델의 이미지 이해 능력을 크게 향상시키고 생성 품질을 개선합니다. 구체적으로, ST-AR은 동일한 샘플링 전략을 유지하면서 LlamaGen-L의 경우 약 42%의 FID 개선, LlamaGen-XL의 경우 49%의 FID 개선을 가져옵니다.
본 논문은 인간 시연 데이터를 기반으로 대규모 비디오 생성 사전 학습을 통해 구축된 시각-언어-행동(VLA) 모델인 RynnVLA-001을 소개합니다. 우리는 새로운 2단계 사전 학습 방법론을 제안합니다. 첫 번째 단계인 자아 중심 비디오 생성 사전 학습(Ego-Centric Video Generative Pretraining)은 1,200만 개의 자아 중심 조작 비디오 데이터셋을 사용하여 초기 프레임과 언어 명령어를 조건으로 미래 프레임을 예측하는 이미지-비디오 모델을 학습합니다. 두 번째 단계인 인간 중심 궤적 인식 모델링(Human-Centric Trajectory-Aware Modeling)은 이를 확장하여 미래 키포인트 궤적을 공동으로 예측함으로써 시각적 프레임 예측과 행동 예측을 효과적으로 연결합니다. 또한, 행동 표현을 강화하기 위해 행동 시퀀스를 압축된 잠재 임베딩으로 변환하는 변분 오토인코더인 ActionVAE를 제안하여 VLA 출력 공간의 복잡성을 줄입니다. 동일한 로보틱스 다운스트림 데이터셋에 대해 미세 조정을 수행한 결과, RynnVLA-001은 최신 베이스라인을 능가하는 성능을 달성하며, 제안된 사전 학습 전략이 VLA 모델을 위한 보다 효과적인 초기화를 제공함을 입증합니다.
현재의 지시 기반 이미지 편집(IBIE) 방법들은 기존 데이터셋의 편집 유형과 샘플 수가 제한적이어서 어려운 편집 작업에 어려움을 겪고 있습니다. 더욱이, 전통적인 데이터셋 구축 방식은 노이즈가 포함된 이미지-캡션 쌍을 포함할 수 있어 편향을 유발하고 복잡한 편집 시나리오에서 모델의 성능을 제한할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 107,000개 이상의 고품질 이미지 편집 샘플을 포함한 MultiEdit 데이터셋을 소개합니다. 이 데이터셋은 18가지의 다양한 비스타일 전송 편집 유형과 38가지의 스타일 전송 작업을 통해 6가지의 도전적인 편집 작업을 다루며, 정교한 스타일 전송부터 사람 참조 편집 및 이미지 내 텍스트 편집과 같은 복잡한 의미론적 작업까지 다양한 스펙트럼을 포함합니다. 우리는 두 개의 다중 모달 대형 언어 모델(MLLMs)을 활용하여 시각적으로 적응 가능한 편집 지시를 생성하고 고품질의 편집된 이미지를 생성하는 새로운 데이터셋 구축 파이프라인을 사용했습니다. 광범위한 실험을 통해, 우리의 MultiEdit-Train 세트로 기초 오픈소스 모델을 미세 조정하면 제안된 MultiEdit-Test 벤치마크에서 정교한 편집 작업에서 모델의 성능이 크게 향상되며, 표준 편집 벤치마크에서의 성능도 효과적으로 유지됨을 입증했습니다. 우리는 MultiEdit이 더 다양하고 도전적인 IBIE 능력 연구를 진전시키는 데 유용한 자원이 될 것이라고 믿습니다. 우리의 데이터셋은 https://huggingface.co/datasets/inclusionAI/MultiEdit에서 이용 가능합니다.
시공간 비디오 그라운딩(STVG)은 입력 텍스트 쿼리에 의해 지정된 비디오의 시공간 튜브를 지역화하는 것을 목표로 합니다. 본 논문에서는 다중모달 대형 언어 모델(MLLMs)을 활용하여 STVG에서의 제로샷 솔루션을 탐구합니다. 우리는 MLLMs에 대한 두 가지 주요 통찰을 밝혀냈습니다: (1) MLLMs는 텍스트 쿼리를 그라운딩하기 위해 그라운딩 토큰이라고 불리는 특수 토큰을 동적으로 할당하는 경향이 있으며, (2) MLLMs는 텍스트 쿼리의 단서(예: 속성, 행동)를 완전히 통합하여 추론하는 데 어려움을 겪어 최적의 그라운딩을 달성하지 못하는 경우가 많습니다. 이러한 통찰을 바탕으로, 우리는 MLLMs의 추론 능력을 극대화하기 위해 새로운 분해된 시공간 하이라이팅(DSTH)과 시간적 증강 조립(TAS) 전략을 포함한 MLLM 기반 제로샷 STVG 프레임워크를 제안합니다. DSTH 전략은 먼저 원래 쿼리를 속성과 행동 하위 쿼리로 분리하여 공간적 및 시간적으로 대상의 존재를 조사합니다. 그런 다음, 새로운 로짓 가이드 재어텐션(LRA) 모듈을 사용하여 각 하위 쿼리에 대한 토큰 예측을 정규화함으로써 공간적 및 시간적 프롬프트로 잠재 변수를 학습합니다. 이러한 프롬프트는 각각 속성과 행동 단서를 강조하여 모델의 주의를 신뢰할 수 있는 공간적 및 시간적 관련 시각적 영역으로 유도합니다. 또한, 속성 하위 쿼리에 의한 공간적 그라운딩은 시간적으로 일관되어야 하므로, 우리는 TAS 전략을 도입하여 원래 비디오 프레임과 시간적 증강 프레임을 입력으로 사용하여 예측을 조립함으로써 시간적 일관성을 개선합니다. 우리는 다양한 MLLMs에 대해 우리의 방법을 평가하고, 세 가지 일반적인 STVG 벤치마크에서 SOTA 방법을 능가하는 성능을 보여줍니다. 코드는 https://github.com/zaiquanyang/LLaVA_Next_STVG에서 확인할 수 있습니다.
초음파 영상은 비전리 방사선, 저비용, 실시간 영상 기능 등의 장점으로 인해 초기 암 검진을 위한 선호되는 영상 기법으로 자리 잡았습니다. 그러나 기존의 초음파 진단은 의사의 전문 지식에 크게 의존하여 높은 주관성과 낮은 진단 효율성이라는 문제를 안고 있습니다. 시각-언어 모델(VLMs)은 이러한 문제에 대한 유망한 해결책을 제공하지만, 기존의 범용 모델들은 초음파 의료 작업에 대한 지식이 제한적이며, 다중 장기 병변 인식에서의 일반화 능력이 떨어지고 다중 작업 진단에서의 효율성이 낮습니다. 이러한 한계를 극복하기 위해, 우리는 초음파 의료 영상을 위해 특별히 설계된 시각-언어 모델인 EchoVLM을 제안합니다. 이 모델은 7개의 해부학적 영역에 걸친 데이터로 훈련된 Mixture of Experts(MoE) 아키텍처를 채택합니다. 이 설계를 통해 모델은 초음파 보고서 생성, 진단, 시각 질의응답(VQA)을 포함한 다중 작업을 수행할 수 있습니다. 실험 결과, EchoVLM은 초음파 보고서 생성 작업에서 Qwen2-VL 대비 BLEU-1 점수에서 10.15점, ROUGE-1 점수에서 4.77점의 상당한 개선을 보였습니다. 이러한 결과는 EchoVLM이 초음파 영상의 진단 정확성을 향상시킬 수 있는 상당한 잠재력을 가지고 있음을 시사하며, 향후 임상 응용을 위한 실용적인 기술 솔루션을 제공할 수 있음을 보여줍니다. 소스 코드와 모델 가중치는 https://github.com/Asunatan/EchoVLM에서 확인할 수 있습니다.
고해상도 원격탐사 이미지의 변화 탐지는 지구 관측 응용 분야의 초석으로 자리 잡고 있지만, 그 효율성은 종종 두 가지 중요한 과제로 인해 저해받습니다. 첫째, 모델이 시간적 변화(예: 조명, 계절)로 인한 복사 변이를 실제 변화로 오해함으로써 오탐지가 빈번하게 발생합니다. 둘째, 깊은 추상적 특징과 얕은 세부 정보가 풍부한 특징 사이의 무시할 수 없는 의미론적 차이가 효과적인 융합을 방해하여 경계가 불명확하게 나타나는 문제가 있습니다. 이러한 문제를 더욱 효과적으로 해결하기 위해, 우리는 의미론적 변화와 방해 요소를 체계적으로 분리하는 것을 목표로 하는 새로운 패러다임인 주파수-공간 시너지 게이트 네트워크(Frequency-Spatial Synergistic Gated Network, FSG-Net)를 제안합니다. 구체적으로, FSG-Net은 먼저 주파수 영역에서 작동하며, 차이 인식 웨이블릿 상호작용 모듈(Discrepancy-Aware Wavelet Interaction Module, DAWIM)이 다양한 주파수 성분을 구별하여 가짜 변화를 적응적으로 완화합니다. 이후, 정제된 특징은 시너지 시간-공간 주의 모듈(Synergistic Temporal-Spatial Attention Module, STSAM)에 의해 공간 영역에서 강화되어 실제 변화 영역의 두드러짐을 증폭시킵니다. 마지막으로, 경량 게이트 융합 단위(Lightweight Gated Fusion Unit, LGFU)는 고수준의 의미론을 활용하여 얕은 층에서 중요한 세부 정보를 선택적으로 게이트하고 통합함으로써 의미론적 차이를 해소합니다. CDD, GZ-CD, LEVIR-CD 벤치마크에서의 포괄적인 실험을 통해 FSG-Net의 우수성을 검증하였으며, 각각 94.16%, 89.51%, 91.27%의 F1 점수로 새로운 최첨단 기술을 확립했습니다. 코드는 출판 후 https://github.com/zxXie-Air/FSG-Net에서 공개될 예정입니다.