번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 실시간 및 상호작용형 장기 비디오 생성을 위한 프레임 단위 자기회귀(AR) 프레임워크인 LongLive를 소개한다. 장기 비디오 생성은 효율성과 품질 측면에서 모두 도전 과제를 제시한다. 확산(Diffusion) 및 확산 강제(Diffusion-Forcing) 모델은 고품질 비디오를 생성할 수 있지만, 양방향 주의 메커니즘으로 인해 효율성이 낮다. 반면, 인과적 주의 메커니즘을 사용하는 AR 모델은 KV 캐싱을 통해 빠른 추론을 지원하지만, 장기 비디오 학습 중 메모리 문제로 인해 품질이 저하되는 경우가 많다. 또한, 정적인 프롬프트 기반 생성 이상으로, 스트리밍 프롬프트 입력과 같은 상호작용 기능은 사용자가 실시간으로 내러티브를 안내할 수 있도록 하여 동적 콘텐츠 생성에 필수적이다. 이러한 상호작용 요구사항은 특히 프롬프트 전환 시 시각적 일관성과 의미적 일관성을 보장하는 데 있어 복잡성을 크게 증가시킨다. 이러한 문제를 해결하기 위해 LongLive는 새로운 프롬프트로 캐시 상태를 갱신하여 원활한 전환을 가능하게 하는 KV 재캐시 메커니즘, 장기 비디오 학습 및 학습-추론 정렬을 가능하게 하는 스트리밍 장기 튜닝, 그리고 프레임 단위 주의 싱크(frame sink)와 짝을 이루는 짧은 윈도우 주의 메커니즘을 통합한 인과적 프레임 단위 AR 설계를 채택한다. 이러한 핵심 설계를 통해 LongLive는 1.3B 파라미터의 짧은 클립 모델을 단 32 GPU-일 만에 분 단위 생성으로 미세 조정한다. 추론 시 LongLive는 단일 NVIDIA H100에서 20.7 FPS를 유지하며, 짧은 비디오와 긴 비디오 모두에서 VBench에서 강력한 성능을 달성한다. LongLive는 단일 H100 GPU에서 최대 240초 길이의 비디오를 지원하며, INT8 양자화 추론도 지원하여 품질 손실을 최소화한다.
희소 보상이 존재하는 다중 턴 환경에서 LLM 에이전트를 훈련시키는 것은, 단일 작업을 완료하기 위해 에피소드 내에서 30회 이상의 상호작용이 필요한 경우, 강화 학습에 있어 근본적인 도전 과제를 제시한다. 우리는 이러한 설정에서만 발생하는 중요한 실패 모드를 식별하였는데, 이를 탐색-활용 캐스케이드 실패라고 명명한다. 이 캐스케이드는 초기 단계에서 정책의 조기 수렴으로 시작되며, 희소한 피드백으로 인해 에이전트가 결함이 있고 엔트로피가 낮은 전략에 고착되게 된다. 이후 에이전트는 후기 단계에서 정책 붕괴에 이르게 되는데, 이때 기존의 엔트로피 정규화는 역효과를 일으켜 훈련을 불안정하게 만드는 혼란스러운 탐색을 촉진한다. 우리는 이러한 실패 사이클을 깨기 위해 엔트로피 정규화 정책 최적화(EPO)라는 일반적인 프레임워크를 제안한다. EPO는 세 가지 상호 보완적인 메커니즘을 통해 이를 달성한다: (1) 다중 턴 설정에서 엔트로피 정규화를 채택하여 탐색을 강화하고, (2) 정책 엔트로피를 역사적 평균 내에 제한하여 급격한 변동을 방지하는 엔트로피 평활 정규화, (3) 훈련 전반에 걸쳐 탐색과 활용의 균형을 맞추는 적응형 단계 기반 가중치 조정. 우리의 분석은 EPO가 수렴을 유지하면서 엔트로피 분산이 단조롭게 감소함을 보장한다는 것을 입증한다. EPO는 ScienceWorld에서 최대 152%, ALFWorld에서 최대 19.8%의 성능 향상을 달성한다. 우리의 연구는 다중 턴 희소 보상 설정이 기존의 강화 학습과는 근본적으로 다른 엔트로피 제어를 필요로 하며, 이는 LLM 에이전트 훈련에 광범위한 함의를 가짐을 보여준다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 강화하지만, 학습 과정에서 {엔트로피 붕괴}와 {엔트로피 폭발} 사이의 진동이 자주 발생한다. 우리는 이러한 위험 요인을 가치-자유 강화 학습(예: GRPO 및 DAPO)에서 사용되는 평균 기준선에 기인한다고 추적하며, 이는 보상 이상치 하에서 부정적 이점 샘플을 부적절하게 처벌한다. 우리는 {분위수 이점 추정}(QAE)을 제안하여 평균을 그룹별 K-분위수 기준선으로 대체한다. QAE는 응답 수준에서 두 가지 체제의 게이트를 유도한다: 어려운 질의(p <= 1 - K)에서는 드문 성공을 강화하고, 쉬운 질의(p > 1 - K)에서는 남은 실패를 목표로 한다. 1차 소프트맥스 업데이트 하에서, 우리는 {양측 엔트로피 안전성}을 증명하며, 엔트로피 변화의 하한과 상한을 제공하여 폭발을 억제하고 붕괴를 방지한다. 실증적으로, 이 최소한의 수정은 엔트로피를 안정화시키고, 신용 할당을 희소화하며(조정된 K로 약 80%의 응답이 제로 이점을 받음), AIME 2024/2025 및 AMC 2023에서 Qwen3-8B/14B-Base에 걸쳐 지속적인 pass@1 향상을 가져온다. 이러한 결과는 {기준선 설계}가 토큰 수준의 휴리스틱이 아닌 RLVR 확장의 주요 메커니즘임을 확인시켜준다.
우리는 12억 개의 파라미터를 가진 문서 파싱 비전-언어 모델인 MinerU2.5를 소개한다. 이 모델은 최첨단 인식 정확도를 달성하면서도 탁월한 계산 효율성을 유지한다. 우리의 접근 방식은 전역 레이아웃 분석과 지역 콘텐츠 인식을 분리하는, coarse-to-fine(거친 단계에서 세밀한 단계로) 두 단계 파싱 전략을 채택한다. 첫 번째 단계에서 모델은 다운샘플링된 이미지에 대해 효율적인 레이아웃 분석을 수행하여 구조적 요소를 식별함으로써 고해상도 입력을 처리하는 데 따르는 계산 부하를 회피한다. 두 번째 단계에서는 전역 레이아웃의 지도를 받아 원본 이미지에서 추출한 원본 해상도의 크롭 영역에 대해 타겟팅된 콘텐츠 인식을 수행함으로써, 밀집된 텍스트, 복잡한 수식, 테이블 등에서 세밀한 디테일을 보존한다. 이 전략을 지원하기 위해, 우리는 사전 학습과 미세 조정을 위한 다양하고 대규모의 훈련 코퍼스를 생성하는 포괄적인 데이터 엔진을 개발했다. 결과적으로 MinerU2.5는 강력한 문서 파싱 능력을 보여주며, 여러 벤치마크에서 최첨단 성능을 달성하여 다양한 인식 작업에서 범용 모델과 도메인 특화 모델을 모두 능가하면서도 상당히 낮은 계산 부하를 유지한다.
우리는 사고 흔적을 잠재 변수로 취급하고 이를 변분 추론을 통해 최적화하는 언어 모델을 위한 변분 추론 프레임워크를 소개한다. 증거 하한(ELBO)을 출발점으로 삼아, 이를 더 엄밀한 경계를 위한 다중 흔적 목적 함수로 확장하고, 변분 사후 분포의 학습을 안정화하는 순방향 KL(Kullback-Leibler) 공식을 제안한다. 또한, 거부 샘플링 미세 조정과 GRPO를 포함한 이진 보강 강화 학습(RL)이 지역 순방향 KL 목적 함수로 해석될 수 있음을 보이며, 이때 모델 정확도에 따른 암묵적 가중치가 유도 과정에서 자연스럽게 발생하고, 이전에는 주목받지 못했던 쉬운 질문에 대한 편향이 드러남을 밝힌다. 우리는 Qwen 2.5 및 Qwen 3 모델 계열을 대상으로 다양한 추론 과제에서 이 방법을 실증적으로 검증한다. 전반적으로, 본 연구는 변분 추론과 RL 스타일 방법을 통합하고 언어 모델의 추론 능력을 향상시키기 위한 안정적인 목적 함수를 제공하는 원리 기반 확률론적 관점을 제시한다. 코드는 https://github.com/sail-sg/variational-reasoning에서 확인할 수 있다.
동료 평가는 학술 연구의 중추적 역할을 하지만, 대부분의 AI 학회에서는 제출 논문 수가 폭증하면서 리뷰 품질이 저하되고 있습니다. 저품질 리뷰를 신뢰성 있게 탐지하기 위해, 우리는 리뷰 내 "약점" 중 잘못된 전제를 포함하거나 논문에서 이미 답변할 수 있는 "질문"을 오정보 리뷰 포인트로 정의합니다. 약점의 15.2%와 질문의 26.4%가 오정보임을 검증하고, 리뷰 포인트가 오정보인지 여부를 나타내는 ReviewScore를 소개합니다. 각 약점의 전제에 대한 사실성을 평가하기 위해, 우리는 약점에서 모든 명시적 및 암묵적 전제를 재구성하는 자동화 엔진을 제안합니다. ReviewScore 평가의 자동화 가능성을 확인하기 위해 인간 전문가가 주석을 단 ReviewScore 데이터셋을 구축합니다. 그런 다음, 최신 8개의 대규모 언어 모델(LLM)을 사용하여 ReviewScore에 대한 인간-모델 간 일치도를 측정하고, 중간 수준의 일치를 검증합니다. 또한 전제 수준의 사실성 평가가 약점 수준의 사실성 평가보다 훨씬 높은 일치도를 보인다는 것을 입증합니다. 철저한 불일치 분석은 완전 자동화된 ReviewScore 평가의 잠재력을 추가로 뒷받침합니다.
LLM(Large Language Model)은 종종 인간 또는 AI 피드백을 통한 강화 학습(RL)으로 훈련되지만, 이러한 방법들은 일반적으로 미묘한 피드백을 스칼라 보상으로 압축하여 그 풍부함을 상당 부분 잃고 스케일 불균형을 유발합니다. 우리는 언어적 피드백을 조건 신호로 취급하는 방식을 제안합니다. 텍스트-이미지 생성에서 언어 사전 정보가 보이지 않는 프롬프트로부터 새로운 출력을 가능하게 하는 것에서 영감을 받아, 피드백 조건 정책(FCP)을 소개합니다. FCP는 응답-피드백 쌍에서 직접 학습하며, 오프라인 데이터에 대한 최대 가능도 훈련을 통해 피드백 조건 사후 분포를 근사합니다. 또한, 정책이 긍정적인 조건에서 생성하고 새로운 피드백을 받아 스스로를 개선하는 온라인 부트스트래핑 단계를 개발합니다. 이는 피드백 주도 학습을 보다 표현력 있는 방식으로 재구성하여, LLM이 언어적 피드백에서 직접 학습할 수 있도록 합니다. 우리의 코드는 https://github.com/sail-sg/feedback-conditional-policy에서 확인할 수 있습니다.
이미지 캡셔닝은 시각과 언어 영역을 연결하는 기본적인 과제로, 대규모 시각-언어 모델(LVLM)의 사전 학습에 중요한 역할을 합니다. 현재 최첨단 캡셔닝 모델들은 일반적으로 인간이나 독점 모델이 주석을 단 비용이 많이 들고 확장성이 없는 데이터에 의존하는 지도 미세 조정(SFT) 방식으로 훈련됩니다. 이 접근법은 종종 모델이 특정 정답을 암기하게 만들어 일반성을 제한하고 다양하고 창의적인 설명을 생성하는 능력을 저해합니다. SFT의 한계를 극복하기 위해, 우리는 검증 가능한 보상을 활용한 강화 학습(RLVR) 패러다임을 개방형 과제인 이미지 캡셔닝에 적용할 것을 제안합니다. 그러나 주요 과제는 "좋은" 캡션을 구성하는 본질적으로 주관적인 특성에 대한 객관적인 보상 함수를 설계하는 것입니다. 우리는 캡션 품질을 그 유용성을 통해 재정의하는 새로운 훈련 프레임워크인 캡셔닝 강화 학습(CapRL)을 소개합니다. 고품질 캡션은 시각 정보가 없는 언어 모델이 해당 이미지에 대한 질문에 정확하게 답할 수 있도록 해야 합니다. CapRL은 LVLM이 캡션을 생성하고, 별도의 시각 정보 없는 LLM이 해당 캡션만을 기반으로 다중 선택 질문에 답하는 정확도에서 객관적 보상을 도출하는 분리된 두 단계 파이프라인을 사용합니다. 주관적인 이미지 캡셔닝 과제에 RLVR을 적용한 첫 연구로서, 우리는 CapRL이 다양한 설정에서 상당한 개선을 이룸을 보여줍니다. CapRL-3B가 주석을 단 CapRL-5M 캡션 데이터셋으로 사전 학습한 결과, 12개 벤치마크에서 상당한 성능 향상을 달성했습니다. 또한 캡션 품질 평가를 위한 Prism 프레임워크 내에서 CapRL은 Qwen2.5-VL-72B에 필적하는 성능을 보이며, 기준선을 평균 8.4%의 차이로 능가했습니다. 코드는 https://github.com/InternLM/CapRL에서 확인할 수 있습니다.
검증 가능한 보상을 통한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 강력한 프레임워크입니다. 그러나 GRPO와 같은 현재의 방법들은 동일한 입력에 대한 모델 응답이 정확성 측면에서 차이가 나는 문제에만 의존하고, 모든 응답이 동일한 보상을 받는 소위 '제로-분산 프롬프트(zero-variance prompts)'는 무시합니다. 본 연구에서는 이러한 프롬프트가 무의미하지 않으며, 사실상 정책 최적화를 위한 의미 있는 피드백을 제공할 수 있다고 주장합니다. 이를 위해, 우리는 제로-분산 프롬프트에서 학습 신호를 추출하는 새로운 알고리즘인 RL-ZVP(Reinforcement Learning with Zero-Variance Prompts)를 소개합니다. RL-ZVP는 대조적인 응답 없이도 정확성을 보상하고 오류를 패널티로 처리하며, 토큰 수준의 특성을 활용하여 피드백을 조절함으로써 정보가 풍부하고 세밀한 신호를 보존합니다. 6개의 수학 추론 벤치마크에서 RL-ZVP는 GRPO 대비 최대 8.61점의 정확도 향상과 7.77점의 통과율 향상을 달성했으며, 제로-분산 프롬프트를 필터링하는 다른 베이스라인들을 일관되게 능가했습니다. 이러한 결과는 RLVR에서 제로-분산 프롬프트로부터 학습할 수 있는 잠재력을 강조합니다.
대규모 언어 모델(LLMs)은 대화형 시스템에서 올림피아드 수학 및 경쟁 프로그래밍과 같은 작업을 위한 강력한 추론자로 진화하고 있습니다. 매개변수와 테스트 시간 계산의 확장이 발전을 이끌어 왔지만, 주요 병목 현상은 고품질의 훈련 문제의 부족입니다: 인간이 직접 선별한 데이터셋은 비용이 많이 들고 제한적이며, 기존의 합성 코퍼스는 너무 쉬우거나 범위가 좁습니다. PromptCoT 1.0은 프롬프트 합성에 논리를 주입함으로써 문제의 난이도를 높일 수 있음을 보여주었습니다. 이를 기반으로, 우리는 PromptCoT 2.0을 제시합니다. 이는 수작업 휴리스틱을 기대값 최대화(EM) 루프로 대체하여, 논리가 반복적으로 개선되어 프롬프트 구성을 안내하는 확장 가능한 프레임워크입니다. 이를 통해 이전 코퍼스보다 더 어렵고 다양한 문제를 생성합니다. 합성 프롬프트는 두 가지 사후 훈련 체제를 지원합니다: (1) 셀프 플레이, 강력한 모델이 더 강력한 교사 없이 검증 가능한 피드백을 통해 자율적으로 개선되는 방식; (2) 지도 미세 조정(SFT), 약한 모델이 교사가 증류한 흔적에서 학습하는 방식. 광범위한 실험을 통해 이 접근법의 효과를 입증했습니다. 셀프 플레이에서, PromptCoT 2.0을 Qwen3-30B-A3B-Thinking-2507에 적용하여 30B 규모에서 최신 기술을 달성했습니다: AIME 24/25와 HMMT 25에서 각각 +4.4, +4.8, +5.3, LiveCodeBench v5/v6에서 +6.1과 +5.0, Codeforces에서 +35 Elo를 기록했습니다. SFT에서는, Qwen2.5-7B-Instruct를 합성 프롬프트만으로 훈련시켜 AIME 24에서 73.1, AIME 25에서 65.6, LiveCodeBench v5에서 53.4의 정확도를 달성하여 인간 또는 하이브리드 데이터로 훈련된 모델을 능가했습니다. 분석은 또한 PromptCoT 2.0이 근본적으로 더 어렵고 분포적으로 독특한 문제를 생성함을 확인했습니다. 이러한 결과는 프롬프트 합성을 추론 확장을 위한 새로운 축으로 확립하고, PromptCoT 2.0을 미래의 오픈소스 모델을 위한 확장 가능한 기반으로 위치시킵니다. 구현은 https://github.com/inclusionAI/PromptCoT에서 확인할 수 있습니다.
로봇이 인간의 지시를 해석하고 조작 작업을 수행하기 위해서는 작업과 관련된 테이블탑 장면을 훈련에 활용할 수 있어야 한다. 그러나 이러한 장면을 생성하는 전통적인 방법은 시간이 많이 소요되는 수동 레이아웃 설계나 순수 무작위 레이아웃에 의존하며, 이는 현실성이나 작업과의 일관성 측면에서 한계가 있다. 본 논문에서는 고차원적인 작업 지시와 테이블탑 장면 간의 상당한 격차로 인해 상당한 도전 과제로 여겨지는 작업 지향적 테이블탑 장면 생성이라는 새로운 과제를 제안한다. 이러한 도전적인 과제에 대한 연구를 지원하기 위해, 우리는 MesaTask-10K라는 대규모 데이터셋을 소개한다. 이 데이터셋은 약 10,700개의 합성 테이블탑 장면으로 구성되어 있으며, 현실적인 레이아웃과 복잡한 객체 간 관계를 보장하기 위해 수작업으로 제작된 레이아웃을 포함한다. 작업과 장면 간의 격차를 해소하기 위해, 우리는 공간 추론 체인(Spatial Reasoning Chain)을 제안한다. 이 체인은 객체 추론, 공간적 상호관계 추론, 그리고 최종 3D 레이아웃을 위한 장면 그래프 구축으로 생성 과정을 분해한다. 우리는 이 추론 체인을 활용하고 DPO 알고리즘으로 더욱 강화된 MesaTask라는 LLM 기반 프레임워크를 제시한다. 이 프레임워크는 주어진 작업 설명과 잘 일치하는 물리적으로 타당한 테이블탑 장면을 생성한다. 철저한 실험을 통해 MesaTask가 현실적인 레이아웃을 가진 작업에 부합하는 테이블탑 장면을 생성하는 데 있어 기준 모델들보다 우수한 성능을 보임을 입증한다. 프로젝트 페이지는 https://mesatask.github.io/에서 확인할 수 있다.
저희는 LLaVA-OneVision-1.5라는 새로운 대규모 멀티모달 모델(LMM) 패밀리를 소개합니다. 이 모델은 상당히 줄어든 계산 및 재정 비용으로도 최첨단 성능을 달성합니다. 기존 연구와 달리, LLaVA-OneVision-1.5는 처음부터 고품질의 시각-언어 모델을 구축하기 위한 개방적이고 효율적이며 재현 가능한 프레임워크를 제공합니다. LLaVA-OneVision-1.5 릴리스는 세 가지 주요 구성 요소로 이루어져 있습니다: (1) 대규모 큐레이션 데이터셋: 8,500만 개의 개념 균형 프리트레이닝 데이터셋 LLaVA-OneVision-1.5-Mid-Training과 신중하게 큐레이션된 2,600만 개의 인스트럭션 데이터셋 LLaVA-OneVision-1.5-Instruct를 구축하여, 총 640억 개의 압축된 멀티모달 토큰을 포함합니다. (2) 효율적인 훈련 프레임워크: 오프라인 병렬 데이터 패킹 전략을 활용하여 $16,000 예산 내에서 LLaVA-OneVision-1.5의 훈련을 용이하게 하는 완전한 엔드투엔드 효율적 훈련 프레임워크를 개발했습니다. (3) 최첨단 성능: 실험 결과, LLaVA-OneVision-1.5는 다양한 다운스트림 작업에서 매우 경쟁력 있는 성능을 보여줍니다. 구체적으로, LLaVA-OneVision-1.5-8B는 27개 벤치마크 중 18개에서 Qwen2.5-VL-7B를 능가하며, LLaVA-OneVision-1.5-4B는 27개 벤치마크 모두에서 Qwen2.5-VL-3B를 앞섭니다. 저희는 곧 LLaVA-OneVision-1.5-RL을 출시할 예정이며, 커뮤니티가 추가 업데이트를 기다리기를 권장합니다.
자율 에이전트는 최근 다양한 분야에서 놀라운 진전을 이루었지만, 대부분의 평가는 단기적이고 완전히 관찰 가능한 작업에 초점을 맞추고 있습니다. 반면, 대규모 소프트웨어 개발, 상업적 투자, 과학적 발견과 같은 많은 중요한 현실 세계의 작업은 장기적이고 부분적으로 관찰 가능한 시나리오에서 전개되며, 성공은 지속적인 추론, 계획, 메모리 관리, 도구 사용에 달려 있습니다. 기존 벤치마크는 이러한 장기적 도전을 거의 포착하지 못해 체계적인 평가에 공백이 있습니다. 이 공백을 메우기 위해, 우리는 복잡한 현실 세계 도전에 필수적인 기초 능력을 측정하는 새로운 벤치마크인 UltraHorizon을 소개합니다. 우리는 탐색을 세 가지 독특한 환경에서 통합 작업으로 사용하여 이러한 핵심 역량을 검증합니다. 에이전트는 장기적 발견 작업에서 설계되며, 지속적인 추론, 계획, 메모리 및 도구 관리, 환경과의 상호작용을 통해 숨겨진 규칙을 반복적으로 발견해야 합니다. 가장 무거운 규모 설정에서 궤적은 평균 200,000개 이상의 토큰과 400개 이상의 도구 호출을 포함하며, 표준 구성에서는 여전히 평균 35,000개 이상의 토큰과 60개 이상의 도구 호출을 포함합니다. 우리의 광범위한 실험은 LLM 에이전트가 이러한 설정에서 일관되게 저조한 성능을 보이는 반면, 인간 참가자는 더 높은 점수를 달성하여 에이전트의 장기적 능력에 지속적인 격차가 있음을 보여줍니다. 또한 우리는 단순한 스케일링이 우리의 작업에서 실패함을 관찰합니다. 에이전트의 실패를 더 잘 설명하기 위해, 우리는 수집된 궤적에 대한 심층 분석을 수행합니다. 우리는 8가지 유형의 오류를 식별하고 이를 두 가지 주요 원인으로 귀속시킵니다: 컨텍스트 잠금과 기능적 기초 능력 격차. https://github.com/StarDewXXX/UltraHorizon{우리의 코드는 여기에서 이용 가능합니다.}
본 논문에서는 시각-언어 모델(Vision-Language Models, VLMs)을 기반으로 구축된 학습이 필요 없는 항공 시각-언어 내비게이션(Aerial Vision-and-Language Navigation, AVLN) 프레임워크인 See, Point, Fly(SPF)를 제안한다. SPF는 어떠한 환경에서도 자유 형식의 지시에 따라 목표 지점으로 이동할 수 있는 능력을 갖추고 있다. 기존의 VLM 기반 접근법이 행동 예측을 텍스트 생성 작업으로 간주한 반면, 본 연구의 핵심 통찰은 AVLN을 위한 행동 예측을 2D 공간적 접지(spatial grounding) 작업으로 간주하는 것이다. SPF는 VLMs를 활용하여 모호한 언어 지시를 입력 이미지 상의 반복적인 2D 웨이포인트(waypoint) 주석으로 분해한다. 예측된 이동 거리와 함께, SPF는 예측된 2D 웨이포인트를 UAV(무인항공기)를 위한 3D 변위 벡터로 변환하여 행동 명령으로 사용한다. 또한, SPF는 더 효율적인 내비게이션을 위해 이동 거리를 적응적으로 조정한다. 특히, SPF는 폐루프 제어 방식으로 내비게이션을 수행하여 UAV가 동적 환경에서 동적 목표물을 추적할 수 있도록 한다. SPF는 DRL 시뮬레이션 벤치마크에서 새로운 최첨단 기술을 제시하며, 이전 최고의 방법을 절대적 차이로 63% 앞섰다. 광범위한 실세계 평가에서도 SPF는 강력한 베이스라인을 큰 차이로 능가했다. 또한, 본 연구는 설계 선택의 효과를 입증하기 위해 포괄적인 어블레이션 연구를 수행했다. 마지막으로, SPF는 다양한 VLMs에 대해 뛰어난 일반화 능력을 보여준다. 프로젝트 페이지: https://spf-web.pages.dev
대규모 언어 모델(LLM)의 학습 후 압축은 주로 저랭크 가중치 근사에 의존하며, 이는 가중치 행렬의 각 열을 공유된 저차원 부분공간으로 표현합니다. 이는 계산적으로 효율적인 전략이지만, 부과된 구조적 제약이 경직되어 모델 정확도의 현저한 하락을 초래할 수 있습니다. 본 연구에서는 CoSpaDi(Compression via Sparse Dictionary Learning)라는 새로운 학습 없는 압축 프레임워크를 제안합니다. 이는 저랭크 분해를 더 유연한 구조적 희소 분해로 대체하며, 각 가중치 행렬을 밀집된 사전과 열 희소 계수 행렬로 표현합니다. 이 공식화는 원래 가중치 행렬의 서로 다른 열들이 적응적으로 선택된 사전 원자들에 의해 생성된 별개의 부분공간에서 근사되는 부분공간의 합집합 표현을 가능하게 하여, 단일 불변 기저보다 더 큰 표현력을 제공합니다. 특히, CoSpaDi는 작은 보정 데이터셋을 활용하여 압축된 투영 층의 출력 활성화가 원래 것과 밀접하게 일치하도록 분해를 최적화함으로써, 단순한 가중치 근사가 아닌 기능적 재구성 오류를 최소화합니다. 이 데이터 인식 전략은 합리적인 압축률 하에서 추가 미세 조정 없이도 더 나은 모델 충실도를 유지합니다. 또한, 결과적으로 얻은 구조적 희소성은 희소-밀집 행렬 곱셈을 효율적으로 수행할 수 있게 하며, 추가적인 메모리 및 지연 시간 이득을 위해 학습 후 양자화와도 호환됩니다. 우리는 CoSpaDi를 여러 Llama 및 Qwen 모델에 대해 층별 및 그룹별 설정에서 20-50%의 압축률로 평가하며, 정확도와 복잡성 측면에서 최신 데이터 인식 저랭크 방법들을 일관되게 능가함을 입증합니다. 우리의 결과는 구조적 희소 사전 학습이 효율적인 LLM 배포를 위한 기존의 저랭크 접근법에 대한 강력한 대안임을 입증합니다.
대규모 언어 모델과 멀티모달 시스템의 성능이 점점 향상되면서 음성 중심 AI 어시스턴트에 대한 관심이 높아지고 있지만, 기존 벤치마크는 이러한 시스템의 전체 역량을 평가하기에는 부족합니다. 우리는 듣기, 말하기, 보기 영역을 포괄적으로 평가하기 위해 설계된 종합 벤치마크인 VoiceAssistant-Eval을 소개합니다. VoiceAssistant-Eval은 13개 작업 범주에 걸쳐 10,497개의 정제된 예제로 구성되어 있습니다. 이러한 작업에는 듣기를 위한 자연 소리, 음악, 구어 대화; 말하기를 위한 다중 턴 대화, 역할극 모방, 다양한 시나리오; 그리고 보기를 위한 매우 이질적인 이미지가 포함됩니다. 이 벤치마크의 유용성을 입증하기 위해 21개의 오픈소스 모델과 GPT-4o-Audio를 평가하여 응답 내용과 음성의 품질, 그리고 일관성을 측정했습니다. 결과는 세 가지 주요 발견을 보여줍니다: (1) 독점 모델이 항상 오픈소스 모델을 능가하는 것은 아니다; (2) 대부분의 모델은 말하기 작업에서 뛰어나지만 오디오 이해에서는 뒤처진다; (3) 잘 설계된 소규모 모델이 훨씬 더 큰 모델과 경쟁할 수 있다. 특히 중간 규모의 Step-Audio-2-mini(7B)는 LLaMA-Omni2-32B-Bilingual의 듣기 정확도의 두 배 이상을 달성했습니다. 그러나 여전히 해결해야 할 과제가 남아 있습니다: 멀티모달(오디오와 시각) 입력과 역할극 음성 모방 작업은 현재 모델들에게 어려운 과제이며, 견고성과 안전성 정렬에서도 상당한 격차가 존재합니다. VoiceAssistant-Eval은 이러한 격차를 식별하고 차세대 AI 어시스턴트의 개발을 평가하고 안내하기 위한 엄격한 프레임워크를 마련합니다. 코드와 데이터는 https://mathllm.github.io/VoiceAssistantEval/에서 공개될 예정입니다.
우리는 사전 학습된 확산 모델의 백본에서 시각적 및 의미론적 특징을 분리하는 새로운 접근 방식을 제안하며, 이는 잘 정립된 의미론적 대응과 유사한 방식으로 시각적 대응을 가능하게 합니다. 확산 모델의 백본이 의미론적으로 풍부한 특징을 인코딩하는 것으로 알려져 있지만, 이미지 합성 능력을 지원하기 위해 시각적 특징도 포함해야 합니다. 그러나 주석이 달린 데이터셋의 부재로 인해 이러한 시각적 특징을 분리하는 것은 어려운 과제입니다. 이를 해결하기 위해, 우리는 기존의 주체 중심 이미지 생성 데이터셋을 기반으로 주석이 달린 의미론적 및 시각적 대응을 가진 이미지 쌍을 구성하는 자동화된 파이프라인을 도입하고, 두 특징 유형을 분리하기 위한 대조적 아키텍처를 설계합니다. 분리된 표현을 활용하여, 우리는 주체 중심 이미지 생성에서 시각적 불일치를 정량화하는 새로운 메트릭인 시각적 의미론적 매칭(Visual Semantic Matching, VSM)을 제안합니다. 실험 결과는 우리의 접근 방식이 CLIP, DINO 및 비전-언어 모델과 같은 전역 특징 기반 메트릭을 능가하며, 시각적 불일치를 정량화하는 동시에 불일치 영역의 공간적 위치 파악도 가능함을 보여줍니다. 우리가 아는 한, 이는 주체 중심 생성에서 불일치의 정량화와 위치 파악을 모두 지원하는 첫 번째 방법으로, 이 작업을 발전시키는 데 유용한 도구를 제공합니다. 프로젝트 페이지: https://abdo-eldesokey.github.io/mind-the-glitch/
범용 이미지 복원(UIR)은 알려지지 않은 혼합 요인으로 인해 저하된 이미지를 복원하면서 의미 구조를 보존하는 것을 목표로 합니다. 이러한 조건에서 판별적 복원기와 UNet 기반 확산 사전 모델은 종종 과도하게 평활화되거나, 허구적인 요소를 생성하거나, 원래 의미에서 벗어나는 문제를 보입니다. 본 연구에서는 이미지 캡션이 필요 없는 UIR 프레임워크인 LucidFlux를 제안합니다. 이 프레임워크는 대규모 확산 트랜스포머(Flux.1)를 적응적으로 활용합니다. LucidFlux는 경량화된 이중 분기 조건기를 도입하여, 저하된 입력 이미지와 경량 복원된 프록시로부터 신호를 주입함으로써 각각 기하학적 구조를 고정하고 아티팩트를 억제합니다. 또한, 시간 단계 및 계층 적응형 변조 스케줄을 설계하여 이러한 신호를 백본 계층 구조 전반에 걸쳐 라우팅함으로써, 전역 구조를 보호하면서 질감을 복원하는 거시적에서 미시적, 문맥 인식 업데이트를 가능하게 합니다. 더 나아가, 텍스트 프롬프트나 MLLM 캡션의 지연 및 불안정성을 피하기 위해, 프록시에서 추출한 SigLIP 특징을 통해 캡션 없는 의미 정렬을 강제합니다. 확장 가능한 큐레이션 파이프라인은 대규모 데이터를 구조적으로 풍부한 지도 학습을 위해 추가로 필터링합니다. 합성 및 실제 벤치마크에서 LucidFlux는 강력한 오픈소스 및 상용 베이스라인을 꾸준히 능가하며, 각 구성 요소의 필요성을 검증하는 절제 연구를 수행했습니다. LucidFlux는 대규모 DiT의 경우, 매개변수를 추가하거나 텍스트 프롬프트에 의존하기보다는 언제, 어디에, 무엇을 조건으로 할지가 실제 환경에서 강력하고 캡션 없는 범용 이미지 복원을 위한 핵심 요소임을 보여줍니다.
대규모 언어 모델을 적응시키기 위한 기초적인 방법인 파인튜닝은 오랫동안 모델 편집에 비효율적인 것으로 여겨져 왔습니다. 본 연구에서는 이러한 통념에 도전하며, 보고된 실패가 파인튜닝 자체의 본질적인 한계에서 비롯된 것이 아니라, 편집 작업의 순차적 특성에 파인튜닝을 적용하는 방식에서 비롯되었다고 주장합니다. 이는 각 샘플을 수렴할 때까지 최적화한 후 다음으로 넘어가는 단일 패스 깊이 우선 파이프라인 방식입니다. 직관적이긴 하지만, 이 깊이 우선 파이프라인과 샘플 단위 업데이트 방식은 각 편집을 과도하게 최적화하고 편집 간 간섭을 유발합니다. 우리의 통제된 실험 결과, 단순히 파인튜닝을 표준적인 폭 우선(즉, 에포크 기반) 파이프라인과 미니배치 최적화로 복원하는 것만으로도 모델 편집에서의 효과가 크게 향상됨을 확인했습니다. 또한, 편집에서의 파인튜닝은 기존 방법에서 상속된 최적이 아닌 튜닝 파라미터 위치로 인해 어려움을 겪습니다. 튜닝 위치에 대한 체계적인 분석을 통해, 우리는 복원된 파인튜닝 프레임워크를 기반으로 한 간단하면서도 효과적인 지역화 편집 방법인 LocFT-BF를 도출했습니다. 다양한 대규모 언어 모델과 데이터셋에 걸친 광범위한 실험 결과, LocFT-BF는 최신 기술을 큰 차이로 능가하는 성능을 보여주었습니다. 특히, 우리가 아는 한, 이 방법은 일반적인 능력을 희생하지 않고도 10만 개의 편집과 720억 파라미터 모델을 유지하는 최초의 방법으로, 이는 기존 관행을 10배 이상 뛰어넘는 성과입니다. 오랜 오해를 해소하고 원칙에 입각한 지역화 튜닝 전략을 도입함으로써, 우리는 파인튜닝을 과소평가된 기준에서 모델 편집을 위한 선도적인 방법으로 발전시켰으며, 향후 연구를 위한 견고한 기반을 마련했습니다.
대형 언어 모델(LLM)으로 구동되는 에이전트 시스템은 리포지토리 수준의 코드 생성 작업에서 인상적인 성능을 보여왔습니다. 그러나 시각적 효과와 사용자 상호작용 피드백에 크게 의존하는 웹사이트 코드베이스 생성과 같은 작업의 경우, 현재의 코드 에이전트는 단순한 코드 실행만을 피드백과 검증 수단으로 사용하고 있습니다. 이 접근 방식은 생성된 코드의 실제 품질을 제대로 반영하지 못합니다. 본 논문에서는 포괄적이고 다단계의 시각적 피드백을 활용하여 웹사이트 코드베이스를 반복적으로 생성하고 개선하는 새로운 웹사이트 생성 에이전트인 WebGen-Agent를 제안합니다. 시각 언어 모델(VLM)은 웹사이트의 스크린샷과 GUI 에이전트 테스트에 대한 상세하고 표현력 있는 텍스트 설명과 제안을 생성하며, 이들의 품질을 수치화한 점수를 제공합니다. 스크린샷과 GUI 에이전트 점수는 백트래킹 및 최적 선택 메커니즘과 통합되어 에이전트의 성능을 향상시킵니다. WebGen-Agent 워크플로우에 내재된 정확한 시각적 점수를 활용하여, 우리는 Step-GRPO with Screenshot and GUI-agent Feedback을 도입하여 LLM이 WebGen-Agent의 추론 엔진으로서의 능력을 개선합니다. 각 단계에서의 스크린샷과 GUI 에이전트 점수를 Step-GRPO의 보상으로 사용함으로써, 우리는 밀도 높고 신뢰할 수 있는 프로세스 감독 신호를 제공하며, 이는 모델의 웹사이트 생성 능력을 효과적으로 향상시킵니다. WebGen-Bench 데이터셋에서 WebGen-Agent는 Claude-3.5-Sonnet의 정확도를 26.4%에서 51.9%로, 외관 점수를 3.0에서 3.9로 증가시켜 기존의 최첨단 에이전트 시스템을 능가했습니다. 또한, 우리의 Step-GRPO 훈련 접근법은 Qwen2.5-Coder-7B-Instruct의 정확도를 38.9%에서 45.4%로, 외관 점수를 3.4에서 3.7로 향상시켰습니다.
최근의 대형 언어 모델(LLM)과 대형 시각-언어 모델(LVLM)은 사전 학습 후 강화 학습(RL)을 점점 더 많이 사용하고 있으며, 이는 객관적 작업을 위한 검증 가능한 보상 기반 RL(RLVR)과 주관적 작업을 위한 인간 피드백 기반 RL(RLHF)을 포함합니다. 그러나 RLHF는 인간 선호도에 의존하기 때문에 높은 비용과 잠재적인 보상-정책 불일치 문제를 초래하며, RLVR은 각 업데이트 후 롤아웃과 정확도 신호를 폐기함으로써 여전히 감독을 낭비합니다. 이러한 문제를 해결하기 위해, 우리는 RLVR을 기반으로 한 효율적이고 온-정책적이며 안정적인 방법인 시너지 정책 및 보상 공진화 프레임워크(SPARK)를 소개합니다. SPARK는 롤아웃과 정확도 데이터를 폐기하는 대신, 이 소중한 정보를 재활용하여 모델 자체를 생성적 보상 모델로 동시에 학습시킵니다. 이 보조 학습은 점별 보상 점수, 쌍별 비교, 추가 반성 응답에 기반한 평가 등 다양한 목적을 혼합하여 모델이 자신의 응답을 평가하고 개선하도록 가르칩니다. 이 과정은 별도의 보상 모델과 비용이 많이 드는 인간 선호도 데이터의 필요성을 제거합니다. SPARK는 긍정적인 공진화 피드백 루프를 생성합니다: 개선된 보상 정확도는 더 나은 정책 기울기를 산출하고, 이는 다시 더 높은 품질의 롤아웃을 생성하여 보상 모델을 더욱 세밀하게 조정합니다. 우리의 통합 프레임워크는 외부 보상 모델과 그에 따른 비용 없이 자기 반성을 통해 테스트 시 확장을 지원합니다. 우리는 SPARK가 여러 LLM 및 LVLM 모델과 다중 추론, 보상 모델, 일반 벤치마크에서 상당한 성능 향상을 달성함을 보여줍니다. 예를 들어, SPARK-VL-7B는 7개의 추론 벤치마크에서 평균 9.7%, 2개의 보상 벤치마크에서 12.1%, 8개의 일반 벤치마크에서 1.5%의 향상을 보여주며, 견고성과 광범위한 일반화를 입증합니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG) 및 그래프 기반 RAG는 외부 지식을 활용하여 대규모 언어 모델(Large Language Models, LLMs)을 강화하는 중요한 패러다임으로 자리 잡았습니다. 그러나 기존 접근 방식은 근본적인 트레이드오프에 직면해 있습니다. 그래프 기반 방법은 본질적으로 고품질 그래프 구조에 의존하지만, 실질적인 제약이 존재합니다: 수동으로 구축된 지식 그래프는 확장하기에 비용이 너무 많이 들고, 코퍼스에서 자동으로 추출된 그래프는 기본 LLM 추출기의 성능에 제한을 받으며, 특히 더 작고 로컬로 배포된 모델을 사용할 때 이러한 한계가 두드러집니다. 본 논문은 이러한 한계를 극복하기 위해 다중 에이전트 컨텍스트 진화 및 검색(Multi-Agent Context Evolution and Retrieval, MACER) 메커니즘을 도입한 새로운 프레임워크인 Think-on-Graph 3.0(ToG-3)을 제안합니다. 우리의 핵심 혁신은 Chunk-Triplets-Community 이종 그래프 인덱스의 동적 구축 및 정제로, 이를 통해 진화하는 쿼리와 진화하는 서브 그래프의 이중 진화 메커니즘을 선구적으로 통합하여 정밀한 증거 검색을 가능하게 합니다. 이 접근 방식은 일반적으로 단일 패스로 정적 그래프 인덱스를 구축하고 실제 쿼리에 적응하지 않는 기존 그래프 기반 RAG 방법의 중요한 한계를 해결합니다. Constructor, Retriever, Reflector, Responser 에이전트로 구성된 다중 에이전트 시스템은 증거 검색, 답변 생성, 충분성 반영, 그리고 특히 쿼리와 서브 그래프의 진화를 포함한 반복적인 프로세스에 협력적으로 참여합니다. 이 이중 진화 다중 에이전트 시스템은 ToG-3이 추론 과정에서 타겟 그래프 인덱스를 적응적으로 구축할 수 있게 하여, 정적이고 일회성인 그래프 구축의 본질적인 단점을 완화하고, 경량 LLM을 사용하더라도 깊고 정밀한 추론을 가능하게 합니다. 광범위한 실험을 통해 ToG-3이 깊고 넓은 추론 벤치마크에서 비교 대상들을 능가함을 입증했으며, MACER 프레임워크의 구성 요소들의 효용성을 확인하는 절제 연구도 수행되었습니다.
레이아웃 추정과 3D 객체 탐지는 실내 장면 이해의 두 가지 기본적인 과제입니다. 이 두 가지를 결합하면 장면의 간결하면서도 의미론적으로 풍부한 공간 표현을 생성할 수 있습니다. 기존의 접근 방식은 일반적으로 포인트 클라우드 입력에 의존하는데, 이는 대부분의 소비자용 카메라가 깊이 센서를 갖추지 않았고 시각 데이터만으로는 여전히 훨씬 더 일반적이기 때문에 주요한 한계로 작용합니다. 우리는 이 문제를 TUN3D를 통해 해결합니다. TUN3D는 다중 뷰 이미지를 입력으로 받아 실제 스캔에서 레이아웃 추정과 3D 객체 탐지를 동시에 수행하는 최초의 방법으로, 지상 실측 카메라 포즈나 깊이 감독이 필요하지 않습니다. 우리의 접근 방식은 경량의 희소 컨볼루션 백본을 기반으로 하며, 3D 객체 탐지와 레이아웃 추정을 위한 두 개의 전용 헤드를 사용합니다. 여기서는 새롭고 효과적인 파라메트릭 벽 표현을 활용합니다. 광범위한 실험을 통해 TUN3D는 (i) 지상 실측 포인트 클라우드, (ii) 포즈가 지정된 이미지, (iii) 포즈가 지정되지 않은 이미지를 사용한 세 가지 도전적인 장면 이해 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. TUN3D는 전문화된 3D 객체 탐지 방법과 동등한 성능을 보이면서도 레이아웃 추정을 크게 발전시켜, 전체적인 실내 장면 이해에서 새로운 벤치마크를 설정합니다. 코드는 https://github.com/col14m/tun3d에서 확인할 수 있습니다.
대규모 말뭉치로 훈련된 대형 언어 모델은 다양한 언어 작업을 단일 생성 프레임워크 내에서 성공적으로 통합합니다. 이를 영감으로, Large Vision Model(LVM)과 같은 최근 연구들은 이 패러다임을 비전 분야로 확장하여 작업을 순차적인 시각적 문장으로 구성하고, 시각적 프롬프트를 출력을 안내하는 컨텍스트로 사용합니다. 그러나 이러한 모델링은 다양한 모달리티와 소스에 걸친 작업별 사전 훈련을 필요로 하며, 이는 비용이 많이 들고 보이지 않는 작업으로의 확장성을 제한합니다. 사전 훈련된 비디오 생성 모델이 시간적 순서 의존성을 본질적으로 포착한다는 점을 고려하여, 우리는 더 통합적이고 확장 가능한 대안을 탐구합니다: 사전 훈련된 비디오 생성 모델이 다양한 이미지 및 비디오 작업에 적응할 수 있을까요? 이를 위해, 우리는 비디오 디퓨전 트랜스포머를 다양한 비전 작업을 처리하도록 미세 조정하는 UniVid 프레임워크를 제안합니다. 작업은 시각적 문장으로 표현되며, 컨텍스트 시퀀스는 작업과 예상 출력 모달리티를 모두 정의합니다. 우리는 UniVid의 일반화를 두 가지 관점에서 평가합니다: (1) 이미지와 비디오로 구성된 컨텍스트를 사용한 크로스 모달 추론, 이는 LVM의 단일 모달 설정을 넘어선 확장; (2) 자연 데이터에서 주석 데이터로의 크로스 소스 작업, 다중 소스 사전 훈련 없이. 자연 비디오 데이터만으로 훈련되었음에도 불구하고, UniVid는 두 설정에서 모두 잘 일반화됩니다. 특히, 이 패러다임에서 시각적 문장 순서를 단순히 뒤집는 것으로 이해와 생성 작업을 쉽게 전환할 수 있습니다. 이러한 발견들은 사전 훈련된 비디오 생성 모델이 비전 모델링을 위한 확장 가능하고 통합된 기반으로서의 잠재력을 강조합니다. 우리의 코드는 https://github.com/CUC-MIPG/UniVid에서 공개될 예정입니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 사용자 상호작용을 모방하여 다양한 인간 작업을 자동화하는 것을 목표로 합니다. 빠른 발전에도 불구하고, 현재의 접근 방식은 몇 가지 중요한 과제에 직면해 있습니다: 종단간 학습에서의 데이터 병목 현상, 지연된 오류 탐지의 높은 비용, 그리고 상반된 지침의 위험 등이 그것입니다. 인간의 사고(Thinking), 정렬(Alignment), 반영(Reflection)이라는 인지 루프에서 영감을 받아, 우리는 이 논문에서 새로운 숙고 프레임워크인 D-Artemis를 제안합니다. D-Artemis는 세분화된 앱별 팁 검색 메커니즘을 활용하여 의사 결정 과정을 지원합니다. 또한, 실행 전 정렬(Pre-execution Alignment) 단계에서 Thought-Action Consistency (TAC) Check 모듈과 Action Correction Agent (ACA)가 협력하여 실행 실패의 위험을 완화합니다. 실행 후 상태 반영 에이전트(Status Reflection Agent, SRA)는 인지 루프를 완성하며, 경험으로부터 전략적 학습을 가능하게 합니다. 특히, D-Artemis는 복잡한 궤적 데이터셋에 대한 학습 없이도 GUI 작업을 위한 일반 목적의 다중모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 능력을 강화하며, 강력한 일반화 능력을 보여줍니다. D-Artemis는 주요 벤치마크에서 새로운 최첨단(state-of-the-art, SOTA) 결과를 달성했으며, AndroidWorld에서 75.8%, ScreenSpot-V2에서 96.8%의 성공률을 기록했습니다. 광범위한 어블레이션 연구는 각 구성 요소가 프레임워크에 기여하는 중요한 역할을 추가로 입증합니다.
강화 미세 조정(Reinforcement Fine-Tuning, RFT)은 종종 보상 과최적화(reward over-optimization) 문제에 직면합니다. 이는 정책 모델이 보상 신호를 악용하여 높은 점수를 달성하지만, 실제로는 저품질의 출력을 생성하는 현상을 의미합니다. 우리의 이론적 분석은 이러한 문제의 핵심이 높은 보상 영역에서의 보상 오설정(reward misspecification)에 있음을 보여줍니다. 즉, '우수한' 응답과 단순히 '훌륭한' 응답을 신뢰롭게 구분하지 못하는 것이 문제입니다. 이는 우리가 높은 보상 영역에 초점을 맞추도록 동기를 부여합니다. 그러나 기본 대형 언어 모델(LLM) 하에서는 이러한 꼬리 영역(tail region)의 예시가 부족합니다. 오프-정책(off-policy) 예시(예: 더 강력한 모델이나 재작성된 예시)는 상대적으로 쉽게 얻을 수 있지만, 이를 단순히 학습에 사용하면 우리가 정렬하려는 정책에 대해 오설정된 보상을 초래할 수 있습니다. 이를 해결하기 위해 우리는 루브릭 기반 보상(rubric-based rewards)을 연구합니다. 설계 상, 루브릭은 오프-정책 예시를 활용하면서도 그들의 부산물에 민감하지 않을 수 있습니다. 높은 보상 꼬리 영역을 포착하는 루브릭을 도출하기 위해, 우리는 훌륭하고 다양한 응답을 구분하는 것의 중요성을 강조하고, 이를 구현하기 위한 워크플로우를 소개합니다. 실험적으로, 루브릭 기반 보상이 보상 과최적화를 상당히 완화하고 효과적인 LLM 사후 학습 개선을 제공함을 입증합니다. 우리의 코드는 https://github.com/Jun-Kai-Zhang/rubrics.git 에서 확인할 수 있습니다.
인간은 세계와의 능동적인 상호작용을 통해 직관적 물리학에 대한 이해를 발전시킨다. 이 접근 방식은 현재의 비디오 모델(예: Sora)과는 극명히 대조되는데, 이러한 모델들은 수동적 관찰에 의존하기 때문에 물리적 인과관계를 파악하는 데 어려움을 겪는다. 이러한 관찰은 우리의 중심 가설로 이어진다: 세계 모델의 진정한 물리적 직관은 실세계와의 광범위하고 인과적으로 풍부한 상호작용에 기반해야 한다. 이 가설을 검증하기 위해, 우리는 200만 개의 로봇 상호작용 궤적을 기반으로 훈련된 140억 개의 파라미터를 가진 생성적 세계 모델인 WoW를 제시한다. 우리의 연구 결과는 이 모델의 물리학 이해가 가능한 결과들의 확률적 분포로 나타나며, 이로 인해 확률적 불안정성과 물리적 환각이 발생함을 보여준다. 더 나아가, 이러한 창발적 능력이 SOPHIA를 통해 물리적 현실성으로 능동적으로 제한될 수 있음을 입증한다. 여기서 비전-언어 모델 에이전트들은 DiT 생성 출력을 평가하고 언어 지시를 반복적으로 진화시켜 이를 개선한다. 또한, 공동 훈련된 역동역학 모델은 이러한 개선된 계획을 실행 가능한 로봇 동작으로 변환함으로써 상상에서 행동으로의 루프를 완성한다. 우리는 물리적 일관성과 인과적 추론에 초점을 맞춘 새로운 벤치마크인 WoWBench를 구축했으며, WoW는 인간 및 자동 평가에서 최첨단 성능을 달성하며 물리적 인과관계, 충돌 역학, 객체 영속성에서 강력한 능력을 보여준다. 우리의 연구는 대규모 실세계 상호작용이 AI에서 물리적 직관을 개발하는 데 있어 핵심 요소임을 체계적으로 입증한다. 모델, 데이터, 벤치마크는 오픈소스로 공개될 예정이다.
강화 학습(Reinforcement Learning, RL)은 장기적이고 보상이 드물게 주어진 에이전트 작업에서 대형 언어 모델(LLM)의 전략적 도구 사용 능력을 향상시키는 주요 패러다임이다. 그러나 RL은 탐색과 활용 간의 균형을 맞추는 근본적인 문제에 직면해 있다. 기존 연구는 정책 엔트로피(policy entropy)의 관점에서 탐색을 자극하지만, 이러한 기계적인 엔트로피 극대화는 다중 턴 분포 변화로 인해 RL 훈련의 불안정성을 초래하기 쉽다. 본 논문에서는 엔트로피 붕괴(entropy collapsing)나 무한 발산(runaway divergence)에 빠지지 않으면서 에이전트 자신의 경험을 바탕으로 점진적인 탐색-활용 균형을 달성하는 것을 목표로 한다. 우리는 SPEAR라는 커리큘럼 기반 자기 모방 학습(Self-Imitation Learning, SIL) 레시피를 제안한다. 이는 기존의 SIL 프레임워크를 확장하여, 오프-폴리시 업데이트를 위해 자기 생성된 유망한 궤적을 저장하는 재생 버퍼(replay buffer)를 사용하면서, 단계별로 엔트로피가 균형 잡힌 범위 내에서 정책 진화를 점진적으로 조정한다. 구체적으로, 우리의 접근 방식은 탐색 과정을 관리하기 위해 커리큘럼을 도입하고, 내재적 보상(intrinsic reward)을 활용하여 기술 수준의 탐색을 촉진하며, SIL을 통해 행동 수준의 탐색을 용이하게 한다. 초기에는 보조 도구 호출 보상이 도구 사용 기술의 축적에 중요한 역할을 하며, 상승하는 엔트로피 추세와 함께 환경 피드백의 낯선 분포에 광범위하게 노출되도록 한다. 훈련이 진행됨에 따라, 자기 모방이 강화되어 재생된 경험에서 기존의 성공적인 패턴을 활용함으로써 비교적 행동 수준의 탐색을 가속화하고, 무한한 엔트로피 증가 없이 솔루션 반복을 촉진한다. 훈련을 더욱 안정화하기 위해, 재생 버퍼 내 경험의 이점을 재조정하여 잠재적인 정책 표류(policy drift)를 해결한다. 확률과 이점 간의 높은 공분산을 가진 토큰의 클리핑(clipping)과 같은 정규화 기법이 궤적 수준의 엔트로피 제어에 도입되어 과도한 자신감을 억제한다.
Dense O2O와 MAL의 단순성과 효과성 덕분에 DEIM은 실시간 DETR을 위한 주류 학습 프레임워크로 자리 잡았으며, YOLO 시리즈를 크게 앞섰습니다. 본 연구에서는 DINOv3 기능을 확장하여 DEIMv2를 개발했습니다. DEIMv2는 X부터 Atto까지 8가지 모델 크기를 포괄하며, GPU, 엣지, 모바일 배포를 모두 지원합니다. X, L, M, S 변형의 경우, DINOv3 사전 학습 또는 증류된 백본을 채택하고 Spatial Tuning Adapter(STA)를 도입했습니다. STA는 DINOv3의 단일 스케일 출력을 다중 스케일 특징으로 효율적으로 변환하며, 강력한 의미론적 정보에 세밀한 디테일을 보완하여 탐지 성능을 향상시킵니다. 초경량 모델(Nano, Pico, Femto, Atto)의 경우, HGNetv2를 깊이와 너비 가지치기와 함께 사용하여 엄격한 자원 예산을 충족시켰습니다. 단순화된 디코더와 업그레이드된 Dense O2O와 함께, 이러한 통합 설계는 DEIMv2가 다양한 시나리오에서 우수한 성능-비용 균형을 달성하게 하여 새로운 최첨단 결과를 수립했습니다. 특히, 가장 큰 모델인 DEIMv2-X는 단 5,030만 개의 매개변수로 57.8 AP를 달성하며, 6,000만 개 이상의 매개변수가 필요한 기존 X-스케일 모델의 56.5 AP를 능가했습니다. 컴팩트 측면에서, DEIMv2-S는 COCO에서 50 AP를 넘어선 최초의 1,000만 개 미만 모델(971만 개)로, 50.9 AP를 기록했습니다. 심지어 초경량 DEIMv2-Pico는 단 150만 개의 매개변수로 38.5 AP를 제공하며, YOLOv10-Nano(230만 개)와 동등한 성능을 매개변수 수의 약 50% 감소로 달성했습니다. 우리의 코드와 사전 학습된 모델은 https://github.com/Intellindust-AI-Lab/DEIMv2에서 확인할 수 있습니다.
우리는 X-Streamer를 소개한다. 이는 텍스트, 음성, 비디오를 단일 통합 아키텍처 내에서 무한한 상호작용이 가능한 디지털 인간 에이전트를 구축하기 위한 종단간(end-to-end) 멀티모달 인간 세계 모델링 프레임워크이다. 단일 초상화로부터 시작하여, X-Streamer는 스트리밍 멀티모달 입력에 의해 구동되는 실시간, 개방형 비디오 통화를 가능하게 한다. 이 프레임워크의 핵심은 멀티모달 이해와 생성을 통합하는 Thinker-Actor 이중 트랜스포머 아키텍처로, 정적 초상화를 지속적이고 지능적인 오디오비주얼 상호작용으로 변환한다. Thinker 모듈은 스트리밍 사용자 입력을 인지하고 추론하며, 그 숨겨진 상태는 Actor에 의해 실시간으로 동기화된 멀티모달 스트림으로 변환된다. 구체적으로, Thinker는 사전 훈련된 대규모 언어-음성 모델을 활용하고, Actor는 Thinker의 숨겨진 상태에 교차 주의(cross-attend)를 기울여 시간에 맞춰 정렬된 멀티모달 응답을 생성하는 청크 단위 자동회귀 확산 모델을 사용한다. 이 응답은 이산적 텍스트 및 오디오 토큰과 연속적 비디오 잠재 변수로 구성된다. 장기적 안정성을 보장하기 위해, 우리는 시간에 맞춰 정렬된 멀티모달 위치 임베딩을 사용한 청크 간 및 청크 내 주의 메커니즘을 설계하여 세밀한 교차 모달리티 정렬과 컨텍스트 유지를 강화하고, 청크 단위 확산 강제 및 글로벌 아이덴티티 참조로 더욱 강화하였다. X-Streamer는 두 개의 A100 GPU에서 실시간으로 실행되며, 임의의 초상화로부터 수 시간 동안 일관된 비디오 채팅 경험을 유지하고, 상호작용 가능한 디지털 인간의 통합 세계 모델링을 위한 길을 열어준다.
고해상도 이미지의 효율적인 처리는 실제 세계의 시각-언어 응용 프로그램에 있어서 매우 중요합니다. 그러나 기존의 대형 시각-언어 모델(LVLMs)은 많은 수의 시각 토큰으로 인해 상당한 계산 오버헤드를 발생시킵니다. "이미지로 생각하기" 모델의 등장으로, 이제 추론은 텍스트를 넘어 시각 영역으로 확장되었습니다. 이러한 능력은 우리의 두 단계 "거친-세밀" 추론 파이프라인을 동기 부여합니다: 먼저, 다운샘플링된 이미지를 분석하여 작업과 관련된 영역을 식별하고, 그런 다음 이 영역만 전체 해상도로 잘라내어 후속 추론 단계에서 처리합니다. 이 접근 방식은 필요한 경우 세밀한 시각적 세부 사항을 보존하면서 계산 비용을 줄입니다. 주요 도전 과제는 주어진 쿼리에 대해 실제로 관련된 영역을 추론하는 데 있습니다. 최근의 관련 방법들은 종종 입력 이미지 다운샘플링 후 첫 번째 단계에서 실패하는데, 이는 명확한 시각 정보가 효과적인 추론을 위해 필요한 지각 중심의 추론 때문입니다. 이 문제를 해결하기 위해, 우리는 ERGO(Efficient Reasoning & Guided Observation)를 제안합니다. ERGO는 다중 모드 컨텍스트를 활용하여 어디에 초점을 맞출지 결정하는 추론 중심의 지각을 수행합니다. 우리의 모델은 지각적 불확실성을 고려하여, 질문에 답하기 위해 시각적으로 모호한 영역을 포함하도록 잘라낸 영역을 확장할 수 있습니다. 이를 위해, 우리는 거친-세밀 지각을 위한 강화 학습 프레임워크에서 간단하지만 효과적인 보상 구성 요소를 개발했습니다. 여러 데이터셋에서, 우리의 접근 방식은 원래 모델과 경쟁적인 방법들보다 더 높은 정확도를 제공하며, 더 큰 효율성을 달성합니다. 예를 들어, ERGO는 V* 벤치마크에서 Qwen2.5-VL-7B를 4.7점 앞서며, 시각 토큰의 23%만 사용하여 3배의 추론 속도 향상을 달성했습니다. 코드와 모델은 https://github.com/nota-github/ERGO에서 확인할 수 있습니다.
기존의 참조 분할(referring segmentation) 접근법 대부분은 미세 조정(fine-tuning)이나 여러 사전 학습된 모델을 조합하는 방식으로만 강력한 성능을 달성하며, 이는 종종 추가적인 학습과 구조 수정을 필요로 합니다. 한편, 대규모 생성적 확산 모델(generative diffusion models)은 풍부한 의미론적 정보를 인코딩하여 범용 특징 추출기로 매력적인 가능성을 보여줍니다. 본 연구에서는 확산 트랜스포머(diffusion transformers)의 특징과 어텐션 점수(attention scores)를 직접 활용하여 하위 작업에 적용하는 새로운 방법을 제안하며, 이는 구조 수정이나 추가 학습 없이도 가능합니다. 이러한 특징을 체계적으로 평가하기 위해, 이미지와 비디오를 아우르는 시각-언어 접지(vision-language grounding) 작업을 포함한 벤치마크를 확장했습니다. 우리의 핵심 통찰은 불용어(stop words)가 어텐션 자석 역할을 한다는 것입니다: 불용어는 과잉 어텐션을 축적하며, 이를 필터링하여 노이즈를 줄일 수 있습니다. 또한, 더 깊은 층에서 나타나는 전역 어텐션 싱크(global attention sinks, GAS)를 식별하고, 이를 안전하게 억제하거나 보조 토큰(auxiliary tokens)으로 재지향함으로써 더 선명하고 정확한 접지 맵(grounding maps)을 얻을 수 있음을 보여줍니다. 더 나아가, 추가된 불용어가 배경 활성화(background activations)를 더 작은 클러스터로 분할하여 더 선명하고 지역화된 히트맵(heatmaps)을 생성하는 어텐션 재분배 전략을 제안합니다. 이러한 발견을 바탕으로, 교차 어텐션 맵(cross-attention maps), GAS 처리, 재분배를 결합한 간단한 학습 없는 접지 프레임워크인 RefAM을 개발했습니다. 제로샷(zero-shot) 참조 이미지 및 비디오 분할 벤치마크에서 우리의 접근법은 기존 방법들을 일관되게 능가하며, 미세 조정이나 추가 구성 요소 없이도 새로운 최첨단 기술을 확립했습니다.
텍스트 기반 이미지 편집은 확산 모델을 통해 놀라운 품질을 달성했지만, 과도한 지연 시간으로 인해 실세계 응용에 장애가 되고 있습니다. 우리는 고품질의 실시간 이미지 편집을 가능하게 하는 새로운 프레임워크인 FlashEdit을 소개합니다. FlashEdit의 효율성은 세 가지 주요 혁신에서 비롯됩니다: (1) 비용이 많이 드는 반복적 프로세스를 우회하는 One-Step Inversion-and-Editing (OSIE) 파이프라인; (2) 편집 영역 내에서만 특징을 선택적으로 수정함으로써 배경 보존을 보장하는 Background Shield (BG-Shield) 기술; (3) 배경으로의 의미적 누출을 억제하여 정확하고 지역화된 편집을 보장하는 Sparsified Spatial Cross-Attention (SSCA) 메커니즘. 광범위한 실험을 통해 FlashEdit이 우수한 배경 일관성과 구조적 무결성을 유지하면서 0.2초 이내에 편집을 수행함을 입증했습니다. 이는 기존의 다단계 방법에 비해 150배 이상의 속도 향상을 나타냅니다. 우리의 코드는 https://github.com/JunyiWuCode/FlashEdit에서 공개될 예정입니다.
다양한 언어 간에 효과적으로 작동하면서도 문화적 토대를 유지하는 AI 시스템을 개발하는 것은, 특히 저자원 환경에서 오랜 과제로 남아 있습니다. 합성 데이터는 유망한 접근 방식을 제공하지만, 다국어 및 다문화적 맥락에서의 효과성은 아직 충분히 탐구되지 않았습니다. 우리는 대형 오픈소스 LLM(>= 235B 매개변수)이 언어별 위키피디아 콘텐츠를 기반으로 데이터 생성을 수행하도록 유도하는 하향식 생성 전략을 통해 인도 언어를 위한 합성적이고 문화적으로 맥락화된 데이터셋의 생성과 영향을 조사합니다. 이 접근 방식은 영어와 같은 고자원 언어에서 합성 데이터셋을 번역하는 주류의 상향식 패러다임을 보완합니다. 우리는 13개 인도 언어에 걸쳐 9.5M 데이터 포인트를 포함하며, 장문맥 및 다중 턴 기능을 강조하고 인도 문화적 맥락과 일치하는 다양한 추론 및 생성 작업을 포함한 고품질 대규모 합성 명령어 데이터셋인 Updesh를 소개합니다. 10,000개 평가에 걸친 자동화된 지표와 인간 주석을 포함한 포괄적인 평가는 생성된 데이터가 고품질임을 나타내지만, 인간 평가는 추가 개선이 필요한 부분을 강조합니다. 또한, 우리는 데이터셋을 기반으로 모델을 미세 조정하고 15개의 다양한 다국어 데이터셋에서 성능을 평가하는 다운스트림 평가를 수행합니다. Updesh로 훈련된 모델은 생성 작업에서 지속적으로 상당한 성과를 달성하며, 객관식 스타일의 NLU 작업에서도 경쟁력을 유지합니다. 특히, 저자원 및 중간 자원 언어에서 상대적 개선이 가장 두드러지며, 이들 언어와 고자원 언어 간의 격차를 좁히는 것으로 나타났습니다. 이러한 발견은 효과적인 다국어 AI를 위해서는 맥락을 인지하고 문화적 토대를 포함한 다각적인 데이터 큐레이션 및 생성 전략이 필요하다는 실증적 증거를 제공합니다.
자기회귀(AR) 트랜스포머는 확장성, 계산 효율성, 그리고 언어와 비전을 통합한 아키텍처 덕분에 시각적 생성 분야에서 강력한 패러다임으로 부상했습니다. 이 중에서도 다음 스케일 예측을 기반으로 한 시각적 자기회귀 생성(VAR)은 최근 주목할 만한 성능을 보이며 확산 기반 모델을 능가하기도 했습니다. 본 연구에서는 VAR을 재조명하고 이론적 통찰을 발견했습니다: 마르코프 어텐션 마스크를 장착한 VAR은 수학적으로 이산 확산 모델과 동일합니다. 우리는 이 재해석을 '이산 확산을 통한 확장 가능한 시각적 정제(SRDD)'라고 명명하며, AR 트랜스포머와 확산 모델 간의 원칙적인 연결고리를 확립했습니다. 이 새로운 관점을 활용하여, 우리는 반복적 정제와 같은 확산 모델의 장점을 VAR에 직접 도입하고 아키텍처의 비효율성을 줄여 더 빠른 수렴, 낮은 추론 비용, 그리고 개선된 제로샷 재구성을 달성할 수 있음을 보여줍니다. 여러 데이터셋에 걸쳐, VAR의 확산 기반 관점이 효율성과 생성 품질에서 일관된 개선을 가져온다는 것을 입증합니다.
멀티모달 대형 언어 모델(MLLMs)은 시각적 입력과 자연어 출력을 정렬하는 데 있어 뛰어난 능력을 보여왔습니다. 그러나 생성된 토큰이 시각적 양상에 어느 정도 의존하는지는 여전히 잘 이해되지 않고 있어, 모델의 해석 가능성과 신뢰성을 제한하고 있습니다. 본 연구에서는 MLLM에서의 자기회귀적 토큰 생성을 설명하기 위한 경량 블랙박스 프레임워크인 EAGLE를 제안합니다. EAGLE는 선택된 토큰을 간결한 지각 영역에 귀속시키면서 언어 사전 지식과 지각적 증거의 상대적 영향을 정량화합니다. 이 프레임워크는 충분성(통찰 점수)과 필수성(필요성 점수)을 통합한 목적 함수를 도입하며, 희소화된 이미지 영역에 대한 탐욕적 탐색을 통해 신뢰할 수 있고 효율적인 귀속을 최적화합니다. 공간적 귀속을 넘어, EAGLE는 토큰이 무엇에 의존하는지를 분리하는 양상 인식 분석을 수행하여 모델 결정의 세밀한 해석 가능성을 제공합니다. 오픈소스 MLLM에 대한 광범위한 실험을 통해 EAGLE는 신뢰성, 지역화, 환각 진단 측면에서 기존 방법들을 일관되게 능가하며, GPU 메모리 사용량도 상당히 적은 것으로 나타났습니다. 이러한 결과는 MLLM의 해석 가능성을 발전시키는 데 있어 EAGLE의 효과성과 실용성을 강조합니다. 코드는 https://github.com/RuoyuChen10/EAGLE에서 확인할 수 있습니다.
확산 모델은 이미지 생성 분야에서 놀라운 발전을 이루었지만, 특히 신경망 함수 평가(NFEs) 횟수가 적거나 가이던스 스케일이 낮을 때, 출력 결과가 비현실적으로 보이거나 미세한 디테일이 부족할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 모멘텀 기반 샘플링 기법인 역사 기반 샘플링(HiGS)을 제안합니다. HiGS는 최근의 모델 예측을 각 추론 단계에 통합함으로써 확산 샘플링의 품질과 효율성을 향상시킵니다. 구체적으로, HiGS는 현재 예측과 과거 예측의 가중 평균 간의 차이를 활용하여 샘플링 과정을 더 현실적이고 디테일과 구조가 뛰어난 출력으로 이끕니다. 우리의 접근 방식은 추가적인 계산을 거의 도입하지 않으며, 기존의 확산 프레임워크에 원활하게 통합되어 추가적인 학습이나 미세 조정이 필요하지 않습니다. 다양한 모델과 아키텍처에서, 그리고 다양한 샘플링 예산과 가이던스 스케일 하에서 수행된 광범위한 실험 결과, HiGS는 일관되게 이미지 품질을 개선하는 것으로 나타났습니다. 더 나아가, 사전 학습된 SiT 모델을 사용하여 HiGS는 256x256 크기의 비가이던스 ImageNet 생성에서 표준 250단계 대신 단 30단계만으로 1.61의 새로운 최첨단 FID를 달성했습니다. 따라서 우리는 HiGS를 표준 확산 샘플링에 즉시 적용 가능한 플러그 앤 플레이 개선 사항으로 제시하며, 더 빠른 생성과 더 높은 충실도를 가능하게 합니다.
역사 문서에 대한 정확한 텍스트 인식은 문화유산 연구와 보존을 크게 진전시킬 수 있습니다. 그러나 기존의 시각-언어 모델(VLMs)은 현대적이고 표준화된 텍스트를 위해 설계되어 역사 자료에서 발견되는 다양한 언어와 문자, 불규칙한 레이아웃, 빈번한 훼손 상태를 읽을 수 있도록 준비되어 있지 않습니다. 이 논문은 역사적 텍스트 인식을 위해 특화된 30억 파라미터의 오픈 웨이트 VLM인 CHURRO를 소개합니다. 이 모델은 현재까지 가장 큰 역사적 텍스트 인식 데이터셋인 CHURRO-DS에서 훈련되었습니다. CHURRO-DS는 22세기에 걸친 46개 언어 군을 포함한 99,491페이지의 155개 역사적 코퍼스를 통합하며, 역사적 변형과 사어도 포함합니다. CHURRO-DS에서 여러 오픈 웨이트 및 클로즈드 VLMs와 광학 문자 인식(OCR) 시스템을 평가한 결과, CHURRO가 다른 모든 VLMs를 능가하는 성능을 보였습니다. CHURRO-DS 테스트 세트에서 CHURRO는 인쇄본 82.3%, 필사본 70.1%의 정규화된 레벤슈타인 유사도를 달성하며, 두 번째로 우수한 모델인 Gemini 2.5 Pro를 각각 1.4%와 6.5% 앞섰습니다. 또한 CHURRO는 15.5배 더 비용 효율적입니다. 모델과 데이터셋을 공개함으로써, 우리는 역사적 텍스트의 가독성 향상을 위한 커뮤니티 주도 연구를 가능하게 하고 학문적 연구를 가속화하고자 합니다.
트랜스포머 기반 모델은 뛰어난 언어 모델링 성능을 보여주지만, 높은 복잡성으로 인해 긴 문맥을 처리할 때 비용이 많이 듭니다. 반면, 선형 어텐션(linear attention) 및 상태 공간 모델(state space models)과 같은 순환 신경망(RNN)은 토큰당 일정한 복잡성을 유지하기 때문에 인기를 끌고 있습니다. 그러나 이러한 순환 모델은 모든 문맥 정보가 일정한 크기의 순환 상태로 압축되기 때문에, 긴 문맥에서 정확한 정보 회상이 필요한 작업에는 어려움을 겪습니다. 선행 연구에 따르면 회상 능력은 순환 상태 크기와 양의 상관관계를 가지지만, 순환 상태 크기를 늘려 RNN을 직접 학습시키는 것은 높은 학습 비용을 초래합니다. 본 논문에서는 사전 학습된 RNN의 상태를 사후 학습을 통해 효율적으로 확장하는 StateX 학습 파이프라인을 소개합니다. 선형 어텐션 및 상태 공간 모델이라는 두 가지 인기 있는 RNN 클래스에 대해, 모델 파라미터를 증가시키지 않거나 미미하게 증가시키면서 상태 크기를 확장할 수 있는 사후 학습 아키텍처 수정을 설계했습니다. 최대 13억 파라미터 규모의 모델에 대한 실험을 통해 StateX가 높은 사후 학습 비용 없이 RNN의 회상 및 문맥 내 학습 능력을 효율적으로 향상시키며, 다른 기능을 저하시키지 않음을 입증했습니다.
현재 널리 사용되는 텍스트-비디오 검색 시스템은 주로 임베딩 모델을 사용하여 특징을 추출하고 코사인 유사도를 계산하여 순위를 매기는 방식을 채택하고 있습니다. 그러나 이러한 설계는 두 가지 한계를 가지고 있습니다. 저품질의 텍스트-비디오 데이터 쌍은 검색 결과를 저해할 수 있지만, 이를 식별하고 검토하기는 어렵습니다. 또한 코사인 유사도만으로는 순위 결과에 대한 설명을 제공하지 못해 해석 가능성이 제한됩니다. 우리는 순위 결과를 해석하여 검색 모델을 평가하고 텍스트-비디오 데이터를 검토할 수 있는지에 대해 질문합니다. 본 연구에서는 임베딩 모델 기반의 유사도 순위 대신 LLM CoT(Chain-of-Thought) 추론을 기반으로 한 설명 가능한 검색 프레임워크인 X-CoT를 제안합니다. 먼저, 기존 벤치마크에 추가 비디오 주석을 확장하여 의미 이해를 지원하고 데이터 편향을 줄입니다. 또한, 쌍별 비교 단계로 구성된 검색 CoT를 설계하여 상세한 추론과 완전한 순위를 생성합니다. X-CoT는 실험적으로 검색 성능을 향상시키고 상세한 근거를 제공합니다. 또한 모델 동작 및 데이터 품질 분석을 용이하게 합니다. 코드와 데이터는 https://github.com/PrasannaPulakurthi/X-CoT에서 확인할 수 있습니다.
인간 피드백을 활용한 강화 학습(Reinforcement Learning with Human Feedback, RLHF)과 검증 가능한 보상을 사용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대형 언어 모델(LLM)의 사후 훈련에 주로 사용되는 주요 강화 학습 패러다임으로, 각각 고유한 장점을 제공합니다. 그러나 RLHF는 명시적인 기준이 부족한 인간의 판단에 의존하기 때문에 해석 가능성과 보상 해킹 문제에 직면하는 반면, RLVR은 정확성 기반 검증에 초점을 맞추어 범위가 제한적입니다. 본 연구에서는 인간 주도적 선호도의 다양성과 규칙 기반 검증의 정밀성을 결합한 이진 유연 피드백 강화 학습(Reinforcement Learning with Binary Flexible Feedback, RLBFF)을 제안합니다. 이를 통해 보상 모델이 단순한 정확성을 넘어 응답 품질의 미묘한 측면을 포착할 수 있도록 합니다. RLBFF는 자연어 피드백에서 이진 방식으로 답변 가능한 원칙(예: 정보의 정확성: 예, 코드 가독성: 아니오)을 추출합니다. 이러한 원칙은 보상 모델 훈련을 함의 작업(응답이 임의의 원칙을 충족하는지 여부)으로 기반을 마련하는 데 사용될 수 있습니다. 본 연구는 이러한 방식으로 훈련된 보상 모델이 동일한 데이터 조건에서 Bradley-Terry 모델을 능가하며, RM-Bench(86.2%)와 JudgeBench(2025년 9월 24일 기준 리더보드 1위, 81.4%)에서 최고 성능을 달성함을 보여줍니다. 또한, Bradley-Terry 모델과 달리 사용자는 추론 시 관심 있는 원칙을 지정하여 보상 모델의 초점을 맞춤 설정할 수 있습니다. 마지막으로, RLBFF와 보상 모델을 사용하여 Qwen3-32B를 정렬하는 완전 오픈 소스 레시피(데이터 포함)를 제시하며, 이를 통해 MT-Bench, WildBench, Arena Hard v2와 같은 일반 정렬 벤치마크에서 o3-mini 및 DeepSeek R1의 성능을 맞추거나 능가하는 결과를 달성합니다(추론 비용의 5% 미만).
컴퓨터 지원 설계(CAD)는 산업 프로토타이핑의 기초적인 구성 요소로, 모델이 원시 좌표가 아닌 스케치와 압출과 같은 구성 시퀀스로 정의됩니다. 이러한 순차적 구조는 프로토타입 초기화와 후속 편집 모두를 효율적으로 가능하게 합니다. 텍스트 기반 CAD 프로토타이핑은 텍스트-투-CAD 생성과 CAD 편집을 통합하여 전체 설계 파이프라인을 간소화할 잠재력을 가지고 있습니다. 그러나 기존 연구에서는 이 설정을 탐구하지 않았는데, 이는 주로 표준 대형 언어 모델(LLM) 토크나이저가 CAD 시퀀스를 자연어 단어 조각으로 분해하여 기본 수준의 CAD 의미를 포착하지 못하고 기하학적 구조를 모델링하는 데 어려움을 겪기 때문입니다. 우리는 CAD의 기본 요소와 구조적 특성에 맞춘 다중 모달 토큰화 전략이 더 효과적인 표현을 제공할 수 있다고 추측합니다. 이를 위해, 우리는 CAD 데이터를 기본 수준 풀링과 제한된 디코딩을 사용한 시퀀스 기반 VQ-VAE로 모달리티별 토큰으로 표현하는 CAD-Tokenizer 프레임워크를 제안합니다. 이 설계는 CAD의 구조적 특성과 일치하는 간결하고 기본 요소를 인식하는 표현을 생성합니다. 통합 텍스트 기반 CAD 프로토타이핑에 적용된 CAD-Tokenizer는 지시 사항 준수와 생성 품질을 크게 개선하여 일반 목적 LLM과 작업 특화 베이스라인 모두보다 더 나은 정량적 및 정성적 성능을 달성합니다.
카메라 측정 시퀀스 기반 3D 객체 위치 파악은 드론 기반 산불 감시와 같은 안전이 중요한 감시 작업에 필수적이다. 카메라로 감지된 객체의 위치 파악은 일반적으로 조밀한 깊이 추정 또는 3D 장면 재구성을 통해 해결할 수 있다. 그러나 원거리 객체나 사용 가능한 계산 자원이 제한된 작업의 경우, 두 방법 모두 실현 가능하지 않다. 본 논문에서는 단일 및 다중 타겟 시나리오 모두에 대해 파티클 필터를 사용하여 이 작업을 해결할 수 있음을 보여준다. 이 방법은 3D 시뮬레이션과 글로벌 내비게이션 위성 시스템(GNSS) 기반 카메라 포즈 추정을 사용한 드론 기반 이미지 세그멘테이션 시퀀스를 통해 연구되었다. 결과는 다른 해결책이 실패하는 상황에서도 카메라 포즈와 이미지 세그먼트를 기반으로 실용적인 위치 파악 작업을 해결하는 데 파티클 필터를 사용할 수 있음을 보여주었다. 파티클 필터는 감지 방법과 독립적이어서 새로운 작업에 유연하게 적용할 수 있다. 또한, 이 연구는 기존의 이미지 세그멘테이션 모델과 결합하여 제안된 방법을 사용해 드론 기반 산불 감시를 수행할 수 있음을 입증한다.
함수 호출은 대형 언어 모델의 핵심 기능으로, AI 에이전트에 필수적입니다. 기존 벤치마크인 Berkeley Function Calling Leaderboard(BFCL), tau^2-Bench(arXiv:2506.07982), ACEBench(arXiv:2501.12851) 등은 인자 정확성을 평가하지만, 매개변수 설명에 포함된 형식 지침(예: 값을 큰따옴표로 묶거나 ISO 날짜 형식 사용)을 준수하는지 테스트하지 않습니다. 우리는 IFEval(arXiv:2311.07911)에서 영감을 받아 함수 호출에서의 정확한 지침 준수를 평가하는 IFEval-FC 벤치마크를 소개합니다. IFEval-FC는 검증 가능한 형식을 JSON 스키마 설명 내에 직접 인코딩하며, 예를 들어 값에 구두점이 포함되지 않아야 한다는 등의 사항을 명시합니다. 이 벤치마크는 750개의 테스트 케이스로 구성되며, 각 케이스는 입력 매개변수 중 하나에 내장된 형식과 해당 사용자 쿼리를 포함하는 함수로 이루어져 있습니다. 평가는 완전히 알고리즘화되어 객관성, 재현성 및 확장성을 보장합니다. 우리의 결과는 GPT-5와 Claude 4.1 Opus를 포함한 최첨단 상용 모델조차도 기본적인 형식 규칙을 자주 준수하지 못함을 보여주며, 이는 실제 에이전트 시스템에서의 실질적인 한계를 강조합니다. 전체 코드베이스와 데이터는 https://github.com/Skripkon/IFEval-FC에서 공개적으로 이용 가능합니다.