번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)은 추론 능력에서 뛰어난 성과를 보이지만, 과제 목표와의 행동 정렬을 위해 사후 훈련은 여전히 중요합니다. 기존의 강화 학습(RL) 방법은 비용이 많이 드는 인간 주석이나 외부 보상 모델에 의존하는 경우가 많습니다. 본 연구에서는 모델의 자신감을 보상 신호로 활용하는 자기 신뢰 기반 강화 학습(RLSC)을 제안합니다. 이 방법은 레이블, 선호도 모델 또는 보상 엔지니어링 없이도 작동할 수 있습니다. Qwen2.5-Math-7B 모델에 질문당 16개의 샘플과 10 또는 20번의 훈련 단계를 적용한 결과, RLSC는 AIME2024에서 +13.4%, MATH500에서 +21.2%, Minerva Math에서 +21.7%, Olympiadbench에서 +20.8%, AMC23에서 +9.7%의 정확도 향상을 달성했습니다. RLSC는 소수의 샘플과 레이블 없는 감독만으로도 추론 모델을 위한 간단하고 확장 가능한 사후 훈련 방법을 제공합니다.
확산 모델링 분야에서의 주목할 만한 돌파구는 비디오 생성 기술의 급속한 발전을 이끌었으나, 현재의 기초 모델들은 여전히 프롬프트 준수, 동작의 타당성, 그리고 시각적 품질을 동시에 균형 있게 유지하는 데 있어 중요한 과제에 직면해 있습니다. 본 보고서에서는 이러한 문제를 해결하기 위해 Seedance 1.0을 소개합니다. Seedance 1.0은 고성능이면서도 추론 효율이 뛰어난 비디오 기초 생성 모델로, 다음과 같은 핵심 기술적 개선 사항들을 통합하였습니다: (i) 정밀하고 의미 있는 비디오 캡셔닝을 통해 강화된 다중 소스 데이터 큐레이션으로, 다양한 시나리오에 걸친 포괄적인 학습이 가능하도록 하였습니다; (ii) 제안된 훈련 패러다임과 함께 효율적인 아키텍처 설계를 통해, 다중 샷 생성과 텍스트-투-비디오 및 이미지-투-비디오 작업의 공동 학습을 기본적으로 지원합니다; (iii) 세밀하게 최적화된 사후 훈련 접근법으로, 미세 조정된 감독 학습과 다차원 보상 메커니즘을 활용한 비디오 특화 RLHF(Reinforcement Learning with Human Feedback)를 통해 전반적인 성능 향상을 도모하였습니다; (iv) 다단계 증류 전략과 시스템 수준의 최적화를 통해 ~10배의 추론 속도 향상을 달성한 우수한 모델 가속 기술을 적용하였습니다. Seedance 1.0은 1080p 해상도의 5초 비디오를 단 41.4초 만에 생성할 수 있습니다(NVIDIA-L20 기준). 최신 비디오 생성 모델들과 비교했을 때, Seedance 1.0은 높은 품질과 빠른 생성 속도, 우수한 시공간적 유연성과 구조적 안정성, 복잡한 다중 주제 상황에서의 정확한 지시 준수, 그리고 일관된 주체 표현을 통한 기본적인 다중 샷 내러티브 일관성으로 두각을 나타냅니다.
기존의 대규모 비디오 생성 모델은 계산 집약적이어서 실시간 및 상호작용형 애플리케이션에서의 활용이 제한적이었습니다. 본 연구에서는 사전 학습된 잠재 비디오 확산 모델을 실시간 상호작용형 비디오 생성기로 변환하기 위해 자기회귀적 적대적 사후 학습(AAPT)을 제안합니다. 우리의 모델은 단일 신경망 함수 평가(1NFE)를 통해 한 번에 하나의 잠재 프레임을 자기회귀적으로 생성합니다. 이 모델은 결과를 실시간으로 사용자에게 스트리밍하고, 다음 잠재 프레임을 생성하기 위한 제어 입력으로 상호작용 응답을 받을 수 있습니다. 기존 접근법과 달리, 우리의 방법은 자기회귀 생성에 적대적 학습을 효과적인 패러다임으로 탐구합니다. 이를 통해 단일 단계 생성을 위해 더 효율적이면서도 KV 캐시를 완전히 활용하는 아키텍처를 설계할 수 있을 뿐만 아니라, 장기 비디오 생성 중 오류 누적을 줄이는 데 효과적인 학생 강제(student-forcing) 방식으로 모델을 학습시킬 수 있습니다. 실험 결과, 우리의 8B 모델은 단일 H100에서 736x416 해상도로 실시간 24fps 스트리밍 비디오 생성을 달성했으며, 8xH100에서는 최대 1분 길이(1440 프레임)의 1280x720 해상도 비디오를 생성할 수 있었습니다. 자세한 내용은 연구 웹사이트(https://seaweed-apt.com/2)를 방문해 주세요.
자기회귀적 대형 언어 모델(Autoregressive Large Language Models, AR-LLMs)은 순차적 생성 과정에서 빈번히 암묵적 병렬성을 보인다. 이를 영감으로 삼아, 본 연구에서는 기본적으로 병렬 생성을 가능하게 하는 새로운 생성 모델인 Multiverse를 소개한다. Multiverse는 MapReduce 패러다임을 내재화하여, (i) 적응형 작업 분해를 위한 Map 단계, (ii) 병렬 서브태스크 실행을 위한 Process 단계, (iii) 무손실 결과 합성을 위한 Reduce 단계로 구성된 세 단계를 통해 자동으로 생성한다. 다음으로, 데이터, 알고리즘, 시스템의 공동 설계를 통해 실제 세계의 Multiverse 추론 모델을 구축하여, 최첨단 AR-LLMs로부터의 신속하고 원활한 전이를 가능하게 한다. 순차적 추론 체인에서 출발하여, 비용이 많이 드는 인간 주석을 피하기 위해 자동화된 LLM 지원 파이프라인을 사용하여 이를 구조화된 훈련 데이터로 변환함으로써 Multiverse 1K를 생성한다. 알고리즘적으로는, 효율적인 훈련을 위해 인과적 주의(causal attention)와의 호환성을 유지하면서 병렬 추론 단계를 분리하는 Multiverse Attention을 설계한다. 시스템적으로는, 병렬 추론을 가능하게 하는 Multiverse Engine을 구현한다. 이 엔진은 모델에 의해 직접 트리거되어 순차적 생성과 병렬 생성 간의 동적 전환을 가능하게 하는 전용 스케줄러를 특징으로 한다. 1K 예제를 사용하여 3시간 동안 미세 조정(fine-tuning)을 거친 후, Multiverse-32B는 동일 규모의 선도적인 AR-LLMs와 동등한 성능을 달성한 유일한 오픈소스 비-AR 모델로 자리매김하였으며, 이는 각각 54%와 46%의 AIME24 & 25 점수로 입증되었다. 더욱이, 예산 제어 실험에서 Multiverse-32B는 우수한 확장성을 보여, 동일한 컨텍스트 길이를 사용하여 AR-LLMs를 평균 1.87% 앞섰다. 이러한 확장성은 실질적인 효율성 향상으로 이어져, 다양한 배치 크기에서 최대 2배의 속도 향상을 달성하였다. 본 연구는 데이터, 모델 가중치, 엔진, 지원 도구뿐만 아니라 완전한 데이터 큐레이션 프롬프트와 상세한 훈련 및 평가 레시피를 포함한 전체 Multiverse 생태계를 오픈소스로 공개하였다.
AI 생성 콘텐츠는 단일 모델에서 모듈식 워크플로우로 진화해 왔으며, 특히 ComfyUI와 같은 플랫폼에서 창의적인 파이프라인의 맞춤화를 가능하게 했습니다. 그러나 효과적인 워크플로우를 설계하려면 수많은 전문화된 구성 요소를 조율하는 데 상당한 전문 지식이 필요하며, 이는 사용자에게 높은 학습 곡선을 제시합니다. 이러한 문제를 해결하기 위해, 우리는 자동화된 워크플로우 생성을 위한 최초의 대규모 추론 모델인 ComfyUI-R1을 소개합니다. 우리가 선별한 4K 워크플로우 데이터셋을 시작으로, 노드 선택, 워크플로우 계획, 코드 수준의 워크플로우 표현을 포함한 긴 사고의 연쇄(Chain-of-Thought, CoT) 추론 데이터를 구축합니다. ComfyUI-R1은 두 단계의 프레임워크를 통해 학습됩니다: (1) 콜드 스타트를 위한 CoT 미세 조정으로, 모델을 ComfyUI 도메인에 적응시킵니다; (2) 추론 능력을 강화하기 위한 강화 학습으로, 세분화된 규칙-메트릭 하이브리드 보상을 통해 형식 유효성, 구조적 무결성, 노드 수준의 충실도를 보장합니다. 실험 결과, 우리의 70억 파라미터 모델은 97%의 형식 유효성 비율과 높은 통과율, 노드 수준 및 그래프 수준의 F1 점수를 달성하여, GPT-4o 및 Claude 시리즈와 같은 선도적인 폐쇄형 모델을 사용하는 기존의 최신 방법을 크게 능가합니다. 추가 분석은 추론 과정의 중요성과 워크플로우를 코드로 변환하는 이점을 강조합니다. 질적 비교는 다양한 노드를 포함한 복잡한 워크플로우를 합성하는 데 있어 우리의 강점을 보여주며, AI 예술 창작에서 긴 CoT 추론의 잠재력을 강조합니다.
우리는 생동감 넘치고 역동적인 환경 속에서 몰입적이고 제약 없는 탐색을 가능하게 하는 최초의 에고센트릭(egocentric) 현실 세계 시뮬레이터인 PlayerOne을 소개한다. 사용자로부터 제공된 에고센트릭 장면 이미지를 기반으로, PlayerOne은 해당 세계를 정확하게 구성하고, 외부 카메라로 캡처된 사용자의 실제 장면 인간 동작과 엄격하게 정렬된 에고센트릭 비디오를 생성할 수 있다. PlayerOne은 대규모 에고센트릭 텍스트-비디오 쌍에 대한 사전 학습을 통해 대략적인 에고센트릭 이해를 수행한 후, 자동 구축 파이프라인을 통해 에고센트릭-외부센트릭 비디오 데이터셋에서 추출한 동기화된 동작-비디오 데이터에 대한 미세 조정을 거치는 coarse-to-fine 파이프라인으로 학습된다. 또한, 다양한 구성 요소의 중요도를 고려하여 부위별 움직임을 정밀하게 제어할 수 있는 부위 분리 동작 주입 방식을 설계하였다. 더불어, 4D 장면과 비디오 프레임을 점진적으로 모델링하는 공동 재구성 프레임워크를 고안하여 장기 비디오 생성에서의 장면 일관성을 보장한다. 실험 결과는 다양한 인간 동작의 정밀한 제어와 다양한 시나리오의 세계 일관성 모델링에서의 뛰어난 일반화 능력을 입증한다. 이는 에고센트릭 현실 세계 시뮬레이션에 대한 첫 번째 시도이며, 커뮤니티가 세계 모델링과 그 다양한 응용 분야의 새로운 영역을 탐구할 수 있는 길을 열어줄 것으로 기대된다.
텍스트-음악 생성 분야의 최근 발전으로 인해 모델은 고품질의 음악 세그먼트와 완전한 작곡을 합성할 수 있을 뿐만 아니라, 코드 진행과 같은 세밀한 제어 신호에도 반응할 수 있게 되었다. 최첨단(State-of-the-art, SOTA) 시스템은 훈련 데이터셋, 모델링 패러다임, 아키텍처 선택 등 다양한 차원에서 크게 다르다. 이러한 다양성은 모델을 공정하게 평가하고 성능에 가장 큰 영향을 미치는 설계 선택을 정확히 파악하는 데 어려움을 준다. 데이터와 아키텍처와 같은 요소가 중요하지만, 본 연구에서는 모델링 패러다임에 초점을 맞춘다. 우리는 그 효과를 분리하기 위해 체계적인 실증적 분석을 수행하여, 향후 텍스트-음악 생성 시스템을 이끌 수 있는 관련 트레이드오프와 새로운 행동 양식에 대한 통찰을 제공한다. 구체적으로, 우리는 가장 일반적으로 사용되는 두 가지 모델링 패러다임인 자동회귀 디코딩(Auto-Regressive decoding)과 조건부 흐름 매칭(Conditional Flow-Matching)을 비교한다. 동일한 데이터셋, 훈련 구성, 유사한 백본 아키텍처를 사용하여 모든 모델을 처음부터 훈련함으로써 통제된 비교를 수행한다. 성능은 생성 품질, 추론 구성에 대한 견고성, 확장성, 텍스트 및 시간적으로 정렬된 조건화에 대한 준수, 오디오 인페인팅 형태의 편집 능력 등 여러 축에서 평가된다. 이 비교 연구는 각 패러다임의 독특한 강점과 한계를 밝혀내며, 텍스트-음악 생성의 진화하는 환경에서 미래의 아키텍처 및 훈련 결정에 유용한 통찰을 제공한다. 오디오 샘플 예제는 https://huggingface.co/spaces/ortal1602/ARvsFM에서 확인할 수 있다.
우리는 추론 모델의 긴 디코딩을 위해 특별히 설계된 희소 어텐션 프레임워크인 SeerAttention-R을 소개한다. SeerAttention에서 확장된 SeerAttention-R은 자기-증류 게이팅 메커니즘을 통해 어텐션 희소성을 학습하는 설계를 유지하면서, 자동 회귀 디코딩을 수용하기 위해 쿼리 풀링을 제거했다. 경량 플러그인 게이팅을 통해 SeerAttention-R은 유연하며 기존의 사전 학습된 모델에 원래의 매개변수를 수정하지 않고도 쉽게 통합될 수 있다. 우리는 단 0.4B 토큰으로 학습된 SeerAttention-R이 AIME 벤치마크에서 4K 토큰 예산 내에서 큰 희소 어텐션 블록 크기(64/128)에서 거의 손실 없는 추론 정확도를 유지함을 보여준다. TileLang을 사용하여 우리는 H100 GPU에서 90% 희소성에서 FlashAttention-3 대비 이론적 속도 향상에 근접한 최대 9배의 속도 향상을 달성하는 고도로 최적화된 희소 디코딩 커널을 개발했다. 코드는 https://github.com/microsoft/SeerAttention에서 확인할 수 있다.
대형 언어 모델(LLMs)은 현재 다양한 분야에서 필수적인 요소로 자리 잡았으며, 인상적인 성능을 보여주고 있다. 그러나 이러한 진전은 벤치마크 점수가 정확하고 재현 가능하다는 전제에 기반한다. 본 연구에서는 LLM 성능의 재현성이 취약함을 보여준다: 평가 배치 크기, GPU 수, GPU 버전과 같은 시스템 구성 변경이 생성된 응답에 상당한 차이를 초래할 수 있다. 이 문제는 특히 추론 모델에서 두드러지는데, 초기 토큰에서의 사소한 반올림 차이가 사고의 연쇄적 분기로 이어져 궁극적으로 정확도에 영향을 미칠 수 있다. 예를 들어, bfloat16 정밀도와 탐욕적 디코딩을 사용할 경우, DeepSeek-R1-Distill-Qwen-7B와 같은 추론 모델은 GPU 수, 유형, 평가 배치 크기의 차이로 인해 정확도에서 최대 9%의 변동과 응답 길이에서 9,000 토큰의 차이를 보일 수 있다. 이러한 변동성의 근본 원인은 제한된 수치 정밀도 하에서 부동소수점 연산의 비결합적 특성에 있다. 본 연구는 수치 정밀도가 LLM 추론에서의 재현성에 미치는 영향을 체계적으로 조사한 첫 번째 연구이다. 다양한 하드웨어, 소프트웨어, 정밀도 설정을 통해 신중하게 통제된 실험을 수행함으로써 모델 출력이 언제 어떻게 분기되는지를 정량화하였다. 우리의 분석은 부동소수점 정밀도가 재현성에 있어 중요함에도 불구하고 평가 관행에서 종종 간과되고 있음을 밝혀냈다. 이를 계기로, 가중치는 16비트 정밀도로 저장하되 모든 계산을 FP32로 수행하여 메모리 효율성과 수치적 안정성을 균형 있게 유지하는 경량 추론 파이프라인인 LayerCast를 개발하였다. 코드는 https://github.com/nanomaoli/llm_reproducibility에서 확인할 수 있다.
**SWE-Flow**는 테스트 주도 개발(TDD)에 기반한 새로운 데이터 합성 프레임워크를 소개합니다. 기존의 소프트웨어 엔지니어링 데이터가 인간이 제출한 이슈에 의존하는 것과 달리, **SWE-Flow**는 단위 테스트에서 직접 증분 개발 단계를 자동으로 추론합니다. 단위 테스트는 본질적으로 높은 수준의 요구사항을 포함하고 있습니다. **SWE-Flow**의 핵심은 런타임 의존성 그래프(RDG)를 구성하는 것으로, 이는 함수 간 상호작용을 정확히 포착하여 구조화된 단계별 *개발 일정*을 생성할 수 있게 합니다. 각 단계에서 **SWE-Flow**는 부분적인 코드베이스, 해당 단위 테스트, 그리고 필요한 코드 수정 사항을 생성하여 완전히 검증 가능한 TDD 작업을 제공합니다. 이 접근법을 통해 실제 GitHub 프로젝트에서 16,061개의 훈련 인스턴스와 2,020개의 테스트 인스턴스를 생성하여 **SWE-Flow-Eval** 벤치마크를 만들었습니다. 실험 결과, 이 데이터셋으로 오픈 모델을 미세 조정하면 TDD 기반 코딩에서 성능이 크게 향상됨을 보여줍니다. 추가 연구를 위해 모든 코드, 데이터셋, 모델, 그리고 Docker 이미지를 [Github](https://github.com/Hambaobao/SWE-Flow)에 공개합니다.
o1 및 DeepSeek-R1과 같은 대규모 추론 모델(LRMs)은 긴 사고의 연쇄(CoT)를 통한 자연어 추론에서 놀라운 진전을 보여왔지만, 복잡한 수학 연산을 처리할 때는 여전히 비효율적이거나 부정확한 모습을 보입니다. 이러한 한계를 계산 도구(예: 계산 라이브러리 및 기호 해결기)를 통해 해결하는 것은 유망하지만, 기술적 도전을 야기합니다: 코드 인터프리터(CI)는 모델의 내부 텍스트 표현을 넘어서는 외부 지식을 가져오기 때문에, 이를 직접 결합하는 것은 효율적이지 않습니다. 본 논문은 LRMs가 CI를 효과적이고 효율적으로 활용하도록 가르치기 위한 사후 훈련 프레임워크인 CoRT를 소개합니다. 첫 번째 단계로, 우리는 Hint-Engineering을 통해 코드 통합 추론 데이터를 합성하여 데이터 부족 문제를 해결합니다. 이는 전략적으로 적절한 위치에 다양한 힌트를 삽입하여 LRM-CI 상호작용을 최적화합니다. 우리는 30개의 고품질 샘플을 수동으로 생성하고, 이를 기반으로 1.5B에서 32B 파라미터 범위의 모델을 지도 미세 조정, 거부 미세 조정 및 강화 학습을 통해 사후 훈련합니다. 우리의 실험 결과는 Hint-Engineering 모델이 DeepSeek-R1-Distill-Qwen-32B 및 DeepSeek-R1-Distill-Qwen-1.5B에서 각각 5개의 도전적인 수학 추론 데이터셋에 대해 4% 및 8%의 절대적 개선을 달성함을 보여줍니다. 또한, Hint-Engineering 모델은 자연어 모델에 비해 32B 모델의 경우 약 30%, 1.5B 모델의 경우 50% 더 적은 토큰을 사용합니다. 모델과 코드는 https://github.com/ChengpengLi1003/CoRT에서 확인할 수 있습니다.
텍스트, 이미지, 오디오와 같은 풍부한 다중 모달 조건을 포함한 종단 간 인간 애니메이션은 최근 몇 년 동안 눈부신 발전을 이루어 왔다. 그러나 대부분의 기존 방법들은 단일 주체만을 애니메이션화하고 조건을 전역적으로 주입하는 데 그쳐, 동일한 비디오 내에서 다중 개념이 등장하며 인간 간 상호작용 및 인간-객체 상호작용이 풍부하게 나타나는 시나리오를 간과해 왔다. 이러한 전역적 가정은 인간과 객체를 포함한 다중 개념에 대한 정밀하고 개별적인 제어를 방해하며, 이로 인해 응용 가능성이 제한된다. 본 연구에서는 단일 개체 가정을 버리고, 각 개체의 시공간적 흔적에 모달리티로부터의 조건을 강력하고 지역적으로 결합하는 새로운 프레임워크를 제안한다. 다중 개념의 참조 이미지가 주어졌을 때, 우리의 방법은 마스크 예측기를 활용하여 디노이즈된 비디오와 각 참조 외관 간의 외관 단서를 매칭함으로써 레이아웃 정보를 자동으로 추론한다. 더 나아가, 지역 오디오 조건을 해당 영역에 반복적으로 주입하여 레이아웃 정렬된 모달리티 매칭을 보장한다. 이러한 설계는 제어 가능한 다중 개념 중심의 인간 중심 비디오를 고품질로 생성할 수 있게 한다. 실험 결과와 어블레이션 연구는 암묵적 대안 및 기존 방법들과 비교하여 다중 모달 조건에 대한 명시적 레이아웃 제어의 효과를 검증한다.
LLM(Large Language Model)은 주로 인간 사용자와 모델이 교대로 대화하는 동기적 커뮤니케이션에서 사용된다. 반면, 많은 실제 상황은 본질적으로 비동기적이다. 예를 들어, 그룹 채팅, 온라인 팀 회의, 또는 소셜 게임에서는 교대의 개념이 없기 때문에 언제 말할지 결정하는 것이 참가자의 의사 결정에서 중요한 부분을 차지한다. 본 연구에서는 무엇을 말할지 결정하는 것뿐만 아니라 언제 말할지도 결정하는 적응형 비동기적 LLM 에이전트를 개발한다. 우리의 에이전트를 평가하기 위해, 인간 참가자와 비동기적 에이전트가 모두 포함된 온라인 마피아 게임의 독특한 데이터셋을 수집한다. 전반적으로, 우리의 에이전트는 게임 성과뿐만 아니라 다른 인간 플레이어들과 자연스럽게 어울리는 능력에서도 인간 플레이어와 동등한 수준을 보인다. 분석 결과, 에이전트가 언제 말할지 결정하는 행동은 인간의 패턴과 매우 유사하지만, 메시지 내용에서는 차이가 나타난다. 우리는 모든 데이터와 코드를 공개하여 LLM 에이전트 간의 보다 현실적인 비동기적 커뮤니케이션을 위한 추가 연구를 지원하고 장려한다. 이 연구는 팀 토론 지원부터 복잡한 사회적 역학을 다뤄야 하는 교육 및 전문 환경에 이르기까지 LLM을 현실적인 인간 그룹 설정에 통합하는 길을 열어준다.
다중모드 대형 언어 모델(MLLMs)의 급속한 발전에도 불구하고, 이들은 시각적 처리의 중요성을 크게 간과해 왔다. 간단하지만 의미 있는 실험에서, 우리는 흥미롭게도 이미지 캡션만 제공된 언어 전용 모델이 원시 시각적 입력을 처리하는 MLLMs와 비슷하거나 더 나은 성능을 달성할 수 있음을 발견했다. 이는 현재의 MLLMs가 정확한 시각적 설명을 생성할 수는 있지만, 이를 추론 과정에서 효과적으로 통합하지 못할 가능성을 시사한다. 이를 계기로, 우리는 알고리즘 수정이나 추가 학습 데이터 없이도 지각적 견고성을 향상시키는 간단한 시각적 교란 프레임워크를 제안한다. 우리의 접근 방식은 SFT, DPO, GRPO와 같은 기존의 사후 학습 파이프라인에 쉽게 통합할 수 있는 세 가지 목표 교란 전략을 도입한다: 방해 요소 연결, 우위 유지 혼합, 무작위 회전. 여러 데이터셋에 걸친 광범위한 실험을 통해, 우리는 수학적 추론 성능에서 일관된 개선을 보여주었으며, 이는 알고리즘 변경을 통해 달성된 성능 향상과 비슷한 수준이었다. 또한, 우리는 Qwen2.5-VL-7B 모델에 시각적 교란을 적용하여 학습함으로써 오픈소스 7B RL 튜닝 모델 중에서 경쟁력 있는 성능을 달성했다. 포괄적인 제거 연구를 통해, 우리는 다양한 교란 전략의 효과를 분석했으며, 각 교란 유형이 시각적 추론의 다른 측면에 독특하게 기여함을 밝혀냈다. 우리의 연구 결과는 다중모드 수학적 추론에서 시각적 교란의 중요한 역할을 강조한다: 더 나은 추론은 더 나은 시각에서 시작된다. 우리의 코드는 https://github.com/YutingLi0606/Vision-Matters에서 확인할 수 있다.
비전-언어-행동 모델(VLAs)은 다양한 조작 작업에서 유망한 로봇 행동을 보여주지만, 새로운 작업에 바로 적용할 경우 성공률이 제한적입니다. 이러한 정책이 환경과 안전하게 상호작용할 수 있도록 하려면, 로봇이 멈추거나 되돌아가거나 도움을 요청할 수 있도록 적시에 경고를 제공하는 실패 감지기가 필요합니다. 그러나 기존의 실패 감지기는 하나 또는 소수의 특정 작업에 대해서만 훈련되고 테스트되는 반면, VLAs는 감지기가 보이지 않는 작업과 새로운 환경에서도 실패를 감지할 수 있도록 일반화되어야 합니다. 본 논문에서는 다중 작업 실패 감지 문제를 소개하고, VLAs와 같은 일반적인 로봇 정책을 위한 실패 감지기인 SAFE를 제안합니다. 우리는 VLA 특징 공간을 분석하고, VLAs가 작업 성공과 실패에 대한 충분한 고수준 지식을 가지고 있으며, 이 지식이 다양한 작업에 걸쳐 일반적이라는 것을 발견했습니다. 이러한 통찰을 바탕으로, SAFE는 VLA 내부 특징을 학습하고 작업 실패 가능성을 나타내는 단일 스칼라 값을 예측하도록 설계되었습니다. SAFE는 성공적이고 실패한 롤아웃에서 훈련되며, 보이지 않는 작업에서 평가됩니다. SAFE는 다양한 정책 아키텍처와 호환됩니다. 우리는 OpenVLA, pi_0, pi_0-FAST를 시뮬레이션 및 실제 환경에서 광범위하게 테스트했습니다. SAFE를 다양한 베이스라인과 비교하여, SAFE가 최신의 실패 감지 성능을 달성하고, conformal prediction을 사용하여 정확도와 감지 시간 사이의 최적의 균형을 보여줌을 확인했습니다. 더 많은 질적 결과는 https://vla-safe.github.io/에서 확인할 수 있습니다.
언어는 시각적 작업의 성능을 명시하고 평가하기 위한 자연스러운 인터페이스를 제공한다. 이러한 가능성을 실현하기 위해서는 시각 언어 모델(VLMs)이 시각적 정보와 언어적 정보를 성공적으로 통합해야 한다. 본 연구는 VLMs이 이러한 양상을 통합하는 능력을 이해하기 위해 VLMs과 그 시각적 인코더의 직접적인 판독을 비교한다. 일련의 시각 중심 벤치마크(예: 깊이 추정, 대응 관계)에서 VLMs은 시각적 인코더보다 상당히 낮은 성능을 보이며, 거의 무작위 수준의 성능으로 떨어지는 것을 확인하였다. 이러한 결과를 VLMs 전체에 걸친 일련의 분석을 통해 조사하였다: 즉 1) 시각 표현의 저하, 2) 작업 프롬프트에 대한 취약성, 3) 작업 해결에서 언어 모델의 역할. 이러한 시각 중심 작업을 수행하는 데 있어 병목 현상은 세 번째 범주에 있음을 발견하였다; VLMs은 모델 전체에서 쉽게 접근할 수 있는 시각적 정보를 효과적으로 사용하지 못하며, LLM에 존재하는 언어적 사전 지식을 상속받는다. 본 연구는 오픈소스 VLMs의 실패 모드를 진단하고, VLMs 내에서 시각적 이해에 대한 향후 연구에 유용한 일련의 평가를 제시한다.
최근 3D 객체 생성 분야의 발전은 품질과 효율성 모두를 크게 향상시켰습니다. 그러나 대부분의 기존 방법은 모든 부위가 융합된 단일 메시를 생성하므로, 개별 부위를 편집하거나 조작하는 능력이 제한됩니다. 주요 과제는 서로 다른 객체가 다양한 수의 부위를 가질 수 있다는 점입니다. 이를 해결하기 위해, 우리는 부위 단위의 3D 객체 생성을 위한 새로운 종단간(end-to-end) 프레임워크를 제안합니다. 단일 입력 이미지가 주어졌을 때, 우리의 방법은 임의의 수의 완전하고 의미론적으로 의미 있는 부위를 가진 고품질 3D 객체를 생성합니다. 우리는 모든 부위를 두 개의 상호 보완적인 볼륨으로 조직화하는 이중 볼륨 패킹 전략을 도입하여, 최종 객체로 조립될 수 있는 완전하고 교차된 부위를 생성할 수 있게 합니다. 실험 결과, 우리의 모델은 이전의 이미지 기반 부위 단위 생성 방법들보다 더 나은 품질, 다양성 및 일반화 능력을 달성함을 보여줍니다.
고밀도 이미지 대응은 시각적 주행 거리 측정(visual odometry), 3D 재구성, 객체 연관, 재식별 등 다양한 응용 분야에서 핵심적인 역할을 한다. 역사적으로 고밀도 대응은 광범위 기선(wide-baseline) 시나리오와 광학 흐름(optical flow) 추정을 위해 별도로 다루어져 왔으며, 이는 두 이미지 간의 내용을 매칭한다는 공통 목표에도 불구하고 그러했다. 본 논문에서는 소스 이미지와 타겟 이미지 모두에서 공동으로 가시화되는 픽셀에 대해 통합된 데이터로 학습된 통합 흐름 및 매칭 모델(Unified Flow & Matching model, UFM)을 개발한다. UFM은 (u, v) 흐름을 직접 회귀하는 간단하고 일반적인 트랜스포머 아키텍처를 사용한다. 이는 기존 연구에서 사용된 일반적인 coarse-to-fine 비용 볼륨(cost volume) 방식에 비해 학습이 더 쉬우며, 큰 흐름에 대해 더 정확하다. UFM은 최신 흐름 기법(Unimatch)보다 28% 더 정확하며, 고밀도 광범위 기선 매처(RoMa)에 비해 62% 더 적은 오류와 6.7배 더 빠른 성능을 보인다. UFM은 통합 학습이 두 영역 모두에서 특수화된 접근법을 능가할 수 있음을 처음으로 입증한 모델이다. 이 결과는 빠르고 일반적인 목적의 대응을 가능하게 하며, 다중 모달, 장거리, 실시간 대응 작업을 위한 새로운 방향을 제시한다.
시선 참조 추론(타인이 무엇을 보고 있는지 추론하는 능력)은 인간과 AI 간의 자연스러운 상호작용을 뒷받침하는 마음 이론(theory of mind)의 중요한 구성 요소입니다. 통제된 연구에서, 우리는 조작된 난이도와 다양성을 가진 사진을 사용하여 111개의 시각 언어 모델(Vision Language Models, VLMs)의 이 능력을 평가하고, 인간 참가자(N = 65)의 성능과 비교한 뒤 혼합 효과 모델(mixed-effects models)을 사용하여 행동을 분석했습니다. 연구 결과, 111개 VLM 중 94개가 무작위 추측보다 나은 성능을 보이지 못한 반면, 인간 참가자들은 거의 완벽에 가까운 정확도를 달성했습니다. VLM들은 각 선택지에 거의 동일한 빈도로 응답했습니다. 이들은 무작위로 추측하고 있는 걸까요? 대부분의 VLM이 어려움을 겪고 있지만, 상위 5개 VLM의 성능을 자세히 살펴보면, 이들의 성능이 과제 난이도가 증가함에 따라 감소하지만 다양한 프롬프트와 장면 객체 간에는 약간만 변동하는 것을 확인했습니다. 이러한 행동적 특징은 이들을 무작위 추측자로 간주하여 설명할 수 없습니다. 대신, 이들은 휴리스틱과 추측을 결합하여 사용함으로써 과제 난이도에는 영향을 받지만 지각적 변동에는 강건한 성능을 보이는 것으로 보입니다. 이는 VLM이 시선 추론 능력을 갖추지 못해 아직 인간과 자연스럽게 상호작용할 수 있는 기술로 자리 잡지 못했음을 시사하지만, 잠재력은 여전히 남아 있습니다.
사용자 수준에서 비디오 디퓨전 모델(Video Diffusion Models, VDMs)을 미세 조정하여 훈련 데이터의 특정 속성을 반영한 비디오를 생성하는 것은 상당한 도전 과제를 제시하지만, 그 실질적인 중요성에도 불구하고 아직 충분히 탐구되지 않았다. 한편, 최근 Representation Alignment (REPA)와 같은 연구는 DiT 기반 이미지 디퓨전 모델의 수렴 및 품질을 개선하기 위해 내부 은닉 상태(hidden states)를 외부 사전 훈련된 시각적 특징과 정렬 또는 동화시키는 방식으로 유망한 결과를 보여주었으며, 이는 VDM 미세 조정에 대한 잠재력을 시사한다. 본 연구에서는 먼저 REPA를 VDMs에 적용하는 간단한 방법을 제안하고, 이 방법이 수렴에는 효과적이지만 프레임 간의 의미적 일관성을 유지하는 데는 최적이 아니라는 것을 실증적으로 보여준다. 이러한 한계를 해결하기 위해, 우리는 한 프레임의 은닉 상태를 인접 프레임의 외부 특징과 정렬하는 새로운 정규화 기법인 Cross-frame Representation Alignment (CREPA)를 소개한다. CogVideoX-5B 및 Hunyuan Video와 같은 대규모 VDMs에 대한 실증적 평가는 CREPA가 LoRA와 같은 매개변수 효율적 방법으로 미세 조정될 때 시각적 충실도와 프레임 간 의미적 일관성을 모두 개선함을 보여준다. 또한, 다양한 속성을 가진 데이터셋에서 CREPA를 검증하여 그 광범위한 적용 가능성을 확인한다. 프로젝트 페이지: https://crepavideo.github.io
대규모 언어 모델은 자신의 지식 경계를 인식하고, 알려진 질의와 알려지지 않은 질의를 식별하는 메커니즘을 갖추는 것이 중요하다. 이러한 인식은 모델이 RAG(RAG)를 호출하거나, 느리고 깊은 사고를 수행하거나, 기권 메커니즘을 채택하는 등 적응형 추론을 수행하는 데 도움을 줄 수 있으며, 이는 효율적이고 신뢰할 수 있는 AI 개발에 유익하다. 본 연구에서는 주어진 질의를 토큰을 생성하지 않고도 처리할 수 있는지 여부를 판단하기 위해 질의 수준 불확실성(Query-Level Uncertainty)을 통해 지식 경계를 탐지하는 방법을 제안한다. 이를 위해, 우리는 레이어와 토큰 간의 자기 평가를 활용한 새로운 학습이 필요 없는 방법인 내부 신뢰도(Internal Confidence)를 소개한다. 사실 기반 질의응답(FAQ) 및 수학적 추론 작업에 대한 실험 결과는 우리의 내부 신뢰도가 여러 기준선을 능가할 수 있음을 보여준다. 또한, 제안된 방법이 효율적인 RAG 및 모델 캐스케이딩에 사용될 수 있으며, 이는 성능을 유지하면서 추론 비용을 줄일 수 있음을 입증한다.
인공지능(AI)은 광간섭단층촬영(OCT)과 같은 안과 영상 분석을 지원하는 데 있어 필수적인 도구로 자리 잡았습니다. 그러나 AI 모델 개발에는 대규모 주석 작업이 필요하며, 기존 모델들은 독립적이고 보지 못한 데이터에서 성능이 떨어지는 경향이 있습니다. 방대한 라벨 없는 데이터셋으로 훈련된 대형 AI 모델인 파운데이션 모델(FMs)은 이러한 문제를 극복할 가능성을 보여주고 있습니다. 그럼에도 불구하고, 안과 분야에서 사용 가능한 FMs는 특히 세분화 작업에 대한 광범위한 검증이 부족하며, 단일 영상 모달리티에 초점을 맞추고 있습니다. 이러한 맥락에서, 우리는 OCT와 스캐닝 레이저 안저촬영(SLO) 영상 분석을 위한 새로운 다중모달 FM인 MIRAGE를 제안합니다. 또한, OCT/SLO 분류 및 세분화 작업을 포함한 새로운 평가 벤치마크를 제안합니다. 일반적 및 특화된 FMs와 세분화 방법들과의 비교를 통해 MIRAGE가 두 가지 유형의 작업에서 모두 우수성을 보여주며, 망막 OCT 영상 분석을 위한 강력한 AI 시스템 개발의 기초로서 적합함을 입증합니다. MIRAGE와 평가 벤치마크는 모두 공개적으로 이용 가능합니다: https://github.com/j-morano/MIRAGE.
대규모 언어 모델(LLM)이 인공지능의 급속한 발전을 주도하고 있지만, 이러한 대형 모델을 효과적이고 안정적으로 학습시키는 것은 여전히 이 분야의 가장 중요한 과제 중 하나입니다. 이 문제를 해결하기 위해, 우리는 직교 등가 변환(Orthogonal Equivalence Transformation)을 사용하여 뉴런을 최적화하는 새로운 재매개변수화 학습 알고리즘인 POET를 제안합니다. 구체적으로, POET는 각 뉴런을 두 개의 학습 가능한 직교 행렬과 고정된 랜덤 가중치 행렬로 재매개변수화합니다. POET는 가중치 행렬의 스펙트럼 특성을 보존할 수 있음이 증명되어, 개선된 일반화 성능으로 목적 함수를 안정적으로 최적화할 수 있습니다. 또한, 우리는 POET가 대규모 신경망 학습에 유연하고 확장 가능하도록 효율적인 근사 방법을 개발했습니다. 광범위한 실험을 통해 POET가 LLM 학습에서 효과적이고 확장 가능함을 검증했습니다.
의료 시각 질의응답(MedVQA)은 임상 의사결정 지원 시스템 개발을 위한 유망한 분야이지만, 종종 이용 가능한 데이터셋의 한계로 인해 진전이 제한됩니다. 이러한 데이터셋은 임상적 복잡성과 시각적 다양성이 부족할 수 있습니다. 이러한 격차를 해결하기 위해, 우리는 위장관(GI) 내시경을 위한 새로운 대규모 데이터셋인 Kvasir-VQA-x1을 소개합니다. 우리의 작업은 기존 Kvasir-VQA를 크게 확장하여, 더 깊은 임상적 사고를 테스트하도록 설계된 159,549개의 새로운 질문-답변 쌍을 포함시켰습니다. 우리는 대규모 언어 모델을 사용하여 이러한 질문을 생성하는 체계적인 방법을 개발했으며, 이 질문들은 복잡성에 따라 계층화되어 모델의 추론 능력을 더 잘 평가할 수 있도록 했습니다. 우리의 데이터셋이 실제 임상 시나리오에 대비할 수 있도록, 일반적인 영상 아티팩트를 모방한 다양한 시각적 증강 기법도 도입했습니다. 이 데이터셋은 표준 VQA 성능을 평가하기 위한 트랙과 이러한 시각적 교란에 대한 모델의 견고성을 테스트하기 위한 트랙, 두 가지 주요 평가 트랙을 지원하도록 구조화되었습니다. Kvasir-VQA-x1은 더 도전적이고 임상적으로 관련성이 높은 벤치마크를 제공함으로써, 임상 환경에서 사용하기 위한 더 신뢰할 수 있고 효과적인 다중모달 AI 시스템의 개발을 가속화하고자 합니다. 이 데이터셋은 완전히 접근 가능하며 FAIR 데이터 원칙을 준수하여, 더 넓은 연구 커뮤니티를 위한 귀중한 자원이 될 것입니다. 코드와 데이터: https://github.com/Simula/Kvasir-VQA-x1 및 https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
초기 분포와 목표 분포 사이의 중간 궤적을 예측하는 것은 생성 모델링에서 핵심적인 문제이다. 기존의 접근 방식인 플로우 매칭(flow matching)과 슈뢰딩거 브리지 매칭(Schrödinger Bridge Matching)은 단일 확률적 경로를 모델링함으로써 두 분포 간의 매핑을 효과적으로 학습한다. 그러나 이러한 방법들은 본질적으로 단일 모드 전이에 국한되며, 공통 기원에서 여러 개의 서로 다른 결과로 분기되거나 발산하는 진화를 포착할 수 없다. 이를 해결하기 위해, 우리는 분기된 슈뢰딩거 브리지를 학습하는 새로운 프레임워크인 분기 슈뢰딩거 브리지 매칭(Branched Schrödinger Bridge Matching, BranchSBM)을 소개한다. BranchSBM은 여러 시간 의존적 속도 필드와 성장 과정을 매개변수화하여, 다중 종단 분포로의 집단 수준 발산을 표현할 수 있게 한다. 우리는 BranchSBM이 다중 경로 표면 탐색, 동질성 전구체 상태에서의 세포 운명 분기 모델링, 그리고 교란에 대한 발산적 세포 반응 시뮬레이션과 같은 작업에서 더 표현력이 뛰어날 뿐만 아니라 필수적임을 보여준다.
대형 언어 모델은 종종 파라미터 기반 지식과 문맥적 입력 간의 충돌을 겪으며, 이로 인해 사실적 불일치나 환각(hallucination)이 발생하기 쉽다. 본 연구에서는 이러한 충돌을 해결하기 위해 토큰 수준의 자기 신뢰도와 비대칭적 다중 에이전트 토론을 통합한 경량 프레임워크인 문맥 신뢰성을 위한 자기 반성적 토론(Self-Reflective Debate for Contextual Reliability, SR-DCR)을 제안한다. 이 프레임워크에서는 문맥 정보가 없는 비평가(critic)가 주어진 문단을 근거로 주장하는 수호자(defender)에게 도전하며, 판단자(judge) 모델이 토론을 평가하여 문맥의 신뢰성을 결정한다. 최종 답변은 판단 결과와 모델의 신뢰도를 결합하여 선택된다. ClashEval 벤치마크에서의 실험 결과, SR-DCR은 오해의 소지가 있는 문맥에 대한 견고성을 지속적으로 향상시키면서도 신뢰할 수 있는 입력에 대한 정확도를 유지하며, 최소한의 계산 오버헤드로 기존의 토론 방식이나 신뢰도만을 기반으로 한 방법을 능가하는 것으로 나타났다. 코드는 https://github.com/smiles724/Self-Reflective-Debates에서 확인할 수 있다.
대규모 추론 모델(LRMs)은 올림피아드 수준의 수학 문제를 포함한 다양한 과제에서 인상적인 추론 능력을 보여주며, 복잡한 추론 능력의 증거를 나타냈습니다. 많은 추론 벤치마크가 STEM 분야에 초점을 맞추고 있지만, LRMs이 더 넓은 과제 영역에서 올바르게 추론하는 능력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 TTT-Bench라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 두 명의 플레이어가 참여하는 틱택토 스타일의 네 가지 게임을 통해 LRMs의 기본적인 전략적, 공간적, 논리적 추론 능력을 평가하도록 설계되었습니다. 인간은 어린 나이부터 이러한 게임을 쉽게 해결할 수 있지만, 이 게임들은 상대방의 의도를 추론하고 게임 보드의 공간적 구성을 이해하여 승리를 보장해야 합니다. 우리는 검증 가능한 두 명의 플레이어 게임 문제를 생성하기 위한 간단하면서도 확장 가능한 프로그래밍 방식을 제안합니다. 다양한 최신 LRMs을 평가한 결과, 어려운 수학 문제에서 뛰어난 성능을 보이는 모델들이 이러한 간단한 추론 게임에서는 종종 실패하는 것을 발견했습니다. 추가 테스트 결과, 평가된 추론 모델들은 TTT-Bench에서 MATH 500 및 AIME 2024에 비해 각각 평균 41% 및 5% 낮은 점수를 기록했으며, 더 큰 모델들이 더 짧은 추론 흔적을 사용하여 더 높은 성능을 달성하는 반면, 대부분의 모델들은 간단하고 새로운 TTT-Bench 과제에서 장기적인 전략적 추론 상황에서 어려움을 겪는 것으로 나타났습니다.
최근 대형 언어 모델(LLM)의 발전으로 많은 연구자들이 완전히 자율적인 AI 에이전트 구축에 주목하고 있습니다. 본 포지션 논문은 이러한 접근 방식이 올바른 방향인지 의문을 제기합니다. 이러한 자율 시스템은 여전히 신뢰성, 투명성, 그리고 인간의 실제 요구 사항을 이해하는 데 문제를 안고 있기 때문입니다. 우리는 대안으로 LLM 기반 인간-에이전트 시스템(LLM-HAS)을 제안합니다. 이 시스템은 AI가 인간을 대체하는 것이 아니라 인간과 협력하는 방식입니다. 인간이 지침을 제공하고 질문에 답하며 통제를 유지함으로써, 이러한 시스템은 더 신뢰할 수 있고 적응력이 높아질 수 있습니다. 의료, 금융, 소프트웨어 개발 분야의 사례를 통해, 인간-AI 팀워크가 AI 단독으로 작업하는 것보다 복잡한 작업을 더 잘 처리할 수 있음을 보여줍니다. 또한 이러한 협업 시스템을 구축하는 데 따른 과제를 논의하고 실질적인 해결 방안을 제시합니다. 본 논문은 AI의 진보를 시스템의 독립성 정도가 아니라 인간과 얼마나 잘 협력할 수 있는지로 측정해야 한다고 주장합니다. AI의 가장 유망한 미래는 인간의 역할을 대체하는 시스템이 아니라, 의미 있는 협력을 통해 인간의 능력을 강화하는 시스템에 있습니다.