번역이 포함된 일일 선별된 AI 연구 논문
Text-to-SQL은 자연어 질의를 SQL 문으로 변환하는 것을 목표로 하며, 이를 통해 누구나 데이터베이스에서 원하는 정보를 쉽게 검색할 수 있도록 하는 실용적인 기술이다. 최근에는 대규모 언어 모델(LLMs)을 활용하여 사용자 질의를 이해하고 해당 SQL 코드를 생성하는 강력한 능력을 바탕으로 이 문제를 해결하려는 다양한 접근법이 등장했다. 그러나 LLMs의 파라미터적 지식은 다양한 데이터베이스 스키마에 기반을 둔 도메인 특화 질의를 모두 포괄하기에는 한계가 있어, 생성된 SQL이 종종 부정확한 경우가 있다. 이를 해결하기 위해, 우리는 텍스트-to-SQL을 위한 지식 기반을 구축하여 주어진 질의에 필요한 지식을 검색하고 생성하는 기반 지식 소스를 제안한다. 특히, 기존 접근법이 수동으로 지식을 주석 처리하거나 각 질의에 대해 소수의 지식만을 생성하는 것과 달리, 우리의 지식 기반은 사용 가능한 모든 질문과 관련 데이터베이스 스키마, 그리고 관련 지식을 기반으로 구축되어 포괄적이며, 다양한 데이터셋과 도메인에서 보이지 않는 데이터베이스에 재사용될 수 있다. 우리는 중첩 및 비중첩 데이터베이스 시나리오를 고려하여 여러 텍스트-to-SQL 데이터셋에서 이 접근법을 검증하였으며, 관련 베이스라인을 크게 능가하는 성능을 보였다.
명령어 수행(Instruction Following, IF)은 대규모 언어 모델(Large Language Models, LLMs)의 핵심 능력이다. 그러나 다중 제약 조건을 포함한 복잡한 명령어를 처리하는 것은 여전히 어려운 과제로 남아 있다. 기존 방법들은 일반적으로 제약 조건을 얼마나 충족하는지에 따라 선호 쌍을 선택함으로써, 선택된 예제가 일부 제약 조건을 따르지 못하거나 거부된 예제가 선택된 예제보다 특정 측면에서 우수할 수 있는 잡음을 유발한다. 다중 선호도와의 정렬 문제를 해결하기 위해, 우리는 Reverse Preference Optimization(RPO)이라는 간단하면서도 효과적인 방법을 제안한다. RPO는 명령어 내의 제약 조건을 동적으로 반전시켜 선택된 응답이 완벽하도록 함으로써 선호 쌍의 잡음을 완화하고, 완벽한 응답을 수집하기 위한 광범위한 샘플링 및 필터링의 부담을 줄인다. 또한, 반전은 선택된 응답과 거부된 응답 간의 차이를 확대함으로써 최적화 방향을 명확히 하고 잡음에 대한 강건성을 높인다. 우리는 RPO를 Sysbench와 Multi-IF라는 두 가지 다중 턴 IF 벤치마크에서 평가하였으며, 각각 DPO 기준선 대비 평균 4.6점과 2.5점(Llama-3.1 8B 기준)의 개선을 보였다. 더불어, RPO는 모델 크기(8B에서 70B 파라미터)에 걸쳐 효과적으로 확장되며, 70B RPO 모델은 GPT-4o를 능가하는 성능을 보였다.
본 논문은 LLM(대형 언어 모델)과 함께 추론을 위한 RL(강화 학습)의 확장에 있어 주요 장애물인 정책 엔트로피의 붕괴 현상을 극복하는 것을 목표로 합니다. 이러한 현상은 엔트로피 개입 없이 광범위한 RL 실행에서 일관되게 관찰되며, 정책 엔트로피가 초기 훈련 단계에서 급격히 감소하는 것으로 나타납니다. 이러한 탐색 능력의 감소는 항상 정책 성능의 포화와 동반됩니다. 실제로, 우리는 엔트로피 H와 하류 성능 R 사이의 변환 방정식 R=-a*e^H+b를 수립했습니다. 이 경험적 법칙은 정책 성능이 정책 엔트로피와 교환되며, 따라서 엔트로피의 고갈에 의해 병목 현상이 발생하고, 한계점이 완전히 예측 가능함(H=0, R=-a+b)을 강력히 시사합니다. 우리의 발견은 RL을 위한 계산 확장을 지속적으로 탐색하기 위해 엔트로피 관리가 필요함을 보여줍니다. 이를 위해, 우리는 이론적 및 경험적으로 엔트로피 역학을 조사했습니다. 우리의 유도는 정책 엔트로피의 변화가 행동 확률과 로짓 변화 사이의 공분산에 의해 주도되며, 이는 Policy Gradient와 유사한 알고리즘을 사용할 때 그 이점에 비례함을 강조합니다. 경험적 연구는 공분산 항과 엔트로피 차이의 값이 정확히 일치하여 이론적 결론을 지지함을 보여줍니다. 더욱이, 공분산 항은 훈련 전반에 걸쳐 대부분 양수로 유지되며, 이는 정책 엔트로피가 단조 감소하는 이유를 추가로 설명합니다. 엔트로피 역학의 메커니즘을 이해함으로써, 우리는 고공분산 토큰의 업데이트를 제한하여 엔트로피를 통제할 동기를 부여받습니다. 구체적으로, 우리는 고공분산 토큰에 각각 클리핑과 KL 페널티를 적용하는 Clip-Cov와 KL-Cov라는 두 가지 간단하지만 효과적인 기법을 제안합니다. 실험 결과, 이러한 방법들은 탐색을 촉진하여 정책이 엔트로피 붕괴를 벗어나고 더 나은 하류 성능을 달성하는 데 도움을 줍니다.
LLM 기반 에이전트는 점점 더 다양한 소프트웨어 엔지니어링(SWE) 작업에서 유망한 능력을 보여주고 있습니다. 그러나 이 분야를 발전시키기 위해서는 두 가지 중요한 과제가 있습니다. 첫째, 고품질의 훈련 데이터가 부족하며, 특히 에이전트가 개발 환경과 상호작용하고 코드를 실행하며 그들의 행동 결과에 따라 행동을 조정해야 하는 실제 SWE 시나리오를 반영한 데이터가 부족합니다. 기존 데이터셋은 일회성 코드 생성에 국한되거나 소규모의 수동으로 선별된 상호작용 작업으로 구성되어 있어 규모와 다양성이 부족합니다. 둘째, 새로운 상호작용 SWE 작업의 부족은 빠르게 개선되는 모델의 평가에 영향을 미치며, 정적 벤치마크는 오염 문제로 인해 빠르게 구식이 됩니다. 이러한 한계를 해결하기 위해, 우리는 다양한 GitHub 저장소에서 실제 상호작용 SWE 작업을 지속적으로 추출할 수 있는 새로운 자동화된 확장 가능한 파이프라인을 소개합니다. 이 파이프라인을 사용하여, 우리는 21,000개 이상의 상호작용 Python 기반 SWE 작업으로 구성된 공개 데이터셋인 SWE-rebench를 구축했습니다. 이 데이터셋은 대규모로 SWE 에이전트의 강화 학습에 적합합니다. 또한, SWE-rebench 방법론을 사용하여 지속적으로 수집된 새로운 작업을 활용하여 오염 없는 에이전트 소프트웨어 엔지니어링 벤치마크를 구축했습니다. 우리는 이 벤치마크에서 다양한 LLM의 결과를 SWE-bench Verified의 결과와 비교하여 일부 언어 모델의 성능이 오염 문제로 인해 과대평가될 수 있음을 보여줍니다.
대규모 언어 모델(LLMs)은 인상적인 추론 능력을 달성하지만, 상당한 추론 오버헤드로 인해 배포에 상당한 어려움을 겪고 있습니다. 소규모 언어 모델(SLMs)을 증류하면 효율성이 크게 향상되지만, LLMs의 추론 경로를 따르지 못해 성능이 저하됩니다. 다행히, 우리는 LLMs와 SLMs 간의 추론 경로가 실제로 달라지는 토큰이 극히 일부에 불과하다는 사실을 발견했습니다. 생성된 대부분의 토큰은 동일하거나 약어나 표현의 사소한 차이와 같은 중립적인 차이를 보입니다. 이러한 통찰을 바탕으로, 우리는 **Roads to Rome (R2R)**이라는 신경망 토큰 라우팅 방법을 제안합니다. 이 방법은 중요한 경로 분기 토큰에 대해서만 LLMs를 선택적으로 활용하고, 대부분의 토큰 생성을 SLM에 맡깁니다. 또한, 우리는 분기 토큰을 식별하고 토큰 수준의 라우팅 레이블을 생성하여 경량 라우터를 훈련시키는 자동 데이터 생성 파이프라인을 개발했습니다. R2R을 DeepSeek 패밀리의 R1-1.5B와 R1-32B 모델에 적용하여 수학, 코딩, QA 벤치마크에서 평가했습니다. 평균 활성화 매개변수 크기가 5.6B인 R2R은 R1-7B의 평균 정확도를 1.6배 초과하며, R1-14B 모델을 능가했습니다. R1-32B와 비교했을 때, 비슷한 성능을 유지하면서 2.8배의 벽시계 속도 향상을 달성하여 테스트 시간 확장 효율성의 파레토 프론티어를 발전시켰습니다. 우리의 코드는 https://github.com/thu-nics/R2R에서 확인할 수 있습니다.
DeepSeek-R1의 성공은 대규모 언어 모델(LLM)의 추론 능력을 강화하는 데 강화 학습(RL)이 중요한 역할을 한다는 것을 보여줍니다. 본 연구에서는 긴 Chain-of-Thought(CoT) 모델을 위한 효과적이고 확장 가능한 RL 구현체인 Skywork-OR1을 소개합니다. DeepSeek-R1-Distill 모델 시리즈를 기반으로 한 우리의 RL 접근법은 주목할 만한 성능 향상을 달성했으며, 32B 모델의 경우 AIME24, AIME25, LiveCodeBench에서 평균 정확도를 57.8%에서 72.8%(+15.0%)로, 7B 모델의 경우 43.6%에서 57.5%(+13.9%)로 증가시켰습니다. 우리의 Skywork-OR1-32B 모델은 AIME24와 AIME25 벤치마크에서 DeepSeek-R1과 Qwen3-32B를 모두 능가했으며, LiveCodeBench에서도 비슷한 결과를 달성했습니다. Skywork-OR1-7B와 Skywork-OR1-Math-7B 모델은 유사한 크기의 모델들 사이에서 경쟁력 있는 추론 능력을 보여주었습니다. 우리는 훈련 파이프라인의 핵심 구성 요소에 대한 포괄적인 제거 연구를 수행하여 그 효과성을 검증했습니다. 또한, 엔트로피 붕괴 현상을 철저히 조사하고, 엔트로피 역학에 영향을 미치는 주요 요인을 식별하며, 조기 엔트로피 붕괴를 완화하는 것이 테스트 성능 향상에 중요하다는 것을 입증했습니다. 커뮤니티 연구를 지원하기 위해 우리는 모델 가중치, 훈련 코드, 훈련 데이터셋을 완전히 오픈소스로 공개합니다.
추론 시각-언어 모델(VLMs)은 복잡한 다중모달 작업에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 모델들은 여전히 상당한 과제에 직면해 있습니다: 추론 오류에 매우 민감하며, 대량의 주석 데이터나 정확한 검증기가 필요하고, 특정 도메인을 벗어나 일반화하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 추론 VLMs의 성능을 향상시키기 위한 전략으로 자기 수정(self-correction)을 탐구합니다. 먼저, 추론 VLMs의 자기 수정 능력을 심층적으로 분석하고 주요 격차를 식별합니다. 이러한 발견을 바탕으로, 우리는 Sherlock이라는 자기 수정 및 자기 개선 훈련 프레임워크를 소개합니다. Sherlock은 궤적 수준의 자기 수정 목표, 시각적 섭동(perturbation)을 기반으로 한 선호 데이터 구성 방법, 그리고 선호 튜닝을 위한 동적 베타(dynamic beta)를 도입합니다. 모델이 단 20k개의 무작위 샘플링된 주석 데이터만을 사용하여 자기 수정 능력을 획득한 후, 외부 감독 없이 계속해서 자기 개선을 진행합니다. Llama3.2-Vision-11B 모델을 기반으로 구축된 Sherlock은 8개의 벤치마크에서 뛰어난 결과를 달성하며, 직접 생성 시 64.1의 평균 정확도를, 자기 수정 후에는 65.4의 정확도를 기록합니다. 이는 LLaVA-CoT(63.2), Mulberry(63.9), LlamaV-o1(63.4)을 능가하는 성과를 보이면서도 주석 데이터의 20% 미만을 사용합니다.
포스트 트레이닝 단계에서 멀티모달 대형 언어 모델(MLLM)을 개선하는 것은 일반적으로 지도 미세 조정(SFT) 또는 강화 학습(RL)에 의존합니다. 그러나 이러한 지도 방식은 비용이 많이 들고 수동으로 주석이 달린 멀티모달 데이터를 필요로 하며, 이는 궁극적으로 지속 가능하지 않은 자원입니다. 최근에는 비지도 포스트 트레이닝을 탐구한 연구들이 있지만, 그 방법들은 복잡하고 반복하기 어렵습니다. 본 연구에서는 외부 감독 없이 지속적인 자기 개선을 가능하게 하는 안정적이고 확장 가능한 온라인 RL 알고리즘인 GRPO의 사용을 처음으로 조사합니다. 우리는 MLLM의 비지도 포스트 트레이닝을 위한 간단하지만 효과적인 프레임워크인 MM-UPT를 제안합니다. MM-UPT는 GRPO를 기반으로 하며, 전통적인 보상 신호를 여러 샘플 응답에 대한 다수결 투표를 기반으로 한 자기 보상 메커니즘으로 대체합니다. 우리의 실험은 MM-UPT가 Qwen2.5-VL-7B의 추론 능력을 크게 향상시킴을 보여줍니다(예: MathVista에서 66.3% → 72.9%, We-Math에서 62.9% → 68.7%). 이는 정답 레이블이 없는 표준 데이터셋을 사용하여 이루어졌습니다. MM-UPT는 또한 기존의 비지도 베이스라인을 능가하며, 심지어 지도 GRPO의 결과에 근접합니다. 더 나아가, MLLM 자체에 의해 생성된 합성 질문을 통합하면 성능을 더욱 향상시킬 수 있음을 보여주며, 이는 확장 가능한 자기 개선을 위한 유망한 접근 방식을 강조합니다. 전반적으로, MM-UPT는 외부 감독 없이 MLLM의 지속적이고 자율적인 개선을 위한 새로운 패러다임을 제공합니다. 우리의 코드는 https://github.com/waltonfuture/MM-UPT에서 확인할 수 있습니다.
현대의 단일 이미지 초해상도(SISR) 모델은 학습된 스케일 팩터에서 사진처럼 사실적인 결과를 제공하지만, 그 범위를 훨씬 넘어서는 확대를 요청받으면 성능이 급격히 저하됩니다. 우리는 이러한 확장성 문제를 해결하기 위해 Chain-of-Zoom(CoZ)을 제안합니다. CoZ는 모델에 구애받지 않는 프레임워크로, SISR을 다중 스케일 인식 프롬프트가 포함된 중간 스케일 상태의 자기회귀적 체인으로 분해합니다. CoZ는 백본 SR 모델을 반복적으로 재사용하며, 조건부 확률을 다루기 쉬운 하위 문제로 분해하여 추가 학습 없이도 극단적인 해상도를 달성합니다. 높은 배율에서 시각적 단서가 감소하기 때문에, 우리는 각 확대 단계를 비전-언어 모델(VLM)이 생성한 다중 스케일 인식 텍스트 프롬프트로 보강합니다. 프롬프트 추출기는 비평가 VLM과 함께 일반화된 보상 정책 최적화(GRPO)를 사용하여 미세 조정되며, 텍스트 지침을 인간의 선호도에 맞춥니다. 실험 결과, CoZ로 감싸진 표준 4x 확산 SR 모델이 256배 이상의 확대에서도 높은 지각적 품질과 충실도를 유지하는 것으로 나타났습니다. 프로젝트 페이지: https://bryanswkim.github.io/chain-of-zoom/ .
어텐션의 효율성은 시퀀스 길이에 따라 시간 복잡도가 제곱으로 증가하기 때문에 매우 중요합니다. SageAttention2는 어텐션 내 행렬 곱셈(Matmul)을 가속화하기 위해 양자화를 활용하여 이 문제를 해결합니다. SageAttention2를 더욱 가속화하기 위해, 우리는 FP8 Matmul을 FP16으로 누적하는 더 빠른 명령어를 활용할 것을 제안합니다. 이 명령어는 SageAttention2에서 사용된 FP8 Matmul보다 2배 빠릅니다. 우리의 실험 결과, SageAttention2++는 FlashAttention 대비 3.9배의 속도 향상을 달성하면서도 SageAttention2와 동일한 어텐션 정확도를 유지합니다. 이는 SageAttention2++가 언어, 이미지, 비디오 생성 모델을 포함한 다양한 모델을 효과적으로 가속화하며, 최종 지표에서의 손실은 미미하다는 것을 의미합니다. 코드는 https://github.com/thu-ml/SageAttention에서 확인할 수 있습니다.
최근 대규모 언어 모델(LLMs)의 발전은 인상적인 사고의 연쇄적 추론 능력을 보여주었으며, 강화 학습(RL)이 이러한 진전에 중요한 역할을 하고 있습니다. 모델이 반성을 통해 자기 수정을 보이는 "아하 순간" 패턴은 종종 RL에서 비롯된 창발적 특성으로 여겨지지만, 우리는 먼저 이러한 패턴이 RL 훈련 전에도 다중 모달 LLMs(MLLMs)에 존재하지만 반드시 향상된 추론 성능과 상관관계가 있지는 않음을 입증합니다. 이러한 통찰을 바탕으로, 우리는 두 단계 접근법을 통해 다중 모달 추론을 강화하는 포괄적인 연구를 제시합니다: (1) 구조화된 사고의 연쇄적 추론 패턴을 사용한 감독된 미세 조정(SFT)을 콜드 스타트로 수행하고, (2) GRPO를 통한 강화 학습을 통해 이러한 능력을 더욱 세밀하게 다듬습니다. 우리의 광범위한 실험은 이 결합된 접근법이 도전적인 다중 모달 추론 벤치마크에서 SFT만 또는 RL만 사용한 방법보다 일관되게 우수한 성능을 보임을 입증합니다. 결과적으로 얻은 모델은 3B와 7B 규모에서 오픈소스 MLLMs 중 최첨단 성능을 달성하며, 특히 7B 모델은 기본 모델 대비 상당한 개선을 보입니다(예: MathVista에서 66.3% → 73.4%, We-Math에서 62.9% → 70.4%). 또한, 3B 모델은 여러 7B 모델과 경쟁력 있는 성능을 달성합니다. 전반적으로, 이 연구는 고급 다중 모달 추론 모델 구축을 위한 실용적인 지침을 제공합니다. 우리의 코드는 https://github.com/waltonfuture/RL-with-Cold-Start에서 확인할 수 있습니다.
우리는 삼각형 기반 장면 표현에서 완전한 전역 조명 효과를 포함한 이미지를 직접 렌더링하며, 장면별 학습이나 미세 조정이 필요 없는 RenderFormer라는 신경망 렌더링 파이프라인을 제안합니다. 물리학 중심의 렌더링 접근법 대신, 우리는 반사 속성을 가진 삼각형을 나타내는 토큰 시퀀스가 픽셀 패치를 나타내는 출력 토큰 시퀀스로 변환되는 시퀀스-투-시퀀스 변환으로 렌더링을 공식화합니다. RenderFormer는 두 단계의 파이프라인을 따릅니다: 첫 번째 단계는 삼각형 간 광선 전달을 모델링하는 뷰 독립적 단계이며, 두 번째 단계는 뷰 독립적 단계에서 생성된 삼각형 시퀀스의 지도를 받아 광선 묶음을 나타내는 토큰을 해당 픽셀 값으로 변환하는 뷰 의존적 단계입니다. 두 단계 모두 트랜스포머 아키텍처를 기반으로 하며 최소한의 사전 제약 조건으로 학습됩니다. 우리는 다양한 형태와 광선 전달 복잡도를 가진 장면에서 RenderFormer를 시연하고 평가합니다.
다음 토큰 예측(next-token prediction)은 대형 언어 모델(LLM)에서 추론 능력을 가능하게 하는 기본 학습 과제로 작용합니다. 하지만 비디오 입력에 대한 시간적 추론 능력을 갖춘 다중모달 대형 언어 모델(MLLM)을 개발하려면 어떤 학습 과제가 적합할까요? 기존의 비디오 질의응답(video question answering)과 같은 과제들은 종종 인간이나 훨씬 강력한 MLLM으로부터의 주석에 의존하는 반면, 비디오 캡셔닝(video captioning)은 시간적 추론을 공간 정보와 혼동하는 경향이 있습니다. 이러한 격차를 해결하기 위해, 우리는 미래 비디오 세그먼트를 풍부한 자기 지도 신호로 활용하여 시간적 추론을 촉진하는 학습 과제인 다음 이벤트 예측(next-event prediction, NEP)을 제안합니다. 각 비디오를 과거 프레임과 미래 프레임으로 분할하여, MLLM은 과거 프레임을 입력으로 받아 미래 프레임에서 도출된 이벤트 요약을 예측함으로써, 모델이 시간적으로 추론하도록 유도합니다. 이 과제를 지원하기 위해, 우리는 다양한 실제 시나리오를 아우르는 33,000개의 자동 추출 비디오 세그먼트로 구성된 V1-33K 데이터셋을 구축했습니다. 또한, 시간적 추론에 미치는 영향을 연구하기 위해 다양한 비디오 지시 튜닝(video instruction-tuning) 전략을 탐구합니다. 평가를 위해, 우리는 보이지 않는 미래 이벤트를 예측하는 데 있어 일관성을 평가하는 FutureBench를 도입했습니다. 실험 결과, NEP가 MLLM에서 시간적 추론을 촉진하기 위한 확장 가능하고 효과적인 훈련 패러다임을 제공함이 검증되었습니다.
딥 리서치 시스템은 복잡한 질문에 대해 포괄적이고 잘 뒷받침된 보고서를 생성하는 에이전트 기반 정보 검색 방법의 새로운 유형을 대표합니다. 그러나 대부분의 기존 프레임워크는 동적 상용 검색 API에 의존하고 있어 비용 문제뿐만 아니라 재현성과 투명성 문제를 야기합니다. 이러한 한계를 해결하기 위해, 우리는 재현 가능한 검색 API와 딥 리서치 시스템을 벤치마킹하기 위한 엄격한 평가 프로토콜을 결합한 오픈소스 샌드박스인 DeepResearchGym을 소개합니다. 이 API는 최첨단 밀집 검색기와 DiskANN을 통한 근사 최근접 이웃 검색을 사용하여 ClueWeb22 및 FineWeb과 같은 대규모 공개 웹 코퍼스를 인덱싱합니다. 이는 상용 API보다 낮은 지연 시간을 달성하면서도 실행 간 안정적인 문서 순위를 보장하며, 연구 목적으로 무료로 사용할 수 있습니다. 딥 리서치 시스템의 출력을 평가하기 위해, 우리는 Researchy Questions 벤치마크를 LLM-as-a-judge 평가를 통해 자동 메트릭으로 확장하여 사용자의 정보 요구 사항과의 일치, 검색의 충실도, 보고서 품질을 측정합니다. 실험 결과는 DeepResearchGym과 통합된 시스템이 상용 API를 사용하는 시스템과 비슷한 성능을 달성하며, 평가 메트릭 간 성능 순위가 일관되게 유지됨을 보여줍니다. 인간 평가 연구는 우리의 자동 프로토콜이 인간의 선호도와 일치함을 추가로 확인하며, 이 프레임워크가 딥 리서치 시스템의 통제된 평가를 지원하는 능력을 검증합니다. 우리의 코드와 API 문서는 https://www.deepresearchgym.ai에서 확인할 수 있습니다.
엔터프라이즈 검색 시스템은 의미론적 불일치와 중복된 용어로 인해 정확한 도메인 특화 정보를 검색하는 데 종종 어려움을 겪습니다. 이러한 문제는 지식 관리, 고객 지원, 검색 강화 생성 에이전트와 같은 다운스트림 애플리케이션의 성능을 저하시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 도메인 특화 엔터프라이즈 데이터에 맞춤화된 확장 가능한 하드 네거티브 마이닝 프레임워크를 제안합니다. 우리의 접근 방식은 배포된 재순위 모델을 향상시키기 위해 의미적으로 도전적이지만 문맥상 관련 없는 문서를 동적으로 선택합니다. 우리의 방법은 다양한 임베딩 모델을 통합하고, 차원 축소를 수행하며, 고유한 하드 네거티브를 선택하여 계산 효율성과 의미론적 정밀도를 보장합니다. 클라우드 서비스 도메인의 독점 엔터프라이즈 코퍼스에 대한 평가에서, 최신 베이스라인 및 기타 네거티브 샘플링 기법과 비교하여 MRR@3에서 15%, MRR@10에서 19%의 상당한 개선을 보여줍니다. 또한, 공개된 도메인 특화 데이터셋(FiQA, Climate Fever, TechQA)에 대한 추가 검증을 통해 우리의 방법의 일반화 가능성과 실제 애플리케이션 준비 상태를 확인했습니다.
본 연구에서는 소량의 데이터로도 다양한 문서 유형에 적응할 수 있는 확장성과 효율성을 갖춘 Few Shot Domain Adapting Graph(FS-DAG) 모델 아키텍처를 제안합니다. FS-DAG는 모듈형 프레임워크 내에서 도메인 특화 및 언어/비전 특화 백본을 활용하여 시각적으로 풍부한 문서 이해(VRDU)를 위한 소수 샷 설정에서의 성능을 극대화합니다. 이 모델은 실제 배포에서 중요한 OCR 오류, 철자 오류, 도메인 변화와 같은 실질적인 문제에 강건하며, 9천만 개 미만의 매개변수로도 높은 성능을 발휘하여 계산 자원이 제한적인 정보 추출(IE) 작업에 적합합니다. FS-DAG의 성능은 정보 추출 작업에 대한 광범위한 실험을 통해 검증되었으며, 최신 기술과 비교하여 수렴 속도와 성능에서 상당한 개선을 보였습니다. 또한, 본 연구는 성능을 저하시키지 않으면서도 더 작고 효율적인 모델 개발의 지속적인 진전을 강조합니다. 코드: https://github.com/oracle-samples/fs-dag
대규모 언어 모델(LLMs)은 놀라운 일반적 능력을 보여주지만, 추론과 같은 기술을 향상시키는 데는 상당한 계산 자원이 필요하며, 이는 모델의 일반화 능력을 저해할 수 있습니다. 매개변수 효율적 미세 조정(PEFT) 방법은 자원을 절약할 수 있는 대안을 제공하지만, 일반적으로 아키텍처 의존성으로 인해 각 LLM 백본마다 재학습이 필요합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 범용 추론 모듈(Universal Reasoner, UniR)을 제안합니다. UniR은 경량화되고, 조합 가능하며, 플러그 앤 플레이 방식으로 동작하는 단일 추론 모듈로, 어떠한 고정된 LLM과도 결합하여 특화된 추론 능력을 부여할 수 있습니다. 구체적으로, UniR은 보상을 독립적인 추론 모듈로 분해하여 미리 정의된 보상을 사용하여 독립적으로 학습하며, 궤적 수준의 신호를 토큰 수준의 지도로 효과적으로 변환합니다. 일단 학습이 완료되면, UniR은 추론 시 LLM 백본의 출력 로짓(logits)에 단순히 자신의 출력 로짓을 더함으로써 어떠한 고정된 LLM과도 결합할 수 있습니다. 이 가법적 구조는 자연스럽게 모듈식 조합을 가능하게 합니다: 서로 다른 작업을 위해 학습된 여러 UniR 모듈을 로짓을 합산하여 공동으로 적용함으로써, 복잡한 추론을 조합을 통해 가능하게 합니다. 수학적 추론 및 기계 번역 작업에 대한 실험 결과는 UniR이 Llama3.2 모델을 사용한 기존의 미세 조정 방법을 크게 능가함을 보여줍니다. 더 나아가, UniR은 강력한 약-강 일반화 능력을 보여줍니다: 더 작은 모델에서 학습된 추론 모듈이 훨씬 더 큰 LLM을 효과적으로 안내합니다. 이는 UniR이 LLM의 핵심 능력을 저해하지 않으면서도 추론 능력을 향상시키는 데 있어 비용 효율적이고, 적응 가능하며, 견고한 솔루션임을 입증합니다. 코드는 https://github.com/hangeol/UniR에서 공개되어 있습니다.
복잡한 현실 세계의 문제를 해결하기 위해서는 심층적인 정보 탐색과 다단계 추론이 필요합니다. 최근 에이전트 시스템의 발전, 특히 Deep Research와 같은 사례를 통해 자율적인 다단계 연구의 잠재력이 부각되고 있습니다. 본 연구에서는 데이터 중심 및 훈련 단계 관점에서 종단 간(end-to-end) 에이전트 정보 탐색 에이전트를 구축하기 위한 통합적인 패러다임을 제시합니다. 우리의 접근 방식은 네 가지 주요 단계로 구성됩니다: (1) 브라우징 데이터 구축, (2) 궤적 샘플링, (3) 효과적인 콜드 스타트를 위한 지도 미세 조정, 그리고 (4) 일반화 강화를 위한 강화 학습. 이 프레임워크를 ReAct 기반의 웹 에이전트인 WebDancer에 적용했습니다. 도전적인 정보 탐색 벤치마크인 GAIA와 WebWalkerQA에서의 실험적 평가를 통해 WebDancer의 강력한 성능을 입증했으며, 상당한 결과를 달성함으로써 우리의 훈련 패러다임의 효율성을 강조했습니다. 에이전트 훈련에 대한 추가 분석은 더 능력 있는 에이전트 모델을 개발하기 위한 가치 있는 통찰과 실행 가능한 체계적인 경로를 제공합니다. 코드와 데모는 https://github.com/Alibaba-NLP/WebAgent에서 공개될 예정입니다.
고품질의 다국어 학습 데이터는 대규모 언어 모델(LLM)을 효과적으로 사전 학습하는 데 필수적입니다. 그러나 적합한 오픈소스 다국어 데이터셋의 가용성은 여전히 제한적입니다. 현재 최신 데이터셋은 대부분 휴리스틱 필터링 방법에 의존하고 있어, 교차 언어 전이성과 확장성 모두에 제약을 받고 있습니다. 본 연구에서는 JQL을 소개합니다. JQL은 계산 요구를 크게 줄이면서도 다양하고 고품질의 다국어 데이터를 대규모로 체계적으로 선별하는 접근법입니다. JQL은 사전 학습된 다국어 임베딩을 기반으로 한 경량 어노테이터에 LLM의 어노테이션 능력을 응축합니다. 이러한 모델은 학습 중에 접하지 못한 언어와 문자 체계에 대해서도 강력한 다국어 및 교차 언어 성능을 보여줍니다. 35개 언어에 걸쳐 실증적으로 평가한 결과, 이 어노테이션 파이프라인은 Fineweb2와 같은 현재의 휴리스틱 필터링 방법을 크게 능가했습니다. JQL은 특히 다운스트림 모델 학습 품질을 향상시키고 데이터 보존률을 증가시킵니다. 본 연구는 다국어 데이터 선별에 대한 실용적인 통찰과 가치 있는 자원을 제공함으로써 다국어 데이터셋 개발의 기준을 높입니다.
자동회귀 언어 모델(LMs)은 한 번에 하나의 토큰을 생성하지만, 인간의 사고는 더 높은 수준의 추상화 - 문장, 명제, 개념 - 에서 작동합니다. 이러한 대조는 중심적인 질문을 제기합니다: LMs도 마찬가지로 원시 토큰 시퀀스가 아닌 구조화된 의미 단위를 통해 추론할 수 있을까요? 본 연구에서는 사전 학습된 LMs가 학습된 표현을 기반으로 이러한 추상적 추론 공간으로 전환될 수 있는지 조사합니다. 우리는 사전 학습된 토큰 수준의 LM을 문장 공간에서 작동하도록 적응시키는 프레임워크를 제시하며, 이는 다음 문장의 연속적 임베딩을 자동회귀적으로 예측합니다. 우리는 고전적 표현 학습에서 영감을 받은 두 가지 임베딩 패러다임을 탐구합니다: 1) 표면 의미를 보존하기 위해 자동 인코딩을 통해 학습된 의미 임베딩; 2) 예측적 구조를 인코딩하기 위해 다음 문장 예측을 통해 학습된 문맥 임베딩. 우리는 두 가지 추론 체계에서 이를 평가합니다: 각 예측된 임베딩을 텍스트로 디코딩한 후 다시 인코딩하는 이산화(Discretized) 방식과, 효율성을 개선하기 위해 임베딩 공간에서 완전히 추론하는 연속(Continuous) 방식. 수학, 논리, 상식, 계획 등 네 가지 영역에서 연속 추론 체계의 문맥 임베딩은 Chain-of-Thought(CoT)와 경쟁력 있는 성능을 보이면서 평균적으로 추론 시간 FLOPs를 절반으로 줄였습니다. 또한 확장성과 모듈식 적응의 초기 징후를 제시합니다. 마지막으로, 잠재 궤적을 시각화하기 위해 중간 모델 상태를 해석 가능한 문장으로 디코딩하는 진단 도구인 SentenceLens를 소개합니다. 종합적으로, 우리의 결과는 사전 학습된 LMs가 잠재 임베딩 공간 내에서 추상적이고 구조화된 추론으로 효과적으로 전환할 수 있음을 나타냅니다.
최근 텍스트-이미지 확산 모델(예: Stable Diffusion)의 발전은 이를 360도 파노라마 생성에 적용하려는 연구를 촉진하고 있다. 기존 연구에서는 사전 학습된 확산 모델에 전통적인 저순위 적응 기법을 적용하여 파노라마 이미지를 생성하는 것이 가능함을 입증했다. 그러나 원근 이미지와 파노라마 이미지 간의 상당한 도메인 차이는 이러한 경험적 성공을 가능하게 하는 근본적인 메커니즘에 대한 의문을 제기한다. 우리는 파노라마 데이터에 대해 미세 조정될 때 학습 가능한 요소들이 독특한 행동을 보이며, 이러한 적응이 사전 학습된 확산 모델 내의 사전 지식을 활용하는 어떤 내재적 메커니즘을 숨기고 있다고 가설을 세우고 이를 검증한다. 우리의 분석은 다음과 같은 사실을 밝혀냈다: 1) 주의 모듈의 쿼리와 키 행렬은 파노라마와 원근 도메인 간에 공유될 수 있는 일반적인 정보를 담당하므로 파노라마 생성과는 덜 관련이 있다; 2) 값과 출력 가중치 행렬은 사전 학습된 지식을 파노라마 도메인에 적응시키는 데 특화되어 있으며, 파노라마 생성을 위한 미세 조정 과정에서 더 중요한 역할을 한다. 우리는 이러한 통찰을 실증적으로 검증하기 위해 UniPano라는 간단한 프레임워크를 도입하여, 향후 연구를 위한 우아한 기준을 마련하는 것을 목표로 한다. UniPano는 기존 방법을 능가할 뿐만 아니라, 이전의 이중 분기 접근법에 비해 메모리 사용량과 학습 시간을 크게 줄여 더 높은 해상도의 종단 간 파노라마 생성을 확장 가능하게 만든다. 코드는 공개될 예정이다.
인간의 혁신의 특징은 재조합 과정에 있다. 이는 기존 메커니즘과 개념의 요소를 통합하여 독창적인 아이디어를 창출하는 과정이다. 본 연구에서는 과학 문헌을 자동으로 탐색하고 CHIMERA라는 대규모 재조합 예시 지식 기반(KB)을 구축한다. CHIMERA는 과학자들이 어떻게 개념을 재조합하고 다양한 분야에서 영감을 얻는지를 대규모로 실증적으로 탐구하거나, 새로운 창의적인 교차 분야 방향을 예측하는 지도 학습 모델을 훈련하는 데 사용될 수 있다. 이 KB를 구축하기 위해, 우리는 과학 논문 초록에서 재조합을 추출하는 새로운 정보 추출 작업을 제시하고, 수백 개의 수동으로 주석이 달린 초록으로 구성된 고품질 코퍼스를 수집하며, 이를 사용하여 LLM 기반 추출 모델을 훈련한다. 이 모델은 AI 분야의 대규모 논문 코퍼스에 적용되어 28,000개 이상의 재조합 예시를 포함한 KB를 생성한다. 우리는 CHIMERA를 분석하여 AI의 다양한 하위 분야에서 재조합의 특성을 탐구한다. 마지막으로, 이 KB를 사용하여 과학적 가설 생성 모델을 훈련하며, 이 모델은 실제 연구자들이 영감을 얻는 새로운 재조합 방향을 예측한다. 우리의 데이터와 코드는 https://github.cs.huji.ac.il/tomhope-lab/CHIMERA에서 확인할 수 있다.
불확실성 하에서의 견고한 경로 설정은 현실 세계의 물류에서 핵심적인 요소이지만, 대부분의 벤치마크는 정적이고 이상화된 환경을 가정합니다. 우리는 도시 규모에서 차량 경로 문제에 대한 고충실도 확률적 동역학을 포착한 최초의 오픈 벤치마크인 SVRPBench을 소개합니다. 최대 1000명의 고객을 포함한 500개 이상의 인스턴스로 구성된 이 벤치마크는 시간에 따른 혼잡, 로그 정규 분포 지연, 확률적 사고, 그리고 주거 및 상업 고객을 위한 경험적으로 기반한 시간대 등 현실적인 배송 조건을 시뮬레이션합니다. 우리의 파이프라인은 다중 창고 및 다중 차량 설정을 포함한 다양한 제약 조건이 풍부한 시나리오를 생성합니다. 벤치마킹 결과, POMO 및 AM과 같은 최첨단 강화 학습 솔버는 분포 변화 하에서 20% 이상 성능이 저하되는 반면, 고전적 및 메타휴리스틱 방법은 견고함을 유지합니다. 재현 가능한 연구를 위해 데이터셋과 평가 도구를 공개합니다. SVRPBench은 합성 가정을 넘어 현실 세계의 불확실성에 적응할 수 있는 솔버를 설계하도록 커뮤니티에 도전합니다.
대형 언어 모델(LLM)은 일반적으로 동일한 프롬프트에 대해 모든 사용자에게 동일하거나 유사한 응답을 생성하는데, 이는 사용자의 취약성이 크게 다른 고위험 애플리케이션에서 심각한 안전 위험을 초래할 수 있습니다. 기존의 안전성 평가는 주로 사실성, 편향성, 유해성과 같은 맥락 독립적인 지표에 의존하여, 동일한 응답이 사용자의 배경이나 상태에 따라 상이한 위험을 초래할 수 있다는 사실을 간과하고 있습니다. 이러한 간극을 메우기 위해 우리는 개인화된 안전성 개념을 도입하고, 7개의 민감한 도메인에 걸쳐 14,000개의 시나리오를 포함하며 맥락이 풍부한 버전과 맥락이 없는 버전을 모두 갖춘 PENGUIN 벤치마크를 제시합니다. 6개의 주요 LLM을 평가한 결과, 개인화된 사용자 정보가 안전성 점수를 43.2% 크게 향상시키는 것으로 나타나, 안전성 정렬에서 개인화의 효과를 확인했습니다. 그러나 모든 맥락 속성이 동일하게 안전성 향상에 기여하는 것은 아닙니다. 이를 해결하기 위해, 우리는 사용자별 배경 정보를 전략적으로 획득하는 학습이 필요 없는 2단계 에이전트 프레임워크인 RAISE를 개발했습니다. RAISE는 6개의 일반 LLM에 비해 최대 31.6%의 안전성 점수 향상을 달성하면서도 평균 단 2.7회의 사용자 질문이라는 낮은 상호작용 비용을 유지합니다. 우리의 연구 결과는 안전이 중요한 도메인에서 선택적 정보 수집의 중요성을 강조하며, 모델 재학습 없이 LLM 응답을 개인화할 수 있는 실용적인 해결책을 제공합니다. 이 연구는 보편적인 피해 기준을 가정하기보다는 개별 사용자 맥락에 적응하는 안전성 연구의 기반을 마련합니다.
트랜스포머(Transformer) 아키텍처에서 토큰(tokens)은 원시 데이터로부터 도출된 이산적 단위로, 입력을 고정 길이의 청크로 분할하여 형성된다. 각 토큰은 임베딩으로 매핑되며, 이를 통해 입력의 핵심 정보를 보존하면서도 병렬적인 어텐션 계산이 가능해진다. 트랜스포머의 자기 어텐션(self-attention) 메커니즘은 이차 계산 복잡도를 가지기 때문에, 토큰 축소는 주로 효율성 전략으로 사용되어 왔다. 이는 특히 단일 비전 및 언어 도메인에서 계산 비용, 메모리 사용량, 추론 지연 시간을 균형 있게 조절하는 데 도움을 준다. 이러한 발전에도 불구하고, 본 논문은 대규모 생성 모델 시대에 토큰 축소가 전통적인 효율성 중심의 역할을 넘어서야 한다고 주장한다. 대신, 이를 생성 모델링의 근본적인 원칙으로 재정의하며, 모델 아키텍처와 더 넓은 응용 분야에 중요한 영향을 미칠 수 있음을 강조한다. 구체적으로, 비전, 언어, 그리고 다중모달 시스템 전반에 걸쳐 토큰 축소가 (i) 더 깊은 다중모달 통합과 정렬을 촉진하고, (ii) "과도한 사고"와 환각 현상을 완화하며, (iii) 긴 입력에 대한 일관성을 유지하고, (iv) 훈련 안정성을 향상시킬 수 있다고 주장한다. 우리는 토큰 축소를 단순한 효율성 측정 도구 이상으로 재해석한다. 이를 통해 알고리즘 설계, 강화 학습 기반 토큰 축소, 문맥 학습을 위한 토큰 최적화, 그리고 더 넓은 기계 학습 및 과학적 도메인을 포함한 유망한 미래 방향을 제시한다. 또한, 토큰 축소가 견고성을 향상시키고, 해석 가능성을 높이며, 생성 모델링의 목표와 더 잘 부합하는 새로운 모델 아키텍처와 학습 전략을 이끌어낼 잠재력을 강조한다.
대형 언어 모델(LLMs)이 인간-AI 상호작용에 점점 더 많이 참여함에 따라, 특히 동적 정신 상태를 추적하는 능력을 포함한 이들의 마음 이론(Theory of Mind, ToM) 능력을 평가하는 것이 중요해졌습니다. 기존 벤치마크는 기본적인 ToM 능력을 평가하지만, 주로 정적 정신 상태의 단면에 초점을 맞추어 실제 세계의 사회적 상호작용을 특징짓는 시간적 진화를 간과하고 있습니다. 우리는 상호 연결된 시나리오에서 정신 상태의 시간적 진행을 이해하고 추적하는 LLMs의 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크인 DynToM을 제안합니다. 체계적인 4단계 프레임워크를 통해, 우리는 5,500개의 시나리오와 78,100개의 질문을 포함하는 1,100개의 사회적 맥락을 생성하며, 각각은 현실성과 품질에 대해 검증되었습니다. 10개의 최신 LLMs에 대한 포괄적인 평가 결과, 이들의 평균 성능은 인간보다 44.7% 낮았으며, 정신 상태의 변화를 추적하고 추론할 때 성능이 크게 저하되는 것으로 나타났습니다. 이러한 성능 격차는 현재 LLMs가 인간 정신 상태의 동적 특성을 모델링하는 데 있어 근본적인 한계를 보여줍니다.
우리는 생성된 이미지를 통한 사고(Thinking with Generated Images)라는 새로운 패러다임을 제시하며, 이는 대규모 다중모달 모델(LMM)이 중간 시각적 사고 단계를 자발적으로 생성함으로써 텍스트와 시각 모달리티를 넘나들며 사고할 수 있게 함으로써 시각적 추론과의 상호작용 방식을 근본적으로 변화시킵니다. 현재 LMM을 활용한 시각적 추론은 사용자가 제공한 고정된 이미지를 처리하거나 텍스트 기반의 사고의 연쇄(CoT)를 통해서만 추론하는 데 제한되어 있습니다. 생성된 이미지를 통한 사고는 모델이 능동적으로 중간 시각적 사고를 구성하고, 자신의 시각적 가설을 비판하며, 이를 추론 과정의 필수적인 구성 요소로 개선할 수 있는 새로운 인지 능력의 차원을 열어줍니다. 우리는 두 가지 상호보완적인 메커니즘을 통해 이 접근법의 효과를 입증합니다: (1) 중간 시각적 하위 목표를 통한 시각 생성, 여기서 모델은 복잡한 시각적 작업을 관리 가능한 구성 요소로 분해하고 이를 점진적으로 생성 및 통합하며, (2) 자기 비판을 통한 시각 생성, 여기서 모델은 초기 시각적 가설을 생성하고 텍스트 기반 추론을 통해 그 단점을 분석한 후 자신의 비판을 바탕으로 개선된 출력을 생성합니다. 시각 생성 벤치마크에서의 실험 결과, 우리의 모델은 복잡한 다중 객체 시나리오 처리에서 기준 접근법 대비 최대 50%(38%에서 57%로)의 상대적 개선을 달성하며, 이는 상당한 향상을 보여줍니다. 새로운 단백질 구조를 탐구하는 생화학자, 공간 설계를 반복하는 건축가, 범죄 현장을 재구성하는 법의학 분석가, 전략적 플레이를 구상하는 농구 선수에 이르기까지, 우리의 접근법은 AI 모델이 인간의 창의적, 분석적, 전략적 사고를 특징짓는 시각적 상상력과 반복적 개선에 참여할 수 있게 합니다. 우리는 이 오픈소스 도구를 https://github.com/GAIR-NLP/thinking-with-generated-images에서 공개합니다.
본 논문은 강화학습(Reinforcement Learning, RL)을 활용하여 대규모 언어 모델(Large Language Model, LLM) 에이전트의 추론 능력을 향상시키는 접근법을 탐구한다. 특히, 우리는 마르코프 결정 과정(Markov Decision Process, MDP)으로 자연스럽게 모델링될 수 있는 다중 턴 도구 사용 시나리오에 초점을 맞춘다. 기존 접근법들은 주로 밴딧 설정에서 궤적 수준의 이점 추정(trajectory-level advantage estimation)을 통해 다중 턴 LLM 에이전트를 훈련시키지만, 여러 결정 단계에 걸친 턴 수준의 신용 할당(turn-level credit assignment)에 어려움을 겪으며, 이는 다중 턴 추론 과제에서의 성능을 제한한다. 이를 해결하기 위해, 우리는 다중 턴 에이전트 상호작용에서 보다 정확한 신용 할당을 가능하게 하는 세분화된 턴 수준의 이점 추정 전략을 제안한다. 이 전략은 일반적이며, 그룹 상대 선호 최적화(Group Relative Preference Optimization, GRPO)와 같은 다양한 RL 알고리즘에 통합될 수 있다. GRPO 구현을 통한 다중 턴 추론 및 검색 기반 도구 사용 과제에 대한 실험적 평가는 MDP 프레임워크와 턴 수준 신용 할당이 복잡한 의사결정 환경에서 LLM 에이전트의 다중 턴 추론 능력을 발전시키는 데 효과적임을 보여준다. 우리의 방법은 도구 실행에서 100%의 성공률과 정확한 답변 일치에서 50%의 정확도를 달성하며, 도구를 호출하지 못하고 단 20-30%의 정확한 일치 정확도를 보이는 기준선을 크게 능가한다.
대규모 언어 모델(LLMs)은 테스트 시점 확장 접근법을 통해 특히 더 강력한 대규모 추론 모델(LRMs)에서 추출한 사고 연쇄(CoT) 데이터로 미세 조정될 때 놀라운 추론 능력을 보여주었습니다. 그러나 이러한 추론 연쇄는 종종 인간의 문제 해결 과정을 반영하는 장황한 요소를 포함하며, 이는 점진적 추론(필수적인 해결 경로 개발)과 기능적 요소(검증 과정, 대체 해결 접근법, 오류 수정)로 분류됩니다. 점진적 추론은 중요하지만, 기능적 요소는 테스트 시점 추론 중 계산 요구량을 크게 증가시킵니다. 우리는 PIR(Perplexity-based Importance Refinement)을 소개합니다. 이는 각 추론 단계의 중요도를 답변 예측 신뢰도에 미치는 영향에 따라 정량적으로 평가하는 원칙 기반 프레임워크입니다. PIR은 체계적으로 중요도가 낮은 기능적 단계만을 선택적으로 제거하면서 점진적 추론 요소를 보존하여, 핵심 해결 경로의 무결성을 유지하면서 장황함을 줄인 최적화된 학습 데이터를 생성합니다. PIR로 최적화된 데이터로 미세 조정된 모델은 테스트 시점 확장 특성이 우수하며, 더 간결한 추론 연쇄를 생성하면서도 정확도를 향상(+0.9\% ~ +6.6\%)시키고 토큰 사용량을 크게 줄임(-3\% ~ -41\%)으로써 도전적인 추론 벤치마크(AIME, AMC, GPQA Diamond)에서 뛰어난 성능을 보입니다. 우리의 접근법은 다양한 모델 크기, 데이터 소스, 토큰 예산에 걸쳐 강력한 일반화 능력을 보여주며, 효율적인 테스트 시점 확장, 응답 시간, 계산 효율성이 중요한 제약 조건인 시나리오에서 추론 가능한 LLMs를 배포하기 위한 실용적인 해결책을 제공합니다.
시각적으로 풍부한 정보를 효과적으로 검색, 추론 및 이해하는 것은 RAG(Retrieval-Augmented Generation) 방법론에 있어 여전히 과제로 남아 있습니다. 기존의 텍스트 기반 방법론은 시각적 정보를 처리할 수 없습니다. 반면, 현재의 시각 기반 RAG 접근법은 고정된 파이프라인에 제한되며 모델의 기본 능력이 충분히 활성화되지 않아 효과적인 추론에 어려움을 겪는 경우가 많습니다. 강화 학습(RL)이 모델 추론에 유익하다는 것이 입증됨에 따라, 우리는 시각적으로 풍부한 정보에 대한 복잡한 추론을 위해 특화된 새로운 RL 프레임워크인 VRAG-RL을 소개합니다. 이 프레임워크를 통해 시각 언어 모델(VLM)은 검색 엔진과 상호작용하며, 시각적 인식 토큰의 도움으로 단일 또는 다중 턴 추론 궤적을 자율적으로 샘플링하고 이러한 샘플을 기반으로 지속적인 최적화를 진행합니다. 우리의 접근법은 RAG 도메인에서 RL의 주요 한계를 강조합니다: (i) 기존의 다중 모달 RAG 접근법은 단순히 이미지를 컨텍스트에 통합하는 경향이 있어 추론 토큰 할당이 불충분하고 시각적 특수 인식을 소홀히 한다는 점; (ii) 모델이 검색 엔진과 상호작용할 때, 요구 사항을 명확히 표현하지 못해 관련 정보를 검색하지 못하고 결과적으로 성능이 저하된다는 점. 이러한 문제를 해결하기 위해, 우리는 시각적으로 풍부한 입력에 맞춰진 액션 공간을 정의하며, 이 공간에는 크롭핑과 스케일링과 같은 액션이 포함되어 모델이 거시적에서 미시적 관점으로 정보를 수집할 수 있도록 합니다. 또한, 사용자의 원래 질의와 검색기 간의 간극을 줄이기 위해, 질의 재작성과 검색 성능을 모델 기반 보상과 통합한 간단하지만 효과적인 보상 메커니즘을 사용합니다. 우리의 VRAG-RL은 특별히 설계된 RL 전략을 사용하여 RAG 작업에 대한 VLM을 최적화하며, 모델을 실제 응용 분야와 조율합니다. 코드는 https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}에서 확인할 수 있습니다.
비디오 확산 모델(VDMs)에서 3D 카메라 제어를 위한 최근 접근법들은 주로 주석이 달린 카메라 궤적을 따라 추정된 포인트 클라우드로부터 렌더링하여 구조화된 사전 정보로 확산 모델을 안내하는 앵커 비디오를 생성한다. 그러나 포인트 클라우드 추정 과정에서 발생하는 오류는 종종 부정확한 앵커 비디오를 초래한다. 또한, 광범위한 카메라 궤적 주석이 필요하다는 점은 자원 요구량을 더욱 증가시킨다. 이러한 한계를 해결하기 위해, 본 연구에서는 고가의 카메라 궤적 주석 없이도 고품질 앵커 비디오를 자동으로 구축하는 효율적이고 정밀한 카메라 제어 학습 프레임워크인 EPiC를 소개한다. 구체적으로, 첫 프레임 가시성을 기반으로 소스 비디오를 마스킹하여 훈련용으로 매우 정밀한 앵커 비디오를 생성한다. 이 접근법은 높은 정렬을 보장하며, 카메라 궤적 주석이 필요 없으므로 어떤 야외 비디오에도 쉽게 적용하여 이미지-투-비디오(I2V) 훈련 쌍을 생성할 수 있다. 더불어, 본 연구에서는 앵커 비디오 가이던스를 가시 영역에 통합하는 경량 조건화 모듈인 Anchor-ControlNet을 소개한다. 이 모듈은 백본 모델 매개변수의 1% 미만으로 사전 훈련된 VDMs에 통합된다. 제안된 앵커 비디오 데이터와 ControlNet 모듈을 결합함으로써, EPiC는 렌더링 오정렬을 완화하기 위해 일반적으로 필요한 확산 모델 백본 수정 없이도 훨씬 적은 매개변수, 훈련 단계 및 데이터로 효율적인 훈련을 달성한다. 마스킹 기반 앵커 비디오로 훈련되었음에도 불구하고, 본 방법은 추론 시 포인트 클라우드로 생성된 앵커 비디오에도 강력하게 일반화되어 정밀한 3D 기반 카메라 제어를 가능하게 한다. EPiC는 I2V 카메라 제어 작업에서 RealEstate10K 및 MiraData 데이터셋에서 SOTA 성능을 달성하며, 양적 및 질적으로 정밀하고 강력한 카메라 제어 능력을 입증한다. 특히, EPiC는 비디오-투-비디오 시나리오에서도 강력한 제로샷 일반화 능력을 보인다.
이미지 재캡셔닝은 다양한 멀티모달 작업을 위한 고품질 학습 데이터셋을 생성하기 위해 널리 사용됩니다. 기존의 재캡셔닝 방법은 일반적으로 강력한 멀티모달 대형 언어 모델(MLLM)을 활용하여 텍스트 설명을 개선하지만, 환각(hallucination)과 미세한 세부 사항의 누락으로 인한 부정확성과 불완전성에 직면하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 시각적 재구성을 통해 캡션을 개선하는 새로운 프레임워크인 RICO를 제안합니다. 구체적으로, 우리는 텍스트-이미지 모델을 활용하여 캡션을 참조 이미지로 재구성하고, MLLM을 사용하여 원본 이미지와 재구성된 이미지 간의 차이를 식별하여 캡션을 개선합니다. 이 과정은 반복적으로 수행되며, 점진적으로 더 정확하고 포괄적인 설명 생성을 촉진합니다. 반복 과정으로 인한 추가적인 계산 비용을 완화하기 위해, 우리는 DPO를 사용하여 RICO와 유사한 캡션을 생성하는 RICO-Flash를 도입했습니다. 광범위한 실험을 통해 우리의 접근 방식이 캡션의 정확성과 완전성을 크게 향상시키며, CapsBench와 CompreCap에서 대부분의 베이스라인을 약 10% 정도 능가함을 입증했습니다. 코드는 https://github.com/wangyuchi369/RICO에서 공개되었습니다.
기존의 RLHF(Reinforcement Learning from Human Feedback)는 성공 또는 실패의 세부적인 이유를 가리는 거친 스칼라 보상으로 언어 모델을 최적화하여 학습 속도가 느리고 불투명한 문제를 야기했습니다. 최근 연구에서는 프롬프트나 반성을 통해 텍스트 기반 비평을 강화 학습에 추가하여 해석 가능성을 개선했지만, 모델 파라미터는 그대로 유지했습니다. 우리는 자유 형식의 텍스트 피드백을 스팬 수준의 그래디언트로 변환하는 강화 학습 패러다임인 Text2Grad를 소개합니다. Text2Grad는 인간(또는 프로그램적) 비평이 주어지면 각 피드백 구문을 관련 토큰 스팬과 정렬하고, 이러한 정렬을 미분 가능한 보상 신호로 변환하며, 모델 정책의 문제가 되는 부분을 직접 개선하는 그래디언트 업데이트를 수행합니다. 이는 전역적인 조정 대신 정밀하고 피드백에 조건화된 조정을 가능하게 합니다. Text2Grad는 세 가지 구성 요소로 구현됩니다: (1) 비평과 토큰 스팬을 짝짓는 고품질 피드백 주석 파이프라인, (2) 답변에 대한 스팬 수준 보상을 예측하면서 설명적 비평을 생성하는 세밀한 보상 모델, (3) 자연어 그래디언트를 역전파하는 스팬 수준 정책 최적화기. 요약, 코드 생성, 질문 응답 분야에서 Text2Grad는 스칼라 보상 강화 학습과 프롬프트만 사용한 베이스라인을 일관되게 능가하며, 더 높은 작업 지표와 풍부한 해석 가능성을 제공합니다. 우리의 결과는 자연어 피드백이 그래디언트로 변환될 때 세밀한 정책 최적화를 위한 강력한 신호임을 보여줍니다. 우리의 방법에 대한 코드는 https://github.com/microsoft/Text2Grad에서 확인할 수 있습니다.
비전 언어 모델(Vision Language Models, VLMs)은 일반적으로 중간 규모의 비전 인코더를 대형 언어 모델(Large Language Model, LLM), 예를 들어 Llama-70B와 결합하여 디코더를 훈련 과정에서 주요 계산 부담으로 만든다. 비용을 절감하기 위한 잠재적으로 유망한 전략은 큰 언어 모델로 전환하기 전에 작은 언어 모델을 사용하여 비전 인코더를 먼저 훈련시키는 것이다. 우리는 대형 목표 LLM의 얕은 층을 직접 상속함으로써 동일한 임베딩 공간과 표현 언어를 공유하는 작은 "대리 모델(surrogate models)"을 구축한다. 대리 모델에서 훈련된 비전 인코더는 이후 더 큰 모델로 직접 전환될 수 있으며, 이 과정을 우리는 제로샷 접목(zero-shot grafting)이라고 부른다. 전체 크기의 목표 LLM에 직접 연결될 때, 접목된 쌍은 인코더-대리 모델 쌍을 능가하며, 일부 벤치마크에서는 목표 LLM을 사용한 전체 디코더 훈련과도 동등한 성능을 보인다. 또한, Llama-70B를 디코더로 사용할 때 우리의 대리 모델 훈련 접근법은 전체 VLM 훈련 비용을 약 45% 줄인다.
고품질의 다중 레이어 투명 이미지를 텍스트 프롬프트로 생성하는 것은 새로운 수준의 창의적 제어를 가능하게 하여, 사용자가 각 레이어를 LLM(대형 언어 모델)의 텍스트 출력을 편집하듯 쉽게 수정할 수 있게 합니다. 그러나 다중 레이어 생성 모델의 개발은 대규모 고품질 다중 레이어 투명 데이터셋의 부재로 인해 기존의 텍스트-이미지 모델에 비해 뒤쳐져 있습니다. 본 논문에서는 이러한 근본적인 문제를 해결하기 위해: (i) 정확한 알파 매트(alpha matte)를 포함한 200K(20K)의 다중 레이어 투명 이미지로 구성된 최초의 오픈 소스 초고화질 PrismLayers(PrismLayersPro) 데이터셋을 공개하고, (ii) 기존의 확산 모델을 활용하여 이러한 데이터를 필요에 따라 생성하는 학습이 필요 없는 합성 파이프라인을 소개하며, (iii) 현대적인 텍스트-이미지 생성 모델의 미학을 따라가는 강력한 오픈소스 다중 레이어 생성 모델인 ART+를 제공합니다. 주요 기술적 기여로는 정확한 알파 매트를 포함한 고품질 단일 투명 레이어를 생성하는 데 탁월한 LayerFLUX와, 인간이 주석을 단 시맨틱 레이아웃을 기반으로 여러 LayerFLUX 출력을 완전한 이미지로 구성하는 MultiLayerFLUX가 있습니다. 더 높은 품질을 보장하기 위해, 아티팩트와 시맨틱 불일치를 제거하는 엄격한 필터링 단계를 거친 후 인간의 선택을 적용합니다. 최신 ART 모델을 우리의 합성 PrismLayersPro 데이터셋으로 미세 조정한 결과, ART+는 원본 ART보다 60%의 헤드투헤드 사용자 연구 비교에서 우수한 성능을 보였으며, 심지어 FLUX.1-[dev] 모델이 생성한 이미지의 시각적 품질과도 맞먹는 결과를 달성했습니다. 우리의 작업이 다중 레이어 투명 이미지 생성 작업을 위한 견고한 데이터셋 기반을 마련하여, 정밀하고 편집 가능하며 시각적으로 매력적인 레이어 이미지가 필요한 연구와 응용 분야를 활성화할 것으로 기대합니다.
검증 가능한 보상과 함께 강화 학습(RLVR)의 성공을 위해서는 신뢰할 수 있는 검증자가 필수적이며, 이는 DeepSeek-R1과 같은 다양한 대규모 추론 모델의 핵심 방법론이다. 수학적 추론과 같은 복잡한 영역에서는 이전 연구들에서 강력한 추론 모델을 훈련하기 위해 규칙 기반 검증자가 널리 채택되어 왔다. 그러나 이러한 검증자의 신뢰성과 RL 훈련 과정에 미치는 영향은 여전히 잘 이해되지 않고 있다. 본 연구에서는 수학적 추론을 사례 연구로 삼아 정적 평가와 RL 훈련 시나리오에서 다양한 검증자에 대한 포괄적인 분석을 수행한다. 먼저, 현재의 오픈소스 규칙 기반 검증자들은 여러 일반적으로 사용되는 수학 데이터셋에서 서로 다른 형식으로 제시된 동등한 답변을 인식하지 못해 상당한 오류 음성률을 보이는 경우가 많다는 것을 발견했다. 이러한 한계는 RL 훈련 성능에 부정적인 영향을 미치며, 정책 모델이 강해질수록 더 두드러진다. 이후, 이러한 한계를 해결하기 위한 잠재적 해결책으로 모델 기반 검증자를 조사한다. 정적 평가에서 모델 기반 검증자가 상당히 높은 검증 정확도를 달성하는 것으로 나타났지만, 추가 분석과 RL 훈련 결과는 이들이 특정 패턴의 응답을 잘못 분류하여 오류 양성을 발생시키는 해킹에 매우 취약하다는 것을 시사한다. 이러한 취약점은 정책 모델 최적화 과정에서 악용되어 인위적으로 부풀려진 보상을 초래한다. 본 연구의 결과는 규칙 기반 및 모델 기반 검증자에 내재된 독특한 위험을 강조하며, 강화 학습에서 더 견고한 보상 시스템을 개발하기 위한 유용한 통찰을 제공하고자 한다.
단백질 예측 작업의 다양성으로 인해 전통적으로 특화된 모델이 필요했으며, 이는 광범위하게 적용 가능하고 계산 효율적인 단백질 언어 모델(PLM)의 개발을 방해해 왔습니다. 본 연구에서는 Prot2Token이라는 통합 프레임워크를 소개합니다. 이 프레임워크는 서열 수준의 특성과 잔기별 속성부터 복잡한 단백질 간 상호작용에 이르기까지 다양한 단백질 관련 예측을 표준화된 다음 토큰 예측 형식으로 변환하여 이러한 문제를 극복합니다. Prot2Token의 핵심은 사전 학습된 단백질 인코더의 임베딩과 학습 가능한 작업 토큰의 지도를 받아 다양한 예측을 수행하는 자기회귀 디코더를 사용합니다. 이 아키텍처는 다중 작업 학습을 독특하게 촉진하여 단일 모델이 여러 작업을 효율적으로 마스터할 수 있게 합니다. 다양한 벤치마크를 통해 광범위한 실험적 검증을 제시하며, Prot2Token이 다양한 유형의 단백질 예측 작업에서 강력한 예측 능력을 보여줌을 입증합니다. 주요 결과로는 상당한 속도 향상(예: MSA를 사용한 AlphaFold2 대비 거의 1000배)과 종종 특화된 접근법을 능가하거나 동등한 성능을 포함합니다. 더 나아가, 공간적으로 민감한 작업 성능을 개선하기 위한 보조적인 자기 지도 디코더 사전 학습 접근법을 소개합니다. 따라서 Prot2Token은 단백질 모델링을 위한 다목적 고처리량 패러다임으로의 중요한 진전을 제공하며, 생물학적 발견과 새로운 치료제 개발을 가속화할 것으로 기대됩니다. 코드는 https://github.com/mahdip72/prot2token에서 확인할 수 있습니다.
만화, 또는 일본식 코믹스는 이미지와 텍스트를 복잡하게 결합한 풍부한 멀티모달 서사 형식입니다. 대규모 멀티모달 모델(LMM)이 이러한 서사를 인간 수준으로 이해하도록 가르치는 것은 만화 창작자들이 자신의 스토리를 반영하고 개선하는 데 도움을 줄 수 있습니다. 이를 위해 우리는 멀티모달 만화 이해를 위한 두 가지 벤치마크를 소개합니다: 페이지 내 텍스트 인식을 목표로 하는 MangaOCR와 시각적 질문 응답을 통해 문맥적 이해를 평가하도록 설계된 새로운 벤치마크인 MangaVQA입니다. MangaVQA는 526개의 고품질, 수작업으로 구성된 질문-답변 쌍으로 이루어져 있으며, 다양한 서사적 및 시각적 시나리오에서 신뢰할 수 있는 평가를 가능하게 합니다. 이러한 벤치마크를 기반으로, 우리는 오픈소스 LMM인 Qwen2.5-VL에서 미세 조정된 만화 전용 모델인 MangaLMM을 개발하여 두 작업을 동시에 처리합니다. GPT-4o 및 Gemini 2.5와 같은 독점 모델과의 비교를 포함한 광범위한 실험을 통해 LMM이 만화를 얼마나 잘 이해하는지 평가합니다. 우리의 벤치마크와 모델은 만화라는 풍부한 서사 영역에서 LMM을 평가하고 발전시키기 위한 포괄적인 기반을 제공합니다.
텍스트-이미지(T2I) 확산 모델은 생성 모델링 분야에서 놀라운 발전을 이루었으나, 추론 속도와 이미지 품질 간의 트레이드오프로 인해 효율적인 배포에 어려움을 겪고 있다. 기존의 증류된 T2I 모델은 적은 샘플링 단계로도 고품질의 이미지를 생성할 수 있지만, 특히 일단계 모델에서 다양성과 품질에 문제를 보인다. 우리의 분석에 따르면, UNet 인코더에서 중복 계산이 발생하는 것을 확인할 수 있었다. 연구 결과에 따르면, T2I 확산 모델의 경우 디코더가 더 풍부하고 명시적인 의미 정보를 포착하는 데 더 능숙하며, 인코더는 다양한 시간 단계의 디코더 간에 효과적으로 공유될 수 있다는 것을 알 수 있었다. 이러한 관찰을 바탕으로, 우리는 학생 모델 UNet 아키텍처를 위한 최초의 시간 독립 통합 인코더(TiUE)를 제안한다. 이는 T2I 확산 모델을 증류하기 위한 루프 없는 이미지 생성 접근법이다. TiUE는 일회성 스킴을 사용하여 여러 디코더 시간 단계 간에 인코더 특징을 공유함으로써 병렬 샘플링을 가능하게 하고 추론 시간 복잡도를 크게 줄인다. 또한, KL 발산 항을 도입하여 노이즈 예측을 정규화함으로써 생성된 이미지의 지각적 현실감과 다양성을 향상시켰다. 실험 결과, TiUE는 LCM, SD-Turbo, SwiftBrushv2를 포함한 최신 방법들을 능가하며, 계산 효율성을 유지하면서 더 다양하고 현실적인 결과를 생성하는 것으로 나타났다.
생성형 AI 모델은 종종 학습 데이터에 존재하는 잘못된 정보를 학습하고 재생산합니다. 본 포지션 페이퍼는 생물학적 면역화 과정과 유사하게, 약화된 병원체에 대한 통제된 노출이 면역력을 키우는 것처럼, AI 모델도 명시적으로 잘못된 것으로 라벨링된 소규모 격리된 데이터셋을 활용해 미세조정(fine-tuning)을 수행함으로써 오정보에 대한 "백신"으로 삼아야 한다고 주장합니다. 이렇게 선별된 잘못된 예시들은 미세조정 과정 중 주기적으로 주입되어, 모델이 오해의 소지가 있는 주장을 인식하고 거부하는 능력을 강화하면서도 진실된 입력에 대한 정확성을 유지하도록 합니다. 사례 연구를 통해, 면역화된 모델이 기준 모델에 비해 훨씬 적은 오정보를 생성함을 보여줍니다. 우리가 아는 한, 이는 사실 확인된 오류 자체를 지도 학습 방식의 백신으로 활용하여, 입력 변형이나 일반적인 인간 피드백 신호에 의존하지 않고도 모델을 미래의 오정보에 대비시키는 최초의 학습 프레임워크입니다. 또한, 잘못된 데이터의 안전한 사용을 보장하기 위한 윤리적 안전장치와 거버넌스 통제 방안도 제시합니다. 모델 면역화는 AI 시스템을 사실성에 맞추기 위한 선제적 패러다임을 제공합니다.
다중 뷰 일관성을 유지하면서 스타일 이미지를 충실히 닮은 3D 장면을 즉각적으로 스타일화하는 것은 여전히 중요한 과제로 남아 있습니다. 현재 최신 3D 스타일화 방법들은 일반적으로 사전 학습된 3D 표현에 예술적 특징을 전달하기 위해 계산 집약적인 테스트 시간 최적화를 포함하며, 종종 조밀한 포즈 입력 이미지가 필요합니다. 이와 대조적으로, 우리는 피드포워드 재구성 모델의 최근 발전을 활용하여, 포즈가 없는 희소 뷰 장면 이미지와 임의의 스타일 이미지를 사용하여 1초 미만으로 직접 3D 스타일화를 달성하는 새로운 접근 방식을 제시합니다. 재구성과 스타일화 사이의 본질적인 분리를 해결하기 위해, 우리는 구조 모델링과 외관 쉐이딩을 분리하는 분기된 아키텍처를 도입하여, 스타일 전달이 기본 3D 장면 구조를 왜곡하는 것을 효과적으로 방지합니다. 더 나아가, 우리는 새로운 뷰 합성 작업을 통해 스타일화 모델을 사전 학습하기 위해 아이덴티티 손실을 적용합니다. 이 전략은 또한 우리 모델이 스타일화를 위해 미세 조정되면서도 원래의 재구성 능력을 유지할 수 있게 합니다. 도메인 내 및 도메인 외 데이터셋을 사용한 포괄적인 평가는 우리의 접근 방식이 스타일과 장면 외관의 우수한 조합을 달성하는 고품질의 스타일화된 3D 콘텐츠를 생성하며, 다중 뷰 일관성과 효율성 측면에서 기존 방법들을 능가함을 보여줍니다.
효율적인 데이터 선택은 현대의 대규모 언어 모델(LLM) 훈련에 있어 핵심적인 요소입니다. 본 논문은 2차 정보를 활용하여 훈련 샘플에 최적의 가중치를 부여하는 새로운, 수학적으로 정당화된 데이터 선택 프레임워크인 Influence Distillation을 소개합니다. 각 샘플이 목표 분포에 미치는 영향을 정제함으로써, 우리의 방법은 LLM 미세 조정을 위한 훈련 데이터를 선택하는 데 사용되는 모델 특정 가중치를 할당하여 목표 도메인에서의 강력한 성능으로 이끕니다. 우리는 이러한 최적의 가중치를 Gradient Descent와 Adam 옵티마이저 모두에 대해 도출합니다. 확장성을 보장하고 계산 비용을 줄이기 위해, 우리는 랜드마크 기반 근사법을 제안합니다: 소수의 "랜드마크" 샘플에 대해 영향을 정확하게 계산한 다음, 이를 모든 다른 샘플에 효율적으로 전파하여 가중치를 결정합니다. 우리는 Influence Distillation을 Tulu V2 데이터셋에 대한 지시 튜닝에 적용하여 GSM8k, SQuAD, MMLU 등 다양한 작업을 대상으로 Llama 및 Qwen 계열의 여러 모델에서 검증합니다. 실험 결과, Influence Distillation은 최첨단 성능을 달성하거나 능가하면서 최대 3.5배 빠른 선택 속도를 달성함을 보여줍니다.
최근 시각 언어 모델(Visual Language Models, VLMs)의 발전은 시각적 추론 작업에서 탁월한 성능을 보여주고 있습니다. 그러나 지리적 위치 파악(geo-localization)은 이미지에서 다양한 수준의 시각적 단서를 추출하고 이를 외부 세계 지식과 통합하여 체계적인 추론을 요구하는 독특한 도전 과제를 제시합니다. 현재의 지리적 위치 파악 접근법은 강력한 추론 메커니즘과 설명 가능성이 부족하여 그 효과가 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 정확하고 해석 가능한 위치 추론을 위해 구조화된 추론 체인을 VLMs에 통합한 새로운 프레임워크인 Geo Reason Enhancement (GRE) Suite를 제안합니다. GRE Suite는 데이터셋, 모델, 벤치마크라는 세 가지 핵심 차원에서 체계적으로 개발되었습니다. 먼저, 세밀한 시각적 및 맥락적 분석을 촉진하기 위해 고품질의 지리적 위치 추론 데이터셋인 GRE30K를 소개합니다. 다음으로, 장면 속성, 지역 세부 사항, 의미적 특징을 점진적으로 추론하여 잠재적 지리적 지역을 높은 정밀도로 좁혀가는 다단계 추론 전략을 사용하는 GRE 모델을 제시합니다. 마지막으로, 다양한 도시, 자연, 랜드마크 장면에서 VLMs의 성능을 평가하여 거시적(예: 국가, 대륙) 및 미시적(예: 도시, 거리) 위치 파악 성능을 측정하는 포괄적인 평가 프레임워크인 Geo Reason Evaluation Benchmark (GREval-Bench)를 구축합니다. 실험 결과는 GRE가 모든 수준의 지리적 위치 파악 작업에서 기존 방법을 크게 능가함을 보여주며, 복잡한 지리적 추론에서 추론이 강화된 VLMs의 효용성을 입증합니다. 코드와 데이터는 https://github.com/Thorin215/GRE에서 공개될 예정입니다.
생성형 비디오 모델의 폭발적인 성장은 AI 생성 콘텐츠의 신뢰할 수 있는 저작권 보존에 대한 수요를 증폭시켰습니다. 이미지 합성에서는 널리 사용되지만, 비디오 생성 분야에서의 보이지 않는 생성형 워터마킹은 여전히 크게 탐구되지 않고 있습니다. 이러한 격차를 해결하기 위해, 우리는 비디오 생성 과정에 그래픽 워터마크를 직접 삽입하는 첫 번째 프레임워크인 Safe-Sora를 제안합니다. 워터마킹 성능이 워터마크와 커버 콘텐츠 간의 시각적 유사성과 밀접하게 연관되어 있다는 관찰에 동기를 받아, 우리는 계층적 coarse-to-fine 적응형 매칭 메커니즘을 도입했습니다. 구체적으로, 워터마크 이미지를 패치로 나누고 각 패치를 시각적으로 가장 유사한 비디오 프레임에 할당한 후, 최적의 공간 영역에 원활하게 삽입하기 위해 더욱 지역화합니다. 비디오 프레임 간 워터마크 패치의 시공간적 융합을 가능하게 하기 위해, 우리는 새로운 시공간적 로컬 스캐닝 전략을 갖춘 3D 웨이블릿 변환 강화 Mamba 아키텍처를 개발하여 워터마크 삽입 및 검색 과정에서의 장거리 의존성을 효과적으로 모델링합니다. 우리가 아는 한, 이는 상태 공간 모델을 워터마킹에 적용한 첫 번째 시도로, 효율적이고 강력한 워터마크 보호를 위한 새로운 길을 열었습니다. 광범위한 실험을 통해 Safe-Sora가 비디오 품질, 워터마크 충실도 및 견고성 측면에서 최첨단 성능을 달성함을 입증했으며, 이는 우리의 제안에 크게 기인합니다. 우리는 출판 시 코드를 공개할 예정입니다.
강화 학습(Reinforcement Learning, RL)은 로봇 공학 분야에서 상당한 진전을 이끌어 왔지만, 그 복잡성과 긴 학습 시간은 여전히 주요 병목 현상으로 남아 있습니다. 본 보고서에서는 HumanoidBench, IsaacLab, MuJoCo Playground와 같은 인기 있는 환경에서 휴머노이드 로봇의 학습 속도를 크게 향상시키는 간단하고 빠르며 강력한 RL 알고리즘인 FastTD3를 소개합니다. 우리의 접근법은 매우 단순합니다: 병렬 시뮬레이션, 대규모 배치 업데이트, 분포적 비평가(distributional critic), 그리고 신중하게 조정된 하이퍼파라미터를 포함한 몇 가지 수정 사항을 적용하여 오프-폴리시 TD3 에이전트를 학습시킵니다. FastTD3는 단일 A100 GPU에서 3시간 이내에 다양한 HumanoidBench 과제를 해결하며, 학습 중 안정성을 유지합니다. 또한, 로봇 공학 분야의 RL 연구를 가속화하기 위해 가볍고 사용하기 쉬운 FastTD3 구현체를 제공합니다.
대규모 언어 모델(LLMs)의 미세 조정(finetuning)은 명령 수행 능력을 크게 향상시켰으나, 이러한 개선을 이끄는 근본적인 계산 메커니즘은 여전히 잘 이해되지 않고 있다. 본 연구는 미세 조정이 LLM의 계산 구조를 어떻게 재구성하는지를 체계적으로 조사하기 위해, 명령 특이적 희소 구성 요소(sparse components), 즉 밀집 모델(dense models)의 뉴런과 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처의 뉴런 및 전문가를 분리하고 분석한다. 특히, 우리는 6개의 구별되는 범주를 아우르는 신중하게 선별되고 균형 잡힌 명령 데이터셋인 HexaInst를 소개하고, SPARCOM이라는 새로운 분석 프레임워크를 제안한다. 이 프레임워크는 (1) 이러한 희소 구성 요소를 식별하는 방법, (2) 이들의 기능적 일반성과 독창성을 평가하는 방법, (3) 이들의 변화를 체계적으로 비교하는 방법이라는 세 가지 주요 기여를 포함한다. 실험을 통해 우리는 이러한 구성 요소의 기능적 일반성, 독창성, 그리고 명령 실행에서의 중요한 역할을 입증한다. 미세 조정에 의해 유도된 적응과 희소 계산 기질 간의 관계를 명확히 함으로써, 이 연구는 LLM이 명령 수행 행동을 내재화하는 방식에 대한 더 깊은 통찰을 제공하여 신뢰할 수 있는 LLM 커뮤니티에 기여한다.
대형 언어 모델과 결합된 지능형 튜터링 시스템은 학생들의 다양한 요구를 해결하고 자기효능감 있는 학습을 촉진할 수 있는 유망한 접근 방식을 제공합니다. 대형 언어 모델은 전기공학 기초에 대한 탄탄한 기초 지식을 갖추고 있지만, 전기 회로에 대한 구체적인 질문을 다루는 데는 여전히 부족한 능력을 보입니다. 본 논문에서는 학생들의 학습 과정 전반을 지원하고 개별화된 지원을 제공하며 자기 주도적 학습을 촉진하기 위해 설계된 전기공학용 에이전트 기반 튜터링 시스템인 AITEE를 소개합니다. AITEE는 적응형 회로 재구성 프로세스를 통해 손으로 그린 회로와 디지털 회로를 모두 지원하여 학생들과의 자연스러운 상호작용을 가능하게 합니다. 우리의 새로운 그래프 기반 유사도 측정 방법은 검색 증강 생성 접근법을 통해 강의 자료에서 관련된 맥락을 식별하며, 병렬 Spice 시뮬레이션은 해결 방법론 적용의 정확성을 더욱 향상시킵니다. 이 시스템은 소크라테스식 대화를 구현하여 안내된 질문을 통해 학습자 자율성을 촉진합니다. 실험적 평가 결과, AITEE는 도메인 특화 지식 적용에서 기준 접근법을 크게 능가하며, 중간 규모의 LLM 모델도 허용 가능한 성능을 보여줍니다. 우리의 결과는 에이전트 기반 튜터가 전기공학 교육을 위한 확장 가능하고 개인화된 효과적인 학습 환경을 제공할 수 있는 잠재력을 강조합니다.
비전-언어 모델(VLMs)은 멀티모달 작업에서 상당한 진전을 이루었습니다. 그러나 이러한 모델들은 장문맥 시나리오, 특히 긴 비디오에서 성능이 저하되는 경우가 많습니다. 로터리 위치 임베딩(RoPE)이 대형 언어 모델(LLMs)의 길이 일반화를 위해 널리 채택되고 있지만, 기본 RoPE를 확장하여 비디오의 복잡한 시공간적 의존성을 포착하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 기존 방법들은 일반적으로 RoPE 내에서 서로 다른 주파수를 할당하여 3D 위치 정보를 인코딩합니다. 그러나 이러한 할당 전략은 주로 경험적 방법에 의존하며, 깊이 있는 이론적 분석이 부족합니다. 본 논문에서는 먼저 다양한 할당 전략이 VLMs의 장문맥 능력에 미치는 영향을 연구합니다. 우리의 분석은 현재의 멀티모달 RoPE들이 장문맥에서 신뢰할 수 있는 의미적 유사성을 포착하지 못한다는 것을 보여줍니다. 이 문제를 해결하기 위해, 우리는 VLMs의 장문맥 능력을 향상시키기 위해 설계된 하이브리드 위치 임베딩(HoPE)을 제안합니다. HoPE는 임의의 길이의 문맥에서 신뢰할 수 있는 의미적 모델링을 위한 하이브리드 주파수 할당 전략과 다양한 문맥 길이에서 강력한 학습과 유연한 추론을 촉진하기 위한 동적 시간 스케일링 메커니즘을 도입합니다. 긴 비디오 이해 및 검색 작업에 대한 네 가지 비디오 벤치마크에서의 광범위한 실험을 통해 HoPE가 기존 방법들을 일관되게 능가하며 그 효과를 입증합니다. 코드는 https://github.com/hrlics/HoPE에서 확인할 수 있습니다.
오픈소스 머신러닝(ML) 리소스, 특히 모델과 데이터셋의 급속한 성장은 정보 검색(IR) 연구를 가속화시켰습니다. 그러나 Hugging Face와 같은 기존 플랫폼은 구조화된 표현을 명시적으로 활용하지 않아, 모델 진화 추적 및 관련 데이터셋 추천과 같은 고급 쿼리 및 분석이 제한됩니다. 이러한 격차를 메우기 위해, 우리는 ML 리소스 관리를 위해 Hugging Face 커뮤니티에서 구축된 최초의 대규모 지식 그래프인 HuggingKG를 개발했습니다. 260만 개의 노드와 620만 개의 엣지로 구성된 HuggingKG는 도메인 특화 관계와 풍부한 텍스트 속성을 포착합니다. 이를 통해 우리는 리소스 추천, 분류, 추적을 포함한 IR 작업을 위한 세 가지 새로운 테스트 컬렉션으로 구성된 다중 작업 벤치마크인 HuggingBench를 추가로 제시할 수 있습니다. 우리의 실험은 HuggingKG와 파생 작업의 독특한 특성을 보여줍니다. 두 리소스 모두 공개적으로 제공되며, 오픈소스 리소스 공유 및 관리 연구를 발전시킬 것으로 기대됩니다.
고차 시각 피질 내의 기능적 표현을 이해하는 것은 계산 신경과학의 근본적인 질문 중 하나입니다. 대규모 데이터셋으로 사전 학습된 인공 신경망이 인간의 신경 반응과 놀라운 표현 정렬을 보여주지만, 시각 피질의 이미지 계산 가능 모델을 학습하기 위해서는 개인 수준의 대규모 fMRI 데이터셋이 필요합니다. 비용이 많이 들고 시간이 소요되며 종종 비현실적인 데이터 획득의 필요성은 새로운 피험자와 자극에 대한 인코더의 일반화 가능성을 제한합니다. BraInCoRL은 컨텍스트 내 학습을 사용하여 새로운 피험자와 자극에 대한 추가 미세 조정 없이도 소수의 예제로부터 복셀 단위의 신경 반응을 예측합니다. 우리는 다양한 수준의 컨텍스트 내 이미지 자극에 유연하게 조건을 부여할 수 있는 트랜스포머 아키텍처를 활용하여 여러 피험자에 걸쳐 귀납적 편향을 학습합니다. 학습 과정에서 우리는 모델이 컨텍스트 내 학습에 최적화되도록 명시적으로 최적화합니다. 이미지 특징과 복셀 활성화를 함께 조건으로 부여함으로써, 우리의 모델은 고차 시각 피질의 더 나은 성능을 보이는 복셀 단위 모델을 직접 생성하는 방법을 학습합니다. 우리는 BraInCoRL이 완전히 새로운 이미지에 대해 평가할 때 낮은 데이터 체제에서 기존의 복셀 단위 인코더 설계를 일관되게 능가하며, 강력한 테스트 시간 스케일링 행동을 보임을 입증합니다. 또한 이 모델은 다른 피험자와 fMRI 데이터 획득 매개변수를 사용하는 완전히 새로운 시각 fMRI 데이터셋으로도 일반화됩니다. 더 나아가, BraInCoRL은 의미론적으로 관련된 자극에 주의를 기울임으로써 고차 시각 피질의 신경 신호에 대한 더 나은 해석 가능성을 제공합니다. 마지막으로, 우리의 프레임워크가 자연어 질의에서 복셀 선택성으로의 해석 가능한 매핑을 가능하게 함을 보여줍니다.
대형 언어 모델(LLM)의 능력은 간체자와 번체자 중국어 모두에서 연구되어 왔으나, 이 두 가지 서체의 중국어로 프롬프트를 제공할 때 LLM이 차별적인 성능을 보이는지 여부는 아직 명확하지 않다. 이러한 이해는 매우 중요하다. 왜냐하면 LLM 응답의 질적 차이는 간체자와 번체자 중국어가 내포하는 서로 다른 문화적 맥락을 무시함으로써 대표성 피해를 초래할 수 있으며, 교육이나 채용과 같은 분야에서 LLM이 지원하는 의사결정 과정에서 하류 피해를 악화시킬 수 있기 때문이다. 잠재적인 LLM 성능 차이를 조사하기 위해, 우리는 실제 시나리오를 반영한 두 가지 벤치마크 과제를 설계하였다: 지역적 용어 선택(LLM에게 중국 본토와 대만에서 다르게 불리는 물건의 이름을 지어달라고 요청)과 지역적 이름 선택(LLM에게 간체자와 번체자 중국어로 작성된 이름 목록에서 누구를 채용할지 선택하도록 요청). 두 과제 모두에서 우리는 주로 영어, 간체자 중국어, 또는 번체자 중국어로 훈련된 11개의 주요 상용 LLM 서비스와 오픈소스 모델의 성능을 감사하였다. 우리의 분석은 LLM 응답의 편향이 과제와 프롬프트 언어 모두에 의존한다는 것을 보여준다: 대부분의 LLM이 지역적 용어 선택 과제에서는 간체자 중국어 응답을 불균형적으로 선호한 반면, 지역적 이름 선택 과제에서는 놀랍게도 번체자 중국어 이름을 선호했다. 이러한 차이는 훈련 데이터 표현, 서체 선호도, 간체자와 번체자 중국어의 토큰화 방식의 차이에서 비롯될 수 있음을 발견했다. 이러한 결과는 LLM 편향에 대한 추가 분석의 필요성을 강조한다. 이에 따라 우리는 중국어 변형 간의 향후 LLM 행동에 대한 재현 가능한 평가를 촉진하기 위해 오픈소스 벤치마크 데이터셋을 제공한다(https://github.com/brucelyu17/SC-TC-Bench).
객체 방향성 이해는 로봇 조작과 증강 현실과 같은 응용 분야에서 중요한 시각 인식의 근본적인 과제를 나타냅니다. 현재의 시각-언어 벤치마크는 이 능력을 분리하지 못하고, 종종 위치 관계와 일반적인 장면 이해와 혼동합니다. 우리는 DORI(Discriminative Orientation Reasoning Intelligence)를 소개하며, 이는 객체 방향성 인식을 주요 평가 대상으로 설정한 포괄적인 벤치마크입니다. DORI는 방향성 이해의 네 가지 차원을 평가합니다: 정면 정렬, 회전 변환, 상대적 방향 관계, 그리고 표준 방향성 이해. 합성 및 실제 시나리오에 걸친 67개 객체 카테고리에서 선별된 11개 데이터셋을 통해, DORI는 다중 모달 시스템이 객체 방향성을 어떻게 이해하는지에 대한 통찰을 제공합니다. 15개의 최신 시각-언어 모델을 평가한 결과, 중요한 한계가 드러났습니다: 가장 우수한 모델조차도 간단한 작업에서 54.2%, 세밀한 방향성 판단에서 33.0%의 정확도를 보였으며, 참조 프레임 전환이나 복합 회전이 필요한 작업에서는 성능이 저하되었습니다. 이러한 결과는 정확한 각도 추정, 시점 간 방향성 변화 추적, 복합 회전 이해에 있어 모델의 체계적인 무능력을 보여주며, 이는 내부 3D 공간 표현의 한계를 시사합니다. 다중 모달 시스템에서 방향성 인식을 위해 특별히 설계된 첫 번째 진단 프레임워크로서, DORI는 로봇 제어, 3D 장면 재구성, 물리적 환경에서의 인간-AI 상호작용 개선에 대한 시사점을 제공합니다. DORI 데이터: https://huggingface.co/datasets/appledora/DORI-Benchmark
비디오 시간적 이해는 다중모달 대형 언어 모델(MLLMs)이 비디오 내 이벤트를 추론하는 데 있어 핵심적입니다. 일반적인 비디오 이해 분야에서의 최근 발전에도 불구하고, 현재의 MLLMs는 여전히 세밀한 시간적 추론에 어려움을 겪고 있습니다. 최근 이 문제를 해결하기 위해 강화 학습(RL)이 탐구되었지만, 기존의 RL 접근법은 효과성에 있어 한계를 보입니다. 본 연구에서는 MUSEG라는 새로운 RL 기반 방법을 제안하며, 이는 타임스탬프 인식 다중 세그먼트 그라운딩을 도입하여 시간적 이해를 강화합니다. MUSEG는 MLLMs가 쿼리를 여러 관련 비디오 세그먼트와 정렬할 수 있게 하여 더 포괄적인 시간적 추론을 촉진합니다. 효과적인 학습을 위해, 점진적으로 모델을 시간적으로 그라운드된 추론으로 이끄는 단계별 보상을 포함한 맞춤형 RL 훈련 레시피를 설계했습니다. 시간적 그라운딩 및 시간 민감 비디오 QA 작업에 대한 광범위한 실험을 통해 MUSEG가 기존 방법을 크게 능가하며 다양한 시간적 이해 시나리오에서 잘 일반화됨을 입증했습니다. 프로젝트는 https://github.com/THUNLP-MT/MUSEG에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 사전 학습 과정에서 하위 배포 시 바람직하지 않은 지식, 예를 들어 민감한 정보나 저작권이 있는 콘텐츠를 습득하는 경우가 많습니다. 이러한 지식을 제거하기 위한 기존 접근 방식은 미세 조정(fine-tuning), 저순위 어댑터(low-rank adapter) 학습 또는 사실 수준 편집(fact-level editing)에 의존하지만, 이들은 너무 거칠거나, 너무 피상적이거나, 효과적이지 못합니다. 본 연구에서는 PISCES(Precise In-parameter Suppression for Concept EraSure)라는 새로운 프레임워크를 제안합니다. 이는 매개변수 공간에서 개념을 인코딩하는 방향을 직접 편집함으로써 모델 매개변수에서 전체 개념을 정밀하게 삭제하는 방법입니다. PISCES는 분리기(disentangler) 모델을 사용하여 MLP 벡터를 해석 가능한 특징으로 분해하고, 자동화된 해석 기술을 사용하여 대상 개념과 관련된 특징을 식별한 후 이를 모델 매개변수에서 제거합니다. Gemma 2와 Llama 3.1을 대상으로 다양한 개념에 대해 실험한 결과, PISCES는 주요 삭제 방법 대비 효과성에서 소폭의 개선을 보였으며, 대상 개념에 대한 정확도를 최대 7.7%까지 낮추는 동시에 삭제 특이성(최대 31%)과 견고성(최대 38%)을 크게 향상시켰습니다. 전반적으로 이러한 결과는 특징 기반 매개변수 내 편집이 언어 모델에서 개념적 지식을 제거하는 더 정밀하고 신뢰할 수 있는 접근 방식을 가능하게 함을 보여줍니다.
언어-이미지 사전 학습은 2D 의료 영상에서 강력한 성능을 보여왔지만, CT 및 MRI와 같은 3D 영상 방식에서는 볼륨 데이터의 높은 계산 요구량으로 인해 대규모 비정제 임상 연구 데이터에 대한 학습이 어려워 성공이 제한적이었습니다. 본 연구에서는 3D 의료 영상을 위한 확장 가능한 사전 학습 프레임워크인 계층적 주의 메커니즘을 도입한 HLIP(Hierarchical attention for Language-Image Pre-training)를 소개합니다. HLIP는 방사선 데이터의 자연스러운 계층 구조(슬라이스, 스캔, 연구)에서 영감을 받은 경량 계층적 주의 메커니즘을 채택합니다. 이 메커니즘은 강력한 일반화 능력을 보여주며, 예를 들어 CT-RATE에서 사전 학습 시 Rad-ChestCT 벤치마크에서 +4.3%의 매크로 AUC 향상을 달성했습니다. 또한, HLIP의 계산 효율성은 비정제 데이터셋에 대한 직접 학습을 가능하게 합니다. 뇌 MRI의 경우 220,000명의 환자와 313만 건의 스캔 데이터로, 두부 CT의 경우 240,000명의 환자와 144만 건의 스캔 데이터로 학습한 HLIP는 최첨단 성능을 달성했습니다. 예를 들어, 공개된 뇌 MRI 벤치마크인 Pub-Brain-5에서 +32.4%의 균형 정확도(Balanced ACC)를, 두부 CT 벤치마크인 RSNA와 CQ500에서 각각 +1.4%와 +6.9%의 매크로 AUC 향상을 보였습니다. 이러한 결과는 HLIP를 통해 비정제 임상 데이터셋에 직접 사전 학습을 수행하는 것이 3D 의료 영상에서의 언어-이미지 사전 학습을 위한 확장 가능하고 효과적인 방향임을 입증합니다. 코드는 https://github.com/Zch0414/hlip에서 확인할 수 있습니다.
텍스트에서 인과 관계를 이해하고 추론하는 것은 인간 인지의 핵심적인 측면이며, 대규모 언어 모델(LLMs)이 인공 일반 지능으로 나아가기 위해 필수적인 요소입니다. 기존 연구는 주로 텍스트에 명시적으로 언급된 단순한 인과 관계를 포함하는 합성적으로 생성된 텍스트에 초점을 맞추고 있습니다. 이는 실제 세계의 복잡성을 반영하지 못합니다. 본 논문에서는 LLMs가 실제 세계의 텍스트에서 인과 관계를 추론할 수 있는지 여부를 조사합니다. 우리는 실제 학술 문헌에서 추출한 벤치마크를 개발했는데, 이는 길이, 관계의 복잡성(명시성의 수준, 사건의 수, 인과 관계), 그리고 분야 및 하위 분야에 있어 다양한 텍스트를 포함합니다. 우리가 아는 한, 이 벤치마크는 이 작업을 위한 최초의 실제 세계 데이터셋입니다. 우리가 제안한 벤치마크에서 평가된 최신 LLMs에 대한 실험은 상당한 도전을 보여주었으며, 가장 성능이 좋은 모델도 평균 F1 점수가 단지 0.477에 그쳤습니다. 분석 결과, 일반적인 문제점이 드러났습니다: 암묵적으로 언급된 정보를 다루는 데 어려움, 관련된 인과 요인과 주변 맥락적 세부 사항을 구분하는 데 어려움, 그리고 긴 텍스트 구간에 걸쳐 흩어져 있는 인과적으로 관련된 정보를 연결하는 데 어려움 등이 있습니다. 이러한 결함을 체계적으로 특성화함으로써, 우리의 벤치마크는 LLM의 인과 추론을 발전시키기 위한 추가 연구를 위한 목표 지향적 통찰을 제공합니다.
추론 시점에 컴퓨팅 자원을 동적으로 할당하는 테스트 타임 스케일링(TTS)은 대규모 언어 모델의 추론 능력을 향상시키는 유망한 방법으로 주목받고 있습니다. 기존 TTS 방법들은 효과적이지만, 긴 디코딩 경로를 필요로 하거나 많은 수의 샘플을 생성해야 하여 토큰 사용량과 추론 지연 시간을 증가시키는 경향이 있습니다. 우리는 흥미로운 사실을 관찰했는데, 추론 과제에서는 짧은 추적 경로가 긴 경로보다 정답일 가능성이 훨씬 높다는 점입니다. 이를 바탕으로, 우리는 n개의 독립적인 샘플을 시작하고 그 중 하나라도 완료되면 즉시 반환하는 훈련이 필요 없는 병렬 디코딩 전략인 First Finish Search(FFS)를 제안합니다. FFS를 단순 디코딩, 빔 서치, 다수결 투표, 예산 강제 방식과 함께 네 가지 추론 모델(DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B, Phi-4-Reasoning-Plus)과 네 가지 데이터셋(AIME24, AIME25-I, AIME25-II, GPQA Diamond)에서 평가했습니다. DeepSeek-R1을 사용한 FFS는 AIME 데이터셋에서 82.23%의 정확도를 달성했으며, 이는 DeepSeek-R1의 단독 정확도보다 15% 향상된 수치로, OpenAI의 o4-mini 성능에 거의 근접했습니다. 우리의 이론적 분석은 가장 짧은 추적 경로에서 멈추는 것이 정답을 얻을 가능성이 높은 이유를 설명하고, 조기 중단이 최적이 아닐 수 있는 조건을 규명합니다. FFS의 우아함과 단순성은 직관적인 TTS 전략이 놀라운 성능을 발휘할 수 있음을 보여주며, 추론 시점에서 단순한 접근법의 잠재력을 드러냅니다.
대규모 시각-언어 모델(VLMs)이 다양한 멀티모달 작업에서 놀라운 성능을 보여주고 있지만, 인간 IQ 테스트에서의 실제 추론 능력은 아직 충분히 탐구되지 않았습니다. VLMs의 유동적 지능에 대한 연구를 발전시키기 위해, 우리는 표준화된 시각적 IQ 테스트를 통해 VLMs를 평가하기 위한 새로운 벤치마크인 **IQBench**를 소개합니다. 우리는 최종 예측의 정확성보다 더 중요한 VLMs의 추론 능력 평가에 초점을 맞추었습니다. **우리의 벤치마크는 시각 중심으로 설계되어 불필요한 텍스트 내용에 대한 의존성을 최소화함으로써**, 모델이 학습된 텍스트 지식보다는 이미지 기반 정보에서 답을 도출하도록 장려합니다. 이를 위해, 우리는 훈련 중 의도치 않은 데이터 누출을 방지하기 위해 500개의 시각적 IQ 질문을 수동으로 수집하고 주석을 달았습니다. 최종 답변의 정확성에 주로 초점을 맞춘 기존 연구와 달리, 우리는 모델의 설명과 각 문제를 해결하는 데 사용된 패턴을 평가함으로써 모델의 추론 능력을 평가하며, 최종 예측의 정확성과 인간 평가도 함께 고려합니다. 우리의 실험 결과, 작업 간에 상당한 성능 차이가 있음을 보여주며, `o4-mini`, `gemini-2.5-flash`, `claude-3.7-sonnet`와 같은 모델이 각각 0.615, 0.578, 0.548의 최고 평균 정확도를 달성했습니다. 그러나 모든 모델이 3D 공간 및 아나그램 추론 작업에서 어려움을 겪으며, 현재 VLMs의 일반적인 추론 능력에 상당한 한계가 있음을 강조합니다. 추론 점수 측면에서, `o4-mini`, `gemini-2.5-flash`, `claude-3.7-sonnet`는 각각 0.696, 0.586, 0.516의 최고 평균을 기록했습니다. 이러한 결과는 모델의 추론 과정과 최종 답변 간의 불일치를 강조하며, 최종 예측뿐만 아니라 추론의 정확성을 평가하는 것의 중요성을 부각시킵니다.