번역이 포함된 일일 선별된 AI 연구 논문
우리는 단일 이미지 또는 텍스트 프롬프트로부터 초 단위로 3D 장면을 생성하는 생성 모델인 FlashWorld를 제안합니다. 이 모델은 기존 연구 대비 10~100배 빠른 속도를 자랑하면서도 우수한 렌더링 품질을 유지합니다. 우리의 접근 방식은 기존의 다중 뷰 중심(MV-oriented) 패러다임, 즉 다중 뷰 이미지를 생성한 후 3D 재구성을 수행하는 방식에서 벗어나, 모델이 다중 뷰 생성 과정에서 직접 3D 가우시안 표현을 생성하는 3D 중심(3D-oriented) 접근법으로 전환합니다. 3D 일관성을 보장하면서도, 3D 중심 방식은 일반적으로 시각적 품질이 떨어지는 문제가 있습니다. FlashWorld는 이중 모드 사전 학습 단계와 교차 모드 사후 학습 단계를 포함하여 두 패러다임의 장점을 효과적으로 통합합니다. 구체적으로, 비디오 확산 모델의 사전 지식을 활용하여 먼저 MV 중심 및 3D 중심 생성 모드를 모두 지원하는 이중 모드 다중 뷰 확산 모델을 사전 학습합니다. 3D 중심 생성의 품질 격차를 해소하기 위해, 우리는 일관된 3D 중심 모드에서 고품질 MV 중심 모드로의 분포 매칭을 통한 교차 모드 사후 학습 증류를 추가로 제안합니다. 이는 3D 일관성을 유지하면서 시각적 품질을 향상시킬 뿐만 아니라, 추론에 필요한 노이즈 제거 단계를 줄이는 효과도 있습니다. 또한, 이 과정에서 대량의 단일 뷰 이미지와 텍스트 프롬프트를 활용하여 모델의 분포 외 입력에 대한 일반화 능력을 강화하는 전략을 제안합니다. 광범위한 실험을 통해 우리 방법의 우수성과 효율성을 입증합니다.
최근 통합 멀티모달 모델의 발전은 포괄적인 콘텐츠 생성으로의 명확한 추세를 보여주고 있습니다. 그러나 청각 영역은 여전히 큰 도전 과제로 남아 있으며, 음악과 음성이 종종 독립적으로 개발되어 보편적인 오디오 합성으로의 진전을 방해하고 있습니다. 이러한 분리는 본질적인 작업 간의 충돌과 심각한 데이터 불균형에서 비롯되며, 이는 진정한 통합 오디오 생성 모델의 개발을 저해합니다. 이러한 문제를 해결하기 위해, 우리는 새로운 동적 용량 전문가 혼합(Dynamic-Capacity Mixture-of-Experts, MoE) 프레임워크 내에서 통합 음성 및 음악 생성 모델인 UniMoE-Audio를 제안합니다. 아키텍처적으로, UniMoE-Audio는 동적 전문가 수 할당을 위한 Top-P 라우팅 전략과, 도메인 특화 지식을 위한 라우팅 전문가, 도메인 독립적 특성을 위한 공유 전문가, 그리고 적응형 계산 생략을 위한 널 전문가로 구성된 하이브리드 전문가 설계를 도입합니다. 데이터 불균형 문제를 해결하기 위해, 우리는 세 단계의 훈련 커리큘럼을 제안합니다: 1) 독립 전문가 훈련(Independent Specialist Training)은 원본 데이터셋을 활용하여 각 "프로토 전문가"에 도메인 특화 지식을 간섭 없이 주입합니다; 2) MoE 통합 및 워밍업(MoE Integration and Warmup)은 이러한 전문가들을 UniMoE-Audio 아키텍처에 통합하고, 균형 잡힌 데이터셋의 일부를 사용하여 게이트 모듈과 공유 전문가를 워밍업합니다; 3) 시너지스트 공동 훈련(Synergistic Joint Training)은 완전히 균형 잡힌 데이터셋에서 전체 모델을 종단 간 훈련하여 강화된 도메인 간 시너지를 촉진합니다. 광범위한 실험을 통해 UniMoE-Audio는 주요 음성 및 음악 생성 벤치마크에서 최첨단 성능을 달성할 뿐만 아니라, 일반적인 공동 훈련에서 흔히 관찰되는 성능 저하를 완화하는 우수한 시너지 학습을 보여줍니다. 우리의 연구 결과는 전문화된 MoE 아키텍처와 세심하게 설계된 훈련 전략이 보편적인 오디오 생성 분야를 발전시키는 데 있어 상당한 잠재력을 가지고 있음을 강조합니다. 홈페이지: https://mukioxun.github.io/Uni-MoE-site/home.html
대규모 언어 모델(LLMs)의 추론 패턴은 여전히 불투명하며, 강화 학습(RL)은 일반적으로 전체 세대에 걸쳐 균일한 크레딧을 적용함으로써 핵심 단계와 일상적인 단계 간의 구분을 흐리게 만듭니다. 본 연구는 주의(attention)를 LLMs의 내부 논리를 가시화하는 특권적 기반으로 위치시켜, 단순히 계산의 부산물이 아닌 추론 자체의 기계적 청사진으로서의 역할을 강조합니다. 먼저, 주의 헤드(attention heads)를 지역적 및 전역적 정보 처리로 구분하고, 지역적 주의 헤드는 구문 덩어리를 나타내는 대각선 근처의 톱니 패턴을 생성하는 반면, 전역적 주의 헤드는 미래 토큰에 광범위한 하류 영향을 미치는 토큰을 드러냄을 보입니다. 이를 두 가지 메트릭으로 공식화합니다: 1) 윈도우 평균 주의 거리(Windowed Average Attention Distance), 이는 클리핑된 윈도우 내에서의 후방 주의 범위를 측정합니다; 2) 미래 주의 영향(Future Attention Influence), 이는 토큰의 전역적 중요성을 후속 토큰으로부터 받는 평균 주의로 정량화합니다. 이러한 신호들은 모델이 먼저 장거리 문맥 참조를 수행하여 도입 토큰을 생성하고, 이어서 또는 동시에 후속 추론을 조직화하는 의미적 앵커 토큰이 나타나는 반복적인 사전 계획 및 앵커 메커니즘을 드러냅니다. 이러한 통찰을 활용하여, 우리는 핵심 노드(사전 계획 토큰, 앵커 토큰 및 이들의 시간적 결합)에 대한 표적 크레딧 할당을 동적으로 수행하는 세 가지 새로운 RL 전략을 소개하고, 다양한 추론 작업에서 일관된 성능 향상을 보여줍니다. 최적화를 모델의 내재적 추론 리듬에 맞춤으로써, 불투명한 최적화를 실행 가능한 구조 인식 프로세스로 전환하고자 하며, 이를 통해 LLM 추론의 더 투명하고 효과적인 최적화를 위한 잠재적 단계를 제공하고자 합니다.
완전 개방형 다중모달 대형 언어 모델(MLLMs)은 현재 독점 모델에 비해 뒤처져 있으며, 이는 주로 지도 미세 조정(SFT)을 위한 데이터 품질의 상당한 격차 때문입니다. 기존의 오픈소스 데이터셋은 널리 퍼진 노이즈와 체인 오브 사고(CoT)와 같은 복잡한 추론 데이터의 심각한 부족으로 인해 고급 모델 능력의 개발이 저해되고 있습니다. 이러한 문제를 해결하기 위해, 본 연구는 세 가지 주요 기여를 합니다. 첫째, 약 1,500만 개의 질문-답변 쌍으로 구성된 새로운 SFT 데이터셋인 Honey-Data-15M을 소개합니다. 이 데이터셋은 여러 정제 기술을 통해 처리되었으며, 새로운 이중 수준(짧은 및 긴) CoT 강화 전략으로 보강되었습니다. 둘째, 데이터 큐레이션 파이프라인인 HoneyPipe과 그 기반 프레임워크인 DataStudio를 소개하여, 정적 데이터셋 릴리스를 넘어서는 투명하고 적응 가능한 데이터 큐레이션 방법론을 커뮤니티에 제공합니다. 마지막으로, 우리의 데이터셋과 파이프라인을 검증하기 위해 Honey-Data-15M으로 학습된 8B 모델인 Bee-8B을 학습시킵니다. 실험 결과, Bee-8B은 완전 개방형 MLLMs의 새로운 최첨단(SOTA) 성능을 달성하며, 최근의 반개방형 모델인 InternVL3.5-8B와 경쟁적이고 경우에 따라 이를 능가하는 성능을 보여줍니다. 본 연구는 커뮤니티에 Honey-Data-15M 코퍼스, HoneyPipe과 DataStudio를 포함한 풀스택 제품군, 학습 레시피, 평가 도구, 모델 가중치 등 일련의 기초 자원을 제공합니다. 이 작업은 데이터 품질에 대한 원칙적인 초점이 반개방형 모델과 경쟁력 있는 완전 개방형 MLLMs를 개발하는 핵심 경로임을 입증합니다.
시각-언어-행동(VLA) 모델들은 로봇 조작 벤치마크에서 인상적인 성공률을 보고하고 있지만, 이러한 결과는 견고성 측면에서 근본적인 약점을 가릴 수 있다. 우리는 물체 배치, 카메라 시점, 로봇 초기 상태, 언어 지시, 조명 조건, 배경 질감 및 센서 노이즈 등 7가지 차원에 걸쳐 통제된 섭동을 도입하여 체계적인 취약성 분석을 수행하였다. 여러 최신 모델을 포괄적으로 분석한 결과, 겉보기에는 유능해 보이는 모델들도 내재된 취약성을 보이는 것으로 나타났다. 우리의 분석은 모델들이 카메라 시점과 로봇 초기 상태를 포함한 섭동 요인에 극도로 민감하며, 약간의 섭동만으로도 성능이 95%에서 30% 미만으로 급락하는 중요한 약점을 드러냈다. 놀랍게도, 모델들은 언어 변이에 대해서는 대체로 둔감했으며, 추가 실험을 통해 모델들이 언어 지시를 완전히 무시하는 경향이 있음이 밝혀졌다. 이러한 연구 결과는 높은 벤치마크 점수가 진정한 역량과 동일하다는 가정에 의문을 제기하며, 현실적인 변동 하에서의 신뢰성을 평가하는 검증 방법의 필요성을 강조한다.
현재의 비디오 생성 모델은 시각적으로 현실적인 비디오를 생성할 수 있지만, 종종 물리 법칙을 준수하지 못하여 물리적으로 타당한 비디오를 생성하고 '세계 모델'로서의 역할을 수행하는 데 한계가 있습니다. 이 문제를 해결하기 위해, 우리는 물리 지식을 표현으로 포착하여 비디오 생성 모델의 물리적 인식을 향상시키는 PhysMaster를 제안합니다. 구체적으로, PhysMaster는 이미지-투-비디오 작업을 기반으로 하며, 모델이 입력 이미지로부터 물리적으로 타당한 동역학을 예측할 것으로 기대됩니다. 입력 이미지는 시나리오 내 객체들의 상대적 위치 및 잠재적 상호작용과 같은 물리적 사전 정보를 제공하기 때문에, 우리는 PhysEncoder를 설계하여 이를 추가 조건으로 인코딩하여 비디오 생성 과정에 물리적 지식을 주입합니다. 단순한 외관 이상의 모델의 물리적 성능에 대한 적절한 감독의 부재는 PhysEncoder가 인간 피드백을 활용한 강화 학습을 물리적 표현 학습에 적용하도록 동기를 부여하며, 이는 생성 모델의 피드백을 활용하여 Direct Preference Optimization(DPO)을 통해 물리적 표현을 종단 간 방식으로 최적화합니다. PhysMaster는 PhysEncoder의 물리적 인식을 향상시키고, 이를 통해 비디오 생성의 물리적 인식을 개선하는 실현 가능한 솔루션을 제공하며, 간단한 프록시 작업에서의 능력과 다양한 물리적 시나리오에 대한 일반화 가능성을 입증합니다. 이는 강화 학습 패러다임 내에서 표현 학습을 통해 다양한 물리적 프로세스에 대한 솔루션을 통합한 우리의 PhysMaster가 물리적 인식을 고려한 비디오 생성 및 더 넓은 응용 분야에 대한 일반적이고 플러그인 가능한 솔루션으로 작용할 수 있음을 시사합니다.
효과적인 시공간 표현은 비디오의 동역학을 모델링하고 이해하며 예측하는 데 있어 기본적인 요소입니다. 비디오의 기본 단위인 픽셀은 시간에 따라 연속적인 3차원 궤적을 그리며 동역학의 원시 요소로 작용합니다. 이 원리에 기반하여, 우리는 모든 비디오를 '궤적 필드(Trajectory Field)'로 표현하는 방법을 제안합니다. 이는 각 프레임의 모든 픽셀에 대해 시간에 따른 연속적인 3차원 궤적 함수를 할당하는 밀집 매핑입니다. 이러한 표현을 바탕으로, 우리는 단일 순방향 전달로 전체 궤적 필드를 예측하는 신경망인 'Trace Anything'을 소개합니다. 구체적으로, 각 프레임의 각 픽셀에 대해, 우리의 모델은 궤적(즉, B-스플라인)을 매개변수화하는 일련의 제어점을 예측하여 임의의 쿼리 시간 인스턴트에서의 3차원 위치를 제공합니다. 우리는 대규모 4D 데이터를 포함한 데이터를 사용하여 Trace Anything 모델을 훈련시켰으며, 실험 결과는 다음과 같습니다: (i) Trace Anything은 우리의 새로운 궤적 필드 추정 벤치마크에서 최첨단 성능을 달성하고 기존의 점 추적 벤치마크에서도 경쟁력 있는 성능을 보입니다; (ii) 반복적인 최적화나 보조 추정기가 필요 없는 단일 전달 패러다임 덕분에 상당한 효율성 향상을 제공합니다; (iii) 목표 조건 조작, 운동 예측, 시공간 융합과 같은 새로운 능력을 보여줍니다. 프로젝트 페이지: https://trace-anything.github.io/.
우리는 오디오-비주얼 멀티턴 상호작용을 위한 통합적이고 오픈소스인 오므니-모달 대형 언어 모델인 InteractiveOmni를 소개합니다. 이 모델은 4B에서 8B 파라미터 범위를 가지며, 포괄적인 오므니-모달 이해와 음성 생성 능력을 제공하여 경량 모델 분야를 선도하도록 설계되었습니다. 이를 위해 우리는 비전 인코더, 오디오 인코더, 대형 언어 모델, 그리고 음성 디코더를 이해 및 생성 작업을 위한 통합 모델로 통합했습니다. 강력한 크로스-모달 능력을 보장하기 위해, 오므니-모달 이해를 위한 사전 학습과 음성 대화 및 오디오-비주얼 상호작용을 위한 사후 학습을 포함한 다단계 학습 전략을 설계했습니다. 인간과 같은 장기 대화 능력을 가능하게 하기 위해, 우리는 모델이 복잡하고 다단계 상호작용을 처리할 수 있는 능력을 향상시키는 멀티턴 학습 데이터셋을 세심하게 구성했습니다. 멀티턴 메모리와 음성 상호작용 능력을 효과적으로 평가하기 위해, 우리는 멀티모달 멀티턴 메모리 벤치마크와 멀티턴 음성 상호작용 벤치마크를 구축했습니다. 실험 결과, InteractiveOmni는 주요 오픈소스 모델들을 크게 능가하며, 특히 장기 메모리 능력에서 더 지능적인 오디오-비주얼 멀티턴 경험을 제공합니다. 주목할 만한 점은, InteractiveOmni-4B는 Qwen2.5-Omni-7B와 같은 훨씬 더 큰 모델과 일반 벤치마크에서 비슷한 성능을 보이며, 모델 크기의 50%만 사용하면서도 InteractiveOmni-8B 성능의 97%를 유지할 수 있습니다. 이미지, 오디오, 비디오 이해 및 음성 생성 작업에서 유사한 크기의 모델들과 비교하여 최첨단 결과를 달성한 InteractiveOmni는 차세대 지능형 상호작용 시스템을 위한 접근 가능한 오픈소스 기반입니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs) 훈련의 핵심이 되었지만, 이 분야는 사전 훈련(pre-training)에서 확립된 것과 유사한 예측적 확장 방법론이 부족한 상황입니다. 계산 예산이 급격히 증가함에도 불구하고, RL 계산을 확장하기 위한 알고리즘 개선을 평가하는 데 있어 원칙적인 이해가 부족합니다. 본 연구는 400,000 GPU-시간 이상의 대규모 체계적 연구를 통해 LLM에서의 RL 확장을 분석하고 예측하기 위한 원칙적인 프레임워크를 정의합니다. 우리는 RL 훈련에 대한 시그모이드형 계산-성능 곡선을 적합시키고, 다양한 일반적인 설계 선택을 제거하여 점근적 성능(asymptotic performance)과 계산 효율성에 미치는 영향을 분석합니다. 주요 관찰 결과는 다음과 같습니다: (1) 모든 레시피가 유사한 점근적 성능을 보이는 것은 아님, (2) 손실 집계(loss aggregation), 정규화(normalization), 커리큘럼(curriculum), 오프-폴리시 알고리즘(off-policy algorithm)과 같은 세부 사항은 주로 계산 효율성을 조절하며 점근선을 크게 이동시키지는 않음, (3) 안정적이고 확장 가능한 레시피는 예측 가능한 확장 궤적을 따르며, 이는 소규모 실행에서의 외삽(extrapolation)을 가능하게 함. 이러한 통찰을 종합하여, 우리는 최적의 실천 레시피인 ScaleRL을 제안하고, 이를 100,000 GPU-시간까지 확장한 단일 RL 실행에서 검증 성능을 성공적으로 예측함으로써 그 효과를 입증합니다. 본 연구는 RL에서의 확장을 분석하기 위한 과학적 프레임워크와, 사전 훈련에서 오랫동안 달성된 예측 가능성에 가까워지는 RL 훈련을 위한 실용적인 레시피를 제공합니다.
대부분의 자기회귀적 대형 언어 모델(LLM)이 한 번에 하나씩 디코딩하는 방식에 제약을 받는 반면, 확산 LLM(dLLM)은 병렬 디코딩을 통해 추론 속도를 극적으로 가속화할 가능성으로 인해 점점 더 많은 관심을 끌고 있습니다. 이러한 가능성에도 불구하고, dLLM의 조건부 독립성 가정은 병렬 디코딩이 토큰 간의 의존성을 무시하게 만들어, 이러한 의존성이 강할 경우 필연적으로 생성 품질이 저하되는 문제를 야기합니다. 그러나 기존 연구들은 이러한 본질적인 문제를 크게 간과했으며, 표준 벤치마크(예: 수학 및 코딩)에서의 평가는 병렬 디코딩으로 인한 품질 저하를 충분히 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 먼저 병렬 디코딩에 대한 정보 이론적 분석을 제공합니다. 그런 다음, 데이터 분포와 디코딩 전략 관점에서 분석적으로 다룰 수 있는 합성 리스트 연산에 대한 사례 연구를 수행하여, 병렬 디코딩의 근본적인 한계를 부각시키는 정량적 통찰을 제공합니다. 이러한 통찰을 바탕으로, 우리는 dLLM을 위해 특별히 설계된 첫 번째 벤치마크인 ParallelBench를 제안합니다. 이 벤치마크는 인간과 자기회귀적 LLM에게는 사소하지만 병렬 디코딩 하의 dLLM에게는 매우 도전적인 현실적인 작업들을 포함합니다. ParallelBench를 사용하여, 우리는 dLLM과 자기회귀적 LLM을 체계적으로 분석하여 다음과 같은 사실을 밝혀냈습니다: (i) 병렬 디코딩 하의 dLLM은 실제 시나리오에서 극적인 품질 저하를 겪을 수 있으며, (ii) 현재의 병렬 디코딩 전략들은 작업 난이도에 따라 병렬화 정도를 조정하는 데 어려움을 겪어, 품질 저하 없이 의미 있는 속도 향상을 달성하지 못합니다. 우리의 연구 결과는 현재의 속도-품질 트레이드오프를 극복할 수 있는 혁신적인 디코딩 방법의 시급한 필요성을 강조합니다. 우리는 진정으로 효율적인 dLLM 개발을 가속화하기 위해 이 벤치마크를 공개합니다.
다중 에이전트 시스템(MAS)과 강화 학습(RL)은 대규모 언어 모델(LLMs)의 에이전트 능력을 향상시키기 위해 널리 사용됩니다. MAS는 역할 기반 조정을 통해 작업 성능을 개선하고, RL은 환경적 보상을 통해 GRPO 스타일 최적화와 같은 더 강력한 정책을 학습합니다. 그러나 MAS에 온-정책 RL을 적용하는 것은 아직 충분히 탐구되지 않았으며 독특한 도전 과제를 제시합니다. 알고리즘적으로는 표준 GRPO 그룹화 가정이 역할과 턴에 따라 프롬프트가 달라지기 때문에 무너집니다. 시스템적으로는 훈련 스택이 단일 정책 및 다중 정책 모델 모두에 대해 MAS 워크플로 롤아웃과 온-정책 업데이트를 지원해야 합니다. 우리는 AT-GRPO를 제안하며, 이는 (i) MAS에 맞춤화된 에이전트 및 턴 단위 그룹화 RL 알고리즘과 (ii) 단일 및 다중 정책 체계를 모두 지원하는 훈련 시스템을 포함합니다. 게임, 계획, 코딩 및 수학 작업 전반에 걸쳐 AT-GRPO는 상당한 성능 향상을 제공합니다. 장기 계획에서는 단일 에이전트 RL 기준선인 14.0에서 47.0 퍼센트의 정확도를 96.0에서 99.5 퍼센트로 증가시킵니다. 또한 코딩 작업에서 평균 3.87에서 7.62 퍼센트, 수학 작업에서 9.0에서 17.93 퍼센트의 평균 성능 향상을 이룹니다. 코드와 환경은 https://github.com/pettingllms-ai/PettingLLMs에서 확인할 수 있습니다.
우리는 시각-언어 모델과 통합 멀티모달 모델을 위한 차세대 멀티모달 추론을 위해 설계된 새로운 개념 및 플러그인인 Generative Universal Verifier를 소개합니다. 이는 추론 및 생성 과정에서 시각적 결과에 대한 반성과 개선의 기본적인 능력을 제공합니다. 본 연구는 세 가지 주요 기여를 합니다: (1) 멀티모달 추론에서 시각적 결과를 평가하기 위한 16개 범주의 핵심 작업을 아우르는 포괄적인 벤치마크인 ViVerBench를 구축했습니다. 결과는 기존의 VLM들이 이러한 작업들에서 지속적으로 낮은 성능을 보이며, 신뢰할 수 있는 시각적 검증에서 인간 수준의 능력과의 상당한 격차를 보여줍니다. (2) 대규모 시각적 검증 데이터를 구축하고 범용 시각적 검증을 위해 훈련된 최초의 전능 생성 검증기인 OmniVerifier-7B를 훈련시키기 위해 두 가지 자동화된 파이프라인을 설계했습니다. 이를 통해 ViVerBench에서 주목할 만한 성능 향상(+8.3)을 달성했습니다. 훈련 과정에서 우리는 시각적 검증의 세 가지 기본 능력을 식별하고 이들이 어떻게 일반화되고 상호작용하는지 보여줍니다. (3) 우리는 범용 검증기를 활용하여 통합 모델 내에서 이미지 생성과 편집을 연결하는 순차적 테스트-타임 스케일링 패러다임인 OmniVerifier-TTS를 제안합니다. 이를 통해 반복적인 세밀한 최적화를 통해 생성 능력의 상한선을 향상시킵니다. 생성 외에도, 우리는 범용 검증기를 더 넓은 세계 모델링 인터리브 추론 시나리오로 확장합니다. 실험적으로, OmniVerifier-TTS는 T2I-ReasonBench(+3.7)와 GenEval++(+4.3)에서 개선을 달성하며, Best-of-N과 같은 기존의 병렬 테스트-타임 스케일링 방법을 능가합니다. 멀티모달 추론에 신뢰할 수 있는 시각적 검증을 부여함으로써, OmniVerifier는 생성 과정에서의 신뢰할 수 있는 반성과 확장 가능한 테스트-타임 개선을 모두 발전시켜, 더 신뢰할 수 있고 제어 가능한 차세대 추론 시스템으로 나아가는 한 걸음을 내딛습니다.
생성 모델은 환경 시뮬레이션 및 미래 상태 예측을 위한 세계 모델링에 널리 적용되어 왔다. 자율 주행 기술의 발전과 함께, 다양한 제어 하에서 고해상도 비디오 생성뿐만 아니라 깊이 추정과 같은 다양하고 의미 있는 정보를 생성하는 데 대한 요구가 증가하고 있다. 이를 해결하기 위해, 우리는 다양한 제어 입력 하에서 4D 재구성 능력을 갖춘 장기적 다중 시점 비디오를 생성하는 공간-시간 재구성 변분 오토인코더(VAE)를 활용한 교차 시점 비디오 확산 모델인 CVD-STORM을 제안한다. 우리의 접근 방식은 먼저 보조 4D 재구성 작업으로 VAE를 미세 조정하여 3D 구조와 시간적 동역학을 인코딩하는 능력을 향상시킨다. 이후, 이 VAE를 비디오 확산 과정에 통합하여 생성 품질을 크게 개선한다. 실험 결과는 우리의 모델이 FID 및 FVD 지표에서 상당한 개선을 달성함을 보여준다. 또한, 공동으로 학습된 가우시안 스플래팅 디코더는 동적 장면을 효과적으로 재구성하여 포괄적인 장면 이해를 위한 유용한 기하학적 정보를 제공한다.
우리는 공간적 기반과 로봇 제어를 통합한 프레임워크인 InternVLA-M1을 소개하며, 이는 명령 수행 로봇을 확장 가능하고 범용적인 지능으로 발전시키는 데 기여합니다. 이 프레임워크의 핵심 아이디어는 공간적으로 안내된 시각-언어-행동 훈련으로, 여기서 공간적 기반은 명령과 로봇 행동 사이의 중요한 연결 고리 역할을 합니다. InternVLA-M1은 두 단계의 파이프라인을 사용합니다: (i) 230만 개 이상의 공간 추론 데이터를 기반으로 한 공간적 기반 사전 훈련으로, 명령을 시각적이고 구체화에 구애받지 않는 위치와 정렬하여 "어디에서 행동할지"를 결정하고, (ii) 공간적으로 안내된 행동 사후 훈련으로, 플러그 앤 플레이 방식의 공간 프롬프트를 통해 구체화를 고려한 행동을 생성하여 "어떻게 행동할지"를 결정합니다. 이 공간적으로 안내된 훈련 방법은 일관된 성능 향상을 가져옵니다: InternVLA-M1은 공간적 안내가 없는 변형보다 SimplerEnv Google Robot에서 +14.6%, WidowX에서 +17%, LIBERO Franka에서 +4.3% 더 우수한 성능을 보이며, 상자, 점, 추적 예측에서 더 강력한 공간 추론 능력을 입증했습니다. 명령 수행을 더욱 확장하기 위해, 우리는 244,000개의 일반화 가능한 집기 및 놓기 에피소드를 수집할 수 있는 시뮬레이션 엔진을 구축하여 200개 작업과 3,000개 이상의 객체에 걸쳐 평균 6.2%의 성능 향상을 이끌어냈습니다. 실제 세계의 복잡한 집기 및 놓기 작업에서 InternVLA-M1은 7.3%의 성능 향상을 보였으며, 합성 데이터를 활용한 공동 훈련을 통해 보지 못한 객체와 새로운 구성에서 +20.6%의 성능 향상을 달성했습니다. 또한, 장기적이고 추론 집약적인 시나리오에서는 기존 작업을 10% 이상 능가했습니다. 이러한 결과는 공간적으로 안내된 훈련이 확장 가능하고 탄력적인 범용 로봇을 위한 통합 원칙임을 강조합니다. 코드와 모델은 https://github.com/InternRobotics/InternVLA-M1에서 확인할 수 있습니다.
인공지능(AI) 분야의 최첨단 연구는 그래픽 처리 장치(GPU), 데이터, 인적 자원 등 상당한 자원을 필요로 합니다. 본 논문에서는 이러한 자원과 기초 모델(FM)의 과학적 발전 간의 관계를 평가합니다. 우리는 2022년부터 2024년 사이에 발표된 6,517편의 FM 논문을 검토하고, 229명의 제1저자를 대상으로 컴퓨팅 자원이 과학적 성과에 미치는 영향을 조사했습니다. 연구 결과, 컴퓨팅 자원의 증가는 국가별 자금 배분 및 인용 횟수와 상관관계가 있는 것으로 나타났지만, 연구 환경(학계 또는 산업계), 분야, 연구 방법론과는 강한 상관관계가 관찰되지 않았습니다. 우리는 개인과 기관이 자원이 부족한 연구자들의 진입 장벽을 낮추기 위해 공유 가능하고 경제적인 컴퓨팅 기회를 조성하는 데 집중할 것을 권장합니다. 이러한 조치는 FM 연구 참여를 확대하고, 아이디어와 기여자의 다양성을 촉진하며, AI 분야의 혁신과 진전을 지속하는 데 도움이 될 수 있습니다. 데이터는 https://mit-calc.csail.mit.edu/에서 확인할 수 있습니다.
본 논문에서 우리는 3D 시각적 그라운딩이 공간 추론의 초석이라고 주장하며, 이를 연결하는 효과적인 공간 표현을 탐구하기 위해 Grounded-Spatial Reasoner(GS-Reasoner)를 소개한다. 기존의 3D LLM(Large Language Models)은 의미론적 및 기하학적 정보를 동시에 포착할 수 있는 통합된 3D 표현의 부재로 인해 어려움을 겪고 있다. 이러한 결함은 그라운딩 성능의 저하 또는 외부 모듈에 대한 과도한 의존으로 나타나며, 궁극적으로 그라운딩과 공간 추론의 원활한 통합을 방해한다. 이를 해결하기 위해, 우리는 기하학적 특징을 의미론적 및 위치적 단서와 긴밀하게 정렬하는 간단하면서도 효과적인 이중 경로 풀링 메커니즘을 제안한다. 이 메커니즘은 입력 토큰 수를 증가시키지 않으면서도 모든 필수 정보를 포함하는 통합된 이미지 패치 기반 3D 표현을 구축한다. 이 통합된 표현을 활용하여, GS-Reasoner는 외부 모듈 없이도 자동회귀적 그라운딩을 달성한 최초의 3D LLM으로, 최신 모델과 견줄만한 성능을 보여주며 3D 공간 추론을 위한 통합적이고 자체 포함된 프레임워크를 확립한다. 그라운딩과 공간 추론을 더욱 연결하기 위해, 우리는 Grounded Chain-of-Thought(GCoT) 데이터셋을 소개한다. 이 데이터셋은 추론 질문에서 참조된 객체에 대한 3D 바운딩 박스 주석과 문제 해결 과정의 핵심 구성 요소로서 그라운딩을 통합한 단계별 추론 경로를 포함하도록 세심하게 구성되었다. 광범위한 실험을 통해 GS-Reasoner가 3D 시각적 그라운딩에서 인상적인 결과를 달성하며, 이는 공간 추론 능력을 크게 향상시켜 최신 기술 수준의 성능을 이끌어냄을 입증한다.
성공적인 일반주의 비전-언어-행동(Vision-Language-Action, VLA) 모델은 대규모의 교차 구현체(Cross-Embodiment) 및 이질적 데이터셋을 통해 다양한 로봇 플랫폼에서 효과적인 학습에 의존합니다. 우리는 풍부하고 다양한 로봇 데이터 소스의 이질성을 활용하고 촉진하기 위해, 최소한의 추가 파라미터로 새로운 소프트 프롬프트(Soft Prompt) 접근 방식을 제안합니다. 이를 위해 프롬프트 학습 개념을 교차 구현체 로봇 학습에 도입하고, 각각의 고유한 데이터 소스에 대해 별도의 학습 가능한 임베딩 세트를 도입합니다. 이러한 임베딩은 구현체별 프롬프트로 작용하며, 이를 통해 VLA 모델이 다양한 교차 구현체 특성을 효과적으로 활용할 수 있게 합니다. 우리의 새로운 X-VLA는 간결한 플로우 매칭(Flow-Matching) 기반 VLA 아키텍처로, 소프트 프롬프트가 적용된 표준 트랜스포머 인코더만을 사용하여 확장성과 단순성을 동시에 누립니다. 6개의 시뮬레이션과 3개의 실제 로봇에서 평가된 0.9B 규모의 X-VLA-0.9B는 다양한 벤치마크에서 최첨단(SOTA) 성능을 동시에 달성하며, 유연한 손재주부터 구현체, 환경, 작업 간의 빠른 적응에 이르기까지 광범위한 능력에서 우수한 결과를 보여줍니다. 웹사이트: https://thu-air-dream.github.io/X-VLA/
범용 멀티모달 임베딩 모델은 다양한 작업의 기반이 됩니다. 기존 접근 방식은 일반적으로 쿼리-후보 쌍의 유사성을 측정하여 배치 내 네거티브 마이닝을 수행합니다. 그러나 이러한 방법들은 후보들 간의 미묘한 의미적 차이를 포착하는 데 어려움을 겪으며, 네거티브 샘플의 다양성이 부족합니다. 또한, 이러한 임베딩은 거짓 네거티브와 하드 네거티브를 구분하는 데 있어 제한된 식별 능력을 보입니다. 본 논문에서는 MLLM(Multimodal Large Language Model)의 고급 이해 능력을 활용하여 표현 학습을 강화하고, 새로운 범용 멀티모달 임베딩 모델(UniME-V2)을 제안합니다. 우리의 접근 방식은 먼저 글로벌 검색을 통해 잠재적 하드 네거티브 집합을 구성합니다. 그런 다음 MLLM-as-a-Judge 메커니즘을 도입하여 MLLM을 활용해 쿼리-후보 쌍의 의미적 정렬을 평가하고 소프트 의미 매칭 점수를 생성합니다. 이러한 점수는 하드 네거티브 마이닝의 기초로 사용되어 거짓 네거티브의 영향을 완화하고 다양하고 고품질의 하드 네거티브를 식별할 수 있게 합니다. 또한, 소프트 의미 매칭 점수는 소프트 레이블로 사용되어 엄격한 일대일 매핑 제약을 완화합니다. 유사성 행렬을 소프트 의미 매칭 점수 행렬과 정렬함으로써, 모델은 후보들 간의 의미적 차이를 학습하여 식별 능력을 크게 향상시킵니다. 성능을 더욱 개선하기 위해, 우리는 UniME-V2-Reranker를 제안합니다. 이 리랭커 모델은 조인트 페어와이즈 및 리스트와이즈 최적화 접근 방식을 통해 마이닝된 하드 네거티브를 사용하여 훈련됩니다. MMEB 벤치마크와 여러 검색 작업에 대한 포괄적인 실험을 수행하여, 우리의 방법이 모든 작업에서 평균적으로 최첨단 성능을 달성함을 입증합니다.
본 연구는 입력 이미지의 열화 유형 분류를 용이하게 하여 포괄적인 이미지 복원 사전 학습을 가능하게 하는 Masked Degradation Classification Pre-Training 방법(MaskDCPT)을 소개합니다. 기존의 사전 학습 방법과 달리, MaskDCPT는 이미지의 열화 유형을 극히 약한 감독 신호로 사용하면서 동시에 이미지 재구성을 통해 성능과 견고성을 향상시킵니다. MaskDCPT는 인코더와 두 개의 디코더로 구성됩니다: 인코더는 마스킹된 저품질 입력 이미지에서 특징을 추출하고, 분류 디코더는 이러한 특징을 사용하여 열화 유형을 식별하며, 재구성 디코더는 해당 고품질 이미지를 재구성하는 것을 목표로 합니다. 이 설계는 마스킹된 이미지 모델링과 대조 학습 모두로부터 이점을 얻어 복원 작업에 적합한 일반화된 표현을 가능하게 합니다. 직관적이면서도 강력한 MaskDCPT 덕분에, 사전 학습된 인코더는 보편적인 이미지 복원 문제를 해결하고 탁월한 성능을 달성하는 데 사용될 수 있습니다. MaskDCPT를 구현하면 합성곱 신경망(CNN)과 트랜스포머 모두에서 성능이 크게 향상되며, 5D 올인원 복원 작업에서 PSNR이 최소 3.77dB 증가하고, 실제 열화 시나리오에서 PIQE가 기준선 대비 34.8% 감소합니다. 또한 이전에 보지 못한 열화 유형과 수준에 대해 강력한 일반화 능력을 보입니다. 추가적으로, 우리는 19가지 열화 유형과 200개 이상의 열화 수준에 걸쳐 250만 개의 복원 샘플 쌍을 포함하며 합성 데이터와 실제 데이터를 모두 통합한 UIR-2.5M 데이터셋을 구축하고 공개했습니다. 데이터셋, 소스 코드, 모델은 https://github.com/MILab-PKU/MaskDCPT에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)을 활용하여 문서를 검색하고 자연어 응답을 생성함으로써, Google AI 개요 및 ChatGPT와 같은 생성형 엔진은 사용자 경험을 크게 향상시키며 빠르게 새로운 형태의 검색 방식으로 자리 잡고 있다. 이러한 빠른 채택은 생성형 엔진 최적화(Generative Engine Optimization, GEO)의 필요성을 촉진하고 있으며, 콘텐츠 제공자들은 이를 통해 더 많은 관심을 얻고자 한다. 본 논문에서는 검색된 콘텐츠를 응답 생성에 사용할 때 생성형 엔진의 선호도를 자동으로 학습하고, 웹 콘텐츠를 재작성하여 더 많은 관심을 끌기 위한 프레임워크인 AutoGEO를 소개한다. AutoGEO는 먼저 최신 LLMs에 생성형 엔진의 선호도를 설명하도록 요청하고, 이러한 설명에서 의미 있는 선호도 규칙을 추출한다. 그런 다음, 이러한 선호도 규칙을 AutoGEO_API라는 프롬프트 기반 GEO 시스템의 컨텍스트 엔지니어링으로 사용하고, AutoGEO_Mini라는 비용 효율적인 GEO 모델을 훈련하기 위한 규칙 기반 보상으로 활용한다. 표준 GEO-Bench와 실제 사용자 쿼리를 사용하여 새롭게 구축한 두 벤치마크에서의 실험은 AutoGEO가 검색 유틸리티를 보존하면서 콘텐츠 관심도를 향상시키는 데 효과적임을 입증한다. 분석 결과, 학습된 규칙의 견고성과 다양한 도메인에서의 독특한 선호도를 포착하는 능력, 그리고 AutoGEO 시스템이 이러한 규칙을 콘텐츠 최적화에 내재화하는 능력이 확인되었다. 코드는 https://github.com/cxcscmu/AutoGEO에서 공개되었다.
통합 멀티모달 모델은 시각적 이해와 생성을 동시에 가능하게 하는 것을 목표로 하지만, 현재의 벤치마크는 이들의 진정한 통합을 거의 검토하지 않는다. 기존 평가는 두 능력을 독립적으로 다루거나, 본질적으로 이들을 결합하는 과제를 간과한다. 이러한 격차를 해결하기 위해, 우리는 Uni-MMMU를 제안한다. 이는 과학, 코딩, 수학, 퍼즐 등 8개의 추론 중심 영역에 걸쳐 생성과 이해 간의 양방향 시너지를 체계적으로 펼치는 포괄적이고 학문적 인식이 반영된 벤치마크이다. 각 과제는 양방향으로 결합되어 있으며, 모델이 (i) 개념적 이해를 활용하여 정확한 시각적 합성을 안내하거나, (ii) 분석적 추론을 위한 인지적 발판으로 생성을 활용하도록 요구한다. Uni-MMMU는 검증 가능한 중간 추론 단계, 고유한 정답, 그리고 텍스트 및 시각적 출력 모두에 대한 재현 가능한 채점 프로토콜을 포함한다. 최첨단 통합 모델, 생성 전용 모델, 이해 전용 모델에 대한 광범위한 평가를 통해, 우리는 상당한 성능 격차와 교차 모달 의존성을 밝혀내며, 이러한 능력이 언제 그리고 어떻게 서로를 강화하는지에 대한 새로운 통찰을 제공하고, 통합 모델의 발전을 위한 신뢰할 수 있는 기반을 마련한다.
세밀한 시각-언어 이해를 위해서는 시각적 콘텐츠와 언어적 설명 간의 정확한 정렬이 필요하며, 이는 특히 비영어 환경에서 현재 모델들의 한계로 남아 있습니다. CLIP과 같은 모델들은 전역적 정렬에서는 우수한 성능을 보이지만, 객체 속성, 공간 관계, 언어적 표현에서의 세부 사항을 포착하는 데 어려움을 겪으며, 이중 언어 이해에 대한 지원도 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 영어와 중국어 모두에서 세밀한 정렬을 발전시키기 위해 설계된 이중 언어 시각-언어 모델인 FG-CLIP 2를 소개합니다. 우리의 접근 방식은 영역-텍스트 매칭과 긴 캡션 모델링을 포함한 풍부한 세밀한 감독과 여러 판별 목적을 활용합니다. 또한, 의미적으로 유사한 캡션을 더 잘 구별하기 위해 텍스트 내 모달 대비(TIC) 손실을 도입했습니다. 대규모 영어 및 중국어 데이터의 신중하게 선별된 혼합물로 훈련된 FG-CLIP 2는 강력한 이중 언어 성능을 달성합니다. 엄격한 평가를 가능하게 하기 위해, 우리는 긴 캡션 검색 및 경계 상자 분류를 특징으로 하는 중국어 다중 모달 이해를 위한 새로운 벤치마크를 제시합니다. 8개 작업에 걸친 29개 데이터셋에서의 광범위한 실험을 통해 FG-CLIP 2가 기존 방법들을 능가하며 두 언어 모두에서 최첨단 결과를 달성함을 보여줍니다. 우리는 이중 언어 세밀한 정렬에 대한 미래 연구를 촉진하기 위해 모델, 코드, 벤치마크를 공개합니다.
모델 병합, 특히 Instruct 및 Thinking 모델에서의 병합은 효율적인 추론을 위해 뛰어난 성능을 보여왔습니다. 본 논문에서는 두 가중치를 직접 보간하는 가장 간단한 병합 방법을 체계적으로 재검토합니다. 특히, 모델 보간이 추론 궤적에서 뚜렷한 행동을 보이는 세 단계의 진화 패러다임을 따르는 것을 관찰했습니다. 이러한 역학은 성능과 비용 간의 트레이드오프를 탐색하는 데 원칙적인 가이드를 제공합니다. 실험 결과, 전략적으로 보간된 모델이 복잡한 모델 병합 베이스라인을 효율성과 효과성 모두에서 의외로 능가하는 것으로 나타났습니다. 우리는 모델 레이어, 모듈 및 디코딩 전략에 대한 광범위한 어블레이션 연구를 통해 이러한 발견을 추가로 검증했습니다. 궁극적으로, 이 연구는 모델 보간의 신비를 풀고 정확히 목표한 추론 능력을 갖춘 모델을 설계하기 위한 실용적인 프레임워크를 제공합니다. 코드는 https://github.com/wutaiqiang/MI{Github}에서 확인할 수 있습니다.
최근 대규모 언어 모델(LLM)의 발전은 추론 계산량을 늘려 사고 능력을 향상시키는 데 초점을 맞추고 있지만, 이는 종종 효율성을 희생시키는 결과를 가져왔습니다. 우리는 테스트 시점의 동작을 재검토하며 간단하지만 충분히 탐구되지 않은 현상을 발견했습니다: 사고 과정에서의 불확실성은 매우 국소적이며, 높은 엔트로피를 가진 소수의 토큰만이 출력의 정확성에 지배적인 영향을 미친다는 것입니다. 이를 바탕으로 우리는 최소한의 테스트 시점 개입(MTI)을 제안합니다. MTI는 추가 학습 없이도 최소한의 오버헤드로 사고 정확성과 안정성을 향상시키는 프레임워크입니다. MTI는 다음 두 가지 주요 요소를 포함합니다: (i) 선택적 CFG(Classifier-Free Guidance) 개입으로, 불확실한 위치에서만 CFG를 적용하며; (ii) 경량화된 네거티브 프롬프트 가이던스로, 메인 모델의 KV 캐시를 재사용하여 무조건 디코딩을 효율적으로 근사합니다. MTI는 일반, 코딩, STEM 과제 전반에 걸쳐 일관된 성능 향상을 보여줍니다. 예를 들어, Qwen3-8B-Base 모델의 경우 8개 벤치마크에서 평균 1.35%의 개선을, Qwen3-32B-Reasoning 모델을 사용한 AIME2024에서는 5%의 성능 향상을 달성하면서도 높은 효율성을 유지합니다.
디코더 전용 트랜스포머(Decoder-only transformers)는 뛰어난 성능으로 인해 대규모 언어 모델(LLMs)의 표준 아키텍처로 자리 잡았습니다. 최근 연구에 따르면, 사전 학습된 LLMs에서 초기, 중간, 후기 레이어는 각각 다른 역할을 수행할 수 있습니다: 초기 레이어는 입력 컨텍스트를 이해하는 데 집중하고, 중간 레이어는 작업별 처리를 담당하며, 후기 레이어는 추상적 표현을 출력 토큰으로 변환합니다. 우리는 초기 및 중간 레이어에서 표현이 처리된 후, 그 결과로 생성된 은닉 상태(hidden states)가 후기 레이어만을 사용하여 여러 토큰을 생성하는 데 충분한 정보를 포함할 수 있다고 가정합니다. 이를 통해 초기 및 중간 레이어를 반복적으로 통과할 필요가 없어집니다. 우리는 이러한 추론 패러다임을 직접 다중 토큰 디코딩(Direct Multi-Token Decoding, DMTD)이라고 부릅니다. 스펙티브 디코딩(speculative decoding)과 달리, 우리의 방법은 추가 매개변수, 보조 루틴 또는 생성 후 검증을 도입하지 않습니다. 제한된 데이터셋으로 학습되었음에도 불구하고, 미세 조정된 DMTD Qwen3-4B 모델은 이미 유망한 결과를 보여주며, 최대 2배의 속도 향상과 함께 미미한 성능 손실만을 기록했습니다. 또한, 우리의 스케일링 분석에 따르면, 더 큰 학습 데이터셋을 사용할 경우 그 성능이 더욱 개선될 것으로 예상됩니다.
훈련 가능한 희소 주의 메커니즘은 장문맥 처리에서 대형 언어 모델(LLM)의 디코딩 효율성 병목 현상을 해결하기 위한 유망한 솔루션으로 부상하며, 작업 성능에 최소한의 영향을 미치면서 메모리 접근을 크게 절약합니다. 그러나 기존의 희소 주의 메커니즘은 중요한 한계를 해결하지 못하고 있습니다: 키-값(KV) 캐시의 크기가 줄어들지 않아 GPU 상의 배치 크기가 제한되고, 특히 대규모 배치 추론에서 디코딩 처리량이 저하됩니다. 본 논문에서는 훈련 가능한 희소 주의 메커니즘이 인접한 디코딩 단계 간 토큰 선택에서 강력한 지역성을 자연스럽게 나타내어, 기본적인 주의 계산을 변경하지 않고도 KV 캐시 오프로딩을 가능하게 함을 보여줍니다. 그러나 내재된 지역성만으로는 효율적인 오프로딩을 달성하기에 부족하며, 선택된 KV 쌍의 CPU와 GPU 간 전송이 전체 디코딩 비용을 지배하는 문제가 여전히 남아 있습니다. 이러한 통찰을 바탕으로, 본 논문은 KV 캐시 오프로딩을 기본적으로 지원하도록 설계된 훈련 가능한 희소 주의 프레임워크인 NOSA를 제안합니다. NOSA는 토큰 선택을 쿼리 인식 및 쿼리 무관 구성 요소로 분해하여 명시적인 지역성 제약을 도입함으로써 KV 전송을 줄이면서도 훈련 중 사용된 동일한 주의 계산을 보존합니다. 우리는 NOSA를 사용하여 10억 파라미터 모델을 사전 훈련하고 광범위한 벤치마크를 수행하여, 기존의 훈련 가능한 희소 주의 메커니즘 기준(InfLLM-V2) 대비 최대 2.3배의 디코딩 처리량 향상을 달성하면서도 거의 손실 없는 성능을 유지함을 보여줍니다.
로봇 조작 정책은 종종 새로운 물체에 일반화하는 데 어려움을 겪어 실제 세계에서의 유용성이 제한됩니다. 반면, 인지 과학 연구에 따르면 어린이들은 소수의 간단한 장난감을 숙달한 후 그 지식을 더 복잡한 물체에 적용함으로써 일반화 가능한 세밀한 조작 기술을 개발합니다. 이에 영감을 받아, 우리는 로봇도 유사한 일반화 능력을 달성할 수 있는지 연구했습니다. 우리의 결과는 로봇이 구체, 직육면체, 원통, 링과 같은 단 네 가지 기본 형태로 구성된 무작위 조립 물체를 사용하여 일반화 가능한 파지(grasping)를 학습할 수 있음을 보여줍니다. 이러한 "장난감"에 대한 훈련이 실제 물체에 대한 강력한 일반화를 가능하게 하며, 제로샷(zero-shot) 성능을 크게 향상시킨다는 것을 입증했습니다. 특히, 이 일반화의 핵심은 우리가 제안한 탐지 풀링(detection pooling) 메커니즘에 의해 유도된 물체 중심 시각 표현임을 발견했습니다. 시뮬레이션과 실제 로봇에서 평가된 우리의 모델은 YCB 데이터셋에서 67%의 실제 파지 성공률을 달성하며, 훨씬 더 많은 도메인 내 데이터에 의존하는 최신 접근법을 능가했습니다. 또한, 훈련 장난감의 수와 다양성, 그리고 장난감당 시연 횟수를 변화시켜 제로샷 일반화 성능이 어떻게 확장되는지 추가로 연구했습니다. 우리는 이 작업이 로봇 조작에서 확장 가능하고 일반화 가능한 학습을 위한 유망한 길을 제시한다고 믿습니다. 데모 비디오, 코드, 체크포인트 및 데이터셋은 프로젝트 페이지(https://lego-grasp.github.io/)에서 확인할 수 있습니다.
순수 모방 학습(IL)만으로 훈련된 종단간 자율 주행 모델은 일반적으로 낮은 일반화 성능을 보이는 문제가 있습니다. 반면, 강화 학습(RL)은 보상 최대화를 통해 탐색을 촉진하지만 샘플 비효율성과 불안정한 수렴과 같은 과제에 직면합니다. 이를 해결하기 위한 자연스러운 접근 방식은 IL과 RL을 결합하는 것입니다. 기존의 두 단계 패러다임(IL 사전 훈련 후 RL 미세 조정)을 넘어서, 우리는 CoIRL-AD를 제안합니다. 이는 훈련 중에 IL과 RL 에이전트가 상호작용할 수 있는 경쟁 기반의 이중 정책 프레임워크입니다. CoIRL-AD는 경쟁 기반 메커니즘을 도입하여 지식 교환을 촉진하면서도 그래디언트 충돌을 방지합니다. nuScenes 데이터셋에서의 실험 결과, CoIRL-AD는 기준 모델 대비 충돌률을 18% 감소시켰으며, 더 강력한 일반화 성능과 긴 꼬리 시나리오에서의 향상된 성능을 보였습니다. 코드는 https://github.com/SEU-zxj/CoIRL-AD에서 확인할 수 있습니다.
대규모 언어 모델 기반 다중 에이전트 시스템의 최근 발전은 효과적인 의사소통을 통해 놀라운 집단 지능을 보여주었습니다. 그러나 기존 접근 방식은 두 가지 주요 과제에 직면해 있습니다: (i) 그래프 구조에서 쌍별 엣지 표현에 의존함으로써 다중 에이전트 간의 관계를 포착하는 능력이 제한되는 비효율적인 그룹 협업 모델링, 그리고 (ii) 의사소통 토폴로지 설계에서의 제한된 작업 적응성으로 인해 간단한 작업에서는 과도한 의사소통 비용이 발생하고 복잡한 시나리오에서는 충분한 조정이 이루어지지 않는 문제입니다. 이러한 문제들은 적응형 협업 프레임워크의 확장성과 실제 배포를 제한합니다. 이러한 과제를 해결하기 위해, 우리는 하이퍼그래프 기반 프레임워크인 HyperAgent를 제안합니다. HyperAgent는 직접 하이퍼엣지 표현을 사용하여 그룹 협업 패턴을 효과적으로 포착하고 의사소통 토폴로지를 최적화합니다. 엣지 기반 접근 방식과 달리, HyperAgent는 동일한 하위 작업 내의 다중 에이전트를 연결하기 위해 하이퍼엣지를 사용하고, 하이퍼그래프 컨볼루션 레이어를 통해 협업 그룹에서의 정보 집계를 한 단계로 달성합니다. 또한, HyperAgent는 희소성 정규화를 포함한 변분 오토인코더 프레임워크를 통합하여 작업 복잡도에 따라 하이퍼그래프 토폴로지를 동적으로 조정합니다. 실험 결과, HyperAgent는 성능과 효율성 모두에서 우수성을 입증했습니다. 예를 들어, GSM8K에서 HyperAgent는 95.07%의 정확도를 달성하면서 토큰 소비를 25.33% 줄였으며, 이는 다중 에이전트 의사소통을 위한 하이퍼그래프 기반 최적화의 잠재력을 보여줍니다.
대규모 언어 모델(LLM) 기반 추론 시스템은 최근 IMO 2025 대회에서 금메달 수준의 성과를 달성하며, 각 단계가 정확할 뿐만 아니라 충분히 뒷받침되어야만 만점을 받을 수 있는 수학적 증명을 작성했습니다. 이러한 도전적이고 개방적인 환경에서 LLM 기반 추론기를 훈련시키기 위해서는 단계별 오류를 포착할 수 있는 강력한 검증기가 필수적인 전제 조건입니다. 우리는 500시간 이상의 인간 노동을 통해 제작된 인간 주석 단계별 검증 벤치마크인 Hard2Verify를 소개합니다. Hard2Verify는 최첨단 단계별 검증기를 엄격히 평가하도록 설계되었습니다: 검증기는 최근의 도전적이고 개방적인 수학 문제에 대해 최첨단 LLM이 생성한 응답에서 단계별 주석을 제공하거나 첫 번째 오류를 식별해야 합니다. 우리는 29개의 생성적 비평가와 프로세스 보상 모델을 평가하며, 몇 가지 두드러진 예외를 제외하고 오픈소스 검증기가 폐쇄형 모델에 뒤처지는 것을 보여줍니다. 이후 우리는 단계별 검증에서의 낮은 성능을 유발하는 요인, 검증기 계산 규모의 영향, 그리고 자기 검증 및 검증-생성 역학과 같은 근본적인 질문들을 분석합니다.
다중 턴 Text-to-SQL은 사용자의 대화 발화를 실행 가능한 SQL로 변환하면서 대화의 일관성과 대상 스키마에 대한 정합성을 유지하는 것을 목표로 합니다. 그러나 대부분의 기존 시스템은 이 작업을 단순한 텍스트 번역 작업으로 간주하고, 실행 없이 턴당 하나의 쿼리를 생성하는 단기적 패러다임을 따르며, 명시적인 검증과 개선 과정이 없어 실행 불가능하거나 일관성 없는 결과를 초래합니다. 우리는 장기적 다중 턴 Text-to-SQL을 위한 에이전트 기반 훈련 프레임워크인 MTSQL-R1을 제안합니다. 이 작업을 마르코프 결정 과정(MDP)으로 설정하여, 에이전트가 (i) 실행 피드백을 위한 데이터베이스와 (ii) 일관성 검증을 위한 지속적 대화 메모리와 상호작용하며, 모든 검증을 통과할 때까지 제안 -> 실행 -> 검증 -> 개선의 반복적인 사이클을 수행합니다. COSQL과 SPARC에 대한 실험 결과, MTSQL-R1은 강력한 베이스라인을 지속적으로 능가하며, 대화형 의미 구문 분석을 위한 환경 기반 검증과 메모리 기반 개선의 중요성을 강조합니다. 내부 검토 후 코드, 훈련된 모델, 로그, 추적 경로 등을 포함한 전체 레시피를 커뮤니티 연구에 기여하기 위해 공개할 예정입니다.
다중 에이전트 대규모 언어 모델(LLM) 시스템은 에이전트 간의 커뮤니케이션과 조정이 필요한 복잡한 언어 처리 작업에 점점 더 많이 채택되고 있습니다. 그러나 이러한 시스템은 종종 에이전트 간에 중복되는 컨텍스트를 반복적으로 재처리함으로써 상당한 오버헤드를 겪습니다. 일반적인 파이프라인에서, 한 에이전트가 이전 에이전트로부터 메시지를 받으면, 이전 대화를 포함한 전체 컨텍스트를 처음부터 다시 처리해야 하므로 비효율적인 처리가 발생합니다. 단일 에이전트 설정에서는 접두사가 변경되지 않는 경우 키-값(KV) 캐싱이 중복 계산을 피하는 효과적인 해결책이지만, 에이전트별 컨텍스트 확장으로 인해 접두사가 달라지는 다중 에이전트 시나리오에서는 이를 직접 재사용할 수 없습니다. 우리는 이러한 문제의 핵심이 에이전트 간 KV 캐시의 오프셋 변동성에 있음을 확인했습니다. 이를 해결하기 위해, 우리는 KVCOMM을 제안합니다. KVCOMM은 다양한 접두사 컨텍스트 하에서 중복되는 컨텍스트의 캐시 오프셋을 정렬하고 KV 캐시를 재사용함으로써 다중 에이전트 추론에서 효율적인 프리필링을 가능하게 하는 학습이 필요 없는 프레임워크입니다. KVCOMM은 다양한 접두사 하에서 관찰된 캐시 편차를 저장하는 앵커라고 불리는 캐시된 예제 풀을 참조하여 공유 콘텐츠에 대한 KV 캐시를 추정하고 조정합니다. 앵커 풀은 온라인으로 유지 및 업데이트되어, 다양한 사용자 요청과 컨텍스트 구조에 동적으로 적응할 수 있습니다. KVCOMM은 검색 강화 생성, 수학적 추론, 협업 코딩 작업을 포함한 다양한 다중 에이전트 워크로드에서 품질 저하 없이 70% 이상의 재사용률을 달성합니다. 특히, 5개 에이전트 설정에서 각각 완전히 연결된 에이전트가 1K 입력 토큰을 받고 512 접두사 토큰과 512 출력 토큰을 처리할 때, KVCOMM은 표준 프리필 파이프라인 대비 최대 7.8배의 속도 향상을 달성하며, TTFT를 ~430ms에서 ~55ms로 단축합니다.
트래커와 비디오 생성기는 밀접하게 관련된 문제를 해결합니다: 전자는 움직임을 분석하고, 후자는 움직임을 합성합니다. 우리는 이 연결성을 통해 사전 학습된 비디오 확산 모델이 단순히 시간에 따라 움직이는 점을 시각적으로 표시하도록 프롬프팅함으로써 제로샷 포인트 트래킹을 수행할 수 있음을 보여줍니다. 쿼리 포인트에 독특한 색상의 마커를 배치한 후, 중간 노이즈 수준에서 비디오의 나머지 부분을 재생성합니다. 이는 마커를 프레임 간에 전파하여 점의 궤적을 추적합니다. 이러한 마커가 자연스러운 비디오에서는 잘 나타나지 않기 때문에, 이 반사실적 생성 과정에서 마커가 계속 보이도록 하기 위해 편집되지 않은 초기 프레임을 네거티브 프롬프트로 사용합니다. 여러 이미지 조건부 비디오 확산 모델을 통해 실험한 결과, 이러한 "발생적" 트랙은 기존의 제로샷 방법보다 우수한 성능을 보이며, 가려짐 상황에서도 지속적으로 추적할 수 있었고, 종종 전문적인 자기 지도 모델과 경쟁력 있는 성능을 얻을 수 있었습니다.
정렬 훈련에는 트레이드오프가 존재합니다: 언어 모델(LM)이 추론 및 지시 따르기 능력에서 향상되도록 도와주지만, 창의성과 보정(calibration)과 같은 기술에서는 정렬되지 않은 기본 모델이 더 뛰어난 경우가 있습니다. 우리는 모델 협업을 통해 두 가지 장점을 모두 취하는 것을 목표로 합니다. 여기서는 훈련 파이프라인 내의 다양한 모델들이 서로 협력하고 상호 보완합니다. LM 응답은 서로 다른 모델에 유리한 교차 기술을 특징으로 하기 때문에, 사전 훈련된 모델과 정렬된 모델 버전이 응답 시퀀스에서 번갈아가며 "말하도록" 하는 Switch Generation을 제안합니다. 구체적으로, 우리는 다양한 쿼리와 컨텍스트에서 다음 세그먼트를 생성하기 위해 서로 다른 모델을 선택한 결과를 학습함으로써 스위처 LM을 훈련합니다. 추론 시에는 스위처 LM이 서로 다른 모델 체크포인트를 안내하여 각 모델의 강점이 가장 필요한 부분에서 다음 세그먼트를 동적으로 생성합니다. 8개의 모델 협업 베이스라인과 18개의 데이터셋을 사용한 광범위한 실험 결과, 1) 모델 협업은 18개 작업 중 16개에서 개별 모델보다 일관되게 우수한 성능을 보였으며, 2) Switch Generation은 베이스라인보다 평균 12.9% 더 우수한 성능을 보였습니다. 추가 분석 결과, Switch Generation은 개별 모델이 어려움을 겪는 문제를 해결하기 위한 구성적 기술을 발견하고, 보이지 않는 모델과 작업에 일반화하며, 고가의 모델 훈련 파이프라인에서 버려지는 부산물을 재사용하고 재활용합니다.
대규모 언어 모델(Large Language Models) 기반의 다중 에이전트 시스템은 조율된 협업을 통해 복잡한 작업에서 뛰어난 성능을 보이지만, 다중 턴 심층 탐색 시나리오에서는 높은 실패율을 보입니다. 기존의 시간적 귀인(temporal attribution) 방법들은 특히 여러 에이전트에 걸쳐 오류가 전파되는 경우 근본 원인을 정확히 진단하는 데 어려움을 겪습니다. 행동 시퀀스를 분석하여 실패 귀인을 자동화하려는 시도는 에이전트 간 정보 의존성을 고려하지 못해 여전히 효과적이지 못합니다. 본 논문은 두 가지 핵심 문제를 제시합니다: (i) 다중 에이전트 오류 전파에서 증상과 근본 원인을 구분하는 것, (ii) 시간적 순서를 넘어 정보 의존성을 추적하는 것. 이러한 문제를 해결하기 위해, 우리는 정보 흐름 분석을 통해 실패 귀인을 재정의하는 GraphTracer 프레임워크를 소개합니다. GraphTracer는 정보 의존성 그래프(Information Dependency Graphs, IDGs)를 구성하여 에이전트가 이전 출력을 참조하고 이를 기반으로 어떻게 작동하는지를 명시적으로 포착합니다. 이 프레임워크는 시간적 시퀀스에 의존하는 대신 이러한 의존성 구조를 추적함으로써 근본 원인을 특정합니다. 또한 GraphTracer는 그래프 인식 합성 데이터 생성(graph-aware synthetic data generation)을 사용해 중요한 노드를 대상으로 현실적인 실패 시나리오를 생성합니다. Who\&When 벤치마크에서의 평가와 실제 시스템 통합 결과, GraphTracer-8B는 최신 모델 대비 최대 18.18% 더 높은 귀인 정확도를 달성했으며, 배포된 다중 에이전트 프레임워크에서 4.8%에서 14.2%의 성능 향상을 가능하게 하여 다중 에이전트 시스템 디버깅을 위한 강력한 솔루션을 입증했습니다.
추론 언어 모델과 테스트 시간 스케일링 방법의 등장으로 모델 성능을 개선하기 위한 패러다임이 형성되면서, 동일한 프롬프트에서 여러 후보 시퀀스를 생성하기 위해 상당한 계산이 종종 필요하게 되었다. 이는 올바른 해결책을 향한 다양한 추론 경로를 탐색할 수 있게 하지만, 각 프롬프트에 동일한 계산 예산을 할당한다. 서로 다른 프롬프트가 서로 다른 수준의 복잡성을 지니며, 따라서 서로 다른 계산 요구를 가진다는 가정에 기반하여, 우리는 EAGer라는 훈련 없이도 생성 가능한 방법을 제안한다. 이 방법은 토큰별 엔트로피 분포를 통해 모델의 불확실성을 활용하여 중복 계산을 줄이고 동시에 전반적인 성능을 개선한다. EAGer는 고엔트로피 토큰이 있는 경우에만 여러 추론 경로로 분기하고, 그렇게 절약된 계산 예산을 대체 경로 탐색이 가장 필요한 경우에 재할당한다. 우리는 AIME 2025와 같은 복잡한 추론 벤치마크에서 여러 오픈소스 모델을 대상으로 실험한 결과, EAGer가 목표 레이블에 접근하지 않고도 예산을 재할당할 수 있으며, 추론 길이와 Pass@k 측면에서 최고의 효율-성능 균형을 달성함을 발견했다. 목표 레이블에 접근 가능한 경우, EAGer는 Full Parallel Sampling 대비 최대 65% 적은 토큰을 생성(따라서 계산을 절약)하고 Pass@k에서 최대 37%의 개선을 달성했다.
현대의 장문맥 대규모 언어 모델(LLMs)은 합성된 "건초 더미 속 바늘 찾기(NIAH)" 벤치마크에서 우수한 성능을 보이지만, 이러한 테스트는 편향된 검색과 에이전트 워크플로우에서 발생하는 잡음이 많은 문맥을 간과합니다. 우리는 모델의 장문맥 견고성을 테스트하기 위해 핵심 실제 요소를 충실히 반영한 잡음이 많은 장문맥을 구성하기 위해 건초 더미 엔지니어링이 필요하다고 주장합니다. 이는 이질적인 편향 검색기로 인한 방해와 에이전트 워크플로우에서의 연쇄 오류를 포함합니다. 우리는 이를 HaystackCraft라는 새로운 NIAH 벤치마크를 통해 구현했습니다. HaystackCraft는 전체 영어 위키백과 하이퍼링크 네트워크를 기반으로 다중 홉 질문을 포함하며, 이질적인 검색 전략(예: 희소, 밀집, 하이브리드, 그래프 기반)이 방해 요소 구성, 건초 더미 순서, 그리고 하류 LLM 성능에 미치는 영향을 평가합니다. HaystackCraft는 또한 NIAH를 에이전트 작업을 시뮬레이션하는 동적, LLM 의존적 설정으로 확장하여, 모델이 쿼리를 개선하고 과거 추론을 반영하며 중단 시점을 결정하는 환경을 제공합니다. 15개의 장문맥 모델을 대상으로 한 실험 결과는 다음과 같습니다: (1) 더 강력한 밀집 검색기는 더 어려운 방해 요소를 도입할 수 있지만, 그래프 기반 재순위는 검색 효율성을 개선하고 더 해로운 방해 요소를 완화합니다; (2) 에이전트 테스트에서는 Gemini 2.5 Pro와 GPT-5와 같은 고급 모델도 자체 생성된 방해 요소로 인한 연쇄 실패를 겪거나 조기 중단을 수행하는 데 어려움을 겪습니다. 이러한 결과는 에이전트 장문맥 추론에서의 지속적인 도전 과제를 강조하며, HaystackCraft를 미래 진전을 위한 가치 있는 테스트베드로 확립합니다.
대형 언어 모델(LLMs)은 인간 수준 또는 그 이상의 언어 능력을 보여주며, 구문 구조를 효과적으로 모델링하지만, 이를 담당하는 구체적인 계산 모듈은 여전히 불분명합니다. 핵심 질문은 LLM의 행동 능력이 인간 뇌와 유사한 메커니즘에서 비롯되는지 여부입니다. 이러한 질문을 해결하기 위해, 우리는 주파수 영역 분석을 활용하여 LLM의 뉴런 단위 구성 요소(예: 개별 다층 퍼셉트론(MLP) 뉴런)와 구문 구조를 인코딩하는 피질 영역(두개 내 기록을 통해)을 식별하는 계층적 주파수 태깝 프로브(HFTP)를 소개합니다. 우리의 결과는 GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1, GLM-4와 같은 모델들이 유사한 계층에서 구문을 처리하는 반면, 인간 뇌는 서로 다른 구문 수준에 대해 별개의 피질 영역에 의존한다는 것을 보여줍니다. 표현 유사성 분석은 LLM 표현과 언어 처리에서 우세한 뇌의 좌반구 사이에 더 강한 일치를 보여줍니다. 특히, 업그레이드된 모델들은 상이한 경향을 보입니다: Gemma 2는 Gemma보다 뇌와 더 큰 유사성을 보이는 반면, Llama 3.1은 Llama 2에 비해 뇌와의 일치도가 낮습니다. 이러한 발견들은 LLM 행동 개선의 해석 가능성에 대한 새로운 통찰을 제공하며, 이러한 발전이 인간과 유사한 메커니즘인지 아닌지에 대한 질문을 제기하고, HFTP를 계산 언어학과 인지 신경과학을 연결하는 가치 있는 도구로 확립합니다. 이 프로젝트는 https://github.com/LilTiger/HFTP에서 확인할 수 있습니다.
DeepSeek-R1의 등장과 함께, 더 강력한 수학적 추론을 가능하게 하는 새로운 강화학습(RL) 방법들이 등장했습니다. 그러나 오픈소스 생태계를 자세히 살펴보면 중요한 한계가 드러납니다: 충분히 많은 시도(예: pass@1024)를 할 경우, 기존의 많은 기본 모델들이 이미 MATH-500 및 AIME 2024와 같은 널리 사용되는 수학 벤치마크의 거의 모든 문제를 해결하고 있습니다. 이는 LLM 추론 문헌에서 널리 사용되는 RL 미세조정 방법들이 대부분 기존의 해결 방식을 더욱 세밀하게 다듬는 데 그치고, 완전히 새로운 방식을 발견하지는 못한다는 것을 시사합니다. 이러한 세밀화는 RL의 더 넓은 약속, 즉 탐색을 촉진하고 새로운 기술을 습득하는 것과는 대조적입니다. 이 고원을 넘어서기 위해, 우리는 MATH-Beyond(MATH-B)라는 벤치마크를 소개합니다. 이 벤치마크는 대규모 샘플링 예산 하에서도 최대 8B 파라미터의 일반적인 오픈소스 모델들을 의도적으로 무력화하도록 설계되었습니다. 우리의 벤치마크에서 성능을 개선하기 위해서는 반복적인 샘플링에서 기본 모델의 능력을 넘어서는 추론 방식을 학습하는 RL 방법이 필요합니다. 문제들은 DAPO-Math-17K 및 DeepScaleR 데이터셋의 부분집합에서 추출되었기 때문에, 주제적으로는 표준 고등학교 수학과 동일합니다. 우리의 전제를 검증하기 위해, Nemotron-Research-Reasoning-Qwen-1.5B 및 DeepScaleR-1.5B-Preview와 같은 RL 미세조정 모델들은 pass@1024에서 MATH-B에서 낮은 성능을 보이며, 기존 접근 방식들이 더 어려운 사례를 다루는 데 부족함을 보여줍니다. 우리는 MATH-B가 더 깊은 추론 능력을 이끌어내는 탐색 중심의 RL 접근 방식을 촉진하기를 바랍니다. 우리는 MATH-B를 https://huggingface.co/datasets/brendel-group/MATH-Beyond에서 공개합니다.
원격 추론은 경량 디바이스가 강력한 클라우드 모델을 활용할 수 있게 해준다. 그러나 통신 네트워크 지연으로 인해 예측 결과가 실시간 작업에 적합하지 않게 된다. 이를 해결하기 위해, 우리는 임의의 원격 추론 지연을 완화하여 로컬 디바이스가 실시간으로 저지연 출력을 생성할 수 있도록 하는 지연 보정 방법인 Dedelayed를 소개한다. 우리의 방법은 현재 프레임을 처리하고, 과거 프레임에서 무거운 원격 모델이 계산한 특징을 융합하는 경량 로컬 모델을 사용한다. BDD100K 운전 데이터셋의 비디오에서 Dedelayed는 33ms 이상의 모든 현실적인 통신 네트워크 지연에 걸쳐 로컬 전용 및 원격 전용 기준선 중 더 강력한 모델보다 의미론적 분할 정확도를 향상시켰다. 추가 지연 없이, 100ms의 왕복 지연에서 완전 로컬 추론에 비해 6.4 mIoU, 원격 추론에 비해 9.8 mIoU의 정확도 향상을 달성했다. 이 장점은 더 긴 지연과 더 높은 동작 장면에서 더욱 커지며, 지연 완화 분할 추론은 정확도를 더 효과적으로 유지하여 현재 세계 상태와 일치해야 하는 실시간 작업에 명확한 이점을 제공한다.
추론 모델은 더 긴 토큰 예산을 통해 더 많은 계산 자원을 할당함으로써 문제 해결 능력을 향상시킵니다. 어떤 추론 흔적이 성공할 가능성이 높은지 식별하는 것은 여전히 중요한 기회로 남아 있습니다: 생산적인 경로를 신뢰성 있게 예측한다면 낭비되는 계산을 상당히 줄이고 전반적인 효율성을 개선할 수 있습니다. 우리는 중간 추론 토큰을 생성하는 동안 모델의 내부 표현의 시간적 진화를 특징짓는 잠재-궤적(Latent-Trajectory) 신호를 소개합니다. 추론의 시작과 끝 사이의 잠재 표현의 전체 변화, 중간 단계에서 누적된 변화, 그리고 이러한 변화가 최종 상태로 나아가는 정도를 측정함으로써, 이러한 신호가 교차 계층(cross-layer) 메트릭과 출력 기반 신뢰도 측정보다 더 신뢰성 있게 해결 정확도를 예측한다는 것을 보여줍니다. 다수의 샘플링된 생성물 간에 답안 선택을 안내하는 데 사용될 때, 잠재-궤적 신호는 다수결 투표보다 테스트 시간 스케일링을 더 효과적이고 효율적으로 만들어, 토큰 사용량을 최대 70%까지 줄이면서도 정확도를 평균 2.6% 유지하거나 개선합니다. 더욱이, 이러한 예측 신호는 종종 추론 흔적의 초기에 나타나, 가장 유망한 후보에 대한 조기 선택과 계산 자원 할당을 가능하게 합니다. 우리의 연구 결과는 추론 시간 효율성을 위한 실용적인 전략뿐만 아니라, 잠재 공간에서 추론 과정이 어떻게 표현되고 구별되는지에 대한 더 깊은 해석 가능성 관점을 제공합니다.
대규모 언어 모델(LLMs)의 등장은 게임 환경에서 역동적인 비플레이어 캐릭터(NPCs)를 생성할 수 있는 새로운 기회를 열어주었으며, 이는 기능적 작업 수행과 캐릭터 일관성 있는 대화 생성을 모두 가능하게 한다. 본 논문에서는 Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2에 참가한 (Tu_Character_lab)의 경험을 보고한다. 이 대회는 작업 지향 대화, 상황 인식 대화, 그리고 이들의 통합이라는 세 가지 트랙에서 에이전트를 평가한다. 우리의 접근 방식은 두 가지 상호 보완적인 전략을 결합하였다: (i) API 트랙에서의 경량 프롬프팅 기법, 과도한 역할극을 억제하고 작업 충실도를 향상시키기 위한 Deflanderization 프롬프팅 방법을 포함하며, (ii) GPU 트랙에서의 미세 조정된 대규모 모델, Qwen3-14B를 지도 미세 조정(SFT) 및 Low-Rank Adaptation(LoRA)을 활용하였다. 우리의 최고 제출물은 Task 1에서 2위, Task 3 (API 트랙)에서 2위, 그리고 Task 3 (GPU 트랙)에서 4위를 기록하였다.
추론은 단순히 문제를 해결하는 것에만 국한되지 않으며, 어떤 문제가 해결할 가치가 있는지를 평가하는 것도 포함한다. 역사적으로 인공지능(AI) 시스템의 평가는 주로 문제 해결에 초점을 맞추어 왔으며, 특히 체스나 바둑과 같은 게임을 어떻게 플레이하는지를 연구함으로써 이루어졌다. 본 논문에서는 AI 시스템이 게임을 평가하는 방식을 평가하는 새로운 패러다임을 제안한다. 먼저, 이러한 평가를 위한 형식적 틀을 소개한다. 그런 다음, 100개 이상의 새로운 보드 게임과 450개 이상의 인간 판단으로 구성된 대규모 데이터셋을 활용하여 현대 언어 및 추론 모델이 생성한 평가를 사람과 기호적 계산 에이전트의 평가와 비교한다. 우리는 두 가지 종류의 평가 질문을 고려한다: 게임의 보상(또는 공정성)과 재미를 평가하는 것이다. 이러한 질문은 AI 평가의 설계와 관련된 두 가지 차원을 포괄한다: 질문을 계산하는 데 얼마나 복잡한지와 질문을 정량화하는 데 얼마나 어려운지. 우리의 결과는 추론 모델이 일반적으로 비추론 언어 모델보다 게임 평가에서 사람과 더 일치한다는 것을 보여준다. 그러나 비단조적 관계도 관찰되는데, 모델이 게임 이론적 최적에 가까워질수록 인간 데이터와의 적합도가 약화된다. 또한 재미를 평가하는 데 있어 모델 간 더 큰 "들쭉날쭉함"이 관찰되는데, 이는 이 질문을 정량화하는 데 더 큰 어려움이 있음을 반영한다. 질문과 게임 전반에 걸쳐 추론 모델은 질문을 평가할 때 매우 다양하고 예측 불가능한 자원 사용을 보여주며, 이는 언어 및 추론 모델에 더 많은 자원-합리적 메타-추론을 부여하는 것의 중요성을 시사한다.