번역이 포함된 일일 선별된 AI 연구 논문
코드는 에이전트 시대에 추론과 행동을 위한 정확하고 실행 가능한 매체로 부상했습니다. 그러나 지금까지의 발전은 프로그램 합성 및 디버깅과 같은 언어 중심 작업에 집중되어 왔으며, 시각 중심 코딩은 상대적으로 덜 탐구되었습니다. 인간이 스케치를 통해 추론하는 방식에서 영감을 받아, 우리는 SVG 코드를 간결하고 해석 가능하며 실행 가능한 시각적 표현으로 제안합니다. 우리는 멀티모달 이해를 코드 생성으로 재정의하는 벤치마크인 VCode를 소개합니다: 주어진 이미지에 대해 모델은 하위 추론을 위한 상징적 의미를 보존하는 SVG를 생성해야 합니다. VCode는 일반 상식(MM-Vet), 전문 분야(MMMU), 시각 중심 인식(CV-Bench)의 세 가지 영역을 포괄합니다. 상징적 정확도를 평가하기 위해 정책 모델이 렌더링된 SVG를 기반으로 질문에 답하는 새로운 평가 프로토콜인 CodeVQA를 제안합니다; 정답은 상징적 정보가 충실히 보존되었음을 나타냅니다. 실험적으로 최첨단 VLM들도 충실한 SVG 생성에 어려움을 겪으며, 언어 중심 코딩과 시각 중심 코딩 사이의 지속적인 격차를 드러냈습니다. 이 격차를 해소하기 위해 우리는 VLM을 두 가지 축을 따라 강화하는 에이전트 프레임워크인 VCoder를 소개합니다: (i) 불일치를 반복적으로 분석하고 SVG 코드를 개선하는 '개정을 통한 사고'(Thinking with Revision), (ii) 모델의 내재적 능력 범위를 넘어서는 객체, 형태, 텍스트 등의 구조적 단서를 감지기와 파서가 제공하는 '시각적 도구를 통한 행동'(Acting with Visual Tools). 벤치마크 전반에서 강력한 추론 능력을 가진 최첨단 VLM들은 전반적으로 높은 점수를 얻었지만 전문 지식과 3D 추론에서는 여전히 한계를 보였습니다. VCoder는 최고 성능의 Claude-4-Opus 대비 12.3점의 전반적 성능 향상을 달성했습니다. 인간 대상 연구 결과, 인간과 VLM 모두 렌더링된 SVG에서 더 낮은 성능을 보였지만, 그 일관성은 상징적 시각 표현의 가능성을 보여줍니다. 벤치마크와 코드는 https://github.com/CSU-JPG/VCode에서 이용 가능합니다.
비전-언어-행동(VLA) 모델의 성장하는 성공은 사전 학습된 비전-언어 모델(VLM)이 에이전트에게 전이 가능한 세계 지식과 비전-언어(VL) 접지를 제공함으로써 더 넓은 일반화를 가진 행동 모델의 기반을 마련할 수 있다는 기대에서 비롯됩니다. 그러나 이러한 VLM이 행동 양식에 적용될 때, 원래의 VL 표현과 지식이 어느 정도 보존되는지는 여전히 불분명합니다. 본 연구에서는 VLA 미세 조정 과정에서의 표현 보존에 대한 체계적인 연구를 수행하며, 단순한 행동 미세 조정이 시각 표현의 저하를 초래함을 보여줍니다. 이러한 효과를 규명하고 측정하기 위해 우리는 VLA의 은닉 표현을 탐색하고 어텐션 맵을 분석하며, 나아가 목표 지향적인 작업 세트와 방법을 설계하여 VLA 모델과 대응되는 VLM을 대조함으로써 행동 미세 조정에 의해 유발된 VL 능력의 변화를 분리합니다. 우리는 또한 시각 표현 정렬을 위한 다양한 전략을 추가로 평가하고, 저하를 완화하고 분포 외(OOD) 시나리오에 대한 개선된 일반화를 제공하는 간단하면서 효과적인 방법을 소개합니다. 종합적으로, 우리의 분석은 행동 미세 조정과 VL 표현 저하 사이의 상충 관계를 명확히 하고, 상속된 VL 능력을 회복하기 위한 실용적인 접근법을 강조합니다. 코드는 공개되어 있습니다: https://blind-vla-paper.github.io
우리는 중간 시각 이미지 생성이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위해 설계된 새로운 벤치마크 MIRA를 제안합니다. 텍스트만 의존하는 기존 CoT(Chain of Thought) 방법과 달리, MIRA의 과제들은 모델이 스케치, 구조도, 경로 그림과 같은 중간 이미지를 생성하고 활용하여 추론 과정을 안내하도록 요구합니다. 이 설정은 인간이 "생각을 위해 그리기" 방식으로 복잡한 문제를 해결하는 방식을 충실히 반영합니다. 이를 해결하기 위해 MIRA는 본질적으로 어렵고 복잡한 구조, 공간 관계, 또는 언어만으로 표현하기 어려운 추론 단계를 포함하는 과제에 중점을 둡니다. 평가 데이터의 높은 품질을 보장하기 위해 중간 시각 이미지와 최종 답변이 주석 처리된 546개의 다중모드 문제를 포함했습니다. 또한 MIRA를 위한 통합 평가 프로토콜을 제안하며, 이는 이미지와 질문만 있는 직접 입력, 이미지와 사고 프롬프트가 포함된 텍스트 전용 CoT 입력, 주석 처리된 이미지 단서와 텍스트 사고 프롬프트를 모두 포함하는 Visual-CoT 입력이라는 세 가지 평가 입력 수준을 아우릅니다. 벤치마크 상의 모델 성능 상한을 탐구하기 위해 다양한 k 설정에서의 pass@k 및 다수결 투표 정확도도 보고합니다. 실험 결과에 따르면, 가장 강력한 비공개 모델과 강력한 오픈 가중치 모델을 포함한 기존 다중모드 대규모 언어 모델들은 텍스트 프롬프트만 의존할 때 성능이 저조했습니다. 그러나 중간 시각 단서가 제공되면 모델 성능이 일관되게 개선되어 모든 모델과 과제에서 평균 33.7%의 상대적 향상을 보였습니다. 또한 검색 공간을 확장하고 Visual-CoT와 일치하는 텍스트 프롬프트를 설계하여 상한을 탐구했으나, 둘 다 우리의 Visual-CoT 설정에 비해 제한된 개선만을 가져왔습니다. 이러한 결과는 MIRA에서 성공적인 추론을 가능하게 하는 데 있어 상상된 시각 정보의 중요성을 강조합니다.
Step-Audio-EditX를 소개합니다. 이는 감정, 화법, 파라링귀스틱스를 포함한 표현력豊かな 반복적 오디오 편집과 함께 강력한 제로샷 텍스트-음성 변환(TTS) 기능을 모두 갖춘 최초의 오픈소스 LLM 기반 오디오 모델입니다. 우리의 핵심 혁신은 임베딩 기반 사전 정보나 보조 모듈 없이도 대규모 마진 합성 데이터만을 활용하는 데 있습니다. 이러한 대규모 마진 학습 접근법은 다양한 음성에 걸친 반복적 제어와 높은 표현력을 동시에 가능하게 하며, 기존의 표현 수준 분리(disentanglement)에 집중하던 관행에서 근본적인 전환을 의미합니다. 평가 결과, Step-Audio-EditX는 감정 편집 및 기타 세밀한 제어 작업에서 MiniMax-2.6-hd와 Doubao-Seed-TTS-2.0을 모두 능가하는 성능을 보여줍니다.
다중 모달 대규모 언어 모델(MLLM)은 서로 다른 양식이 상충되는 정보를 제공할 때 이를 해결해야 하며, 우리는 이 과정을 모달리티 추종(modality following)이라 명명한다. 기존 연구는 이 현상을 단순한 데이터셋 수준의 통계로만 측정하여, 단일 모델 추론에 대한 모델의 신뢰도(confidence) 영향력을 간과해왔다. 본 논문에서는 모달리티 추종을 두 가지 핵심 요소, 즉 상대적 추론 불확실성(단일 모달 예측 간의 사례별 신뢰도 격차)과 내재적 모달리티 선호도(불확실성이 균형을 이룰 때 모델이 보이는 안정적인 편향)로 분해하는 새로운 프레임워크를 제안한다. 이 프레임워크를 검증하기 위해 시각 및 텍스트 입력의 추론 난이도를 체계적으로 변동하는 제어 가능 데이터셋을 구축하였다. 엔트로피를 세분화된 불확실성 지표로 활용하여 우리는 보편적인 법칙을 발견했다: 특정 모달리티를 따를 확률은 해당 모달리티의 상대적 불확실성이 증가함에 따라 단조적으로 감소한다. 두 모달리티를 유사한 확률로 추종하는 경향을 보이는 상대적 난이도 수준, 즉 균형점(balance point)에서 모델의 내재적 선호도를 실용적으로 가늠할 수 있다. 이 측정값은 기존의 거시적 비율과 달리 단일 모달 능력과 데이터셋 편향에서 벗어나 모달리티 편향을 더 체계적이고 덜 혼란스럽게 규명하는 방법을 제공한다. 나아가 계층별 예측을 탐색함으로써 우리는 내부적 진동 메커니즘을 규명한다: 균형점 근방의 모호한 영역에서 모델은 계층 간에 양 모달리티를 오가며 망설이며, 이는 외부적으로 관찰되는 우유부단함을 설명한다. 종합적으로, 이러한 발견들은 상대적 불확실성과 내재적 선호도를 모달리티 추종을 지배하는 두 원리로 확립하며, MLLM이 상충 정보를 해결하는 방식에 대한 정량적 프레임워크와 메커니즘적 통찰을 함께 제시한다.
인공지능 발전 경로를 고려할 때, 앞으로는 서로 다른 정보, 권한, 도구를 갖춘 독립적으로 개발된 에이전트들로 구성된 에이전트 기반 시스템에 점점 더 의존하게 될 것임을 시사합니다. 이러한 시스템의 성공은 부분적 관찰 가능성 하에서도 이질적 에이전트들 간의 효과적인 협력에 크게 좌우될 것입니다. 많은 관심에도 불구하고, 이러한 에이전트 간 협력을 대규모로 평가한 실증 연구는 거의 없습니다. 본 연구에서는 (i) 협력 능력을 분리하고, (ii) 문제 복잡성을 조절하며, (iii) 확장 가능한 자동 채점을 가능하게 하며, (iv) 생태학적 타당성을 유지하기 위해 출력 형식 제약을 두지 않는 협력형 미로 해결 벤치마크를 제안합니다. 이 프레임워크를 이용하여 단독, 동종, 이종 페어링으로 32개의 주요 오픈소스 및 클로즈드소스 모델을 평가했습니다. 우리의 결과는 "협력 격차"를 보여줍니다: 단독으로는 우수한 성능을 보이는 모델들이 협력이 필요할 때는 상당히 성능이 저하되는 경우가 많습니다. 협력은 극적으로 실패할 수 있습니다. 예를 들어, 단독으로는 미로를 잘 해결하는 소형 경량화 모델이 특정 페어링에서는 거의 완전히 실패하기도 합니다. 우리는 강한 에이전트로 시작하는 것이 종종 결과를 개선시킴을 발견했으며, 이는 강한 에이전트가 주도한 후 약한 에이전트에게 넘겨주는 "릴레이 추론" 접근법의 동기를 부여하며, 이로 인해 격차 상당 부분이 해소되었습니다. 우리의 연구 결과는 (1) 협력을 고려한 평가, (2) 협력 능력을 향상시키기 위해 개발된 훈련 전략, (3) 에이전트의 잠재 역량을 안정적으로 이끌어내는 상호작용 설계의 필요성을 시사합니다. 이러한 지침은 AI-AI 및 인간-AI 협력 모두에 적용됩니다.
사람들의 fMRI 뇌 기록으로부터 본 이미지를 재구성하는 것은 인간 뇌를 들여다볼 수 있는 비침습적 창구를 제공합니다. 확산 모델 덕분에 최근 진전이 있었으나, 현재 방법들은 실제 본 이미지에 대한 충실도가 부족한 경우가 많습니다. 본 논문에서는 이러한 문제를 해결하기 위해 기능적으로 유사한 뇌 복셀 군집 간의 효과적인 상호작용을 가능하게 하는 Brain Interaction Transformer(BIT)를 통한 뇌 영감 접근법 "Brain-IT"를 제안합니다. 이러한 기능적 군집은 모든 피험자에게 공통적으로 존재하며, 단일 뇌 내 및 여러 뇌 간 정보 통합을 위한 기본 구성 요소로 작용합니다. 모든 모델 구성 요소는 모든 군집과 피험자에게 공유되어 제한된 양의 데이터로도 효율적인 학습이 가능합니다. 이미지 재구성을 안내하기 위해 BIT는 두 가지 상호 보완적인 지역적 패치 수준 이미지 특징을 예측합니다: (i) 확산 모델을 이미지의 올바른 의미론적 내용으로 이끄는 고수준 의미 특징과 (ii) 확산 과정을 이미지의 올바른 개요 구조로 초기화하는 데 도움을 주는 저수준 구조 특징입니다. BIT의 설계는 뇌 복셀 군집으로부터 지역적 이미지 특징으로의 직접적인 정보 흐름을 가능하게 합니다. 이러한 원리를 통해 우리 방법은 fMRI로부터 본 이미지를 충실하게 재구성하며, 시각적 및 표준 객관적 지표 모두에서 현재 최첨단 접근법을 능가합니다. 더 나아가, 새로운 피험자의 단 1시간 분량의 fMRI 데이터만으로도 기존 방법들이 40시간 전체 기록으로 학습한 결과에 필적하는 성과를 달성합니다.
단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)은 과도하게 장황해져 추론 비용을 증가시키는 경우가 많습니다. 검증 가능한 보상을 활용한 표준 강화학습(RLVR) 파이프라인은 훈련 효율성을 위해 '쉬운' 문제들을 걸러내며, 모델이 주로 더 긴 추론 체인이 필요한 어려운 문제들로 훈련하도록 합니다. 이는 출력 길이 분포를 왜곡시켜 '더 오래 생각하는 것'과 '더 잘 생각하는 것'을 혼동하는 모델을 만들어냅니다. 본 연구에서는 중간 수준의 쉬운 문제들을 보유하고 적절히 가중치를 부여하는 것이 암시적 길이 정규화자 역할을 함을 보여줍니다. 해결 가능한 짧은 체인 과제를 모델에 노출시키면 출력 분포가 제한되고 과도한 장황함을 방지할 수 있습니다. 그 결과, 명시적인 길이 패널티 없이도 모델이 출력 길이를 불필요하게 늘리지 않으면서 더 어려운 문제를 해결하는 법을 배우는, 즉 **공짜로 얻어지는 간결함**이 나타납니다. 이 접근법을 사용하여 Qwen3-4B-Thinking-2507(16k 토큰 제한) 모델로 수행한 RLVR 실험에서 기준선(baseline) 대비 AIME25 pass@1 정확도를 유지하면서 평균적으로 거의 두 배 짧은 해결책을 생성했습니다. 코드는 https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}에서, 데이터셋과 모델은 https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}에서 이용할 수 있습니다.
대규모 멀티모달 모델(LMM)은 이미지 인코더가 생성하는 방대한 시각 토큰으로 인해 심각한 추론 비효율 문제를 겪는 경우가 많습니다. 토큰 제거(pruning) 및 병합(merging)과 같은 최근의 토큰 압축 기법들은 중복성을 줄이는 데 유망한 성과를 보였지만, 이에 대한 평가는 여전히 파편화되고 일관성이 부족한 실정입니다. 본 연구에서는 멀티모달 LLM의 시각 토큰 제거를 위한 통합적이고 확장 가능한 벤치마크인 UniPruneBench를 제안합니다. UniPruneBench는 6개 능력 차원과 10개 데이터셋에 걸쳐 표준화된 평가 프로토콜을 제공하며, 10가지 대표적인 압축 알고리즘과 3가지 LMM 패밀리(LLaVA-v1.5, Intern-VL3, Qwen2.5-VL)를 포괄합니다. 과제 정확도 외에도 실행 시간 및 프리필링 지연 시간과 같은 시스템 수준의 지표를 포함하여 종합적인 관점을 제시합니다. 실험 결과 몇 가지 중요한 사실을 발견했습니다: (1) 무작위 제거는 놀랍도록 강력한 기준선이며, (2) 단일 방법론이 모든 시나리오에서 일관되게 다른 방법들을 능가하지는 않으며, (3) 제거에 대한 민감도는 과제별로 현저히 다르며 OCR이 가장 취약하고, (4) 제거 비율이 성능 저하를 지배하는 주요 요인입니다. UniPruneBench가 효율적인 멀티모달 모델링 연구를 위한 신뢰할 수 있는 기반이 될 것으로 기대합니다.
현재의 코딩 벤치마크는 특정 버그 수정이나 목표적인 테스트 작성과 같이 구체적이고 명확히 정의된 작업에 대해 언어 모델(LM)을 평가합니다. 그러나 인간 프로그래머는 하루 종일 분리된 작업만 끊임없이 해결하지 않습니다. 실제 소프트웨어 개발은 사용자 유지율 향상이나 비용 절감과 같은 높은 수준의 목표 추구에 기반을 둡니다. 명시적 지도 없이 언어 모델이 열린 목표를 더 잘 달성하기 위해 코드를 반복적으로 개발할 수 있는지 평가하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 이를 위해 우리는 CodeClash를 소개합니다. 이 벤치마크에서는 언어 모델이 경쟁적 목표를 달성하기 위한 최고의 코드베이스를 구축하기 위해 다중 라운드 토너먼트에서 경쟁합니다. 각 라운드는 두 단계로 진행됩니다. 에이전트가 코드를 편집한 후, 점수 극대화, 자원 획득, 생존과 같은 목표에 따라 승자를 결정하는 코드 아레나에서 상대의 코드베이스와 직접 겨룹니다. 노트 작성, 문서 검토, 경쟁 로그 분석, 테스트 스위트 생성 등 모델은 상대방에 대해 절대적이고 상대적으로 자신의 코드베이스를 개선하는 방법을 스스로 결정해야 합니다. 우리는 6개의 아레나에서 8개의 언어 모델을 평가하기 위해 1,680회의 토너먼트(총 25,200라운드)를 실행했습니다. 결과에 따르면 모델이 다양한 개발 스타일을 보여주지만, 전략적 추론에 있어서는 근본적인 한계를 공유합니다. 또한 저장소가 점점 지저분하고 중복되어 모델이 장기적인 코드베이스 유지 관리에 어려움을 겪습니다. 이러한 한계는 분명합니다. 최고 수준의 모델도 전문 인간 프로그래머에 대항하면 모든 라운드에서 패배합니다. 우리는 자율적이고 목표 지향적인 코드 개발 연구를 발전시키기 위해 CodeClash를 오픈소스로 공개합니다.
대규모 데이터는 양손 조작 분야에서 언어 모델부터 시각-언어-행동 모델에 이르기까지 로봇공학의 획기적 발전을 주도해왔습니다. 그러나 휴머노이드 로봇공학에는 동등한 효율성을 지닌 데이터 수집 프레임워크가 부족한 실정입니다. 기존 휴머노이드 원격 조작 시스템은 분리된 제어 방식을 사용하거나 고가의 모션 캡처 설정에 의존하고 있습니다. 본 연구에서는 휴머노이드 원격 조작 및 데이터 수집 시스템인 TWIST2를 소개합니다. 이 휴머노이드 시스템은 확장성을 향상시키면서도 완전한 전신 제어를 유지하는 휴대형이며 모션 캡처 장비가 필요하지 않습니다. 우리의 시스템은 실시간 전신 인간 동작 획득을 위해 PICO4U VR을 활용하고, 에고센트릭 비전을 위한 맞춤형 2자유도 로뷰트 목 디바이스(약 250달러 규모)를 통해 전체론적인 인간 대 휴머노이드 제어를 가능하게 합니다. 우리는 장기간에 걸른 정교한 휴머노이드 이동 기술을 구현했으며, 약 15분 만에 100회의 데모를 거의 100% 성공률로 수집할 수 있었습니다. 이러한 파이프라인을 바탕으로, 우리는 에고센트릭 비전을 기반으로 휴머노이드 전체 신체를 자율적으로 제어하는 계층적 시각운동 정책 프레임워크를 제안합니다. 우리의 시각운동 정책은 전신 정교 조작 및 동적 킥킹 작업에서 성공적인 성능을 입증했습니다. 전체 시스템은 완전히 재현 가능하며 https://yanjieze.com/TWIST2 에서 오픈소스로 공개되었습니다. 수집된 데이터셋 또한 https://twist-data.github.io 에 공개되어 있습니다.
대규모 언어 모델(LLM)의 현재 평가 패러다임은 AI 연구의 중요한 맹점으로 작용합니다. 공간 추론의 근본적 한계를 은폐하는 불투명한 수치 지표에 의존하면서 모델 능력에 대한 직관적 이해를 제공하지 못하기 때문입니다. 이러한 결함은 보고된 성능과 실제 능력 사이에 위험한 괴리를 만들어내며, 특히 물리적 세계 이해가 필요한 응용 분야에서 두드러집니다. 본 연구에서는 모델이 점 행렬을 통한 그림 그리기 또는 실행 가능한 코드 생성을 요구하는 방식으로 LLM 평가를 추상적인 점수에서 직접 관찰 가능한 시각적 결과로 전환하는 획기적인 벤치마크인 LTD-Bench를 소개합니다. 이 접근법은 비전문가에게도 공간 추론의 한계를 즉시 드러내어 통계적 성능과 직관적 평가 사이의 근본적 격차를 해소합니다. LTD-Bench는 세 단계의 점진적 난이도로 보완적 생성 과제(공간 상상력 테스트)와 인식 과제(공간 지각력 평가)를 포함한 포괄적 방법론을 구현하며, 중요한 언어-공간 매핑의 양방향을 체계적으로 평가합니다. 최첨단 모델을 대상으로 한 광범위한 실험은 놀라운 능력 격차를 드러냈습니다: 기존 벤치마크에서 인상적인 결과를 달성한 LLM조차 언어와 공간 개념 간의 양방향 매핑 수립에 깊은 결함을 보였으며, 이는 진정한 세계 모델로서의 잠재력을 훼손하는 근본적 한계입니다. 나아가 LTD-Bench의 시각적 결과는 강력한 진단 분석을 가능하게 하여 모델 유사성 연구를 위한 잠재적 접근법을 제시합니다.
로봇 제어 알고리즘의 경우 실제 기기에서의 테스트는 필수적입니다. 학습 기반 알고리즘, 특히 VLA 모델의 맥락에서는 대규모 평가, 즉 다수의 작업에 대해 다수의 모델을 테스트해야 할 필요성이 점점 더 시급해지고 있습니다. 그러나 확장성과 재현성을 고려할 때 이를 올바르게 수행하는 것은 매우 어려운 과제입니다. 본 보고서에서는 로봇 제어 알고리즘을 테스트하기 위한 온라인 평가 시스템인 RoboChallenge 구축 방법론과 초기 벤치마크 Table30을 활용한 최신 VLA 모델 동향 조사 결과를 설명합니다.
대규모 언어 모델(LLM)은 수많은 실제 응용 분야에서 놀라운 능력을 입증해 왔다. 실험적 관점에서 수행되는 대부분의 연구가 빠르게 진행되고 있지만, 이는 상당한 컴퓨팅 성능, 데이터 및 기타 자원을 요구한다. 따라서 이론적 관점에서 LLM의 블랙박스를 해체하는 방법이 중요한 과제로 대두되고 있다. 본 논문은 속도-왜곡 함수 이론, 방향 정보, 그리고 그레인저 인과성을 출발점으로 하여 LLM의 정보 이론적 원리를 탐구하며, 의미를 담지 않은 비트(bit)가 아닌 토큰(token)을 기본 단위로 하는 LLM을 위한 의미론적 정보 이론의 발전을 이끌어낸다. LLM의 확률적 모델을 정의함으로써, 사전 학습 단계의 방향성 속도-왜곡 함수, 사후 학습 단계의 방향성 속도-보상 함수, 추론 단계의 의미론적 정보 흐름과 같은 구조-불가지론적 정보 이론적 측정치를 논의한다. 또한 본 논문은 토큰 수준 의미 임베딩 이론과 정보 이론적으로 최적인 벡터화 방법을 깊이 있게 탐구한다. 이후 우리는 자기회귀적 LLM에 대한 일반적인 정의를 제안하며, 여기서 Transformer 아키텍처와 ELBO, 일반화 오차 한계, 메모리 용량, 의미론적 정보 측정치와 같은 그 성능을 이론적으로 도출할 수 있다. Mamba/Mamba2 및 LLaDA와 같은 다른 아키텍처들도 우리의 프레임워크 내에서 논의된다. 결과적으로, 본 논문은 의미론적 정보 이론의 관점에서 LLM을 이해하기 위한 이론적 프레임워크를 제공하며, 이는 더욱 심층적인 연구를 위한 필요한 이론적 도구도 함께 제공한다.
우리는 새로운 프레임워크 아래 훈련된 대규모 Vision-Language-Action (VLA) 모델인 iFlyBot-VLA를 소개한다. 주요 기여점은 다음과 같다: (1) 대규모 인간 및 로봇 매니픈레이션 비디오 데이터로 충분히 훈련된 잠재 행동 모델; (2) 훈련 과정에서 Vision-Language Model (VLM)과 행동 전문가 모델을 공동으로 지도하는 이중 수준 행동 표현 프레임워크; (3) 로봇 궤적 데이터와 일반 QA 및 공간 QA 데이터셋을 결합한 혼합 훈련 전략으로, VLM 백본의 3D 인지 및 추론 능력을 효과적으로 향상시킴. 구체적으로, VLM은 두 가지 상호 보완적인 형태의 행동을 예측하도록 훈련된다: 크로스 임보디먼트(cross-embodiment) 매니픈레이션 데이터에 사전 훈련된 우리의 잠재 행동 모델에서 도출된, 암묵적인 높은 수준의 의도를 포착하는 잠재 행동(latent actions); 그리고 연속 제어 신호의 주파수 영역 변환을 통해 얻어진, 명시적인 낮은 수준의 동역학을 인코딩하는 구조화된 이산 행동 토큰(structured discrete action tokens). 이러한 이중 지도는 언어, 시각, 행동의 표현 공간을 정렬하여 VLM이 행동 생성에 직접 기여할 수 있도록 한다. LIBERO Franka 벤치마크에서의 실험 결과는 우리 프레임워크의 우수성을 입증하며, 실제 환경 평가에서도 iFlyBot-VLA가 다양하고 도전적인 매니픈레이션 작업에서 경쟁력 있는 성공률을 달성함을 추가로 보여준다. 나아가, 우리는 커뮤니티의 향후 연구를 지원하기 위해 자체 구축한 데이터셋의 일부를 오픈소스로 공개할 계획이다.
대규모 언어 모델은 많은 기존 추론 벤치마크에서 강력한 성능을 입증해왔습니다. 그러나 이러한 벤치마크는 주로 정량적 문제 해결과 같은 구조화된 능력을 평가하며, 인간 지능의 핵심인 유연하고 다면적인 추론 능력을 평가하는 데는 공백이 존재합니다. 이러한 능력은 논리적 추론과 공간 인지, 제약 조건 충족을 통합하는 것을 요구하지만, 현재의 평가 방식은 이를 효과적으로 측정하지 못합니다. 이를 해결하기 위해 우리는 이러한 핵심 추론 능력을 탐구하도록 설계된 영어 난제 1,737개로 구성된 벤치마크인 RiddleBench를 소개합니다. RiddleBench에 대한 최첨단 모델들의 평가 결과 근본적인 약점이 드러났습니다. Gemini 2.5 Pro, o3, Claude 4 Sonnet과 같은 최고의 독점 모델들조차 정확도가 60% 초반(각각 60.30%, 63.37%, 63.16%)에 그쳤습니다. 분석은 더 나아가 환각 캐스케이드(다른 모델의 결함 있는 추론을 수용함)와 강한 자기 확증 편향으로 인한 열악한 자기 수정 능력을 포함한 심각한 실패를 보여줍니다. 이들의 추론은 취약하여 제약 조건의 순서가 변경되거나 관련 없는 정보가 도입될 경우 성능이 현저히 저하됩니다. RiddleBench은 이러한 문제점들을 진단하는 도구이자, 보다 강력하고 신뢰할 수 있는 언어 모델 개발을 안내하는 자원으로 기능합니다.
복잡한 차트 이해 작업은 다중 모달 대규모 언어 모델(MLLM)의 고급 시각 인식 및 추론 능력을 요구합니다. 그러나 현재 연구는 실제 응용 분야에서 흔히 나타나는 복잡한 차트 시나리오와 계산 집약적 추론 작업을 제한적으로 다루고 있습니다. 본 연구는 이러한 한계를 해결하기 위해 체계적으로 시각 추론 데이터셋을 생성하는 자동화된 다단계 코드 기반 파이프라인을 제안합니다. 이 파이프라인은 검증된 차트 템플릿을 검색하기 위해 검색 증강 생성(RAG)을 통합하고, 실제 데이터 분포를 시뮬레이션하는 추론 코드를 생성하기 위해 사고 연쇄(CoT) 전략을 활용하여 차트 렌더링 및 질문 관련 통계 계산을 수행합니다. 모델 기반 평가를 통해 이 파이프라인은 차트 다양성과 데이터 품질을 향상시킵니다. 본 프레임워크를 이용해 우리는 훈련용 38,000개 차트와 142,000개의 질문-답변 쌍으로 구성된 다차원 및 다단계 데이터셋인 ChartM^3과 실질적인 성능 평가를 위한 고품질 평가 샘플 2,871개를 구축했습니다. 지도 미세 조정(SFT) 및 강화 학습(RL) 실험을 통해 우리의 데이터셋이 추론 능력과 교차 도메인 일반화 성능을 크게 향상시키며, 더 작은 규모의 모델이 복잡한 차트 이해 작업에서 대규모 모델에 필적하는 성능을 달성할 수 있게 함을 입증했습니다.
최근 비디오 대규모 언어 모델(VideoLLMs)의 발전에 힘입어 비디오에서의 감정 이해 및 예측에 대한 연구가 큰 주목을 받고 있습니다. 고급 기법들이 비디오 감정 분석에서 진전을 보였으나, 감정의 본질적 특성으로 인해 여전히 큰 과제가 남아 있습니다. 감정은 동적이고 단서에 의존하는 특성을 지녀, 복잡하고 변화하는 감정 상태를 합리적인 근거와 함께 이해하는 것을 어렵게 만듭니다. 이러한 문제를 해결하기 위해 본 연구에서는 기본 속성 인식, 표현 분석, 고수준 감정 이해를 단계별 방식으로 통합하는 새로운 감정 단서 기반 추론 프레임워크를 제안합니다. 우리 접근법의 핵심은 감정 추론과 지시 따르기에 특화된 비디오 감정 기초 모델(VidEmo) 패밀리입니다. 이 모델들은 두 단계의 조정 과정을 거칩니다: 첫째, 감정 지식을 주입하기 위한 체계적 감정 학습(Curriculum Emotion Learning), 둘째, 감정 추론을 위한 감정 트리 강화 학습(Affective-Tree Reinforcement Learning)입니다. 더불어 본 연구에서는 기초 데이터 인프라를 구축하고 210만 개의 다양한 지시 기반 샘플로 구성된 감정 중심 세분화 데이터셋(Emo-CFG)을 소개합니다. Emo-CFG는 설명 가능한 감정 질의응답, 세분화된 캡션, 관련 근거를 포함하여 감정 이해 과제 발전에 필수적인 자원을 제공합니다. 실험 결과, 우리의 접근법이 15개의 얼굴 인식 과제 전반에 걸쳐 경쟁력 있는 성능을 달성하며 새로운 이정표를 세웠음을 보여줍니다.
본 연구에서는 중국어 LLM 적용 시나리오를 위해 특화된 동적이며 지속적으로 업데이트되는 안전성 벤치마크인 LiveSecBench을 제안한다. LiveSecBench은 중국의 법률 및 사회적 프레임워크에 기반한 여섯 가지 핵심 차원(합법성, 윤리성, 사실성, 프라이버시, 적대적 강건성, 추론 안전성)에서 모델을 평가한다. 이 벤치마크는 새로운 위협 벡터를 지속적으로 반영하는 동적 업데이트 체계를 통해 관련성을 유지하며, 다음 업데이트에서는 텍스트-이미지 생성 안전성과 에이전트 안전성 등의 평가 차원을 추가할 계획이다. 현재 LiveSecBench(v251030)은 18개의 LLM을 평가하여 중국어 컨텍스트에서의 AI 안전성 현황을 제공한다. 리더보드는 https://livesecbench.intokentech.cn/에서 공개적으로 확인할 수 있다.
알츠하이머병(AD)의 세계적 부담이 지속적으로 증가함에 따라, 특히 진단 도구 접근성이 제한된 지역에서 조기 및 정확한 검출의 중요성이 더욱 부각되고 있습니다. 본 연구는 이러한 문제를 해결하기 위해 BRAINS(Biomedical Retrieval-Augmented Intelligence for Neurodegenerative Screening)를 제안합니다. 이 새로운 시스템은 대규모 언어 모델(LLM)의 강력한 추론 능력을 활용하여 알츠하이머병 검출 및 모니터링을 수행합니다. BRAINS는 인지 진단 모듈과 사례 검색 모듈로 구성된 이중 모듈 아키텍처를 특징으로 합니다. 진단 모듈은 MMSE, CDR 점수, 뇌 용적 측정치 등을 포함한 인지 및 신경영상 데이터셋으로 미세 조정된 LLM을 활용하여 알츠하이머병 위험을 구조적으로 평가합니다. 한편, 사례 검색 모듈은 환자 프로필을 잠재 표현으로 인코딩하고 정제된 지식 베이스에서 유사 사례를 검색합니다. 이러한 보조 사례들은 사례 융합 계층을 통해 입력 프로필과 결합되어 맥락적 이해를 향상시킵니다. 결합된 표현은 추론을 위해 임상 프롬프트와 함께 처리됩니다. 실제 데이터셋에 대한 평가 결과, BRAINS가 질병 중증도를 분류하고 인지 저하의 초기 신호를 식별하는 데 효과적임을 입증했습니다. 이 시스템은 확장 가능하고 설명 가능하며 조기 단계의 알츠하이머병 검출을 위한 보조 도구로서 강력한 잠재력을 보여줄 뿐만 아니라, 해당 분야의 향후 응용 가능성에 대한 희망을 제시합니다.
현재의 대규모 언어 모델은 광범위한 일반 목적 작업에서는 뛰어난 성능을 보이지만, 깊은 문화적·언어적·전문 분야 지식을 요구하는 고도로 전문화된 영역에서는 지속적으로 낮은 성능을 보입니다. 특히 아유르베다와 같은 전통 의학 체계는 수세기에 걸친 미묘한 문헌 및 임상 지식을 구현하고 있으나, 주류 대규모 언어 모델들은 이를 정확하게 해석하거나 적용하지 못하고 있습니다. 본 논문은 고전 문헌과 임상 지침을 아우르는 방대하고 전문가가 정성들여 구축한 아유르베다 데이터셋을 사용하여 Param-1-2.9B로부터 미세 조정된 전문화된 도메인 특화 이중 언어 모델인 AyurParam-2.9B를 소개합니다. AyurParam의 데이터셋은 영어와 힌디어로 된 맥락 인식, 추론, 객관식 스타일의 질의응답을 포함하며, 사실적 정확성과 교육적 명확성을 위한 엄격한 주석 프로토콜을 적용했습니다. BhashaBench-Ayur에서 벤치마크한 결과, AyurParam은 동일 규모 등급(15억~30억 매개변수)의 모든 오픈소스 지시 튜닝 모델을 능가할 뿐만 아니라, 훨씬 더 큰 모델들과 비교해서도 경쟁력 있거나 우수한 성능을 입증했습니다. AyurParam의 결과는 전문 의학 지식에 대해 신뢰할 수 있고 문화적으로 조화로운 AI를 제공하기 위해 진정한 도메인 적응과 고품질 감독(supervision)이 필수적임을 강조합니다.
텍스트-이미지(T2I) 확산 모델은 의미론적 정렬에서 강력한 성능을 달성했으나, 여전히 프롬프트에 지정된 객체 수를 정확히 생성하는 데 어려움을 겪고 있습니다. 기존 접근법은 일반적으로 보조 계수 네트워크를 외부 비평가로 통합하여 수치 능력을 향상시킵니다. 그러나 이러한 비평가들은 생성 과정에서 그래디언트 지도를 제공해야 하므로, 본질적으로 미분 가능한 회귀 기반 모델로 제한됩니다. 이로 인해 더 우수한 계수 능력을 가진 검출기 기반 모델들은 그 열거-기반-계수 특성이 미분 불가능하므로 배제됩니다. 이러한 한계를 극복하기 위해 우리는 비분화 가능 검출 모델을 미분 가능 비평가로 변환하여 그 우수한 계수 능력을 활용해 수치 생성 지도를 가능하게 하는 새로운 프레임워크인 Detector-to-Differentiable(D2D)를 제안합니다. 구체적으로, 우리는 검출기 로짓을 연성 이진 지표로 변환하는 사용자 정의 활성화 함수를 설계하며, 이는 추론 시 미리 훈련된 T2I 모델과 함께 잡음 사전 분포를 최적화하는 데 사용됩니다. 다양한 복잡도의 네 가지 벤치마크(저밀도, 고밀도, 다중 객체 시나리오)에 대해 SDXL-Turbo, SD-Turbo, Pixart-DMD를 대상으로 한 폭넓은 실험을 통해 객체 계수 정확도에서 일관적이고 상당한 향상(예: 400개 프롬프트의 저밀도 벤치마크인 D2D-Small에서 최대 13.7% 향상)을 확인했으며, 전반적인 이미지 품질과 계산 오버헤드의 저하는 최소화되었습니다.
표 형식 데이터에 대한 복잡한 추론은 실제 데이터 분석에서 매우 중요하지만, 대규모 언어 모델(LLM)은 복잡한 질의, 노이즈가 있는 데이터, 제한된 수치 처리 능력으로 인해 종종 낮은 성능을 보입니다. 이러한 문제를 해결하기 위해 우리는 다음과 같은 구성 요소로 이루어진 \method 프레임워크를 제안합니다: (1) 복잡한 질문을 분해하는 질의 분해기, (2) 노이즈가 있는 테이블을 정리하고 필터링하는 테이블 정제기, (3) 정제된 테이블에서 최종 답변을 도출하기 위해 실행 가능한 코드를 생성하는 프로그램 사고(PoT) 기반 추론기. 편향되지 않은 평가와 데이터 누출을 방지하기 위해 표에 대한 복잡한 수치 추론을 위해 특별히 설계된 새로운 데이터 세트인 CalTab151을 도입했습니다. 실험 결과, \method는 기존 방법들을 지속적으로 능가하며 TAT-QA, TableBench 및 \method에서 각각 8.79%, 6.08%, 19.87%의 정확도 향상을 달성하여 최첨단(SOTA) 성능을 달성했습니다. 또한 우리의 프레임워크는 주류 LLM과 원활하게 통합되어 복잡한 표 형식 수치 추론을 위한 강력한 솔루션을 제공합니다. 이러한 결과는 복잡한 표 형식 수치 추론을 위한 LLM 성능 향상에서 우리 프레임워크의 효과성을 입증합니다. 데이터와 코드는 요청 시 제공 가능합니다.
깊이와 자체 운동이라는 두 가지 기본적인 3D 인식 과제에 대한 비지도 학습은 최근 몇 년 동안 큰 진전을 이루었습니다. 그러나 대부분의 방법은 자체 운동을 보조 작업으로 취급하여 모든 운동 유형을 혼합하거나 깊이와 무관한 회전 운동을 supervision에서 제외합니다. 이러한 설계는 강력한 기하학적 제약의 통합을 제한하여 다양한 조건에서의 신뢰성과 강건성을 감소시킵니다. 본 연구는 운동 구성 요소에 대한 판별적 처리를 도입하여 각각의 강체 흐름에 내재된 기하학적 규칙성을 활용해 깊이 및 자체 운동 추정 모두에 이득을 줍니다. 연속된 비디오 프레임이 주어지면, 네트워크 출력은 먼저 소스 및 타겟 카메라의 광축과 이미징 평면을 정렬합니다. 프레임 간의 광학 흐름은 이러한 정렬을 통해 변환되며, 편차를 정량화하여 각 자체 운동 구성 요소에 개별적으로 기하학적 제약을 가함으로써 더욱 표적화된 정밀 조정을 가능하게 합니다. 이러한 정렬은 더 나아가 공동 학습 과정을 동축 및 동평면 형태로 재구성하여, 깊이와 각 병진 운동 구성 요소가 닫힌 형식의 기하학적 관계를 통해 상호 도출될 수 있게 하여 깊이 강건성을 향상시키는 상호 보완적 제약을 도입합니다. 이러한 설계를 통합한 일반적인 깊이 및 자체 운동 공동 학습 프레임워크인 DiMoDE는 여러 공개 데이터셋과 새로 수집된 다양한 실제 세계 데이터셋에서 특히 어려운 조건 하에서 최첨단 성능을 달성합니다. 본 논문 출판 시 소스 코드는 mias.group/DiMoDE에서 공개될 예정입니다.
최근 연구들은 비디오 생성 품질 향상을 위한 효율적이고 보상이 필요 없는 접근법으로 직접 선호도 최적화(DPO)를 주목하고 있습니다. 그러나 기존 방법들은 대부분 이미지 도메인 패러다임을 따르며 소규모 모델(약 20억 매개변수) 위주로 개발되어, 비용이 많이 드는 데이터 구축, 불안정한 학습, 과도한 메모리 소비와 같은 비디오 작업의 고유한 문제를 해결하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 우리는 실제 비디오를 긍정적 샘플로, 모델 생성 비디오를 부정적 샘플로 사용하여 고품질 선호도 쌍을 자동으로 구축하는 GT-Pair를 도입하여 외부 주석의 필요성을 제거했습니다. 또한 학습 안정성과 생성 충실도를 향상시키기 위해 SFT 손실을 DPO 목적함수에 정규화 항으로 통합한 Reg-DPO를 제안합니다. 여기에 FSDP 프레임워크와 여러 메모리 최적화 기법을 결합함으로써 우리의 접근법은 FSDP 단독 사용 대비 약 3배 높은 학습 용량을 달성했습니다. 다양한 데이터셋에서 이미지-투-비디오(I2V) 및 텍스트-투-비디오(T2V) 작업에 대한 폭넓은 실험을 통해 우리 방법이 기존 접근법을 지속적으로 능가하며 우수한 비디오 생성 품질을 제공함을 입증했습니다.