번역이 포함된 일일 선별된 AI 연구 논문
엄격하게 통제된 사전 학습 설정에서 우리는 크로스오버 현상을 관찰한다: 고유 데이터가 제한적일 때, 확산 언어 모델(DLM)이 더 많은 에포크 동안 학습함으로써 자기회귀(AR) 모델을 지속적으로 능가한다. 이 크로스오버는 더 많거나 더 높은 품질의 데이터가 있을수록 더 늦게, 더 큰 모델일수록 더 일찍 발생하며, 조밀 및 희소 아키텍처 전반에 걸쳐 지속된다. 우리는 이러한 성능 향상을 세 가지 중첩 요인으로 귀결한다: (1) 임의 순서 모델링, (2) 반복적 양방향 잡음 제거로 인한 초고밀도 계산, 그리고 (3) 내장형 몬테카를로 증강; 입력 또는 매개변수 잡음은 데이터 제약 조건 하에서 AR 모델의 성능을 향상시키지만 그 격차를 완전히 메우지는 못한다. 규모 측면에서, 약 1.5T 토큰의 계산 예산으로 100억 개의 고유 Python 토큰에 대해 학습된 17B 매개변수 DLM은 엄격하게 동일한 설정으로 학습된 AR 코드 모델을 능가한다. 또한, 10억 매개변수 DLM은 특별한 기법 없이 표준 사전 학습 데이터를 반복 사용함으로써 10억 토큰만으로 HellaSwag에서 56% 이상, MMLU에서 33% 이상의 정확도를 달성한다. 우리는 또한 이 체제에서 검증 교차 엔트로피가 상승하는 것이 하위 작업 성능 저하를 의미하지는 않음을 보여준다.
효과적인 교차 모달리티 모델링의 부재로 인해, 기존 오픈소스 오디오-비디오 생성 방법들은 흔히 저하된 입술 동기화와 불충분한 의미론적 일관성을 보인다. 이러한 단점을 완화하기 위해, 우리는 통합된 오디오 및 비디오 공동 생성을 위한 통합 프레임워크인 UniAVGen을 제안한다. UniAVGen은 결합된 교차 모달리티 잠재 공간을 구축하기 위해 두 개의 병렬 Diffusion Transformer(DiT)를 통합한 이중 분기 공동 합성 아키텍처를 기반으로 한다. 그 핵심에는 비대칭 교차 모달리티 상호작용 메커니즘이 자리하며, 이는 양방향의 시간적으로 정렬된 교차 주의를 가능하게 하여 정확한 시공간적 동기화와 의미론적 일관성을 보장한다. 더 나아가, 이 교차 모달리티 상호작용은 Face-Aware Modulation 모듈에 의해 강화되어, 상호작용 과정에서 두드러진 영역을 동적으로 우선시한다. 추론 과정에서 생성 충실도를 높이기 위해, 우리는 추가적으로 교차 모달리티 상관 관계 신호를 명시적으로 증폭하는 새로운 전략인 Modality-Aware Classifier-Free Guidance를 도입한다. 주목할 점은, UniAVGen의 강력한 공동 합성 설계가 단일 모델 내에서 공동 오디오-비디오 생성 및 연속 생성, 비디오-오디오 더빙, 오디오 기반 비디오 합성과 같은 핵심 오디오-비디오 작업들을 원활하게 통합할 수 있게 한다는 것이다. 포괄적인 실험을 통해 훨씬 더 적은 훈련 샘플(1.3M vs. 30.1M)로도 UniAVGen이 오디오-비디오 동기화, 음색 일관성, 감정 일관성 측면에서 전반적인 우위를 보임을 검증하였다.
대규모 언어 모델(LLM)을 활용한 3D 장면 자동 생성 기술의 최근 발전에도 불구하고, 생성된 장면들은 실제 환경에서 볼 수 있는 현실적인 공간 배치와 객체 속성을 종종 결여하고 있습니다. 이러한 문제는 충분히 상세하지 않은 coarse-grained 지시문에서 비롯되므로, 실제 환경을 반영한 보다 세밀한 fine-grained 지시문에 따라 3D 장면 합성을 발전시키는 것이 중요해졌습니다. 이러한 현실적인 장면이 없으면, 비현실적인 환경에서 구현 에이전트를 훈련시킬 때 실제 세계의 물리 법칙 및 의미론과 크게 동떨어진 사전 지식을 학습하게 되어, 실제 배포 시 성능이 저하될 수 있습니다. 따라서 효과적인 학습을 위해서는 fine-grained 지시문과 생성된 장 간의 정합성을 검증하는 것이 필수적입니다. 그러나 CLIPScore 및 vision-language 모델(VLM)과 같은 현재의 평가 방법들은 이러한 정합성을 신뢰성 있게 평가하지 못하는 경우가 많습니다. 이러한 단점은 주로 3D 장면에 대한 피상적인 이해에서 비롯되며, 이는 종종 장면 구성 요소들의 적절한 grounding 실패로 이어집니다. 이를 해결하기 위해, 본 연구에서는 다양한 도구를 갖춘 평가 프레임워크인 LEGO-Eval을 소개합니다. LEGO-Eval은 장면 구성 요소들을 명시적으로 grounding하도록 설계되어 보다 정확한 정합성 평가를 가능하게 합니다. 또한 실제 환경의 복잡한 배치와 속성을 상세히 명시하는 벤치마크인 LEGO-Bench을 제시합니다. 실험 결과, LEGO-Eval은 장면-지시문 정합성 평가에서 VLM-as-a-judge 방법보다 0.41 높은 F1 점수를 달성했습니다. LEGO-Bench을 이용한 벤치마킹 결과, 현재의 생성 방법들이 상당한 한계를 보임을 확인했습니다. 평가된 모든 접근법에서 fine-grained 지시문과 완전히 정합하는 장면을 생성하는 데 대한 성공률은 최대 10%에 그쳤습니다.
현재 대규모 언어 모델(LLM) 에이전트 평가는 주로 과제 완수에 중점을 두어 자원 효율성과 적응성을 종종 간과하고 있습니다. 이는 변화하는 환경에 대응하여 비용 최적의 계획을 수립하고 조정하는 에이전트의 핵심 능력을 놓치고 있는 것입니다. 이러한 격차를 해소하기 위해 본 연구에서는 에이전트의 경제적 추론 및 재계획 능력을 평가하기 위해 설계된 확장 가능한 비용 중심 벤치마크인 CostBench를 소개합니다. 여행 계획 분야를 배경으로 하는 CostBench는 다양하고 사용자 정의가 가능한 비용을 가진 원자적 및 복합 도구들을 통해 다중 순차적 접근으로 해결 가능한 과제들로 구성됩니다. 또한 도구 장애 및 비용 변동과 같은 4가지 유형의 동적 차단 이벤트를 지원하여 실제 세계의 예측 불가능성을 시뮬레이션하고 에이전트의 실시간 적응을 필요로 합니다. CostBench를 통해 주요 오픈소스 및 상용 모델을 평가한 결과, 비용 인식 계획 분야에서 상당한 격차가 확인되었습니다: 에이전트는 정적 환경에서 비용 최적 해결책을 자주 찾지 못하며, 가장 어려운 과제에서 GPT-5조차 75% 미만의 정확일치율을 보였고, 동적 조건에서는 성능이 약 40% 추가로 하락했습니다. 이러한 취약점을 진단함으로써 CostBench는 경제적으로 합리적이고 견고한 미래 에이전트 개발을 위한 기반을 마련합니다.
표 형식 데이터는 현실 세계 응용 분야에서 여전히 주요 형식으로 자리 잡고 있습니다. 그러나 이질적인 특성 유형과 다양한 수준에서 발생하는 복잡한 상호작용으로 인해 표 형식 데이터에 효과적인 신경망 모델을 개발하는 것은 여전히 어려운 과제입니다. TabPFN과 TabICL과 같은 표 형식 인-컨텍스트 러닝(ICL)의 최근 발전은 작업별 미세 조정 없도 그래디언트 부스팅 트리(GBT)에 필적하는 최첨단 성능을 달성했습니다. 하지만 현재 아키텍처는 다음과 같은 주요 한계를 보입니다: (1) 계층적 의존성을 간과하는 단일 규모 특성 처리, (2) 표 너비에 따른 2차 함수적 확장을 보이는 밀집 어텐션, (3) 반복적 표현 정제와 구성 요소 간 통신을 방해하는 엄격한 순차적 구성 요소 처리. 이러한 문제를 해결하기 위해 본 논문에서는 세 가지 핵심 혁신을 갖춘 표 형식 ICL 아키텍처인 Orion-MSP를 소개합니다: (1) 계층적 특성 상호작용을 포착하는 다중 규모 처리, (2) 확장 가능한 효율성과 장거리 연결성을 위한 윈도우, 전역, 무작위 패턴을 결합한 블록 희소 어텐션, (3) 구성 요소 간 안전한 양방향 정보 흐름을 가능하게 하는 Perceiver 스타일 메모리. 다양한 벤치마크에서 Orion-MSP는 고차원 표로 효과적으로 확장하면서 최첨단 성능을 견줄 수 있거나 능가하여, 효율적인 표 형식 인-컨텍스트 러닝의 새로운 기준을 제시합니다. 본 모델은 https://github.com/Lexsi-Labs/Orion-MSP 에서 공개되어 있습니다.
표형 기초 모델은 대규모 사전 학습의 이점을 표형 데이터 영역까지 확장하여 구조화된 데이터 학습의 새로운 패러다임으로 부상하고 있습니다. 그러나 이종 전처리 파이프라인, 분산된 API, 일관성 없는 미세 조정 절차, 그리고 캘리브레이션 및 공정성과 같은 실제 배포 지표에 대한 표준화된 평가 체계의 부재로 인해 그 도입은 여전히 제한적입니다. 본 연구는 단일 인터페이스를 통해 표형 기초 모델의 완전한 워크플로우를 표준화하는 통합 라이브러리인 TabTune을 제안합니다. TabTune은 제로샷 추론, 메타러닝, 지도 미세 조정(SFT), 매개변수 효율적 미세 조정(PEFT) 등 다양한 적응 전략을 지원하는 7개의 최신 모델에 대한 일관된 접근을 제공합니다. 이 프레임워크는 모델 인식 전처리를 자동화하고, 내부적으로 아키텍처 이질성을 관리하며, 성능, 캘리브레이션, 공정성 평가 모듈을 통합합니다. 확장성과 재현성을 고려하여 설계된 TabTune은 표형 기초 모델의 적응 전략에 대한 일관된 벤치마킹을 가능하게 합니다. 해당 라이브러리는 오픈 소스이며 https://github.com/Lexsi-Labs/TabTune 에서 이용할 수 있습니다.
로봇이 물체를 조작하고 자신의 관절형 구조를 모델링하기 위해서는 운동학적 구조와 가동 부품에 대한 깊은 이해가 필수적입니다. 이러한 이해는 관절형 객체를 통해 구현되며, 물리 시뮬레이션, 운동 계획 수립, 정책 학습과 같은 작업에 핵심적입니다. 그러나 높은 자유도(DoF)를 가진 객체를 위한 이러한 모델 생성은 여전히 큰 과제로 남아 있습니다. 기존 방법론은 일반적으로 운동 연속 데이터나 수작업으로 구축된 데이터셋의 강력한 가정에 의존하여 확장성을 저해합니다. 본 논문에서는 임의의 RGB 이미지나 텍스트 설명에서 직접 관절형 객체를 합성하는 자동화 프레임워크인 Kinematify를 소개합니다. 우리의 방법은 (i) 높은 자유도를 가진 객체의 운동학적 토폴로지 추론과 (ii) 정적 기하학에서 관절 매개변수 추정이라는 두 가지 핵심 과제를 해결합니다. 이를 위해 구조 추론을 위한 MCTS 탐색과 관절 추론을 위한 기하학 기반 최적화를 결합하여 물리적으로 일관되고 기능적으로 유효한 설명을 생성합니다. Kinematify를 합성 및 실제 환경의 다양한 입력에 대해 평가하여, 기존 연구 대비 정합 및 운동학적 토폴로지 정확도에서의 향상을 입증합니다.
대규모 언어 모델(LLM)은 지식 퀴즈와 수학적 추론부터 웹 에이전트 작업에 이르기까지 다양한 벤치마크에서 강력한 성능을 보여주지만, 이러한 테스트는 정적 환경에서 진행되어 실제 역동성과 불확실성이 부족합니다. 결과적으로, 이들은 불확실성 하의 의사 결정보다는 고립된 추론이나 문제 해결 능력을 평가하게 됩니다. 이를 해결하기 위해 우리는 현실적이고 진화하는 시장에서 LLM 에이전트를 평가하기 위한 실시간 트레이딩 환경인 LiveTradeBench를 소개합니다. LiveTradeBench는 세 가지 설계 원칙을 따릅니다: (i) 시장 가격과 뉴스의 실시간 데이터 스트리밍을 통해 오프라인 백테스트 의존성을 제거하고 정보 유출을 방지하면서 실시간 불확실성을 포착합니다; (ii) 단일 자산 행동에서 다중 자산 배분으로 제어 범위를 확장하는 포트폴리오 관리 추상화로, 위험 관리와 크로스-자산 추론을 통합합니다; (iii) 변동성, 유동성, 정보 흐름이 다른 구조적으로 구별된 환경(미국 주식 시장과 Polymarket 예측 시장)에서의 다중 시장 평가입니다. 각 단계에서 에이전트는 가격, 뉴스, 자신의 포트폴리오를 관찰한 후 위험과 수익을 균형 있게 조정하는 비율 기반 자산 배분을 출력합니다. LiveTradeBench를 사용하여 우리는 다양한 계열의 21개 LLM에 대해 50일간의 실시간 평가를 수행했습니다. 결과는 (1) 높은 LMArena 점수가 우수한 트레이딩 결과를 보장하지 않으며, (2) 모델들이 위험 선호도와 추론 역학을 반영하는 뚜렷한 포트폴리오 스타일을 보여주고, (3) 일부 LLM이 실시간 신호를 효과적으로 활용하여 의사 결정을 적응시킨다는 것을 보여줍니다. 이러한 발견은 정적 평가와 현실 세계 역량 간의 격차를 드러내며, 실시간 불확실성 하에서의 순차적 의사 결정과 일관성을 검증하는 벤치마크의 필요성을 제기합니다.
사고 모델의 규모가 빠르게 확장됨에 따라 인간 인지에서 다중양식성의 핵심적 역할이 뚜렷이 부각되며, 시각 중심 인지 행동을 탐구할 필요성이 점차 증가하고 있습니다. 그러나 기존 다중양식 벤치마크는 텍스트 추론을 과도하게 강조하거나 시각 중심 인지 행동을 체계적으로 포착하는 데 한계가 있어 MLLM의 인지 능력을 충분히 평가하지 못하고 있습니다. 이러한 한계를 해결하기 위해 우리는 MME-CC(인지 능력 다중양식 평가 벤치마크)를 소개합니다. 이는 시각에 기반한 벤치마크로 11가지 대표적 추론 과제를 공간, 기하, 지식 기반 추론이라는 세 가지 기본 시각 정보 범주로 체계화하고, 이러한 차원에 걸친 MLLM의 인지 능력을 세분화하여 분석합니다. MME-CC를 기반으로 우리는 16개의 대표적 MLLM에 대한 광범위한 실험을 수행했습니다. 우리 연구는 현재 폐쇄형 모델이 전반적으로 우세하며(예: Gemini-2.5-Pro 42.66점 대 GLM-4.5V 30.45점), 공간 및 기하 추론 능력은 전반적으로 취약한 상태(30% 이하)로 남아 있음을 보여줍니다. 더 나아가 방향 인식 오류, 취약한 교차 시점 정체성 유지, 반사실적 지시에 대한 낮은 준수도 등 공통 오류 패턴을 확인하고, 사고 연쇄(Chain-of-Thought)가 일반적으로 시각 정보 추출에 크게 의존하는 세 단계 과정(추출 -> 추론 -> 검증)을 따름을 관찰했습니다. 이 연구가 MLLM의 인지 능력을 평가과 모델 설계의 핵심으로 삼는 방향 전환의 계기가 되기를 바랍니다.
언어 모델 추론을 위한 테스트 타임 스케일링을 재검토하며 근본적인 질문을 던집니다: 동일한 토큰 예산과 컴퓨팅 자원 하에서, 여러 개의 독립적인 체인을 병렬로 실행하는 것과 순차적 단계를 통해 반복적으로 개선하는 더 적은 수의 체인을 실행하는 것 중 어느 것이 더 나은가? 5개의 최첨단 오픈 소스 모델과 3개의 도전적인 추론 벤치마크에 대한 포괄적 평가를 통해, 체인이 이전 시도를 명시적으로 발전시키는 순차적 스케일링이 기존의 병렬 자기 일관성 패러다임을 95.6%의 구성에서 일관되게 능가하며 최대 46.7%의 정확도 향상을 보인다는 사실을 발견했습니다. 더 나아가, 순차적 스케일링의 정확도를 추가로 향상시키는 새로운 학습 불필요 방법인 역-엔트로피 가중 투표를 소개합니다. 추론 체인의 엔트로피 역수에 비례하여 답변에 가중치를 부여함으로써, 병렬 다수결 기반 접근법보다 성공률을 높이고 이를 최적의 테스트 타임 스케일링 전략으로 확립합니다. 우리의 연구 결과는 Wang et al.의 자기 일관성 디코딩(Wang et al., 2022) 이후 테스트 타임 스케일링을 지배해 온 병렬 추론 관행에 근본적으로 도전하며, 순차적 정제를 현대 LLM 추론을 위한 강력한 기본값으로 자리매김하고 추론 시간 최적화 접근 방식에 대한 패러다임 전환의 필요성을 제기합니다.
협력적 대화는 참가자들이 점진적으로 공통 기반을 구축하는 데 의존하지만, 비대칭적 환경에서는 서로 다른 대상을 지칭하면서도 동의한다고 믿는 상황이 발생할 수 있다. 본 연구는 HCRC MapTask 코퍼스(Anderson et al., 1991)에 대해 각 참조 표현별로 화자와 청자의 관점이 반영된 해석을 별도로 포착하는 관점주의 주석 체계를 도입하여, 시간에 따라 이해가 형성되고 분화되며 수정되는 과정을 추적할 수 있게 한다. 체계에 기반한 LLM 주석 파이프라인을 통해 신뢰도 추정치와 함께 13,000개의 주석이 달린 참조 표현을 확보하고, 이를 바탕으로 이해 상태를 분석한다. 결과적으로 어휘 변형을 통합하면 완전한 오해는 드물지만, 다중성 불일치가 체계적으로 이해 차이를 유발하며, 표면적인 공통 기반 형성이 실제 참조 불일치를 가릴 수 있음을 보여준다. 우리의 프레임워크는 협력적 대화에서의 실제 오해 연구와 (시각)언어모델의 관점 의존적 공유 맥락 모델링 능력 평가를 위한 자원 및 분석 도구를 동시에 제공한다.
쿼리 증강은 관련 문서를 찾기 위해 쿼리에 추가 정보를 부착함으로써 쿼리를 더욱 의미 있게 만듭니다. 최근 연구에서는 LLM(대형 언어 모델)의 생성 능력을 활용하여 임베딩을 위한 표현 학습과 쿼리 증강을 위한 생성을 다중 작업 방식으로 학습하는 LLM 기반 임베더를 제안했습니다. 추론 단계에서 이러한 공동 학습 임베더는 쿼리 증강 후 임베딩을 수행하며 효과적인 결과를 보여주었습니다. 그러나 모든 쿼리를 증강하면 상당한 임베딩 지연이 발생하며, 일부 쿼리에 대해서는 증강이 성능에 부정적일 수 있습니다. 또한 기존 방법들은 멀티모달 환경에서 탐구되지 않았습니다. 이러한 문제를 해결하기 위해 우리는 쿼리 증강 시점을 적응적으로 결정할 수 있는 범용 멀티모달 임베더인 M-Solomon을 제안합니다. 우리의 접근 방식은 먼저 훈련 데이터셋의 쿼리를 데이터셋 수준에서 두 그룹으로 나눕니다. 하나는 증강이 필요한 쿼리를, 다른 하나는 증강이 필요하지 않은 쿼리를 포함합니다. 그런 다음 강력한 MLLM(멀티모달 LLM)을 활용하여 증강이 필요한 쿼리에 적합한 증강문을 생성하는 합성 과정을 도입합니다. 다음으로 적응형 쿼리 증강을 제시합니다. 이 단계를 통해 M-Solomon은 증강이 필요한 쿼리에 대해서는 /augment 접두사를 가진 합성 증강문을 생성하고, 그 외 쿼리에 대해서는 간단한 문자열 /embed를 생성하도록 학습함으로써 필요할 때만 쿼리 증강을 수행할 수 있습니다. 실험 결과, M-Solomon은 증강을 사용하지 않은 기준선을 큰 차이로 능가할 뿐만 아니라 항상 증강을 사용한 기준선보다도 성능이 우수하며 훨씬 더 빠른 임베딩 지연 시간을 제공하는 것으로 나타났습니다.
AI 과학자 시스템의 현재 역량과 위험성을 이해하는 것은 학술 생태계의 무결성을 보존하면서도 신뢰할 수 있고 지속 가능한 AI 주도 과학 발전을 보장하기 위해 필수적입니다. 이를 위해 우리는 초보 학생 연구자의 핵심 연구 워크플로를 모방하는 최첨단 자율 AI 과학자 시스템인 Jr. AI Scientist를 개발했습니다. 이 시스템은 인간 멘토의 기준 논문을 바탕으로 그 한계를 분석하고, 개선을 위한 새로운 가설을 수립하며, 엄격한 실험을 통해 이를 검증하고, 결과를 담은 논문을 작성합니다. 완전 자동화를 전제로 하거나 소규모 코드에서 작동하는 기존 접근법과 달리, Jr. AI Scientist는 명확히 정의된 연구 워크플로를 따르고 현대적인 코딩 에이전트를 활용하여 복잡한 다중 파일 구현을 처리함으로써 과학적으로 가치 있는 기여를 이끌어냅니다. 평가를 위해 우리는 AI 리뷰어를 이용한 자동 평가, 저자 주도 평가, 그리고 AI 주도 과학 기여를 위한 플랫폼인 Agents4Science에의 논문 제출을 진행했습니다. 결과는 Jr. AI Scientist가 생성한 논문이 기존 완전 자동화 시스템들보다 높은 심사 점수를 받는 것을 보여줍니다. 그럼에도 불구하고, 저자 평가와 Agents4Science 리뷰 모두에서 중요한 한계점이 확인되어 현재의 AI 과학자 시스템을 직접 적용할 때의 잠재적 위험과 향후 연구를 위한 핵심 과제를 시사합니다. 마지막으로, 우리는 개발 과정에서 확인된 다양한 위험 요소들을 포괄적으로 보고합니다. 이러한 통찰이 AI 과학자 개발의 현재 진척 상황과 위험에 대한 이해를 심화시키길 바랍니다.