번역이 포함된 일일 선별된 AI 연구 논문
테스트 시간 스케일링은 대규모 언어 모델(LLM)의 추론 성능을 향상시키기 위해 계산 자원을 추가하는 방법을 탐구한다. 이 분야에서 널리 사용되는 접근법은 샘플링 기반 테스트 시간 스케일링 방법으로, 추론 과정에서 주어진 입력에 대해 여러 추론 경로를 생성함으로써 추론 능력을 강화한다. 그러나 이러한 방법이 실질적으로 성공을 거두었음에도 불구하고, 그 이론적 기반은 아직 충분히 탐구되지 않았다. 본 논문에서는 신뢰도 추정 관점에 기반하여 샘플링 기반 테스트 시간 스케일링 방법을 분석하는 첫 이론적 프레임워크를 제시한다. 이 프레임워크를 바탕으로, 우리는 두 가지 주요 패러다임인 자기 일관성(self-consistency)과 복잡도(perplexity)를 분석하고, 이들의 주요 한계를 밝힌다: 자기 일관성은 높은 추정 오차를 겪는 반면, 복잡도는 상당한 모델링 오차와 추정 오차 수렴의 저하 가능성을 보인다. 이러한 한계를 해결하기 위해, 우리는 RPC라는 하이브리드 방법을 소개한다. RPC는 두 가지 핵심 구성 요소인 복잡도 일관성(Perplexity Consistency)과 추론 가지치기(Reasoning Pruning)를 통해 이론적 통찰을 활용한다. 복잡도 일관성은 자기 일관성과 복잡도의 강점을 결합하여 추정 오차의 수렴 속도를 선형에서 지수적으로 향상시키면서 모델 오차를 보존한다. 추론 가지치기는 낮은 확률의 추론 경로를 제거함으로써 저하를 방지한다. 이론적 분석과 7개의 벤치마크 데이터셋에 대한 실험 결과는 RPC가 추론 오차를 줄이는 데 강력한 잠재력을 가지고 있음을 보여준다. 특히, RPC는 자기 일관성과 비슷한 추론 성능을 달성하면서도 신뢰도 신뢰성을 향상시키고 샘플링 비용을 50% 절감한다. 코드와 리소스는 https://wnjxyk.github.io/RPC에서 확인할 수 있다.
머신 인텔리전스의 발전은 인간이 세상을 지각하는 방식과 유사하게 다중 모달리티에 걸쳐 지각할 수 있는 능력을 개발하는 것을 요구합니다. 우리는 강력한 오픈소스 오므니모달 대형 언어 모델(LLM)을 구축하기 위한 이니셔티브인 OmniVinci를 소개합니다. 우리는 모델 아키텍처와 데이터 큐레이션 전반에 걸친 설계 선택을 신중하게 연구했습니다. 모델 아키텍처 측면에서 우리는 세 가지 주요 혁신을 제시합니다: (i) 공유된 오므니모달 잠재 공간에서 비전과 오디오 임베딩 간의 정렬을 강화하는 OmniAlignNet; (ii) 비전과 오디오 신호 간의 상대적 시간적 정렬을 포착하는 Temporal Embedding Grouping; 그리고 (iii) 오므니모달 임베딩에 절대적 시간 정보를 인코딩하는 Constrained Rotary Time Embedding. 우리는 24M개의 단일 모달 및 오므니모달 대화를 생성하는 큐레이션 및 합성 파이프라인을 소개합니다. 우리는 모달리티들이 지각과 추론 모두에서 서로를 강화한다는 것을 발견했습니다. 우리의 모델인 OmniVinci는 DailyOmni(크로스모달 이해)에서 +19.05, MMAR(오디오)에서 +1.7, Video-MME(비전)에서 +3.9의 성능 향상을 보이며, 단지 0.2T의 학습 토큰을 사용했습니다. 이는 Qwen2.5-Omni의 1.2T에 비해 6배 감소한 수치입니다. 마지막으로, 우리는 로보틱스, 의료 AI, 스마트 팩토리에 이르는 다운스트림 애플리케이션에서 오므니모달의 장점을 입증합니다.
3D 객체 편집은 게임, 애니메이션, 로보틱스 분야에서 인터랙티브 콘텐츠 제작에 필수적이지만, 현재의 접근 방식은 비효율적이고 일관성이 부족하며, 종종 편집되지 않은 영역을 보존하지 못하는 문제가 있다. 대부분의 방법은 다중 뷰 렌더링을 편집한 후 재구성하는 방식에 의존하는데, 이는 아티팩트를 유발하고 실용성을 제한한다. 이러한 문제를 해결하기 위해, 우리는 마스크 없이도 정밀하고 일관된 3D 객체 편집을 가능하게 하는 학습이 필요 없는 프레임워크인 Nano3D를 제안한다. Nano3D는 FlowEdit을 TRELLIS에 통합하여 전면 뷰 렌더링을 기반으로 지역적 편집을 수행하며, 더 나아가 Voxel/Slat-Merge라는 영역 인식 병합 전략을 도입하여 편집된 영역과 편집되지 않은 영역 간의 일관성을 보장함으로써 구조적 충실도를 적응적으로 보존한다. 실험 결과, Nano3D는 기존 방법들에 비해 우수한 3D 일관성과 시각적 품질을 달성함을 보여준다. 이 프레임워크를 기반으로, 우리는 100,000개 이상의 고품질 3D 편집 쌍을 포함하는 최초의 대규모 3D 편집 데이터셋인 Nano3D-Edit-100k를 구축하였다. 이 연구는 알고리즘 설계와 데이터 가용성 측면에서 오랫동안 지속되어 온 문제를 해결함으로써 3D 편집의 일반성과 신뢰성을 크게 향상시키며, 피드포워드 3D 편집 모델 개발을 위한 기반을 마련한다. 프로젝트 페이지: https://jamesyjl.github.io/Nano3D
명령 기반 비디오 편집은 콘텐츠 제작의 민주화를 약속하지만, 대규모 고품질 학습 데이터의 부족으로 인해 그 발전이 심각하게 저해되고 있습니다. 우리는 이러한 근본적인 문제를 해결하기 위해 Ditto라는 통합 프레임워크를 소개합니다. Ditto의 핵심은 선도적인 이미지 편집기의 창의적 다양성과 컨텍스트 내 비디오 생성기를 융합한 새로운 데이터 생성 파이프라인으로, 기존 모델의 한계를 극복합니다. 이 과정을 실현 가능하게 하기 위해, 우리의 프레임워크는 효율적이고 증류된 모델 아키텍처와 시간적 일관성을 개선하는 시간적 강화기를 활용하여 비용과 품질 간의 과도한 절충을 해결합니다. 마지막으로, 전체 파이프라인은 다양한 명령을 생성하고 출력을 엄격하게 필터링하는 지능형 에이전트에 의해 구동되어 대규모로 품질 관리를 보장합니다. 이 프레임워크를 사용하여 우리는 12,000 GPU-일 이상을 투자하여 100만 개의 고품질 비디오 편집 예제로 구성된 새로운 데이터셋인 Ditto-1M을 구축했습니다. 우리는 Ditto-1M을 기반으로 커리큘럼 학습 전략을 통해 Editto 모델을 학습시켰습니다. 그 결과, 우수한 명령 수행 능력을 입증하고 명령 기반 비디오 편집 분야에서 새로운 최첨단 기술을 확립했습니다.
최근 연구에 따르면, 좁은 범위의 미세 조정(finetuning)이 광범위하게 부정렬된 대형 언어 모델(LLM)을 생성할 수 있으며, 이러한 현상을 '발생적 부정렬(emergent misalignment, EM)'이라고 명명했습니다. 이러한 결과는 우려스럽지만, 미세 조정과 활성화 조정(activation steering)에 국한된 것이었고, 문맥 학습(in-context learning, ICL)은 다루지 않았습니다. 따라서 우리는 다음과 같은 질문을 던집니다: 문맥 학습에서도 EM이 발생하는가? 우리는 그렇다는 것을 발견했습니다: 세 가지 데이터셋에서 세 가지 최신 모델이 64개의 좁은 범위 문맥 예시를 제공받았을 때 2%에서 17% 사이의 광범위한 부정렬 응답을 생성했으며, 256개의 예시에서는 최대 58%까지 증가했습니다. 또한, 우리는 단계별 추론을 유도하여(문맥 예시는 변경하지 않고) EM의 메커니즘을 조사했습니다. 결과적으로 얻은 사고의 연쇄(chain-of-thought)를 수동으로 분석한 결과, 부정렬된 추적의 67.5%가 무모하거나 위험한 '페르소나'를 채택하여 유해한 출력을 명시적으로 합리화하는 것으로 나타났으며, 이는 미세 조정으로 인한 EM에 대한 이전 연구 결과와 일치합니다.
대규모, 탐색 가능하며 기하학적으로 정확한 3D 도시 장면을 합성하는 것은 몰입적이고 체화된 애플리케이션을 제공하는 데 있어 도전적이면서도 가치 있는 과제입니다. 이러한 도전은 일반화 가능한 생성 모델을 훈련시키기 위한 대규모 및 고품질의 실세계 3D 스캔 데이터의 부족에서 비롯됩니다. 본 논문에서는 현실적인 대략적인 기하학을 제공하는 위성 이미지와 고품질의 근접 모습을 생성하기 위한 오픈 도메인 확산 모델을 융합하여 대규모 3D 장면을 생성하는 대안적인 접근 방식을 제안합니다. 우리는 Skyfall-GS를 제안하는데, 이는 비용이 많이 드는 3D 주석 없이도 도시 블록 규모의 3D 장면을 생성하는 최초의 프레임워크이며, 실시간 몰입형 3D 탐색 기능을 특징으로 합니다. 우리는 기하학적 완성도와 사실적인 텍스처를 점진적으로 향상시키기 위해 커리큘럼 기반의 반복적 정제 전략을 맞춤화했습니다. 광범위한 실험을 통해 Skyfall-GS가 최신 기술 접근법과 비교하여 개선된 교차 뷰 일관성 기하학과 더 현실적인 텍스처를 제공함을 입증했습니다. 프로젝트 페이지: https://skyfall-gs.jayinnn.dev/
최근 확산 기반 시각 생성 연구는 주로 변분 오토인코더(VAE)와 결합된 잠재 확산 모델에 의존해 왔습니다. 고품질 합성에는 효과적이지만, 이러한 VAE+확산 패러다임은 제한된 훈련 효율성, 느린 추론 속도, 그리고 더 넓은 시각 작업으로의 전이성 부족 등의 문제를 안고 있습니다. 이러한 문제는 VAE 잠재 공간의 근본적인 한계, 즉 명확한 의미론적 분리와 강력한 판별 구조의 부재에서 비롯됩니다. 우리의 분석에 따르면, 이러한 특성은 단순히 인식 및 이해 작업뿐만 아니라 잠재 확산 모델의 안정적이고 효율적인 훈련에도 중요한 것으로 확인되었습니다. 이러한 통찰을 바탕으로, 우리는 변분 오토인코더 없이도 시각 생성을 가능하게 하는 새로운 잠재 확산 모델인 SVG를 제안합니다. SVG는 고정된 DINO 특징을 활용하여 명확한 의미론적 판별력을 가진 특징 공간을 구성함과 동시에, 경량의 잔차 분기가 고품질 재구성을 위한 미세한 세부 사항을 포착합니다. 확산 모델은 이러한 의미론적으로 구조화된 잠재 공간에서 직접 훈련되어 더 효율적인 학습을 가능하게 합니다. 그 결과, SVG는 확산 훈련 속도를 가속화하고, 적은 단계의 샘플링을 지원하며, 생성 품질을 향상시킵니다. 실험 결과는 또한 SVG가 기반이 되는 자기 지도 표현의 의미론적 및 판별 능력을 유지함으로써, 작업 일반화 가능한 고품질 시각 표현을 위한 원칙적인 접근 방식을 제공함을 보여줍니다.
소쉬르와 촘스키의 이론적 틀에 크게 영향을 받은 대형 언어 모델(LLM)에 대한 언어학적 논평은 종종 추측적이며 생산성이 떨어진다. 비평가들은 LLM이 언어를 정당하게 모델링할 수 있는지에 대해 의문을 제기하며, 이상화된 언어적 "능력"을 달성하기 위해서는 "심층 구조"나 "근거화"가 필요하다고 주장한다. 우리는 저명한 일반 및 역사 언어학자인 비톨트 만차크의 경험주의 원칙으로의 급진적인 관점 전환을 주장한다. 그는 언어를 "기호 체계"나 "뇌의 계산 체계"가 아니라 말해지고 쓰여진 모든 것의 총체로 정의한다. 무엇보다도 그는 특정 언어 요소의 사용 빈도를 언어의 주요 지배 원칙으로 확인한다. 그의 틀을 사용하여 우리는 LLM에 대한 기존 비판에 도전하고, 언어 모델을 설계, 평가, 해석하기 위한 건설적인 가이드를 제공한다.
렌즈 플레어는 이미지 품질을 크게 저하시켜 물체 감지 및 자율 주행과 같은 중요한 컴퓨터 비전 작업에 영향을 미칩니다. 최근의 단일 이미지 플레어 제거(SIFR) 방법은 프레임 외부 광원이 불완전하거나 없는 경우 성능이 저하됩니다. 본 연구에서는 SIFR을 강화하기 위해 프레임 외부 광원을 재구성하는 확산 기반 아웃페인팅 프레임워크인 LightsOut를 제안합니다. 우리의 방법은 다중 작업 회귀 모듈과 LoRA 미세 조정 확산 모델을 활용하여 현실적이고 물리적으로 일관된 아웃페인팅 결과를 보장합니다. 포괄적인 실험을 통해 LightsOut가 추가 재학습 없이도 기존 SIFR 방법의 성능을 다양한 도전적인 시나리오에서 일관되게 향상시키며, 범용적으로 적용 가능한 플러그 앤 플레이 전처리 솔루션으로서의 역할을 입증합니다. 프로젝트 페이지: https://ray-1026.github.io/lightsout/
대형 언어 모델은 크게 두 가지 계열로 나뉩니다: 내부적인 사고 연쇄 추론을 강화하지만 외부 도구를 호출할 수 없는 추론 중심 LLM과, 환경과 상호작용하며 도구를 활용하는 방법을 학습하지만 깊은 추론에서는 종종 뒤처지는 에이전트형 LLM입니다. 이러한 분리는 근본적으로 다른 훈련 목표에서 비롯되며, 단순한 질의에서 두 계열 모두 과도한 사고 또는 도구 호출을 하는 경향으로 인해 강점이 불일치하고 비효율성을 초래합니다. 본 연구에서는 '경로 설정 후 정렬' 원칙을 따르는 통합 프레임워크인 Adaptive Agent Foundation Model(A^2FM)을 제안합니다. 이 모델은 먼저 작업 인식 라우팅을 학습한 후 공유 백본 하에서 모드별 궤적을 정렬합니다. 비효율성 문제를 해결하기 위해, 단순 질의를 직접 처리하는 세 번째 모드인 '즉시 모드'를 도입하여 불필요한 추론이나 도구 호출을 방지하면서 에이전트형 및 추론 모드를 보완합니다. 정확도와 효율성을 동시에 향상시키기 위해, 모드 간 적응형 샘플링을 강제하고 비용 정규화 보상을 적용하는 Adaptive Policy Optimization(APO)을 제안합니다. 32B 규모에서 A^2FM은 BrowseComp에서 13.4%, AIME25에서 70.4%, HLE에서 16.7%를 달성하며, 비교 가능한 모델 중 새로운 SOTA를 기록하고 에이전트형, 추론, 일반 벤치마크에서 선두 LLM과 경쟁력 있는 성능을 보입니다. 특히, 적응형 실행은 정답당 $0.00487의 비용으로, 추론 대비 45.2%, 에이전트형 대비 33.5%의 비용 절감을 달성하여 비슷한 정확도를 유지하면서 상당히 높은 비용 효율성을 제공합니다.
학술 프로젝트 웹사이트는 핵심 내용을 명확히 제시하고 직관적인 탐색 및 상호작용을 가능하게 할 때 연구를 더 효과적으로 전파할 수 있다. 그러나 현재의 접근 방식, 예를 들어 직접적인 대형 언어 모델(LLM) 생성, 템플릿, 또는 직접 HTML 변환은 레이아웃을 고려한 인터랙티브 사이트를 생성하는 데 어려움을 겪고 있으며, 이 작업을 위한 포괄적인 평가 도구가 부족한 실정이다. 본 논문에서는 학술 웹페이지 생성을 평가하기 위한 벤치마크 데이터셋과 다차원 평가 프레임워크인 Paper2Web을 소개한다. 이는 연결성, 완전성과 같은 규칙 기반 메트릭과 인간 검증을 거친 LLM-as-a-Judge(상호작용성, 미학, 정보성 포함), 그리고 논문 수준의 지식 보유도를 측정하는 PaperQuiz를 통합한다. 또한, 과학 논문을 인터랙티브하고 멀티미디어가 풍부한 학술 홈페이지로 변환하는 자율 파이프라인인 PWAgent를 제시한다. 이 에이전트는 강조, 균형, 프레젠테이션 품질을 향상시키는 MCP 도구를 통해 콘텐츠와 레이아웃을 반복적으로 개선한다. 실험 결과, PWAgent는 템플릿 기반 웹페이지 및 arXiv/alphaXiv 버전과 같은 종단 간 베이스라인을 큰 차이로 능가하면서도 낮은 비용을 유지하며, 학술 웹페이지 생성에서 파레토 최적을 달성함을 보여준다.
BLIP3 시리즈의 완전 오픈소스 기반 모델인 BLIP3o-NEXT를 소개하며, 이 모델은 차세대 네이티브 이미지 생성의 최전선을 개척합니다. BLIP3o-NEXT는 텍스트-이미지 생성과 이미지 편집을 단일 아키텍처 내에서 통합하여 강력한 이미지 생성 및 편집 능력을 보여줍니다. 최첨단 네이티브 이미지 생성 모델을 개발하는 과정에서 우리는 네 가지 핵심 통찰을 도출했습니다: (1) 대부분의 아키텍처 선택은 비슷한 성능을 제공하며, 효율적으로 확장되고 빠른 추론을 지원하는 아키텍처는 효과적이라고 볼 수 있습니다; (2) 강화 학습의 성공적인 적용은 네이티브 이미지 생성의 한계를 더욱 넓힐 수 있습니다; (3) 이미지 편집은 여전히 어려운 과제이지만, 사후 학습과 데이터 엔진을 통해 생성된 이미지와 참조 이미지 간의 일관성과 명령어 수행 능력을 크게 향상시킬 수 있습니다; (4) 데이터 품질과 규모는 모델 성능의 상한을 결정하는 결정적 요소로 남아 있습니다. 이러한 통찰을 바탕으로, BLIP3o-NEXT는 Autoregressive + Diffusion 아키텍처를 활용합니다. 여기서 자동회귀 모델은 먼저 다중 모달 입력에 조건화된 이산 이미지 토큰을 생성하고, 그 숨겨진 상태는 확산 모델의 조건 신호로 사용되어 고해상도 이미지를 생성합니다. 이 아키텍처는 자동회귀 모델의 추론 능력과 명령어 수행 능력을 확산 모델의 세밀한 디테일 렌더링 능력과 통합하여 새로운 수준의 일관성과 현실감을 달성합니다. 다양한 텍스트-이미지 및 이미지 편집 벤치마크에 대한 광범위한 평가를 통해 BLIP3o-NEXT가 기존 모델들을 뛰어넘는 우수한 성능을 보임을 확인했습니다.
강력한 대규모 추론 모델의 발전과 함께, 이러한 모델의 추론 능력을 효과적으로 평가하는 것이 점점 더 중요해지고 있다. 그러나 대형 모델의 추론 능력을 평가하기 위해 설계된 기존 벤치마크는 범위가 제한적이며, 모델의 진화하는 추론 능력에 따라 난이도를 유연하게 조정하는 데 한계가 있다. 이를 해결하기 위해, 우리는 다학제적 질문을 통합하여 대형 모델의 추론 능력을 평가하고, 고급 모델의 추론 능력에 따라 질문의 난이도를 조정 및 업데이트할 수 있는 MorphoBench를 제안한다. 구체적으로, 우리는 기존 벤치마크와 올림피아드 수준의 경쟁 문제 등에서 복잡한 추론 질문을 선별 및 수집하여 벤치마크를 구성하였다. 또한, MorphoBench는 모델의 추론 과정에서 생성된 핵심 문장을 활용하여 질문의 분석적 도전을 적응적으로 수정한다. 더 나아가, 시뮬레이션 소프트웨어를 사용하여 생성된 질문을 포함시켜, 최소한의 자원 소비로 벤치마크의 난이도를 동적으로 조정할 수 있도록 하였다. 우리는 1,300개 이상의 테스트 질문을 수집하고, o3 및 GPT-5와 같은 모델의 추론 능력을 기반으로 MorphoBench의 난이도를 반복적으로 조정하였다. MorphoBench는 모델 추론 평가의 포괄성과 타당성을 강화하여, 대형 모델의 추론 능력과 과학적 견고성을 개선하는 데 신뢰할 수 있는 지침을 제공한다. 코드는 https://github.com/OpenDCAI/MorphoBench에서 공개되었다.
텍스트-투-비디오 합성 기술의 급속한 발전에도 불구하고, 생성된 비디오의 품질은 여전히 사용자 프롬프트의 정밀도에 크게 의존합니다. 다른 분야에서는 성공을 거둔 기존의 테스트 시점 최적화 방법들은 비디오의 다면적인 특성 때문에 어려움을 겪고 있습니다. 본 연구에서는 VISTA(Video Iterative Self-improvemenT Agent)라는 새로운 다중 에이전트 시스템을 소개합니다. VISTA는 반복적인 루프를 통해 프롬프트를 개선함으로써 비디오 생성을 자율적으로 향상시킵니다. VISTA는 먼저 사용자의 아이디어를 구조화된 시간적 계획으로 분해합니다. 생성 후, 강력한 페어와이즈 토너먼트를 통해 최고의 비디오를 선별합니다. 이 우승 비디오는 시각적, 오디오, 그리고 문맥적 충실도에 초점을 맞춘 세 가지 전문 에이전트로부터 평가를 받습니다. 마지막으로, 추론 에이전트가 이 피드백을 종합하여 내성적으로 프롬프트를 재작성하고 다음 생성 사이클을 위해 개선합니다. 단일 및 다중 장면 비디오 생성 시나리오에서의 실험 결과, 기존 방법들은 일관성 없는 성과를 보인 반면, VISTA는 비디오 품질과 사용자 의도와의 일치성을 꾸준히 개선하며 최신 베이스라인 대비 최대 60%의 페어와이즈 승률을 달성했습니다. 인간 평가자들도 이를 뒷받침하며, 66.4%의 비교에서 VISTA의 출력물을 선호했습니다.
GPT-4와 AlphaFold와 같은 파운데이션 모델(FMs)은 과학 연구의 지형을 재편하고 있습니다. 가설 생성, 실험 설계, 결과 해석과 같은 작업을 가속화하는 것을 넘어, 이들은 더 근본적인 질문을 제기합니다: FMs는 기존의 과학적 방법론을 단순히 강화하고 있는 것인가, 아니면 과학이 수행되는 방식을 재정의하고 있는 것인가? 본 논문에서 우리는 FMs가 새로운 과학적 패러다임으로의 전환을 촉진하고 있다고 주장합니다. 우리는 이러한 진화를 설명하기 위해 세 단계의 프레임워크를 소개합니다: (1) 메타-과학적 통합, 여기서 FMs는 전통적 패러다임 내에서 워크플로우를 강화합니다; (2) 하이브리드 인간-AI 공동 창조, 여기서 FMs는 문제 정의, 추론, 발견에서 적극적인 협력자가 됩니다; 그리고 (3) 자율적 과학적 발견, 여기서 FMs는 최소한의 인간 개입으로 새로운 과학적 지식을 생성할 수 있는 독립적인 에이전트로 작동합니다. 이 렌즈를 통해 우리는 기존 과학적 패러다임 전반에 걸친 FMs의 현재 응용과 신흥 능력을 검토합니다. 또한, FM이 가능하게 한 과학적 발견의 위험과 미래 방향을 식별합니다. 이 입장 문서는 과학 커뮤니티가 FMs의 변혁적 역할을 이해하고 과학적 발견의 미래에 대한 성찰을 촉진하는 데 목적을 두고 있습니다. 우리 프로젝트는 https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery에서 확인할 수 있습니다.
OpenAI-o1, DeepSeek-R1, Qwen과 같은 추론 언어 모델은 확장된 사고 사슬을 통해 강력한 성능을 달성하지만, 종종 불필요하게 긴 출력을 생성합니다. 토큰당 지능(정확도 대비 응답 길이)을 극대화하는 것은 여전히 해결되지 않은 문제로 남아 있습니다. 우리는 가장 간단한 길이 패널티인 잘림(truncation)을 사용한 강화 학습(RL)을 재검토하고, 정확도 저하가 정교한 패널티의 부재가 아니라 부적절한 RL 최적화에서 비롯됨을 보여줍니다. 우리는 세 가지 주요 과제를 식별했습니다: (i) 이점 추정에서의 큰 편향, (ii) 엔트로피 붕괴, (iii) 희소한 보상 신호. 이를 해결하기 위해 배치별 보상 정규화, 높은 클리핑, 동적 샘플링, 그리고 간단한 잘림 길이 패널티를 결합한 Doing Length pEnalty Right(DLER)라는 훈련 방법을 제안합니다. DLER는 출력 길이를 70% 이상 줄이면서 이전의 모든 기준 정확도를 능가하는 최첨단 정확도-효율성 균형을 달성합니다. 또한 테스트 시간 스케일링을 개선합니다: DeepSeek-R1-7B와 비교하여 DLER-7B는 28% 더 높은 정확도와 더 낮은 지연 시간으로 여러 간결한 응답을 병렬로 생성합니다. 우리는 또한 더 쉬운 질문에 대해 적응적으로 잘림을 강화하여 추가적인 효율성 향상을 달성하는 Difficulty-Aware DLER를 소개합니다. 또한 RL 훈련 데이터가 부족한 시나리오에서 유용한, 기준 정확도를 유지하면서 DLER 모델의 간결한 추론 능력을 보존하는 업데이트 선택적 병합 방법을 제안합니다.
과학적 발견의 자동화는 인공지능(AI) 연구에서 중요한 이정표로 여겨진다. 그러나 현재의 과학적 에이전트 시스템은 두 가지 근본적인 한계를 가지고 있다: 중간 결과에 적응할 수 없는 경직된 사전 프로그래밍된 워크플로우와 장기적 연구를 방해하는 불충분한 컨텍스트 관리가 그것이다. 본 연구에서는 실시간 에이전트 추론에 의해 결정되는 완전히 동적인 워크플로우와 도메인별 요구사항을 해결하기 위해 사용자가 에이전트를 수정, 추가 또는 제거할 수 있는 \textit{모듈식 아키텍처}를 특징으로 하는 오픈소스 다중 에이전트 프레임워크인 freephdlabor를 제안한다. 이 프레임워크는 자동 컨텍스트 압축, 정보 저하를 방지하기 위한 작업공간 기반 통신, 세션 간 메모리 지속성, 그리고 비차단적 인간 개입 메커니즘을 포함한 포괄적인 인프라를 제공한다. 이러한 기능들은 자동화된 연구를 단일 실행 시도에서 벗어나 이전 탐구를 체계적으로 구축하고 인간의 피드백을 통합하는 지속적인 연구 프로그램으로 전환한다. 본 연구는 사용자 정의 가능한 공동 과학자 시스템을 구축하기 위한 아키텍처 원칙과 실질적인 구현을 제공함으로써, 과학적 분야 전반에 걸쳐 자동화된 연구의 보다 광범위한 채택을 촉진하고, 실무자들이 아이디어 생성부터 실험, 출판 준비가 된 원고까지 종단 간 연구를 자율적으로 수행하는 인터랙티브 다중 에이전트 시스템을 배포할 수 있도록 하는 것을 목표로 한다.
심층 연구 웹 에이전트는 웹 환경, 파일, 멀티모달 입력 등 다양한 소스로부터 정보를 검색할 뿐만 아니라, 무엇보다도 엄격하게 지식을 분석하고 통합하여 통찰력 있는 연구를 수행할 수 있어야 한다. 그러나 기존의 오픈소스 심층 연구 에이전트는 주로 웹 에이전트의 정보 탐색 능력을 강화하여 특정 정보를 찾는 데 초점을 맞추고 있으며, 정보 통합이라는 필수적인 요구를 간과함으로써 심층 연구를 지원하는 데 한계를 보이고 있다. 우리는 웹 에이전트를 위한 검증 가능한 훈련 데이터를 확장 가능하게 구축하기 위해 Explore to Evolve 패러다임을 제안한다. 이 패러다임은 적극적인 온라인 탐색으로 시작되며, 에이전트는 실제 웹을 탐색하여 근거 있는 정보를 수집한다. 수집된 증거를 바탕으로, 에이전트는 12가지 고수준 논리 유형에서 작업을 선택, 구성, 정제하여 검증 가능한 QA 쌍을 합성함으로써 통합 프로그램을 자체적으로 진화시킨다. 이러한 고수준 지침에서 구체적인 작업으로의 진화를 통해 우리는 50,000개 웹사이트와 11개 도메인에 걸쳐 10,000개 샘플로 구성된 WebAggregatorQA 데이터셋을 확장 가능하게 생산할 수 있었다. 오픈소스 에이전트 프레임워크인 SmolAgents를 기반으로, 우리는 지도 미세 조정 궤적을 수집하여 일련의 기반 모델인 WebAggregator를 개발했다. WebAggregator-8B는 GPT-4.1의 성능과 일치하며, 32B 변형은 GAIA-text에서 GPT-4.1을 10% 이상 능가하고 Claude-3.7-sonnet에 근접한 성능을 보인다. 또한, 웹 에이전트의 정보 통합 능력을 평가할 수 있는 벤치마크의 제한된 가용성을 고려하여, 우리는 WebAggregatorQA의 인간 주석 평가 분할을 도전적인 테스트 세트로 구성했다. 이 벤치마크에서 Claude-3.7-sonnet은 28%에 그쳤고, GPT-4.1은 25.8%를 기록했다. 에이전트가 모든 참조를 검색하는 데 성공하더라도 WebAggregatorQA에서 여전히 어려움을 겪는 것은 웹 에이전트 기반의 정보 통합 능력을 강화할 필요가 있음을 강조한다.
대규모 언어 모델(LLMs)은 강화 학습(RL)을 통해 상당한 발전을 이루었으며, 특히 수학 및 코드와 같이 보상을 프로그램적으로 검증할 수 있는 분야에서 두드러진 성과를 보여주었습니다. 이러한 영역에서는 명시적인 규칙 기반 목표에 의해 안내되는 잘 정의된 운영 기반을 통해 모델이 이점을 얻습니다. 그러나 이러한 진전은 중요한 한계를 드러내기도 합니다. 창의적 글쓰기, 과학적 추론, 그리고 특히 의료 상담과 같이 보상이 모호하거나 주관적이며 상황에 따라 달라지는 개방형 분야에서는 견고한 보상 함수가 부족하여 현재의 RL 전략이 적용되기 어려운 상황입니다. 이러한 격차를 해소하기 위해, 우리는 고위험 의료 대화를 위해 특별히 설계된 개방형 루브릭 기반 점진적 학습 프레임워크인 ORBIT을 소개합니다. ORBIT은 합성 대화 생성과 루브릭의 동적 생성을 통합하며, 이러한 루브릭을 활용하여 점진적인 RL 프로세스를 지도합니다. 특히, 이 접근 방식은 외부 의학 지식이나 수동 규칙에 의존하지 않고, 루브릭 기반 피드백을 통해 학습을 형성합니다. Qwen3-4B-Instruct 모델에 구현했을 때, 우리의 방법은 단 2,000개의 샘플만으로 HealthBench-Hard 벤치마크에서의 성능을 7.0에서 27.2로 크게 향상시켜, 이 규모의 모델 중 최고 수준의 결과를 달성했습니다. 우리의 분석은 루브릭 기반 RL이 단순한 수치적 개선을 넘어 다양한 상담 시나리오에서 일관된 성능 향상을 촉진한다는 것을 확인합니다. 이러한 발견들은 복잡하고 개방형 작업에서 LLMs를 발전시키기 위한 확장 가능한 전략으로서 루브릭 기반 피드백의 중요성을 강조합니다.
예술적이고 일관된 3D 장면 레이아웃을 생성하는 것은 디지털 콘텐츠 제작에서 매우 중요합니다. 전통적인 최적화 기반 방법들은 번거로운 수동 규칙에 의해 제약을 받는 반면, 딥 생성 모델들은 풍부하고 다양한 콘텐츠를 생성하는 데 어려움을 겪습니다. 또한, 대규모 언어 모델을 활용하는 접근법들은 종종 견고성이 부족하고 복잡한 공간 관계를 정확히 포착하지 못합니다. 이러한 문제를 해결하기 위해, 본 논문은 새로운 비전 기반 3D 레이아웃 생성 시스템을 제안합니다. 먼저, 2,037개의 장면 에셋과 147개의 3D 장면 레이아웃을 포함한 고품질 에셋 라이브러리를 구축합니다. 그런 다음, 이미지 생성 모델을 사용하여 프롬프트 표현을 이미지로 확장하고, 이를 우리의 에셋 라이브러리와 일치하도록 미세 조정합니다. 이후, 시각적 의미론과 기하학적 정보를 기반으로 장면의 3D 레이아웃을 복원하는 견고한 이미지 파싱 모듈을 개발합니다. 마지막으로, 장면 그래프와 전체 시각적 의미론을 사용하여 장면 레이아웃을 최적화하여 논리적 일관성과 이미지와의 정렬을 보장합니다. 광범위한 사용자 테스트를 통해 우리의 알고리즘이 레이아웃의 풍부함과 품질 측면에서 기존 방법들을 크게 능가함을 입증했습니다. 코드와 데이터셋은 https://github.com/HiHiAllen/Imaginarium에서 제공될 예정입니다.
최근 LLM(Large Language Model)은 금융 관련 문제 해결에서 유망한 능력을 보여주고 있습니다. 그러나 실제 금융 애플리케이션에 LLM을 적용하는 것은 높은 위험성과 중대한 결과를 초래할 수 있는 특성으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문은 금융 애플리케이션에서 LLM의 신뢰성을 평가하기 위해 특별히 설계된 포괄적인 벤치마크인 FinTrust를 소개합니다. 우리의 벤치마크는 실질적인 맥락을 기반으로 한 다양한 정렬 문제에 초점을 맞추며, 신뢰성 평가의 각 차원에 대해 세분화된 과제를 제공합니다. 우리는 FinTrust를 통해 11개의 LLM을 평가했으며, o4-mini와 같은 상용 모델이 안전성과 같은 대부분의 과제에서 우수한 성능을 보인 반면, DeepSeek-V3와 같은 오픈소스 모델은 산업 수준의 공정성과 같은 특정 영역에서 강점을 보였습니다. 그러나 신탁 정렬 및 공시와 같은 도전적인 과제에서는 모든 LLM이 부족한 성적을 보이며 법적 인식에서 상당한 격차가 있음을 확인했습니다. 우리는 FinTrust가 금융 분야에서 LLM의 신뢰성을 평가하는 데 있어 가치 있는 벤치마크가 될 수 있다고 믿습니다.
대형 언어 모델(LLM)에서 감성 지능에 대한 요구가 증가함에 따라, 감정 표현을 일으키는 내부 메커니즘을 이해하고 생성된 텍스트에서 감정을 제어하는 것이 주요 과제로 대두되고 있다. 본 연구는 세 가지 핵심 질문을 다룬다: (1) LLM이 맥락과 무관한 감정 표현 형성 메커니즘을 포함하고 있는가? (2) 이러한 메커니즘은 어떤 형태를 띠는가? (3) 이를 보편적인 감정 제어에 활용할 수 있는가? 먼저, 감정 간 비교 가능한 내부 상태를 유도하기 위해 통제된 데이터셋인 SEV(Scenario-Event with Valence)를 구축한다. 이후, 맥락과 무관한 감정 방향을 추출하여 일관된 교차 맥락 감정 인코딩을 밝혀낸다(Q1). 분석적 분해와 인과 관계 분석을 통해 감정 계산을 지역적으로 수행하는 뉴런과 어텐션 헤드를 식별하고, 이들의 인과적 역할을 제거 및 강화 실험을 통해 검증한다. 다음으로, 각 하위 레이어가 모델의 최종 감정 표현에 미치는 인과적 영향을 정량화하고, 식별된 지역적 구성 요소를 통합하여 감정 표현을 주도하는 일관된 전역 감정 회로를 구성한다(Q2). 이러한 회로를 직접 조절하면 테스트 세트에서 99.65%의 감정 표현 정확도를 달성하며, 프롬프트 기반 및 스티어링 기반 방법을 능가한다(Q3). 우리가 아는 한, 이는 LLM 내 감정 회로를 체계적으로 발견하고 검증한 첫 연구로, 해석 가능성과 제어 가능한 감성 지능에 대한 새로운 통찰을 제공한다.
경험적 스케일링 법칙은 매개변수, 데이터, 컴퓨팅 자원을 어떻게 할당할지 규정하며, 최대 업데이트 매개변수화(muP)는 초기 업데이트 크기를 동일하게 함으로써 다양한 너비(폭) 간 학습률 전이를 가능하게 합니다. 그러나 현대의 스케일 불변 아키텍처에서는 학습이 빠르게 최적화자(optimizer)가 지배하는 정상 상태에 진입하며, 정규화 계층이 역전파 스케일 민감도를 생성하고 효과적인 학습률이 너비에 의존하게 되어 muP 전이를 저하시킵니다. 우리는 이를 해결하기 위해 AdamW에서 서브레이어 이득을 너비 간에 보존하는 가중치 감쇠(weight-decay) 스케일링 규칙을 도입했습니다. 경험적으로, 각 행렬 매개변수의 특이값 스펙트럼은 노름(norm) 기준으로 eta/lambda에 비례하며 그 형태는 거의 불변입니다. 너비 스케일링 d 하에서, 우리는 최상위 특이값이 대략 eta/lambda * d^{0.75}에 비례함을 관찰했습니다. 이 관찰을 행렬 유사 매개변수에 대한 muP 학습률 규칙 eta_2 ∝ d^{-1}과 결합하면, 경험적 가중치 감쇠 스케일링 규칙 lambda_2 ∝ d가 도출되어 서브레이어 이득을 거의 너비 불변으로 유지합니다. 벡터 유사 매개변수가 eta_1 = Theta_d(1) 및 lambda_1 = 0으로 학습될 때, 이는 프록시 너비에서 목표 너비로 학습률과 가중치 감쇠를 제로샷 전이하게 하여 너비별 탐색을 제거합니다. 우리는 이 규칙을 LLaMA 스타일 트랜스포머와 최소한의 합성 설정에서 검증했으며, 서브레이어 이득 불변성을 확인하기 위해 최상위 특이값을 매칭하는 간단한 진단 방법을 제공합니다. 우리의 결과는 muP를 초기 근처 영역을 넘어 최적화자가 설정한 정상 상태 스케일을 명시적으로 제어함으로써 확장하며, AdamW 하에서 너비에 강건한 하이퍼파라미터 전이를 위한 실용적인 방법을 제시합니다.
전문가 혼합(Mixture-of-Experts, MoE) 모델은 희소 전문가 활성화를 통해 효율적인 확장을 달성하지만, 배포 시 발생하는 분포 변화로 인해 최적이 아닌 라우팅 결정을 내리는 경우가 많다. 기존의 테스트 시간 적응 방법이 이러한 문제를 해결할 가능성이 있지만, 이들은 주로 밀집 모델에 초점을 맞추고 외부 데이터에 대한 접근을 필요로 하여 MoE 아키텍처에 대한 실용적 적용 가능성을 제한한다. 그러나 우리는 참조 데이터에 의존하는 대신 입력 컨텍스트만을 기반으로 MoE 전문가 선택을 실시간으로 최적화할 수 있음을 발견했다. 이를 바탕으로, 우리는 외부 감독이나 데이터 없이 텍스트 생성 중 MoE 라우팅 결정을 지속적으로 적응시키는 데이터 없는 온라인 테스트 시간 프레임워크를 제안한다. 우리의 방법은 두 단계를 순환한다: 프리필 단계 동안 및 이후 정기적으로, 이미 생성된 시퀀스를 기반으로 자기 감독을 사용하여 모델의 라우팅 결정을 최적화한다. 그런 다음, 수정된 라우터를 다음 적응까지 유지하며 정상적으로 텍스트를 생성한다. 이를 위해 선택된 레이어에서만 라우터 로짓을 업데이트하는 경량 가산 벡터를 구현하여 계산 효율성을 유지하면서 과적응을 방지한다. 실험 결과는 컨텍스트 변화에 대한 견고성을 유지하면서도 도전적인 추론 작업에서 일관된 성능 향상을 보여준다. 예를 들어, 우리의 방법은 OLMoE에서 HumanEval에서 5.5%의 개선을 달성한다. 또한, 플러그 앤 플레이 특성 덕분에 우리의 방법은 기존의 테스트 시간 확장 기술과 자연스럽게 보완되며, 예를 들어 DeepSeek-V2-Lite에서 자기 일관성과 결합 시 평균 6%의 이득을 달성한다.
대규모 언어 모델(LLM)은 정보가 점진적으로 제시되는 다중 턴 대화에서 성능이 크게 저하되는 문제를 겪습니다. 일상적인 상호작용이 다중 턴 대화로 이루어진다는 점을 고려할 때, 이러한 성능 저하는 실제 사용성에 심각한 도전으로 작용합니다. 우리는 모델의 불확실성이 급격히 증가하는 것이 다중 턴 LLM 상호작용에서의 불일치를 나타낸다는 가설을 세우고, 이러한 통찰을 활용하여 대화 맥락을 동적으로 재조정하는 방법을 제안합니다. 우리는 ERGO(Entropy-guided Resetting for Generation Optimization)를 소개합니다. ERGO는 다음 토큰 분포에 대한 섀넌 엔트로피를 통해 내부 불확실성을 지속적으로 정량화하고, 엔트로피가 급격히 증가할 때 적응형 프롬프트 통합을 트리거합니다. 불확실성을 제거해야 할 번거로움으로 여기기보다는 일급 신호로 취급함으로써, ERGO는 언어와 모델링의 변동성을 포용하고 불확실성을 표현하고 대응합니다. 점진적으로 제시되는 지시가 포함된 다중 턴 작업에서 ERGO는 표준 베이스라인 대비 평균 56.6%의 성능 향상을 달성하고, 능력(최고 성능 역량)을 24.7% 증가시키며, 신뢰성(성능 변동성)을 35.3% 감소시켜, 불확실성 인식 개입이 대화형 AI의 정확성과 신뢰성을 모두 개선할 수 있음을 입증합니다.
멀티모달 대형 언어 모델(MLLMs)은 이미지-텍스트 캡션 데이터와 인터리브 문서 데이터의 혼합으로 지속적으로 사전 학습되고 있지만, 이미지-텍스트 인터리브 문서 데이터에 대한 고품질 데이터 필터링은 아직 충분히 탐구되지 않았습니다. 우리는 고품질 이미지-텍스트 캡션 및 인터리브 데이터를 모두 필터링하기 위한 통합 멀티모달 데이터 품질 분류기(UniFilter)로 효율적인 MLLM을 학습시키는 것을 제안합니다. 다양한 레이블이 지정된 멀티모달 데이터를 수집하는 문제를 해결하기 위해, 우리는 쉽게 이용 가능한 원시 이미지를 활용하고 네 가지 품질 수준에 해당하는 텍스트를 생성하는 반합성 접근 방식을 도입했습니다. 이 방법은 캡션 및 인터리브 문서 데이터 모두에 대한 샘플-점수 쌍을 효율적으로 생성하여 UniFilter를 학습시키는 것을 가능하게 합니다. 우리는 UniFilter를 사용하여 DataComp 캡션 데이터셋에서 고품질 캡션 데이터를 선별하고, OBELICS 이미지-텍스트 인터리브 데이터셋에서 고품질 인터리브 데이터를 선별했습니다. 필터링된 데이터로 사전 학습된 MLLM은 기준 필터링 데이터로 학습된 모델에 비해 상당히 향상된 능력을 보여주며, 더 강력한 제로샷 추론 및 인컨텍스트 학습 능력을 달성했습니다. 시각적 지도 미세 조정 후, 이러한 UniFilter로 인도된 MLLM은 다양한 벤치마크에서 더 강력한 성능을 보여주며, 고품질 멀티모달 사전 학습의 하류 작업 이점을 강조합니다. 우리는 UniFilter 학습에 사용된 합성 학습 데이터, UniFilter 모델 체크포인트, 그리고 UniFilter로 선별된 고품질 인터리브 문서 하위 집합인 OBELICS-HQ를 커뮤니티에 공개하여 재현 및 추가 개발을 가능하게 합니다.
본 논문에서는 자기 지도 학습(self-supervised learning, SSL) 비전 트랜스포머로부터 얻은 단일 연속 잠재 토큰을 사용하여 이미지를 표현하는 생성 모델링 프레임워크인 Representation Tokenizer(RepTok)를 소개한다. 사전 학습된 SSL 인코더를 기반으로, 우리는 의미 토큰 임베딩만을 미세 조정하고 이를 표준 플로우 매칭(flow matching) 목적 함수로 공동 학습된 생성 디코더와 결합한다. 이러한 적응은 토큰에 저수준의 재구성 관련 세부 정보를 풍부하게 함으로써 충실한 이미지 재구성을 가능하게 한다. 또한, 원본 SSL 공간의 유리한 기하학적 특성을 보존하기 위해 코사인 유사도 손실을 추가하여 적응된 토큰을 정규화하고, 잠재 공간이 매끄럽고 생성에 적합하도록 유지한다. 단일 토큰 기반의 이 접근법은 2D 잠재 공간의 공간적 중복성을 해결하고 학습 비용을 크게 절감한다. 단순성과 효율성에도 불구하고, RepTok은 클래스 조건부 ImageNet 생성에서 경쟁력 있는 결과를 달성하며, 극도로 제한된 학습 예산 하에서 MS-COCO에서의 제로샷(zero-shot) 텍스트-이미지 합성에서도 경쟁력 있는 성능을 보인다. 본 연구 결과는 미세 조정된 SSL 표현이 효율적인 생성 모델링을 위한 간결하고 효과적인 잠재 공간으로서의 잠재력을 강조한다.
우리는 기존 방법론의 중요한 한계를 해결하는 고품질 및 고도로 제어 가능한 동적 3D 운전 장면 생성 프레임워크인 DriveGen3D를 제안한다. 현재의 운전 장면 합성 접근법은 장기간의 시간적 생성을 위한 과도한 계산 요구로 인해 어려움을 겪거나, 3D 표현 없이 오로지 장기간 비디오 합성에만 초점을 맞추거나, 정적 단일 장면 재구성에만 제한되어 있다. 우리의 연구는 다중 모달 조건 제어를 통해 가속화된 장기간 비디오 생성과 대규모 동적 장면 재구성을 통합함으로써 이러한 방법론적 격차를 메운다. DriveGen3D는 두 가지 전문화된 구성 요소로 이루어진 통합 파이프라인을 도입한다: FastDrive-DiT는 텍스트 및 조감도(BEV) 레이아웃 지도 하에서 고해상도 및 시간적 일관성을 가진 비디오 합성을 위한 효율적인 비디오 확산 트랜스포머이며, FastRecon3D는 시간에 걸쳐 3D 가우시안 표현을 신속하게 구축하여 공간-시간적 일관성을 보장하는 피드포워드 재구성 모듈이다. 이 두 구성 요소는 함께 확장된 운전 비디오(최대 424x800, 12 FPS) 및 해당 동적 3D 장면의 실시간 생성을 가능하게 하며, 새로운 시점 합성에서 SSIM 0.811 및 PSNR 22.84를 달성하면서도 파라미터 효율성을 유지한다.