번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델의 터미널 성능에 관한 최근의 급속한 발전에도 불구하고, 최첨단 터미널 에이전트의 학습 데이터 전략은 대부분 공개되지 않고 있습니다. 본 연구는 터미널 에이전트를 위한 데이터 엔지니어링 방법론에 대한 체계적인 연구를 통해 이러한 격차를 해소하며, 두 가지 주요 기여를 합니다: (1) 시드 기반 및 스킬 기반 작업 구성을 지원하는 경량 합성 작업 생성 파이프라인인 Terminal-Task-Gen, (2) 필터링, 커리큘럼 학습, 장문맥 학습, 확장 규모에 따른 성능 변화를 포함한 데이터 및 학습 전략에 대한 포괄적인 분석입니다. 본 파이프라인을 통해 터미널 작업용 대규모 오픈소스 데이터셋인 Terminal-Corpus가 생성되었습니다. 이 데이터셋을 활용하여 Qwen3(8B, 14B, 32B) 모델을 기반으로 초기화된 Nemotron-Terminal 모델 군을 학습시켰으며, Terminal-Bench 2.0에서 상당한 성능 향상을 달성했습니다: Nemotron-Terminal-8B는 2.5%에서 13.0%로, Nemotron-Terminal-14B는 4.0%에서 20.2%로, Nemotron-Terminal-32B는 3.4%에서 27.4%로 성능이 향상되어 훨씬 더 큰 모델들의 성능에 필적합니다. 해당 분야의 연구 가속화를 위해 모델 체크포인트와 대부분의 합성 데이터셋을 https://huggingface.co/collections/nvidia/nemotron-terminal 에서 오픈소스로 공개합니다.
기존 대규모 언어 모델의 검색 헤드 분석을 기반으로, 본 연구에서는 선별된 헤드의 어텐션 점수를 활용하여 문서-질문 관련성을 추정하도록 모델을 학습하는 새로운 재순위 지정 프레임워크를 제안합니다. 이 접근법은 순위 지정 과정에서 후보 단편 목록 전체의 포괄적 정보를 활용하는 리스트와이즈(listwise) 해결책을 제공합니다. 동시에 자연스럽게 연속적인 관련성 점수를 생성하여 리커트 척도(Likert-scale) 감독 없이도 임의의 검색 데이터셋에서 학습이 가능합니다. 우리의 프레임워크는 경량이면서 효과적이며, 강력한 성능을 달성하기 위해 소규모 모델(예: 40억 개 매개변수)만으로도 충분합니다. 광범위한 실험을 통해 본 방법이 위키백과 및 장편 서사 데이터셋을 포함한 여러 분야에서 기존 최첨단 포인트와이즈(pointwise) 및 리스트와이즈 재순위 지정기를 능가함을 입증했습니다. 또한 대화 이해와 메모리 사용 능력을 평가하는 LoCoMo 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 더 나아가 본 프레임워크가 유연한 확장을 지원함을 확인했습니다. 예를 들어, 후보 문서에 맥락 정보를 추가하면 순위 지정 정확도가 더욱 개선되며, 중간 계층의 어텐션 헤드를 학습하면 성능 저하 없이 효율성을 향상시킬 수 있습니다.
에이전트형 멀티모달 모델의 강화학습은 종종 상호작용 붕괴(interaction collapse)로 인해 어려움을 겪으며, 이는 모델이 도구 사용과 다중 회차 추론을 줄이는 방향으로 학습하여 에이전트 행동의 이점을 제한한다. 본 연구에서는 개방형 가중치(open-weight) 멀티모달 모델을 위한 강화학습 프레임워크인 PyVision-RL을 소개한다. 이 프레임워크는 훈련을 안정화하고 상호작용을 지속시킨다. 우리의 접근법은 오버샘플링-필터링-랭킹 롤아웃 전략과 누적 도구 보상을 결합하여 붕괴를 방지하고 다중 회차 도구 사용을 장려한다. 통합 훈련 파이프라인을 사용하여 이미지 및 비디오 이해를 위한 PyVision-Image와 PyVision-Video를 개발했다. 비디오 추론을 위해 PyVision-Video는 주문형 콘텍스트 구축(on-demand context construction)을 채택하여, 추론 과정에서 작업 관련 프레임을 선택적으로 샘플링하여 시각적 토큰 사용을 크게 줄인다. 실험 결과 강력한 성능과 향상된 효율성을 보여주며, 지속적인 상호작용과 주문형 시각 처리가 확장 가능한 멀티모달 에이전트에 중요함을 입증한다.
KV 바인딩을 시퀀스 모델링 계층으로 사용하는 테스트 타임 트레이닝(TTT)은 일반적으로 테스트 시간에 키-값 매핑을 암기하는 온라인 메타러닝의 한 형태로 해석됩니다. 그러나 우리의 분석은 이러한 암기 기반 해석과 모순되는 여러 현상을 보여줍니다. 이러한 발견에 동기를 부여받아 우리는 TTT의 공식을 재검토하고, 다양한 TTT 아키텍처 클래스가 학습된 선형 어텐션 연산자의 한 형태로 표현될 수 있음을 보입니다. 이전에 이해하기 어려웠던 모델 동작을 설명하는 것을 넘어, 이러한 관점은 여러 실용적인 이점을 제공합니다: 원칙에 따른 아키텍처 단순화를 가능하게 하고, 성능을 유지하면서 효율성을 향상시키는 완전 병렬 구성을 허용하며, 다양한 TTT 변형을 표준 선형 어텐션 형태로 체계적으로 축소합니다. 전반적으로, 우리의 결과는 TTT를 테스트 타임 암기가 아닌 향상된 표현 능력을 가진 학습된 선형 어텐션으로 재정의합니다.
물리적 구조를 이해하는 것은 구현된 에이전트, 상호작용 설계, 장기간 조작과 같은 실제 응용 분야에서 필수적입니다. 그러나 현재 널리 사용되는 시각-언어 모델(VLM) 평가는 여전히 구조를 고려하지 않는 단일 턴 설정(예: VQA)에 중점을 두고 있어, 기하학적 특성, 접촉 관계, 지지 관계가 동적 환경에서 가능한 행동을 어떻게 함께 제약하는지 에이전트가 추론하는 능력을 평가하지 못합니다. 이러한 격차를 해결하기 위해 우리는 인과적 행동 및 상호작용 계층 구조(CHAIN) 벤치마크를 소개합니다. 이는 물리 기반의 상호작용형 3D 테스트베드로, 모델이 물리적 제약 조건에 기반한 구조화된 행동 시퀀스를 이해하고 계획하며 실행할 수 있는지 평가하도록 설계되었습니다. CHAIN은 수동적 인식에서 능동적 문제 해결로 평가의 초점을 전환하며, 연동 기계식 퍼즐과 3D 쌓기 및 포장 작업과 같은 과제를 포괄합니다. 우리는 최첨단 VLM과 확산 기반 모델들을 통일된 상호작용 설정 하에서 포괄적으로 연구합니다. 우리의 결과에 따르면 최고 성능 모델들도 여전히 물리적 구조와 인과적 제약을 내재화하는 데 어려움을 겪으며, 종종 신뢰할 수 있는 장기 계획을 생성하지 못하고 인지된 구조를 효과적인 행동으로 견고하게 변환하지 못합니다. 본 프로젝트는 https://social-ai-studio.github.io/CHAIN/에서 확인할 수 있습니다.
우리는 모든 모달리티에서 후기 상호작용을 위한 효율적인 다중 벡터 검색을 연구한다. 후기 상호작용은 텍스트, 이미지, 시각적 문서, 비디오에서 정보 검색을 위한 주요 패러다임으로 부상했으나, 그 계산 및 저장 비용이 문서 길이에 따라 선형적으로 증가하여 이미지, 비디오, 오디오가 풍부한 코퍼스에서는 비용이 많이 든다. 이러한 한계를 해결하기 위해 우리는 고정된 벡터 예산 하에서 다중 벡터 문서 표현을 압축하는 질의-독립적인 방법을 탐구한다. 인덱스 압축을 위한 네 가지 접근법인 시퀀스 크기 조정, 메모리 토큰, 계층적 풀링, 그리고 새로운 주의-유도 클러스터링(AGC)을 소개한다. AGC는 주의-유도 메커니즘을 사용하여 문서의 의미론적으로 가장 salient한 영역을 클러스터 중심점으로 식별하고 토큰 집계에 가중치를 부여한다. 텍스트(BEIR), 시각적 문서(ViDoRe), 비디오(MSR-VTT, MultiVENT 2.0)에 걸친 검색 과제에서 이러한 방법들을 평가한 결과, 주의-유도 클러스터링이 다른 매개변수화된 압축 방법(시퀀스 크기 조정 및 메모리 토큰)을 일관되게 능가하며, 비모수적 계층적 클러스터링보다 인덱스 크기에서 더 큰 유연성을 제공하고, 압축되지 않은 전체 인덱스와 비교하여 경쟁력 있거나 향상된 성능을 달성함을 보여준다. 소스 코드는 github.com/hanxiangqin/omni-col-press에서 이용 가능하다.
비전-언어-행동(VLA) 모델은 구현형 에이전트를 위한 인식, 언어, 제어를 통합하지만, 특히 모델이 더 긴 시간 범위와 더 큰 백본으로 확장됨에 따라 계산 및 메모리 요구량이 급격히 증가하여 실제 배포에 상당한 어려움을 겪고 있습니다. 이러한 병목 현상을 해결하기 위해 우리는 QuantVLA를 소개합니다. 이는 훈련이 필요 없는 사후 훈련 양자화(PTQ) 프레임워크로, 우리가 알기로는 VLA 시스템을 위한 최초의 PTQ 접근법이자 확산 트랜스포머(DiT) 행동 헤드의 양자화에 성공한 최초의 방법입니다. QuantVLA는 세 가지 척도 보정 구성 요소를 포함합니다: (1) 언어 백본과 DiT 모두의 모든 선형 계층을 정수화하면서 원래 연산자 스케줄을 보존하기 위해 어텐션 프로젝션은 부동 소수점으로 유지하는 선택적 양자화 레이아웃; (2) 어텐션 로짓을 안정화하고 추론 시 역양자화 척도에 통합되는 경량의 헤드별 스케일링 메커니즘인 어텐션 온도 매칭; (3) 투영 후 에너지 드리프트를 완화하는 계층별 잔차 인터페이스 보정인 출력 헤드 균형 조정. 이 프레임워크는 추가 훈련이 필요 없으며, 소량의 레이블 없는 보정 버퍼만 사용하고, 아키텍처는 변경하지 않은 채 낮은 비트의 가중치와 활성화를 위한 정수 커널을 지원합니다. LIBERO의 대표적인 VLA 모델들에 대해 QuantVLA는 전체 정밀도 기준선의 작업 성공률을 능가하고, 양자화된 구성 요소에서 약 70%의 상대적 메모리 절감을 달성하며, 종단 간 추론 대기 시간에서 1.22배의 속도 향상을 제공하여 엄격한 계산, 메모리, 전력 제약 조건 하에서 확장 가능한 저비트 구현형 인텔리전스로 가는 실용적인 경로를 제시합니다.
딥 리서치 에이전트는 분석가 수준의 리포트를 생성하지만, 단일한 기준 진실이 부재하고 연구 품질이 다차원적 특성을 지녀 평가에는 여전히 과제가 남아 있습니다. 최근 벤치마크들은 다양한 방법론을 제안하지만, '통합의 신기루(Mirage of Synthesis)' 현상으로 인해 표면적 유창성과 인용 정합성이 강할수록 사실 관계와 추론의 결함이 가려지는 한계를 보입니다. 우리는 이러한 격차를 4개 영역에 걸친 분류체계를 도입하여 규명함으로써 중요한 역량 불일치를 드러냅니다: 정적 평가자들은 본질적으로 시간적 타당성과 사실 정확성 평가에 필요한 도구 활용 능력이 결여되어 있습니다. 이를 해결하기 위해 우리는 평가 자체를 에이전트 기반으로 전환함으로써 역량 패리티 원칙을 구현하는 DREAM(Deep Research Evaluation with Agentic Metrics) 프레임워크를 제안합니다. DREAM은 쿼리 무관 메트릭과 도구 호출 에이전트가 생성하는 적응형 메트릭을 결합한 평가 프로토콜을 통해 평가를 구조화하여, 시간 인식 커버리지, 근거 기반 검증 및 체계적 추론 탐사가 가능하게 합니다. 통제된 평가 결과, DREAM이 기존 벤치마크보다 사실 관계와 시간적 퇴행성에 훨씬 더 민감하게 반응하며 확장 가능한 참조 무관 평가 패러다임을 제공함을 입증했습니다.
확산 모델의 최근 발전에도 불구하고, AI 생성 이미지는 여전히 현실감을 해치는 시각적 아티팩트를 종종 포함합니다. 더 철저한 사전 학습과 더 큰 모델이 아티팩트를 줄일 수는 있지만, 이를 완전히 제거할 수 있다는 보장은 없어 아티팩트 완화 연구의 중요성이 매우 높습니다. 기존의 아티팩트 인식 방법론은 인간이 레이블을 작성한 아티팩트 데이터셋에 의존하는데, 이는 비용이 많이 들고 확장하기 어려워 신뢰할 수 있는 아티팩트 주석 데이터셋의 자동화된 획득 방법이 필요한 실정입니다. 본 논문에서는 실제 이미지와 아티팩트가 주입된 이미지의 쌍을 효율적으로 생성하는 ArtiAgent를 제안합니다. 이는 세 가지 에이전트로 구성됩니다: 실제 이미지에서 객체 및 하위 객체를 인식하고 위치를 특정하는 지각 에이전트, 확산 트랜스포머 내 새로운 패치 단위 임베딩 조작을 통해 아티팩트 주입 도구로 아티팩트를 도입하는 합성 에이전트, 그리고 합성된 아티팩트를 필터링하고 각 인스턴스에 대한 지역적 및 전역적 설명을 생성하는 관리 에이전트입니다. ArtiAgent를 사용하여 풍부한 아티팩트 주석이 포함된 10만 장의 이미지를 합성하였으며, 다양한 응용 분야에서 효용성과 다용도성을 입증했습니다. 코드는 링크에서 확인할 수 있습니다.
최근 AI 기반 프로그래밍의 발전으로 에이전트가 명령줄 인터페이스를 통해 복잡한 워크플로우를 실행할 수 있게 되었지만, 기존 벤치마크는 짧은 작업 범위, GitHub 스크래핑으로 인한 데이터 오염, 세분화된 평가 지표의 부재로 인해 현실적인 소프트웨어 엔지니어링에 필수적인 장기 계획 및 실행 능력을 엄격하게 평가하지 못하는 한계가 있습니다. 이러한 격차를 해결하기 위해 우리는 장기적이고 현실적인 작업 전반에 걸친 에이전트 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 LongCLI-Bench를 소개합니다. 우리는 1,000개 이상의 컴퓨터 과학 과제와 실제 워크플로우에서 20개의 고품질 장기 작업을 선별했으며, 이를 처음부터 시작, 기능 추가, 버그 수정, 리팩토링이라는 네 가지 엔지니어링 범주로 분류했습니다. 우리는 LongCLI-Bench를 위해 요구사항 충족도(실패-통과)와 회귀 방지(통과-통과)를 측정하고 실행 실패를 정확히 파악하기 위해 단계별 채점을 통합한 이중 세트 테스트 프로토콜을 제안합니다. 광범위한 실험 결과, 최첨단 에이전트 조차도 LongCLI-Bench에서 20% 미만의 통과율을 달성하는 것으로 나타났습니다. 단계별 분석은 대부분의 작업이 30% 미만 완료 단계에서 중단된다고 추가로 지적하며, 중요한 실패가 초기 단계에서 빈번히 발생함을 강조합니다. 자체 수정(self-correction)은 미미한 성능 향상을 제공하지만, 계획 주입(plan injection)과 대화형 안내를 통한 인간-에이전트 협업은 상당히 높은 개선 효과를 보였습니다. 이러한 결과는 장기 작업 성능의 핵심 과제를 극복하기 위해 미래 연구가 에이전트의 계획 및 실행 능력 발전과 함께 시너지적인 인간-에이전트 워크플로우 개발에 중점을 두어야 함을 시사합니다.
대부분의 추천 시스템 벤치마크는 모델이 사용자 행동을 얼마나 잘 모방하는지 평가합니다. 그러나 금융 조언 분야에서는 시장 변동성 하에서 관찰된 행동이 노이즈가 많거나 단기적일 수 있으며, 사용자의 장기 목표와 충돌할 가능성이 있습니다. 따라서 사용자의 선택을 유일한 기준으로 삼는 것은 행동 모방과 의사 결정 질을 혼동하는 것입니다. 본 연구에서는 행동 매칭을 넘어 LLM(대형 언어 모델)을 평가하는 대화형 및 종단적 주식 추천 벤치마크인 Conv-FinRe를 소개합니다. 온보딩 인터뷰, 단계별 시장 상황, 조언 대화를 바탕으로 모델은 고정된 투자 기간 동안 순위를 생성해야 합니다. 중요한 것은 Conv-FinRe가 투자자별 위험 선호도를 기반으로 한 규범적 효용과 기술적 행동을 구분하는 다중 관점 참조를 제공하여, LLM이 합리적 분석을 따르는지, 사용자 노이즈를 모방하는지, 아니면 시장 모멘텀에 의해 주도되는지를 진단할 수 있게 합니다. 우리는 실제 시장 데이터와 인간의 의사 결정 궤적을 바탕으로 벤치마크를 구축하고, 통제된 조언 대화를 구현하며, 최첨단 LLM들을 평가합니다. 결과는 합리적 의사 결정 질과 행동 정렬 사이의 지속적인 긴장 관계를 보여줍니다: 효용 기반 순위에서 우수한 성능을 보이는 모델은 사용자 선택과 일치하지 않는 경우가 많고, 행동 정렬 모델은 단기 노이즈에 과적합될 수 있습니다. 데이터셋은 Hugging Face에 공개되었으며, 코드베이스는 GitHub에서 이용 가능합니다.
LLM 에이전트는 개방형 사용자 요청을 해결할 수 있는 범용 시스템으로서의 기능이 점점 더 기대되고 있습니다. 기존 벤치마크는 특화된 에이전트 개발을 위한 도메인 인식 환경에 초점을 맞추고 있으나, 범용 에이전트를 평가하려면 통합 환경 내에서 여러 기술과 도구를 활용하며 운영하도록 요구하는 보다 현실적인 설정이 필요합니다. 본 논문에서는 검색, 코딩, 추론, 도구 사용 영역에 걸쳐 일반 LLM 에이전트를 평가하기 위한 통합 프레임워크인 General AgentBench를 소개합니다. General AgentBench를 활용하여 순차적 스케일링(반복적 상호작용)과 병렬 스케일링(다중 경로 샘플링) 하에서의 테스트 시점 스케일링 동작을 체계적으로 연구합니다. 10개의 주요 LLM 에이전트에 대한 평가 결과, 도메인 특화 평가에서 이 범용 에이전트 설정으로 이동할 때 성능이 현저히 저하되는 것으로 나타났습니다. 더욱이 두 가지 근본적인 한계—순차적 스케일링의 컨텍스트 한계와 병렬 스케일링의 검증 격차—로 인해 실제로는 어느 스케일링 방법론도 효과적인 성능 향상을 가져오지 못함을 확인했습니다. 코드는 https://github.com/cxcscmu/General-AgentBench에서 공개적으로 이용 가능합니다.
테스트 타임 스케일링은 확률적 추론 궤적을 집계함으로써 모델 성능을 향상시킬 수 있습니다. 그러나 제한된 예산 하에서 샘플 효율적인 테스트 타임 자기 일관성을 달성하는 것은 여전히 해결 과제로 남아 있습니다. 본 연구에서는 PETS(Principled and Efficient Test-Time Self-Consistency)를 소개하며, 최적화 프레임워크를 통한 궤적 할당에 대한 원칙적인 연구를 시작합니다. 우리 접근법의 핵심은 무한 예산 다수결 투표와의 일치도로 정의되는 새로운 측정치인 자기 일관성 비율입니다. 이 공식화를 통해 샘플 효율적인 테스트 타임 할당이 이론적 근거를 갖추고 엄밀한 분석이 가능해집니다. 우리는 오프라인과 온라인 설정을 모두 연구합니다. 모든 질문이 사전에 알려진 오프라인 영역에서는 추론 궤적을 작업자로 모델링함으로써 궤적 할당을 고전적이고 잘 발달된 분야인 크라우드소싱과 연결합니다. 이러한 관점을 통해 기존의 풍부한 이론을 활용하여 이론적 보장과 효율적인 다수결 기반 할당 알고리즘을 도출할 수 있습니다. 질문이 순차적으로 도착하고 할당을 즉시 수행해야 하는 온라인 스트리밍 영역에서는 오프라인 프레임워크에서 영감을 받은 새로운 방법을 제안합니다. 우리의 접근법은 강력한 이론적 보장과 계산 효율성을 유지하면서 질문 난이도에 따라 예산을 적응적으로 조정합니다. 실험 결과 PETS는 균일 할당을 지속적으로 능가하는 것으로 나타났습니다. GPQA에서 PETS는 두 설정 모두에서 완벽한 자기 일관성을 달성하면서 균일 할당 대비 샘플링 예산을 오프라인 최대 75%, 온라인 55%까지 절감했습니다. 코드는 https://github.com/ZDCSlab/PETS에서 이용할 수 있습니다.
언어 모델(LM) 에이전트는 환경과의 다중 상호작용이 필요한 작업 해결에서 뛰어난 능력을 입증해왔습니다. 그러나 단일 오류가 종종 복구 불가능한 실패로 이어지는 환경, 특히 엄격한 실행 가능성 제약 조건 하에서는 취약한 모습을 보입니다. 우리는 기존 에이전트 프레임워크를 체계적으로 분석하여 불완전한 계획 수립과 확률적 실행이 주요 원인임을 규명했습니다. 이러한 문제를 해결하기 위해 우리는 제약 조건 하 실행을 통한 도구 기반 적응형 계획(TAPE)을 제안합니다. TAPE는 다중 계획을 그래프로 집약하고 외부 솔버를 활용하여 실행 가능한 경로를 식별함으로써 계획 수립 능력을 향상시킵니다. 실행 단계에서는 샘플링 노이즈를 줄이기 위해 제약 디코딩을 사용하며, 환경 피드백이 의도한 상태에서 벗어날 때마다 적응적으로 재계획을 수행합니다. 소코반, ALFWorld, MuSiQue, GSM8K-Hard에 대한 실험 결과, TAPE는 특히 어려운 설정에서 기존 프레임워크를 지속적으로 능가하며, 어려운 설정에서 평균 21.0% 포인트, 취약한 기본 모델에 대해 평균 20.0% 포인트의 성공률 향상을 보였습니다. 코드와 데이터는 여기에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 일반적으로 확장된 사고 연쇄(CoT) 추론을 통해 성능 향상을 얻지만, 이로 인해 막대한 계산 부하가 발생하는 문제도 있습니다. 이러한 문제를 해결하기 위해 효율적 추론 연구는 주로 강화 학습(RL)을 통한 보상 형성을 통해 짧으면서도 정확한 사고 궤적을 유도하는 것을 목표로 합니다. 본 논문에서는 LLM의 효율적 추론 메커니즘을 체계적으로 연구합니다. 포괄적인 평가를 위해 정확도에 따른 길이 분포 및 2k에서 32k에 이르는 광범위한 토큰 예산 범위에서의 성능을 포함한 보다 세분화된 지표의 필요성을 제안합니다. 먼저, 학습 과정이 길이 적응과 추론 정교화라는 두 단계 패러다임을 따름을 밝혀냅니다. 이후 통합된 실험 프로토콜 하에서 학습 프롬프트와 롤아웃, 보상 형성, 최적화 전략을 분석하는 대규모 실험(약 20만 GPU 시간)을 수행합니다. 특히 핵심 발견으로는 상대적으로 쉬운 프롬프트를 사용하여 학습함으로써 긍정적 보상 신호의 밀도를 보장하고 길이 붕괴를 방지할 수 있다는 점을 확인했습니다. 동시에 학습된 길이 편향은 다양한 도메인에 걸쳐 일반화 가능합니다. 모든 연구 결과를 가치 있는 통찰과 실용적인 지침으로 정리하였으며, Qwen3 시리즈(0.6B부터 30B까지)에서 이를 추가로 검증하여 견고성과 일반화 능력을 입증했습니다.
BM25 및 디리클레 평활화를 적용한 질의 가능도와 같은 검색 알고리즘은 여전히 강력하고 효율적인 1단계 순위 지정 도구이지만, 개선은 대부분 매개변수 조정과 인간의 직관에 의존해 왔습니다. 본 연구는 평가자와 진화 탐색의 지도를 받는 대규모 언어 모델이 향상된 어휘 검색 알고리즘을 자동으로 발견할 수 있는지 조사합니다. 우리는 AlphaEvolve를 기반으로 한 프로그램 진화 설정인 RankEvolve를 소개합니다. 여기서 후보 순위 알고리즘은 실행 가능한 코드로 표현되며, BEIR와 BRIGHT의 12개 IR 데이터셋 전반의 검색 성능을 바탕으로 반복적으로 변이, 재조합 및 선택됩니다. RankEvolve는 BM25와 디리클레 평활화를 적용한 질의 가능도라는 두 개의 시드 프로그램에서 시작합니다. 진화된 알고리즘은 새롭고 효과적이며, 전체 BEIR 및 BRIGHT 벤치마크와 TREC DL 19 및 20로의 유망한 전이 성능을 보여줍니다. 우리의 결과는 평가자 지도 하의 LLM 프로그램 진화가 새로운 순위 알고리즘의 자동 발견을 위한 실용적인 경로임을 시사합니다.
우리는 Gemini 3 Deep Think으로 구동되는 수학 연구 에이전트인 Aletheia(Feng et al., 2026b)의 첫 번째 FirstProof 챌린지 성과를 보고한다. 챌린지 허용 시간 내에서 Aletheia는 전문가 다수 평가에 따라 10개 문제 중 6개 문제(2, 5, 7, 8, 9, 10번)를 자율적으로 해결했다. 단, 전문가들의 의견이 불일치한 문제는 8번뿐이었다는 점을 덧붙인다. 완전한 투명성을 위해 우리의 FirstProof 해석 방식을 설명하고 실험 세부 사항 및 평가 방법을 공개한다. 원본 프롬프트와 출력은 https://github.com/google-deepmind/superhuman/tree/main/aletheia에서 확인할 수 있다.
Transformer 모델로 긴 시퀀스를 효율적으로 처리하려면 일반적으로 컨텍스트 병렬화를 통해 연산을 여러 가속기로 분할해야 합니다. Ring Attention이나 DeepSpeed Ulysses와 같은 이 방법론 계열의 주류 접근법들은 컨텍스트 차원의 확장을 가능하게 하지만 메모리 효율성에 중점을 두지 않아 지원 가능한 시퀀스 길이를 제한합니다. Fully Pipelined Distributed Transformer나 activation 오프로딩과 같은 더 발전된 기법들은 학습 처리량을 희생시키면서 가능한 컨텍스트 길이를 더욱 확장할 수 있습니다. 본 논문에서는 어텐션 헤드 수준에서 세분화된 청킹을 수행하는 간단하면서 효과적인 컨텍스트 병렬화 기법인 UPipe를 제안합니다. 이 기법은 자기 어텐션의 활성화 메모리 사용량을 크게 줄여 활성화 메모리 장벽을 극복하고 훨씬 더 긴 컨텍스트 길이를 구현합니다. 우리의 접근 방식은 320억 매개변수 Transformer 모델에서 어텐션 계층의 중간 텐서 메모리 사용량을 최대 87.5%까지 절감하면서도 학습 속도 측면에서는 기존 컨텍스트 병렬화 기법과 동등한 성능을 보입니다. UPipe는 단일 8xH100 노드에서 Llama3-8B를 학습할 때 500만 토큰의 컨텀스트 길이를 지원하며, 이는 기존 방법 대비 25% 이상 향상된 수치입니다.
이산 확산 기반 언어 모델은 자기회귀 모델보다 빠른 생성을 제공할 수 있는 잠재력으로 인해 폭넓은 관심을 받아왔습니다. 그러나 실제로는 적은 스텝 수에서 샘플 품질이 급격히 저하되어 이러한 가능성을 실현하지 못하고 있습니다. 본 연구에서는 흐름 기반 연속 잡음 제거를 활용한 언어 모델이 품질과 속도 모두에서 이산 확산 모델을 능가할 수 있음을 보여줍니다. 이산 모달리티에 대한 흐름의 기본 원리를 재검토하여 원-핫 토큰 인코딩에 대해 유클리드 잡음 제거를 수행하는 흐름 기반 언어 모델(FLM)을 구축했습니다. 이 모델은 교차 엔트로피 목적 함수를 통해 원본 데이터를 예측하는 방식으로 훈련될 수 있으며, 훈련 안정성과 생성 품질을 크게 향상시키는 간단한 시간 재매개변수화를 도입했습니다. FLM을 해당 흐름 맵으로 지식 증류함으로써 적은 스텝 수 생성이 가능한 증류 흐름 맵 언어 모델(FMLM)을 얻었습니다. LM1B 및 OWT 언어 데이터셋에서 FLM은 최첨단 이산 확산 모델에 버금가는 생성 품질을 달성했습니다. FMLM을 사용한 우리의 접근법은 최신 적은 스텝 언어 모델들을 전반적으로 능가하며, 1-스텝 생성으로 해당 모델들의 8-스텝 품질을 뛰어넘었습니다. 본 연구는 이산 모달리티에 대한 생성 모델링에 이산 확산 과정이 필요하다는 널리 퍼진 가설에 의문을 제기하며, 대규모 흐름 기반 언어 모델링의 가속화를 위한 길을 열어줍니다. 코드는 https://github.com/david3684/flm에서 확인할 수 있습니다.
실제 세계에서 AI 에이전트에 대한 요청은 근본적으로 명세가 불충분하다. 자연스러운 인간의 의사소통은 화자가 청자가 추론할 것이라 기대하는 공유된 맥락과 명시되지 않은 제약에 의존한다. 현재의 에이전트 벤치마크는 명시적 지시 따르기를 테스트하지만, 접근성 요구사항, 프라이버시 경계, 재앙적 위험, 맥락적 제약에 걸친 암묵적 요구사항을 에이전트가 추론할 수 있는지는 평가하지 못한다. 우리는 AI 에이전트가 단순한 프롬프트 수행을 넘어 진정한 목표 달성자가 될 수 있는지를 평가하는 '암묵적 지능(Implicit Intelligence)' 평가 프레임워크와, 인간이 읽을 수 있는 YAML 파일로 상호작용 세계를 정의하고 언어 모델로 시뮬레이션하는 '에이전트-월드(Agent-as-a-World, AaW)' 하네스를 제안한다. 우리의 시나리오는 사용자 요청의 겉보기 단순성, 올바른 해결책의 숨겨진 복잡성, 환경 탐색을 통한 제약 조건의 발견 가능성을 특징으로 한다. 205개 시나리오에서 16개의 최첨단 및 오픈 웨이트 모델을 평가한 결과, 가장 성능이 좋은 모델조차 시나리오 통과율이 48.3%에 그쳐, 문자 그대로의 지시 수행과 인간과 같은 맥락적 추론 사이의 격차를 해소하는 데 상당한 개선의 여지가 있음을 보여준다.
구현된 대형 언어 모델(LLM)은 로봇에게 높은 수준의 작업 추론 능력을 부여하지만, 무엇이 잘못되었는지 또는 그 이유를 반성할 수 없어 배포 과정이 실수가 경험으로 축적되기보다 반복되는 일련의 독립적인 시도로 전락합니다. 인간의 반성적 실천가 개념에서 착안하여, 우리는 두 가지 반성 모드를 통합한 '반성적 실행 시 계획(Reflective Test-Time Planning)'을 제안합니다. 첫째, 실행 중 반성(reflection-in-action)은 에이전트가 실행 전 내적 성찰을 통해 여러 후보 행동을 생성하고 평가하는 실행 시 확장(test-time scaling)을 활용합니다. 둘째, 실행 후 반성(reflection-on-action)은 실행 후 외적 성찰을 바탕으로 내적 반성 모델과 행동 정책을 동시에 업데이트하는 실행 시 훈련(test-time training)을 사용합니다. 또한 회고적 반성(retrospective reflection)을 포함하여, 에이전트가 이전 결정을 재평가하고 후견적 지식으로 모델을 업데이트함으로써 장기적 책임 귀속을 적절히 수행할 수 있도록 합니다. 새롭게 설계한 장기 가정 작업 벤치마크(Long-Horizon Household Benchmark)와 MuJoCo 캐비닛 적합 작업 벤치마크(MuJoCo Cupboard Fitting Benchmark)에서의 실험 결과, 기준 모델 대비 유의미한 성능 향상을 보였으며, ablation 연구를 통해 실행 중 반성과 실행 후 반성의 상호 보완적 역할을 검증하였습니다. 실제 로봇 실험을 포함한 정성적 분석은 반성을 통한 행동 수정 효과를 부각시킵니다.
이산 이미지 토큰화기는 변환기(transformer) 기반 아키텍처에 순차적 인터페이스를 제공함으로써 현대 시각 및 다중모달 시스템의 핵심 구성 요소로 부상했습니다. 그러나 대부분의 기존 방법은 여전히 재구성 및 압축에 주로 최적화되어 있으며, 종종 객체 수준의 의미 구조보다는 지역적 텍스처를 포착하는 토큰을 생성합니다. 인간 의사소통의 점진적이고 구성적인 특성에서 영감을 받아, 우리는 구조화된 이산 시각 토큰 시퀀스를 학습하기 위한 프레임워크인 COMiT(COMmunication inspired Tokenization)를 소개합니다. COMiT는 지역화된 이미지 영역을 반복적으로 관찰하고 이산 표현을 재귀적으로 업데이트하며 고정된 토큰 예산 내에서 잠재 메시지를 구성합니다. 각 단계에서 모델은 새로운 시각 정보를 통합함과 동시에 기존 토큰 시퀀스를 정제 및 재구성합니다. 여러 번의 인코딩 반복 후, 최종 메시지는 전체 이미지를 재구성하는 흐름 정합(flow-matching) 디코더의 조건으로 작용합니다. 인코딩과 디코딩은 모두 단일 변환기 모델 내에서 구현되며, 흐름 정합 재구성 손실과 의미 표현 정렬 손실을 결합하여 종단간(end-to-end) 학습됩니다. 우리의 실험 결과는 의미 정렬이 기초를 제공하는 동시에, 주의 기반 순차적 토큰화가 해석 가능하고 객체 중심의 토큰 구조를 유도하며, 기존 방법 대비 구성 일반화 및 관계 추론 능력을 크게 향상시키는 데 중요함을 보여줍니다.
수입 컨테이너 체류시간(ICDT) 예측은 정확한 예측을 통해 야드 크레인의 컨테이너 재취급 작업을 줄일 수 있으므로 컨테이너 터미널의 생산성 향상을 위한 핵심 과제입니다. 이 목표를 달성하기 위해서는 개별 컨테이너의 체류시간을 정확히 예측해야 합니다. 그러나 체류시간의 주요 결정 요인인 소유주 정보와 화물 정보는 비정형 텍스트로 기록되어 기계 학습 모델에서 효과적으로 활용되는 데 한계가 있습니다. 본 연구는 이러한 한계를 극복하기 위해 생성 인공지능(Gen AI)과 기계 학습을 통합한 협업 프레임워크를 제안합니다. 제안된 프레임워크는 Gen AI를 활용하여 비정형 정보를 표준 국제 코드로 표준화하고, 전자 데이터 교환 상태 업데이트에 따라 동적으로 재예측을 수행함으로써 기계 학습 모델이 ICDT를 정확하게 예측할 수 있도록 합니다. 실제 컨테이너 터미널 데이터를 이용한 폭넓은 실험 결과, 표준화된 정보를 활용하지 않는 기존 모델 대비 평균 절대 오차에서 13.88%의 성능 향상을 달성했음을 확인했습니다. 더 나아가 개선된 예측 결과를 컨테이너 적재 전략에 적용하면 재배치 횟수를 최대 14.68%까지 줄일 수 있어, Gen AI가 컨테이너 터미널 운영의 생산성 향상에 기여할 잠재력을 실증적으로 입증했습니다. 종합적으로, 본 연구는 항만 물류 분야에서 Gen AI 도입에 관한 기술적, 방법론적 통찰과 그 효과성을 제시합니다.
척추 운동 모델링은 인간 생체역학 이해의 기초이지만, 척추의 복잡한 다관절 운동학과 대규모 3D 주석 데이터 부족으로 컴퓨터 비전 분야에서 충분히 연구되지 못했습니다. 본 연구는 근골격계 모델링에서 도출된 해부학적으로 일관된 3D 척추 키포인트를 기존 인간 자세 데이터셋에 추가하는 생체역학 인식 키포인트 시뮬레이션 프레임워크를 제안합니다. 이 프레임워크를 활용하여 실내 다중 카메라 환경에서 외부 고정 없이 수행된 자연스러운 전신 동작에 대한 희소한 척추 수준 3D 주석을 제공하는 최초의 공개 데이터셋인 SIMSPINE을 구축했습니다. 214만 프레임으로 구성된 이 데이터셋은 미세한 자세 변화에서 척추 운동학을 데이터 기반으로 학습할 수 있게 하며, 근골격계 시뮬레이션과 컴퓨터 비전 간의 간극을 메꿔줍니다. 또한 미세 조정된 2D 검출기, 단안 3D 자세 추정 모델, 다중 뷰 재구성 파이프라인을 포함한 사전 학습된 기준 모델을 공개하여 생체역학적으로 타당한 척추 운동 추정을 위한 통합 벤치마크를 마련했습니다. 구체적으로, 우리의 2D 척추 기준 모델은 제어된 환경에서 기존 최고 수준의 AUC를 0.63에서 0.80으로 향상시켰으며, 실제 환경 척추 추적에서는 AP를 0.91에서 0.93으로 개선했습니다. 본 시뮬레이션 프레임워크와 SIMSPINE 데이터셋은 자연스러운 조건에서 재현 가능하며 해부학적으로 근거 있는 3D 척추 추정을 가능하게 함으로써 비전 기반 생체역학, 운동 분석, 디지털 휴먼 모델링 연구의 발전을 촉진합니다.
균일 상태 이산 확산 모델은 자기 수정 능력 덕분에 few-step 생성 및 guidance에서 뛰어나며, 이러한 설정에서 자기회귀 또는 마스크 확산 모델보다 선호됩니다. 그러나 ancestral sampler를 사용할 경우 샘플링 단계 수가 증가해도 생성 품질이 정체되는 한계가 있습니다. 본 연구에서는 기존 방법을 일반화하고 임의의 노이즈 과정에 적용 가능한 이산 확산용 Predictor-Corrector(PC) sampler 군을 제안합니다. 균일 상태 확산과 결합했을 때, 우리의 sampler는 언어 및 이미지 모델링 모두에서 ancestral sampling을 능가하며, OpenWebText에서 동일한 unigram entropy 대비 더 낮은 생성적 perplexity를, CIFAR10에서 더 나은 FID/IS 점수를 달성했습니다. 중요한 것은 기존 sampler와 달리 우리의 PC 방법은 샘플링 단계를 늘려도 지속적으로 성능이 향상된다는 점입니다. 이러한 결과는 마스크 확산이 확산 기반 언어 모델링의 필연적인 미래라는 가정에 의문을 제기합니다. 샘플링 외에도 Gaussian relaxation 훈련 단계를 위한 메모리 효율적인 curriculum을 개발하여, Duo 대비 훈련 시간을 25% 절감하고 메모리 사용량을 33% 줄이면서도 OpenWebText와 LM1B에서 비슷한 perplexity와 강력한 다운스트림 성능을 유지했습니다. 코드, 체크포인트 및 비디오 튜토리얼은 다음에서 공개합니다: https://s-sahoo.com/duo-ch2
딥러닝과 멀티모달 모델의 발전으로 광학 문자 인식(OCR) 기술이 빠르게 진보했으나, 대부분의 방법은 라틴 문자나 한자와 같은 자원이 풍부한 문자 체계에 집중되어 있다. 소수민족 언어는 복잡한 문자 체계, 부족한 주석 데이터, 역사적 및 현대적 형태의 다양성으로 인해 연구가 미흡한 실정이며, 이는 저자원 또는 제로샷 환경에서의 일반화를 어렵게 만든다. 이러한 문제를 해결하기 위해 본 논문은 소수민족 문자를 위한 범용 프레임워크인 OmniOCR를 제안한다. OmniOCR는 모델 용량을 계층 및 문자 체계 간에 동적으로 할당하는 Dynamic Low-Rank Adaptation(Dynamic LoRA)을 도입하여 기존 지식을 보존하면서 효과적인 적응을 가능하게 한다. 희소성 정규화는 중복 업데이트를 제거하여 추가 추론 비용 없이 간결하고 효율적인 적응을 보장한다. TibetanMNIST, Shui, 고대 Yi 및 Dongba 데이터셋에 대한 평가 결과, OmniOCR는 제로샷 기반 모델 및 표준 사후 학습을 능가하며 최첨단 정확도와 탁월한 매개변수 효율을 달성했고, 최신 기준 모델 대비 네 데이터셋에서 39%~66% 정확도 향상을 보였다. 코드: https://github.com/AIGeeksGroup/OmniOCR.
대규모 시각-언어 모델(VLM)은 반복적 최적화 방법을 통해 복잡한 시각 이해 과제에서 상당한 잠재력을 보여주고 있습니다. 그러나 이러한 모델들은 일반적으로 효과적인 자기 수정 메커니즘을 갖추지 못해 인지적 편향을 독립적으로 시정하기 어렵습니다. 그 결과, 다중 회차 수정 과정에서 모델은 반복적이고 비효율적인 시도에 머물며 답변 품질의 안정적인 향상을 이루지 못하는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 모델에 두 가지 핵심 능력, 즉 능력 반성(Capability Reflection)과 기억 반성(Memory Reflection)을 부여하는 새로운 반복적 자기 수정 프레임워크를 제안합니다. 이 프레임워크는 모델이 먼저 능력 반성을 통해 오류를 진단하고 수정 계획을 생성하도록 안내한 후, 기억 반성을 활용하여 과거 시도를 검토하여 반복을 피하고 새로운 해결책을 탐색하며, 마지막으로 엄격한 재추론을 통해 답변을 최적화하도록 합니다. 도전적인 OCRBench v2 벤치마크에서의 실험 결과, OCR-Agent는 영어 부분집합에서 +2.0점, 중국어 부분집합에서 +1.2점으로 현재 오픈소스 SOTA 모델인 InternVL3-8B를 능가했으며, 시각 이해(79.9)와 추론(66.5) 영역에서 파인튜닝된 더 큰 모델들까지 넘어서는 최첨단 성능을 달성했습니다. 우리의 방법은 구조화되고 자의식적인 반성이 추가 학습 없이도 VLM의 추론 강건성을 크게 향상시킬 수 있음을 입증합니다. 코드: https://github.com/AIGeeksGroup/OCR-Agent.
텍스트 문서 익명화는 매우 맥락에 민감한 문제로, 개인정보 보호와 유틸리티 보존 간의 적절한 균형은 데이터 도메인, 개인정보 보호 목표, 하위 애플리케이션에 따라 달라집니다. 그러나 기존 익명화 방법은 정적이며 수동으로 설계된 전략에 의존하여 다양한 요구 사항에 맞춰 조정할 수 있는 유연성이 부족하고, 도메인 간 일반화에 종종 실패합니다. 본 연구에서는 익명화 전략이 특정 개인정보-유틸리티 요구 사항에 맞춰 자동으로 조정되는 새로운 과제 구성인 적응형 텍스트 익명화를 소개합니다. 우리는 언어 모델을 위한 익명화 지침을 자동으로 구성하여 서로 다른 개인정보 보호 목표, 도메인, 하위 사용 패턴에의 적응을 가능하게 하는 과제 특화 프롬프트 최적화 프레임워크를 제안합니다. 우리의 접근법을 평가하기 위해 다양한 도메인, 개인정보 제약 조건, 유틸리티 목표를 가진 5개 데이터셋을 아우르는 벤치마크를 제시합니다. 평가된 모든 설정에서 우리의 프레임워크는 기존 베이스라인보다 일관되게 더 나은 개인정보-유틸리티 트레이드오프를 달성하면서도 계산적으로 효율적이며 오픈소스 언어 모델에서 효과적으로 작동하고, 더 큰 규모의 클로즈드소스 모델에 버금가는 성능을 보입니다. 또한, 우리의 방법이 개인정보-유틸리티 트레이드오프 프론티어를 따라 다양한 지점을 탐색하는 새로운 익명화 전략을 발견할 수 있음을 보여줍니다.
시각적 텍스트 렌더링(VTR)은 텍스트-이미지 생성 분야에서 여전히 중요한 과제로 남아 있으며, 최신 모델들조차도 왜곡, 흐림, 정렬 불량 등의 구조적 이상이 있는 텍스트를 빈번히 생성합니다. 그러나 저희는 주요 MLLM 및 전문 OCR 모델들이 이러한 구조적 이상을 인지하지 못하는 경우가 많아, VTR 평가와 강화학습 기반 최적화에 있어 중요한 병목 현상을 초래한다는 사실을 발견했습니다. 그 결과, 최첨단 생성 모델(예: SeedDream4.0, Qwen-Image)도 구조적으로 정확한 텍스트를 렌더링하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해 저희는 텍스트-이미지 생성기와 함께 작동하며 노이즈가 있는 보상 신호를 완화하는 플러그인 방식의 구조적 이상 인지 강화학습 전략인 TextPecker를 제안합니다. 이러한 기능을 구현하기 위해 문자 수준의 구조적 이상 주석이 포함된 인식 데이터셋을 구축하고 구조적 오류 범위를 확장하기 위한 스트로크 편집 합성 엔진을 개발했습니다. 실험 결과, TextPecker는 다양한 텍스트-이미지 모델의 성능을 지속적으로 향상시키는 것으로 나타났습니다. 특히 최적화가 잘 이루어진 Qwen-Image에서도 중국어 텍스트 렌더링 시 구조적 정확도가 평균 4%, 의미론적 일치도가 8.7% 크게 향상되어 고충실도 VTR 분야의 새로운 최첨단 기술을确立했습니다. 본 연구는 VTR 최적화의 공백을 메꾸며, 신뢰할 수 있고 구조적으로 정확한 시각적 텍스트 생성으로 나아가는 기초적인 단계를 제공합니다.
본 논문은 다양한 부분 관측 유형에 걸쳐 3D 형상 완성을 가능하게 하는 3D 파운데이션 모델의 풍부한 기하학적 사전 지식을 활용하는 제로샷 및 범주 불문 접근법인 LaS-Comp을 소개합니다. 본 연구의 기여는 세 가지입니다. 첫째, 상호 보완적인 두 단계 설계를 통해 이러한 강력한 생성적 사전 지식을 완성 작업에 활용합니다: (i) 부분 관측 기하구조를 보존하여 충실한 완성을 보장하는 명시적 대체 단계; (ii) 관측 영역과 합성 영역 사이의 경계를 매끄럽게 만드는 암시적 정제 단계. 둘째, 우리 프레임워크는 학습이 필요 없으며 다양한 3D 파운데이션 모델과 호환됩니다. 셋째, 실제 및 합성 데이터를 다양한 난이도의 부분 패턴과 결합한 포괄적인 벤치마크인 Omni-Comp을 도입하여 더욱 철저하고 현실적인 평가를 가능하게 합니다. 정량적 및 정성적 실험 모두에서 우리의 접근법이 기존 최신 기술을 능가함을 보여줍니다. 우리의 코드와 데이터는 https://github.com/DavidYan2001/LaS-Comp에서 공개될 예정입니다.
대규모 언어 모델(LLM)에 대한 수요 증가로 인해 다양한 서비스 수준 목표(SLO)를 가진 많은 동시 요청을 처리하는 서빙 시스템이 필요해졌습니다. 이는 계산 집약적인 프리필 단계에서 헤드오브라인(HoL) 블로킹을 악화시킵니다. 이 단계에서 장시간 실행되는 요청이 리소스를 독점하여 우선순위가 높은 요청들의 지연을 초래하고, 결과적으로 시간 내 첫 토큰(TTFT) SLO 위반이 광범위하게 발생합니다. 청킹 프리필은 중단 가능성을 제공하지만, 응답성과 처리량 사이의 본질적인 트레이드오프가 존재합니다. 청크 크기를 줄이면 응답 지연 시간은 개선되지만 계산 효율성이 저하되고, 청크 크기를 늘리면 처리량은 극대화되지만 블로킹이 악화됩니다. 따라서 적응형 선점 메커니즘이 필수적입니다. 그러나 실행 세분화와 스케줄링 오버헤드를 동적으로 균형 잡는 것은 여전히 핵심 과제로 남아 있습니다. 본 논문에서는 이러한 갈등을 해결하기 위해 선점 세분화와 스케줄링 빈도를 분리하는 TTFT-굿풋 최적화 서빙 시스템인 FlowPrefill을 제안합니다. 적응형 프리필 스케줄링을 구현하기 위해 FlowPrefill은 두 가지 핵심 혁신을 도입합니다: 1) **연산자 수준 선점**: 고정된 작은 청킹과 관련된 효율성 손실 없이 세분화된 실행 중단을 가능하게 하기 위해 연산자 경계를 활용합니다. 2) **이벤트 기반 스케줄링**: 요청 도착 또는 완료 시점에만 스케줄링 결정을 트리거하여 효율적인 선점 응답성을 지원하면서 제어 평면 오버헤드를 최소화합니다. 실제 프로덕션 트레이스에 대한 평가 결과, FlowPrefill은 최신 시스템과 비교하여 이질적인 SLO를 만족시키면서 최대 굿풋을 최대 5.6배까지 향상시키는 것으로 나타났습니다.
LLM 훈련 데이터 탐지는 일반적으로 멤버십 추론 공격(MIA) 문제로 정의된다. 그러나 기존 MIA는 고정된 모델 가중치에 대해 로그 우도나 텍스트 생성을 사용하여 수동적으로 작동한다. 본 연구에서는 훈련을 통해 주어진 텍스트의 재구성을 모델이 능동적으로 수행하도록 유도하는 MIA 기법 계열인 능동적 데이터 재구성 공격(ADRA)을 소개한다. 우리는 훈련 데이터가 비회원 데이터보다 재구성이 더 용이하며, 이 재구성 가능성 차이를 멤버십 추론에 활용할 수 있다고 가정한다. 강화 학습(RL)이 가중치에 이미 인코딩된 행동을 선명하게 만든다는 연구 결과에 착안하여, 우리는 대상 모델로 초기화된 정책을 파인튜닝하여 데이터 재구성을 능동적으로 이끌어내기 위해 온-폴리시 RL을 활용한다. MIA에 RL을 효과적으로 적용하기 위해 재구성 메트릭과 대조적 보상을 설계한다. 이를 통해 도출된 알고리즘인 ADRA 및 그의 적응형 변종 ADRA+는 후보 데이터 풀이 주어졌을 때 재구성과 탐지 성능을 모두 향상시킨다. 실험 결과, 우리의 방법은 사전 훈련, 사후 훈련, 증류 데이터 탐지에서 기존 MIA를 지속적으로 능가하며, 평균 10.7%의 성능 향상을 보인다. 특히 ADRA+는 사전 훈련 탐지를 위한 BookMIA에서 Min-K%++ 대비 18.8%, 사후 훈련 탐지를 위한 AIME에서 7.6% 향상된 성능을 보인다.