번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 각 계층의 은닉 상태에 인과 관계를 체인 형태로 통합하여 모델 학습의 확장 효율성과 배치 시의 추론 유연성을 크게 향상시키는 새로운 학습 패러다임인 Chain-of-Model(CoM)을 제안한다. 여기서는 Chain-of-Representation(CoR) 개념을 소개하며, 이는 각 계층의 은닉 상태를 은닉 차원 수준에서 다수의 하위 표현(즉, 체인)의 조합으로 형식화한다. 각 계층에서 출력 표현의 각 체인은 입력 표현의 선행 체인들만을 볼 수 있다. 결과적으로, CoM 프레임워크에 기반한 모델은 이전 모델(즉, 체인)을 기반으로 체인을 증가시켜 모델 크기를 점진적으로 확장할 수 있으며, 다양한 체인 수를 사용하여 탄력적 추론을 위한 다수의 하위 모델을 제공할 수 있다. 이 원리를 바탕으로, Transformer 아키텍처의 각 계층에 CoM 아이디어를 통합한 Chain-of-Language-Model(CoLM)을 설계한다. CoLM을 기반으로, 첫 번째 체인 내에서 모든 키와 값을 계산한 후 이를 모든 체인에 공유하는 KV 공유 메커니즘을 도입하여 CoLM-Air를 추가로 소개한다. 이 설계는 원활한 언어 모델 전환, 프리필링 가속화 등과 같은 추가적인 확장성을 보여준다. 실험 결과는 CoLM 계열이 표준 Transformer와 비슷한 성능을 달성하면서도, 학습 효율성을 개선하기 위한 점진적 확장 및 탄력적 추론을 위한 다양한 모델 크기 제공과 같은 더 큰 유연성을 동시에 가능하게 함을 보여준다. 이를 통해 언어 모델 구축을 위한 새로운 방향을 제시한다. 본 연구의 코드는 향후 https://github.com/microsoft/CoLM에서 공개될 예정이다.
최근, 대규모 추론 모델들은 인간과 유사한 심층 사고를 활용하여 다양한 과제에서 인상적인 성능을 달성했습니다. 그러나 이러한 긴 사고 과정은 추론 오버헤드를 상당히 증가시켜 효율성이 주요 병목 현상으로 대두되고 있습니다. 본 연구에서는 먼저 비교적 단순한 과제에 대해 사고 과정을 건너뛰고 최종 해결책을 직접 생성하도록 유도하는 NoThinking이 성능과 효율성 측면에서 더 나은 선택임을 입증했습니다. 이를 바탕으로 우리는 문제 난이도에 따라 적응적으로 최적의 사고 모드를 선택하도록 추론 모델을 가르치는 새로운 강화 학습 알고리즘인 AdaptThink을 제안합니다. 구체적으로, AdaptThink은 두 가지 핵심 구성 요소를 특징으로 합니다: (1) 전반적인 성능을 유지하면서 NoThinking을 선택하도록 유도하는 제약 최적화 목표; (2) 온-정책 학습 과정에서 Thinking과 NoThinking 샘플을 균형 있게 조정하는 중요도 샘플링 전략으로, 이를 통해 콜드 스타트를 가능하게 하고 학습 과정 전반에 걸쳐 두 사고 모드를 탐색 및 활용할 수 있도록 합니다. 실험 결과, AdaptThink은 추론 비용을 크게 줄이면서도 성능을 더욱 향상시키는 것으로 나타났습니다. 특히, 세 가지 수학 데이터셋에서 AdaptThink은 DeepSeek-R1-Distill-Qwen-1.5B의 평균 응답 길이를 53% 줄이고 정확도를 2.4% 향상시켜, 추론 품질과 효율성 간의 균형을 최적화하는 적응적 사고 모드 선택의 잠재력을 입증했습니다. 우리의 코드와 모델은 https://github.com/THU-KEG/AdaptThink에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 뛰어난 능력을 보여주지만, 정교한 추론이 필요한 작업에서 종종 어려움을 겪습니다. 사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅은 추론 능력을 크게 향상시키지만, 모든 질의에 대해 무차별적으로 긴 추론 단계를 생성하여 특히 단순한 입력에 대해 상당한 계산 비용과 비효율성을 초래합니다. 이러한 중요한 문제를 해결하기 위해, 우리는 LLM이 CoT를 언제 호출할지 적응적으로 결정할 수 있는 새로운 프레임워크인 AdaCoT(Adaptive Chain-of-Thought)를 소개합니다. AdaCoT는 적응적 추론을 파레토 최적화 문제로 설정하여 모델 성능과 CoT 호출과 관련된 비용(빈도 및 계산 오버헤드)을 균형 있게 조정합니다. 우리는 강화 학습(Reinforcement Learning, RL) 기반 방법, 특히 Proximal Policy Optimization(PPO)을 활용하여 패널티 계수를 조정함으로써 CoT 트리거 결정 경계를 동적으로 제어하여 모델이 암묵적 질의 복잡성에 기반하여 CoT 필요성을 결정할 수 있도록 합니다. 주요 기술적 기여는 다단계 RL 훈련 중 결정 경계 붕괴를 방지하기 위해 설계된 선택적 손실 마스킹(Selective Loss Masking, SLM)으로, 강력하고 안정적인 적응적 트리거를 보장합니다. 실험 결과, AdaCoT는 파레토 프론티어를 성공적으로 탐색하며, 정교한 추론이 필요하지 않은 질의에 대해 CoT 사용을 상당히 줄였습니다. 예를 들어, 우리의 프로덕션 트래픽 테스트셋에서 AdaCoT는 CoT 트리거 비율을 3.18%까지 낮추고 평균 응답 토큰 수를 69.06% 감소시키면서도 복잡한 작업에서 높은 성능을 유지했습니다.
연쇄적 사고 추론이 가능한 추론 언어 모델(Reasoning Language Models)은 복잡한 논리적 추론이 필요한 과제에서 뛰어난 성능을 보여왔다. 그러나 모든 질의에 대해 정교한 추론을 적용하는 것은 종종 상당한 계산 비효율성을 초래하며, 특히 많은 문제가 간단한 해결책을 허용하는 경우에 그러하다. 이는 다음과 같은 열린 질문을 제기한다: LLM은 언제 사고해야 하는지를 학습할 수 있는가? 이를 해결하기 위해, 우리는 Thinkless라는 학습 가능한 프레임워크를 제안한다. 이 프레임워크는 LLM이 과제의 복잡성과 모델의 능력에 기반하여 짧은 형식과 긴 형식의 추론 사이를 적응적으로 선택할 수 있도록 한다. Thinkless는 강화 학습 패러다임 하에서 훈련되며, 간결한 응답을 위한 <short>와 상세한 추론을 위한 <long> 두 가지 제어 토큰을 사용한다. 우리 방법의 핵심은 Decoupled Group Relative Policy Optimization(DeGRPO) 알고리즘으로, 이는 하이브리드 추론의 학습 목표를 두 가지 구성 요소로 분해한다: (1) 추론 모드 선택을 제어하는 제어 토큰 손실, 그리고 (2) 생성된 답변의 정확성을 향상시키는 응답 손실. 이러한 분리된 구성은 각 목표의 기여를 세밀하게 제어할 수 있게 하여 훈련을 안정화하고 기본 GRPO에서 관찰된 붕괴를 효과적으로 방지한다. 실험적으로, Minerva Algebra, MATH-500, GSM8K과 같은 여러 벤치마크에서 Thinkless는 긴 사고 체인의 사용을 50%에서 90%까지 줄이며, 추론 언어 모델의 효율성을 크게 향상시킬 수 있었다. 코드는 https://github.com/VainF/Thinkless에서 확인할 수 있다.
트랜스포머의 어텐션 메커니즘은 2차 복잡도를 가지며, 이로 인해 긴 시퀀스에 대해 높은 추론 비용과 지연 시간이 발생합니다. 그러나 어텐션 행렬은 대부분 희소(sparse)하므로, 효율적인 추론을 위해 많은 항목을 계산에서 생략할 수 있습니다. 희소 어텐션 추론 방법은 이러한 계산 부담을 줄이기 위해 고안되었지만, 성능 저하라는 문제를 동반합니다. 우리는 이러한 성능 저하의 한 가지 원인이 희소 계산이 어텐션 출력의 분포 변화(distributional shift)를 유발하기 때문임을 발견했습니다. 이 분포 변화는 디코딩 시점의 쿼리가 프리필(prefill) 단계의 적절한 키와 잘 정렬되지 못하게 하여 성능 하락을 초래합니다. 우리는 이러한 분포 변화를 교정하기 위해 간단하고 독창적이며 효과적인 절차를 제안합니다. 이 방법은 희소 어텐션 출력의 분포를 2차 어텐션에 가깝게 조정합니다. 우리의 방법은 어떤 희소 어텐션 방법에도 적용할 수 있으며, 평균 36%p의 성능 향상을 가져옵니다. 특히, 싱크 토큰(sink tokens)을 사용한 슬라이딩 윈도우 어텐션(sliding window attention) 위에 적용했을 때, 131K RULER 벤치마크에서 2차 어텐션 정확도의 88%를 회복하면서도 작은 오버헤드만 추가합니다. 또한, 우리의 방법은 전체 2차 어텐션 대비 약 98.5%의 희소성을 유지할 수 있어, 1백만 토큰 프리필을 처리할 때 Flash Attention 2보다 32배 빠른 속도를 달성합니다.
그래픽 사용자 인터페이스(GUI) 그라운딩, 즉 자연어 명령을 그래픽 사용자 인터페이스의 특정 동작으로 매핑하는 능력은 컴퓨터 사용 에이전트 개발에서 여전히 중요한 병목 현상으로 남아 있습니다. 현재 벤치마크는 그라운딩 작업을 짧은 참조 표현으로 지나치게 단순화하여, 소프트웨어 상식, 레이아웃 이해, 세밀한 조작 능력이 필요한 실제 상호작용의 복잡성을 제대로 반영하지 못하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 텍스트 매칭, 요소 인식, 레이아웃 이해, 정밀 조작 등 다양한 작업 유형을 포함하는 564개의 세밀하게 주석이 달린 샘플로 구성된 종합 벤치마크인 OSWorld-G를 소개합니다. 또한, 우리는 작업을 다중 관점에서 분해하여 400만 개의 예시를 포함한 가장 큰 컴퓨터 사용 그라운딩 데이터셋 Jedi를 합성 및 공개합니다. Jedi로 훈련된 우리의 다중 스케일 모델은 ScreenSpot-v2, ScreenSpot-Pro 및 우리의 OSWorld-G에서 기존 접근법을 능가하며 그 효과를 입증합니다. 더 나아가, 우리는 Jedi를 통한 개선된 그라운딩이 복잡한 컴퓨터 작업에서 일반 기반 모델의 에이전트 능력을 직접 향상시켜 OSWorld에서 5%에서 27%로 성능이 개선됨을 보여줍니다. 상세한 어블레이션 연구를 통해, 우리는 그라운딩 성능에 기여하는 주요 요소를 식별하고, 다양한 인터페이스 요소에 대한 특화된 데이터를 결합함으로써 새로운 인터페이스에 대한 조합적 일반화가 가능함을 검증합니다. 모든 벤치마크, 데이터, 체크포인트 및 코드는 오픈소스로 제공되며 https://osworld-grounding.github.io에서 확인할 수 있습니다.
모델 병합은 대규모 언어 모델을 향상시키기 위한 유망한 기술로 부상했지만, 대규모 사전 학습에서의 적용은 상대적으로 탐구되지 않았습니다. 본 논문에서는 사전 학습 과정에서의 모델 병합 기술에 대한 포괄적인 연구를 제시합니다. 수백만에서 1000억 개 이상의 파라미터를 가진 밀집(Dense) 및 Mixture-of-Experts(MoE) 아키텍처를 대상으로 한 광범위한 실험을 통해, 고정 학습률로 훈련된 체크포인트를 병합하는 것이 성능 개선뿐만 아니라 어닐링(annealing) 동작의 정확한 예측도 가능하게 함을 입증합니다. 이러한 개선은 더 효율적인 모델 개발과 상당히 낮은 훈련 비용으로 이어집니다. 병합 전략과 하이퍼파라미터에 대한 상세한 어블레이션 연구는 기본 메커니즘에 대한 새로운 통찰을 제공하면서 새로운 응용 분야를 발견합니다. 포괄적인 실험 분석을 통해, 우리는 오픈소스 커뮤니티에 효과적인 모델 병합을 위한 실용적인 사전 학습 가이드라인을 제시합니다.
비디오 확산 트랜스포머(DiTs)의 확장은 3차원 어텐션의 이차적 복잡도로 인해 제한되며, 대부분의 어텐션 가중치는 소수의 위치에 집중된다는 점이 관찰되었습니다. 우리는 이러한 관찰을 바탕으로 VSA(Video Sparse Attention)를 제안합니다. VSA는 학습 가능하고 하드웨어 효율적인 희소 어텐션으로, 학습과 추론 모두에서 전체 어텐션을 대체합니다. VSA에서는 경량화된 coarse 단계에서 토큰을 타일로 풀링하고 높은 가중치를 가진 중요한 토큰을 식별합니다. 이후 fine 단계에서는 해당 타일 내에서만 토큰 수준의 어텐션을 계산하며, 블록 컴퓨팅 레이아웃을 적용하여 하드웨어 효율성을 보장합니다. 이를 통해 단일 미분 가능 커널이 엔드투엔드로 학습되며, 사후 프로파일링이 필요 없고 FlashAttention3 MFU의 85%를 유지합니다. 우리는 60M에서 1.4B 파라미터까지 DiTs를 사전 학습하며 대규모 ablation 연구와 스케일링 법칙 실험을 수행했습니다. VSA는 확산 손실의 감소 없이 학습 FLOPS를 2.53배 절감하는 파레토 포인트에 도달했습니다. 오픈소스 Wan-2.1 모델에 VSA를 적용한 결과, 어텐션 시간이 6배 빨라졌고, 엔드투엔드 생성 시간이 31초에서 18초로 단축되었으며 품질은 유지되었습니다. 이러한 결과는 학습 가능한 희소 어텐션이 전체 어텐션의 실용적인 대안이자 비디오 확산 모델의 추가 확장을 위한 핵심 요소임을 입증합니다.
실제 이미지가 어떻게 보이는지 측정하는 것은 인공지능 연구에서 복잡한 과제이다. 예를 들어, 사막에서 청소기를 들고 있는 소년의 이미지는 상식에 어긋난다. 본 연구에서는 대형 시각-언어 모델(LVLMs)과 트랜스포머 기반 인코더를 활용하여 이미지의 상식 일관성을 평가하는 새로운 방법인 'Through the Looking Glass(TLG)'를 소개한다. LVLMs를 활용하여 이러한 이미지에서 원자적 사실을 추출함으로써 정확한 사실들의 혼합을 얻는다. 이후, 인코딩된 원자적 사실에 대해 컴팩트한 어텐션 풀링 분류기를 미세 조정한다. 우리의 TLG는 WHOOPS! 및 WEIRD 데이터셋에서 컴팩트한 미세 조정 요소를 활용하면서 새로운 최첨단 성능을 달성하였다.
최근 동적 3D 장면 재구성 기술의 발전은 높은 충실도의 3D 새로운 시점 합성과 개선된 시간적 일관성을 가능하게 하며 유망한 결과를 보여주고 있다. 이 중에서도 4D 가우시안 스플래팅(4DGS)은 높은 충실도의 공간적 및 시간적 변화를 모델링할 수 있는 능력으로 인해 주목받는 접근 방식으로 부상했다. 그러나 기존 방법들은 정적 영역에 4D 가우시안을 과도하게 할당함으로써 상당한 계산 및 메모리 오버헤드를 겪으며, 이는 이미지 품질 저하로도 이어질 수 있다. 본 연구에서는 정적 영역은 3D 가우시안으로 적응적으로 표현하고 동적 요소는 4D 가우시안으로 유지하는 새로운 프레임워크인 하이브리드 3D-4D 가우시안 스플래팅(3D-4DGS)을 소개한다. 우리의 방법은 완전한 4D 가우시안 표현으로 시작하여 시간적으로 불변인 가우시안을 반복적으로 3D로 변환함으로써 매개변수 수를 크게 줄이고 계산 효율성을 향상시킨다. 한편, 동적 가우시안은 완전한 4D 표현을 유지하여 복잡한 움직임을 높은 충실도로 포착한다. 우리의 접근 방식은 기준선 4D 가우시안 스플래팅 방법에 비해 훨씬 빠른 학습 시간을 달성하면서도 시각적 품질을 유지하거나 개선한다.
인간 지능의 핵심 구성 요소인 추론 능력은 AGI(인공 일반 지능)를 추구하는 과정에서 대규모 언어 모델(LLMs)에게 여전히 큰 도전 과제로 남아 있습니다. 모델 성능이 훈련 스케일링 법칙에 따라 개선되었음에도 불구하고, 특히 훈련 알고리즘 측면에서 치명적 망각(catastrophic forgetting)과 새로운 훈련 데이터의 제한된 가용성과 같은 상당한 과제들이 남아 있습니다. 대안으로, 테스트 시간 스케일링(test-time scaling)은 매개변수 업데이트 없이 테스트 시간 계산을 증가시켜 추론 성능을 향상시킵니다. 이 패러다임에서 이전의 방법들이 토큰 공간에 초점을 맞췄던 것과 달리, 우리는 더 효과적인 추론과 테스트 시간 스케일링 법칙에의 더 나은 준수를 위해 잠재 공간(latent space)을 활용할 것을 제안합니다. 우리는 모델의 잠재 공간 내에서 테스트 시간 인스턴스 수준 적응(Test-Time Instance-level Adaptation, TTIA)을 통해 LLM의 추론 능력을 향상시키는 새로운 프레임워크인 LatentSeek를 소개합니다. 구체적으로, LatentSeek는 자체 생성된 보상 신호를 통해 잠재 표현을 반복적으로 업데이트하기 위해 정책 경사(policy gradient)를 활용합니다. LatentSeek는 GSM8K, MATH-500, AIME2024를 포함한 다양한 추론 벤치마크에서 여러 LLM 아키텍처에 걸쳐 평가되었습니다. 결과는 LatentSeek가 사고 연쇄(Chain-of-Thought) 프롬프트 및 미세 조정(fine-tuning) 기반 방법과 같은 강력한 베이스라인을 지속적으로 능가함을 보여줍니다. 또한, 우리의 분석은 LatentSeek가 평균 복잡도의 문제에 대해 일반적으로 몇 번의 반복 내에 수렴하는 동시에 추가 반복으로부터 이점을 얻는 등 매우 효율적임을 입증하며, 이는 잠재 공간에서의 테스트 시간 스케일링의 잠재력을 강조합니다. 이러한 연구 결과는 LatentSeek를 LLM의 추론 능력을 향상시키기 위한 가볍고 확장 가능하며 효과적인 솔루션으로 자리매김합니다.
멀티모달 대형 언어 모델(MLLM)은 비전-언어 이해 분야에서 인상적인 진전을 이루었지만, 여전히 복잡한 다단계 추론에는 어려움을 겪으며, 종종 논리적으로 일관되지 않거나 부분적으로만 정확한 해결책을 제시합니다. 이러한 한계의 핵심은 중간 추론 단계에 대한 세밀한 감독이 부족하다는 점에 있습니다. 이를 해결하기 위해, 우리는 완전히 자동화되고 확장 가능한 프레임워크 내에서 훈련된 프로세스 보상 모델인 MM-PRM을 제안합니다. 먼저, 다양한 수학적 추론 데이터로 훈련된 강력한 멀티모달 모델인 MM-Policy를 구축합니다. 그런 다음, 검증 가능한 답을 포함한 10,000개의 멀티모달 수학 문제로 구성된 MM-K12 데이터셋을 구축하여 시드 데이터로 활용합니다. 몬테카를로 트리 탐색(MCTS) 기반 파이프라인을 통해, 인간의 라벨링 없이 700,000개 이상의 단계별 주석을 생성합니다. 결과적으로 얻은 PRM은 Best-of-N 추론 설정에서 후보 추론 경로를 점수화하는 데 사용되며, 도메인 내(MM-K12 테스트 세트) 및 도메인 외(OlympiadBench, MathVista 등) 벤치마크에서 모두 상당한 개선을 달성합니다. 추가 분석은 소프트 라벨, 더 작은 학습률, 그리고 경로 다양성이 PRM 성능 최적화에 효과적임을 확인합니다. MM-PRM은 프로세스 감독이 멀티모달 추론 시스템의 논리적 견고성을 강화하는 강력한 도구임을 입증합니다. 우리는 모든 코드와 데이터를 https://github.com/ModalMinds/MM-PRM에서 공개합니다.
규칙 기반 강화 학습(RL)의 최근 발전은 규칙 기반 보상을 통해 언어 모델(LM)의 추론 능력을 크게 향상시켰다. 그러나 GRPO, REINFORCE++, RLOO와 같은 기존 RL 방법들은 훈련 불안정성 문제를 자주 겪는데, 이는 큰 정책 업데이트와 부적절한 클리핑이 훈련 붕괴로 이어질 수 있기 때문이다. 이러한 문제를 해결하기 위해, 우리는 정책 드리프트를 고려한 클리핑 정책 경사 최적화(CPGD)라는 새로운 알고리즘을 제안한다. CPGD는 KL 발산을 기반으로 한 정책 드리프트 제약을 도입하여 정책 업데이트를 동적으로 규제하고, 비율의 로그에 클립 메커니즘을 적용하여 과도한 정책 업데이트를 방지한다. 우리는 CPGD에 대한 이론적 근거를 제시하고, 실험적 분석을 통해 이전 접근법에서 관찰된 불안정성을 완화함을 입증한다. 또한, CPGD가 훈련 안정성을 유지하면서 성능을 크게 향상시킴을 보인다. 우리의 구현은 이론적 엄밀성과 실용적 사용성을 균형 있게 조화시켜, LM의 사후 훈련에서 RL을 위한 강력한 대안을 제공한다. 우리는 코드를 https://github.com/ModalMinds/MM-EUREKA에서 공개한다.
대형 언어 모델(LLMs)은 상당한 진전을 이끌었지만, 점점 증가하는 파라미터 수와 컨텍스트 윈도우는 엄청난 컴퓨팅 비용, 에너지 비용, 그리고 금전적 비용을 초래하고 있다. 본 연구에서는 EfficientLLM이라는 새로운 벤치마크와 대규모 LLM을 위한 효율성 기술을 평가한 첫 번째 포괄적인 실증 연구를 소개한다. 프로덕션급 클러스터(48xGH200, 8xH200 GPU)에서 수행된 이 연구는 세 가지 주요 축을 체계적으로 탐구한다: (1) 아키텍처 사전 학습(효율적인 어텐션 변형: MQA, GQA, MLA, NSA; 희소 Mixture-of-Experts(MoE)), (2) 미세 조정(파라미터 효율적 방법: LoRA, RSLoRA, DoRA), 그리고 (3) 추론(양자화 방법: int4, float16). 우리는 하드웨어 포화도, 지연-처리량 균형, 그리고 탄소 비용을 포착하기 위해 여섯 가지 세분화된 지표(메모리 활용률, 컴퓨팅 활용률, 지연 시간, 처리량, 에너지 소비, 압축률)를 정의했다. 100개 이상의 모델-기술 쌍(0.5B-72B 파라미터)을 평가하여 세 가지 핵심 통찰을 도출했다: (i) 효율성은 정량적인 트레이드오프를 수반한다: 단일 방법이 보편적으로 최적이 아니다; 예를 들어, MoE는 FLOPs를 줄이고 정확도를 향상시키지만 VRAM을 40% 증가시키며, int4 양자화는 메모리/에너지를 최대 3.9배 절감하지만 정확도가 3-5% 하락한다. (ii) 최적은 작업과 규모에 따라 다르다: MQA는 제한된 장치에서 최적의 메모리-지연 트레이드오프를 제공하며, MLA는 품질이 중요한 작업에서 가장 낮은 perplexity를 달성하고, RSLoRA는 14B 파라미터를 초과하는 경우에만 LoRA의 효율성을 능가한다. (iii) 기술은 다양한 모달리티에 걸쳐 일반화된다: 우리는 대형 비전 모델(Stable Diffusion 3.5, Wan 2.1)과 비전-언어 모델(Qwen2.5-VL)로 평가를 확장하여 효과적인 전이 가능성을 확인했다. 데이터셋, 평가 파이프라인, 그리고 리더보드를 오픈소스로 공개함으로써, EfficientLLM은 차세대 기반 모델의 효율성-성능 지형을 탐색하는 연구자와 엔지니어에게 필수적인 지침을 제공한다.
저순위 적응(Low-Rank Adaptation, LoRA)은 고정된 사전 학습된 가중치에 두 개의 학습 가능한 저순위 행렬의 곱을 도입하여, 연합 학습(Federated Learning, FL)에서 언어 모델의 효율적인 미세 조정에 널리 사용됩니다. 그러나 차등 프라이버시 확률적 경사 하강법(Differentially Private Stochastic Gradient Descent, DP-SGD)과 결합될 경우, LoRA는 상당한 노이즈 증폭 문제에 직면합니다: DP-SGD는 개별 샘플의 그래디언트를 교란시키며, LoRA 업데이트(BA)의 행렬 곱셈은 이러한 효과를 더욱 증폭시킵니다. 한 행렬(예: A)을 고정하면 노이즈는 줄어들지만 모델의 표현력이 제한되어 종종 최적의 적응을 달성하지 못합니다. 이를 해결하기 위해, 우리는 특이값 분해(Singular Value Decomposition, SVD)를 기반으로 한 전역 재매개변수화를 도입하는 간단하면서도 효과적인 방법인 FedSVD를 제안합니다. 우리의 접근 방식에서, 각 클라이언트는 B 행렬만 최적화하고 이를 서버로 전송합니다. 서버는 B 행렬들을 집계하고 이전 A를 사용하여 BA 곱을 계산한 후, SVD를 통해 결과를 재분해합니다. 이를 통해 BA의 직교 정규화된 오른쪽 특이 벡터로 구성된 새로운 적응형 A와, 나머지 SVD 성분을 포함한 업데이트된 B를 얻습니다. 이 재매개변수화는 이차 노이즈 증폭을 피하면서도 A가 집계 업데이트의 주요 방향을 더 잘 포착할 수 있도록 합니다. 또한, A의 직교 정규 구조는 B의 그래디언트 노름을 제한하고 DP-SGD 하에서 더 많은 신호를 보존합니다. 이는 우리의 이론적 분석을 통해 확인되었습니다. 결과적으로, FedSVD는 다양한 프라이버시 설정과 벤치마크에서 안정성과 성능을 지속적으로 개선하며, 프라이버시 및 비프라이버시 체제 모두에서 관련 기준선을 능가합니다.
추론 시간 스케일링 기법은 재학습 없이 추론 시 추가적인 계산 자원을 활용함으로써 대규모 언어 모델(LLMs)의 추론 능력을 크게 향상시켰다. 마찬가지로, Chain-of-Thought (CoT) 프롬프팅과 그 확장인 Long CoT는 풍부한 중간 추론 경로를 생성하여 정확도를 개선하지만, 이러한 접근 방식은 상당한 토큰 비용을 초래하여 지연 시간에 민감한 환경에서의 배포를 방해한다. 본 연구에서는 먼저, 추론을 완료하기 전에 중단하고 최종 답변을 직접 생성하는 truncated CoT가 종종 전체 CoT 샘플링과 동등한 성능을 보이면서도 훨씬 적은 토큰을 사용함을 보여준다. 이러한 통찰을 바탕으로, 우리는 Fractured Sampling을 소개한다. 이는 세 가지 직교 축(1) 추론 경로의 수, (2) 경로당 최종 해결책의 수, (3) 추론 흔적이 중단되는 깊이를 따라 전체 CoT와 해결책만 샘플링 사이를 보간하는 통합 추론 시간 전략이다. 다섯 가지 다양한 추론 벤치마크와 여러 모델 규모에 걸친 광범위한 실험을 통해, Fractured Sampling이 일관적으로 우수한 정확도-비용 절충을 달성하며, Pass@k 대 토큰 예산에서 가파른 로그-선형 스케일링 이득을 제공함을 입증한다. 우리의 분석은 이러한 차원에서 계산 자원을 어떻게 할당하여 성능을 극대화할 수 있는지를 보여주며, 더 효율적이고 확장 가능한 LLM 추론을 위한 길을 열어준다.
대규모 언어 모델(LLM)은 입력 프롬프트(질문)에 따라 다양한 수준의 확신을 보입니다: 어떤 프롬프트는 일관적이고 의미론적으로 유사한 답변을 생성하는 반면, 다른 프롬프트는 다양하거나 상반된 출력을 내놓습니다. 이러한 변동은 LLM이 입력 프롬프트에 대해 가지는 불확실성을 반영하며, 모델이 주어진 문제를 얼마나 확신적으로 이해하고 있는지를 나타내는 신호입니다. 그러나 기본적인 그룹 상대 정책 최적화(GRPO)는 정책 업데이트 과정에서 모든 프롬프트를 동등하게 취급하여 모델의 지식 경계에 대한 이러한 중요한 정보를 무시합니다. 이러한 한계를 해결하기 위해, 우리는 SEED-GRPO(의미론적 엔트로피 강화 GRPO)를 제안합니다. SEED-GRPO는 LLM의 입력 프롬프트에 대한 불확실성을 의미론적 엔트로피로 명시적으로 측정합니다. 의미론적 엔트로피는 주어진 프롬프트에 대해 생성된 여러 답변의 의미 다양성을 측정하고, 이를 정책 업데이트의 크기를 조절하는 데 사용합니다. 이 불확실성 인지 훈련 메커니즘은 질문의 불확실성에 기반하여 정책 업데이트 크기를 동적으로 조정할 수 있게 합니다. 이를 통해 높은 불확실성을 가진 질문에 대해서는 보수적인 업데이트를 수행하면서도, 확신이 있는 질문에 대해서는 원래의 학습 신호를 유지할 수 있습니다. 다섯 가지 수학적 추론 벤치마크(AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, OlympiadBench 48.0)에서의 실험 결과는 SEED-GRPO가 평균 정확도에서 새로운 최첨단 성능을 달성함을 보여주며, 불확실성 인지 정책 최적화의 효과를 입증합니다.
대규모 시각-언어 모델은 다양한 시각 인식 작업을 처리할 수 있는 내재적 능력을 보여줍니다. 본 논문에서는 여러 시각 인식 작업을 공유 모델 내에서 추론하고 해결할 수 있는 통합 프레임워크인 VisionReasoner를 소개합니다. 구체적으로, 새로운 다중 객체 인지 학습 전략과 체계적인 작업 재구성을 설계함으로써 VisionReasoner는 시각 입력을 분석하는 추론 능력을 강화하고 다양한 인식 작업을 통합 프레임워크 내에서 처리합니다. 이 모델은 사용자 질의에 응답하여 원하는 출력을 제공하기 전에 구조화된 추론 과정을 생성합니다. 통합 시각 인식 능력을 엄격하게 평가하기 위해, 우리는 VisionReasoner를 탐지, 분할, 계수라는 세 가지 중요한 도메인에 걸친 열 가지 다양한 작업에서 평가합니다. 실험 결과, VisionReasoner는 통합 모델로서 우수한 성능을 달성하며, COCO(탐지)에서 Qwen2.5VL 대비 29.1%, ReasonSeg(분할)에서 22.1%, CountBench(계수)에서 15.3%의 상대적 차이로 앞섰습니다.
차트 이해는 대형 시각-언어 모델(LVLMs)에게 독특한 도전 과제를 제시하며, 이는 정교한 텍스트 및 시각적 추론 능력의 통합을 요구한다. 그러나 현재의 LVLMs는 이러한 기술 간에 현저한 불균형을 보이며, 텍스트로 수행하기 어려운 시각적 추론에서 부족함을 드러낸다. 우리는 시각적 추론만으로 해결 가능한 합성 데이터셋을 사용한 사례 연구를 수행하고, 시각적 복잡성이 증가함에 따라 모델 성능이 크게 저하되는 반면 인간의 성능은 견고하게 유지됨을 보여준다. 이어서 우리는 ChartMuseum이라는 새로운 차트 질의응답(QA) 벤치마크를 소개한다. 이 벤치마크는 184개 출처의 실제 차트에서 선별된 다양한 추론 유형을 아우르는 1,162개의 전문가 주석 질문으로 구성되어 있으며, 복잡한 시각 및 텍스트 추론을 평가하기 위해 특별히 제작되었다. 기존의 차트 이해 벤치마크와 달리, 선두 모델들이 유사한 성능을 보이고 포화 상태에 근접한 반면, 우리의 벤치마크는 모델과 인간의 성능 간에 상당한 격차를 드러내며 모델 능력을 효과적으로 구분한다: 인간은 93%의 정확도를 달성한 반면, 최고 성능 모델인 Gemini-2.5-Pro는 63.0%에 그쳤고, 선두 오픈소스 LVLM인 Qwen2.5-VL-72B-Instruct는 38.5%에 불과했다. 또한, 주로 시각적 추론이 필요한 질문에서 모든 모델은 텍스트 추론 중심 질문 성능 대비 35%-55%의 성능 하락을 경험했다. 마지막으로, 우리의 질적 오류 분석은 현재 LVLMs에게 도전적인 시각적 추론의 특정 범주를 밝혀냈다.
검색 의도의 정확한 인식은 특히 자원 제약과 중첩 구조 및 의존성을 가진 복잡한 쿼리에서 Retrieval-Augmented Generation (RAG) 시스템의 주요 과제로 남아 있습니다. 본 논문은 이러한 격차를 해소하기 위해 언어학적 문법 규칙과 컴파일러 설계에서 영감을 받은 신경-기호적 프레임워크인 QCompiler를 제안합니다. 이 프레임워크는 복잡한 쿼리를 형식화하기 위해 최소한이면서도 충분한 Backus-Naur Form (BNF) 문법 G[q]를 이론적으로 설계합니다. 기존 방법과 달리, 이 문법은 중복성을 최소화하면서도 완전성을 유지합니다. 이를 기반으로 QCompiler는 쿼리를 Abstract Syntax Trees (ASTs)로 컴파일하여 실행하기 위한 Query Expression Translator, Lexical Syntax Parser, 그리고 Recursive Descent Processor를 포함합니다. 리프 노드에 있는 하위 쿼리의 원자성은 더 정확한 문서 검색과 응답 생성을 보장하며, 이를 통해 RAG 시스템의 복잡한 쿼리 처리 능력을 크게 향상시킵니다.
대형 언어 모델(Large Language Models)을 기호적 플래너(symbolic planner)와 통합하는 것은 자연어로 계획을 수립하는 것에 비해 검증 가능하고 근거 있는 계획을 얻기 위한 유망한 방향으로, 최근 연구에서는 비전-언어 모델(Vision-Language Models, VLMs)을 사용하여 이를 시각적 영역으로 확장하고 있습니다. 그러나 VLM 기반 기호적 접근 방식과 VLM을 직접 사용하여 계획을 수립하는 방법 간의 엄격한 비교는 공통 환경, 평가 프로토콜 및 모델 범위의 부재로 인해 어려움을 겪어 왔습니다. 우리는 기호적 술어(symbolic predicates)와 VLMs를 사용한 시각적 계획(Visual Planning)을 위한 첫 번째 오픈소스 벤치마크인 ViPlan을 소개합니다. ViPlan은 고전적인 Blocksworld 계획 문제의 시각적 변형과 시뮬레이션된 가정용 로봇 환경이라는 두 가지 도메인에서 점점 더 어려워지는 일련의 과제를 제공합니다. 우리는 다양한 크기의 9개의 오픈소스 VLM 패밀리와 선택된 폐쇄형 모델을 벤치마크하며, VLM 기반 기호적 계획과 모델을 직접 사용하여 행동을 제안하는 방법을 모두 평가합니다. 우리는 정확한 이미지 그라운딩(image grounding)이 중요한 Blocksworld에서는 기호적 계획이 직접적인 VLM 계획을 능가하는 반면, 상식적 지식과 오류에서 복구하는 능력이 유리한 가정용 로봇 과제에서는 그 반대임을 발견했습니다. 마지막으로, 대부분의 모델과 방법에서 Chain-of-Thought 프롬프팅을 사용하는 것이 큰 이점을 제공하지 않음을 보여주며, 이는 현재의 VLMs가 여전히 시각적 추론에 어려움을 겪고 있음을 시사합니다.
보상 모델은 언어 모델의 출력을 인간의 선호와 일치시키는 데 필수적이지만, 기존 접근법은 통제 가능성과 해석 가능성 모두에서 부족한 경우가 많다. 이러한 모델들은 일반적으로 좁은 목표에 최적화되어 있어, 더 광범위한 다운스트림 작업으로의 일반화가 제한된다. 또한, 스칼라 형태의 출력은 맥락적 추론 없이는 해석하기 어렵다. 이러한 한계를 해결하기 위해, 우리는 루브릭에 구애받지 않고 평가 차원에 걸쳐 일반화 가능하며, 해석 가능하고 논리적인 점수 할당을 제공하는 새로운 보상 모델링 프레임워크인 R3를 소개한다. R3는 언어 모델의 평가를 더 투명하고 유연하게 가능하게 하여, 다양한 인간의 가치와 사용 사례와의 견고한 정렬을 지원한다. 우리의 모델, 데이터, 그리고 코드는 https://github.com/rubricreward/r3에서 오픈 소스로 제공된다.
우리는 SLED라는 새로운 음성 언어 모델링 접근 방식을 소개합니다. 이 방법은 음성 파형을 연속적인 잠재 표현 시퀀스로 인코딩하고, 이를 에너지 거리 목적 함수를 사용해 자기회귀적으로 모델링합니다. 에너지 거리는 시뮬레이션된 샘플과 목표 샘플을 대조함으로써 분포 간의 차이를 분석적으로 측정하며, 이를 통해 기저에 있는 연속적인 자기회귀 분포를 효과적으로 학습할 수 있습니다. 잔차 벡터 양자화에 대한 의존성을 우회함으로써, SLED는 이산화 오류를 피하고 기존 음성 언어 모델에서 흔히 사용되는 복잡한 계층적 아키텍처의 필요성을 제거합니다. 이는 전체 모델링 파이프라인을 단순화하면서도 음성 정보의 풍부함을 유지하고 추론 효율성을 유지합니다. 실험 결과는 SLED가 제로샷 및 스트리밍 음성 합성 모두에서 강력한 성능을 달성함을 보여주며, 이는 일반 목적의 음성 언어 모델에서의 광범위한 적용 가능성을 시사합니다.
대규모 언어 모델(LLM)의 최근 발전은 자동화된 과학적 발견, 즉 AI 공동 과학자라는 비전을 촉진시켰습니다. 지금까지의 연구는 이러한 시스템을 가설 구성, 코드 합성, 또는 원고 작성과 같은 생성적 공동 저자로 간주해 왔습니다. 본 연구에서는 보완적인 응용 분야를 탐구합니다: LLM을 검증자로 활용하여 과학 논문의 학술적 검증을 자동화하는 것입니다. 이를 위해, 우리는 실제 저자와 인간 주석자와 교차 검증된 83편의 출판 논문과 이를 수정하거나 철회하게 만든 91개의 오류를 짝지은 SPOT 데이터셋을 소개합니다. SPOT에서 최첨단 LLM을 평가한 결과, 어떤 모델도 21.1%의 재현율 또는 6.1%의 정밀도를 넘지 못했습니다(o3가 가장 높은 점수를 기록했으며, 다른 모든 모델은 거의 0에 가까웠습니다). 또한, 신뢰도 추정치는 전반적으로 낮았으며, 8번의 독립 실행에서 모델이 동일한 오류를 재발견하는 경우는 드물어 신뢰성이 떨어짐을 보여주었습니다. 마지막으로, 도메인 전문가와의 질적 분석은 가장 강력한 모델조차도 오해에서 비롯된 학생 수준의 오류를 범한다는 것을 드러냈습니다. 이러한 발견들은 현재 LLM의 능력과 신뢰할 수 있는 AI 지원 학술 검증에 필요한 요구 사항 사이의 상당한 격차를 강조합니다.
인간 이미지 애니메이션은 디지털 휴먼 분야에서의 광범위한 응용 가능성으로 인해 점점 더 많은 관심을 받으며 빠르게 발전하고 있습니다. 그러나 기존 방법들은 주로 2D 렌더링된 포즈 이미지에 의존하여 동작을 안내하는 방식으로, 이는 일반화를 제한하고 오픈 월드 애니메이션에 필수적인 3D 정보를 버리게 됩니다. 이 문제를 해결하기 위해, 우리는 원시 3D 동작 시퀀스(즉, 4D 동작)를 직접 모델링하는 최초의 프레임워크인 MTVCrafter(Motion Tokenization Video Crafter)를 제안합니다. 구체적으로, 우리는 4DMoT(4D motion tokenizer)를 도입하여 3D 동작 시퀀스를 4D 동작 토큰으로 양자화합니다. 2D 렌더링된 포즈 이미지와 비교했을 때, 4D 동작 토큰은 더 강력한 시공간적 단서를 제공하며 포즈 이미지와 캐릭터 간의 엄격한 픽셀 수준 정렬을 피함으로써 더 유연하고 분리된 제어를 가능하게 합니다. 다음으로, 우리는 MV-DiT(Motion-aware Video DiT)를 소개합니다. 4D 위치 인코딩을 활용한 독특한 동작 주의 메커니즘을 설계함으로써, MV-DiT는 복잡한 3D 세계에서 인간 이미지 애니메이션을 위한 4D의 간결하면서도 표현력 있는 컨텍스트로서 동작 토큰을 효과적으로 활용할 수 있습니다. 따라서 이는 이 분야에서 중요한 진전을 이루었으며, 포즈 기반 인간 비디오 생성에 새로운 방향을 제시합니다. 실험 결과, 우리의 MTVCrafter는 FID-VID 점수 6.98로 최첨단 성능을 달성하며, 두 번째로 우수한 방법보다 65% 앞서는 성과를 보였습니다. 강력한 동작 토큰의 힘을 받아, MTVCrafter는 다양한 스타일과 시나리오에서 다양한 오픈 월드 캐릭터(단일/다중, 전신/반신)에 대해 우수한 일반화 성능을 보입니다. 우리의 비디오 데모와 코드는 https://github.com/DINGYANB/MTVCrafter에서 확인할 수 있습니다.
이미지 생성 모델은 광범위한 응용 분야에서 활용되고 있다. 예를 들어, TarFlow 모델은 트랜스포머 아키텍처와 정규화 흐름(Normalizing Flow) 모델을 결합하여 여러 벤치마크에서 최첨단 성능을 달성하였다. 그러나 주의 메커니즘의 인과적 형태가 순차적 계산을 요구하기 때문에, TarFlow의 샘플링 과정은 매우 느리다는 단점이 있다. 본 논문에서는 일련의 최적화 전략을 통해 Gauss-Seidel-Jacobi(이하 GS-Jacobi) 반복법을 사용하여 TarFlow 샘플링을 크게 가속화할 수 있음을 보인다. 구체적으로, TarFlow 모델의 블록들은 다양한 중요성을 지니고 있음을 발견하였다: 소수의 블록들이 이미지 생성 작업에서 주요 역할을 하는 반면, 다른 블록들은 상대적으로 적은 기여를 한다; 일부 블록들은 초기값에 민감하고 수치적 오버플로우가 발생하기 쉬운 반면, 다른 블록들은 상대적으로 견고하다. 이러한 두 가지 특성을 바탕으로, 우리는 수렴 순위 지표(Convergence Ranking Metric, CRM)와 초기 추정 지표(Initial Guessing Metric, IGM)를 제안한다: CRM은 TarFlow 블록이 "단순한"(적은 반복으로 수렴)지 "까다로운"(더 많은 반복이 필요)지를 식별하는 데 사용되며, IGM은 반복의 초기값이 좋은지 평가하는 데 사용된다. 네 가지 TarFlow 모델에 대한 실험 결과, GS-Jacobi 샘플링은 생성된 이미지의 품질(FID로 측정)을 유지하면서 샘플링 효율성을 크게 향상시켰으며, Img128cond에서는 4.53배, AFHQ에서는 5.32배, Img64uncond에서는 2.96배, Img64cond에서는 2.51배의 속도 향상을 달성하였다. 코드와 체크포인트는 https://github.com/encoreus/GS-Jacobi_for_TarFlow에서 확인할 수 있다.
Tiny QA Benchmark++(TQB++)는 대규모 언어 모델(LLM) 파이프라인을 위한 초경량 다국어 스모크 테스트 스위트로, 단위 테스트 스타일의 안전망 데이터셋을 제공하며 최소 비용으로 몇 초 만에 실행됩니다. 이는 Comet Opik 프롬프트 최적화 SDK를 개발하는 과정에서 무거운 벤치마크 대기 시간이 개발자 흐름을 방해하는 문제를 해결하기 위해 탄생했습니다. TQB++는 52개 항목의 영어 골드 세트(20kB 미만)와 LiteLLM 기반의 초경량 합성 데이터 생성기 pypi 패키지를 결합합니다. 이 생성기를 통해 실무자들은 어떤 언어, 도메인, 난이도에서도 자신만의 초소형 데이터 팩을 생성할 수 있으며, 아랍어, 중국어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 러시아어, 스페인어, 터키어를 포함한 10개의 사전 제작 팩이 이미 준비되어 있습니다. 모든 데이터셋은 Croissant 메타데이터와 OpenAI-Evals, LangChain, 표준 CI 도구를 위한 플러그 앤 플레이 파일을 제공하므로, 팀들은 GPU 예산을 건드리지 않고도 풀 리퀘스트 게이트, 프롬프트 엔지니어링 루프, 프로덕션 대시보드에 결정론적 마이크로 벤치마크를 바로 적용할 수 있습니다. TQB++ 전체 실행은 파이프라인 지연 시간에 불과 몇 초만 추가하지만, MMLU나 BIG-Bench 같은 대규모 테스트 스위트가 설정을 완료하기 훨씬 전에 프롬프트 템플릿 오류, 토크나이저 드리프트, 파인튜닝 부작용 등을 신뢰성 있게 탐지합니다. 이 프레임워크는 생성형 AI 생태계 전반에 걸쳐 지속적이고 자원 효율적인 품질 보증을 가속화하기 위해 공개되었습니다.
의사와 환자 모두 임상 사례를 진단하기 위해 대형 언어 모델(LLMs)을 점점 더 많이 사용하고 있다. 그러나 수학이나 코딩과 같은 분야와 달리, 의학 진단에서는 최종 답변뿐만 아니라 추론 과정도 정확해야 한다. 현재 널리 사용되는 MedQA 및 MMLU와 같은 의학 벤치마크는 최종 답변의 정확성만 평가하며, 임상 추론 과정의 질과 신뢰성을 간과하고 있다. 이러한 한계를 해결하기 위해, 우리는 임상의가 작성한 진단 추론과의 일치 능력을 평가하기 위한 첫 번째 공개 데이터셋인 MedCaseReasoning을 소개한다. 이 데이터셋은 14,489개의 진단 질문-답변 사례로 구성되어 있으며, 각 사례는 공개 의학 사례 보고서에서 도출된 상세한 추론 설명과 짝을 이룬다. 우리는 MedCaseReasoning에서 최첨단 추론 LLMs를 평가하고, 그들의 진단과 추론에서 상당한 결함을 발견했다: 예를 들어, 최고 성능의 오픈소스 모델인 DeepSeek-R1은 10샷 진단 정확도에서 48%에 불과하며, 임상의 추론 설명의 64%만 언급했다(재현율). 그러나 우리는 MedCaseReasoning에서 도출된 추론 흔적을 기반으로 LLMs를 미세 조정하면 진단 정확도와 임상 추론 재현율이 각각 평균 29%와 41%의 상대적 향상을 보인다는 것을 입증했다. 공개 데이터셋, 코드 및 모델은 https://github.com/kevinwu23/Stanford-MedCaseReasoning에서 확인할 수 있다.
비디오 생성 분야에서의 상당한 발전에도 불구하고, 물리적으로 타당한 인간 동작을 합성하는 것은 여전히 지속적인 과제로 남아 있으며, 특히 세밀한 의미론과 복잡한 시간적 역학을 모델링하는 데 있어서 더욱 그러하다. 예를 들어, "0.5회전 스위치 리프"와 같은 체조 동작을 생성하는 것은 현재의 방법들로는 상당한 어려움을 겪으며, 종종 만족스럽지 못한 결과를 초래한다. 이러한 격차를 해소하기 위해, 우리는 물리학을 통합하여 효과적인 골격 안내를 제공하는 세밀한 인간 동작 생성 프레임워크인 FinePhys를 제안한다. 구체적으로, FinePhys는 먼저 온라인 방식으로 2D 포즈를 추정한 다음, 컨텍스트 학습을 통해 2D에서 3D로 차원을 확장한다. 순수 데이터 기반 3D 포즈의 불안정성과 제한된 해석 가능성을 완화하기 위해, 우리는 오일러-라그랑주 방정식에 의해 제어되는 물리 기반 동작 재추정 모듈을 추가로 도입하여, 양방향 시간적 업데이트를 통해 관절 가속도를 계산한다. 물리적으로 예측된 3D 포즈는 데이터 기반 포즈와 융합되어, 확산 과정을 위한 다중 스케일 2D 히트맵 안내를 제공한다. FineGym의 세 가지 세밀한 동작 하위 집합(FX-JUMP, FX-TURN, FX-SALTO)에서 평가된 FinePhys는 경쟁적인 베이스라인을 크게 능가한다. 포괄적인 질적 결과는 FinePhys가 더 자연스럽고 타당한 세밀한 인간 동작을 생성할 수 있는 능력을 추가로 입증한다.
테스트 타임 스케일링(Test-Time Scaling, TTS)은 모델의 매개변수를 변경하지 않고 추론 과정에서 추가적인 계산을 할당함으로써 추론 성능을 향상시키는 접근법을 의미한다. 기존의 TTS 방법들은 더 많은 중간 단계를 생성함으로써 이산 토큰 공간에서 동작하지만, 최근 Coconut과 SoftCoT 연구에서는 연속 잠재 공간에서 사고하는 것이 추론 성능을 더욱 향상시킬 수 있음을 보여주었다. 이러한 잠재적 사고는 자기회귀적 토큰 생성과 관련된 정보 손실 없이 정보를 포함한 사고를 인코딩하며, 이는 연속 공간 추론에 대한 관심을 증가시키고 있다. 반복 샘플링이 다양한 추론 경로를 탐색할 수 있도록 하는 이산 디코딩과 달리, 연속 공간의 잠재 표현은 주어진 입력에 대해 고정되어 있으며, 이는 모든 디코딩된 경로가 동일한 잠재적 사고에서 비롯되기 때문에 다양한 탐색을 제한한다. 이러한 한계를 극복하기 위해, 우리는 SoftCoT++를 도입하여 SoftCoT를 테스트 타임 스케일링 패러다임으로 확장하고 다양한 사고 경로 탐색을 가능하게 한다. 구체적으로, 우리는 여러 특수화된 초기 토큰을 통해 잠재적 사고를 교란하고, 대조 학습을 적용하여 소프트 사고 표현 간의 다양성을 촉진한다. 다섯 가지 추론 벤치마크와 두 가지 다른 LLM 아키텍처에 대한 실험을 통해 SoftCoT++가 SoftCoT를 크게 향상시키고, 자기 일관성 스케일링을 적용한 SoftCoT보다도 우수한 성능을 보임을 입증하였다. 또한, 이는 자기 일관성과 같은 기존의 스케일링 기법과 강력한 호환성을 보인다. 소스 코드는 https://github.com/xuyige/SoftCoT에서 확인할 수 있다.
비디오 확산 모델(DMs)은 고품질 비디오 합성을 가능하게 했습니다. 그러나 이러한 모델의 상당한 계산 및 메모리 요구 사항은 고성능 GPU에서도 실제 배포에 심각한 문제를 제기합니다. 일반적으로 채택되는 해결책인 양자화는 이미지 DMs의 비용 절감에서 두드러진 성공을 거두었지만, 이를 비디오 DMs에 직접 적용하는 것은 효과적이지 못했습니다. 본 논문에서는 극도로 낮은 비트 양자화(예: 4비트 이하)에서 고성능 및 효율적인 추론을 위한 비디오 DMs를 위한 새로운 양자화 인지 학습(QAT) 프레임워크인 QVGen을 제안합니다. 먼저, QAT의 수렴을 촉진하기 위해 그래디언트 노름을 줄이는 것이 필수적임을 이론적으로 분석합니다. 이를 위해, 큰 양자화 오류를 완화하기 위한 보조 모듈(Phi)을 도입하여 수렴을 크게 향상시킵니다. Phi의 추론 오버헤드를 제거하기 위해, 점진적으로 Phi를 제거하는 랭크 감소 전략을 제안합니다. 구체적으로, 우리는 반복적으로 특이값 분해(SVD)와 제안된 랭크 기반 정규화 감마를 사용하여 낮은 기여도를 가진 구성 요소를 식별하고 감소시킵니다. 이 전략은 성능을 유지하면서 추론 오버헤드를 제로로 만듭니다. 1.3B에서 14B에 이르는 파라미터 크기를 가진 4개의 최신 비디오 DMs에 대한 광범위한 실험을 통해, QVGen이 4비트 설정에서 완전 정밀도에 필적하는 품질을 처음으로 달성함을 보여줍니다. 더욱이, 기존 방법을 크게 능가합니다. 예를 들어, 우리의 3비트 CogVideoX-2B는 VBench에서 Dynamic Degree에서 +25.28, Scene Consistency에서 +8.43의 개선을 달성했습니다.
최근 OpenAI-o1 및 DeepSeek-R1과 같은 대형 추론 모델(LRMs)의 등장은 수학 및 코딩과 같은 복잡한 문제에서 인상적인 성능을 보여주고 있다. 일부 선구적인 연구들은 이러한 LRMs의 성공을 신경 기계 번역(MT)에 적용하려는 시도를 하고 있다. 이들은 강화 학습(RL)을 통해 깊은 추론 능력을 갖춘 MT용 LRMs를 구축하려고 한다. 일부 진전이 있었음에도 불구하고, 이러한 시도들은 일반적으로 영어와 중국어와 같은 고자원 언어에 초점을 맞추고 있어 다른 언어에서의 성능은 불분명하다. 또한, 기존 연구에서의 보상 모델링 방법은 MT에서 강화 학습의 잠재력을 완전히 발휘하지 못하고 있다. 본 연구에서는 먼저 정책 MT 모델의 번역 결과를 강력한 LRM(즉, DeepSeek-R1-671B)과 비교하고, 이를 정량화하여 보상을 제공하는 새로운 보상 모델링 방법을 설계한다. 실험 결과는 이 보상 모델링 방법의 우수성을 입증한다. Qwen2.5-7B-Instruct를 백본으로 사용하여 훈련된 모델은 문학 번역에서 새로운 최첨단 성능을 달성하며, OpenAI-o1 및 DeepSeek-R1을 포함한 강력한 LRMs를 능가한다. 더 나아가, 우리는 이 방법을 11개 언어로 구성된 다국어 설정으로 확장한다. RL에서 신중하게 설계된 경량 보상 모델링을 통해 단일 방향에서의 강력한 MT 능력을 다중(즉, 90개) 번역 방향으로 간단히 전이할 수 있으며, 인상적인 다국어 MT 성능을 달성한다.
디지털 병리학(Digital Pathology, DP) 분야, 특히 인공지능과 파운데이션 모델(Foundation Models)을 통한 최근의 발전은 대규모, 다양성, 그리고 풍부한 주석이 달린 데이터셋의 중요성을 강조해 왔습니다. 그러나 공개된 전체 슬라이드 이미지(Whole Slide Image, WSI) 데이터셋은 종종 충분한 규모, 조직 다양성, 그리고 포괄적인 임상 메타데이터가 부족하여 AI 모델의 견고성과 일반화 능력을 제한하고 있습니다. 이에 대응하여, 우리는 다양한 조직 유형에서 수집된 60,000개 이상의 슬라이드로 구성된 대규모, 다중모달, 오픈 액세스 WSI 컬렉션인 HISTAI 데이터셋을 소개합니다. HISTAI 데이터셋의 각 사례는 진단, 인구통계학적 정보, 상세한 병리학적 주석, 그리고 표준화된 진단 코드를 포함한 광범위한 임상 메타데이터와 함께 제공됩니다. 이 데이터셋은 기존 리소스에서 확인된 격차를 메우고, 혁신, 재현성, 그리고 임상적으로 관련성이 높은 계산 병리학 솔루션의 개발을 촉진하기 위해 설계되었습니다. 데이터셋은 https://github.com/HistAI/HISTAI에서 접근할 수 있습니다.
선호도 데이터셋은 인간 피드백 강화 학습(RLHF)을 통해 일반 도메인 지시 수행 언어 모델을 훈련하는 데 필수적입니다. 각 후속 데이터 릴리스는 향후 데이터 수집에 대한 기대치를 높이며, 이는 공개적으로 이용 가능한 선호도 데이터의 품질과 다양성을 지속적으로 발전시켜야 할 필요가 있음을 의미합니다. 이러한 필요를 해결하기 위해, 우리는 CC-BY-4.0 라이선스로 제공되는 고품질의 인간 주석 선호도 데이터셋인 HelpSteer3-Preference를 소개합니다. 이 데이터셋은 40,000개 이상의 샘플로 구성되어 있으며, STEM, 코딩 및 다국어 시나리오와 관련된 작업을 포함한 대규모 언어 모델(LLM)의 다양한 실제 응용 사례를 다룹니다. HelpSteer3-Preference를 사용하여, 우리는 RM-Bench(82.4%)와 JudgeBench(73.7%)에서 최고 성능을 달성하는 보상 모델(RM)을 훈련했습니다. 이는 기존 RM에서 보고된 최고 결과보다 약 10% 절대적인 개선을 나타냅니다. 우리는 HelpSteer3-Preference가 생성형 RM 훈련에도 적용될 수 있으며, 우리의 RM을 사용하여 정책 모델을 RLHF와 정렬할 수 있는 방법을 보여줍니다. 데이터셋(CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
인간-컴퓨터 상호작용은 오랫동안 우리의 선호도와 습관부터 일상 행동의 시기와 목적까지 이해하는 기술을 상상해왔습니다. 그러나 현재의 사용자 모델은 여전히 단편적이며, 특정 애플리케이션에 맞춰져 있고, 이러한 비전을 실현하기 위해 필요한 유연한 추론 능력이 부족합니다. 이 논문은 컴퓨터와의 모든 상호작용을 관찰함으로써 사용자에 대해 학습하는 일반 사용자 모델(GUM)의 아키텍처를 제시합니다. GUM은 사용자의 비정형 관찰 데이터(예: 디바이스 스크린샷)를 입력으로 받아 해당 사용자의 지식과 선호도를 포착하는 신뢰도 가중치 명제를 구성합니다. GUM은 사용자가 친구와 주고받은 메시지를 통해 결혼식을 준비하고 있다는 것을 추론할 수 있습니다. 또는 사용자가 협력자의 피드백으로 인해 초안 수정이 멈추고 관련 자료를 읽는 것으로 전환하는 것을 관찰함으로써 어려움을 겪고 있다는 것을 인식할 수 있습니다. GUM은 다중 모드 관찰로부터 사용자에 대한 새로운 명제를 추론하고, 관련 명제를 검색하여 문맥을 제공하며, 기존 명제를 지속적으로 수정하는 아키텍처를 도입합니다. GUM이 가능하게 하는 다양한 응용 프로그램을 설명하기 위해, 우리는 GUM이 채팅 기반 어시스턴트에 문맥을 추가하고, OS 알림을 관리하여 중요한 정보를 선택적으로 표시하며, 앱 간 선호도에 적응하는 인터랙티브 에이전트를 가능하게 하는 방법을 보여줍니다. 또한, 우리는 GUM을 사용하여 유용한 제안을 발견하고 사용자를 대신해 실행하는 사전 예방적 어시스턴트(GUMBO)를 구현합니다. 평가 결과, GUM은 사용자에 대해 보정된 정확한 추론을 수행하며, GUM을 기반으로 구축된 어시스턴트는 사용자가 명시적으로 요청하지 않을 행동을 사전에 식별하고 수행하는 것으로 나타났습니다. 전반적으로, GUM은 다중 모드 모델을 활용하여 비정형 문맥을 이해하는 방법을 도입함으로써, 오랜 HCI 비전과 사용자 요구를 예측하는 완전히 새로운 인터랙티브 시스템을 가능하게 합니다.
동형이의어(homograph) 해소는 문자-음소 변환(G2P)에서 특히 저자원 언어를 대상으로 할 때 여전히 중요한 과제로 남아 있습니다. 이 문제는 두 가지 측면에서 발생합니다: (1) 균형 잡히고 포괄적인 동형이의어 데이터셋을 구축하는 작업은 노동 집약적이며 비용이 많이 들고, (2) 특정 해소 전략은 추가적인 지연 시간을 초래하여 스크린 리더와 같은 접근성 도구와 같은 실시간 애플리케이션에는 적합하지 않습니다. 본 논문에서는 이러한 두 가지 문제를 모두 해결하고자 합니다. 먼저, 동형이의어 중심 데이터셋 구축을 위한 반자동화 파이프라인을 제안하고, 이 파이프라인을 통해 생성된 HomoRich 데이터셋을 소개하며, 이를 페르시아어를 위한 최첨단 딥러닝 기반 G2P 시스템에 적용하여 그 효과를 입증합니다. 둘째, 오프라인에서 풍부한 데이터셋을 활용하여 스크린 리더와 같은 지연 시간에 민감한 접근성 애플리케이션에 적합한 빠른 규칙 기반 방법을 개발하는 패러다임 전환을 주장합니다. 이를 위해 가장 잘 알려진 규칙 기반 G2P 시스템 중 하나인 eSpeak을 개선하여 빠른 동형이의어 인식 버전인 HomoFast eSpeak을 개발했습니다. 우리의 실험 결과는 딥러닝 기반 시스템과 eSpeak 시스템 모두에서 동형이의어 해소 정확도가 약 30% 향상되었음을 보여줍니다.
초기 원시인들은 제스처, 발성, 그리고 간단한 신호를 통해 협력, 계획 수립, 포식자 회피, 자원 공유를 수행했습니다. 오늘날 인간은 복잡한 언어를 사용하여 놀라운 결과를 달성하며 협력합니다. 무엇이 이러한 의사소통의 진화를 이끌었을까요? 언어는 어떻게 발생하고, 적응하며, 팀워크에 필수적인 요소가 되었을까요? 언어의 기원을 이해하는 것은 여전히 도전적인 과제입니다. 언어학과 인류학 분야의 주요 가설은 언어가 초기 인간 협력의 생태적, 사회적 요구를 충족하기 위해 진화했다고 주장합니다. 언어는 고립된 상태에서 발생한 것이 아니라, 공동의 생존 목표를 통해 발전했습니다. 이러한 관점에서 영감을 받아, 우리는 다중 에이전트 포징 게임(Foraging Games)에서의 언어 발생을 연구합니다. 이러한 환경은 의사소통의 진화에 영향을 미쳤을 것으로 여겨지는 인지적, 생태적 제약을 반영하도록 설계되었습니다. 에이전트는 공유된 그리드 세계에서 다른 에이전트와 환경에 대한 부분적인 지식만을 가지고 작동하며, 고가치 목표물을 수집하거나 시간 순서에 따른 행동을 실행하는 등의 게임을 완료하기 위해 협력해야 합니다. 종단간 심층 강화 학습을 사용하여, 에이전트는 행동과 의사소통 전략을 처음부터 학습합니다. 우리는 에이전트가 자연 언어의 특징인 임의성, 상호 교환성, 전위성, 문화적 전달, 그리고 구성성을 갖춘 의사소통 프로토콜을 개발한다는 것을 발견했습니다. 우리는 각 속성을 정량화하고, 인구 규모와 시간적 의존성과 같은 다양한 요인이 발생한 언어의 특정 측면을 어떻게 형성하는지 분석합니다. 우리의 프레임워크는 부분적 관찰 가능성, 시간적 추론, 그리고 구체화된 다중 에이전트 설정에서의 협력 목표로부터 언어가 어떻게 진화할 수 있는지 연구하기 위한 플랫폼 역할을 합니다. 우리는 모든 데이터, 코드, 모델을 공개할 예정입니다.
고성능 소형 언어 모델(SLM)을 훈련시키는 것은 더 큰 교사 모델로부터의 지식 증류(knowledge distillation)와 가지치기(pruning)를 사용하더라도 여전히 비용이 많이 듭니다. 기존 연구는 주로 세 가지 주요 문제에 직면합니다: (1) 강력한 가지치기로 인한 정보 손실, (2) 표현 정렬의 비효율성, (3) 피드포워드 네트워크(FFN)와 같은 정보성 활성화의 미흡한 활용. 이러한 문제를 해결하기 위해, 우리는 강력한 교사 모델과의 행동적 동등성을 목표로 하는 효율적인 사전 훈련 방법인 Low-Rank Clone(LRC)을 제안합니다. LRC는 교사 모델의 가중치를 압축하여 소프트 가지치기를 가능하게 하고, FFN 신호를 포함한 학생 모델의 활성화를 교사 모델과 정렬하여 활성화 복제를 가능하게 하는 일련의 저랭크 투영 행렬을 훈련합니다. 이 통합된 설계는 명시적인 정렬 모듈 없이도 지식 전달을 극대화합니다. 오픈소스 교사 모델(예: Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct)을 사용한 광범위한 실험에서 LRC는 수조 개의 토큰으로 훈련된 최첨단 모델을 능가하거나 동등한 성능을 보이면서도 단 200억 개의 토큰만 사용하여 1,000배 이상의 훈련 효율성을 달성했습니다. 우리의 코드와 모델 체크포인트는 https://github.com/CURRENTF/LowRankClone와 https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf에서 확인할 수 있습니다.
보안 텍스트에서 적대적 기법을 정확히 식별하는 것은 효과적인 사이버 방어에 있어 매우 중요합니다. 그러나 기존 방법들은 근본적인 딜레마에 직면해 있습니다: 도메인 정밀도가 제한된 일반 모델에 의존하거나, 대규모 레이블 데이터셋과 작업별 최적화(예: 맞춤형 하드 네거티브 마이닝 및 노이즈 제거)가 필요한 자원 집약적 파이프라인을 필요로 하는데, 이러한 자원은 특수 분야에서는 거의 사용할 수 없습니다. 우리는 이러한 격차를 해소하기 위해 도메인 특화 검색 증강 생성(RAG) 프레임워크인 TechniqueRAG를 제안합니다. 이 프레임워크는 기성 검색기, 명령어 튜닝된 대형 언어 모델(LLM), 그리고 최소한의 텍스트-기법 쌍을 통합합니다. 우리의 접근 방식은 제한된 도메인 내 예제에 대해 생성 구성요소만 미세 조정함으로써 데이터 부족 문제를 해결하며, 자원 집약적인 검색 훈련의 필요성을 피합니다. 기존 RAG는 검색과 생성을 결합하여 환각 현상을 완화하지만, 일반 검색기에 의존함으로써 노이즈가 많은 후보를 도입하여 도메인 특화 정밀도를 제한합니다. 이를 해결하기 위해, 우리는 제로샷 LLM 재순위를 통해 검색 품질과 도메인 특이성을 강화하며, 이는 검색된 후보를 적대적 기법과 명시적으로 정렬합니다. 여러 보안 벤치마크에서의 실험은 TechniqueRAG가 광범위한 작업별 최적화나 레이블 데이터 없이도 최첨단 성능을 달성함을 보여주며, 포괄적인 분석은 추가적인 통찰을 제공합니다.
이미지 신호 처리기(ISP)는 현대 스마트폰 카메라에서 RAW 센서 이미지 데이터를 RGB 이미지로 변환하는 핵심 구성 요소로, 지각적 품질에 중점을 둡니다. 최근 연구는 딥러닝 접근법의 잠재력과 전문가용 카메라에 점점 가까워지는 디테일 캡처 능력을 강조하고 있습니다. 학습 가능한 ISP를 개발할 때 어렵고 비용이 많이 드는 단계는 스마트폰 카메라 센서가 캡처한 RAW 이미지를 고품질 참조 이미지에 매핑하는 픽셀 단위 정렬된 짝지어진 데이터를 획득하는 것입니다. 본 연구에서는 RAW 이미지와 내용이 일치하는 실측 데이터 간의 직접적인 대응 관계 없이도 학습 가능한 ISP를 훈련할 수 있는 새로운 방법을 제안하여 이 문제를 해결합니다. 우리의 비짝지어진 접근법은 사전 훈련된 네트워크의 특징 맵을 처리하는 다중 판별자를 사용한 적대적 학습으로 안내되는 다중 항목 손실 함수를 활용하여, 대상 RGB 데이터셋에서 색상 및 질감 특성을 학습하면서도 내용 구조를 유지합니다. 모바일 기기에 적합한 경량 신경망 아키텍처를 백본으로 사용하여, 우리는 이 방법을 Zurich RAW to RGB 및 Fujifilm UltraISP 데이터셋에서 평가했습니다. 짝지어진 훈련 방법과 비교했을 때, 우리의 비짝지어진 학습 전략은 강력한 잠재력을 보여주며 여러 평가 지표에서 높은 충실도를 달성했습니다. 코드와 사전 훈련된 모델은 https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data에서 확인할 수 있습니다.
복잡한 과학 및 기술 문서 내에서 미묘한 기술적 오류를 식별하는 것은, 특히 다중 모드 해석(예: 이미지 내 수식)이 필요한 경우, 대규모 언어 모델(LLMs)에게 상당한 장벽으로 작용하며, 이러한 모델의 내재적 오류 수정 경향이 부정확성을 가릴 수 있다. 이 탐색적 개념 증명(PoC) 연구는 지속적 워크플로 프롬프팅(PWP) 원칙에 기반한 구조화된 LLM 컨텍스트 조건화를 추론 시 이러한 LLM 행동을 조절하는 방법론적 전략으로 조사한다. 이 접근법은 API 접근이나 모델 수정 없이 표준 채팅 인터페이스만을 활용하여 일반 목적 LLM(특히 Gemini 2.5 Pro와 ChatGPT Plus o3)의 정밀 검증 작업에 대한 신뢰성을 향상시키도록 설계되었다. 이 방법론을 탐구하기 위해, 우리는 알려진 텍스트 및 이미지 기반 오류가 포함된 단일 복잡한 테스트 논문 내 화학식 검증에 초점을 맞췄다. 여러 프롬프팅 전략을 평가한 결과, 기본 프롬프트는 신뢰할 수 없는 반면, PWP 구조를 적용하여 LLM의 분석적 사고를 엄격히 조건화하는 접근법이 두 모델 모두에서 텍스트 오류 식별을 개선하는 것으로 나타났다. 특히, 이 방법은 Gemini 2.5 Pro가 수동 검토 중 이전에 간과된 미묘한 이미지 기반 수식 오류를 반복적으로 식별하도록 이끌었으며, ChatGPT Plus o3는 우리의 테스트에서 이 작업에 실패했다. 이러한 예비 결과는 세부 지향적 검증을 방해하는 특정 LLM 운영 모드를 강조하고, PWP 기반 컨텍스트 조건화가 과학 및 기술 문서 내에서 꼼꼼한 오류 탐지가 필요한 작업을 위한 보다 견고한 LLM 기반 분석 워크플로 개발에 유망하고 매우 접근 가능한 기술을 제공할 수 있음을 시사한다. 이 제한된 PoC를 넘어 광범위한 검증이 더 넓은 적용 가능성을 확인하기 위해 필요하다.
본 연구는 실세계 작업, 특히 프리랜서 소프트웨어 개발을 포함한 다양한 작업을 수행하는 자율 에이전트로서의 대형 언어 모델(LLMs)을 탐구합니다. 이 연구는 경제 데이터에서 파생된 프리랜서 프로그래밍 및 데이터 분석 작업에 대해 LLMs를 평가하는 새로운 벤치마크를 제시합니다. 우리는 Kaggle 프리랜서 데이터셋의 구인 공고를 기반으로 생성된 합성 작업을 사용하여 벤치마크를 구성하며, 모든 작업 가격은 USD로 표준화되었습니다(중간 고정 프로젝트 가격은 약 250달러, 평균 306달러). 각 작업은 구조화된 입력-출력 테스트 케이스와 예상 가격표가 함께 제공되어 자동화된 정확도 검사와 금전적 성과 평가가 가능합니다. 이 접근 방식은 OpenAI의 최근 SWE-Lancer 벤치마크(총 100만 달러 상당의 1,400개 실제 Upwork 작업)에서 영감을 받았으나, 우리의 프레임워크는 프로그램적으로 테스트 가능한 작업과 예측된 가격 값을 사용하여 평가를 단순화함으로써 높은 확장성과 반복 가능성을 제공합니다. 이 벤치마크에서 우리는 Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, Mistral 등 네 가지 최신 LLMs를 평가합니다. 각 모델의 정확도(작업 성공률 및 테스트 케이스 통과률)와 달성한 총 "프리랜서 수익"(해결된 작업의 가격 합계)을 보고합니다. 결과에 따르면 Claude 3.5 Haiku가 약 152만 달러로 가장 우수한 성능을 보였으며, GPT-4o-mini가 149만 달러로 근접한 성적을 기록했습니다. 그 뒤를 이어 Qwen 2.5(133만 달러)와 Mistral(70만 달러)이 뒤따릅니다. 우리는 작업별 오류 분포를 분석하고 가장 강력한 모델들이 대부분의 작업을 해결하며 어떤 프로젝트에서도 완전히 실패하는 경우가 거의 없음을 관찰했습니다. 우리는 이러한 결과가 AI가 프리랜서 개발자로서의 실현 가능성에 미치는 함의, 자동화된 벤치마크 접근 방식의 장단점, 그리고 구조화된 작업에서의 성능과 실제 프리랜서 작업의 복잡성 간의 격차에 대해 논의합니다.
과학 논문의 비평적 동료 검토는 데이터의 한계와 전문가 수준의 추론 복잡성으로 인해 대형 언어 모델(LLMs)에게 상당한 도전 과제로 남아 있습니다. 본 보고서는 이러한 격차를 해소하기 위해 표준 LLM 채팅 인터페이스(코드 없음, API 미사용)를 활용한 잠재적으로 광범위하게 적용 가능한 프롬프트 엔지니어링 방법론인 지속적 워크플로 프롬프팅(Persistent Workflow Prompting, PWP)을 소개합니다. 우리는 실험 화학 논문의 비판적 분석을 위한 개념 증명 PWP 프롬프트를 제시하며, 이는 상세한 분석 워크플로를 정의하는 계층적, 모듈식 아키텍처(Markdown으로 구조화)를 특징으로 합니다. 이 PWP 프롬프트는 전문가 검토 워크플로(암묵적 지식 포함)를 체계적으로 코드화하기 위한 메타-프롬프팅 기법과 메타-추론의 반복적 적용을 통해 개발되었습니다. 세션 시작 시 한 번 제출되는 이 PWP 프롬프트는 후속 질의에 의해 트리거되는 지속적 워크플로를 LLM에 제공함으로써, 현대적 추론 LLM이 체계적이고 다중 모드 평가를 수행하도록 안내합니다. 데모에서는 PWP가 적용된 LLM이 테스트 케이스에서 주요 방법론적 결함을 식별하면서도 LLM 입력 편향을 완화하고, 주장과 증거를 구분하고, 텍스트/사진/그림 분석을 통합하여 매개변수를 추론하며, 정량적 타당성 검사를 실행하고, 추정치와 주장을 비교하며, 선험적 타당성을 평가하는 등 복잡한 작업을 수행하는 모습을 보여줍니다. 투명성을 보장하고 재현을 용이하게 하기 위해, 우리는 전체 프롬프트, 상세한 데모 분석, 그리고 상호작용 채팅 로그를 보조 자료로 제공합니다. 이 특정 응용을 넘어, 이 연구는 메타-개발 프로세스 자체에 대한 통찰을 제공하며, 상세한 워크플로 공식화를 기반으로 한 PWP의 잠재력을 강조함으로써, 복잡한 과학적 과제를 위해 쉽게 이용 가능한 LLM을 사용한 정교한 분석을 가능하게 할 수 있음을 시사합니다.