디지털 시대에 접어들면서 모든 산업 분야에서 인공지능(AI)의 역할은 점점 더 중요해지고 있습니다. 하지만 "AI 서비스"라는 이름 아래 마법처럼 동작하는 알고리즘 뒤에는 복잡하고 촘촘하게 짜여진 AI software stack이 존재합니다. 이 스택을 제대로 이해하지 못하면, 혁신적인 아이디어가 구현 단계에서 좌초되거나 비효율적인 서비스로 남을 수 있습니다. 지금부터 AI 서비스 구축에 있어 필수적으로 알아야 할 AI software stack의 모든 것을 살펴봅니다.
AI Software Stack이란?
AI software stack은 인공지능 시스템을 개발하고, 배포하며, 운영하는 데 필요한 소프트웨어 컴포넌트들의 집합을 의미합니다. 여기에는 AI 프레임워크(예: TensorFlow, PyTorch), 런타임, 데이터 파이프라인, MLOps 툴, API 서버, 배포 오케스트레이션 등 다양한 계층이 포함됩니다.
AI Software Stack이 중요한 이유?
AI software stack은 다음과 같은 이유로 중요합니다.
확장성과 안정성: 견고한 스택을 갖추면 데이터와 모델의 확장, 트래픽 증가, 새로운 요구사항 대응이 훨씬 수월합니다. 문제 발생 시 특정 계층만 점검, 교체할 수 있으므로 운영 효율성이 극대화됩니다.
개발 생산성: 좋은 프레임워크와 MLOps 도구는 반복적인 작업의 자동화, 환경 설정 단순화, 협업 촉진 등으로 개발 속도를 크게 높여줍니다.
보안과 신뢰성: 데이터, 모델, 서비스가 각각 분리되어 관리되므로 보안 사고나 시스템 장애 발생 시 영향 범위를 최소화할 수 있습니다.
최신 기술 적용 능력: AI 패러다임이 빠르게 진화하는 만큼, 최신 스택을 활용하면 새로운 기능과 알고리즘을 신속하게 적용할 수 있습니다.
AI software stack의 선택은 곧 서비스의 품질, 운영비요, 도입 속도를 결정짓는 핵심 요인입니다.
AI Software Stack의 역사?
초기 AI 시스템은 하드코딩 규칙과 단순 알고리즘에 의존하였습니다. 2010년대 들어 빅데이터, GPU 연산, 클라우드 확산 등이 등장하며 딥러닝 프레임워크 및 자동화 도구의 필요성이 대두되었습니다.
2015년 TensorFlow 등장: 구글이 오픈소스로 공개하며 대규모 딥러닝 모델 구축의 표준으로 자리 잡았습니다.
2016년 PyTorch 등장: Meta가 더 유연하고 Python 친화적인 프레임워크를 선보여 AI 연구자들로부터 큰 호응을 얻었습니다.
2014년-2017년 클라우드와 컨테이너화: Kubernetes가 2014년 6월 구글에 의해 발표되고 2015년 7월 버전 1.0이 출시되었습니다. 이후 2017년에는 Microsoft Azure, AWS EKS 등 주요 클라우드 제공업체들이 Kubernetes 지원을 발표했으며, AWS, Azure, GCP를 통해 강력한 인프라와 오케스트레이션이 가능해졌습니다. Kubernetes 등으로 모델 배포가 쉽고 유연해졌습니다.
2018년 이후: AutoML, MLOps의 대중화, ML 모델의 개발~배포~모니터링까지 전주기 관리가 자동화되며, 생상성/재현성이 대폭 강화되었습니다.

주요 AI Software Stack
Framework
AI framework는 머신러닝과 딥러닝 모델을 효율적으로 설계, 훈련, 평가할 수 있도록 지원하는 소프트웨어 라이브러리 집합입니다. 복잡한 AI 알고리즘을 처음부터 구축할 필요 없이, 사전 구축된 함수와 라이브러리를 통해 개발자들이 특정 작업에 맞는 AI 모델을 신속하게 개발할 수 있게 해주는 핵심 도구입니다.
대표적인 AI framework는 TensorFlow와 PyTorch입니다.
TensorFlow는 Google에서 개발한 프레임워크로, 대규모 엔터프라이즈 프로젝트에 특화되어 있습니다. 정적 계산 그래프를 기반으로 하여 최적화와 배포에 강점을 보이며, TensorFlow Serving을 통한 프로덕션 환경 배포가 용이합니다. 특히 확장성이 뛰어나 대규모 분산 훈련과 클라우드 네이티브 통합에 최적화되어 있습니다.
PyTorch는 Meta에서 개발한 프레임워크로, 연구와 실험에 특화되어 있습니다. 동적 계산 그래프를 사용해 런타임 중 모델 수정이 가능하며, Python과 매우 친화적인 문법을 제공합니다. 디버깅이 쉽고 직관적이어서 AI 연구자들 사이에서 큰 인기를 얻고 있습니다.
정적 그래프는 배포에 강점이 있고 전체 연산을 한 번에 최적화하여 할 수 있다는 장점이 있는 반면, 동점 그래프는 실험/디버깅에 강점이 있고, Python 코드와 자연스럼게 통합할 수 있다는 장점이 있습니다. 정적 계산 그래프와 동적 계산 그래프를 표로 자세히 비교하면 다음과 같습니다.
| 정적 계산 그래프 | 동적 계산 그래프 | |
| 정의 방식 | 미리 전체 계산 그래프를 정의한 뒤 데이터를 흘려보내 실행함 | 실행과 동시에 계산 그래프를 동적으로 생성하며 즉시 수행함 |
| 대표 프레임워크 | TensorFlow(1.x), Caffe, CNTK, MXNet | PyTorch, Chainer, DyNet, TensorFlow(2.x의 Edge Execution) |
| 최적화 | 전체 그래프를 컴파일하여 성능 최적화 가능, 분산 처리 및 배포에 강점 | 유연하게 모델 수정 가능, 그래프 변형 및 실험에 강점 |
| 유연성 | 구조 변경이 제한적, 복잡한 제어문 반영이 어려움 | Python 문법 활용 가능, 루프/조건문 등 동적 연산 구현이 쉬음 |
| 디버깅 | 그래프 정의와 실행이 분리되 오류 추적이 비교적 어려움 | 실행 시점에 오류 발생해 즉시 디버깅 가능 |
| 성능 | 사전에 최적화되어 대규모 데이터 처리 및 배포에 유리 | 실험 환경과 소규모 데이터에 적합, 대규모 배포시 추가 최적화 필요 |
| 사용 용도 | 프로덕션 환경, 대규모 분산 학습 및 배포 | 연구/프로토타입 개발, 복잡한 모델 구조 및 실험 |
| 코드 예시 | 'Define-and-Run' 방식, 심볼릭 프로그래밍 | 'Define-by-Run' 방식, Python스럽고 직관적인 코드 작성 |
현재 AI 프레임워크는 민주화와 접근성 향상에 중점을 두고 있습니다. 전문가가 아닌 일반 개발자도 기능 모델을 빠르게 구축할 수 있도록 지원하며, 사전 구축된 모듈과 네이티브 통합 기능을 통해 생산성을 크게 향상시켰습니다. 또한 멀티모달 AI와 엣지 컴퓨팅 지원이 강화되면서, 더욱 다양한 환경에서 AI 모델을 배포할 수 있게 되었습니다.
Runtime
AI software stack에서 runtime은 AI 모델이 실제로 실행되는 환경을 의미합니다. 즉, 학습이 끝난 모델이 주어진 입력을 받아 추론(inference)결과를 만들어내는 모든 수행과정을 책임지는 소프트웨어 계층이 바로 runtime입니다.
하드웨어 리소스(GPU, TPU 등)와 소프트웨어(드라이버, 최적화 코드)를 연결해 최대한 빠르고 효육적으로 모델 추론이 이루어지게 합니다.
메모리 관리, 연산 최적화, 모델 연산 스케줄링과 데이터 전/후처리, API 연동 등도 런타이 담당합니다.
주요 Runtime sofware는 다음과 같습니다.
vLLM: 대규모 언어 모델(LLM) 추론과 서빙에 특화된 오픈소스 런타임입니다. GPU 메모리 효율화(PagedAttention), 동적 배치(Continuous Batching) 등 최첨단 기술로 ChatGPT, Llama 등 LLM을 실시간으로 대량 처리하는 데 탁월한 성능을 보입니다.
TensorFlow Runtime: TensorFlow 모델을 다양한 하드웨어에서 최적화하여 실행합니다.
ONNX Runtime: 프레임워크와 무관하게 ONNX 형태로 변환된 모델을 고속 추론합니다.
Triton Inference Server: NVIDIA에서 개발한 다중 프레임워크 지원 서빙 플랫폼입니다.
TensrRT: NVIDA GPU에 특화된 딥러닝 추론 가속 라이브러리입니다.
앞으로 발전 방향은?
AI Framework는 더욱 통합화, 자동화된 생태계로 발전하며, TVM과 MLIR 기반 통합 컴파일러 인프라가 표준화되고 있습니다. Runtime은 실시간 동적 최적화와 엣지 디바이스 지원이 강화되며, vLLM과 같은 특화 런타임들이 등장하고 있습니다. Compiler는 AI 모델에 최적화된 도메인별 컴파일 기술로 진화하며, 하드웨어-소프트웨어 협업 설계를 통해 성능을 극대화합니다. Driver는 NPU, 양자컴퓨터 등 새로운 하드웨어 가속기 지원이 확대되고 있습니다. MLOps는 자동화, 지속가능성, 윤리적 AI에 중점을 두며, 실시간 모니터링과 설명가능한 AI가 필수 요소로 자리잡고 있습니다. 전제적으로 엣지 AI, 양자컴퓨팅, 지속가능하고 책임감 있는 AI 개발 방향으로 발정하고 있습니다.