AI 시스템 설계는 결국 ‘운영’의 문제다 - 에이전트 시대의 AI 시스템 설계

티스토리 뷰

카테고리 없음

AI 시스템 설계는 결국 ‘운영’의 문제다 - 에이전트 시대의 AI 시스템 설계

잉고래 2026. 5. 22. 13:30

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

오늘날 LLM API를 붙이는 건 이제 예전처럼 어렵지 않습니다. 문제는 그다음입니다.
응답 형식을 어떻게 할지, 회사 자료를 어떻게 연결할지, 환각(hallucination)을 어떻게 줄일지, 비용과 지연 시간을 어떻게 관리할지. MVP가 아닌 실제 서비스 단계로 들어가면 프롬프트 몇 줄로 해결되지 않는 문제들이 참 많습니다.
제가 본 '에이전트 시대의 AI 시스템 설계'는 바로 그 부분을 생각하게 되는 책입니다.
이 책은 부제처럼 RAG, 최적화, 가드레일을 중심으로 생성형 AI 시스템을 프로덕션 환경에서 어떻게 설계할지 봅니다. 일반적인 “LLM 활용법”이 아니라, 반복적으로 마주치는 문제를 패턴 단위로 정리한 설계서에 가까운 편입니다.

어떤 책인가

원제는 『Generative AI Design Patterns』.
O’Reilly 원서를 번역한 책으로, 발리아파 락슈마난과 하네스 하프케가 썼습니다.
책은 전통적인 디자인 패턴 책과 비슷합니다. 생성형 AI 시스템에서 반복적으로 등장하는 문제를 패턴으로 정리하고, 각 패턴마다 문제 상황 → 해결 방식 → 코드 예제 순서로 설명합니다.
솔직히 분량도 꽤 되고 내용도 가볍지 않습니다. 대신 “AI 서비스를 실제로 굴릴 때 무엇을 고민해야 하는가”를 비교적 체계적으로 묶어둔 책이라는 점이 좋습니다.

‘서론’인데 사실은 압축된 AI 개론

첫 장부터 꽤 밀도가 높습니다.
Temperature, Top-K, Top-P 같은 생성 제어 방식부터 에이전트 개념, 컨텍스트 학습, LoRA, RLHF까지 빠르게 훑고 지나갑니다. AI 관련 배경지식이 전혀 없다면 초반 진입 장벽이 높게 느껴질 수 있습니다. 그래도 무난히 읽을 수준은 됩니다.
에이전트 개념을 재고 관리로 비유하는데, 기존 소프트웨어는 “재고가 일정 수치 이하이면 주문” 같은 규칙을 사람이 직접 작성해야 하지만, 에이전트는 역할과 목표만 주고 판단 과정은 모델이 스스로 구성한다고 설명해줍니다.

요즘은 종이책을 갖고 다니기 너무 무거워서 노트북이나 아이패드로 읽는 편입니다. 아직은 종이책의 그 느낌을 따라가지 못하지만 여러가지 이 것만의 장점도 많아서 뭐가 딱 하나만 좋다라고 하기도 그렇네요.

“왜 에이전트가 기존 자동화와 다른가”를 꽤 직관적으로 보여줍니다.
LoRA 설명도 좋았습니다. 원본 모델 전체를 다시 학습하는 대신 작은 어댑터만 추가로 학습한다는 개념을 “건물 전체를 다시 짓는 대신 필요한 층만 리모델링한다”는 식으로 풀어내는데 이해가 쉬웠습니다.

출력 형식을 통제하는 방법

생성 결과를 어떻게 안정적으로 다룰지도 다루는데요.
실무에서 LLM을 써보면 가장 먼저 부딪히는 문제 중 하나가 “응답 형식이 매번 달라진다”는 점입니다. 사람이 읽을 때는 자연스럽지만, 후속 코드가 처리하기엔 꽤 까다롭습니다.
책에서는 로짓 마스킹, 문법 기반 출력 제한, 스타일 전이 같은 패턴을 소개합니다.
특히 JSON 스키마를 강제로 맞추는 방식이나 구조적 출력 패턴은 실무에서 바로 활용 가능한 내용이 많았습니다. 단순히 프롬프트를 잘 쓰는 수준이 아니라, 시스템 차원에서 출력 안정성을 확보하려는 접근이 반복해서 등장합니다.

RAG는 ‘검색 붙이기’ 이상이다

RAG는 사실상 책의 중심이라는 생각이 듭니다. 기본적인 RAG 구조부터 시작해서 재순위화, 메타데이터 필터링, GraphRAG, CRAG, Self-RAG까지 단계적으로 확장됩니다.
재밌던 건 RAG를 단순한 벡터 검색 문제가 아니라 “아키텍처 문제”로 다룬다는 점입니다.
예를 들어 CRAG는 검색된 문서 자체의 품질을 다시 검증하고, Self-RAG는 모델이 스스로 “지금 답변 근거가 충분한가”를 점검합니다.
실제로 RAG 시스템을 운영해보면 검색 결과 하나만 잘못 들어와도 답변 전체가 흔들리는 경우가 많은데, 그런 현실적인 문제를 꽤 잘 짚습니다.
RAG를 “임베딩 + 벡터DB” 정도로만 생각했던 사람이라면 시야가 넓어질 것이라 생각됩니다.

CoT와 추론 패턴

Chain of Thought. “단계별로 생각해봐” 같은 프롬프트가 왜 성능 차이를 만드는지 예시로 설명합니다.
항공 수하물 계산처럼 조건이 복잡한 문제에서, 예시 몇 개만 보여줘도 모델의 추론 방향이 꽤 안정적으로 바뀌는 과정을 볼 수 있습니다.
읽다 보면 프롬프트 엔지니어링이 단순 말재주가 아니라, 모델의 추론 경로를 유도하는 작업이라는 게 체감됩니다.

검증 레이어와 심판형 LLM

AI 결과물을 다시 AI가 평가하는 구조.
LLM-as-a-Judge 개념인데, 대량 생성 결과를 사람이 전부 검수하기 어려운 상황에서 1차 품질 필터 역할을 맡기는 방식입니다.
흥미로웠던 건 “AI도 테스트 대상”이라는 관점입니다. 기존 소프트웨어처럼 assertion을 두고, 최소 기대 품질을 만족하는지 자동 검증하는 흐름이 소개됩니다.
생성형 AI를 기존 소프트웨어 엔지니어링 방식 안으로 끌어들이려는 시도가 계속 보입니다.

에이전트와 가드레일

후반부에서는 도구 호출, MCP, 프롬프트 주입 공격 같은 주제가 등장합니다. 특히 프롬프트 인젝션 방어를 실제 운영 환경에서 어떤 가드레일이 필요한지 설명합니다.
행동 제한, 계획 후 실행, 맵-리듀스 기반 처리 같은 방식들이 소개되는데, “에이전트가 외부 도구를 쓰기 시작하면 보안 문제가 바로 시스템 설계 문제로 이어진다”는 걸 실감하게 됩니다.

비용 최적화

모델 증류, 양자화, 확장성 테스트.
“모든 요청에 거대 모델을 쓰지 말라”는 관점이 현실적입니다.
실서비스에서는 결국 비용과 응답 속도가 중요해지는데, 책은 작은 모델과 큰 모델을 어떻게 역할 분담할지까지 포함해서 설명합니다.
양자화 설명도 꽤 직관적입니다. 메모리 사용량이 얼마나 줄어드는지 수치로 보여줘서, 왜 많은 서비스가 INT8·4bit 같은 방식을 쓰는지 이해하기 쉬웠습니다.

진입 장벽은 분명히 있음

AI를 처음 접하는 독자에게는 초반부터 용어 밀도가 높습니다. 어느 정도 LLM API를 써본 경험이 있는 개발자를 대상으로 한 책에 가깝습니다.
번역이 매끄럽게 느껴지지 않은 부분도 조금 보이네요. 문장이 길게 이어지는 부분이 종종 있어서 읽는 흐름이 끊길 때가 있습니다.
그리고 코드 예제는 빠르게 낡을 가능성이 큽니다. MCP나 랭체인 계열은 변화 속도가 워낙 빨라서, 책만 따라가기보다 깃허브 예제와 함께 보는 게 사실상 필수에 가깝습니다.

이런 분에게 추천

LLM API는 이미 붙여봤다
이제 실제 서비스 구조를 고민하고 있다
RAG를 운영 수준에서 이해하고 싶다
응답 품질·안전성·비용 문제를 함께 다루고 싶다

이런 상황이라면 꽤 도움이 됩니다.
반대로 “AI를 처음 공부한다”, “코딩 없이 AI 툴 활용법이 궁금하다”에 가까우면 다른 입문서가 더 맞을 수 있습니다.

괜찮은 레퍼런스

생성형 AI는 이제 단순 기능 추가 수준을 넘어가고 있습니다.
API 하나 연결하는 것보다 더 어려운 건, 그 모델이 안정적으로 동작하는 시스템을 만드는 일입니다. 출력 형식, 검색 구조, 검증, 비용, 보안까지 모두 함께 설계해야 하니까요.
이 책은 그 문제들을 “패턴”이라는 형태로 정리해둔 책입니다.
쉽게 읽히는 책은 아닙니다. 대신 지금처럼 생성형 AI 관련 정보가 흩어져 있는 시점에서는, 꽤 괜찮은 레퍼런스 역할을 해주는 책이라는 생각이 들었습니다.

공지사항

잉고래 소개

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

잉고래의 잇다이어리

티스토리 뷰