LLM 트렌드 이해하기 | Understanding LLM Trend
내가 볼려고 작성한 LLM 공부 (참고 서적: 랭체인 & 랭그래프로 AI 에이전트 개발하기).
🤖 LLM의 등장과 AI 생태계의 변화
LLM(Large Language Model)의 등장은 인공지능의 진화를 가속화시켰습니다.
이제 AI는 단순히 대답만 하는 기계를 넘어, 사람처럼 생각하고 말하며 이미지를 이해하고 목소리를 듣는 수준에 도달하고 있습니다.
이 문서는 LLM의 등장 배경부터 핵심 기술, 발전 방향, 생태계의 변화까지 체계적으로 안내합니다.
🚀 1. LLM의 탄생
✅ 1.1 LLM이란?
LLM은 대규모 언어 모델(Large Language Model)로, 방대한 텍스트 데이터를 학습해 사람처럼 자연어를 이해하고 생성하는 인공지능입니다.
입력된 문장이나 질문에 대해 논리적이고 자연스러운 응답을 생성할 수 있으며, 다양한 언어 작업에 활용됩니다.
LLM은 어떤 원리로 작동할까?
단어 간의 관계, 문맥, 문장 구조를 대규모로 학습한 뒤, 다음에 어떤 단어가 가장 자연스러운지 확률적으로 예측해 문장을 만들어냅니다.
이는 “다음 단어 맞히기 게임”을 매우 고도화한 것과 유사합니다.
✅ 1.2 LLM의 핵심 특징
- 대용량 데이터 학습: 웹, 책, 뉴스 등 다양한 출처
- 수십억~수천억 개의 파라미터: 복잡한 패턴 학습 가능
- 범용 능력: 번역, 요약, 문서 생성, 질의응답, 코드 작성 등
파라미터(Parameter)란?
모델 내부에서 학습을 통해 얻는 수치로, 단어와 문장 구조를 수학적으로 표현합니다.
파라미터 수가 많을수록 더 복잡한 관계를 학습할 수 있지만,
무작정 늘리는 것보다 데이터 품질과 학습 방식도 중요합니다.
✅ 1.3 트랜스포머의 등장
LLM의 핵심 기술은 2017년 구글이 발표한 트랜스포머(Transformer)입니다.
이전 모델들보다 더 빠르고 정확하게 언어를 이해할 수 있게 만들어진 구조입니다.
트랜스포머란?
모든 단어를 동시에 보고 서로 어떤 관계가 있는지 계산합니다.
덕분에 긴 문장을 이해하거나, 복잡한 문맥도 잘 파악할 수 있습니다.
순차적으로 단어를 처리하는 방식(RNN, LSTM)보다 훨씬 효율적입니다.
어텐션 메커니즘(Attention)
문장에서 중요한 단어에 더 집중하게 해주는 기술입니다.
예: “나는 사과를 먹었다”에서 “먹었다”는 “사과”에 주목해야 문맥이 자연스럽습니다.
어텐션은 이런 중요도를 계산해 가중치를 줍니다.
✅ 1.4 GPT 시리즈의 진화
| 모델 | 연도 | 특징 |
|---|---|---|
| GPT-1 | 2018 | 트랜스포머 기반 첫 언어모델 |
| GPT-2 | 2019 | 대규모 학습, 더 자연스러운 텍스트 |
| GPT-3 | 2020 | 1750억 파라미터, 고급 대화 가능 |
| ChatGPT | 2022 | GPT-3.5 기반 대화형 특화 |
| GPT-4 | 2023 | 멀티모달 처리 가능, 안정성 향상 |
| GPT-4o | 2024 | “Omni”: 텍스트, 이미지, 음성 통합 입력 가능 |
GPT란?
Generative Pre-trained Transformer의 약자입니다.
먼저 대규모 데이터를 사전 학습한 뒤, 다양한 작업에 사용할 수 있도록 설계되었습니다.
✅ 1.5 경쟁 모델과 생태계 확장
- Google: BERT, PaLM
- Meta (Facebook): LLaMA 1/2/3
- Anthropic: Claude 시리즈
- Mistral, Cohere, xAI: 고성능 경량 LLM 개발
BERT란?
문장을 양방향으로 이해해, 문맥 분석에 특화된 모델입니다.
검색, 감정 분석 등에서 많이 사용됩니다.
LLaMA란?
Meta가 개발한 고성능 오픈소스 LLM입니다.
경량 모델로도 높은 성능을 내며, 개인도 쉽게 실험해볼 수 있습니다.
🚀 2. LLM의 발전: 멀티모달 LLM
✅ 2.1 멀티모달이란?
사람처럼 여러 감각을 동시에 사용하는 인공지능을 만들기 위해,
LLM도 이제 텍스트뿐 아니라 이미지, 음성, 센서 데이터를 함께 처리하게 되었습니다.
멀티모달(Multimodal)이란?
다양한 형태의 입력(모달리티)을 동시에 받아들여, 의미를 통합해서 이해하는 방식입니다.
예를 들어, 음성과 표정을 함께 보고 화자의 감정을 파악하는 것처럼요.
✅ 2.2 음성과 텍스트의 통합
- 음성 인식: 말소리를 텍스트로 변환
- LLM과 결합: 사용자의 음성을 텍스트로 변환한 후, LLM이 이해하고 응답
Whisper API란?
OpenAI가 만든 고성능 음성 인식 모델입니다.
다양한 언어와 억양을 잘 처리하며, LLM과 결합해 음성 기반 대화를 가능하게 합니다.
✅ 2.3 이미지와 텍스트의 통합
- 이미지 분석: 사람, 사물, 장면, 분위기 등을 파악
- LLM 응답: 이미지 기반 질문에 자연어로 설명 제공
예시: 고장난 자동차 사진을 보여주며 “이 부품 이름이 뭐야?”라고 물으면,
LLM은 이미지를 분석해 부품 이름과 설명을 자연어로 알려줄 수 있습니다.
✅ 2.4 기타 멀티모달 확장
- 센서 & IoT: 온도, 위치, 심박수 등 실시간 데이터 분석
- 자율주행: 비전, 라이다 센서, 지도 정보 통합 판단
- 교육, 게임, 헬스케어 등 다양한 산업과 융합 가능
예시: VR 환경에서 사용자의 시선 + 음성 + 행동 정보를 동시에 분석해, 몰입형 교육을 제공합니다.
🚀 3. LLM의 발전: 모델 규모의 확장
✅ 3.1 파라미터와 성능의 관계
LLM의 성능은 파라미터 수 증가와 함께 발전해왔습니다.
하지만 성능은 단지 크기로만 결정되진 않습니다.
| 모델 | 파라미터 수 | 특징 |
|---|---|---|
| GPT-2 | 15억 | 기본 문장 생성 가능 |
| GPT-3 | 1750억 | 고급 문장 표현, 창의적 생성 |
| GPT-4 | 수천억 이상 | 복잡한 문맥도 정교하게 처리 |
| LLaMA 2 | 70억~130억 | 가볍고 빠른 모델, 오픈소스 활용 가능 |
중요:
모델이 커질수록 성능은 좋아질 수 있지만, 학습 데이터 품질, 훈련 방식, 하드웨어 최적화 등이 함께 고려되어야 합니다.
작지만 효율적인 모델도 많습니다. (예: Mistral 7B)
🚀 4. 오픈소스와 커뮤니티의 확산
✅ 4.1 독점형 vs 오픈소스 LLM
| 항목 | 독점형 (GPT-4 등) | 오픈소스 (LLaMA, BLOOM 등) |
|---|---|---|
| 사용 방식 | 클라우드 API | 로컬 실행 가능 |
| 비용 | 유료 | 대부분 무료 |
| 데이터 | 비공개 | 공개된 데이터 사용 |
| 수정/재학습 | 제한적 | 파인튜닝 자유롭게 가능 |
✅ 4.2 커뮤니티와 생태계
- Hugging Face: 오픈소스 LLM과 데이터셋의 중심 플랫폼
- EleutherAI: GPT-Neo, GPT-J 개발 주도
- LangChain: LLM을 다양한 앱에 연결하는 도구 제공
AI 민주화란?
AI 기술을 누구나 접근하고 활용할 수 있도록 열어주는 것.
덕분에 대기업뿐 아니라 개인 개발자, 스타트업도 LLM을 연구하고 제품화할 수 있게 되었습니다.
🤖 LLM의 진화와 AI 에이전트 등장
AI가 다양한 산업에 빠르게 도입되면서, LLM(Large Language Model)은 여전히 강력한 기술로 주목받고 있습니다.
동시에 SLM(Small Language Model)이 비용과 경량화를 내세우며 부각되고 있지만,
복잡한 업무를 처리하려면 여전히 LLM의 정확도, 범용성, 멀티모달 능력이 강력한 무기입니다.
최근 LLM은 두 가지 중요한 방향으로 진화하고 있습니다:
- 복잡한 추론이 가능한 LLM의 등장 (예: o1)
- 스스로 행동하는 AI 에이전트의 확산
🚀 1. o1의 등장: 생각을 말하는 LLM
✅ 1.1 블랙박스였던 기존 LLM
기존의 LLM은 수천억 개의 파라미터를 통해 문장을 생성하지만,
그 내부에서 어떤 과정으로 결과가 도출되는지 사람이 이해하기 어렵습니다.
이러한 특성 때문에 AI의 설명력 부족이 늘 문제로 지적되어 왔습니다.
블랙박스 문제란?
AI가 어떻게 결정을 내렸는지 그 과정을 사용자가 알 수 없는 상태를 말합니다.
특히 의료, 금융, 과학 등 고신뢰성이 필요한 분야에선 이 문제 때문에 LLM 도입이 지연되기도 합니다.
✅ 1.2 GPT-4o vs o1: 설명 가능한 AI의 등장
2024년 중반, OpenAI는 GPT-4o 이후 새로운 시리즈인 “o1”을 발표하며 분위기를 전환했습니다.
o1은 ‘설명 가능한 추론’에 초점을 맞춘 LLM입니다.
추론(Reasoning)이란?
AI가 단순히 문장을 생성하는 것이 아니라,
내부에서 ‘생각의 흐름(Chain of Thought)’을 구성해 문제를 단계별로 해결하는 능력을 말합니다.
o1은 이 흐름을 외부에 공개함으로써 AI의 결정 과정을 설명할 수 있게 합니다.
| 항목 | GPT-4o | o1 |
|---|---|---|
| 출시 시기 | 2024.5 | 2024.9 |
| 목적 | 자연어 생성, 멀티모달 처리 | 복잡한 추론 문제 해결 |
| 처리 분야 | 텍스트, 이미지, 음성 | 수학, 논리, 코딩, 과학 추론 |
| 추론 과정 공개 | ❌ 불가 | ✅ 가능 |
| 대표 모델 | GPT-4o, GPT-4o mini | o1 preview, o1-mini 등 |
GPT-4o는 대화와 생성, 멀티모달 등 포괄적인 기능에 집중했다면,
o1은 “생각을 보여주는 AI”라는 점에서 투명성과 신뢰도를 높였습니다.
✅ 1.3 시나리오 예시: GPT-4o vs o1
예시 1: 수학 문제
- GPT-4o: “답은 42입니다.”
- o1: “먼저 A와 B를 더한 뒤, 그 결과에 C를 곱해주면 42가 됩니다.”
예시 2: 과학적 설명
- GPT-4o: “물은 100도에서 끓는다.”
- o1: “기압이 1기준일 때, 수소결합의 분리로 인해 100도에서 상태 변화가 일어납니다.”
o1은 결과 뿐 아니라 그 ‘이유와 과정’을 설명해주기 때문에
과학, 코딩, 수학 같은 복잡한 문제에 적합합니다.
단, 비용과 속도 면에서 항상 우위를 가지는 것은 아닙니다.
🚀 2. AI 에이전트의 등장
✅ 2.1 도구에서 자율 수행자로
이전까지의 LLM은 사용자가 요청한 작업을 “도와주는 도구”였습니다.
하지만 이제는 작업 자체를 인식하고 계획하고 실행하는 ‘AI 에이전트’로 진화하고 있습니다.
AI 에이전트란?
사용자의 지시 없이도 스스로 상황을 파악하고, 필요한 도구를 선택하고, 순서를 정해 작업을 수행하는 자율적 AI 시스템입니다.
단순히 응답만 하는 것이 아니라, 목표 달성 전체를 스스로 수행합니다.
✅ 2.2 GPT vs AI 에이전트
| 항목 | 기존 LLM (GPT) | AI 에이전트 |
|---|---|---|
| 역할 | 대화 응답, 글쓰기 | 작업 인식, 계획, 실행 |
| 예시 | 이메일 작성만 가능 | 이메일 작성 후 자동 발송까지 수행 |
| 행동 범위 | 수동적 응답 | 능동적 실행 (클릭, 파일 이동 등) |
| 대표 기술 | ChatGPT, Gemini | AutoGPT, OpenAgent, Devin 등 |
GPT는 “이메일을 작성해줘”에 응답할 수 있지만,
AI 에이전트는 “이메일을 작성하고, 파일을 첨부하고, 팀 전체에 발송”까지 스스로 할 수 있습니다.
✅ 2.3 과거 자동화 vs 현재 AI 자동화
- 과거: 정해진 알고리즘만 수행 (예: 반복 업무 자동화)
- 현재: 상황 인식 + 목표 설정 + 능동 실행이 가능한 AI
예시
과거: “매일 오후 3시에 보고서 전송”
현재: “오늘 회의 자료를 분석하고, 핵심 요약을 팀에게 자동 전달”
LLM은 이제 단순히 말을 잘하는 모델을 넘어,
“왜 그런 결론에 도달했는가”를 설명하고,
“스스로 작업을 수행하는 AI 에이전트”로 진화하고 있습니다.