| GaonIT Cloud — 호스팅 & 클라우드
가온IT

파운데이션 호스팅

개발자가 사랑하는 호스팅 & 클라우드. 지금 바로 시작하세요.

Foundation Model HostingOpenAI 호환 API요금: 별도문의

파운데이션 호스팅

Llama·Mistral·Qwen 등 오픈소스 LLM부터 사내 전용 모델까지. 고성능 추론 런타임과 OpenAI 호환 인터페이스로 바로 붙이고, 전용/공유 배포로 비용을 최적화하세요.

⚡ 고성능 추론
연속 배칭, KV 캐시, speculative decoding 등으로 낮은 지연높은 처리량.
🧱 유연한 배포
공유 풀(경제성) / 전용 인스턴스(성능/격리) 선택. NVIDIA 가속기 옵션.
🧑‍💻 개발자 친화
OpenAI 호환 REST, 스트리밍(SSE/WS), 토큰/쿼터, 버전 롤백.
🔐 보안/컴플라이언스
VPC 격리, IAM, Secrets, 감사로그, 디도스보호(프록시) 연동.
지원 모델
모델 패밀리 예시 가중치 컨텍스트 정밀도/양자화 비고
Llama 계열 8B / 70B Instruct 4k~128k(확장) BF16/FP16/INT8/4bit 토큰화 호환, 한국어 튜닝 가능
Mistral/Mixtral 7B / 8x7B 8k~32k FP16/INT8/4bit MoE로 높은 처리량
Qwen/Yi 등 7B~72B 8k+ FP16/INT8 중문/한영 혼합 우수
커스텀 업로드 Safetensors/GGUF 가중치에 따름 FP16/INTx/QLoRA 사내 전용 모델 호스팅
* 실제 가능 조합/맥락 길이는 런타임·GPU와 모델 버전에 따라 달라집니다.
런타임 / 성능
추론 엔진 — vLLM/TensorRT-LLM(옵션), paged attention, continuous batching.
KV 캐시 — 재사용/온디맨드 축출, 긴 컨텍스트 비용 절감.
병렬/파이프라인 — 텐서/파이프 병렬, 다중 GPU 스케일.
스트리밍 — SSE/WebSocket 실시간 토큰 전송.
지연/처리량 — 프롬프트 캐싱, 사전 워밍/오토스케일.
한/영 품질 — 한국어 추가 튜닝/어휘 확장 지원(옵션).
파인튜닝 / 버전 관리
워크플로우
  1. 데이터 업로드(오브젝트 스토리지) — JSONL/Parquet 등
  2. 작업 정의 — LoRA/QLoRA, epoch/lr/peft 설정
  3. 학습/평가 — BLEU/ROUGE/ExactMatch(과제별)
  4. 배포 — model:v2025-09-01 태그, 점진 전환
  5. 롤백 — 한 클릭 버전 복구
RAG(선택)
  • 벡터 색인(문서/FAQ) + 재주입 프롬프트
  • 소스 링크/근거 반환 옵션
  • 보안 경계 내 데이터만 사용
API / SDK (OpenAI 호환)
cURL
curl https://api.example.com/v1/chat/completions \
  -H "Authorization: Bearer sk-***" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3-8b-instruct",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "안녕하세요!"}
    ],
    "stream": true
  }'
Python (requests)
import requests, sseclient
url = "https://api.example.com/v1/chat/completions"
headers = {"Authorization":"Bearer sk-***","Content-Type":"application/json"}
payload = {
  "model":"llama3-8b-instruct",
  "messages":[{"role":"user","content":"서울 날씨 요약"}],
  "stream": True
}
resp = requests.post(url, json=payload, headers=headers, stream=True)
for event in sseclient.SSEClient(resp):
    print(event.data)
Node (fetch)
const r = await fetch("https://api.example.com/v1/chat/completions",{
  method:"POST",
  headers:{"Authorization":"Bearer sk-***","Content-Type":"application/json"},
  body: JSON.stringify({model:"llama3-8b-instruct", messages:[{role:"user",content:"요약"}], stream:true})
});
for await (const chunk of r.body){ process.stdout.write(chunk); }
요청 매개변수
  • model: 배포된 모델 ID (예: llama3-8b-instruct)
  • max_tokens, temperature, top_p, stop
  • stream: SSE 스트리밍 여부
  • metadata: 팀/프로젝트 태그(비용/감사용)
운영 / 모니터링
메트릭 — 토큰/초, 지연 p50/p95, 에러율, 활성 요청, 캐시 히트.
로그 — 요청 요약/오류/할당량, 개인정보 마스킹.
트레이싱 — 프롬프트→토큰 생성 상관관계(APM).
알림 — 지연/오류 급증, 할당량 임계치.
롤아웃 — 카나리/블루그린, 가중치 전환.
백업 — 파인튜닝 아티팩트/토크나이저 버전 보존.
보안 / 거버넌스
네트워크 — VPC/서브넷 격리, 사설 엔드포인트, 아웃바운드 제어.
IAM — 사용자/역할/정책, 프로젝트별 키/쿼터.
Secrets — 키/웹훅/자격증명 암호화 저장.
감사 — 생성/배포/호출에 대한 감사로그.
디도스보호(프록시) — 엣지 보호/레이트 제한 연동.
데이터 — 업로드 데이터/가중치 지역내 보관(옵션).
요금 안내
요금: 별도문의

모델 크기/컨텍스트, GPU 티어/동시성, 전용/공유, 월 토큰량/파인튜닝 옵션(LoRA/QLoRA), 스토리지/전송(오브젝트) 기준으로 산정됩니다.

모델 배포를 가장 단순하게
요건(모델/지연/예산)을 알려주시면 최적 구성을 제안드립니다.