Observability Prometheus Grafana
用 Prometheus + Grafana 打造 SRE 可觀測性平台
從零開始建構一套完整的可觀測性平台,涵蓋 metrics 收集、告警規則設計、Dashboard 最佳實踐。
從零開始建構一套完整的可觀測性平台,涵蓋 metrics 收集、告警規則設計、Dashboard 最佳實踐。
深入剖析 Kubernetes Horizontal Pod Autoscaler 的運作機制,以及如何針對真實流量特性調整參數。
分享如何用 Terraform Module 管理跨環境(dev/staging/prod)的雲端基礎設施,避免 copy-paste 地獄。
分享在大規模系統中實踐 SRE 的經驗,從 SLO 設計到 Incident Management 的完整流程。
探討 Kubernetes 叢集的災難恢復策略,包含 etcd 備份、跨區域容錯、以及 GitOps 在 DR 中的角色。
當組織從單體架構遷移到微服務時,SRE 面臨的挑戰與因應策略。
SLO/SLI 設計、Incident Management、On-call 實踐、可觀測性平台建構
Kubernetes、Terraform、AWS/GCP 架構設計、IaC 自動化
Pipeline 設計、GitOps、Container 化、部署策略與自動化