Prometheus · Grafana · Loki

Abstract data visualization with glowing purple and blue metric lines representing monitoring and observability dashboards

SRE · Observability · 2026Production Stack

Monitoring &
Observability Stack

Full-stack observability with Prometheus, Grafana, and Loki. Metrics, logs, and alerts unified into a single pane of glass for production visibility.

200+

Alert Rules

15+

Dashboards

< 1min

Alert Latency

30 days

Log Retention

01 — PILLARS

The Three Pillars of Observability

Metrics tell you something is wrong. Logs tell you what happened. Traces tell you where. Together, they give you full production visibility.

📊

Prometheus

Metrics

Numeric time-series data — CPU, memory, request rates, error rates, latency percentiles. The heartbeat of your system.

📋

Loki + Promtail

Logs

Structured and unstructured event records from every container. Queryable with LogQL for deep incident investigation.

📈

Grafana

Visualization

Unified dashboards connecting all data sources. From high-level SLO tracking to per-pod debug views.

02 — COMPONENTS

Stack Components

Prometheus

Metrics Collection

Time-series metrics scraping from all services, nodes, and Kubernetes components. Custom recording rules and alerting rules.

Grafana

Visualization & Dashboards

Rich dashboards for infrastructure, application, and business metrics. Unified view across Prometheus, Loki, and Tempo.

Loki

Log Aggregation

Horizontally scalable log aggregation. Promtail agents ship logs from all pods. LogQL queries for deep log analysis.

Alertmanager

Alert Routing

Deduplication, grouping, and routing of alerts to Slack, PagerDuty, and email. Silences and inhibition rules.

Promtail

Log Shipping

DaemonSet-deployed log shipper that tails container logs and forwards to Loki with Kubernetes metadata labels.

kube-state-metrics

K8s Metrics

Exposes Kubernetes object state as Prometheus metrics — deployments, pods, nodes, PVCs, and more.

03 — DASHBOARDS

Grafana Dashboards

Grafana · Kubernetes Cluster Overview

Live

CPU Usage

42%

↑ last 5m

Memory

68%

→ last 5m

Pod Count

↑ last 5m

Error Rate

0.02%

↓ last 5m

Request Rate (RPS)

P99 Latency (ms)

Kubernetes Cluster Overview

Node CPU/MemoryPod restartsPVC usageNetwork I/O

Application Performance

Request rate (RPS)Error rate %P50/P95/P99 latencySaturation

Infrastructure Health

Disk I/ONetwork throughputLoad averageOOM events

Log Analytics

Error log rateLog volume by serviceException tracesAudit logs

04 — ALERTING

Alert Rules (Sample)

prometheus/rules/alerts.yaml

HighErrorRatecritical

rate(http_requests_total{status=~"5.."}[5m]) > 0.05

PodCrashLoopingwarning

rate(kube_pod_container_status_restarts_total[15m]) > 0

NodeMemoryPressurecritical

node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1

HighLatencyP99warning

histogram_quantile(0.99, rate(http_duration_seconds_bucket[5m])) > 2

All Projects View: IDP Backstage

Monitoring &Observability Stack