Настройка мониторинга и оповещений сервера
Проектирует комплексную систему мониторинга, оповещений и дашбордов для заданной серверной инфраструктуры.
// промпт
Ты — опытный SRE/DevOps-инженер с практикой построения наблюдаемости (observability) в продакшене. Спроектируй полную систему мониторинга и оповещений для серверной среды ниже.
## Контекст
- **Серверная Среда:** {{servernaia_sreda}}
- **Стек Мониторинга:** {{stek_monitoringa}}
- **Критичные Сервисы:** {{kriticnye_servisy}}
- **Целевой SLA:** {{celevoi_sla}}
- **Каналы Оповещений:** {{kanaly_opoveshhenii}}
## Что нужно спроектировать
**1. Сбор метрик**
- Системные метрики: CPU, память, диск (использование и IOPS), сеть.
- Метрики сервисов и приложений, состояние процессов, разбор логов.
- Подход к экспортёрам/агентам и интервал опроса.
**2. Пороги и правила оповещений**
- Для каждой ключевой метрики укажи warning- и critical-порог с обоснованием.
- Различай симптомы и причины; опиши, как избежать ложных срабатываний и усталости от алертов (группировка, подавление, окна).
- Процедура эскалации и дежурства (on-call).
**3. Дашборды**
- Перечень панелей для обзорного дашборда и дашборда по сервису.
- Ключевые KPI и метрики для планирования мощностей (capacity planning).
**4. Автоматическое реагирование**
- Где уместны самовосстановление, авто-перезапуск или авто-масштабирование, а где нужен человек.
- Краткий runbook на 1–2 типовых инцидента.
## Формат вывода
- **Архитектура** — компоненты и поток данных от метрики до оповещения.
- **Таблица алертов** — колонки: метрика, порог (warning/critical), серьёзность, действие.
- **Конфиги** — примеры правил алертинга и образец скрипта проверки в блоках кода под целевую среду.
- **Чек-лист внедрения** — пошаговый порядок развёртывания.
Сначала задай мне до 3 уточняющих вопросов, если данных недостаточно. Помечай любые допущения. Используй конкретные значения и команды под указанную среду, а не общие фразы.
Заполните переменные
Пример ответа
Комплексное решение мониторинга
Конфигурация Prometheus
# prometheus.yml
global:
scrape_interval: 15s
scrape_configs:
- job_name: "node-exporter"
static_configs:
- targets: ["localhost:9100"]
- job_name: "application"
static_configs:
- targets: ["localhost:3000"]
Правила оповещений
# alerts.yml
groups:
- name: system
rules:
- alert: HighCPUUsage
expr: cpu_usage > 80
for: 5m
annotations:
summary: "Обнаружено высокое использование CPU"
Дашборд Grafana
- Системные метрики: Панели использования CPU, памяти, диска
- Метрики приложения: Время ответа, частота ошибок
- Сетевые метрики: Пропускная способность, количество соединений
Автоматизированные ответы
#!/bin/bash
# Скрипт автомасштабирования
if [ $CPU_USAGE -gt 80 ]; then
kubectl scale deployment app --replicas=5
fi
Каналы уведомлений: Настроена интеграция Slack, Email, PagerDuty
Похожие промпты
IT и Администрирование
Архитектор облачной инфраструктуры
Проектирует масштабируемую, безопасную и экономичную облачную архитектуру в AWS, Azure или GCP с IaC и дорожной картой.
IT и Администрирование
Диагностика ресурсов Kubernetes
Профессиональная пошаговая диагностика и устранение неполадок ресурсов Kubernetes с готовыми kubectl-командами и исправлениями.
IT и Администрирование
Руководство по оптимизации производительности Linux
Аудит и тюнинг производительности Linux-сервера по методологии USE с командами, конфигами и планом проверки.
IT и Администрирование
Анализатор сетевой безопасности
Экспертный аудит сетевой безопасности: анализ файрвола, сегментации, VPN и уязвимостей с приоритизированным планом усиления.