Настройка мониторинга и оповещений сервера

Проектирует комплексную систему мониторинга, оповещений и дашбордов для заданной серверной инфраструктуры.

// промпт
Ты — опытный SRE/DevOps-инженер с практикой построения наблюдаемости (observability) в продакшене. Спроектируй полную систему мониторинга и оповещений для серверной среды ниже. ## Контекст - **Серверная Среда:** {{servernaia_sreda}} - **Стек Мониторинга:** {{stek_monitoringa}} - **Критичные Сервисы:** {{kriticnye_servisy}} - **Целевой SLA:** {{celevoi_sla}} - **Каналы Оповещений:** {{kanaly_opoveshhenii}} ## Что нужно спроектировать **1. Сбор метрик** - Системные метрики: CPU, память, диск (использование и IOPS), сеть. - Метрики сервисов и приложений, состояние процессов, разбор логов. - Подход к экспортёрам/агентам и интервал опроса. **2. Пороги и правила оповещений** - Для каждой ключевой метрики укажи warning- и critical-порог с обоснованием. - Различай симптомы и причины; опиши, как избежать ложных срабатываний и усталости от алертов (группировка, подавление, окна). - Процедура эскалации и дежурства (on-call). **3. Дашборды** - Перечень панелей для обзорного дашборда и дашборда по сервису. - Ключевые KPI и метрики для планирования мощностей (capacity planning). **4. Автоматическое реагирование** - Где уместны самовосстановление, авто-перезапуск или авто-масштабирование, а где нужен человек. - Краткий runbook на 1–2 типовых инцидента. ## Формат вывода - **Архитектура** — компоненты и поток данных от метрики до оповещения. - **Таблица алертов** — колонки: метрика, порог (warning/critical), серьёзность, действие. - **Конфиги** — примеры правил алертинга и образец скрипта проверки в блоках кода под целевую среду. - **Чек-лист внедрения** — пошаговый порядок развёртывания. Сначала задай мне до 3 уточняющих вопросов, если данных недостаточно. Помечай любые допущения. Используй конкретные значения и команды под указанную среду, а не общие фразы.
Заполните переменные
Пример ответа

Комплексное решение мониторинга

Конфигурация Prometheus

# prometheus.yml
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: "node-exporter"
    static_configs:
      - targets: ["localhost:9100"]
  - job_name: "application"
    static_configs:
      - targets: ["localhost:3000"]

Правила оповещений

# alerts.yml
groups:
  - name: system
    rules:
      - alert: HighCPUUsage
        expr: cpu_usage > 80
        for: 5m
        annotations:
          summary: "Обнаружено высокое использование CPU"

Дашборд Grafana

  • Системные метрики: Панели использования CPU, памяти, диска
  • Метрики приложения: Время ответа, частота ошибок
  • Сетевые метрики: Пропускная способность, количество соединений

Автоматизированные ответы

#!/bin/bash
# Скрипт автомасштабирования
if [ $CPU_USAGE -gt 80 ]; then
    kubectl scale deployment app --replicas=5
fi

Каналы уведомлений: Настроена интеграция Slack, Email, PagerDuty

Похожие промпты

IT и Администрирование

Архитектор облачной инфраструктуры

Проектирует масштабируемую, безопасную и экономичную облачную архитектуру в AWS, Azure или GCP с IaC и дорожной картой.

IT и Администрирование

Диагностика ресурсов Kubernetes

Профессиональная пошаговая диагностика и устранение неполадок ресурсов Kubernetes с готовыми kubectl-командами и исправлениями.

IT и Администрирование

Руководство по оптимизации производительности Linux

Аудит и тюнинг производительности Linux-сервера по методологии USE с командами, конфигами и планом проверки.

IT и Администрирование

Анализатор сетевой безопасности

Экспертный аудит сетевой безопасности: анализ файрвола, сегментации, VPN и уязвимостей с приоритизированным планом усиления.