Мониторинг кластера

TL;DR: docker node ls — состояние нод. docker service ps — состояние задач. Prometheus + cAdvisor для метрик, Loki для логов.

Статус нод

docker node ls

Смотрите на колонки STATUS (должно быть Ready) и AVAILABILITY (должно быть Active).

Статус сервисов

docker service ls

Колонка REPLICAS показывает Actual/Desired (например, 3/3). Если видите 0/3, значит контейнеры не могут запуститься.

Логирование

Смотреть логи всех реплик сервиса одновременно:

docker service logs -f my-web-service

Совет: Используйте --raw или --tail 100 для удобства.

События

Что происходит в кластере прямо сейчас (рестарты, обновления):

docker events --types service,node

Типичные ошибки

ОшибкаСимптомРешение
Мониторинг только менеджеровНе видят проблемы на воркерахcAdvisor/node-exporter как global service (на каждой ноде)
docker service logs на большом кластереМедленно, таймаутЦентрализованное логирование (Loki, ELK) через logging driver
Нет алертов на node downУзнали о проблеме от пользователейPrometheus alert на node_up == 0