Reliability, Recovery, Failover

Как QA мыслит о надёжности системы: устойчивость к сбоям, восстановление после ошибок и переключение на резервные механизмы.

Надёжность системы проявляется не тогда, когда всё идеально, а тогда, когда что-то идёт не по плану. Reliability, recovery и failover testing помогают понять, как продукт ведёт себя при сбоях зависимостей, сети, данных и инфраструктуры.

Что важно проверять

→Предсказуемость деградации при частичном отказе зависимостей.
→Способность системы восстанавливаться без потери консистентности.
→Поведение retry, очередей, idempotency и резервных сценариев.
→Понятность ошибки и восстановление пользовательского пути.

Где часто ошибаются

→Проверяют только полный отказ, но не частичную деградацию.
→Считают успешный retry достаточным без анализа дублей и side effects.
→Игнорируют пользовательский опыт во время восстановления.

Надёжный продукт — это не продукт без ошибок, а продукт, который умеет переживать ошибки контролируемо.