SLA (Service Level Agreement) по производительности — это договорённые показатели скорости и стабильности работы системы, которые считаются допустимыми при реальной нагрузке.
SLA определяют по результатам тестов, аналитики и бизнес-требований — то есть, как быстро система должна отвечать и сколько ошибок допустимо.
Пример:
95% запросов должны выполняться ≤ 2 секунд,
Error Rate ≤ 1%,
система выдерживает 5000 одновременных пользователей при загрузке CPU ≤ 80%.
SLA (Service Level Agreement) — это формализированные целевые показатели, которые определяют:
скорость отклика,
устойчивость при нагрузке,
допустимый уровень ошибок,
использование ресурсов системы.
SLA превращает “ощущение, что работает быстро” → в измеримые критерии качества.
| Метрика | Что измеряет | Пример целевого значения |
|---|---|---|
| Response Time (RT) | Время отклика системы | ≤ 2 сек для 95% запросов |
| Throughput / TPS | Кол-во запросов в секунду | ≥ 300 TPS при стабильной работе |
| Error Rate | Процент ошибок | ≤ 1% |
| Availability (доступность) | Время безотказной работы | ≥ 99.5% |
| CPU / RAM Utilization | Использование ресурсов | CPU ≤ 80%, RAM ≤ 70% |
| Peak Load | Максимум пользователей без деградации | ≥ 5000 активных пользователей |
| Шаг | Действие | Пример |
|---|---|---|
| 1. Анализировать бизнес-процессы | Что критично для пользователя | Авторизация, оплата, отчёт |
| 2. Изучить реальные данные | Логи, метрики продакшна, APM | Среднее время ответа API = 1.6 сек |
| 3. Провести базовое нагрузочное тестирование | Определить предел системы | 5000 пользователей, RT = 2 сек |
| 4. Согласовать с бизнесом | Какие задержки допустимы | До 3 сек для второстепенных операций |
| 5. Зафиксировать значения в документации (SLA) | Сформировать таблицу | “RT ≤ 2 сек, Error Rate ≤ 1%, CPU ≤ 80%” |
| Метрика | Цель | Комментарий |
|---|---|---|
| Средний Response Time | ≤ 2 сек | 95-й перцентиль |
| Error Rate | ≤ 1% | По всем API |
| TPS (Requests per Second) | ≥ 300 | При 5000 пользователях |
| CPU Utilization | ≤ 80% | На пике нагрузки |
| Memory Utilization | ≤ 70% | Без утечек |
| Длительность пика | ≥ 30 мин | Без деградации системы |
После нагрузочного теста:
RT (95%) = 1.8 сек ✅
Error Rate = 0.6% ✅
CPU = 85% ⚠️ (немного выше нормы)
📊 Вывод: SLA выполнен частично, требуется оптимизация CPU или масштабирование.
✅ Основание — данные, а не “ощущения”.
✅ Делить операции по критичности (критичные / фоновые).
✅ Задавать SLA не только по времени отклика, но и по стабильности.
✅ Проверять выполнение SLA регулярно (через мониторинг, APM).
✅ Указывать перцентили (P95 / P99), а не среднее значение.
📄 SLA по производительности системы “Интернет-банк”
1. Среднее время ответа (95%) ≤ 2 сек
2. Ошибки ≤ 1%
3. Пропускная способность ≥ 300 TPS
4. Доступность ≥ 99.5%
5. Загрузка CPU ≤ 80%, RAM ≤ 70%
6. Система стабильна при 5000 одновременных пользователях
💡 Итог:
SLA по производительности — это договорённые и измеримые стандарты скорости и стабильности системы.
Они формируются на основе реальных нагрузочных тестов и бизнес-требований, чтобы команда и заказчик понимали, что считать “быстро и стабильно”.
Чтобы пожаловаться или сообщить об ошибке, войдите в аккаунт или зарегистрируйтесь.