Flaky тесты (они же моргающие или "случайно успешные")

Недавно поучаствовал в Heisenbug Piter 2021 в роли эксперта на очередной серии доклада Андрея Солнцева про flaky тесты.

Люблю эту тему. Кажется, это своего рода "дебаг", только для тестов. Иногда расследование похлеще приключений Шерлока.

Тема flaky тестов древняя, как сама отрасль. Первое найденное упоминание термина в традиционных интернетах (типа блогов, твиттеров) в 2008 году в блоге гугла. Мне больше нравится называть их “моргающие” или, что четче отражает проблему, случайно успешные.

Давайте еще раз зафиксируем то, что поможет меньше попадать в историю, когда тесты у нас "случайно успешные" и что делать, если уже "вляпались".

Итак, что делать, чтобы "моргающих" тестов было меньше:

тесты должны быть написаны в правильном слое "той самой пирамиды": чем ближе слой к модульным тестам (а лучше именно в них), тем меньше шансов на моргания, потому что зависимостей меньше.
в ту же тему: чем меньше UI-тестов, тем лучше. Открывая в очередной раз файл с UI-тестами, помни, что тестировать надо "UI", а не "через UI".
основные причины "моргания" это асинхронные операции (async wait), многопоточность (concurrency), порядок тестов, утечка ресурсов, проблемы с зависимостями (сеть, время). Поэтому, чем меньше этого в тестах, тем они стабильнее.
основной объем бизнес-логики проверяем максимально близко к месту логики (см.пункт про слои) и с максимальным количеством замокированных зависимостей (но не переусердствуйте, а то будут другие проблемы)

К сожалению, полностью избавиться от flaky тестов сложно (окружение, сложные сценарии, много зависимостей), а местами просто дорого (по времени и ресурсам).

Что делать, если они появились?

разбирайтесь с проблемой падения максимально быстро. Не надо держать в наборе запускаемых тестов тот, доверия к результатам которого нет.
если сейчас нет возможности разобраться с ошибкой, переместите этот тест в "карантин", чтобы позже с ним разобраться. Не надо держать в наборе запускаемых тестов тот, доверия к результатам которого нет - 2.
если вы тестировщик, смотрите код тестируемого приложения. Часто проблемы с "морганиям" проще понять и поправить именно там. По статистике (2014 год) до 25% исправлений моргающих тестов делается в продакшен коде приложения.
привлекайте разработчиков, если сами не можете разобраться в коде.
активно используйте трейсинг (логирование) в тестах и продакшен-коде для того, чтобы воспользоваться ими при расследовании. Совет: здорово, если у вас есть возможность "объединить" логи тестируемой системы с логами тестов. Мы активно использовали запись меток о начале/завершении теста в продакшен логах приложения. Очень помогало.
для UI-тестов (помните про "через UI"?) имейте возможность включить запись видео или скриншоты в момент проверки
попробуйте переместить моргающую проверку на другой слой пирамидки
если тест не поддается и продолжает моргать, подумайте, может стоит его удалить? Все равно смысла от него немного, особенно если думать про него не "случайно упавший", а "случайно успешный". Ну и в целом "Flaky tests are worse than _no_ tests".
иногда советуют перезапускать упавшие тесты в надежде на удачу. В целом рабочий способ, но не надо им злоупотреблять. Он хорошо помогает с подтверждением проблемы и поиском test war. Но обнаруженные проблемы, например, с медленной инфраструктурой/сетью, особенностями фреймворков важно всегда фиксировать и планировать время на исправление.

Полезные ссылки:

Про перезапуск тестов
Про моргающие тесты в Gmail
An Empirical Analysis of Flaky Tests
No more flaky tests
Eradicating Non-Determinism in Tests
Один из вариантов работающего подхода по исправлению "моргающих" тестов
How do you test your tests? (probabilistic flakiness score)

Чудес не бывает или я ошибаюсь?

Поиск по этому блогу

Flaky тесты (они же моргающие или "случайно успешные")

Ярлыки

Комментарии

Отправить комментарий

Популярные сообщения из этого блога

Mock vs Stub

Полезные ресурсы для молодых (и не только) тестировщиков

Заметки на коленке - 3. Что еще делать, если ваши тесты уже "зеленые"?