News:

UNIX прост. Но надо быть гением, чтобы понять его простоту. Деннис Ритчи

Main Menu

История одного бага Windows

Started by ival, 15 February 2019, 11:23

Previous topic - Next topic

0 Members and 2 Guests are viewing this topic.

ival

В один прекрасный вечер пришло оповещение от системы мониторинга. Смысл сообщения – нехватка оперативной памяти на одном из контроллеров домена. Особого значения я этому не придал, т.к. предположил, что на сервер начали скачиваться и устанавливать обновления. Отложив телефон, я спокойно лег спать. Проснувшись с утра и проверив почту, я был сильно озадачен, пять физических контроллеров из разных сайтов были с такими же проблемами. Написав коллега письмо с просьбой проверить состояния котроллеров, я пошел завтракать и неспешно собираться на работу. Немного подумав я пришёл к выводу, что ситуация не особо критичная, т.к. авторизация на почтовиках работает, а следовательно и глобальных проблем с AD нет. Но меня напрягала одна мысль - проблема только с физическими железками на Windows Server 2012 R2. Виртуальные КД на 2016 и 2012 серверах чувствовали себя отлично Сделаю небольшое отступлении, КД у нас это чистые КД, никаких дополнительных ролей на них нет, разве что на некоторых стоит IIS, но он не нагруженный. Все проблемные КД это Dell RS 230 e3-1220 с 8 гБ памяти.
Утро на работе началось с радостных слов коллег –КД перезагрузили, все нормально. Я успокоился и занялся другими делами. Прошёл 1-1,5 часа и в почте я опять получил письмо счастья от КД. Загрузка памяти более 80 процентов. Второй раз за 12 часов это уже слишком. Полез на КД и увидел следующее: (Рисунок 1)

Что-то жрет выгружаемую память, причем жрет безжалостно, ну и соответственно оперативка тоже под завязку. Пока я рассматривал эту картинку повалили письма от других котроллеров с такой же проблемой. Начал копать глубже. Запустил Process Explorer и увидел: (Рисунок 2)

Развернул процесс и просмотрел какие службы используются. Список был следующий EventSystem, FontCache, netprofm, nsi, RemoteRegistry, W32Time, WinHTTPAutoProxySVC. Подозрения пали на 2 службы - RemoteRegistry, W32Time. Почему именно на них? RemoteRegistry участвует при репликации, а Win32Time при синхронизации времени. Рестартанул эти службы. Ситуация не изменилась. Решил рестартануть все службы. Всё тоже самое. Останавливал по очереди службы на несколько минут. PagedPool продолжал расти. Начал мыслить... Если проблема только на физике с одинаковой конфигурацией, значит вероятно есть драйвер который начал конфликтовать с каким-то из обновлений Windows. Запустил poolmon, чтобы найти того кто жрет память, который вывел мне следующее (Рисунок 3)

Что это я не знал и полез в google. И по первой же ссылке по запросу "wnf paged pool memory leak" попал на статью MS https://support.microsoft.com/en-hk/help/3105719/memory-leak-in-the-remote-registry-service-causes-windows-to-hang
В статье четко написано workaround. И я начал рыть дальше, но оказалось, что кроме временного решения статьи больше ничего нет. Да и основные проблемы описаны только на англоязычных ресурсах, у нас такое ощущение с этим столкнулись только единицы. Вариантов нет, были внесены изменения в реестр согласно рекомендациям MS. Но вот меня мучают вопросы:
 
  • Почему проблема описана в 2016 году а решение до сих пор временное?
  • Почему это случилось одновременно и  именно на физических КД? Почему виртуальные КД с 2012 и другие физические сервера (не КД) с 2012 чувствуют себя нормально?


Уваров А.С.

Quote from: ival on 15 February 2019, 11:23Почему проблема описана в 2016 году а решение до сих пор временное?


Скорее всего потому, что:


Quote from: ival on 15 February 2019, 11:23у нас такое ощущение с этим столкнулись только единицы.


Если баг затрагивает небольшое, по сравнению с общим количеством, число пользователей и его устранение может вызвать какие-либо проблемы у остальных, то его закрывать не будут.

STALKER_SLX

Quote from: ival on 15 February 2019, 11:23это чистые КД, никаких дополнительных ролей на них нет, разве что на некоторых стоит IIS

ival,  подскажите, а для каких целей Вы используете там IIS ?!
Интересуюсь с целью повышения собственной грамотности :)

ival

Quote from: STALKER_SLX on 17 February 2019, 11:57ival,  подскажите, а для каких целей Вы используете там IIS ?!
Интересуюсь с целью повышения собственной грамотности :)

Там просто ридеректы настроены для внутренних порталов.