Czasem jakaś maszyna dostanie zadyszki - to zrozumiałe. Rzadko jednak da się osiągnąć taki efekt.
Najbardziej podstawowym parametrem w najbardziej ogólny sposób opisującym stan obciążenia systemu jest "load average" czyli średnie obciążenie. Są to trzy liczby i w wielkim skrócie oznaczają one średnią ilość procesów/zadań/wątków oczekujących w kolejne na czas procesora. Kolejne wartości liczbowe pochodzą z różnych okresów dla jakich liczona była średnia. Pierwszy to minuta (mamy problem tu i teraz). Druga to pięć minut (już trochę trwa), ostatnia to minut piętnaście (co gorsza problem narasta). Wg doświadczenia i zdrowego rozsądku problemy wydajnościowe najczęściej zaczynają się w momencie gdy wartości tych liczb przekraczają liczbę rdzeni dostępnych w systemie. Potrafi dojść wtedy do lawinowego wzrostu obciążenia, co jak byk widać w tym wypadku. Load powyżej stu to rzadkość. W tym wypadku mamy prawie dwa tysiące.
Jako bonus dodam, że Rzadko zdarza się też by było więcej niż kilkadziesiąt zadań. Tutaj mamy ponad dwa tysiące. Jednym słowem bombowy dzień.
W trzecim wierszu topa znajdują się statystki procesorów. Często spotykam się z sytuacją w której okazuje się, że nawet relatywnie doświadczony admin ma problemy z rozszyfrowaniem do czego są te wszystkie procenty, a wiedza często ogranicza się do trzech podstawowych, choć czasem i tutaj są braki. Są to po kolei:
us - użytkownik
sy - system
ni - zadania z ujemnym priorytetem
id - bezczynność
wa - operacje I/O
hi - przerwanie sprzętowe
si - przerwanie programowe
st - "ukradzione"
Innym razem może opiszę dokładnie o co chodzi w każdej z tych kategorii.
Brak komentarzy:
Prześlij komentarz