W modelu regresji logistycznej binarnej możemy interpretować statystyk zgodności dewiancji i Pearsona tylko wtedy, gdy spełniony jest warunek
Liczba unikalnych subpopulacji minus liczba estymowanych parametrów jest większa od 0 oraz wszystkie zmienne objaśniające są zmiennymi jakościowymi,
Wszystkie zmienne objaśniające są zmiennymi jakościowymi,
Model jest modelem nasyconym,
Liczba unikalnych subpopulacji minus liczba estymowanych parametrów jest większa od 0,
Liczba unikalnych subpopulacji minus liczba estymowanych parametrów jest większa od 0 oraz wszystkie zmienne objaśniające są zmiennymi jakościowymi,
W jakim przypadku można podejrzewać, że model jest przeuczony?
gdy wskaźnik błędnej klasyfikacji przekracza 80%
gdy wskaźnik czułości (sensitivity) przekracza 80%
gdy wskaźnik trafności (hit rate) przekracza 80%
gdy wskaźnik specyficzności (specificity) przekracza 80%
gdy wskaźnik trafności (hit rate) przekracza 80%
Krzywa ROC:
charakteryzująca dobry model predykcyjny leży blisko prawego i dolnego brzegu wykresu
charakteryzująca dobry model predykcyjny pokrywa się z przekątną y=x
jest wykresem zależności sensitivity od (1-specificity) dla ustalonej wartości cut-off
jest wykresem zależności sensitivity od (1-specificity) dla wszystkich możliwych wartości cut-off
jest wykresem zależności sensitivity od (1-specificity) dla wszystkich możliwych wartości cut-off
Test Hosmera-Lemeshowa:
służy do weryfikacji jak silnie wartości obserwowane i przewidywane pasują do siebie w całym przedziale zmienności
służy do weryfikacji jak silnie wartości obserwowane i przewidywane pasują do siebie w całym przedziale zmienności oraz testuje hipotezę zerową mówiącą o występowaniu statystycznie istotnej różnicy pomiędzy wartościami obserwowanymi a prognozowanymi danej zmiennej
wskazuje na dobre dopasowanie modelu, gdy wartość p-value jest niska
testuje hipotezę zerową mówiącą o występowaniu statystycznie istotnej różnicy pomiędzy wartościami obserwowanymi a prognozowanymi danej zmiennej
służy do weryfikacji jak silnie wartości obserwowane i przewidywane pasują do siebie w całym przedziale zmienności
Zjawisko nadmiernego overdispersion sprawia, że występuje:
wybór modelu z małą liczbą zmiennych objaśniających
niedoszacowanie błędów standardowych
wybór zbyt prostego modelu
przeszacowanie błędów standardowych
przeszacowanie błędów standardowych
Overdispersion występuje w przypadku, kiedy:
iloraz statystyki chi-kwadrat lub dewiancji i liczby stopni swobody jest większy niż 2
iloczyn statystyki chi-kwadrat lub dewiancji i liczby stopni swobody jest mniejszy niż 2
iloraz statystyki chi-kwadrat lub dewiancji i liczby stopni swobody jest mniejszy niż 1
iloczyn statystyki chi-kwadrat lub dewiancji i liczby stopni swobody jest większy niż 2
iloraz statystyki chi-kwadrat lub dewiancji i liczby stopni swobody jest większy niż 2
Zjawisko nadmiernego rozrzutu dotyczy modeli o rozkładach:
Poissona
Wszystkie odpowiedzi są prawidłowe
wielomianowym
dwumianowym
Wszystkie odpowiedzi są prawidłowe
Które zdanie jest prawdziwe:
Zjawisko overdispersion powoduje, że zmienność wariancji będzie zbyt duża, prowadząc do wyboru nazbyt złożonego modelu
Zjawisko underdispersion występuje bardzo często w praktyce.
W regresji liniowej również możemy spotkać się z problemem nadmiernego rozproszenia.
Zjawisko nadmiernego rozproszenia występuje bardzo często w praktyce
Zjawisko overdispersion powoduje, że zmienność wariancji będzie zbyt duża, prowadząc do wyboru nazbyt złożonego modelu
Efekt interakcji w modelu regresji w modelu regresji logistycznej występuje gdy:
wprowadzenie do modelu iloczynu zmiennych, między którymi występuje interakcja poprawia jakość modelu
wpływ zmiennej niezależnej na zmienną zależną w modelu zmienia się w zależności od wartości innej zmiennej niezależnej, będącej moderatorem
wpływ zmiennej niezależnej na zmienną zależną w modelu zmienia się w zależności od wartości innej zmiennej niezależnej, będącej moderatorem oraz wprowadzenie do modelu iloczynu zmiennych, między którymi występuje interakcja poprawia jakość modelu
łączny efekt dwóch zmiennych daje się przewidzieć na podstawie efektów tych zmiennych działających osobno
wpływ zmiennej niezależnej na zmienną zależną w modelu zmienia się w zależności od wartości innej zmiennej niezależnej, będącej moderatorem oraz wprowadzenie do modelu iloczynu zmiennych, między którymi występuje interakcja poprawia jakość modelu
W sytuacji gdy nie dysponujemy wystarczająco dużą próbą, w celu zbadania zależności między zmiennymi powinniśmy stosować:
dokładny test Fishera
test ilorazu wiarygodności
test chi-kwadrat Pearsona
test Mantela-Haenszela
dokładny test Fishera
Testu niezależności chi-kwadrat Pearsona nie powinno się przeprowadzać, jeśli w tablicy kontyngencji liczebności teoretyczne poszczególnych komórek są:
większe od 10
niższe od 5
mniejsze od 10
wyższe od 5
niższe od 5
Do oceny współliniowości zmiennych objaśniających nie można wykorzystać:
testu korelacji Pearsona
współczynnika VIF
testu Box’a-Tidwell’a
współczynnika tolerancji wariancji (TOL)
testu Box’a-Tidwell’a
Procedury SAS, którymi mierzy się siłę współliniowości, to:
PROC CORR oraz PROC REG
PROC CORR
PROC LOGISTIC
PROC REG
PROC CORR oraz PROC REG
Interakcje
zwiększają znajomość mechanizmu przyczynowego
wynikają ze słabej jakości danych, niejasności w danych
zwiększają znajomość mechanizmu przyczynowego oraz mają charakter naturalny
mają charakter naturalny (coś z natury różni się między klasami)
zwiększają znajomość mechanizmu przyczynowego oraz mają charakter naturalny
Założenia dotyczące liniowości w modelach regresji logistycznej dotyczą:
liniowego związku prawdopodobieństwa i wektora zmiennych objaśniających
liniowego związku logitu i wektora zmiennych objaśniających
liniowego związku szans i wektora zmiennych objaśniających
liniowego związku ilorazu szans i wektora zmiennych objaśniających
liniowego związku logitu i wektora zmiennych objaśniających
Do metod pozwalających rozwiązać problem z nieliniowością w regresji logistycznej zaliczyć można:
podział zmiennej ciągłej na kategorie
zmiana sposobu kodowania zmiennej objaśniające
zastosowanie wyższej potęgi ciągłej zmiennej objaśniającej
zastosowanie wyższej potęgi ciągłej zmiennej objaśniającej oraz podział zmiennej ciągłej na kategorie
zastosowanie wyższej potęgi ciągłej zmiennej objaśniającej oraz podział zmiennej ciągłej na kategorie
Test Boxa-Tidwella badający liniowość w modelach regresji logistycznej polega na:
kategoryzacji zmiennej ciągłej
usunięciu z modelu zmiennej ciągłej i ponownym oszacowaniu parametrów
dodaniu do modelu interakcji zmiennej ciągłej i jej kwadratu
dodaniu do modelu interakcji zmiennej ciągłej i jej logarytmu naturalnego
dodaniu do modelu interakcji zmiennej ciągłej i jej logarytmu naturalnego
Nieliniowość w modelu może powstać podczas:
kodowania zmiennej z natury ciągłej
selekcji danych do modelu
dyskretyzacji zmiennych
wszystkie odpowiedzi są niepoprawne
wszystkie odpowiedzi są niepoprawne
Krzywa ROC powstaje poprzez zaznaczenie na wykresie wartości wskaźników:
False Positive Rate i False Negative Rate
True Positive Rate i False Positive Rate
True Positive Rate i True Negative Rate
Sensitivity i Specificity
True Positive Rate i False Positive Rate
Statystyki D Somersa, Gamma oraz Tau-a testują:
różnice pomiędzy przewidywaną a obserwowaną liczbą obserwacji w danych grupach.
ograniczenie dużego zbioru potencjalnych zmiennych objaśniających (spośród grona modeli adekwatnie opisujących dane zjawisko, najlepszym modelem jest model najprostszy
hipoteze zerową, że model jest dobrze dopasowany do danych
niezależność zmiennych objaśnianej i objaśniających, na podstawie tablic kontyngencji.
niezależność zmiennych objaśnianej i objaśniających, na podstawie tablic kontyngencji.
Która miara dopasowania podana jest w wydruku SAS-a jako “Maksymalnie przeskalowane R-kwadrat”:
R-kwadrat Coxa-Snella
R-kwadrat Nagelkerke
R-kwadrat Cragga-Uhlera
pseudo-R-kwadrat McFaddena
R-kwadrat Nagelkerke
Do wystąpienia zjawiska overdispersion przyczynić się może:
wszystkie odpowiedzi są prawidłowe
występowanie w zbiorze danych zjawisk rzadkich
wykorzystanie cluster sampling
agregacja zmiennych
wszystkie odpowiedzi są prawidłowe
Występowanie zjawiska overdispersion skutkuje:
otrzymaniem niezgodnych estymatorów
wyborem zbyt prostej postaci modelu
niedoszacowaniem błędów standardowych
otrzymaniem oszacowań parametrów znacząco różnych od ich prawdziwych wartości
niedoszacowaniem błędów standardowych
Ze zjawiskiem overdispersion mamy do czynienia kiedy
odchylenie resztowe jest w przybliżeniu równe liczbie stopni swobody
wariancja wynikająca z danych jest większa niż ta wynikająca z modelu
średnie odchylenie jest bliskie wartości 1
wariancja wynikająca z modelu jest większa niż ta wynikająca z danych
wariancja wynikająca z danych jest większa niż ta wynikająca z modelu