Modelos Lineares Generalizados
Modelos lineares generalizados (MLGs) são definidos por uma distribuição de probabilidade para a variável resposta Y pertencente à família exponencial, um conjunto de variáveis explicativas que podem ser numéricas ou categóricas e uma função de ligação.
Modelo de regressão logística binária
Um dos modelos lineares generalizados mais utilizados na área de saúde é o modelo de regressão logística binária, onde a variável resposta do modelo tem distribuição de Bernoulli (ou Binomial) e a função de ligação é a função logística. Na área de saúde, o referido modelo poderia ser adotado, por exemplo, para estimar a probabilidade do paciente: aderir ao tratamento medicamentoso (adesão=1; não adesão=0); reportar um estado de saúde não bom (não bom=1; bom=0); ter uma determinada doença crônica (ter DC=1; não ter DC=0).
Função “glm”
A função utilizada para ajustar modelos lineares generalizados é a função “glm”. Nesta função é necessário especificar as variáveis explicativas e a variável resposta do modelo, a distribuição de probabilidade da variável resposta do modelo (family) e a função de ligação (link) desejada pelo pesquisador. Com a função “glm” é possível obter as estimativas pontuais dos parâmetros do modelo e algumas medidas de qualidade do ajuste (AIC e deviances).
Função “summary”
Após a ajustar o MLG de interesse é necessário utilizar a função “summary” para obter outros resultados do ajuste do modelo além das estimativas pontuais. Entre os resultados obtidos com a função “summary” do RStudio estão: as estimativas pontuais, os erros padrão referentes as estimativas pontuais, os valores observados da estatística de Wald e os p-valores do teste de Wald.
Situação em questão
Na área de saúde, os pesquisadores estão mais interessados em analisar as estimativas das medidas de associação (como, por exemplo, a razão de prevalência ou a razão de chance, em inglês odds ratio) ao invés das estimativas pontuais dos parâmetros do modelo. Entretanto, estas medidas de associação não fazem parte do conjunto de resultados fornecidos pela função “summary” do RStudio. O exemplo a seguir mostra como ajustar o modelo de regressão logística binária usando a função “glm”, e como obter as medidas de razão de chance e seus respectivos intervalos de confiança a partir das saídas fornecidas pelo comando “glm”.
Ilustração 1
Os dados se referem a um estudo sobre autoavaliação geral de saúde (1=não boa, 0=boa) de n=30 indivíduos com idade variando de 20 a 95 anos. O objetivo do estudo é estudar a relação entre a autoavaliação de saúde (Y) e as seguintes variáveis explicativas: idade(em anos) e renda familiar per capita (1=Mais de 3 s.m, 0= Até 3 s.m=base).
idade=c(21,20,25,26,22,35,36,40,42,46,59,50,60,72,85,59,29,45,39,45,20,25,36,58,95,52,80,85,62,72)
renda=c(1,1,1,1,0,0,1,1,1,1,1,0,1,1,1,1,1,0,0,0,0,0,0,1,0,0,0,0,0,1)
saude=c(0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)
Ajuste do modelo de regressão logística binária (estimativas pontuais dos parâmetros)
Os parâmetros do modelo são estimados pelo método de máxima verossimilhança (MV).
modelo1=glm(saude~idade+renda,family=binomial(link="logit"));modelo1
##
## Call: glm(formula = saude ~ idade + renda, family = binomial(link = "logit"))
##
## Coefficients:
## (Intercept) idade renda
## -2.938 0.133 -3.179
##
## Degrees of Freedom: 29 Total (i.e. Null); 27 Residual
## Null Deviance: 38.19
## Residual Deviance: 18.71 AIC: 24.71
Resultados do ajuste do modelo de regressão logística binária
Fornece as estimativas pontuais dos parâmetros e os seus erros padrão, os valores observados da estatística de Wald e os p-valores do teste de Wald, entre outras informações.
summary(modelo1)
##
## Call:
## glm(formula = saude ~ idade + renda, family = binomial(link = "logit"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.9396 -0.3251 0.1493 0.5154 2.1727
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.93790 1.74439 -1.684 0.09214 .
## idade 0.13296 0.05123 2.595 0.00945 **
## renda -3.17898 1.45863 -2.179 0.02930 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 38.191 on 29 degrees of freedom
## Residual deviance: 18.711 on 27 degrees of freedom
## AIC: 24.711
##
## Number of Fisher Scoring iterations: 6
Medidas de associação (razões de chance)
Pode-se demonstrar matematicamente que a razão de chance é o exponencial da estimativa pontual
OR1=exp(modelo1$coefficients);OR1
## (Intercept) idade renda
## 0.05297680 1.14220209 0.04162821
Intervalos de 95% de confiança
Os intervalos de 95% de confiança para os parâmetros do modelo, com base na estatística de Wald:
ICbeta1=confint.default(modelo1,level=0.95);ICbeta1
## 2.5 % 97.5 %
## (Intercept) -6.35684588 0.4810436
## idade 0.03255546 0.2333606
## renda -6.03783801 -0.3201166
Os intervalos de confiança para as razões de chance (odds ratio – OR), fixando o nível de confiança de 95%:
ICOR1=exp(ICbeta1);ICOR1
## 2.5 % 97.5 %
## (Intercept) 0.001734830 1.6177619
## idade 1.033091190 1.2628368
## renda 0.002386713 0.7260644
Interpretação das razões de chance (odds ratio)
Tanto a idade quanto a renda familiar per capita estão significativamente relacionadas com a chance de autoavaliação de saúde não boa (OBS: Note que o p-valor é menor que o nível de significância de 5% e o IC para OR não inclui a unidade).
A chance do indivíduo reportar um estado de saúde não bom aumenta em 14,2% ao aumentar em 1 ano a idade.
Indivíduos com mais de 3 salários mínimos tem uma chance de reportar um estado de saúde não bom 95,8% menor do que os indivíduos que ganham no máximo 3 salários mínimos.