Visualização em mapa utilizando o R

No III Seminário Internacional de Estatística com R (SER) integrantes da nossa equipe apresentaram um projeto na Sessão Pôster.
Projeto este que teve início em 2016, fruto da parceria entre o Núcleo de Pesquisas, Informações e Políticas Públicas DATAUFF e o Núcleo de Operações da Delegacia de Polícia Federal em Niterói, com o objetivo de desenvolver um modelo de banco de dados digital georreferenciado para os registros de ocorrência de crimes de subtração de encomendas postais e a partir destes dados produzir visualização em mapas. A visualização será implementada utilizando pacotes da linguagem R, específicos para esta finalidade. Possibilitando assim uma nova forma de análise e de interpretações da ocorrência de crimes sobre encomendas postais na poligonal de Niterói.

Segue abaixo os links com mais detalhes sobre o projeto em questão

Artigo publicado no Medium por um dos autores.

Relatório completo do trabalho em RMarkdown publicado no RPubs.

Publicado em Uncategorized | Deixe um comentário

Curso de Introdução ao R

Venha participar do Curso de Introdução ao R feito pela nossa equipe.
O curso é GRATUITO e realizado online. Ao final do curso, sendo aprovado, o cursista fará jus a um certificado.

Nível: Iniciante
Pré-requisitos: Não é necessário ter nenhuma experiência prévia.

Link: https://goo.gl/forms/XWupYzh5dE0mhrFz2

Publicado em Uncategorized | Com a tag | 2 Comentários

Execute R-online

PostsEstatisticacomr3110

Ter acesso ao R online pode ser muito útil para os estudantes que estão em fase de aprendizado do R, facilita o uso prático, especialmente naquela hora em que você quer mostrar algo para um amigo que não conhece o R, tirar um dúvida sobre um comando,  usá-lo num equipamento que não o tenha  instalado, ou ainda está no celular e quer fazer uso rápido do R. Já se viu nesta situação?

Até mesmo para o professor em sala de aula, que deseja que os alunos experimentem algum comando simples do R, especialmente em aulas fora de um laboratório. Muitas vezes o professor quer mostrar uma funcionalidade do R, algo simples como fazer um histograma, calcular  probabilidades de uma distribuição normal, gerar números aleatórios, fazer um sorteio com ou sem reposição, enfim,  tarefas simples para serem feitas no R em um segundo!

Temos pesquisado como ter acesso ao R online, em setembro de 2015 publicamos   sobre o R-Fiddle, porém outras alternativas parecem ser igualmente interessantes, como é o caso do execute_r_online.  Está inserido numa plataforma de desenvolvimento integrado (IDE) com uma variedade enorme de ferramentas.

Listamos a seguir um conjunto de  opções sobre o R online, incluindo estas descritas acima e outras que encontramos:

1.http://www.r-fiddle.org/

2.https://www.tutorialspoint.com/execute_r_online.php

3.https://www.jdoodle.com/execute-r-online

4.https://rweb.stat.umn.edu/Rweb/Rweb.general.html

5.https://rdrr.io/snippets

6.rextester.com/l/r_online_compiler

7.https://rnotebook.io/

Já utilizou alguma destas? Conhece outras? Compartilhe conosco sua opinião!

Autoria: Luciane Alcoforado

 

Publicado em Uncategorized | Com a tag , , | Deixe um comentário

Exercícios de Bioestatística: uma abordagem usando o programa R

CA-ecologia-brincando-folhas-D-732x412

A aluna, Adriana dos Santos Lima, da Graduação de Estatística da UFF, teve o seu projeto de monitoria classificado em 3º lugar na 2ª Etapa da XX Semana de Monitoria da UFF 2017. Através do projeto Exercícios de Bioestatística: uma abordagem usando o programa R, a aluna, sob a orientação do professor Dr. José Rodrigo de Moraes, formulou exercícios inéditos de Estatística Descritiva, Probabilidade e Inferência Estatística aplicados a área de saúde usando dados provenientes de diferentes fontes, com o objetivo de estimular o interesse dos alunos para o estudo das disciplinas de “Bioestatística” e “Estatística Aplicada às Ciência da Vida”. Neste projeto de monitoria, a aluna divulgou e utilizou o software gratuito R para resolver os exercícios, e disponibilizou os enunciados, bem como as respostas finais de cada exercício e os comandos empregados na resolução.

Este projeto de monitoria desenvolvido no ano de 2017 foi idealizado pelo professor Dr. José Rodrigo de Moraes, do Departamento de Estatística (GET) da Universidade Federal Fluminense, no início de 2016, e surgiu da sua experiência e prática docente no ensino da disciplina de Bioestatística, e da sua convicção de que a criação de exercícios aplicados a área de interesse e atuação dos alunos é um dos meios necessários para aumentar a motivação, assimilação dos conhecimentos das técnicas estatísticas e criação de habilidades para a resolução de problemas das suas áreas específicas com o uso da estatística.

O resultado final deste trabalho você confere neste portal. (em breve!)

Publicado em Uncategorized | Deixe um comentário

E-book sobre visualização de dados

Lançado recentemente em formato e-book com o título “Visualização de dados com o software R” de autoria de Luciane Alcoforado e Ariel Levy, este livro vem apresentar de forma simples os principais pacotes do R para produção de gráficos como lattice, ggplot2, googleVis além é claro de comandos do pacote básico do R.
Pode ser obtido gratuitamente através de download.

Publicado em Uncategorized | Com a tag , , , , , | Deixe um comentário

Modelo de Regressão Logística Binária com R prof. José Rodrigo de Moraes/UFF

jrodrigo

 

 

 



Modelos Lineares Generalizados

Modelos lineares generalizados (MLGs) são definidos por uma distribuição de probabilidade para a variável resposta Y pertencente à família exponencial, um conjunto de variáveis explicativas que podem ser numéricas ou categóricas e uma função de ligação.

Modelo de regressão logística binária

Um dos modelos lineares generalizados mais utilizados na área de saúde é o modelo de regressão logística binária, onde a variável resposta do modelo tem distribuição de Bernoulli (ou Binomial) e a função de ligação é a função logística. Na área de saúde, o referido modelo poderia ser adotado, por exemplo, para estimar a probabilidade do paciente: aderir ao tratamento medicamentoso (adesão=1; não adesão=0); reportar um estado de saúde não bom (não bom=1; bom=0); ter uma determinada doença crônica (ter DC=1; não ter DC=0).

Função “glm”

A função utilizada para ajustar modelos lineares generalizados é a função “glm”. Nesta função é necessário especificar as variáveis explicativas e a variável resposta do modelo, a distribuição de probabilidade da variável resposta do modelo (family) e a função de ligação (link) desejada pelo pesquisador. Com a função “glm” é possível obter as estimativas pontuais dos parâmetros do modelo e algumas medidas de qualidade do ajuste (AIC e deviances).

Função “summary”

Após a ajustar o MLG de interesse é necessário utilizar a função “summary” para obter outros resultados do ajuste do modelo além das estimativas pontuais. Entre os resultados obtidos com a função “summary” do RStudio estão: as estimativas pontuais, os erros padrão referentes as estimativas pontuais, os valores observados da estatística de Wald e os p-valores do teste de Wald.

Situação em questão

Na área de saúde, os pesquisadores estão mais interessados em analisar as estimativas das medidas de associação (como, por exemplo, a razão de prevalência ou a razão de chance, em inglês odds ratio) ao invés das estimativas pontuais dos parâmetros do modelo. Entretanto, estas medidas de associação não fazem parte do conjunto de resultados fornecidos pela função “summary” do RStudio. O exemplo a seguir mostra como ajustar o modelo de regressão logística binária usando a função “glm”, e como obter as medidas de razão de chance e seus respectivos intervalos de confiança a partir das saídas fornecidas pelo comando “glm”.

Ilustração 1

Os dados se referem a um estudo sobre autoavaliação geral de saúde (1=não boa, 0=boa) de n=30 indivíduos com idade variando de 20 a 95 anos. O objetivo do estudo é estudar a relação entre a autoavaliação de saúde (Y) e as seguintes variáveis explicativas: idade(em anos) e renda familiar per capita (1=Mais de 3 s.m, 0= Até 3 s.m=base).

idade=c(21,20,25,26,22,35,36,40,42,46,59,50,60,72,85,59,29,45,39,45,20,25,36,58,95,52,80,85,62,72)
renda=c(1,1,1,1,0,0,1,1,1,1,1,0,1,1,1,1,1,0,0,0,0,0,0,1,0,0,0,0,0,1)
saude=c(0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)

Ajuste do modelo de regressão logística binária (estimativas pontuais dos parâmetros)

Os parâmetros do modelo são estimados pelo método de máxima verossimilhança (MV).

modelo1=glm(saude~idade+renda,family=binomial(link="logit"));modelo1
## 
## Call:  glm(formula = saude ~ idade + renda, family = binomial(link = "logit"))
## 
## Coefficients:
## (Intercept)        idade        renda  
##      -2.938        0.133       -3.179  
## 
## Degrees of Freedom: 29 Total (i.e. Null);  27 Residual
## Null Deviance:       38.19 
## Residual Deviance: 18.71     AIC: 24.71

Resultados do ajuste do modelo de regressão logística binária

Fornece as estimativas pontuais dos parâmetros e os seus erros padrão, os valores observados da estatística de Wald e os p-valores do teste de Wald, entre outras informações.

summary(modelo1)
## 
## Call:
## glm(formula = saude ~ idade + renda, family = binomial(link = "logit"))
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.9396  -0.3251   0.1493   0.5154   2.1727  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept) -2.93790    1.74439  -1.684  0.09214 . 
## idade        0.13296    0.05123   2.595  0.00945 **
## renda       -3.17898    1.45863  -2.179  0.02930 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 38.191  on 29  degrees of freedom
## Residual deviance: 18.711  on 27  degrees of freedom
## AIC: 24.711
## 
## Number of Fisher Scoring iterations: 6

Medidas de associação (razões de chance)

Pode-se demonstrar matematicamente que a razão de chance é o exponencial da estimativa pontual

OR1=exp(modelo1$coefficients);OR1
## (Intercept)       idade       renda 
##  0.05297680  1.14220209  0.04162821

Intervalos de 95% de confiança

Os intervalos de 95% de confiança para os parâmetros do modelo, com base na estatística de Wald:

ICbeta1=confint.default(modelo1,level=0.95);ICbeta1
##                   2.5 %     97.5 %
## (Intercept) -6.35684588  0.4810436
## idade        0.03255546  0.2333606
## renda       -6.03783801 -0.3201166

Os intervalos de confiança para as razões de chance (odds ratio – OR), fixando o nível de confiança de 95%:

ICOR1=exp(ICbeta1);ICOR1
##                   2.5 %    97.5 %
## (Intercept) 0.001734830 1.6177619
## idade       1.033091190 1.2628368
## renda       0.002386713 0.7260644

Razões de chance e os seus respectivos intervalos de confiança (com 3 casas decimais).

Através do comando a seguir os resultados de interesse são condensados, de modo a facilitar a interpretação das medidas de razão de chance e a análise sobre a significância da associação entre cada variável explicativa e a chance do indivíduo reportar um estado de saúde não bom.

round((cbind(OR1, ICOR1)),3)
##               OR1 2.5 % 97.5 %
## (Intercept) 0.053 0.002  1.618
## idade       1.142 1.033  1.263
## renda       0.042 0.002  0.726

Interpretação das razões de chance (odds ratio)

Tanto a idade quanto a renda familiar per capita estão significativamente relacionadas com a chance de autoavaliação de saúde não boa (OBS: Note que o p-valor é menor que o nível de significância de 5% e o IC para OR não inclui a unidade).

A chance do indivíduo reportar um estado de saúde não bom aumenta em 14,2% ao aumentar em 1 ano a idade.

Indivíduos com mais de 3 salários mínimos tem uma chance de reportar um estado de saúde não bom 95,8% menor do que os indivíduos que ganham no máximo 3 salários mínimos.


 

 

Publicado em Uncategorized | Com a tag , , , | 1 Comentário

Criando Vetores no R

Vetor no R É uma estrutura de dados básica do R, que permite armazenar um conjunto de valores numéricos ou de caractere sob um mesmo nome. Esses valores podem ser acessados individualmente através de índices. No exemplo abaixo, x é … Continue lendo

Mais galerias | Deixe um comentário

WordCloud no R – SER

Esta galeria contém 2 fotos.

Você já viu em algum web site, um conjunto de palavras sem ordem e com tamanhos diferentes? Acredito que sim.  Hoje em dia é bem comum e extremamente eficiente em ajudar os internautas a pesquisarem conteúdos no site em questão … Continue lendo

Mais galerias | Deixe um comentário

Aprenda R no R – pacote swirl – SER

Esta galeria contém 2 fotos.

      Você já ouviu falar no pacote “swirl”? Talvez sim, mas se não, leia esse post e tenha a certeza que você terá uma ótima ferramente para aprender R de uma forma um tanto interessante e inovadora. O … Continue lendo

Mais galerias | Deixe um comentário

Criando funções no R

Durante a disciplina GET00139 – Programação Estatística do curso de Estatística da UFF, aprendemos a criar nossas próprias funções no R. Essa tarefa pode ser trivial ou bastante complicada, variando de acordo com o objetivo da função. Então vamos entender alguns … Continue lendo

Mais galerias | 1 Comentário