Capítulo 50 Distribuições de Probabilidade

No R temos acesso as mais comuns distribuições univariadas. Todas as funções tem as seguintes formas:

Função Descrição
pnome( …) função de distribuição
dnome( …) função de probabilidade ou densidade de probabilidade
qnome( …) calcula o quantil correspondente a uma dada probabilidade
rnome( …) retorna uma amostra aleatória da distribuição

o nome é uma abreviatura do nome usual da distribuição (binom, geom, pois, unif, exp, norm, …).

Exempo 1: Simule o lançamento de três moedas honestas e a contagem do número de caras X.

(a) Use a sua simulação para estimar \(P(X=1)\) e \(E(X)\).

(b) Modifique a alínea anterior para permitir uma moeda viciada onde \(P(cara)=3/4\).

set.seed(123)
n <- 10000
sim1 <- numeric(n)
sim2 <- numeric(n)
for (i in 1:n) {
  moedas <- sample(0:1,3,replace=T)
  sim1[i] <- if (sum(moedas)==1) 1 else 0
  sim2[i] <- sum(moedas)
}
# P(X=1)
mean(sim1)
## [1] 0.3821
# E(X)
mean(sim2)
## [1] 1.4928
set.seed(123)
n <- 10000
sim1 <- numeric(n)
sim2 <- numeric(n)
for (i in 1:n) {
  moedas <- sample(c(0,1),3,prob=c(1/4,3/4),replace=T)
  sim1[i] <- if (sum(moedas)==1) 1 else 0
  sim2[i] <- sum(moedas)
}
# P(X=1)
mean(sim1)
## [1] 0.1384
# E(X)
mean(sim2)
## [1] 2.2503

Sabemos também que \(X-\) número de caras no lançamneto de três moedas honestas tem distribuição \(Binomial(n=3,p=0.5)\). Assim, podemos resolver a questão da seguinte maneira

set.seed(123)
valores <- rbinom(10000,3,0.5)
# P(X=1)
sum(valores == 1)/length(valores)
## [1] 0.383
# E(X)
sum(valores)/length(valores)
## [1] 1.4897
mean(valores)
## [1] 1.4897

No segundo caso teremos \(X \sim Binomial(n=3,p=3/4)\).

set.seed(123)
valores <- rbinom(10000,3,3/4)
# P(X=1)
sum(valores == 1)/length(valores)
## [1] 0.1365
# E(X)
sum(valores)/length(valores)
## [1] 2.2558
mean(valores)
## [1] 2.2558

Exemplo 2: O tempo até a chegada de um autocarro tem uma distribuição exponencial com média de 30 minutos.

(a) Use o comando rexp() para simular a probabilidade do autocarro chegar nos primeiros 20 minutos.

(b) Use o comando pexp() para comparar com a probabilidade exata.

set.seed(123)
valores <- rexp(10000, 1/30)
# Probabilidade P(X <=20)
sum( valores < 20)/length(valores)
## [1] 0.4832
# Probabilidade exata
pexp(20, 1/30)
## [1] 0.4865829

Exemplo 3: As cartas são retiradas de um baralho padrão, com reposição, até que um ás apareça. Simule a média e a variância do número de cartas necessárias.

set.seed(123)
n <- 10000
# Denote os ases por 1,2,3,4 
simlist <- numeric(n)

for (i in 1:n) {
  ct <- 0
  as <- 0
  while (as == 0) {
    carta <- sample(1:52,1,replace=T)
    ct <- ct + 1
    if (carta <= 4){
      as <- 1
    }
  }
  simlist[i] <- ct
}
mean(simlist)
## [1] 12.8081
var(simlist)
## [1] 147.5318

Podemos notar aqui tambném que \(X-\) número de provas de Bernoulli até o primeiro sucesso (aparecer um ás), que tem distribuição \(Geométrica(p=4/52)\). Lembre que o R trabalha com a geométrica como sendo \(X-\) número de insucessos até o primeiro sucesso.

set.seed(123)

valores <- rgeom(10000, 4/52) + 1

# Média e variância
mean(valores)
## [1] 13.0108
var(valores)
## [1] 152.0335

50.1 Função de distribuição empírica

A função de distribuição empírica é uma função de distribuição acumulada que descreve a proporção ou contagem de observações em um conjunto de dados que são menores ou iguais a um determinado valor. É uma ferramenta útil para visualizar a distribuição de dados observados e comparar distribuições amostrais.

  • É uma função definida para todo número real \(x\) e que para cada \(x\) dá a proporção de elementos da amostra menores ou iguais a \(x\): \[F_{n}(x) = \frac{\# \, \text{observações} \leq x}{n}\]

  • Para construir a função de distribuição empírica precisamos primeiramente ordenar os dados em ordem crescente: \((x_{(1)},\ldots,x_{(n)})\)

  • A definição da função de distribuição empírica é \[F_{n}(x) = \begin{cases} 0, & \quad x < x_{(1)} \\ \frac{i}{n}, & \quad x_{(i)}\leq x < x_{(i+1)}, \quad i=1,\ldots,n-1 \\ 1, & \quad x\geq x_{(n)} \end{cases}\]

  • Passo a passo para a construção da função

    • Inicie desenhando a função do valor mais à esquerda para o mais à direita.
    • Atribua o valor 0 para todos os valores menores que o menor valor da amostra, \(x_{(1)}\) .
    • Atribua o valor \(\frac{1}{n}\) para o intervalo entre \(x_{(1)}\) e \(x_{(2)}\), o valor \(\frac{2}{n}\) para o intervalo entre \(x_{(2)}\) e \(x_{(3)}\), e assim por diante, até atingir todos os valores da amostra.
    • Para valores iguais ou superiores ao maior valor da amostra, \(x_{(n)}\), a função tomará o valor 1.
    • Se um valor na amostra se repetir \(k\) vezes, o salto da função para esse ponto será \(\frac{k}{n}\), em vez de \(\frac{1}{n}\).

Matematicamente, para uma amostra de tamanho \(n\) , a função de distribuição empírica \(F_n(x)\) é definida como:

\(F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbb{I}(X_i \leq x)\)

onde:

  • \(\mathbb{I}(X_i \leq x)\) é uma função indicadora que vale 1 se \(X_i \leq x\), e 0 caso contrário.
  • \(n\) é o número total de observações.
  • \(X_i\) são os valores observados na amostra.

50.1.1 Função de distribuição empírica no R, função ecdf()

A função ecdf() no R é usada para calcular a função de distribuição empírica (Empirical Cumulative Distribution Function - ECDF) de um conjunto de dados.

# Conjunto de dados
dados <- c(3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5)

# Calcular a ECDF usando a função ecdf()
Fn <- ecdf(dados)

# Plotar a ECDF usando a função ecdf()
plot(Fn, main = "Função de Distribuição Empírica", xlab = "x", ylab = "Fn(x)", col = "blue", lwd = 2)

Exemplo 1: Resolva o exemplo 1 usando a função de distribuição empírica.

set.seed(123)
valores <- rexp(10000, 1/30)
# Função de distribuição empírica
Fn <- ecdf(valores)
# Probabilidade P(X<=20)
Fn(20)
## [1] 0.4832
# Probabilidade exata
pexp(20, 1/30)
## [1] 0.4865829

Modelos Teóricos Discretos

Um modelo probabilístico teórico discreto é uma representação matemática utilizada para descrever fenómenos onde as variáveis aleatórias assumem apenas valores isolados (discretos) num conjunto finito ou infinito enumerável.

O modelo define a distribuição de probabilidades associada a cada possível valor da variável, ou seja, especifica a probabilidade de cada evento ocorrer.

50.2 Distribuição Uniforme Discreta

Definição: A variável aleatória \(X\) diz-se ter distribuição uniforme discreta no conjunto \(\{x_1, x_2, \dots, x_n\}\) se sua função massa de probabilida (f.mp.) for dada por

\[ P(X = x) = \begin{cases} \frac{1}{n}, & \text{se } x = x_1, \dots, x_n \\ 0, & \text{caso contrário} \end{cases} \]

Notação

  • \(X \sim \text{Uniforme Discreta} (\{x_1, x_2, \dots, x_n\})\)
  • \(E(X) = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{n+1}{2}\)
  • \(V(X) = \left(\frac{1}{n} \sum_{i=1}^{n} x_i^2\right) - \left(\frac{1}{n} \sum_{i=1}^{n} x_i \right)^2 = \frac{n^2 - 1}{12}\)

Esta distribuição é razoável quando a variável aleatória discreta toma \(n\) valores distintos, todos com a mesma probabilidade.

Não há entre as funções básicas do R uma função específica para a distribuição uniforme discreta, provavelmente devido a sua simplicidade, embora algumas outras funções possam ser usadas. Por exemplo para sortear números pode-se usar sample(), como no exemplo a seguir onde são sorteados 15 valores de uma uniforme discreta com valores (inteiros) entre 1 e 10 (\(X\sim \text{Uniforme Discreta}(\{1,\ldots,10\})\)).

sample(1:10, size = 15, replace = TRUE)
## [1] 2 3 4 4 4 5 7 9 4 2 6 7 1 6 9

50.2.1 Exercícios

1. Crie uma variável aleatória uniforme discreta \(X\) com valores possíveis de 1 a 10.

  • Simule 1000 realizações de \(X\).
  • Verifique se a frequência relativa de cada valor aproxima-se da probabilidade teórica \(P(X = x) = \frac{1}{10}\).
  • Visualize os resultados com um gráfico de barras.

2. Defina uma variável aleatória uniforme discreta \(X\) com valores possíveis de 5 a 15.

  • Calcule a esperança \(\mathbb{E}[X]\) e a variância \(\text{Var}(X)\) da variável.
  • Simule 10.000 realizações de \(X\) e compare os valores empíricos da média e variância com os valores teóricos.

3. Considere duas variáveis aleatórias uniformes discretas independentes, \(X\) e \(Y\) , com valores possíveis de 1 a 6 (como em um par de dados).

  • Gere 5000 pares de valores para \(X\) e \(Y\).
  • Calcule a média e a variância da soma \(Z = X + Y\).
  • Calcule a probabilidade empírica de que \(Z > 8\).

4. Defina uma variável aleatória uniforme discreta \(X\) com valores possíveis de -3 a 3.

  • Crie uma nova variável aleatória \(Y = X^2 + 2X\).
  • Simule 5000 valores para \(X\) e calcule a esperança \(\mathbb{E}[Y]\) e a variância \(\text{Var}(Y)\).

5. Defina uma variável aleatória uniforme discreta \(X\) com valores possíveis de -5 a 5.

  • Crie uma nova variável \(Y = 3X^3 - 2X^2 + X\).
  • Simule 5000 valores de \(X\) e calcule:
  • A média empírica de \(Y\).
  • A proporção de valores de \(Y\) que são positivos.

50.3 Distribuição de Bernoulli

Definição: Uma experiência aleatória diz-se uma prova de Bernoulli se possuir apenas dois resultados possíveis

  • um sucesso \(A\), que ocorre com probabilidade \(p\) (\(0\leq p \leq 1\));

  • um insucesso \(\bar{A}\), que ocorre com probabilidade \(1-p\).

Exemplos

  • Lançar uma moeda e observar se o resultado é “cara” ou “coroa”.
  • Examinar uma amostra de rocha para verificar a presença de fósseis.
  • Realizar uma perfuração para verificar a presença de petróleo num local específico.

Definição: A variável aleatória discreta \(X\), que representa o “número de sucessos numa prova de Bernoulli”, diz-se com distribuição de Bernoulli com parâmetro \(p\) e possui f.m.p. dada por

\[ P(X = x) = \begin{cases} p, & \text{se } x = 1 \\ 1 - p, & \text{se } x = 0 \\ 0, & \text{caso contrário} \end{cases} \]

ou, de forma equivalente,

\[ P(X = x) = \begin{cases} p^x (1 - p)^{1 - x}, & x = 0, 1 \\ 0, & \text{caso contrário} \end{cases} \]

Notação

  • \(X \sim \text{Bernoulli}(p)\)
  • \(p = P(\text{Sucesso})\)
  • \(E(X) = p\)
  • \(V(X) = p(1 - p)\)

50.3.1 Cálculo de probabilidades

Seja \(X \sim \text{Bernoulli}(p=0.5)\).

\(P(X=0) \to\) dbinom(x=0, size=1, prob=0.5) = 0.5

\(P(X=1) \to\) dbinom(x=1, size=1, prob=0.5) = 0.5

\(P(X \leq 1) \to\) pbinom(q=1, size=1, prob=0.5) = 1

\(P(X>0) \to\) pbinom(q=0, size=1, prob=0.5, lower.tail=FALSE) = 0.5

Amostra aleatória de dimensão 5: rbinom(n = 5, size = 1, prob = 0.5) = 0 1 0 1 1

50.3.2 Exercícios

1. Considere a experiência aleatória que consiste em lançar uma moeda não viciada e observar a face que fica voltada para cima. Sendo o objetivo verificar se sai “cara”, defina-se a variável aleatória

\[X - \text{número de vezes, em 1 lançamento, que sai cara}\]

  1. Simule a situação descrita, determinando a percentagem de vezes em que saiu cara, para um número total de lançamentos: \(n_1 = 5\), \(n_2=10\), \(n_3=100\) e \(n_4=1000\).

  2. Determine, para cada amostra, o valor da média e da variância. Compare com os valores de \(E(X)\) e \(V(X)\).

2. Considere uma variável aleatória \(X\) com distribuição de Bernoulli, onde \(P(X = 1) = 0.7\) e \(P(X = 0) = 0.3\).

  • Simule 1000 valores de X .
  • Calcule a frequência relativa de \(X = 1\) e \(X = 0\) na amostra.
  • Compare os resultados empíricos com as probabilidades teóricas.

3. Defina uma variável de Bernoulli \(X\) com \(P(X = 1) = 0.4\).

  • Simule 10.000 valores de \(X\).
  • Calcule a média empírica de \(X\) e compare com sua esperança teórica \(\mathbb{E}[X] = p\).
  • Calcule a variância empírica e compare com a fórmula teórica \(\text{Var}(X) = p(1 - p)\).

4. Considere 5 variáveis \(X_1, X_2, \ldots, X_5\), cada uma com distribuição de Bernoulli \(P(X = 1) = 0.5\).

  • Simule 5000 realizações de cada variável.
  • Calcule a soma \(S = X_1 + X_2 + \cdots + X_5\).
  • Verifique a frequência relativa de cada valor possível de \(S\) (de 0 a 5) e compare com a distribuição binomial teórica. Use dbinom(x = 0:5, size = 5, prob = 0.5).

50.4 Distribuição Binomial

Definição: A variável aleatória discreta \(X\), que representa o “número de sucessos num conjunto de \(n\) provas de Bernoulli independentes com probabilidade de sucesso comum e igual a \(p\), diz-se com distribuição binomial de parâmetros \((n, p)\) e possui f.m.p. dada por

\[ P(X = x) = \begin{cases} \binom{n}{x} p^x (1 - p)^{n - x}, & x = 0, 1, 2, \ldots, n \\ 0, & \text{caso contrário} \end{cases} \]

onde

\[ \binom{n}{x} = C_x^n = \frac{n!}{(n - x)! \, x!}. \]

Esta fórmula representa a probabilidade de obter exatamente \(x\) sucessos em \(n\) tentativas, com probabilidade \(p\) de sucesso em cada tentativa.

Notação

  • \(X \sim \text{Binomial}(n,p)\)
  • \(p = P(\text{sucesso})\)
  • \(E(X) = np\)
  • \(V(X) = np(1-p)\)

50.4.1 Cálculo de probabilidades

Seja \(X\sim\text{Binomial}(n=20, p=0.1)\).

\(P(X = 4) \to\) dbinom(x=4, size=20, prob=0.1) = 0.08977883

\(P(X\leq 4) \to\) pbinom(q=4, size=20, prob=0.1) = 0.9568255

\(P(X > 4)\to\) pbinom(q=4, size=20, prob=0.1, lower.tail=FALSE)= 0.0431745

Amostra aleatória de dimensão 5: rbinom(n=5, size=20, prob=0.1)= 0 1 1 4 0

50.4.2 Função massa de probabilidade (teórica)

# Simulação de Variáveis aleatórias

# Função massa de probabilidade Binomial(n,p)
n <- 20
p <- 0.1
x <- 0:20

teorico <- data.frame(x = x, y=dbinom(x, size = n, prob = p))

plot(teorico$x, teorico$y,
     main = "Binomial(n=20, p=0.1)",
     xlab = "Número de sucessos",
     ylab = "Probabilidades",
     pch = 19,
     col = "blue")
grid(nx=21, ny=NULL)

50.4.3 Função massa de probabilidade (simulação)

set.seed(1234)

n <- 20
p <- 0.1
k <- 1000 # número de simulações

dados <- rbinom(k, size = n, prob = p)

frequencia_relativa <- table(dados)/length(dados)

barplot(frequencia_relativa,
        main = "Geração de números aleatórios de Bi(20,0.1)",
        col = "lightblue",
        xlab = "Número de sucessos",
        ylab = "Frequência relativa",
        ylim = c(0,0.3))
grid()

50.4.4 Comparação

set.seed(1234)

n <- 20
p <- 0.1
k <- 1000 # número de simulações

dados <- rbinom(k, size = n, prob = p)
frequencia_relativa <- table(dados)/length(dados)

teorico <- data.frame(x = 0:n, y=dbinom(0:n, size = n, prob = p))

barplot(frequencia_relativa,
        main = "Geração de números aleatórios de Bi(20,0.1)",
        col = "lightblue",
        xlab = "Número de sucessos",
        ylab = "Frequência relativa",
        xlim = c(0,20),
        ylim = c(-0.01,0.3))

points(teorico$x, teorico$y,
       col = "magenta",
       pch = 19)

grid()

50.4.5 Função de distribuição

# Definir os parâmetros da distribuição binomial
n <- 20 # Número de tentativas
p <- 0.1 # Probabilidade de sucesso

# Valores possíveis de sucessos (0 a n)
x <- 0:n

# Calcular a FD
cdf_values <- pbinom(x, size = n, prob = p)

# Plotar a FD
plot(x, cdf_values, type = "s", lwd = 2, col = "blue", 
xlab = "Número de Sucessos", ylab = "F(x)", 
main = "Função de Distribuição Acumulada da Binomial(n = 20, p = 0.1)")

50.4.6 Função de distribuição empírica

# Definir os parâmetros da distribuição binomial
n <- 20 # Número de tentativas
p <- 0.1 # Probabilidade de sucesso

set.seed(1234)
# Amostra aleatória de dimensão 1000
amostra <- rbinom(1000,size = n, prob = p)

# Distribuição empírica 
Fn <- ecdf(amostra)

# Plotar CDF
plot(Fn, main = "Função de Distribuição Empírica", xlab = "x", 
ylab = "Fn(x)", col = "blue")

# OU
plot.ecdf(amostra)

Cálculo de probabilidade: Seja \(X \sim \text{Binomial}(n=20, p=0.1)\).

\(P(X \leq 4) =\) pbinom(4,20,0.1) = 0.9568255

\(P(X \leq 4) \approx\) Fn(4) = 0.956

50.4.7 Exercícios

1. Considere que você está realizando 10 lançamentos de uma moeda justa (\(p = 0.5\)).

  1. Calcule a probabilidade de obter exatamente 6 caras.
  2. Calcule a probabilidade de obter no máximo 4 caras.
  3. Calcule a probabilidade de obter mais de 7 caras.

2. Um dado equilibrado é lançado 12 vezes. O sucesso é definido como “tirar um 6” (\(p = \frac{1}{6}\)).

  1. Calcule a probabilidade de tirar no máximo cinco 6.
  2. Gere uma amostra de 1000 experimentos e registre o número de sucessos em cada experimento.
  3. Faça um gráfico de barras de frequência relativa associado aos valores amostrais. Sobreponha no gráfico a distribuição de probabilidade de \(X\).
  4. Use a função de distribuição empírica para estimar a probabilidade da alínea (a) e compare com o valor teórico.
  5. Calcule a média e a variância da amostra.
  6. Compare os resultados com os valores teóricos \(\mathbb{E}[X] = np\) e \(\text{V}(X) = np(1-p)\).

3. Considere a experiência aleatória que consiste em lançar uma moeda não viciada e observar a face que fica voltada para cima. Suponha que a experiência é realizada 7 vezes, sendo o objetivo verificar se sai “cara”. Defina-se a variável aleatória

\[X - \text{número de vezes, em 7 lançamentos, que sai cara}\]

  1. Calcule a probabilidade de, em 7 lançamentos, sair 2 vezes cara.

  2. Simule a situação descrita para um número total de repetições da experiência: \(n_1=5\), \(n_2=10\), \(n_3=100\) e \(n_4=1000\). Para cada caso, determine a percentagem de casos em que saíram 3 vezes cara.

  3. Determine, para cada amostra, o valor da média e da variância. Compare com os valores de \(E(X)\) e \(V(X)\).

4. Um teste de múltipla escolha tem 10 questões, e cada questão tem 4 alternativas, sendo apenas uma correta (\(p = 0.25\)).

  1. Calcule a probabilidade de acertar exatamente \(k\) questões, para \(k = 0, 1, \ldots, 10\).
  2. Faça um gráfico para visualizar a distribuição de probabilidades.
  3. Identifique o valor de \(k\) que tem maior probabilidade.

5. Um time de basquete tem uma probabilidade de acerto de 0.6 em cada lance livre. Durante um jogo, o time tenta 15 lances livres.

  1. Calcule a probabilidade de acertar exatamente 9 lances livres.
  2. Calcule a probabilidade de acertar entre 8 e 12 (inclusive).
  3. Gere uma amostra de 500 jogos e estime a proporção de jogos em que o time acerta entre 8 e 12 lances livres.

6. Em um processo de fabricação, uma variável aleatória \(X\) representa o número de peças defeituosas em um lote de 40 peças. A probabilidade de uma peça ser defeituosa é \(p = 0.05\).

  1. Usando o R e fixando a semente em 123, gere uma amostra aleatória de 10.000 observações de \(X\).
  2. Conte a frequência de lotes com exatamente 2 peças defeituosas.
  3. Calcule a proporção de lotes com exatamente 2 peças defeituosas e compare com a probabilidade teórica \(P(X = 2)\) , onde \(X \sim \text{Binomial}(40, 0.05)\).

7. Em uma loja, a probabilidade de um cliente fazer uma compra é \(p = 0.3\). Suponha que 25 clientes entram na loja em um determinado período. A variável aleatória \(X\) representa o número de clientes que fazem uma compra.

  1. Usando R e fixando a semente em 456, gere uma amostra aleatória de 5.000 observações de \(X\).
  2. Conte a frequência de períodos em que pelo menos 10 clientes fizeram compras.
  3. Calcule a proporção de períodos em que pelo menos 10 clientes fizeram compras e compare com a probabilidade teórica \(P(X \geq 10)\), onde \(X \sim \text{Binomial}(25, 0.3)\).
  4. Use a função de distribuição empírica para estimar a probabilidade de pelo menos 10 clientes fazerem compras e compare com o valor teórico.
  5. Encontre o número médio de clientes que fizeram compras na amostra gerada.
  6. Compare a média amostral com o valor esperado teórico de \(\mathbb{E}[X]\).

8. O número de acertos num alvo em 30 tentativas onde a probabilidade de acerto é 0.4, é modelado por uma variável aleatória \(X\) com distruibuição Binomial de parâmetros \(n=30\) e \(p=0.4\). Usando o R e fixando a semente em 123, gere uma amostra de dimensão \(n=700\) dessa variável. Para essa amostra:

  1. Faça um gráfico de barras de frequências relativas associada aos valores amostrais. Sobreponha no gráfico a distribuição de probabilidade de \(X\).

  2. Calcule a função de distribuição empírica e com base nessa função estime a probabilidade do número de acertos no alvo, em 30 tentativas, ser maior que 15. Calcule ainda o valor teórico dessa probabilidade.

50.5 Distribuição Geométrica

Definição: A variável aleatória discreta \(X=\) “número de provas de Bernoulli (independentes e com probabilidade de sucesso comum igual a \(p\)) realizadas até à ocorrência do primeiro sucesso” diz-se com distribuição geométrica com parâmetro p e possui f.m.p. dada por \[P(X=x) = \begin{cases} p(1-p)^{x-1},& \quad x=1,2,3,\ldots \\ 0,& \quad \text{caso contrário} \end{cases}\]

Notação

  • \(X \sim \text{Geométrica}(p)\)
  • \(p = P(\text{sucesso})\)
  • \(E(X) = \frac{1}{p}\)
  • \(V(X) = \frac{1-p}{p^2}\)

A variável aleatória discreta com distribuição geométrica pode ser defina de outro modo… (O R trabalha com essa definição).

Definição: A variável aleatória discreta \(Y= X-1 =\) “número de insucessos até obter o primeiro sucesso” diz-se com distribuição geométrica com parâmetro \(p\) e possui f.m.p. dada por

\[P(Y=y) = \begin{cases} p(1-p)^{y},& \quad y=0,1,2,3,\ldots \\ 0,& \quad \text{caso contrário} \end{cases}\]

Notação

  • \(Y \sim \text{Geométrica}(p)\)
  • \(p = P(\text{sucesso})\)
  • \(E(Y) = \frac{1-p}{p}\)
  • \(V(Y) = \frac{1-p}{p^2}\)

50.5.1 Cálculo de probabilidades

Seja \(X\sim \text{Geométrica}(p=0.5)\).

\(P(X=0) \to\) dgeom(x = 0, prob = 0.5) = 0.5

\(P(X=1) \to\) dgeom(x = 1, prob = 0.5) = 0.25

\(P(X \leq 1) \to\) pgeom(q = 1, prob = 0.5) = 0.75

\(P(X > 1) \to\) pgeom(q = 1, prob = 0.5, lower.tail = FALSE) = 0.25

Amostra aleatória de dimensão 5: rgeom(n = 5, prob = 0.5) = 3 0 0 0 1

Exemplo: Seja \(X\) a variável aleatória que indica o número de lançamentos de um dado equilibrado até surgir a primeira face 2.

  1. Qual a probabilidade da face 2 surgir no terceiro lançamento?

  2. Qual o número esperado de lançamentos do dado até sair a face 2?

  3. Qual a probabilidade de serem necessários mais de 10 lançamentos sabendo que já houve 6 lançamentos do dado sem que a face 2 saísse?

  4. Lembre que no R a geométrica é definida como \(Y = X-1\), então \(P(X=3)=P(Y=2)\).

# P(Y=2)
dgeom(x = 2, prob = 1/6)
## [1] 0.09645062

50.5.2 Exercícios

1. Suponha que um dado equilibrado seja lançado repetidamente até que o número “6” apareça. A probabilidade de sucesso em cada tentativa é \(p = \frac{1}{6}\).

  • Simule 1000 experimentos e registre o número de tentativas necessárias em cada caso.
  • Calcule a frequência relativa para cada valor possível e compare com as probabilidades teóricas usando a função dgeom().

2. Fixando a semente em 123 simule 5000 valores de uma variável aleatória geométrica com \(p = 0.2\). - Calcule a probabilidade empírica de que o número de tentativas até o primeiro sucesso seja menor ou igual a 5. - Compare o resultado empírico com o valor teórico utilizando a função pgeom().

3. Gere a distribuição geométrica para diferentes valores de \(p\): \(p= 0.1\), \(p = 0.5\), e \(p = 0.9\).

  • Plote gráficos de barras para comparar como a probabilidade muda conforme \(p\) aumenta.
  • Descreva como o parâmetro \(p\) afeta a forma e o decaimento da distribuição.

4. Defina uma variável geométrica com \(p = 0.3\).

  • Fixando a semente em 123 simule 10.000 valores dessa variável e calcule a média e a variância empíricas.
  • Compare os resultados empíricos com os valores teóricos:
  • \(\mathbb{E}[X] = \frac{1-p}{p}\)
  • \(\text{Var}(X) = \frac{1-p}{p^2}\)

5. Considere uma pesquisa de opinião em que 80% das pessoas entrevistadas concordam com uma determinada afirmação (\(p = 0.8\)).

  • Simule o número de entrevistas necessárias até encontrar uma pessoa que discorde (\(1-p = 0.2\)).
  • Realize 5000 simulações e calcule a média e a variância do número de entrevistas.
  • Visualize a distribuição empírica do número de entrevistas.

6. Uma central de suporte técnico está analisando o número de chamadas necessárias até resolver o problema de um cliente. A probabilidade de sucesso em resolver o problema em cada tentativa é \(p = 0.3\), e o número de tentativas segue uma distribuição geométrica.

  1. Qual é a probabilidade de resolver o problema em no máximo 5 tentativas?

  2. Qual é a probabilidade de precisar de mais de 8 tentativas para resolver o problema?

  3. Simule o número de tentativas necessárias para resolver o problema em 500 casos.

    1. Crie um vetor de amostras aleatórias de tamanho 500 usando rgeom().
    1. Calcule a frequência relativa de casos em que o número de tentativas foi menor ou igual a 5. Compare este valor com a probabilidade calculada no item (a).
  1. Usando a simulação do item (c), calcule a média e o desvio padrão da amostra gerada. Compare com os valores teóricos da média \(\mu = \frac{1-p}{p}\) e do desvio padrão \(\sigma = \sqrt{\frac{1-p}{p^2}}\).

  2. Construa um gráfico que compare a distribuição teórica \(P(X = x)\) com a frequência relativa observada na simulação do item (c).

50.6 Distribuição de Poisson

Considera-se a contagem do número de ocorrências aleatórias de um acontecimento num intervalo de tempo (comprimento, área, volume, etc.) que verifica as seguintes propriedades:

  1. O número de ocorrências de um acontecimento num intervalo é independente do número de ocorrências noutro intervalo disjunto, dizendo-se que não tem memória.

  2. A probabilidade de ocorrência de um acontecimento é a mesma para intervalos com a mesma amplitude.

  3. A probabilidade de ocorrer mais do que um acontecimento num intervalo suficientemente pequeno é nula.

Então, esta experiência aleatória chama-se Processo de Poisson.

Definição: A variável aleatória discreta X = “número de ocorrências de um acontecimento por unidade de tempo ou de espaço (comprimento, área, volume, etc.)”

diz-se com distribuição de Poisson de parâmetro \(\lambda > 0\) e possui f.m.p. dada por

\[ P(X = x) = \begin{cases} \frac{e^{-\lambda} \lambda^x}{x!}, & x = 0, 1, 2, \dots \\ 0, & \text{caso contrário} \end{cases} \]

Notação

  • \(X \sim \text{Poisson}(\lambda)\)
  • \(E(X) = \lambda\)
  • \(V(X) = \lambda\)

\(\lambda\) representa o número médio de ocorrências de um acontecimento por unidade de tempo ou espaço.

Aditividade da Distribuição de Poisson: Se \(X_1, \dots, X_n\) são variáveis aleatórias independentes, com \(X_i \sim \text{Poisson}(\lambda_i)\) para \(i = 1, 2, \dots, n\), então

\[ \sum_{i=1}^n X_i \sim \text{Poisson}\left( \sum_{i=1}^n \lambda_i \right). \]

50.6.1 Cálculo de probabilidades

Seja \(X\sim\text{Poisson}(\lambda=5)\).

\(P(X =4) \to\) dpois(4,5) = 0.1755

\(P(X\leq 4) \to\) ppois(4,5) = 0.4405

\(P(X > 4)\to\) ppois(4,5,lower.tail=FALSE)= 0.5595

50.6.2 Função massa de probabilidade (teórica)

# Definir os valores de lambda e x
p <- c(0.1, 1, 2.5, 5, 15, 30)
x <- 0:50

# Carregar os pacotes necessários
library(ggplot2)
library(latex2exp)
library(gridExtra)

# Inicializar uma lista para armazenar os gráficos
plots <- list()

# Loop para criar os data frames e gráficos
for (i in 1:length(p)) {  
  teorico <- data.frame(x = x, y = dpois(x, lambda = p[i]))    
    
  plots[[i]] <- ggplot(teorico) +    
    geom_point(aes(x = x, y = y), color = "blue") + 
    scale_x_continuous(breaks = seq(0, 50, by = 10)) +
    labs(title = TeX(paste0("$Poisson(lambda=", p[i], ")$")), x="x", y="Probabilidade") +
    theme_light()
}
    
# Dispor os gráficos em uma grade 2x3
grid.arrange(grobs = plots, nrow = 2, ncol = 3)

50.6.3 Função massa de probabilidade (simulação)

p <- c(0.1, 1, 2.5, 5, 15, 30)
n <- 1000

# Carregar os pacotes necessários
library(ggplot2)
library(latex2exp)
library(gridExtra)

# Inicializar uma lista para armazenar os gráficos
plots <- list()

# Loop para criar os data frames e gráficos
for (i in 1:length(p)) {  
  dados <- data.frame(X = rpois(n, lambda = p[i]))
  
  plots[[i]] <- ggplot(dados) +    
    geom_bar(aes(x = X, y =after_stat(prop)), fill="lightblue") + 
    labs(title=TeX(paste("$Poisson(lambda=", p[i], ")$")), 
    x = "x", y = "Frequência relativa") + 
    theme_light()
}

# Dispor os gráficos em uma grade 2x3
grid.arrange(grobs = plots, nrow = 2, ncol = 3)

50.6.4 Comparação

p <- c(0.1, 1, 2.5, 5, 15, 30)
n <- 1000

# Carregar os pacotes necessários
library(ggplot2)
library(latex2exp)
library(gridExtra)

# Inicializar uma lista para armazenar os gráficos
plots <- list()

# Loop para criar os data frames e gráficos
for (i in 1:length(p)) {  
  dados <- data.frame(X = rpois(n, lambda = p[i]))  
  teorico <- data.frame(x=0:50, y=dpois(0:50,p[i]))    
  
  plots[[i]] <- ggplot(dados) +    
    geom_bar(aes(x = X, y =after_stat(prop)), fill="lightblue") +    
    geom_point(data = teorico, aes(x, y), color = "magenta") +    
    scale_x_continuous(breaks = seq(0, 50, by = 10)) +
    labs(title=TeX(paste("$Poisson(lambda=", p[i], ")$")), 
    x = "x", y = "Frequência relativa") +    
    theme_light()
}

# Dispor os gráficos em uma grade 2x3
grid.arrange(grobs = plots, nrow = 2, ncol = 3)

50.6.5 Função de distribuição

lambda <- 5  # Parâmetro da Poisson
x <- 0:15    # Valores de x para plotar a distribuição

# Calcular a FD
y <- ppois(x, lambda = lambda)

# Plotar a FD
plot(x,y, type="s", lwd=2, col="blue",     
  main=TeX(paste("Função de Distribuição da $Poisson (lambda =", lambda, ")$")),    
  xlab = "x",     
  ylab = "F(x)")

50.6.6 Função de distribuição empírica

library(latex2exp)
# Definir os parâmetros da distribuição de Poisson
lambda <- 5

dados <- rpois(1000,lambda = lambda)
Fn <- ecdf(dados)

# Plotar CDF
plot(Fn, main=TeX("Função de Distribuição Empírica da $Poisson(lambda = 5)$"),
  xlab = "x",     
  ylab = "Fn(x)",      
  col = "blue")

# OU
#plot.ecdf(dados)

plot(Fn, main="Função de Distribuição Empírica",
     xlab="x",
     ylab="Fn",
     col="blue",
     verticals = TRUE)

Cálculo de probabilidades: Seja \(X\sim\text{Poisson}(\lambda=5)\).

\(P(X\leq 4) \to\) ppois(4,5) = 0.4405

\(P(X \leq 4) \to\) Fn(4) = 0.433

Exemplo: Geólogos estão a estudar a ocorrência de terramotos numa região específica. Eles observaram que, em média, ocorrem 3 terramotos por mês nessa região. O número de terramotos por mês pode ser modelado por uma distribuição de Poisson.

(a) Calcule a probabilidade de ocorrer exatamente 2 terramotos em um mês.

(b) Calcule a probabilidade de ocorrer mais de 4 terramotos em um mês.

(c) Suponha que a equipa de geólogos está a planear um sistema de alerta para terramotos. Eles querem saber a probabilidade de ocorrer pelo menos 1 terramoto num período de 2 semanas.

Variável Aleatória

\(X = \text{"número de terramotos por mês numa região específica"}\)

Distribuição de \(X\)

  • \(X \sim \text{Poisson}(\lambda = 3)\)
  • \(E(X) = 3 = \lambda\)

(a) \(P(X=2)\)

# P(X=2)
dpois(x = 2, lambda = 3)
## [1] 0.2240418

(b) \(P(X>4)=1-P(X\leq 4)\)

# P(X>4)
ppois(q = 4, lambda = 3, lower.tail = FALSE)
## [1] 0.1847368
# ou
1 - ppois(q = 4, lambda = 3, lower.tail = TRUE)
## [1] 0.1847368

(c)

Variável aleartória de interesse

\(\tilde{X} = \text{"número de terramotos em 2 semanas"}\)

\(\tilde{X} \sim \text{Poisson}(\lambda = 1.5)\)

\(P(X \geq 1) = 1-P(X < 1) = 1-P(X=0)\)

# P(X >= 1)
1-dpois(x = 0, lambda = 1.5)
## [1] 0.7768698

50.6.7 Exercícios

1. Uma fábrica produz em média 4 defeitos por dia em sua linha de produção. Suponha que o número de defeitos por dia segue uma distribuição de Poisson.

  1. Qual é a probabilidade de ocorrer exatamente 5 defeitos em um dia?
  2. Qual é a probabilidade de ocorrerem 3 ou menos defeitos em um dia?

2. Simule o número de defeitos em 30 dias consecutivos. Use rpois() para gerar uma amostra com média de 4 defeitos por dia.

  1. Gere uma amostra de tamanho 30 com \(\lambda = 4\).
  2. Calcule a média e o desvio padrão da amostra gerada.
  3. Compare a média e o desvio padrão da amostra com os valores teóricos.

3. O número de pedidos recebidos por uma linha de suporte técnico de uma empresa num intervalo de 10 minutos é uma variável aleatória que segue uma distribuição de Poisson. Neste intervalo de 10 minutos, espera-se que cheguem, em média, 20 pedidos.

  1. Calcule a probabilidade de, num período de 10 minutos, chegarem 20 pedidos.

  2. Simule a situação descrita para um número total de repetições da experiência: \(n_1=5\), \(n_2=10\), \(n_3=100\) e \(n_4=1000\). Para cada caso, determine a percentagem de casos em que chegam exatamente 20 pedidos.

  3. Determine, para cada amostra, o valor da média e da variância. Compare com os valores de \(E(X)\) e \(V(X)\).

4. Uma loja recebe uma média de 12 clientes por hora. Suponha que o número de clientes por hora siga uma distribuição de Poisson.

  1. Qual é a probabilidade de a loja receber no máximo 10 clientes em uma hora?

  2. Qual é a probabilidade de receber mais de 15 clientes em uma hora?

  3. Simule o número de clientes recebidos em 500 horas.

    1. Crie um vetor de amostras aleatórias de tamanho 500.
    1. Calcule a frequência relativa de horas em que o número de clientes foi menor ou igual a 10. Compare este valor com a probabilidade calculada no item (a).
  1. Usando a simulação do item (c), calcule a média e o desvio padrão da amostra gerada. Compare com os valores teóricos da média e do desvio padrão de uma distribuição de Poisson com \(\lambda = 12\).

  2. Construa um gráfico que compare a distribuição teórica \(P(X = x)\) com a frequência relativa observada na simulação do item (c).

5. Em uma área de conservação, o número de aves avistadas em uma hora segue uma distribuição de Poisson com \(\lambda = 8\).

  1. Simule o número de aves avistadas em 1000 horas.

  2. Construa a função de distribuição empírica (usando ecdf()).

  3. Compare a função de distribuição empírica com a função de distribuição teórica \(F(x) = P(X \leq x)\) , calculada com ppois().

6. Usando o R e fixando a semente em 543, gere uma amostra aleatória de 2400 observações de uma variável aleatória \(Y\) de Poisson com parâmetro \(\lambda = 6\).

  1. Faça um histograma de frequência relativa associado aos valores amostrais. Sobreponha no gráfico a distribuição de probabilidade de \(Y\).

  2. Use a função de distribuição empírica para estimar \(P(Y > 5)\) e compare com o valor teórico.

7. Para \(\lambda = 5\), construa o gráfico da distribuição de probabilidade \(P(X = x)\) , onde x varia de 0 a 15.

  1. Use dpois() para calcular as probabilidades.

  2. Crie um gráfico de barras para representar os valores.

8. Para \(\lambda = 50\), use a aproximação normal para calcular:

  1. A probabilidade de \(X \geq 55\) usando a distribuição de Poisson.

  2. A mesma probabilidade usando a aproximação normal com \(N(\mu = 50, \sigma^2 = 50)\).

  3. Compare os resultados.

9. Suponha que o número de acidentes por dia em uma rodovia siga uma distribuição de Poisson com \(\lambda = 2\).

  1. Simule 1000 amostras de tamanho 30 do número de acidentes por dia.

  2. Calcule a média de cada amostra.

  3. Plote o histograma das médias amostrais e sobreponha a densidade de uma distribuição normal com média \(\mu = 2\) e desvio padrão \(\sigma = \sqrt{\lambda / n}\). Use curve(dnorm(x, mean = mu, sd = sigma), col = "red", lwd = 2, add = TRUE).

10. Em um hospital, o número de pacientes atendidos por hora segue uma distribuição de Poisson com média de 5 pacientes por hora. Um pesquisador deseja estimar a média do número de pacientes atendidos por hora coletando amostras de diferentes tamanhos.

Usando o R e fixando a semente em 456, realize o seguinte:

  • Simule 1000 amostras de tamanho 50, 100 e 1000 do número de pacientes atendidos por hora, onde \(X \sim \text{Poisson}(\lambda = 5)\).
  • Para cada tamanho de amostra, calcule a média de cada amostra.
  • Plote o histograma das médias amostrais para cada tamanho de amostra (50, 100 e 1000).
  • Sobreponha em cada histograma a densidade de uma distribuição normal com: Média teórica: \(E(X) = \lambda\) e Desvio padrão teórico: \(\sigma = \sqrt{\lambda / n}\) , onde \(n\) é o tamanho da amostra.
  • Comente sobre como as distribuições das médias amostrais se aproximam de uma distribuição normal à medida que o tamanho da amostra aumenta. Relacione suas observações com o Teorema do Limite Central.

50.7 Distribuição Uniforme Contínua

Definição: A variável aleatória contínua \(X\) diz-se ter distribuição uniforme contínua no intervalo \((a, b)\) (onde \(a < b\)), se sua função densidade de probabilidade (f.d.p.) for dada por

\[ f_{X}(x) = \begin{cases} \frac{1}{b - a}, & a \leq x \leq b \\ 0, & \text{caso contrário} \end{cases} \]

A função de distribuição acumulada (f.d.a.) de \(X\) é dada por

\[ F_{X}(x) = \begin{cases} 0, & x \leq a \\ \frac{x - a}{b - a}, & a < x < b \\ 1, & x \geq b \end{cases} \]

50.7.1 Notação

  • \(X \sim \text{Uniforme}(a, b)\)
  • \(E(X) = \frac{a + b}{2}\)
  • \(V(X) = \frac{(b - a)^2}{12}\)

50.7.2 Cálculo de probabilidades

Seja \(X\sim \text{Uniforme}(0,1)\)

  • \(P(X\leq 0.5) \to\) punif(0.5, min = 0, max = 1) = 0.5

  • \(P(X > 0.5) \to\) punif(0.5, min = 0, max = 1, lower.tail = FALSE) = 0.5

50.7.3 Função densidade de probabilidade

# Gerar os valores x para a densidade teórica
x_vals <- seq(0, 1, length.out = 100)

# Calcular a densidade teórica para os valores x
y_vals <- dunif(x_vals, min = 0, max = 1)

# Desenhar o gráfico da função densidade de probabilidade
plot(x_vals, y_vals, type = "l", 
     col = "red", lwd = 2, 
     main = "Densidade da Distribuição Uniforme (0,1)",
     xlab = "Valor", ylab = "Densidade")

50.7.4 Função densidade de probabilidade (simulação)

# Definir o tamanho da amostra
n <- 10000

# Fixar a semente para reprodutibilidade
set.seed(123)

# Gerar a variável aleatória com distribuição uniforme (0,1)
uniform_data <- runif(n, min = 0, max = 1)

# Criar um histograma da amostra 
hist(uniform_data, probability = TRUE, 
     main = "Histograma da Densidade - Uniforme(0,1)", 
     xlab = "Valor", 
     ylab = "Densidade", 
     col = "lightblue", 
     border = "darkblue")

50.7.5 Comparação

# Definir o tamanho da amostra
n <- 10000

# Fixar a semente para reprodutibilidade
set.seed(123)

# Gerar a variável aleatória com distribuição uniforme (0,1)
uniform_data <- runif(n, min = 0, max = 1)

# Criar um histograma da amostra com densidade
hist(uniform_data, probability = TRUE, 
     main = "Comparação da Densidade - Uniforme(0,1)", 
     xlab = "Valor", 
     ylab = "Densidade", 
     col = "lightblue", 
     border = "darkblue")

# Adicionar a curva da densidade teórica
curve(dunif(x, min = 0, max = 1), 
      add = TRUE, 
      col = "red", 
      lwd = 2)

50.7.6 Função de distribuição

# Gerar os valores x para a FD teórica
x_vals <- seq(0, 1, length.out = 100)

# Calcular a FD teórica para os valores x
y_vals <- punif(x_vals, min = 0, max = 1)

# Desenhar o gráfico da função de distribuição acumulada
plot(x_vals, y_vals, type = "l", 
     col = "blue", lwd = 2, 
     main = "Função de Distribuição Uniforme (0,1)",
     xlab = "Valor", ylab = "F(x)")

50.7.7 Função de distribuição empírica

# Definir o tamanho da amostra
n <- 10000

# Fixar a semente para reprodutibilidade
set.seed(123)

# Gerar a variável aleatória com distribuição uniforme (0,1)
uniform_data <- runif(n, min = 0, max = 1)

# Função de distribuição empírica
Fn <- ecdf(uniform_data)

plot(Fn, main="Função de Distribuição Empírica",
     xlab="x",
     ylab="Fn",
     col="blue")

# OU
#plot.ecdf(uniform_data)

50.7.8 Exercícios

1. Simule 1000 valores de uma variável aleatória com distribuição uniforme contínua no intervalo \([0, 1]\).

  1. Calcule a média e a variância dos valores simulados.

  2. Compare os resultados com os valores teóricos da média (\(E(X) = 0.5\)) e da variância (\(V(X) = 1/12\)).

2. Simule 500 valores de uma variável aleatória com distribuição uniforme contínua no intervalo \([-3, 7]\).

  1. Plote o histograma dos valores simulados.

  2. Adicione ao gráfico a linha da densidade teórica da distribuição uniforme.

3.: O peso real de uma barra de chocolate de uma determinada marca (que supostamente pesa 100 gramas) é uma variável aleatória, em gramas, com distribuição uniforme no intervalo de 85 a 105 gramas.

  1. Qual a probabilidade de uma barra de chocolate ter um peso inferior a 100 gramas?

  2. Simule a situação descrita para um número total de repetições da experiência: \(n_1=5\), \(n_2=10\), \(n_3=100\) e \(n_4=1000\). Para cada caso, determine a percentagem de casos em que o peso é inferior a 100 gramas.

4. Simule 10.000 valores de uma variável aleatória \(X \sim U(2, 8)\).

  1. Calcule a probabilidade empírica de que \(X > 5\).

  2. Compare o resultado com a probabilidade teórica calculada usando a função punif().

5. Suponha que uma variável aleatória \(Y\) segue uma distribuição uniforme contínua no intervalo \([10, 20]\). Simule 1000 valores de \(Y\).

  1. Calcule a proporção empírica de valores em \([12, 15]\).

  2. Compare com o valor teórico usando a função punif().

6. Simule 1000 amostras de tamanho 30 de uma variável aleatória \(X \sim U(-5, 5)\).

  1. Calcule a média de cada amostra.

  2. Plote o histograma das médias amostrais e sobreponha a curva de densidade de uma normal com \(E(X) = 0\) e \(V(X) = \frac{(5 - (-5))^2}{12 \cdot n}\).

7. Considere que a variável \(Z = 3X + 2\), onde \(X \sim U(0, 1)\). Simule 1000 valores de \(X\) e transforme-os em \(Z\).

  1. Calcule a média e a variância de \(Z\).

  2. Compare os resultados empíricos com os valores teóricos \(E(Z) = 3E(X) + 2\) e \(V(Z) = 9V(X)\).

8. Uma fábrica produz itens com peso uniformemente distribuído entre 100 e 120 gramas. Simule 2000 itens e analise:

  1. Calcule a proporção de itens com peso inferior a 105 gramas.

  2. Construa um gráfico que compare a densidade empírica com a densidade teórica da distribuição uniforme no intervalo \([100, 120]\).

9. Usando o R e fixando a semente em 123, gere amostras de tamanho crescente \(n = 100, 1000, 10000, 100000\) de uma variável aleatória \(W\) com distribuição uniforme no intervalo \([0, 1]\). Para cada tamanho de amostra, calcule a média amostral e compare-a com o valor esperado teórico. Observe e comente a convergência das médias amostrais.

10. O tempo necessário para um drone realizar a entrega de um pacote (em minutos) é modelado por uma variável aleatória \(X\) com distribuição \(\text{Uniforme}(a=10, b=30)\). Usando o R e fixando a semente em 1430, gere 8000 amostras de dimensão \(n=100\) dessa variável. Para essas amostras:

  1. Calcule a soma de cada uma das amostras, obtendo assim valores da distribuição da soma \(S_{n} = \sum_{i=1}^{n}X_{n}\).

  2. Faça um histograma de frequência relativa associado aos valores obtidos da distribuição da soma e sobreponha no gráfico uma curva com distribuição normal de valor esperado \(nE(X)\) e desvio padrão \(\sqrt{V(X)n}\).

  3. Calcule a média de cada uma das amostras, obtendo assim valores da distribuição da média \(\bar{X_{n}}\).

  4. Faça um histograma de frequência relativa associado aos valores obtidos da distribuição da média \(\bar{X_{n}}\). Sobreponha no gráfico uma curva com distribuição normal com valor esperado \(E(X)\) e desvio padrão \(\sqrt{V(X)/n}\).

11. Em um data center, o número de servidores que falham em uma hora segue uma distribuição de Poisson com \(\lambda = 4\). O tempo necessário para reparar cada servidor falho segue uma distribuição uniforme contínua no intervalo \([2, 6]\) horas. A energia consumida durante o reparo de cada servidor é dada por:

\(E_i = T_i^2\)

onde \(T_i\) é o tempo de reparo do servidor \(i\).

  • Simule 1000 horas de operação do data center, onde o número de servidores que falham em cada hora segue uma distribuição de Poisson.

  • Para cada hora, calcule o consumo total de energia como:

\(E_{\text{total}} = \sum_{i=1}^N T_i^2\)

onde \(N\) é o número de servidores falhos e \(T_i \sim U(2, 6)\).

50.8 Distribuição Exponencial

O modelo exponencial é frequentemente utilizado na caracterização da duração de equipamentos, modelação dos tempos entre ocorrências consecutivas de eventos do mesmo tipo, por exemplo, chegadas de clientes a um sistema, falhas mecânicas, colisões, etc.

Definição: Uma variável aleatória contínua \(X\) diz-se ter distribuição exponencial de parâmetro \(\lambda > 0\), se sua função densidade de probabilidade (f.d.p.) for dada por

\[ f_X(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]

A função de distribuição de \(X\) é dada por

\[ F_X(x) = \begin{cases} 1 - e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]

Notação

  • \(X \sim \text{Exponencial}(\lambda)\)
  • \(\mathbb{E}(X) = \frac{1}{\lambda}\)
  • \(\text{Var}(X) = \frac{1}{\lambda^2}\)

50.8.1 Cálculo de probabilidades

Seja \(X\sim \text{Exponencial}(\lambda=1)\).

\(P(X\leq 0.5) \to\) pexp(0.5,rate=1)=0.3935

\(P(X > 0.5) \to\) pexp(0.5,rate=1,lower.tail=FALSE)=0.6065

50.8.2 Função densidade de probabilidade (teórica)

# Gerar os valores x para a densidade teórica
x_vals <- seq(0, 10, length.out = 100)

# Calcular a densidade teórica para os valores x
y_vals <- dexp(x_vals, rate=1)

# Desenhar o gráfico da função densidade de probabilidade
plot(x_vals, y_vals, type = "l", 
     col = "red", lwd = 2, 
     main = "Densidade da Distribuição Exponencial(1)",
     xlab = "Valor", ylab = "Densidade")

50.8.3 Função densidade de probabilidade (simulação)

# Definir o tamanho da amostra
n <- 10000

# Fixar a semente para reprodutibilidade
set.seed(123)

# Gerar a variável aleatória com distribuição exponencial(1)
expo_data <- rexp(n, rate=1)

# Criar um histograma da amostra 
hist(expo_data, probability = TRUE, 
     main = "Histograma da Densidade - Exponencial(1)", 
     xlab = "Valor", 
     ylab = "Densidade", 
     col = "lightblue", 
     border = "darkblue")

50.8.4 Comparação

# Definir o tamanho da amostra
n <- 10000

# Fixar a semente para reprodutibilidade
set.seed(123)

# Gerar a variável aleatória com distribuição exponencial(1)
expo_data <- rexp(n, rate=1)

# Criar um histograma da amostra 
hist(expo_data, probability = TRUE, 
     main = "Comparação da Densidade - Exponencial(1)", 
     xlab = "Valor", 
     ylab = "Densidade", 
     col = "lightblue", 
     border = "darkblue")

# Adicionar curva da densidade teórica
curve(dexp(x,rate=1),
      add=TRUE,
      col="red",
      lwd=2)

50.8.5 Função de distribuição

# Gerar os valores x para a FD teórica
x_vals <- seq(0, 10, length.out = 100)

# Calcular a FD teórica para os valores x
y_vals <- pexp(x_vals, rate=1)

# Desenhar o gráfico da FD
plot(x_vals, y_vals, type = "l", 
     col = "red", lwd = 2, 
     main = "Função de Distribuição Exponencial(1)",
     xlab = "Valor", ylab = "F(x)")

50.8.6 Função de distribuição empírica

# Definir o tamanho da amostra
n <- 10000

# Fixar a semente para reprodutibilidade
set.seed(123)

# Gerar a variável aleatória com distribuição exponencial(1)
expo_data <- rexp(n, rate=1)

# Função de distribuição empírica
Fn <- ecdf(expo_data)

plot(Fn, main="Função de Distribuição Empírica",
     xlab="x",
     ylab="Fn",
     col="blue")

50.8.7 Exercícios

1. Uma central de atendimento recebe chamadas a cada intervalo de tempo, que segue uma distribuição exponencial com taxa \(\lambda = 2\) (chamadas por minuto).

  1. Simule 1000 intervalos de tempo entre chamadas.

  2. Calcule o tempo médio entre chamadas e compare com o valor teórico \(1/\lambda\).

  3. Plote o histograma dos intervalos simulados e sobreponha a densidade teórica.

2. Em uma fila de espera, o tempo entre chegadas de clientes segue uma distribuição exponencial com \(\lambda = 0.5\).

  1. Calcule a probabilidade teórica de o tempo entre duas chegadas ser maior que 3 minutos.

  2. Simule 5000 intervalos e estime empiricamente a probabilidade de o tempo entre chegadas ser maior que 3 minutos.

  3. Compare o resultado empírico com o teórico.

3. O tempo necessário para atender clientes em um restaurante segue uma distribuição exponencial com taxa \(\lambda = 0.25\) (atendimentos por minuto).

  1. Simule os tempos de atendimento para \(n=50\) clientes.

  2. Calcule o tempo total necessário para atender todos os clientes.

  3. Plote o histograma do tempo total de atendimento após 1000 simulações e sobreponha a curva de densidade normal com média \(nE(X)=n/\lambda\) e desvio padrão \(\sqrt{nV(X)} = \sqrt{n/\lambda^2}\).

4. Um engenheiro está monitorando dois processos independentes, cujos tempos seguem distribuições exponenciais com \(\lambda_1 = 3\) e \(\lambda_2 = 5\).

  1. Simule 1000 tempos para cada processo.

  2. Calcule a soma dos tempos de ambos os processos.

  3. Plote o histograma dos tempos somados e discuta se a soma ainda segue uma distribuição exponencial.

5. Simule 5000 amostras de tamanho 30 de uma variável \(X \sim \text{Exponencial}(\lambda = 1.5)\).

  1. Calcule a média de cada amostra.

  2. Plote o histograma das médias amostrais e sobreponha a curva de densidade normal com média \(1/\lambda\) e desvio padrão \(1/(\lambda \sqrt{n})\).

  3. Explique como o Teorema do Limite Central se aplica nesse contexto.

6. O tempo até o primeiro evento de falha em uma máquina segue uma distribuição exponencial com taxa \(\lambda = 0.1\).

  1. Simule o tempo de falha para 10000 máquinas.

  2. Estime a probabilidade de uma máquina falhar em menos de 15 horas.

  3. Compare o valor empírico com o teórico calculado pela função de distribuição acumulada.

7. Uma rodovia registra acidentes em intervalos de tempo que seguem uma distribuição exponencial com \(\lambda = 0.8\) (acidentes por hora).

  1. Simule os tempos entre acidentes para um período de 1000 horas.

  2. Calcule a probabilidade empírica de um intervalo ser inferior a 2 horas.

  3. Plote um histrograma para os tempos simulados e compare com a densidade teórica.

8. Considere dois processos relacionados:

  • O tempo de falha do primeiro componente segue \(X_1 \sim \text{Exponencial}(\lambda = 0.5)\).

  • O tempo de falha do segundo componente é dado por \(X_2 = 2X_1 + 1\).

  1. Simule 5000 pares \((X_1, X_2)\).

  2. Calcule a média e a variância de \(X_2\).

  3. Plote o gráfico de dispersão entre \(X_1\) e \(X_2\) e comente sobre a relação entre as variáveis.

9. Uma central de atendimento registra o tempo entre chamadas, que segue uma distribuição exponencial com \(\lambda = 2\) (chamadas por minuto).

  1. Simule 5000 amostras de tamanho \(n = 5\) de uma variável aleatória \(X \sim \text{Exponencial}(\lambda = 2)\).

  2. Para cada amostra, calcule a soma \(S = \sum_{i=1}^n X_i\).

  3. Compare o histograma de \(S\) com a densidade de uma distribuição \(\text{Gama}(k = 5, \theta = 1/\lambda)\) sobreposta.

  4. Verifique a média e a variância de \(S\) empiricamente e compare com os valores teóricos de uma \(\text{Gama}(k, \theta)\), dados por \(E(S) = k\theta\) e \(V(S) = k\theta^2\).

10. O tempo até a falha de uma máquina segue uma distribuição exponencial com \(\lambda = 0.5\). Um engenheiro monitora o tempo até a ocorrência de 10 falhas consecutivas.

  1. Simule 10.000 observações do tempo total para 10 falhas consecutivas (\(S = \sum_{i=1}^{10} X_i\), onde \(X \sim \text{Exponencial}(\lambda = 0.5))\).

  2. Compare o histograma dos tempos totais simulados com a densidade de uma distribuição \(\text{Gama}(k = 10, \theta = 1/\lambda)\).

  3. Calcule a probabilidade teórica de o tempo total ser maior que 25 horas usando a densidade \(\text{Gama}\). Compare com a probabilidade empírica obtida dos dados simulados.

11. Suponha que o tempo para a conclusão de uma tarefa em um laboratório é modelado como uma soma de \(n = 7\) tempos de processamento individuais, cada um seguindo uma \(\text{Exponencial}(\lambda = 3)\).

  1. Simule 5000 amostras do tempo total para completar a tarefa (\(S = \sum_{i=1}^{n} X_i)\).

  2. Ajuste os valores simulados a uma distribuição \(\text{Gama}(k = 7, \theta = 1/\lambda)\).

  3. Plote um histograma dos valores simulados e compare com a densidade teórica da distribuição gama.

  4. Estime o valor do 90º percentil da soma simulada e compare com o percentil teórico calculado para uma \(\text{Gama}(k=7, \theta=1/\lambda)\). Use as funções qgamma() e quantile().

50.9 Distribuição Normal

Vamos ver alguns exemplos com a distribuição normal padrão. Por default as funções assumem a distribuição normal padrão \(N(\mu=0, \sigma = 1)\).

dnorm(-1)
## [1] 0.2419707

pnorm(-1)
## [1] 0.1586553

qnorm(0.975)
## [1] 1.959964

rnorm(10)
##  [1]  1.76200539  0.53084557  0.53913434 -0.06506084 -1.45792042 -0.19281038
##  [7]  0.26686001  1.16138850  0.60575811  1.21451547

O primeiro valor acima, de dnorm(-1), corresponde ao valor da densidade da normal reduzida ou normal padrão \(N(\mu=0,\sigma=1)\)

\[f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma}\right)}\] no ponto \(x=-1\). Portanto, o mesmo valor seria obtido substituindo \(x\) por \(-1\) na expressão da normal:

mu <- 0
sigma <- 1
x <- -1
(1/(sigma * sqrt(2*pi))) * exp((-1/2) * ((x - mu)/sigma)^2)
## [1] 0.2419707
  • A função pnorm(-1) calcula a probabilidade \(P(X \leq -1)\).

  • A função qnorm(0.975) calcula o valor de \(x\) tal que \(P(X\leq x) = 0.975\).

  • A função rnorm(10) gera uma amostra aleatória de 10 elementos da normal padrão.

As funções relacionadas à distribuição normal possuem os argumentos mean e sd para definir a média e o desvio padrão da distribuição que podem ser modificados como nos exemplos a seguir. Note nestes exemplos que os argumentos podem ser passados de diferentes formas.

qnorm(0.975, mean = 100, sd = 8)
## [1] 115.6797

qnorm(0.975, m = 100, s = 8)
## [1] 115.6797

qnorm(0.975, 100, 8)
## [1] 115.6797

Cálculos de probabilidades usuais, para os quais utilizavamos tabelas estatísticas podem ser facilmente obtidos como no exemplo a seguir.

Seja \(X\) uma variável aleatória com distribuição \(N(\mu=100, \sigma=10)\). Calcular as probabilidades:

  • \(P(X < 95)\)

  • \(P(90 < X < 110)\)

  • \(P(X > 95)\)

Calcule estas probabilidades de forma usual, usando a tabela da normal. Depois compare com os resultados fornecidos pelo R. Os comandos do R para obter as probabilidades pedidas são:

# P(X < 95)
pnorm(95, 100, 10)
## [1] 0.3085375

# P(90 < X < 110)
pnorm(110, 100, 10) - pnorm(90, 100, 10)
## [1] 0.6826895

# P(X > 95) = 1 - P(X < 95)
1 - pnorm(95, 100, 10)
## [1] 0.6914625

# ou
pnorm(95, 100, 10, lower.tail = FALSE) # melhor
## [1] 0.6914625

Função densidade de probabilidade e função de distribuição.

par(mfrow = c(1, 2))
plot(dnorm, from = -3, to = 3, 
     xlab = "Valores de X",
     ylab = "Densidade de probabilidade")
title("Distribuicão Normal\nX ~ N(0, 1)")
plot(pnorm, from = -3, to = 3)

par(mfrow = c(1, 1))
plot(function(x) dnorm(x, 100, 8), 60, 140, ylab = 'f(x)')
plot(function(x) dnorm(x, 90, 8), 60, 140, add = TRUE, col = 2)
plot(function(x) dnorm(x, 100, 15), 60, 140, add = TRUE, col = 3)
legend(120, 0.05, fill = 1:3,
       legend = c("N(100,64)", "N(90,64)", "N(100,225)"))

50.9.1 Exercícios

1. Um experimento mede o peso de um mineral em gramas, que segue uma distribuição normal com média \(\mu = 50\) e desvio padrão \(\sigma = 5\).

  1. Simule 1000 pesos desse mineral.

  2. Calcule a média e o desvio padrão dos pesos simulados e compare com os valores teóricos.

  3. Plote o histograma dos pesos simulados e sobreponha a densidade teórica da distribuição normal.

2. Duas variáveis aleatórias \(X_1 \sim N(\mu_1=5, \sigma_1=2)\) e \(X_2 \sim N(\mu_2=10, \sigma_2=3)\) são independentes.

  1. Simule 1000 pares de \((X_1, X_2)\).

  2. Calcule a soma \(S = X_1 + X_2\).

  3. Plote o histograma de \(S\) e sobreponha a densidade de uma normal com média \(\mu_S = \mu_{1} + \mu_{2}\) e variância \(\sigma_S^2 = \sigma_{1}^2 + \sigma_{2}^2\).

3. Considere duas variáveis \(X_1 \sim N(0, 1)\) e \(X_2 \sim N(0, 1)\).

  1. Simule 5000 pares \((X_1, X_2)\).

  2. Calcule \(Q = X_1^2 + X_2^2\).

  3. Compare o histograma de \(Q\) com a densidade teórica de uma distribuição qui-quadrado com 2 graus de liberdade. Use dchisq().

4. Um pesquisador deseja estudar o comportamento da média de amostras extraídas de uma população normal padrão \(X \sim N(0, 1)\). Para isso, ele realiza as seguintes etapas:

  1. Extraia 1000 amostras para cada um dos tamanhos de amostra: \(n=5\), \(n = 10\), \(n = 30\), e \(n = 100\).

  2. Para cada amostra, calcule:

  • A média amostral.
  1. Plote o histograma das médias amostrais para cada \(n\), e sobreponha:
  • A densidade de uma distribuição t-Student com \(n - 1\) graus de liberdade.

  • A densidade de uma distribuição normal com \(E(\bar{X}) = 0\) e \(\text{Var}(\bar{X}) = 1/n\).

  1. Compare os histogramas e comente:
  • Como a densidade da t-Student se aproxima da normal com o aumento de \(n\).

  • O impacto do tamanho da amostra na variabilidade das médias.

5. Simule 1000 amostras de tamanho 20 de \(X \sim N(0, 1)\):

  1. Calcule a soma dos quadrados de cada amostra.

  2. Compare o histograma da soma dos quadrados com a densidade teórica de uma distribuição qui-quadrado com 20 graus de liberdade.

  3. Interprete os resultados e discuta as diferenças.

6. Simule 5000 amostras de tamanho 30 de uma variável \(X \sim N(\mu=10, \sigma=4)\):

  1. Calcule a média de cada amostra.

  2. Plote o histograma das médias amostrais e sobreponha uma curva normal com média \(\mu = 10\) e desvio padrão \(\sigma = 4/\sqrt{30}\).

  3. Explique como o Teorema do Limite Central justifica os resultados.

7. Considere duas variáveis \(X_1 \sim N(0, 1)\) e \(X_2 = 0.5X_1 + Z\), onde \(Z \sim N(0, 1)\) é independente de \(X_1\).

  1. Simule 5000 pares \((X_1, X_2)\).

  2. Calcule a soma \(S = X_1 + X_2\).

  3. Plote o histograma de \(S\).

8. Simule 1000 amostras de tamanho 10 de \(X \sim N(0, 1)\). Para cada amostra, calcule:

  1. A média \(\bar{X}\),

  2. A variância \(S^2\).

  3. Construa a estatística:

\(T = \frac{\bar{X}}{S / \sqrt{n}}\)

e compare o histograma de \(T\) com a densidade de uma distribuição t-Student com \(n-1\) graus de liberdade.

9. Considere a variável \(X \sim N(0, 1)\). Simule 1000 amostras de tamanho \(n = 10\). Para cada amostra, realize as seguintes etapas:

  1. Calcule a variância amostral \(S^2 = \frac{\sum_{i=1}^{n}X_{i}^{2}-n \bar{X}}{n-1}\).

  2. Construa a estatística qui-quadrado:

\(Q = \frac{(n-1) S^2}{\sigma^2}\),

onde \(\sigma^2 = 1\) é a variância populacional de \(X\).

  1. Construa o histograma dos valores de \(Q\) e compare com a densidade teórica de uma distribuição \(\chi^2(n-1)\).

  2. Verifique a média e a variância empíricas de \(Q\) e compare com os valores teóricos da distribuição \(\chi^2(n-1)\), dados por:

\(E(Q) = n - 1, \quad \text{Var}(Q) = 2(n - 1)\).