[1] 0.29071
Probabilidade e Estatística Descritiva
Academia da Engenharia de Avaliações
4 de agosto de 2025
Modelo Urbano Monocêntrico Padrão (Alonso 1964)
\[\mathbb P(A|B) = \frac{\mathbb P(A) \mathbb P(B|A)}{\mathbb P(B)}\]
Exemplo:
Um termo um tanto confuso
Variávies Aleatórias na verdade são funções definidas em um espaço amostral!
Informalmente, no entanto, definiremos variável aleatória como o:
Existem diversas maneiras de descrever uma variável aleatória
A mais comum delas é definir as variáveis aleatórias através de sua função densidade de probabildidade (para as var. aleatórias contínuas) ou da sua função massa de probabilidade (para as var. aleatórias discretas)
\[f(k,p) = \begin{cases} p & \text{ se } k = 1\\ q = 1 - p & \text{ se } k = 0 \end{cases}\]
Percebam:
\(\mathbb P(X = 2) = 45 (1/6)^2 (5/6)^8 = 29,07\%\)
No R:
Figura 4: Distribuição Normal Padrão.
Leis dos erros de Laplace
Aproximação Normal da Binomial
Aproximação Normal da Binomial
\[f(t) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(t-\mu)^2}{2\sigma^2}},\, \text{para }-\infty<t<\infty \qquad(6)\]
Nos referiremos a uma var. aleatória \(X\) com distribuição normal genérica como a da Equação 6 assim:
Percebam:
Figura 5: Distribuição Normal \(\mathcal N(100, 10^2)\) (\(\mu = 100,\, \sigma = 10\)).
Se uma variável aleatória \(\mathbf X\) que armazena as temperaturas médias diárias de uma determinada localidade, em ºF, de forma que \(\mathbf X \sim \mathcal N(95, 9^2)\)
Então uma variável \(\mathbf Y\) que é a transformação linear de \(\mathbf X\) conforme a Equação 7:
Na escala Celsius, a variável apresentará distribuição normal, porém com média 35ºC e desvio-padrão igual 5,0 ºC!
\(\mathbf X \sim \mathcal N(95, 9^2)\)
A dois desvios-padrões de distância da média da variável \(\mathbf X\) está a temperatura \(95 + 2\cdot9 = 113 ^{\circ}\text{F}\)
\(\mathbf Y \sim \mathcal N(35, 5^2)\)
A dois desvios-padrões de distância da média da variável \(\mathbf Y\) encontra-se a temperatura \(35+2\cdot 5 = 45 ^{\circ}\text{C}\)
\(^{\circ}\text{C} = \frac{113-32}{9/5} = 45\)
A prob. de que a temp. média diária nessa localidade seja maior do que 45ºC
Está na raiz do nascimento da Teoria das Probabildiades a Lei Fraca dos Grandes Números!
Teorema 3.1 (A Lei Fraca dos Grandes Números). Seja \(X_1, \ldots , X_n\) variáveis aleatórias independentes e identicamente distribuídas com valor esperado \(\mathbb E(X_i) = \mu\) e variância finita \(\mathbb V(X_i) < \infty\), para \(i = 1, \ldots, n\). A média amostral é definida como:
\[\overline X_n = \frac{1}{n}\sum_{i=1}^n = X_i\]
Então, para qualquer número positivo \(\epsilon > 0\), a probabilidade que a diferença entre a média amostral e o valor esperado \(\mu\) seja menor do que \(\epsilon\) vai se aproximar de 1, à medida que o tamanho da amostra se aproxima de infinito:
\[\lim_{n \rightarrow \infty} = \mathbb P (|\overline X_n - \mu| < \epsilon) = 1\]
Distr. de Cauchy Padrão (em vermelho) vs. Distr. Normal Padrão (em azul)
Figura 9: Distribuição \(\chi^2\) com 1 grau de liberdade.
Figura 10: Distribuição Lognormal
Figura 11: Distribuição Lognormal (\(\mu^* = 5000\))
price assess bdrms lotsize sqrft colonial lprice lassess llotsize
1 300.000 349.1 4 6126 2438 1 5.703783 5.855359 8.720297
2 370.000 351.5 3 9903 2076 1 5.913503 5.862210 9.200593
3 191.000 217.7 3 5200 1374 0 5.252274 5.383118 8.556414
4 195.000 231.8 3 4600 1448 1 5.273000 5.445875 8.433811
5 373.000 319.1 4 6095 2514 1 5.921578 5.765504 8.715224
6 466.275 414.5 5 8566 2754 1 6.144775 6.027073 9.055556
7 332.500 367.8 3 9000 2067 1 5.806640 5.907539 9.104980
8 315.000 300.2 3 6210 1731 1 5.752573 5.704449 8.733916
9 206.000 236.1 3 6000 1767 0 5.327876 5.464255 8.699514
10 240.000 256.3 3 2892 1890 0 5.480639 5.546349 7.969704
lsqrft
1 7.798934
2 7.638198
3 7.225482
4 7.277938
5 7.829630
6 7.920810
7 7.633853
8 7.456455
9 7.477038
10 7.544332
Como é construído um Diagrama de Caixa
Analogamente aos quartis, os percentis são:
Também pode-se dizer que \(P_0 = \min(X)\) e \(P_{100} = \max(X)\)
Também é possível definir Tercis, Quintis, e assim por diante!
Figura 12: Ilustração das posições de medidas de tendência central numa distribuição lognormal.
Medidas Clássicas: moda, média e mediana!
Na distribuição lognormal:
Exemplo: Se uma ação subiu 100% durenta o ano de 2023 e caiu 50% durante o ano de 2024, calcule o retorno total da posse da ação durante o período:
\(100\% - 50\% = 50\%\) (Errado!)
\(\ln(1+100\%) + \ln(1-50\%) = \ln(2) - \ln(0,5) = 0,6931 - 0,6931 = 0\)
O desvio-padrão geométrico é o análogo do desvio-padrão no domínio log:
O desvio-padrão geométrico mede a dispersão lognormal em torno da média geométrica:
Na distribuição lognormal, a média geométrica é igual à mediana (Vogel 2022)
A moda, por sua vez, é igual à média harmônica:
A média harmônica tem propriedades interessantes:
Exemplo:
A média harmônica privilegia os menores valores em detrimento dos maiores!
No R:
Figura 13: Distribuição lognormal com \(\mu = 0\) e diversos valores de \(\sigma\)
A média quadrática, ou raiz da média quadrática (root mean square) é:
A média quadrática privilegia os maiores valores
Média Quadrática dos Desvios:
O desvio-padrão é uma média rms dos desvios:
Quando \(\sigma\) é relativamente baixo (\(\sigma \approx 0,25\)), então a distribuição lognormal é quase uma distribuição normal!
À medida que \(\sigma\) aumenta, aumenta a diferença entre moda, média e mediana!
Devemos estar atentos à \(\sigma\), portanto!
Ou ao Coeficiente de Variação:
Call:
lm(formula = log(PU) ~ log(lotsize), data = hprice1)
Residuals:
Min 1Q Median 3Q Max
-0.77308 -0.17072 -0.02738 0.14361 0.67488
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.03593 0.46358 21.65 <2e-16 ***
log(lotsize) -0.71870 0.05196 -13.83 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2637 on 86 degrees of freedom
Multiple R-squared: 0.6899, Adjusted R-squared: 0.6863
F-statistic: 191.3 on 1 and 86 DF, p-value: < 2.2e-16
Call:
lm(formula = log(PU) ~ log(lotsize), data = hprice1, subset = -c(47,
77))
Residuals:
Min 1Q Median 3Q Max
-0.67468 -0.14891 0.00517 0.13447 0.55287
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.39747 0.53584 15.67 < 2e-16 ***
log(lotsize) -0.53470 0.06015 -8.89 9.88e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2356 on 84 degrees of freedom
Multiple R-squared: 0.4848, Adjusted R-squared: 0.4786
F-statistic: 79.03 on 1 and 84 DF, p-value: 9.884e-14
VALORÍSTICA