์ค๋ช
- '์์ ์์ผ ๊ทธ๋ฆผ(box-and-whisker plot, box-and-whisker diagram)' ๋๋ ์์ ๊ทธ๋ฆผ(Box plot) ๋๋ ์์ ์ฐจํธ(Box Chart)๋ผ๊ณ ๋ถ๋ฆผ
- ๋ฐ์ดํฐ์ ์ต๋, ์ต์, ์ค๊ฐ๊ฐ๊ณผ ์ฌ๋ถ์ ์ ๋ฑ์ ํจ์จ์ ์ผ๋ก ๊ฐ์ํํ ์ ์๋ ์ฐจํธ
- ๋ฒ์ฃผํ ๋ฐ์ดํฐ ๊ธฐ์ค์ผ๋ก ์์นํ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ ํ๋๋ฐ ์ ํฉ
- ๋ฐ์ดํฐ์ ์ค์ฌ๊ณผ ์ฐํฌ, ๋ชจ์์ ๊ฐ๋ต์ ์ผ๋ก ํ์ ํ ์ ์์
- ์ด์์น์ ์กด์ฌ ์ฌ๋ถ๋ฅผ ํ์ ํ ๋ ์ฌ์ฉ
- ๊ทธ๋ฃน๊ฐ ํ๊ท ๊ณผ ์ฐํฌ ๋น๊ต์ ํจ๊ณผ์
- 5๊ฐ์ ํต๊ณ๋๊ณผ ์๋ฃ์ ํ๊ท ๊ฐ, ์ฌ๋ถ์์ ๋ฒ์๋ฅผ ์ฝ๊ฒ ํ์
- ์๋ฃ ๋ถํฌ์ ๋น๋์นญ๋๋ฅผ ํ์ → ์๋ฃ์ ํ๊ท ๊ณผ ์ค์๊ฐ์ ๋น๊ต
- ๊ทธ๋ํ
- 25th percentile, Lower Quartile, ์ 1์ฌ๋ถ์(Q1)
โ 25%์ ์์น
โ Q1 = (n+1) * 4๋ฒ์งธ ์ซ์์ ๊ฐ - ์ค์๊ฐ(MEDIAN), ์ 2์ฌ๋ถ์(Q2)
โ ์ค์๊ฐ 50%์ ์์น
โ ์ค์ ๊ฐ์ ์ง์์ผ ๊ฒฝ์ฐ 2๊ฐ๊ฐ ๋ ์ ๋ ์๊ณ , ๊ทธ๊ฒ์ ํ๊ท ์ด ์ค์ ๊ฐ์ด ๋ ์ ์์
โ ํ์์ผ ๊ฒฝ์ฐ, ์ค์ ๊ฐ์ 1๊ฐ๊ฐ ๋จ - 75th percentile, Upper quartile, ์ 3์ฌ๋ถ์ (Q3)
โ 75%์ ์์น
โ Q3 = (n+1) * (3 / 4)๋ฒ์งธ ์ซ์์ ๊ฐ - ๋ฐ์ค(Box), IQR(Inter Quartile Range)
โ 25%(Q1) ~ 75%(Q3) ๊น์ง ๊ฐ๋ค์ ๋ฐ์ค๋ก ๋๋ฌ ์
โ Q3 - Q1์ ๊ฐ - ์์ผ(Whisker)
โ ๋ฐ์ค์ ๊ฐ ๋ชจ์๋ฆฌ (Q1, Q3)๋ก ๋ถํฐ IQR์ 1.5๋ฐฐ ๋ด์ ์๋ ๊ฐ์ฅ ๋ฉ๋ฆฌ ๋จ์ด์ง ๋ฐ์ดํฐ ์ ๊น์ง ์ด์ด์ ธ ์๋ ๊ฒ
โ ๋ฐ์ค์ ์ํ์ข์ฐ๋ก ๋ป์ด ๋๊ฐ๋ ์
โ ์ต๋๊ฐ : ์ 3์ฌ๋ถ์์ + (1.5 * IQR๊ฐ) = ์ต๋๊ฐ
โ ์ต์๊ฐ : ์ 1์ฌ๋ถ์์ - (1.5 * IQR๊ฐ) = ์ต์๊ฐ - Outlier(์ด์์น), Extreme(๊ทน๋จ์น)
โ ์์ผ๋ณด๋ค ๋ฐ๊นฅ์ชฝ์ ์์นํ ๋ฐ์ดํฐ
โ ์ด์์น : ์์ผ์ ์ต๋ · ์ต์ ๊ฐ์ ๋ฒ์ด๋ ๋ฐ์ดํฐ
๋ฐ์ค๊ธธ์ด์ 1.5๋ฐฐ
โ ๊ทน๋จ์น : ๋ฐ์ค ๊ธธ์ด์ 3๋ฐฐ
์ 3 ์ฌ๋ถ์์ + (3.0 * IQR๊ฐ) ๋ฒ์ด๋ ๋ฐ์ดํฐ
์ 1 ์ฌ๋ถ์์ - (3.0 * IQR๊ฐ) ๋ฒ์ด๋ ๋ฐ์ดํฐ
Python ์ฝ๋
Jupyter Notebook ํ์ฉ ํ๊ณ , ์์ธํ ๋ด์ฉ๋ค์ ๋์ค์ ๋ค์ ์ถ๊ฐ ํ ์์
์ธ๋ก
๊ฐ๋ก
์ฌ๋ฌ๊ฐ
ํน์ฑ ์ด์ฉ
์ฐธ๊ณ ์ฌ์ดํธ
์์ ์์ผ ๊ทธ๋ฆผ - ์ํค๋ฐฑ๊ณผ, ์ฐ๋ฆฌ ๋ชจ๋์ ๋ฐฑ๊ณผ์ฌ์
๊ธฐ์ ํต๊ณํ์์ '์์ ์์ผ ๊ทธ๋ฆผ'(box-and-whisker plot, box-and-whisker diagram) ๋๋ '์์ ๊ทธ๋ฆผ'(box plot, boxplot)์ ์์น์ ์๋ฃ๋ฅผ ํํํ๋ ๊ทธ๋ํ์ด๋ค. ์ด ๊ทธ๋ํ๋ ๊ฐ๊ณตํ์ง ์์ ์๋ฃ ๊ทธ๋๋ก๋ฅผ ์ด์ฉํ
ko.wikipedia.org
Chapter 11. ์ฐจํธ๋ฅผ ๋ฉ์ง๊ฒ ๊ทธ๋ ค๋ณด์
์ด๋ฒ ์๊ฐ์ ๋ชฉ์ฐจ 1. ๋ฐ์ดํฐ ์๊ฐํ๊ฐ ๊ผญ ํ์ํ ๊น? 2. ํ์ด์ฌ์์ ๋ฐ์ดํฐ ์๊ฐํ์ ๊ธฐ๋ณธ์ด ๋๋ ๋งทํ๋กฏ๋ฆฝ 3. plot() ํจ์๋ฅผ ์ข ๋ ๋ค์ํ๊ฒ ์จ ๋ณด์! 4. ๋ง๋ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค ๋ณด์! 5. ์ฐํฌ๋ ๊ทธ๋ํ๋ฅผ
jiwoncho20213135python.tistory.com
๊ต์กํต๊ณ 2.3. ๋ฐ์คํ๋กฏ(Box Plot)๊ณผ ์ฐํฌ๋
5. ๋ฐ์ค ํ๋กฏ (Box Plot) : ๋ฐ์ค ๋ชจ์์ ๊ทธ๋ํ. 1) ๊ฐ์ด๋ฐ ๋ฐ์ค๋ ์ ์ฒด ์๋ฃ์ 50%๊ฐ. (ํ์ 25%์ ์์...
blog.naver.com
matplotlib.pyplot.boxplot — Matplotlib 3.4.3 documentation
Parameters: xArray or a sequence of vectors.The input data. notchbool, default: FalseWhether to draw a notched box plot (True), or a rectangular box plot (False). The notches represent the confidence interval (CI) around the median. The documentation for b
matplotlib.org
(ํ์ด์ฌ-Matplotlib) ์๊ฐํ ํํ ๋ฆฌ์ผ - ๋ฐ์คํ๋กฏ
๊ฐ์ ํ๋ณด ์ทจ์ค์์ ์ํ ๊ฐ์๋ฅผ ์ ์ํ์์ต๋๋ค. ๋ณธ ๋ธ๋ก๊ทธ๋ฅผ ํตํด์ ๊ฐ์๋ฅผ ์๊ฐํ์ ๋ถ์ ๊ฒ์๊ธ ์ ๋ชฉ๊ณผ ๋งํฌ๋ฅผ ์๊ฐํ์ฌ ์ธํ๋ฐ ๋ฉ์์ง๋ฅผ ํตํด ๋ณด๋ด์ฃผ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ์คํ๋ฒ ์ค ์์ด์ค ์
dschloe.github.io
Boxplot ์์๋ํ๋ฅผ ํตํ ์ด์์น ํ์ง - [๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ]
Boxplot๋? ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ ๋์ ๋ณผ ์ ์๊ฒ ์๊ฐํํ์ฌ ์ด์์น(Outlier)๋ฑ์ ํ์งํ ์ ์๋ ์๊ฐํ ๋๊ตฌ. median - ์ค์๊ฐ IQR - 25% ~ 75%์ ํด๋นํ ๋ถ๋ถ 75th Percentile - ์ 3์ฌ๋ถ์์ 25th Percen..
yoon1seok.tistory.com