Declustering Peaks Over Threshold Pada Data Curah Hujan

run length) yang optimal, dapat menggunakan . extremal index [7]. Extremal index. merupakan suatu indikator untuk mengukur berapa banyak . cluster. ya...

0 downloads 4 Views 944KB Size
1

Declustering Peaks Over Threshold Pada Data Curah Hujan Ekstrim Dependen di Sentra Produksi Padi Jawa Timur Rosna Malika(1) dan Sutikno(2) Jurusan Statistika, FMIPA, ITS, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia e-mail : (1)[email protected]; (2)[email protected]

(1)(2)

Abstrak—Iklim ekstrim merupakan fenomena yang langka namun dapat memicu dampak yang merugikan salah satunya bagi sektor pertanian. Curah hujan yang ekstrim perlu diidentifikasi untuk megurangi kerugian pertanian akibat kejadian tersebut. Extreme Value Theory (EVT) merupakan salah satu metode statistika yang digunakan untuk mempelajari perilaku nilai-nilai ekstrim. Salah satu yang menjadi penting dalam model extreme value adalah return level. Sebelum menentukan nilai return level, terlebih dahulu harus diketahui nilai parameter distribusi EVT yang dipilih dengan syarat urutan data harus independen. Namun pada kenyataannya seringkali ditemukan data ekstrim yang dependen akibatnya akan diperoleh nilai return level yang tidak sesuai. Salah satu cara untuk mengatasi hal tersebut dengan metode declustering. Maka dalam penelitian ini menganalisis data curah hujan ekstrim dependen dengan pendekatan Peaks Over Threshold (POT) serta mengatasi dependensi data dengan declustering. Hasil penelitian menunjukkan bahwa metode declustering berhasil mengatasi dependensi data, namun tidak menghasilkan return level yang lebih baik. Hal ini ditunjukkan pada data hasil declustering memiliki RMSE return level yang sama dengan RMSE return level tanpa declustering. Oleh karena itu, pada analisis selanjutnya sebaiknya menggunakan metode pemodelan parameter Generalized Pareto Distribution. Kata Kunci— Curah Hujan, Extreme Value Theory (EVT), Peaks Over Threshold, Generalized Pareto Distribution, Declustering, Return Level.

I. PENDAHULUAN Iklim ekstrim merupakan fenomena yang langka namun dapat memicu dampak yang merugikan bagi kehidupan salah satunya bagi sektor pertanian. Curah hujan yang sangat tinggi serta kekeringan yang sangat lama, mengakibatkan kerusakan tanaman dan kegagalan panen sehingga produktivitas tanaman menurun dan pasokan pangan menjadi sangat tidak pasti. Extreme Value Theory (EVT) merupakan salah satu metode statistika yang digunakan untuk mempelajari perilaku nilai-nilai ekstrim yang dapat menentukan probabilitas nilainilai ekstrimnya, juga dapat meramalkan terjadinya kejadian ekstrim pada data heavy tail yang tidak dapat dilakukan dengan pendekatan tradisional lainnya. Dalam mengidentifikasi pergerakan nilai ekstrim terdapat dua pendekatan yang digunakan yaitu dengan metode Block Maxima (BM) yang mengikuti distribusi Generalized Extreme Value (GEV) dan metode Peaks Over Threshold (POT) yang mengikuti distribusi Generalized Pareto

Distribution (GPD)[1]. Jaruskova dan Hanek [2] membandingkan metode POT dan BM untuk mengestimasi return level pada data curah hujan di Moravia Utara, Republik Ceko. Penelitian tersebut menghasilkan kesimpulan bahwa metode POT lebih sesuai untuk data ekstrim yang dependen. Salah satu yang menjadi penting dalam interpretasi model extreme value adalah return level yang merupakan nilai maksimum yang dilampaui satu kali dalam jangka waktu tertentu. Pada bidang pertanian nilai return level akan memberikan informasi waktu tanam yang sesuai sehingga dapat ditentukan varietas tanaman yang sesuai dan adaptif terhadap keadaan yang ekstrim tersebut. Sebelum menentukan nilai return level, terlebih dahulu harus diketahui nilai parameter distribusi EVT yang dipilih dengan syarat urutan data harus independen. Namun pada kenyataannya seringkali ditemukan data ekstrim yang dependen. Oleh karena itu diperlukan penyelesaian dependensi data untuk mendapatkan nilai return level yang sesuai. Beberapa penelitian yang pernah dilakukan untuk menganalisis kasus data ekstrim yang dependen adalah dengan memodelkan parameter distribusi EVT. Kurniawati [3] melakukan analisis data ekstrim dependen pada kasus curah hujan di Jawa Timur dengan pendekatan Peaks Over Threshold (POT) dan pemodelan parameter skala (scale) pada Generalized Pareto Distribution (GPD). Selain memodelkan parameter, untuk mengatasi data ekstrim yang dependen juga bisa dilakukan dengan metode declustering. Soukissian dan Arapi [4] melakukan perbandingan metode declustering pada data tinggi gelombang laut dengan 4 pendekatan yaitu Standard Storm Length (SSL), Runs declustering (RL), DeClustering Algorithm (DeCA), dan Triple Annual Maximum (TAM). Kesimpulan yang diperoleh dari penelitian tersebut yaitu dengan metode decluster-ing melalui pendekatan run-declustering menunjukkan hasil dengan standar error yang lebih kecil dan selang kepercayaan yang lebih sempit. Berdasarkan uraian tersebut, maka dalam penelitian ini mengkaji data curah hujan ekstrim dengan pendekatan Peaks Over Threshold (POT) dan mengatasi dependensi data dengan metode declustering. Penelitian ini juga mengkaji curah hujan ekstrim di beberapa tempat Jawa Timur yaitu di Kabupaten Jember, Bojonegoro, Lamongan, Banyuwangi, dan Ngawi. II. TINJAUAN PUSTAKA A. Extreme Value Theory (EVT) EVT merupakan salah satu metode statistika yang digunakan untuk mempelajari bagaimana perilaku ekor (tail)

2 distribusi tersebut. Metode ini berfokus pada perilaku ekor (tail) suatu distribusi untuk dapat menentukan probabilitas nilai-nilai ekstrimnya. EVT dapat meramalkan terjadinya kejadian ekstrim pada data heavy-tail yang tidak dapat dilakukan dengan pendekatan tradisional lainnya. Metode ini mampu menjelaskan kerugian kejadian ekstrim dan jika terjadi mempunyai konsekuensi kerugian yang sangat besar (bernilai maksimum) dan tidak dapat dimodelkan dengan pendekatan biasa. Dalam mengidentifikasi pergerakan nilai ekstrim terdapat dua pendekatan yang digunakan. Pendekatan pertama yaitu dengan metode Block Maxima (BM) yaitu mengambil nilai maksimum dalam satu periode sedangkan pendekatan kedua yaitu dengan metode Peaks Over Threshold (POT) yaitu mengambil nilai-nilai yang melewati suatu nilai threshold [6]. B. Peaks Over Threshold (POT) POT merupakan salah satu metode untuk mengidentifikasi nilai ekstrim dengan menggunakan nilai patokan yang disebut threshold (u). Data yang berada di atas nilai patokan tersebut akan diidentifikasi sebagai nilai ekstrim.

Gambar 1. Ilustrasi Pengambilan Data Sampel dengan Metode POT

Gambar 1 menunjukkan cara pengambilan data ekstrim menggunakan POT. Data x1, x2, x7, x8, x9, dan x10 adalah nilai yang berada di atas threshold (u), sehingga keenam data tersebut merupakan nilai ekstrim yang akan digunakan untuk analisis selanjutnya. Semakin tinggi nilai threshold maka data ekstrim akan semakin mengikuti distribusi General Pareto. Berikut ini adalah Probability Density Function Generalized Pareto Distribution (GPD). 1  1    1 1    x  u      f ( x  u)      1 exp    x  u         

,  0 ,  0

(1)

jika   0 jika   0

D. Autocorrelation Function (ACF) Dalam analisis exreme value, plot autocorrelation function (ACF) merupakan salah satu cara yang digunakan untuk mengetahui adanya data ekstrim yang dependen selain dengan melihat plot dari data itu sendiri. Apabila nilai ACF dari suatu data kurang dari batas bawah atau lebih dari batas atas fungsi autocorrelation, maka dikatakan bahwa data bersifat dependen. Rumus umumnya adalah: cov( X t , X t  k ) k  (3) var( X ) var( X ) t k

t

E. Estimasi Parameter Generalized Pareto Distribution Penaksir parameter metode Generalized Pareto Distribution (GPD) dapat ditaksir dengan menggunakan metode Maximum Likelihood Estimation (MLE). Secara umum GPD memiliki probability density function seperti pada persamaan (1). Berdasarkan metode MLE maka fungsi likelihood-nya untuk GPD dengan   0 L(u,  ,  | x1 , x2 ,..., xn )  f x1  f x2  f xn  

n

 xi  u    1      i 1  n

1   1   

(4)

Fungsi ln likelihood dari persamaan (4) adalah  1  n   x  u   ln Lu,  ,  | x1 , x2 ,..., xn   n ln     1 ln1  i  (5)      i1  Sedangkan untuk GPD dengan   0 fungsi likelihood-nya n

L(u,  | x1 , x2 ,..., xn )   f ( xi , u,  ) i 1

dimana 0 ≤ (x-u) ≤ ∞ jika ξ ≥ 0, u ≤ (x-u) < u-(σ/ξ) jika ξ <0 Adapun Cumulative Distribution Function (CDF) dari Generalized Pareto Distribution (GPD) adalah sebagai berikut: 1   1  1   x  u    , 0  ( x  u )  u         F ( x  u)   0  ( x  u)     x  u     1  exp     , 0  ( x  u )   

digunakan adalah metode persentase. Penentuan nilai threshold dengan menggunakan metode persentase didapatkan dengan cara sebagai berikut. 1. Mengurutkan data dari yang terbesar hingga terkecil. 2. Menghitung 10% dari jumlah data (k) k = 10% x N N = jumlah data. 3. Menentukan nilai threshold (u) yaitu threshold berada pada data urutan ke- (k + 1)

(2)

jika   0

dengan σ adalah parameter skala (scale) dan ξ adalah parameter bentuk (shape). C. Penentuan Nilai Threshold Untuk mendapatkan nilai ekstrim dengan metode Peaks Over Threshold, terlebih dahulu menentukan nilai threshold (u) sebagai nilai acuan. Ada beberapa cara dalam menentukan threshold diantaranya adalah dengan metode Mean Residual Life Plot (MRLP) dan metode persentase. Metode penentuan nilai threshold yang lebih mudah dan sering

 1 n  1    exp     xi  u  (6)     i 1   Sehingga fungsi ln likelihood dari persamaan (6) adalah 1 n ln Lu,  | x1 , x2 ,..., xn   n ln( )   xi  u  (7) n

 i 1 Selanjutnya dari persamaan ln likelihood yang diperoleh kemudian diturunkan terhadap parameter yang akan ditaksir dan disamakan dengan nol. Berdasarkan persamaan yang terbentuk, diperoleh persamaan yang tidak close form maka dibutuhkan analisis numerik lebih lanjut dengan cara iterasi untuk memaksimumkan fungsi ln likelihood. Salah satu analisis numerik yang digunakan untuk menyelesaikan persamaan yang tidak close form adalah metode Newton Raphson. Apabila g(θ) adalah vektor dari turunan pertama dari L(ξ,σ;x) dan H(θ) adalah matriks Hessian yaitu matriks dari turunan kedua dari fungsi ln likelihood. Persamaan umum Newton Raphson sebagai berikut. (8) θl+1 = θl – g(θl) H-1(θl) Iterasi berhenti apabila |θl+1-θl| < ε dimana ε adalah bilangan yang kecil sekali.

3 F. Uji Kesesuaian Distribusi Pemeriksaan distribusi dilakukan dengan uji Kolmogorov-Smirnov. Pengujian ini dilakukan dengan menyesuaikan fungsi distribusi empiris (berdasarkan sampel) Fn (x) dengan distribusi teoritis tertentu (sesuai yang

N : jumlah pengamatan di atas threshold Si : urutan pengamatan ke-i diatas threshold. Nilai extremal index (θ) dapat digunakan untuk menentukan run length (r) yang optimal untuk proses declustering, dimana r = T(C) dan (C-1) = θ (N-1).

dihipotesiskan) F0 ( x) . Uji Hipotesis : H0 : Fn (x) = F0 ( x) (Data mengikuti distribusi teoritis F0 ( x) )

I. Return Level Return level merupakan nilai maksimum pada periode yang akan datang. Pada bidang pertanian nilai return level dari data curah hujan akan memberikan informasi waktu tanam yang sesuai untuk varietas tanaman pangan tertentu. Sehingga ketika curah hujan ekstrim terjadi, dapat ditentukan varietas tanaman apa yang sesuai dan adaptif terhadap keadaan yang ekstrim tersebut. Persamaan return level untuk GPD adalah sebagai berikut. ˆ  (10) x m  u  m u   1

H1: Fn (x) ≠ F0 ( x) (Data tidak mengikuti dist. teoritis F0 ( x) ) Statistik Uji: D  Maks Fn ( x)  F0 ( x) Daerah Kritis : Tolak H0 jika Dhitung> Dα G. Extreme of Dependent Kejadian-kejadian di alam yang bersifat ekstrim cenderung terjadi secara berurutan (dependen). Hal tersebut merupakan sebuah fakta yang melanggar asumsi utama dalam EVT, yaitu bahwa variabel yang diteliti harus independen. Data yang non stationer mengindikasikan jika data tersebut dependen dan membentuk suatu pola tertentu, pola yang terbentuk bisa berupa pola siklik, tren naik, maupun tren turun. Ada beberapa cara yang digunakan untuk mengatasi data ekstrim yang dependen (non-stasioner) antara lain dengan melakukan transformasi pada data dan kemudian menentukan model parameter distribusinya, serta cara yang kedua yaitu dengan melakukan declustering pada data. Secara garis besar, prosedur dalam melakukan teknik declustering (pendekatan run-declustering) adalah sebagai berikut. 1. Menentukan threshold (u) sehingga nilai-nilai yang melebihi u dianggap sebagai peristiwa ekstrim dan menentukan nilai r. 2. Menentukan cluster. Cluster dimulai ketika threshold (u) terlampaui untuk pertama kalinya dan berakhir setelah paling sedikit r pengamatan berturut-turut berada di bawah threshold. 3. Mengekstrak nilai maksimum cluster dan melanjutkan mengidentifikasi cluster berikutnya (menggunakan langkah 2). Prosedur berhenti bila data habis. H. Extremal Index Metode declustering bekerja dengan menentukan suatu threshold (u) kemudian pembentukan cluster hingga sejumlah r pengamatan berada di bawah threshold. Seperti yang disebutkan oleh Coles [1], pemilihan nilai r yang tidak sesuai akan menyebabkan bias dan varians yang tinggi. Nilai r yang terlalu rendah akan menyebabkan data sulit menjadi independen sedangkan nilai r yang terlalu tinggi maka data ekstrim yang diperoleh akan sedikit sehingga menghasilkan varians yang besar. Untuk menentukan estimasi r (run length) yang optimal, dapat menggunakan extremal index [7]. Extremal index merupakan suatu indikator untuk mengukur berapa banyak cluster yang terbentuk sehingga data menjadi independen. Salah satu metode dalam mengestimasi extremal index adalah dengan menggunakan persamaan (9).





2 N 1     min 1, 2 i 1 Ti   N 1 2    N  1 Ti    ~  i 1    2 N 1    2 i 1 Ti  1   min 1 ,    N 1   N  1i 1 Ti  1Ti  2 





if max Ti : 1  i  N  1  2 if max Ti : 1  i  N  1  2

dimana Ti = Si+1 - Si i : 1,2,…, N-1 Ti : jarak antar pengamatan di atas threshold

(9)







dengan : u : nilai threshold xm : nilai ekstrim yang terjadi pada jangka waktu mpengamatan

n ζu : nu ˆ : c n nu dimana nc adalah banyaknya cluster yang terbentuk, nu adalah banyaknya data yang melebihi threshold dan n adalah banyaknya data [1]. J. Root Mean Square Error (RMSE) Root Mean Square Error (RMSE) digunakan untuk mengetahui akar kesalahan rata-rata kuadrat dari setiap metode. Pada penelitian ini RMSE digunakan sebagai kriteria pemilihan metode yang sesuai.

RMSE  dimana : xi : Nilai aktual

t

1 t xi  xˆ i 2  t i 1

(11)

xˆi : Nilai dugaan

: Banyaknya nilai yang diduga III. METODOLOGI PENELITIAN

A. Sumber Data Data yang digunakan pada penelitian ini adalah data sekunder yang diperoleh dari Badan Meteorologi Klimatologi dan Geofisika (BMKG). Data yang diperoleh adalah data curah hujan harian di beberapa kabupaten di Jawa Timur yaitu di Kabupaten Jember, Bojonegoro, Lamongan, Banyuwangi, dan Ngawi pada periode 1981 sampai 2010. B. Variabel Penelitian Variabel yang digunakan dalam penelitian adalah curah hujan harian yang diambil dari satu pos tertentu dimasingmasing kabupaten yaitu Pos Karang Kedawung di Kabupaten Jember, Pos Cawak di Kabupaten Bojonegoro, Pos Karangbinangun di Kabupaten Lamongan, Pos Pasewaran di Kabupaten Banyuwangi, dan Pos Ngale di Kabupaten Ngawi pada periode 1981 sampai 2010. Pemilihan pos tersebut didasarkan pada penelitian Nihayatin [8] yang melakukan perbandingan uji homogenitas pada data curah hujan di Jawa Timur sebagai pra-pemrosesan kajian perubahan iklim. Pos hujan yang dipilih tersebut telah memenuhi homogenitas runtun waktu.

4

IV. HASIL DAN PEMBAHASAN Pada hasil dan pembahasan ini diawali dengan pembahasan pra-pemrosesan data, deskripsi data, pengambilan sampel ekstrim dengan peaks over threshold, pemeriksaan kesesuaian distribusi, proses declustering, serta menentukan return level. Pada beberapa pembahasan tertentu lebih khusus menjelaskan untuk data curah hujan di Pos Cawak.

A. Pra-Pemrosesan Data Curah Hujan Pra-pemrosesan data sebelum dianalisis meliputi identifikasi missing value dan imputasi data. Missing value atau missing data merupakan gangguan yang biasa ditemukan dalam data yang akan dianalisis. Berikut ini hasil identifi-kasi missing value dari data curah hujan di lima pos penga-matan di Jawa Timur. Tabel 1. Identifikasi Missing Value Data Curah Hujan

Pos Pengamatan Pasewaran Karang Kedawung Ngale Cawak Karangbinangun

N tidak sesuai 203 203 203 203 203

%missing 0,84 0,00 5,16 0,28 0,54

Tabel 1 menunjukkan bahwa ditemukan ada data missing di pos pengamatan Pasewaran, Ngale, Cawak, dan Karangbinangun, dimana Pos Ngale memiliki data missing yang paling banyak yaitu sebanyak 565 data missing atau sekitar 5,16%. Sedangkan di Pos Karang Kedawung tidak ditemukan data missing sama sekali, namun masih terdapat beberapa pengamatan yang tidak sesuai yaitu sebanyak 203 pengamatan. Jumlah yang sama juga ditemukan di pos pengamatan yang lain. Pengamatan tidak sesuai yang dimaksud adalah pengamatan yang dicatat pada tanggaltanggal yang tidak mungkin terjadi, yaitu tanggal 31 pada bulan Februari, April, Juni, September, November, dan tanggal 29 Februari pada tahun-tahun non-kabisat. Sehingga dalam hal ini pengamatan pada tanggal-tanggal tersebut dihapuskan. Sedangkan untuk data missing dilakukan imputasi dengan menggunakan rata-rata curah hujan pada tanggal dan bulan yang sama dengan tanggal dan bulan data missing tersebut. Bojonegoro 180 160 140 120 100

CH

C. Metode Analisis Data Metode analisis yang digunakan dalam penelitian sebagai berikut. 1. Melakukan pra-pemrosesan data dengan mengidentifikasi missing value, observasi pencilan (outlier), dan observasi yang tidak sesuai dari data curah hujan di Kabupaten Jember, Bojonegoro, Lamongan, Banyuwangi, dan Ngawi. 2. Mengidentifikasi karakteristik curah hujan ekstrim di Jawa Timur khususnya Kabupaten Jember, Bojonegoro, Lamongan, Banyuwangi, dan Ngawi dengan langkah sebagai berikut. a. Mendeskripsikan data curah hujan dengan statistika deskriptif dan pola sebaran curah hujan. b. Mengidentifikasi distribusi data curah hujan di masing masing kabupaten untuk mengetahui adanya distribusi data heavy tail dan nilai ekstrim dengan histogram dan normality plot. 3. Pengambilan sampel data ekstrim dengan metode Peaks Over Threshold. Sampel data ekstrim didapatkan dengan cara menentukan threshold pada data dengan menggunakan metode presentase 10% untuk mendapatkan data ekstrim. Data diurutkan dari yang terbesar hingga yang terkecil. 4. Mengidentifikasi data curah hujan pada masingmasing pos membentuk pola siklik atau linier tren melalui plot data itu sendiri. Selain itu juga melihat data ekstrim dependen melalui plot autocorrelation function (ACF). 5. Pemeriksaan kesesuaian distribusi menggunakan quantile plot, probability plot dan pengujian hipotesis dengan uji Kolmogorov-Smirnov. 6. Melakukan declustering pada data ekstrim dependen melalui pendekatan run-declustering. a. Menentukan r (run length) yang optimum melalui estimasi extremal index pada persamaan (8). b. Melakukan declustering dengan menggunakan nilai r yang telah diperoleh dari hasil estimasi extremal index dengan langkah-langkah sebagai berikut. - Menggunakan nilai threshold (u) pada langkah ke3 untuk mengidentifikasi nilai-nilai ekstrim - Menentukan cluster. Cluster dimulai ketika threshold (u) terlampaui untuk pertama kalinya dan berakhir setelah paling sedikit r pengamatan berturut-turut jatuh di bawah threshold. - Mengekstrak nilai maksimum masing-masing cluster dan selanjutnya digunakan sebagai data baru untuk mengestimasi parameter GPD. 7. Menghitung nilai estimasi parameter Generalized Pareto Distribution (GPD) dari data hasil declustering dan tanpa declustering. 8. Menghitung nilai return level curah hujan ekstrim di lima kabupaten kemudian membandingkan nilai RMSE untuk return level hasil declustering dan tanpa declustering.

80 60 40 20 0 1

1096

2192

3288

4384

5480 Index

6576

7672

8768

9864

Gambar 2. Plot Data Curah Hujan di Pos Cawak. (Catatan: Yang diberikan tanda merupakan data yang aneh yang perlu diklarifikasi ulang ke pengumpul data)

Data yang sudah bersih dari missing value selanjutnya dicek ulang untuk mengidentifikasi pengamatan yang menyimpang. Gambar 2 menunjukkan bahwa terdapat satu pengamatan yang aneh di Pos Cawak, yaitu data curah hujan tercatat 165 mm. Pengamatan ini terjadi pada tanggal 11 Desember 1994. Pada hari-hari sebelum dan setelah tanggal tersebut, rata-rata curah hujan tercatat sekitar 10-20 mm (hujan sedang) bahkan banyak hari tidak terjadi hujan (curah hujan 0 mm), sehingga pengamatan pada tanggal 11 Desember 1994 ini dianggap aneh karena nilai curah hujannya terlalu tinggi bahkan tergolong kategori hujan yang sangat lebat (>100 mm) yang dapat menyebabkan banjir di wilayah tersebut. Oleh karena itu penanganan yang dilakukan untuk mengatasi kasus tersebut adalah dengan melakukan penyesuaian data. Perlakuan yang sama juga dilakukan pada data curah hujan di empat pos lainnya.

5 B. Deskripsi Data Curah Hujan Hasil statistik deskriptif curah hujan di lima pos pengamatan disajikan pada Tabel 2.

Bojonegoro

Normal - 95% CI

99

Pos Pengamatan Cawak Pasewaran Karang Kedawung Karangbinangun Ngale

Std Deviasi 12,398 16,742 12,756 11,261 13,199

Min.

Maks.

0 0 0 0 0

115 153 119 124 127

Perlu dilakukan identifikasi untuk mengetahui pola curah hujan di lima pos pengamatan yang diteliti. Gambar 3 merupakan diagram batang yang terbentuk dari rata-rata curah hujan harian mulai bulan Januari 1981 sampai Desember 2010 di Pos Cawak. Berdasarkan Gambar 3 dapat diketahui bahwa pola curah hujan di Pos Cawak membentuk huruf U dan memiliki satu puncak musim hujan (unimodal) yang terjadi pada bulan Januari sehingga membentuk pola monsun. Curah hujan harian keempat pos lainnya juga memiliki pola yang sama yaitu pola monsun. Rata-rata curah hujan harian (mm)

9 8 7 6 5 4 3

4.315 12.40 10957 2701.596 <0.005

95 Percent

Tabel 2. Nilai Rata-Rata, Standard Deviasi, Nilai Minimum, dan Nilai Maksimum Curah Hujan Harian (mm)

RataRata 4,315 6,532 5,149 4,152 5,352

Mean StDev N AD P-Value

99.99

80 50 20 5 1 0.01 -50

-25

0

25 50 Curah Hujan

75

100

125

Gambar 5. Pengujian Normality Probability Plot Curah Hujan Harian di Pos Cawak

D. Pengambilan Sampel Ekstrim dengan POT Pemilihan threshold dilakukan dengan metode presentase dengan persentase 10% pada data curah hujan harian di lima pos pengamatan dan pengambilan sampel ekstrim dilakukan dengan mengambil data yang hanya melebihi nilai threshold. Nilai threshold dan banyaknya data yang berada diatas threshold pada masing-masing pos pengamatan disajikan dalam Tabel 3. Tabel 3. Jumlah Pengamatan (N), Nilai Threshold (u), dan Jumlah Sampel Ekstrim (nu)

Pos Pengamatan Cawak Pasewaran Karang Kedawung Karangbinangun Ngale

N 10.957 10.957 10.957 10.957 10.957

u (mm) 15 23 19 14 17

nu 985 1.095 1.051 1.081 1.087

2 1 0

JA

I AR NU

F

AR RU EB

I

ET AR M

EI M

L RI AP

NI JU

LI JU

S R R R R BE BE BE BE TU M M US EM TO VE SE PT OK AG DE NO SE

Bulan

Gambar 3. Pola Curah Hujan Harian di Pos Cawak

E. Identifikasi Dependensi Data Identifikasi dependensi data pada penelitian ini dilakukan dengan melihat plot dari data curah hujan ekstrim pada Pos Cawak sebagai berikut. 120

Bojonegoro 9000

100

curah hujan ekstrim (mm)

C. Identifikasi Pola Data Heavy Tail dan Nilai Ekstrim Identifikasi data berpola heavy tail di Pos Cawak dapat diketahui melalui histogram seperti pada Gambar 4.

80

60

40

8000 20

7000

1

95

190

285

5000

380 475 570 pengamatan ke-

665

760

855

950

4000

Gambar 6. Pola Data Curah Hujan Ekstrim Pos Cawak

3000

Pola data curah hujan ekstrim berdasarkan Gambar 6 membentuk pola siklik. Hal tersebut mengindikasikan bahwa data curah hujan ekstrim di Pos Cawak bersifat dependen terhadap waktu. Selain dengan plot data curah hujan, identifikasi dependensi data juga dilakukan menggu-nakan plot autocorrelation function dari data ekstrim curah hujan.

2000 1000 0

0

16

32

48 64 Curah Hujan

80

96

112

Gambar 4. Histogram Curah Hujan Harian di Pos Cawak

Histogram pada Gambar 4 menunjukkan bahwa curah hujan di Pos Cawak memiliki ekor distribusi turun lambat. Hal ini mengindikasikan adanya pola distribusi data heavy tail pada data curah hujan harian di Pos Cawak. Adanya indikasi ini juga menunjukkan jika data curah hujan tidak berdistribusi normal sehingga menggunakan metode extreme value theory. Hal ini dapat dilihat juga dengan menggu-nakan normality probability plot pada Gambar 5 berikut.

CH Ekstrim Bojonegoro

(with 5% significance limits for the autocorrelations) 1.0 0.8 0.6

Autocorrelation

Frequency

6000

0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 1

5

10

15

20

25

30

35 40 Lag

45

50

55

60

65

70

75

Gambar 7. Plot Autocorrelation Function Data Ekstrim Curah Hujan di Pos Cawak (Catatan: Tanda kotak hitam menunjukkan lag-lag yang keluar dari batas atas atau batas bawah yang mengindikasi adanya dependensi atau autokorelasi)

Gambar 7 menunjukkan ada beberapa nilai ACF yang melebihi batas atas fungsi autokorelasi yaitu pada lag-1, lag-

6

F. Uji Kolmogorov-Smirnov Pemeriksaan kesesuaian distribusi untuk mengetahui bahwa sampel ekstrim curah hujan berdistribusi Generalized Pareto Distribution (GPD) juga dilakukan dengan uji Kolmogorov-Smirnov sebagai berikut. Pengujian hipotesis : H0: Fn(x) = F0(x) (Data mengikuti Generalized Pareto Distribution) H1: Fn(x) ≠ F0(x) (Data tidak mengikuti Generalized Pareto Distribution) α = 0,02 Daerah kritis : Tolak H0 jika Dhitung > Dα dimana Dα adalah nilai kritis untuk uji Kolmogorov-Smirnov dengan taraf signifikansi sebesar α. Tabel 4. Uji Kolmogorov-Smirnov Generalized Pareto Distribution

Pos Pengamatan Cawak Pasewaran Karang Kedawung Ngale Karangbinangun

Dhitung 0,0453 0,0304

Dα 0,0492 0,0469

Keputusan Gagal Tolak H0 Gagal Tolak H0

0,0339

0,0473

Gagal Tolak H0

0,0333 0,0461

0,0473 0,0476

Gagal Tolak H0 Gagal Tolak H0

Berdasarkan Tabel 4 menunjukkan bahwa Dhitung pada semua pos pengamatan memiliki nilai yang lebih kecil dibandingkan Dα sehingga kesimpulan yang dapat diambil adalah semua data ekstrim curah hujan di lima pos pengamatan mengikuti Generalized Pareto Distribution. G. Proses Extremal Index dan Declustering Berikut ini hasil estimasi extremal index di lima pos pengamatan curah hujan dalam Tabel 5.

dilakukan terus menerus sampai pembentukan cluster selesai dan data telah habis. Pada data curah hujan di Pos Cawak terbentuk 307 cluster dengan r =8. 4. Mengidentifikasi nilai maksimum pada masing-masing cluster. Nilai maksimum ini selanjutnya digunakan untuk mengestimasi parameter GPD. 5. Setelah proses declustering selesai, kemudian mengidentifikasi dependensi data curah hujan hasil declustering. Gambar 8 menunjukkan plot ACF data curah hujan di Pos Cawak yang sudah melalui proses declustering. r=8

(with 5% significance limits for the autocorrelations) 1.0 0.8 0.6 Autocorrelation

3, dan lag-4, serta beberapa lag yang lebih tinggi lainnya. Sehingga menunjukkan data ekstrim memiliki korelasi yang tinggi dengan nilai ekstrim sebelum atau sesudahnya. Maka data ekstrim curah hujan di Pos Cawak bersifat dependen. Indikasi adanya dependensi data juga ditemukan pada data curah hujan di masing-masing pos

Threshold 15 mm 23 mm 19 mm 14 mm 17 mm

Extremal Index 0,3234 0,1534 0,2748 0,2955 0,2958

r 8 10 8 8 8

Setelah diketahui nilai r yang optimum, proses selanjutnya adalah melakukan declustering. Secara spesifik, berikut ini dijelaskan proses declustering pada data curah hujan di salah satu pos pengamatan yaitu Pos Cawak. 1. Menentukan threshold (u). Pada analisis sebelumnya ditentukan nilai threshold (u) untuk data curah hujan di Pos Cawak adalah 15 mm dan nilai-nilai yang berada diatas u dianggap sebagai nilai ekstrim. 2. Menentukan nilai r. Pada analisis ini digunakan nilai r = 8 yang diperoleh dari hasil extremal index. 3. Menentukan cluster. Cluster pertama dimulai pada data pertama kali melebihi nilai threshold dan berakhir setelah minimal ada r data yang berada dibawah threshold. Pada data curah hujan di Pos Cawak, cluster pertama terbentuk, mulai pengamatan ke-2 sampai dengan ke-3. Cluster kedua terbentuk mulai pengamatan ke-14 sampai ke-35, dimana antara cluster pertama dan cluster kedua ada sebanyak 10 pengamatan di bawah threshold. Prosedur ini

0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 1

5

10

15

20

25

30 35 Lag

40

45

50

55

60

Gambar 8. Plot Autocorrelation Function Data Curah Hujan Pos Cawak dengan Declustering r = 8

Plot autocorrelation function pada Gambar 8 menunjukkan tidak ada nilai ACF yang keluar dari batas atas dan batas bawah sehingga mengindikasikan bahwa data curah hujan hasil proses declustering sudah independen H. Estimasi Parameter GPD Nilai estimasi parameter skala dan parameter bentuk GPD, serta jumlah cluster yang terbentuk dan tipe distribusi data ekstrim curah hujan di lima pos pengamatan disajikan pada Tabel 6 sebagai berikut. Tabel 6. Estimasi Parameter GPD Pos Cawak, Pos Pasewaran, Pos Karang Kedawung, Pos Ngale, dan Pos Karangbinangun

Pos Pengamatan

Cawak

Nilai

ˆ ˆ nc Tipe Dist.

Tabel 5. Extremal Index per Pos Pengamatan

Pos Pengamatan Cawak Pasewaran Karang Kedawung Karangbinangun Ngale

0.4

Pasewaran

ˆ ˆ

nc Tipe Dist. Karang Kedawung

Ngale

ˆ ˆ

nc Tipe Dist.

ˆ ˆ

nc Tipe Dist. Karangbinangun

ˆ ˆ

nc Tipe Dist.

Nondeclustering 30,0778

Declustering 73,0761

-0,2818

-0,7284

Beta 28,7968

307 Beta 78,0252

-0,1038

-0,5917

Beta 20,0262

177 Beta 42,9709

-0,0457

-0,3903

Beta 21,695

302 Beta 48,3195

-0,0317

-0,3941

Beta 17,7387

321 Beta 42,4165

0,0146

-0,348

Pareto

295 Beta

I. Return Level Nilai estimasi parameter GPD yang diperoleh digunakan untuk menghitung return level. Sedangkan return level dapat digunakan untuk mengetahui nilai estimasi curah hujan pada

7 periode waktu tertentu. Nilai return level untuk curah hujan selama 1 tahun mendatang lima pos pengama-tan disajikan pada Tabel 7. Tabel 7. Nilai Return Level (mm) di Lima Pos Pengamatan

Pos Periode Pengamatan Ulang

Cawak

Pasewaran

Karang Kedawung

Karangbinangun

Ngale

3 bln 6 bln 9 bln 12 bln 3 bln 6 bln 9 bln 12 bln 3 bln 6 bln 9 bln 12 bln 3 bln 6 bln 9 bln 12 bln 3 bln 6 bln 9 bln 12 bln

Aktual

NonDeclustering

Declustering

78 78 78 85 106 106 106 106 40 60 60 80 105 105 105 105 122 122 122 122

62,7905 73,2482 78,4827 81,8501 79,7064 95,0278 103,4922 109,2853 60,6546 73,0183 80,071 84,9963 53,1844 65,9425 73,4658 78,8308 62,8333 76,7115 84,6895 90,2882

64,6179 84,7191 92,5454 96,8516 50,0559 83,3174 100,1516 108,715 52,6145 70,7418 79,2820 84,5718 47,0653 66,1015 75,2846 81,0574 56,2739 76,1948 85,5605 91,3543

Nilai RMSE digunakan untuk menentukan metode yang sesuai dalam menghitung return level di lima pos pengamatan. Nilai RMSE dari return level hasil declustering dibandingkan dengan RMSE dari return level tanpa dilakukan declustering. Nilai RMSE dihitung berdasarkan nilai aktual dan nilai dugaan return level dari masing-masing kabupaten. Metode yang memiliki nilai RMSE terkecil adalah metode yang sesuai dalam menentukan return level. Hasil perbandingan nilai RMSE disajikan pada Tabel 8 berikut. Tabel 8. Nilai RMSE Return Level

NonDeclustering Declustering Cawak 8,125 12,002 Pasewaran 14,395 30,355 Karang Kedawung 15,999 12,915 Karangbinangun 38,372 39,767 Ngale 44,579 46,597 Tabel 8 menunjukkan bahwa nilai RMSE yang dihasilkan dari return level melalui declustering cenderung sama dibandingkan nilai return level tanpa declustering. Hal ini menunjukkan bahwa nilai dugaan yang dihasilkan melalui declustering tidak sesuai, sehingga dalam perhitungan return level tidak memberikan hasil yang lebih baik. Selain itu, hal ini dapat ditunjukkan dengan pengujian mean dua populasi sebagai berikut: Hipotesis: H0: μ1 = μ2 H1: μ1 ≠ μ2 dimana : μ1 = rata-rata RMSE return level dari data tanpa declustering μ2 = rata-rata RMSE return level dari data hasil declustering α = 0,05 thitung = -1,26 ttabel = 3,495 thit < ttabel sehingga kesimpulan yang diperoleh : gagal tolak H0. Maka rata-rata RMSE return level dari data tanpa

declustering sama dengan rata-rata RMSE return level dari data hasil declustering. Sehingga perhitungan return level melalui declustering memberikan hasil yang sama dengan hasil estimasi return level tanpa declustering. Ada dugaan bahwa declustering merupakan tahap awal dalam analisis memodelkan parameter GPD sehingga hanya mampu mengatasi dependensi data namun tidak menghasilkan return level yang lebih baik. Oleh karena itu, perlu dibahas dan dianalisis lebih lanjut dengan pendekatan model parameter untuk menghasilkan nilai return level yang lebih sesuai. V. KESIMPULAN DAN SARAN Karakteristik curah hujan ekstrim di Jawa timur khususnya Kabupaten Jember, Bojonegoro, Lamongan, Banyuwangi, dan Ngawi memiliki pola heavy tail (mengandung nilai ekstrim) dan tidak berdistribusi normal, namun mengikuti distribusi General Pareto. Selain itu data ekstrim di lima pos pengamatan masing-masing kabupaten bersifat dependen karena berpola siklik dan memiliki nilai korelasi yang tinggi pada lag-lag tertentu. Proses declustering pada data ekstrim dapat mengatasi dependensi data sehingga menghasilkan data yang independen. Namun, hal tersebut tidak menghasilkan estimasi parameter dan return level yang lebih baik karena nilai RMSE return level pada hasil declustering sama dengan RMSE return level dari data tanpa declustering. Oleh karena itu pada analisis selanjutnya sebaiknya dilakukan analisis declustering pada pos pengamatan yang berbeda atau menggunakan data simulasi sehingga ada kemungkinan akan menghasilkan estimasi parameter dan return level yang lebih baik. Selain itu juga dapat melakukan analisis dengan menggunakan metode pemodelan parameter GPD untuk memperoleh estimasi parameter dan return level yang lebih baik. DAFTAR PUSTAKA [1]

Pos Pengamatan

[2]

[3]

Coles, S. (2001). An Introduction to Statistical Modelling of Extreme Values. London: Spinger-Verlag. Jaruskova, D., Hanek, M. (2006). Peaks Over Threshold Method In Comparison With Block-Maxima Method For Estimating High Return Levels Of Several Northern Moravia Precipitation And Discharges Series. Journal of Hydrology and Hydromechanics, 54, 309–319. Kurniawati, Y. (2013). Analisis Data Ekstrim Dependen (Non Stationary) Pada Kasus Curah Hujan Ekstrim di Jawa Timur Dengan Pendekatan Peaks Over Threshold. Tugas Akhir S1: Jurusan Statistika, Institut Teknologi Sepuluh Nopember.

[4]

Soukissian, T. H., Arapi, P. M. (2011). The Effect of Declustering in the r-Largest Maxima Model for the Estimation of Hs-Design Values. The Open Ocean Engineering Journal, 4, 34-43.

[5]

Johnson, R.A., Bhattacharyya, G.K. (1977). Statistical Concepts and Methods. New York : John Wiley & Sons. McNeil, A.J. (1999). Extreme Value Theory for Risk Managers. Zurich: Departement Mathematic ETH Zentrum. Ferro, C.A.T., Segers, J. (2003). Inference for Clusters of Extreme Values. Journal R. Stat. Society, B65:545-556. Nihayatin,L.N. (2013). Perbandingan Uji Homogenitas Pada Data Curah Hujan Di Jawa Timur Sebagai Pra-Pemrosesan Kajian Perubahan Iklim. Tugas Akhir S1: Jurusan Statistika, Institut Teknologi Sepuluh Nopember.

[6] [7] [8]