Version Control Dataset
Prompt untuk mengelola versi dataset penelitian secara sistematis
Prompt
Bantu saya menyusun sistem version control untuk dataset penelitian:
- Jenis data: [tabular/citra/teks/multimedia/campuran]
- Ukuran dataset: [MB/GB/TB]
- Jumlah anggota tim yang mengakses: [jumlah]
- Tools saat ini: [manual/Git/DVC/cloud storage/lainnya]
- Frekuensi update data: [harian/mingguan/batch per fase]
Buatkan SOP version control yang mencakup:
1. Naming Convention:
- Format penamaan file: `[project]_[deskripsi]_v[major].[minor]_[YYYYMMDD].[ext]`
- Contoh konkret untuk proyek saya
- Aturan kapan increment major vs minor version
2. Struktur Folder:
- Organisasi folder raw → processed → analysis → output
- Folder archive untuk versi lama
- README di setiap level folder
3. Changelog:
- Template changelog per versi dataset
- Apa saja yang harus dicatat (perubahan, alasan, siapa)
4. Backup Strategy:
- 3-2-1 rule: 3 salinan, 2 media, 1 offsite
- Jadwal backup otomatis
- Cara verifikasi integritas backup (checksum)
5. Tools yang Direkomendasikan:
- Untuk dataset kecil-menengah: Git + DVC
- Untuk dataset besar: cloud storage versioning
- Untuk tim: shared drive dengan lock mechanism
6. Audit Trail:
- Log siapa mengakses/mengubah data kapan
- Cara merestore versi sebelumnya jika terjadi kesalahan
Kapan Digunakan
- Di awal proyek saat menyiapkan infrastruktur data
- Saat tim riset bertambah dan butuh koordinasi akses data
- Saat terjadi insiden kehilangan atau kerusakan data
Cara Menggunakan
- Deskripsikan setup data management Anda saat ini
- AI akan menyusun SOP version control yang sesuai
- Implementasikan naming convention dan struktur folder
- Sosialisasikan SOP ke seluruh anggota tim riset