딸기 숙성 전후 당도 및 품질 평가 데이터셋

Strawberry ripening sweetness and quality evaluation dataset

author1^*, author2

제1저자:author1· 교신저자

제2저자:author2

Abstract

본 데이터셋은 기타 분야의 데이터로, 총 200개의 행과 8개의 변수로 구성된다. 결측률은 0.0%이며, 4개의 설계 변수와 3개의 결과 변수를 포함한다. 본 데이터셋은 학술 분석과 교육 목적의 재사용을 염두에 두고 정리되었다.

1. Background

본 데이터셋은 기타 분야의 데이터로, 총 200행 × 8열로 구성된다. 주요 변수: 딸기 샘플 ID, 품종, 출하월, 과중(g), 당도(Brix), 숙성 후 당도(Brix), 등급(1–7), 숙성 후 등급(1–7). 본 데이터셋은 기타 분야의 표 형식 관측 자료를 정리한 것으로, 동일 주제의 후속 분석과 비교 가능한 기준 자료를 제공하는 것을 목적으로 한다.

2. Methods

200건의 관측치를 결측·중복·이상값 점검을 거쳐 정제한 결과이며, 세부 수집 절차는 별도 방법론 문서에 따른다. 수집된 자료는 결측·중복·이상값 점검을 거쳐 정제하였으며, 최종 데이터셋은 200건의 관측치로 구성된다.

3. Data Records

본 데이터셋은 단일 XLSX 파일로 제공되며, 총 200행과 8개의 열로 구성된다. 각 행은 개별 관측 단위의 기록을 나타낸다. 변수는 다음과 같다: 딸기 샘플 ID, 품종, 출하월, 과중(g), 당도(Brix), 숙성 후 당도(Brix), 등급(1–7), 숙성 후 등급(1–7). 결측값은 존재하지 않는다.

4. Variables

각 변수의 이름·자료형·척도·단위·정의는 본 논문의 변수 정의 표에 따른다. 명목·순서·등간·비율 척도가 변수 특성에 맞게 부여되었고, 식별·설계·결과 역할이 변수별로 명시되어 있다.

5. Validation

데이터의 기술적 검증은 다음 절차로 수행하였다: (1) 결측값 검사 (결측률 0.0%), (2) 변수별 평균·표준편차·범위 산출, (3) 범주형 변수의 빈도 점검, (4) 변수 자료형 일관성 점검.

6. Code Availability

데이터 생성·정제·분석에 사용된 코드의 공개 위치는 추후 보완한다. Python (pandas, NumPy 등) 또는 R 환경에서 표 형식 자료를 그대로 읽어 분석할 수 있다.

7. Data Access

본 데이터셋은 저자회원 이상 수준으로 공개되며, CC BY 4.0 라이선스 하에 이용 가능하다. 데이터 다운로드는 본 논문에 연결된 데이터셋 아카이브 페이지(D2)에서 진행할 수 있다.

8. Usage

본 데이터셋은 기술통계, 가설검정, 회귀분석, 분류·예측 모델링 등 데이터사이언스 교육과 연구에서 재사용할 수 있다. 순서형 변수는 평균 해석 시 척도 특성을 고려해야 한다.

9. Limitations

본 데이터셋은 200개의 표본으로 구성되어 있어, 모집단 전체로의 일반화 시 표본 크기 제약을 고려해야 한다. 또한 변수 간 인과관계를 결정하는 데에는 추가적인 실험설계가 필요하다.

10. Future Work

향후 본 데이터셋을 기반으로 다음과 같은 후속 연구가 가능하다: (1) 표본 수 확장 및 외부 데이터와의 결합, (2) 시계열적 변화 추적, (3) 머신러닝 기반 예측 모델 개발 및 검증.

11. Conclusion

본 논문은 본 데이터셋의 구조와 변수 특성을 기술하였다.

12. Acknowledgements

본 데이터셋 구축에 협조해 주신 모든 관계자분들께 감사드린다.

13. Conflicts of Interest

저자들은 본 데이터셋과 관련하여 보고할 이해상충이 없음을 밝힌다.

References

1.데이터셋 출처 및 관련 문헌은 추후 보완해 주세요.