QF Evidence Pack

Data evidence · interview defense

“데이터는 뭘로 검증하나요?”에 대한 답

이 페이지는 포트폴리오 리뷰에서 나오는 데이터 출처, 과거자료 검증, 논문 근거 질문에 답하기 위한 evidence pack입니다. 현재 데모는 synthetic이지만, 실데이터 확장 시 어떤 공식 자료와 어떤 검증 절차를 쓰는지 명확히 보여줍니다.

No investment advice. This is a validation-design note for a portfolio project.

Architecture diagram
Validation layers 3

1. 공식 소스

재무제표는 OpenDART/DART, 시장자료는 KRX, 거시지표는 ECOS/KOSIS로 매핑합니다.

2. 시간 기준 검증

공시일과 예측일을 분리하고, available_date <= prediction_date 조건으로 미래정보 누수를 막습니다.

3. 문헌 baseline

Altman, Ohlson, Fama-French, Bharath-Shumway 흐름을 참고해 ratio/logit/baseline 비교를 둡니다.

Source mapping

입력 데이터는 어떤 자료로 검증할 수 있나

아래 매핑은 “현재 demo data”가 아니라 “실데이터 확장 시 검증 가능한 기준 소스”입니다.

InputOfficial sourceWhy it is defensibleProject file
재무제표OpenDART / DART상장사 정기보고서 기반 재무정보 API와 기업공시 저장소financial_statement_quarterly.csv
공시 이벤트DART reports분기·반기·사업보고서 및 주요사항보고서 기반 이벤트 추출disclosure_features_quarterly.csv
시장자료KRX Data Marketplace / Open API거래소 시장정보, 가격, 거래량, 통계 데이터market_quarterly.csv
거시경제BOK ECOS / KOSIS중앙은행 및 국가통계포털의 공개 통계 APImacro_quarterly.csv
전자공시 포맷XBRLbusiness reporting을 위한 표준화된 데이터 교환 방식schema / account mapping

Literature anchors

논문 근거는 “완성 모델 인증”이 아니라 baseline 설계 근거

Altman Z-score

재무비율을 이용한 기업 부실/파산 예측의 고전 baseline입니다. 수익성, 유동성, 레버리지 계열 feature를 쓰는 이유를 설명할 수 있습니다.

Ohlson O-score

재무비율 기반의 probabilistic/logit bankruptcy prediction 흐름입니다. risk score를 확률/점수로 내는 방식의 근거가 됩니다.

Fama-French factors

시장, 규모, book-to-market 등 공통 위험요인 문헌입니다. 시장자료와 재무자료를 함께 보는 근거로 사용합니다.

Bharath-Shumway

default prediction에서 복잡한 모델과 단순 baseline의 out-of-sample 비교가 중요하다는 점을 보여줍니다.

Validation protocol

실데이터를 붙이면 이렇게 검증합니다

  1. Source log: API source, report number, report date, retrieval timestamp 저장
  2. Schema validation: 필수 컬럼, 타입, 범위, 중복 키 검사
  3. Point-in-time rule: 예측 시점 이후 공시된 정보는 feature에서 제외
  4. Walk-forward backtest: 과거 분기로 학습하고 이후 분기를 예측
  5. Baseline comparison: dummy, logistic, ratio score, random forest 비교
  6. Calibration & slices: Brier score, calibration, sector별 성능, top-K capture 확인

Interview answer

질문 나오면 이렇게 답하면 됩니다

20초 버전
데이터 근거는 OpenDART/DART, KRX, ECOS/KOSIS 같은 공식 공개 데이터로 잡고 있습니다.
모델 근거는 Altman, Ohlson 같은 financial distress 문헌과 시장위험요인 문헌을 baseline으로 삼습니다.
중요한 건 random split이 아니라 공시일 기준 point-in-time backtest로 미래 정보 누수를 막는 것입니다.
현재 데모는 synthetic이라 실제 성능 주장은 아니고, 실데이터 검증 설계를 보여주는 포트폴리오입니다.
1분 버전
현재 공개 데모는 synthetic data를 사용하지만, 실데이터 확장 시 재무제표는 OpenDART/DART,
시장자료는 KRX, 거시지표는 ECOS/KOSIS에서 가져오도록 설계했습니다.
입력 데이터는 schema validation으로 타입과 범위를 검증하고, report date와 prediction date를 분리해
미래 공시 정보가 feature에 섞이지 않도록 합니다.
방법론적으로는 Altman Z-score나 Ohlson O-score 같은 financial distress baseline을 두고,
ML 모델은 walk-forward validation으로 baseline 대비 성능과 calibration을 확인합니다.

References

검증 근거 링크