Pipelines
Photo by acceldata
파이프라인은 데이터 전처리와 모델링 코드를 만드는데 심플한 방식이다. 특별히, 파이프라인은 전처리와 모델링 단계를 번들로 제공하여 번들이 하나의 단계처럼 사용할 수 있다. 많은 데이터 사이언스들이 파이프라인 없이 모델링을 마구하지만, 파이프라인은 중요한 장점들이 있다.
1.Clean Code: 데이터 전처리의 각 단계를 설명하는 것은 지저분해질 수 있다. 파이프라인을 사용하면 각 단계의 training 과 validation 데이터를 수동으로 추적할 필요가 없다.
2.Fewer Bugs: 단계를 빼먹거나 또는 전처리 단계를 잊어버릴 기회가 줄어든다.
3.Easier to Productionize: 프로토타입에서 대규모 개발단계로 전화하는 것은 매우 어려울 수 있다. 하지만 파이프라인은 이것을 도와줄 수 있다.
4.More Options for Model Validation: 교차검증을 다루는 옵션들이 있다.
출처: kaggle
Leave a comment