데이터 파이프라인 – 1부

< English follows Korean >
데이터 파이프라인이란?
방대한 양의 데이터를 조작하고 처리하는 능력은 많은 조직에서 주요 장애물 중 하나가 되어 보다 효율적이고 시간 효율적인 프로세스를 실행하는 데 어려움을 겪고 있습니다. 해당 데이터가 여러 시스템과 서비스에 존재하는 경우 심층 분석에 적합한 방식으로 결합되어야 합니다.
데이터 파이프라인은 기본적으로 데이터를 한 곳(소스)에서 대상으로 이동하여 유용한 변환 및 최적화를 수행하는 데 필요한 단계입니다. 최종 형태에서는 해당 데이터가 데이터 웨어하우스와 같은 적절한 시스템에 속하므로 분석가 및 이해 관계자가 비즈니스 통찰력을 발전시킬 수 있게 만듭니다.
현대의 데이터 파이프라인은 자동화 및 클라우드 기술에 의존하여 프로세스를 더욱 견고하게 만들고 장애에 대한 복원력을 제공합니다. 일반적으로 소스, 대상, 변환, 처리 및 모니터링으로 구성됩니다. 상단에서는 전체 프로세스가 일관되도록 명확하게 설명해야 하며, 데이터 소스들과 단계는 우선순위에 따라 실행됩니다. 이것은 보통 오케스트레이터라고 불리는 추가 레이어에 의해 달성됩니다.
자이랜드에게 이것은 왜 중요한가 ?
자이랜드에서는 모든 프로세스의 최적의 성능을 위해 노력하고 있습니다. 따라서 데이터 파이프라인은 이 목표를 달성하는 데 가장 유용한 도구 중 하나입니다. 여정의 시작에서 데이터 조작의 대부분은 분석가가 올바른 완료와 결과를 감독하는 스크립트를 수동으로 실행하는 방식으로 수행되었습니다.
이 프로세스는 시간이 많이 소요되지만, 저희 기술의 핵심인 끊임없이 변화하는 머신 러닝(ML) 모델의 유연성을 확보하고 미세 조정을 하기 위해 필요했습니다. 이제 많은 모델이 구축되고, 저희는 데이터 파이프라인을 확장하여 더 많은 데이터 소스를 포함하고 전체 데이터 추출, 변환 및 로드(ETL) 프로세스 (추가 설명) 를 자동화하고 있습니다.
이를 통해 데이터에 대한 가시성을 높이고 주어진 ML 모델을 업데이트의 소요시간을 단축할 수 있습니다. 이 도구를 통해 자이랜드는 ML 모델 업데이트에 걸리는 시간을 단축하고 역동성이 높은 부동산 시장에서 최신 예측을 제공할 수 있습니다.
자이랜드는 2022년 5월 ‘Google for Startups Cloud Program‘에 승인된 이후 구글 클라우드를 클라우드 플랫폼으로 사용하기로 하고 빅쿼리를 위한 데이터 파이프라인 마이그레이션 프로세스 개발에 착수했다. Google Cloud에 대한 참조링크: https://cloud.google.com/bigquery/docs/migration/pipelines?hl=ko
자이랜드의 페이스북과 링크드인 페이지에서 데이터 파이프라인에 대한 추가 게시물들을 공유하고 있습니다. 자이랜드의 고객과 파트너가 한국 부동산 시장에 대해 일관되고 최신 부동산 평가를 받을 수 있는 보유 기술을 공유할 수 있어 매우 기쁘게 생각합니다.
Data Pipelines – Part 1
What is a Data Pipeline?
The ability to manipulate and process massive amounts of data has become one of the main obstacles for many organizations, making it challenging to run more efficient and time-effective processes. When that data resides in multiple systems and services, it needs to be combined in ways that make sense for in-depth analysis.
A data pipeline essentially is the steps necessary for moving data from one place –the source– to a destination, making useful transformations and optimizations along the way. In its final form, that data will reside in a suitable system, such as a data warehouse, allowing analysts and stakeholders to develop business insights.
Modern data pipelines rely on automation and cloud technologies to make the process more robust and provide resiliency against failure. Typically, they are composed of a source, a destination, transformation, processing and monitoring. At the top, you need to articulate the whole process so that it is consistent, and the data sources and steps are executed according to their precedence. This is achieved by an extra layer usually called the orchestrator.
Why is a data pipeline important for XAI Land?
At XAI Land, we strive for optimal performance in all our processes; therefore, a data pipeline is one of the most useful tools to achieve this goal. At the beginning of the journey, much of the data manipulation was performed by running a script manually, where an analyst supervised the correct completion and outcome.
This process is highly time-consuming; however, this was necessary in order to gain flexibility and fine-tune the ever-changing Machine Learning (ML) models –that are at the core of our technology. Now that many of our models are established, we are extending our data pipeline to include more data sources and automate the whole data extraction, transformation, and loading (ETL) process.
This will allow us to gain more visibility of the data and shorten the time it takes to update any given ML model. With this tool, XAI Land will be able to decrease the time it takes to update the ML models and provide the most up-to-date prediction in the highly dynamic real estate market.
Since XAI Land was accepted to Google for Startups Cloud Program in May 2022, XAI Land has decided to use Google Cloud as its cloud platform and has begun developing its data pipeline migration process for BigQuery. Read more about this from Google Cloud here: https://cloud.google.com/bigquery/docs/migration/pipelines
Please follow XAI Land’s Facebook and LinkedIn pages as we will be sharing additional posts about our Data Pipeline as we complete its development as we are excited to share what technology we’re building to ensure our customers and partners will be receiving consistent and up to date real estate valuations for South Korea’s real estate market.