주행데이터를 효율적으로 분석하기 위한 방법으로 Uber에서 개발한 공간 인덱스 시스템인 H3를 소개하고,
이를 통해 운전자의 라이프스타일과 운전 습관을 데이터 기반으로 파악하는 접근법을 제안한다.
특히, H3로 변환된 데이터는 R, Tableau나 Kepler.gl ( H3 | kepler.gl )같은 시각화 툴과 쉽게 연계되어 공간적 시각화 분석에 매우 효과적이다.
H3란 무엇인가?
H3는 Uber에서 만든 위치정보 처리 시스템으로, 지구 전체를 여러 개의 육각형 셀(Hexagon)로 나누어 효율적으로 위치 데이터를 관리하는 기술이다.
기존 위경도(Latitude/Longitude) 방식과 달리, 위치 데이터를 육각형 형태의 고정된 단위로 관리하기 때문에 데이터 처리와 분석이 쉽고 빠르다.
왜 육각형인가?
Uber가 H3에서 육각형을 선택한 이유는 다음과 같다.
- 효율적인 공간 분할: 육각형은 공간을 빈틈없이 효율적으로 덮을 수 있다. 사각형과 달리, 각 셀 중심점 간의 거리가 균등하게 유지되므로 인접 셀 간 이동 분석이 정확해진다.
- 거리 및 인접 관계의 용이성: 육각형 구조는 주변 셀과 거리를 계산하거나, 인접한 지역과의 연산을 쉽게 한다.
- 효율적인 연산: 육각형 셀은 인접한 셀 간의 이동을 빠르게 계산 가능하게 하여 연산의 효율성을 높인다.
왜 H3를 써야 하는가?
H3를 활용하면 공간정보를 더 효율적으로 저장하고 분석할 수 있다. 방대한 GPS 데이터를 H3 단위로 변환하면 위치 기반 분석이 단순화되고 성능이 향상된다.
- H3는 Resolution(해상도)을 1~15까지 설정할 수 있어, 분석 목적에 따라 상세도와 분석 범위를 자유롭게 조정할 수 있다.
- H3로 변환된 데이터는 Tableau, Kepler.gl 등 공간 분석 시각화 툴을 사용하여 직관적으로 시각화할 수 있다. 특히 Kepler.gl과 같은 지리 시각화 도구는 H3를 기본적으로 지원해 데이터 탐색과 인사이트 도출이 더욱 쉬워진다.

7 | 약 3.66km² | 도시 간 이동 분석 |
8 | 약 1.46km² | 지역 단위 패턴 분석 |
9 | 약 0.46km² | 도로, 시설 수준 분석 |
10 | 약 0.18km² | 정밀 분석(학교, 병원 등) |
H3 Resolution 12와 9를 기준으로 분석을 진행하였다.
주행 데이터를 H3로 분석한 목적과 이유
주행 데이터를 H3로 변환하여 분석한 목적은 아래와 같다.
- 방대한 주행 데이터를 효율적으로 처리하기 위함이다.
- 위경도 좌표만으로는 발견할 수 없었던 의미 있는 주행 패턴(출퇴근, 자녀 유무, 운전습관 등)을 찾고자 했다.
- 최종적으로는 운전자의 행동을 이해하여 더 나은 상품을 기획하거나, 주행습관 개선을 위한 인사이트를 얻기 위함이다.
주행데이터 분석 시나리오
다음은 H3로 변환한 주행 데이터를 활용하여 분석 가능한 대표적인 시나리오이다.
1. 출퇴근 패턴 분석
출퇴근을 하는 운전자를 파악하기 위해 특정 셀(H3)에서 정기적인 출발과 도착이 반복적으로 발생하는지를 확인한다.
2. 주말과 평일의 이동 패턴 비교
H3 기반으로 분석하면 주말과 평일에 방문하는 위치의 차이를 쉽게 비교하여 사용자 행동 패턴을 파악할 수 있다.
3. 특정 시설 방문 분석 (병원, 학교 등)
H3로 변환된 위치 데이터를 특정 시설(POI)과 매칭하여 사용자가 자주 방문하는 시설과 목적을 분석한다. 예를 들어 학교를 자주 방문하는 경우 자녀 유무를 간접적으로 파악할 수 있다.
4. 급가속, 급감속 구간 탐색 (스쿨존 포함)
특정 H3 셀에서 과속 및 급가속, 급감속이 자주 발생하는지 확인해 운전자의 운전 습관 및 안전성을 평가할 수 있다.
5. 장거리 운전 여부 탐지
전체 주행의 소요시간이나 이동한 H3 셀 수를 분석해 장거리 운전 여부를 쉽게 판단할 수 있다.
6. 야간 운전 빈도 분석
야간 시간대에 자주 이동하는 사용자 패턴을 탐색하여 운전자의 생활 패턴과 위험도를 평가할 수 있다.
6. 도로 유형(고속도로 vs 일반도로) 분석
고속도로와 일반도로의 주행 비율을 분석하여 사용자의 운전 습관이나 주행 목적을 확인할 수 있다.
분석의 한계점과 추가로 필요한 데이터
분석 시나리오 중, 속도 변화량이나 위험운전(칼치기) 분석 등은 현재 보유한 데이터로는 수행하기 어렵다. 속도를 분석하려면 거리와 시간 정보가 정확히 필요하지만, 현재 데이터는 주행거리 정보가 부족하기 때문이다. 따라서 속도 기반 분석을 진행하려면 추가로 위치 간의 거리정보를 확보하거나, H3 좌표를 위경도로 변환하여 거리 계산이 필요하다.
결론: H3 분석을 통해 얻을 수 있는 가치
본 글에서 소개한 방법으로 방대한 운전 데이터를 H3 인덱스를 활용하여 효율적으로 분석하고 의미 있는 패턴을 찾을 수 있다. 이 방법은 다음과 같은 분야에서 적극적으로 활용 가능하다.
- 기업의 개인별 맞춤형 상품 개발 (주행 습관 기반 요금 책정)
- 모빌리티 기업의 고객 행동 분석 및 개인화 마케팅 활용
- 운전자 습관 교정을 위한 인사이트 제공 및 안전 운전 촉진
공간 데이터를 다루는 조직이나 개인은 위 방법론을 참고하여 효율적이고 실용적인 분석을 수행할 수 있을 것으로 기대한다.
'IT > 빅데이터' 카테고리의 다른 글
[현장 후기] Microsoft AI Tour 2025 – 하루 종일 AI에 푹 잠기다 (1) | 2025.03.26 |
---|---|
Data Platform & Engineering 프로젝트의 현실과 개발자의 경험 (3) | 2025.03.04 |
SM 프로젝트의 현실과 개발자의 경험 (2) | 2025.03.03 |
SI 프로젝트의 현실과 개발자의 경험 (2) | 2025.03.02 |
HDInsight + Trino vs EMR + Iceberg, 현실적인 선택은? (0) | 2025.02.25 |