전체기사

2025.10.03 (금)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공

e-biz

셀렉트스타, 1억 3천만건 AI 학습데이터 구축 프로젝트 분석 결과 발표

URL복사

한국어 데이터셋 진화 중, 초개인화 추천 연구개발 활발

 

[시사뉴스 김남규 기자] 셀렉트스타가 인공지능(AI) 학습데이터 구축 트렌드를 담은 ‘셀렉트스타 인공지능 인사이트’를 9일 발표했다.

 

인공지능 학습데이터 플랫폼인 셀렉트스타는 지난 2018년부터 올해 상반기까지 약 5년간 14개 분야의 데이터를 수집·가공했다. 프로젝트 금액이 큰 순으로 보자면, ▲언어(40.2%) 카테고리가 가장 컸다. 이어서 ▲뷰티(6.4%) ▲예술(5.6%) ▲사람(5.3%) ▲건강(4.4%) ▲동물(4%) ▲자동차(3.8%) ▲식품(3.7%) 순이었다.

 

셀렉트스타가 발표한 인사이트 자료에 따르면, 언어 데이터는 주로 자연어 처리(NLP)나 자연어 이해(NLU)에 활용됐다. NLP와 NLU는 스마트 어시스턴트, 음성 인식, 검색 결과, 언어 번역, 텍스트 분석, 키워드 분석 등 활용 범위가 넓은 것이 특징이다. 한편 초기 AI가 단순하게 문구 또는 문서를 인식했다면, 이제는 사람의 감정이나 특징(사투리, 악플 등)까지 파악이 가능하다고 셀렉트스타 측은 설명했다. 음성 AI도 초기에는 단순히 언어를 인식하는 것에서 출발했지만, 이제는 인식에서 나아가 사람의 감정을 읽거나 표현하는 단계로 진화하고 있다.

 

2020년 전후로 AI 기반 초개인화 기술의 연구개발도 활발해졌다. 시장의 중심이 판매자에서 구매자로 옮겨갔고 온라인 구매가 증가하면서 추천, 고급 검색, 채굴, 매칭 알고리즘 등 초개인화 AI 개발과 고도화를 위한 학습용 데이터 수집·가공의 필요성이 커졌다. 특히 AI 기술 기반으로 시장에 뛰어든 스타트업이 늘어나면서 다양한 분야의 학습데이터가 구축되고 있다. 예컨대 셀렉트스타는 ▲개인 취향 맞춤 의류 추천 AI를 위한 의류 및 패션 이미지 태깅 데이터셋 ▲소비자 만족도 분석 AI를 위한 상품 리뷰 데이터셋 ▲음악 리뷰에 대한 감정 태깅 데이터셋 ▲건강 관리 AI를 위한 홍채 이미지 라벨링 데이터셋 ▲코로나19 시대 안면 인식을 위한 마스크 착용 사진 수집 및 라벨링 데이터셋 등을 구축한 바 있다. 다만 현재까지 국내 시장은 PoC(기술검증) 형태의 시도가 중심인데, 이는 서비스나 사업의 성공에서 ‘AI 성능’ 보다는 다른 요인의 영향이 비교적 크기 때문이라는 게 셀렉트스타의 분석이다.

 

신호욱 셀렉트스타 대표는 “셀렉트스타는 인공지능을 개발하는데 필수적인 ‘정확하고 일관된 학습데이터’를 생산하는 회사이면서 200개 이상의 타사와 협업을 통해 어떤 회사에서 어떤 인공지능을 만드는지 파악할 수 있기 때문에 이번 인사이트 자료를 발표할 수 있었다”고 설명했다. 이어 “AI 성능 향상은 데이터의 생산 및 관리 수준 규모와 비례한다”며 “AI Transformation이 전 세계적인 트렌드인 만큼 국내 AI 시장의 잠재력도 높다”고 강조했다.

 

셀렉트스타 인공지능 인사이트에 대한 자세한 내용과 파일 다운로드는 셀렉트스타 공식 블로그에서 확인 가능하다.

저작권자 Ⓒ시사뉴스
제보가 세상을 바꿉니다.
sisa3228@hanmail.net





커버&이슈

더보기

정치

더보기
윤호중 행안장관 "중요 정보시스템 이중화, 예산 7천억~1조 소요 예상"
[시사뉴스 홍경의 기자] 윤호중 행정안전부 장관이 지난 1일 국회 행정안전위원회 국정자원 현안질의에서 국가정보자원관리원(국정자원)에서 관리하는 주요 핵심 정보시스템들을 양쪽 센터에서 동시에 가동하는 방식으로 이중화할 경우 7000억원에서 1조원의 예산이 필요하다고 밝혔다. 윤 장관은 "지금 파악하기로는, 대전센터에 있는 30여개의 1등급 정보시스템을 액티브-액티브 방식으로 구축하면, 7000억원 정도가 소요된다"고 말했다. 이어 "공주센터까지 포함하면 (예산이) 1조원이 넘는다"고 덧붙였다. 액티브-액티브는 한쪽에서 장애가 발생하더라도 다른 쪽이 즉시 서비스를 이어받아 중단 없이 운영할 수 있는 체계로, 두 센터가 실시간으로 데이터를 주고받으며 동시에 가동되는 구조다. 정부는 정보시스템을 중요도에 따라 1~4등급으로 나눠 관리하고 있다. 1등급은 국민 생활과 직결된 정보시스템으로, 정부24 등이 포함돼있다. 윤 장관은 이 방식이 막대한 예산이 소요되는 만큼, 민간에서 사용하는 클라우드 등을 활용하는 방안도 고려해보겠다고 했다. 윤 장관은 "보안 문제나 이런 문제를 해결한다면 민간 자원을 리스(임차) 형태로 활용하는 방법도 있을 수 있다"며 "로드맵을 마련하기

경제

더보기

사회

더보기

문화

더보기

오피니언

더보기
【박성태 칼럼】 디지털 약자들의 정보격차 어떻게 해소할 것인가
스마트폰 하나만 있으면 은행 업무부터 병원 예약, 대중교통 이용, 행정 서비스까지 해결되는 시대다. 그러나 이 편리함은 상대적으로 디지털 정보활용 취약계층에게는 새로운 장벽이 되곤 한다. 각종 기관의 창구 업무는 줄어들고 키오스크 등 디지털 기기만 늘어나고 있다. 디지털 전환은 이제 선택이 아닌 생존의 문제다. 전자정부, 모바일뱅킹, 온라인쇼핑, 스마트농업 등 대부분의 사회·경제 활동이 디지털을 기반으로 이뤄지는 시대다. 하지만 모두가 그 혜택을 고루 누리고 있는 것은 아니다. 노인뿐 아니라, 전업주부, 저학력자, 농촌 거주자, 장애인 등 이른바 ‘디지털 정보취약계층’은 여전히 정보 불평등의 사각지대에 놓여 있다. 이러한 정보격차는 단순한 ‘기술 접근’의 문제가 아니다. 기기 사용 능력의 부족, 낮은 디지털 문해력, 인프라 격차, 생활환경의 한계 등이 복합적으로 작용한다. 정보에 대한 접근 권한과 활용 능력이 결여되면 일상적인 서비스 이용은 물론, 경제 활동, 교육 기회, 복지 접근까지 제한받는다. 디지털 기술이 사회를 더 평등하게 만들기는커녕, 오히려 기존의 격차를 심화시키는 역설적 결과가 나타나고 있는 것이다. 특히, 지방의 중장년층 여성이나 농민, 저학