′AI로 오디오 음원 분석′…명확한 음성 전달 음량 자동제어기술 개발

'AI로 오디오 음원 분석'…명확한 음성 전달 음량 자동제어기술 개발

하수은 기자 / 기사승인 : 2019-03-26 10:19:21

[일요주간 = 하수은 기자] 전자부품연구원(KETI)은 인공지능(AI)으로 오디오 음원을 분석해 보다 명확하게 음성을 전달하는 음량 자동제어기술을 개발했다고 26일 밝혔다.

KETI에 따르면 지난 2016년 5월 방송법 개정으로 방송프로그램의 평균음량이 LKFS 기준 (-)24dB로 통일됐다. LKFS란 디지털 방송프로그램 음량측정 기준으로 실제 소리에너지 값을 사람 귀에 들리는 상대적인 크기를 고려해 변환시킨 표준 단위이다. (-)값이 작을수록 큰 소리를 의미한다.

▲ 오디오 콘텐츠 변환 솔루션 시제품 동작 모습. (KETI 제공)

KETI가 개발한 ‘AI기반 오디오 음원분석 및 자동 음량 실시간 제어기술’은 딥러닝을 활용한 CNN 기반 알고리즘이다.

KETI 관계자는 “콘텐츠 내 소리를 400ms 단위로 육성, 묵음, 배경음, 혼합음 등의 클래스로 구분하고, 클래스에 따라 맞춤형으로 음량을 제어하도록 고안됐다”고 설명했다.

CNN(Convolutional neural networks)이란 지능신경망 종류다. 주로 매트릭스 데이터나 이미지 데이터의 특징 추출에 활용된다.

단위구간별 소리는 직전 단위구간과의 연속성 차원에서 조절된 음량이득, 이전 동일 클래스와의 연계성 차원에서 조절된 음량이득 및 평균음량을 (-)24dB로 맞추기 위한 육성·배경음·혼합음 등 클래스별 조절된 음량이득 등을 고려해 실시간으로 제어, 출력된다.

음량이득은 원음의 음량을 의도적으로 증폭 또는 감쇄시킨 정도를 말한다. 웅얼거리는 듯 들릴 수 있는 대사음량은 키워주고, 과도한 배경음향은 줄인다.

이에 따라 기존 콘텐츠의 음성 명료도를 개선하고 급등락하는 소리의 상대적 편차를 줄여 편안한 청취 환경을 제공하는 동시에 라이브방송에도 평균음량 규정을 실시간으로 맞출 수 있는 장점이 있다.

김제우 KETI 지능형영상처리연구센터 수석은 “이번 기술개발로 100% 해외의존 중인 실시간 음량제어 방송장비의 국산화가 기대된다”며 “디지털 방송은 물론 인터넷 개인방송과 소셜 미디어 등 퍼스널 미디어시장이 지속성장하고 있어 앞으로 편안한 시청환경 구축에 KETI 기술이 활용될 것”이라고 기대했다.