Digital Transformation Conversation Intelligence

AI 회의록 솔루션 검토 시 알아두면 좋은 개념들

AI 회의록 솔루션 도입을 고민하시나요? STT, 키워드 부스팅, 화자 분리 등 AI 회의록에 들어가는 핵심 기술의 개념부터 실제 검토 시 중요한 포인트까지 실무자를 위한 완벽 가이드를 제공합니다.

Nov 27, 2024

Contents

1. STT(Speech-to-Text) 기술 2. 키워드 부스팅 (Word Boosting)3. 화자 분리 (Speaker Diarization)4. STT 정확도 (Speech Recognition Accuracy)5. ITN (Inverse Text Normalization)그 밖에 알아두면 좋은 개념들

최근 ChatGPT, Claude와 같은 생성형 AI의 발전으로 AI 회의록 솔루션에 대한 관심이 높아지고 있습니다. 특히 기업들은 단순히 회의 내용을 텍스트로 기록하는 것을 넘어, AI를 활용해 회의록 작성을 자동화하고 업무 효율을 높이려 하고 있죠. 하지만 막상 AI 회의록 솔루션을 검토하려고 하면, STT 정확도나 화자 분리와 같은 기술적인 용어들 때문에 혼란스러울 수 있습니다.

이 글에서는 AI 회의록 솔루션을 검토할 때 자주 언급되는 주요 기술 개념들을 알아보고, 실제로 이러한 기능들이 AI 솔루션을 검토하고 선택할 때 얼마나 중요한지 살펴보겠습니다. 특히 LLM(Large Language Model)의 발전으로 인해 달라진 AI 회의록의 환경을 고려하여, 실무자들이 제품 검토 시 정말 중요하게 봐야 할 포인트가 무엇인지 함께 이야기해보도록 하겠습니다.

1. STT(Speech-to-Text) 기술

AI 회의록 솔루션의 구조를 이해하기 위해서는 먼저 STT 기술에 대한 이해가 필요합니다. STT는 Speech-to-Text의 약자로, 음성을 텍스트로 변환하는 기술을 의미합니다. 모든 AI 회의록 솔루션은 이 STT 기술을 기반으로 작동하는데요, 회의 참석자들의 음성을 텍스트로 변환하는 것이 회의록 작성의 첫 단계이기 때문입니다.

예를 들어 회의에서 "이번 프로젝트의 목표는 3월까지 베타 버전을 출시하는 것입니다"라는 발언이 있었다면, STT 기술이 이 음성을 텍스트로 변환하고, 그 후에 AI가 이 텍스트를 기반으로 회의록을 작성하게 됩니다. 즉, STT는 AI 회의록 솔루션의 기본 토대가 되는 필수 기술이라고 할 수 있습니다.

따라서 좋은 STT 기술을 보유한 회사가 더 정확하고 신뢰할 수 있는 AI 회의록 솔루션을 제공할 수 있습니다. STT는 회의록 작성의 첫 단계이자 가장 기본이 되는 기술이기 때문에, 음성 인식의 정확도가 떨어진다면 아무리 뛰어난 AI 요약 기능을 가지고 있더라도 좋은 품질의 회의록을 기대하기는 어렵기 때문입니다. 예를 들어 한국어에 특화된 자체 STT 엔진을 보유하고 있는 리턴제로의 경우, 한국어 STT 성능이 타 기술 대비 뛰어나기 때문에 한국어 미팅에 최적화된 STT 기술을 제공할 수 있죠.

2. 키워드 부스팅 (Word Boosting)

키워드 부스팅은 AI 회의록 솔루션의 STT 과정에서 특정 단어나 문구의 인식 우선순위를 높이는 기능입니다. 예를 들어 "메타버스"라는 단어가 "매타보스"로 잘못 인식되거나, "Azure"가 “애조” 등으로 인식되는 경우가 있는데요. 이런 경우 해당 단어를 시스템에 미리 등록해두면 정확한 단어로 인식될 확률이 높아집니다. 기술적으로는 음성이 텍스트로 변환되는 과정에서, 등록된 키워드와 유사한 발음이 감지되면 해당 키워드에 가중치를 부여하여 우선적으로 인식하는 방식으로 작동합니다.

특히 기업 환경에서는 회사명, 제품명, 산업 특화 용어 등이 정확하게 인식되어야 하는 경우가 많습니다. IT 기업이라면 "API", "UI/UX", "DevOps"와 같은 기술 용어들이, 금융권이라면 "레버리지", "헷지펀드"와 같은 금융 용어들이 정확히 인식되어야 하죠. 키워드 부스팅은 이러한 전문 용어들의 인식 정확도를 높여주는 AI 회의록 솔루션의 핵심 기능입니다.

callabo-keyword-boosting — 콜라보와 같은 AI 회의록 솔루션에서는 거의 대부분 키워드 부스팅 기능을 제공합니다.

AI 회의록 솔루션을 검토할 때 키워드 부스팅은 특히 중요한 검토 요소입니다. 아무리 뛰어난 AI라 하더라도 특정 산업이나 회사에서만 사용하는 고유 명사나 전문 용어를 완벽하게 이해하기는 어렵기 때문입니다. 따라서 제품 검토 시에는 반드시 키워드 부스팅 기능의 존재 여부와 함께, 얼마나 쉽게 새로운 키워드를 등록하고 관리할 수 있는지 확인해보시기를 추천드립니다. 특히 팀 단위로 키워드를 관리할 수 있는지, 키워드 등록에 제한이 있는지 등을 꼼꼼히 살펴보는 것이 좋습니다.

3. 화자 분리 (Speaker Diarization)

화자 분리는 녹음된 음성에서 발화자를 구분하는 기술입니다. 예를 들어,

화자 1: “이번 프로젝트의 일정이 어떻게 되나요?"
화자 2: “3월까지 완료하는 것이 목표입니다”

와 같이 각 발언자를 구분하여 기록하는 기술입니다. 기술적으로는 각 화자의 목소리 특성을 분석하여 서로 다른 발화자를 식별하고, 이를 텍스트 변환 과정에서 구분하여 표시하는 방식으로 작동합니다.

callabo-speaker-diarizaion — 콜라보는 자동으로 발화자를 분리해내고, 각 발화자별 대화 비율을 측정해 개선점을 제시합니다.

여기서 주의할 점은, 화자 분리 기술은 단순히 서로 다른 화자를 구분하는 것이지 특정 화자가 누구인지 식별하는 기술은 아니라는 점입니다. 예를 들어 "이 목소리가 김부장님의 것이다"라고 특정하는 것은 성문 인증(Voice Authentication) 기술의 영역이며, 대부분의 AI 회의록 솔루션은 이러한 기능을 제공하지 않습니다. 성문 인증은 개인정보 보호 측면에서 민감정보로 분류될 수 있는 생체 인증에 해당하며, 이를 위해서는 사전에 각 사용자의 음성 데이터를 수집하고 저장해야 하는 등 법적, 기술적 부담이 크기 때문입니다.

화자 분리는 회의록 작성 과정에서 발화자들을 구분하여 대화의 흐름을 파악하는 데 도움을 주는 보조적인 기능입니다. 예를 들어 "화자1"과 "화자2"를 구분함으로써 서로 다른 사람들의 의견 교환이나 질의응답 과정을 더 명확하게 이해할 수 있게 해줍니다. 이는 회의록을 검토할 때 맥락을 파악하는 데 유용한 정보를 제공합니다.

하지만 AI 회의록 솔루션을 검토할 때 화자 분리 기능의 완벽성을 너무 중요하게 생각할 필요는 없습니다. 현재 기술 수준에서는 여러 명이 동시에 말하거나, 비슷한 목소리를 가진 화자를 완벽하게 구분하는 것이 쉽지 않기 때문입니다. 대신 화자 분리 결과가 회의록의 품질에 심각한 영향을 끼치는지, 분리된 화자의 이름을 쉽게 바꿀 수 있는 지 등을 체크하는 것이 좋습니다.

4. STT 정확도 (Speech Recognition Accuracy)

받아쓰기 정확도는 음성을 텍스트로 변환할 때 얼마나 정확하게 변환하는지를 나타내는 지표입니다. 예를 들어 "오늘 회의에서는 2024년 사업계획을 논의하겠습니다"라는 음성이 정확히 같은 문장으로 변환된다면 100% 정확도를 보이는 것이죠. 일반적으로 받아쓰기 정확도는 WER(Word Error Rate, 단어 오류율)이라는 지표로 측정됩니다.

하지만 흥미로운 점은, AI 회의록 솔루션을 검토할 때 받아쓰기 정확도는 생각만큼 중요한 지표가 아니라는 것입니다. 이는 최근 LLM(Large Language Model)의 발전 덕분입니다. 예를 들어 "오늘 회의에서는 이천이십사년 사업게획을 논의하겠습니다"처럼 일부 오류가 있더라도, LLM은 문맥을 이해하고 이를 정확한 회의록으로 변환할 수 있습니다.

실제로 대부분의 AI 회의록 솔루션들은 기술 발전으로 인해 90% 이상의 받아쓰기 정확도를 보여주고 있지만, 이보다 더 중요한 것은 최종적으로 만들어지는 회의록의 품질입니다. 회의 내용을 정확하게 요약하고, 주요 논의사항과 결정 사항을 잘 추출해내는 능력이 더 중요한 평가 기준이 되는 것이 좋습니다. 따라서 AI 회의록 제품 검토 시에는 받아쓰기 정확도보다는 실제 회의록 결과물의 품질을 중점적으로 확인하는 것이 더 중요합니다.

callabo-summary — 실제 전문용어나 제품명이 많이 포함된 세일즈 미팅을 콜라보로 요약한 예시

5. ITN (Inverse Text Normalization)

ITN은 음성을 텍스트로 변환할 때 숫자, 날짜, 시간 등을 읽기 좋은 형태로 변환해주는 기술입니다. 예를 들어 "이천이십사년 삼월 이십일"이라는 음성을 "2024년 3월 21일"로, "오후 세시 삼십분"을 "15:30"으로 변환하는 것이죠.

얼핏 보기에는 단순해 보이지만 실제로는 매우 복잡한 과정을 거칩니다. 예를 들어 "이십사"라는 발화가 나왔을 때, 이것이 날짜를 의미하는지("24일"), 시간을 의미하는지("24시"), 또는 단순한 숫자를 의미하는지("24")는 문맥을 정확히 파악해야만 알 수 있기 때문입니다.

하지만 AI 회의록 솔루션을 검토할 때 ITN의 완성도를 중요하게 고려할 필요는 없습니다. 최근 LLM의 발전으로 "이천이십사년 삼월 이십일"과 같은 형태로 기록되더라도, 최종 회의록에서는 자연스럽게 "2024년 3월 21일"로 변환되어 제공되기 때문에, 회의 음성 원본 STT 정확도가 100%가 아니더라도 실제 사용할 수 있는 수준의 회의록이 제공됩니다. AI 회의록의 핵심은 결국 회의 내용을 얼마나 잘 요약하고 정리하는가가 중요하기 때문에, ITN의 완성도가 부족하다고 해서 실무에 도입하지 못할 정도로 크리티컬한 요소는 아닌 것이죠.

그 밖에 알아두면 좋은 개념들

이 밖에도 AI 회의록 솔루션을 검토하다 보면 개인정보 마스킹이나 실시간 번역과 같은 다양한 개념들을 접하게 됩니다.

개인정보 마스킹은 회의 중 언급될 수 있는 개인의 이름이나 전화번호, 주민등록번호나 계좌번호 등을 AI 모델을 통해 자동으로 식별하고 마스킹 처리하는 기능으로, 특히 금융권이나 의료 기관과 같이 개인정보보호가 중요한 산업군에서 검토가 필요할 수 있습니다.

한편 실시간 번역 기능은 글로벌 기업의 회의에서 유용할 수 있으나, 이는 AI 회의록과는 별개의 전문 통번역 솔루션을 통해 해결하는 것이 더 적합합니다. 결국 AI 회의록 솔루션 선택 시에는 퀄리티 높은 회의록 작성이라는 본연의 목적에 얼마나 충실한지를 중점적으로 살펴보는 것이 좋습니다.

Contents

Digital Transformation Conversation Intelligence

AI 회의록 솔루션 검토 시 알아두면 좋은 개념들

Yong Yun

Nov 27, 2024

Contents

1. STT(Speech-to-Text) 기술

2. 키워드 부스팅 (Word Boosting)

3. 화자 분리 (Speaker Diarization)

화자 분리는 녹음된 음성에서 발화자를 구분하는 기술입니다. 예를 들어,

화자 1: “이번 프로젝트의 일정이 어떻게 되나요?"
화자 2: “3월까지 완료하는 것이 목표입니다”

4. STT 정확도 (Speech Recognition Accuracy)

5. ITN (Inverse Text Normalization)

그 밖에 알아두면 좋은 개념들

이 밖에도 AI 회의록 솔루션을 검토하다 보면 개인정보 마스킹이나 실시간 번역과 같은 다양한 개념들을 접하게 됩니다.

Contents