본문 바로가기
책을통해 세상을 보다

음성인식(Speech Perception)과 음성인식의 경험적, 이론적 고려사항

by 책과함께라면 2021. 6. 28.
728x90

음성인식이란?

음성 인식은 당신의 청각 시스템이 누군가 말하는 것으로부터 음향 진동을 수신하고, 그것을 언어 정보로 변환하기 위해 그 소리를 처리하는 것이다. 언어의 가장 작은 단위는 음소다. 음핵은 언어마다 다르며, 언어마다 음핵의 양이 다르다. 음핵이 부족하다. 불침투 음소가 불변이라면 각 음소에는 하나의 파형 표현만 있을 것이다. 그러나 실제로 음소리는 다른 소리를 가지고 있다. '우리'의 '이' 소리, '돈'이라는 단어의 '이' 소리처럼 말이다. 만약 비침해가 작동한다면 그들은 같을 것이지만 그렇지 않다. 코아티컬레이션은 음성 인식의 불변성에 영향을 미친다. 코아티컬레이션(coarticulation)은 한 음소의 발음이 다음 음소의 발음에 영향을 미치거나, 또는 이웃한 음소의 중첩에 영향을 미치는 경우를 말한다. 코아티컬레이션은 음소의 발음이 겹치기 때문에 각각의 음소는 다르게 인식될 것이다. 그러므로 음핵은 불변성이 아니다. 비록 음소 발음이 매우 다양하지만, 우리는 여전히 화자가 의도한 음소들을 이해할 수 있다. 인간은 말을 들을 때 매우 통찰력이 있다. 그들은 누락된 단어나 소리를 알아내기 위해 문맥 단서들을 사용할 수 있다. 음소성 회복 효과 때문이다. 음소 복원 효과는 청자가 맥락을 단서로 삼아 빠진 음소를 채우는 것이다. 워렌과 워렌이 수행한 연구에서, 청취자들은 한 문장을 경청했고 잃어버린 음소가 기침으로 대체된 장소를 결정해야 했다. 청취자들에게 기침의 위치가 어디냐고 물었을 때, 그들은 문장의 기침 위치나 사라진 음음을 정확하게 식별할 수 없었다. 또한 시각 신호는 음성 인식에 도움을 줄 수 있다. 맥거크 효과는 시각적 단서가 음성 인식에 미치는 영향을 보여준다. 맥거크 효과는 사람이 시각적 정보와 청각적 정보를 모두 통합하여 사람이 무슨 말을 하는지 알아내는 것이다. 결론적으로 인간은 언어인식을 매우 잘하며, 다른 사람이 말하는 것을 이해하기 위해 다양한 단서를 이용한다. 

 


음성 인식 접근법

음성 인식에는 특별한 메커니즘 접근법과 일반적인 메커니즘 접근이라는 두 가지 유형의 접근법이 있다. 특별한 메커니즘 접근법은 인간이 언어 자극을 해독할 수 있는 특별한 메커니즘을 가지고 인간이 태어난다는 것을 의미한다. 이 접근법에 따라 연구원들은 인간이 음성 모듈을 가지고 있다고 주장한다. 음성 모듈은 음성 인식의 모든 측면을 다루는 특별한 신경 메커니즘이다. 범주형 인식은 음성 모듈에 유리한 주장이다. 단정적인 인식은 사람이 글자의 중간쯤에서 소리를 듣지만, 그 중 한 글자가 선명하게 잘린 것을 듣는 것이다. 다른 접근법은 일반적인 메커니즘 접근법에 따른다. 그들은 음성 모듈을 제안하지 않고 음성 인식을 설명한다. 이러한 접근법을 지지하는 연구원들은 인간이 다른 과정에도 작용하는 신경 메커니즘을 사용하여 언어를 지각한다고 믿는다.  


음성인식의 경험적, 이론적 고려사항

 

 

언어 인식의 대상은 무엇인가? 말하기에는 다음이 포함된다. 의미 있는 소리의 흐름의 연출 신체적인 차원에서는 스펙트로그램은 주파수와 진폭의 패턴을 드러낸다. 그 땅바닥의 청각적 특징. 시냇물이 콤플렉스처럼 들린다. 청각적 특성 패턴이 포함된 음향 구조 그러나, 그 스트림은 감사적으로 분할된 것처럼 보인다. 익숙하지 않은 언어로 보면 종종 구분되지 않은 시냇물처럼 보인다.) 그 가장 두드러진 부분은 단어, 즉 의미 있는 단위들이다. 또한 시냇물 속에서 분별할 수 있는 것은 무엇인가에 해당하는 부분들이다. 음절처럼 이러한 단위나 세그먼트는 기명된 의미가 있다. 대신에 합쳐서 단어들을 만들어내다. 단어들이 합쳐져서 문장을 만든다. 그러나 짝수 음절은 다음과 같이 구성된다. 지각적으로 구별할 수 있는 소리 유형 예를 들어, 그러나. 'dough'은 한 음절이며 /d/의 소리를 포함한다. 및 /O/(또는 /oʊ/) 한 음절의 구어체 소리 'bad'는 /b/, /bi/, /d/를 포함한다. 의 그것들 '배트'와 '배트'는 전자가 다르기 때문에 다르다. /t/를 포함하며, 후자는 /tf/를 포함한다. 감지할 수 있는 장치, 또는 음소(음소)의 패턴이 인식과 인식의 기초가 되는 음소 구별되는 단어들은 에 대한 연구의 주요한 초점이었다. 언어 인식 음핵은 일종의 "소리 알파벳"을 형성하며, 이로부터 음핵을 형성한다. 청각적 단어가 만들어진다.

 

 

댓글