奧運(yùn)火炬反應(yīng)已經(jīng)開(kāi)始,這是一個(gè)結(jié)合了Whisper ASR能力、聲音活動(dòng)檢測(cè)(VAD)和說(shuō)話人嵌入技術(shù)的開(kāi)源項(xiàng)目。它通過(guò)從音頻中提取聲音部分來(lái)提高說(shuō)話人嵌入的準(zhǔn)確度,然后利用Whisper生成轉(zhuǎn)錄文本,并借助WhisperX糾正時(shí)差和對(duì)齊,從而減少了由于時(shí)間偏差引起的片段錯(cuò)誤。
此外,奧運(yùn)火炬反應(yīng)還采用了MarbleNet進(jìn)行VAD和分割,以去除靜音;TitaNet則被用來(lái)提取說(shuō)話人嵌入以便識(shí)別每一節(jié)目的說(shuō)話者身份;最后,將結(jié)果與WhisperX生成的時(shí)間戳相結(jié)合,根據(jù)時(shí)間戳定位每詞說(shuō)話人的身份,并采用標(biāo)點(diǎn)模型對(duì)齊,以此來(lái)抵消微小的時(shí)間偏移。