新聞
2025-12-05 17:01:17

豆包發布語音識別模型2.0支持多模態視覺識別和13種海外語種

今日,火山引擎正式發佈豆包語音識別模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合專家大語言模型架構建構。 據官方介紹,2.0版模型推理能力提升,可透過深度理解上下文完成精準識別,上下文整體關鍵字召回率提升20%。支持多模態視覺識別,在聽得懂的同時看得懂,可以透過單圖和多圖等視覺訊息輸入來提升文字辨識精準度。 同時支援日語、韓語、德語、法語等13種海外語種的識別。並且重點在於針對專有名詞、人名、地名、品牌名稱及易混淆多音字等複雜場景進行了升級。 #豆包 #人工智能 (CW)

<匯港通訊>