2024年11月15日 09:11瀏覽次數(shù):7071次編輯:圣靈科技-小圣
科大訊飛公司近日宣布,其最新研發(fā)的訊飛星火多模態(tài)交互大模型正式投入運營。這一技術(shù)突破標(biāo)志著科大訊飛從單一的語音交互技術(shù)拓展到音視頻流實時多模態(tài)交互的新階段。新模型集成了語音、視覺和數(shù)字人交互功能,用戶可通過一鍵調(diào)用,實現(xiàn)三者的無縫結(jié)合。
訊飛星火多模態(tài)交互大模型的推出,首次引入了超擬人數(shù)字人技術(shù),該技術(shù)能夠使數(shù)字人的軀干和四肢動作與語音內(nèi)容精準(zhǔn)匹配,快速生成表情和動作,極大提升了AI的生動性和真實感。通過整合文本、語音和表情,新模型能夠?qū)崿F(xiàn)跨模態(tài)的語義一致性,讓情感表達(dá)更加真實連貫。
此外,訊飛星火支持超擬人極速交互技術(shù),利用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)語音到語音的端到端建模,使得響應(yīng)速度更快、更流暢。該技術(shù)能夠敏銳感知情緒變化,并根據(jù)指令自由調(diào)整聲音的節(jié)奏、大小和人設(shè),提供更為個性化的交互體驗。
在多模態(tài)視覺交互方面,訊飛星火能夠“聽懂世界”“認(rèn)清萬物”,全面感知具體背景場景、物流狀態(tài)等信息,使得對任務(wù)的理解更加精準(zhǔn)。通過綜合語音、手勢、行為、情緒等多種信息,模型能夠作出合適的回復(fù),為用戶提供更為豐富和精準(zhǔn)的交互體驗。
多模態(tài)交互大模型SDK:https://www.xfyun.cn/solutions/Multimodel
來源:AIbase基地
關(guān)注圣靈科技公眾號,免費獲得更多企業(yè)互聯(lián)網(wǎng)發(fā)展方案!
Copyright @ 2004-2023 m.mzanhe.com All Right Reserved @重慶市渝中區(qū)圣靈科技信息有限公司 版權(quán)所有
渝ICP備16004600號-5
渝公網(wǎng)安備 50010802001399號
電子營業(yè)執(zhí)照