聽見世界是由復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室出品的AI公益助盲軟件。目前里面包括了多個(gè)不同的使用模式可以進(jìn)行使用和切換,比如自由問答、街道行走、物品查找、拍照朗讀等,都是非常便利性的功能。
【軟件內(nèi)容】
聽見世界應(yīng)用是一款依托于眸思大模型的AI圖像識(shí)別工具,可以幫助視覺障礙者更方便的“看清世界”。她提供了強(qiáng)大的圖像識(shí)別能力,可以應(yīng)用于日常生活的多個(gè)場(chǎng)景,為您帶來便利。
“復(fù)旦·眸思”(MouSi)官網(wǎng)鏈接:http://www.mousi.org/,可登錄試用體驗(yàn),打破視覺界限,助力視障者“看見”世界。
“聽見世界”APP針對(duì)視障者日常的生活需求,設(shè)計(jì)了三種模式。
【軟件模式】
街道行走模式,它將細(xì)致掃描道路情況,告知紅綠燈、十字路口、障礙物……提示潛在風(fēng)險(xiǎn),陪伴視障者安全通行。
自由問答模式。走進(jìn)博物館、藝術(shù)館、公園……它能捕捉四周景象的每個(gè)細(xì)節(jié),用聲音構(gòu)建一個(gè)豐富的生活場(chǎng)景。
尋物模式。它像一名可靠的管家,日常物件的尋覓過程變得輕松無壓力。
【軟件功能】
物品識(shí)別
能精確識(shí)別到拍攝的物品,輕松獲取周圍物品信息,從而更好的理解周圍環(huán)境。
語音交互
可以直接通過對(duì)話方式進(jìn)行操作并與AI溝通。
拍照閱讀
用戶使用App拍攝文字材料,如書籍、標(biāo)簽或路標(biāo),App通過文字識(shí)別技術(shù)讀取并解析文字內(nèi)容,然后通過語音合成技術(shù)將文字內(nèi)容朗讀給用戶,幫助用戶理解文字信息。
【軟件優(yōu)勢(shì)】
眸思(MouSi)多模態(tài)大模型是由復(fù)旦大學(xué)語言與視覺團(tuán)隊(duì)聯(lián)合提出基于多視覺專家混合架構(gòu)的視覺-語言大模型。基于新架構(gòu)的眸思將擅長圖文匹配、光學(xué)字符識(shí)別(OCR)和圖像分割等多種經(jīng)典視覺任務(wù)的專家巧妙地融為一體,顯著地提高了多模態(tài)大模型在多模態(tài)對(duì)話中傳統(tǒng)視覺任務(wù)上的表現(xiàn)效果。
復(fù)旦眸思多模態(tài)大模型是一種具備多模態(tài)理解、生成和交互能力的強(qiáng)大模型。它擁有出色的視覺感知、理解和邏輯推理能力,以及出色的由圖像到文本的跨模態(tài)生成能力。這使得人工智能成為了適用于廣大群眾的生產(chǎn)工具。對(duì)于企業(yè)特定需求,復(fù)旦眸思多模態(tài)大模型可以開展定制化服務(wù)。
展開