跳到內容
平等EQUALITY 機會OPPORTUNITIES 獨立INDEPENDENCE
主頁 通訊刊物 無障礙數碼科技通訊 第188期 第一部份 (2023年3月版)

通訊刊物

第188期 第一部份 (2023年3月版)

 

香港失明人協進會
無障礙數碼科技通訊 第一百八十八期
Accessible Digital Technology Newsletter (AD Tech) Issue no.188
2023年3月

*************************************************************************

本會提供多項專為視障人士而設立的資訊科技服務,歡迎大家使用︰

聲聞通:以電話語音報讀方式,提供本港九家報章的即日新聞 (只限本會會員)。
電話號碼: (852)3464 5050

資訊科技諮詢電話—透過電話直接解答在電腦應用上遇到疑難的查詢。
電話號碼: (852)2709 5559

網頁無障礙設計主題網站: 提供無障礙網頁設計的指引,技巧和常遇問題等,供業界及市民參考。
https://gate.hkbu.org.hk/service/web

NVDA讀屏軟件下載及教學筆記
https://www.hkbu.org.hk/tc/service/technology/sub-page?page_id=nvda_modules_2021_08

*************************************************************************

如果你還沒有訂閱這份通訊,但希望定期收到這份通訊,可電郵至
enewsletter@hkbu.org.hk
,於主題一欄輸入"訂閱通訊”,同時請留下你的姓名及聯絡電話。如果你是香港以外的朋友,請提供你所在之國家/地區,省份,城市等資料。此外,已登記訂閱的讀者可以登入無障礙數碼科技通訊的網頁,網址為:
http://enews.hkbu.org.hk 。以新視窗打開
讀者可於該網頁上進行訂閱,取消訂閱及登入瀏覽最新一期的無障礙數碼科技通訊。現有已訂閱的讀者用戶不必重新登記,登入名稱及密碼,均預設為其在訂閱本刊 時所採用的個人電郵帳戶的名稱(亦即個人電郵地址上@號前的名稱),新用戶亦可直接於上述網頁進行登記。這些有關個人的資料僅用於編輯部和讀者間連系和本 通訊發展之參考,本刊物將確保遵守香港《私隱條例》,資料將嚴格保密,不會用於其他用途,也不會在未經你的同意下提供給第三者。通訊將會在每月之第二個星 期以電郵寄到訂戶之電郵信箱。另外,如你不再希望收到這份通訊,亦可電郵至香港失明人協進會
enewsletter@hkbu.org.hk
,在主題一欄輸入"取消訂閱”或"unsubscribe”便可,記得也要提供你的姓名,閣下亦可於上述網址進行取消訂閱的手續。

*************************************************************************
編者的話

今期通訊在不同的環節,除了為大家帶來有關無障礙數碼方面的報導外,乙部的專題特寫,為大家介紹一個由本刊編輯個人所編寫的程式——語音轉譯文字程式 WhisperTranscribe,這是個可以在電腦上把影音媒體的語言生成文字檔的程式。功能可以將不同格式的語音轉譯成字幕,可以通過讀屏軟件以個人熟悉的語音,了解以不同語言發表的內容;操作純熟後還可以發揮更多其他在視聽之娛方面的提昇,大家不妨試試。


*************************************************************************

本期內容
甲部
視障輔助技術發展
1. 可以幫助視障人士行走的可穿戴導航系統
2. 可以選擇6種語言的視障者手錶
3. 斯坦福初創公司帶來便利和可負擔的輔助技術
4. SONY新相機套件可將圖像投射至視網膜照顧低視力用戶

乙部
專題特寫
語音轉譯文字程式 WhisperTranscribe

丙部
數碼科技剪報
1. 主推古典音樂的 Apple Music Classical 將於 3 月 28 日上線
2. WhatsApp 將允許用戶設定群組訊息期限
3. 香港八達通儲值額或將提升,全額消費券有望一次領取
4. Messenger 多年後重回 Facebook 行動 app
5. OpenAI 將允許開發者整合 ChatGPT 到其 app 之中
6. Uber 在 iPhone 的螢幕鎖定畫面上顯示預約叫車進度

丁部
數碼世界消息
1. Android 14將開放第三方對passkey的支持
2. Dropbox解除免費用戶在使用密碼工具的密碼儲存上限
3. Facebook 宣布推出名為「Meta驗證」的訂閱服務
4. Google用戶現在可以從Google通訊錄以外的服務中編輯和新增聯絡人資料
5. 研究人員指出火箭發射正在破壞臭氧層

*************************************************************************
甲部
視障輔助技術發展

1. 可以幫助視障人士行走的可穿戴導航系統

在日本,截至 2007 年,包括低視力在內的視障人數估計為 164 萬,到 2030 年這一數字預計將會增加到近 200 萬。

本田的新業務創建計劃 Ashirase 是一種可穿戴的導航系統,可以幫助視障人士行走。這款 Ashirase 是一套導航系統,由智能手機應用程式和包含安裝在鞋內的運動傳感器三維振動裝置組成。

應用程式根據由用家設置的路線,設備會以振動提供導航。 當用戶要直行時,鞋裡位於腳掌前部的振動器會振動;當用家接近須要右轉或左轉時,右側或左側的振動器便會振動以提醒用戶。

Ashirase系統提供的導航可以直觀的了解路線,用家無需時刻注意方向,可以讓用家走得更安全,心情更放鬆。

系統會收集基於 GNSS(全球導航衛星系統)的定位信息,以及用家足部運動的數據來為視障用家提供引導信息。

導航是通過腳掌上的振動來提供的,以免干擾用家拿著白杖的手,或用來聽環境聲音的耳朵。

振動器與腳的神經層對齊,因此用家很容易感覺到振動。該設備採用能保持其原始形狀的柔軟材料製造,以減少對用家產生的任何不適。

該公司正在開發的鞋內導航系統,以支持視障人士步行,並且將盡力以期在截至 2023 年 3 月 31 日的財政年度結束前,開始銷售該款稱為 「Ashirase」的系統。

來源: 2023-02-06 coolblindtech.com
https://rb.gy/p1idlp


2. 可以選擇6種語言的視障者手錶

視障者專用的手錶,以往只有揭蓋觸摸的款式,體積又大又笨重。日本一間鐘錶公司首次以眾籌方式推出一款視障者專用手錶,它的外形優雅如普通男裝手錶,內置光度感應、GPS自動校準地區時間、人工語音報時等功能,實用度相當高。錶盤3個按鈕的體積較一般手錶大,可以讓用家一鍵控制音量大小、報時間、報日子及透過聲音長短報天氣。錶帶等配件則與市售主流產品互通,方便維修;並同時提供中文、英文、西班牙文、日文、韓文及印度文6種語言選擇。

來源:2023-01-25 東方日報on.cc
https://rb.gy/t6yv09


3. 斯坦福初創公司帶來便利和可負擔的輔助技術

根據斯坦福日報資訊:認識 TranscribeGlass,這是一款經濟實惠的 AR 設備,可以附加在您的眼鏡上,並與所選擇的轉錄軟件配對,將實時字幕投射到您的眼前。這項設備來自 CEO 兼聯合創始人麥克·勒凡戈(Madhav Lavakare)以及耶魯大學和聯合創始人 湯·佛斯基(Tom Pritsky)。 這兩名學生都與輔助技術領域有著密切的聯繫;他們在 2021 年攜手合作之前已經獨立地追求這個想法。該公司最近開始生產其首批 150 個預購訂單,並希望在未來幾個月內完成發貨。TranscribeGlass Beta 售價 55 美元,最終版本預計售價可能是 95 美元左右。

來源:2023-02-06 coolblindtech.com
https://rb.gy/py8i9o


4. SONY新相機套件可將圖像投射至視網膜照顧低視力用戶

Alice 發表於 20230307
在按下相機快門時,你是否想到過,對一些人來說,看清相機觀景窗中的畫面,都是一件無比困難的事情?

近日,SONY宣佈,將推出一款名為DSC-HX99 RNV的視網膜投影取景套件,協助全球約2.5億低視力人群順利使用相機拍攝。

這款套件由一台SONYCyberShot DSC-HX99相機和QD Laser視網膜投影觀景窗秉組成,它能夠採用微弱的雷射光束,將相機觀景窗的畫面通過光學三原色投射到人的視網膜上。

通過這項技術,即便是配戴眼鏡後視力仍不到0.3的低視力人群,也能夠清晰的看到相機觀景窗中的畫面,從而無障礙的進行拍攝。

據悉,SONY CyberShot DSC-HX99相機採用了一塊1/2.3英吋的CMOS,其有效像素為1820萬,配有24-720毫米變焦鏡頭,及LCD觸控式螢幕,支持4K拍攝。

目前,DSC-HX99 RNV相機套件僅在日本本地銷售,售價為10.98萬日元(約6,275港元);後續將登陸其他市場。

消息來源
https://rb.gy/op9vkz



*************************************************************************

乙部
專題特寫
語音轉譯文字程式 WhisperTranscribe

以下所介紹之產品並非由香港失明人協進會開發,文稿亦是原作者所提供,如果在安裝以及使用上有任何疑問,請發送電郵到 cyeric20@yahoo.com.hk 與原作者聯絡。

近來很多人談論由 OpenAI 公司所開發的 ChatGPT 人工智能聊天機械人,因為它的思考方式比較接近人類,開始能夠回答一些較為複雜的問題。其實,這間 OpenAI 公司也開發了其他程式,其中一個開放源代碼的程式就稱為 Whisper,
https://github.com/openai/whisper
作用就是將語音轉譯成文字。它的轉譯速度相當不錯,其轉譯結果的準確度大概也有80 至90 或以上巴仙,當中也包含了人工智能的技術。不過它需要在 Python 環境下執行,並且用者需要輸入比較複雜的命令行,加上系統需求比較高,需要電腦具備 NVIDIA 的顯示卡,顯示卡需要有 CUDA 的技術來協助轉譯,轉譯速度才能大大加快。於是有其他人將這個 Whisper 改寫成對系統需求沒那麼高、也是開放源代碼的 whisper.cpp,
https://github.com/ggerganov/whisper.cpp
它無須運用顯示卡的運算協助轉譯工作,也無須在 Python 的環境中執行,不過電腦 CPU 的運算速度快些和記憶體充足一些會比較好,而且轉譯速度似乎也沒那麼快。由於用者仍要輸入複雜的命令行,所以本人就用 whisper.cpp 做為轉譯引擎,編寫了視窗界面,並且命名為 WhisperTranscribe,也就是說 WhisperTranscribe 本質上採用了 OpenAI 的語音轉譯文字技術。

WhisperTranscribe 的主要功能,就是將有說話語音的影音檔案,轉譯成文字檔或字幕檔,也就是說可以為影音檔案生成字幕,當然用者也要編輯一下字幕檔,修正一些錯誤之處,字幕才顯得更為準確,它的特色如下:
* 轉譯的準確率大概有80 至90 或以上巴仙,縱使影音檔案在播出時,有一些背景音也不會妨礙轉譯結果,又或影音檔案的主要說話語言是鍾旻,當中夾雜一些英文程式也能應付,當然說話的語音需要清晰可聽。
* 能夠轉譯絕大部分類型的影音檔案,包括並不限於 .mp3、.aac、.opus、.flac、.wma、.wav 等聲音檔,以及 .avi、.mp4、.wmv、.webm 等影片檔。
* 用者可以為影音檔選擇合適的說話語言,有多個語言可選,並且設有自動偵測語言的選項可選。
* 對於需要使用讀屏軟件的朋友來說,程式同樣易於使用,讀屏都能夠讀出主要的訊息,而且一些功能都設有鍵盤快速鍵。
* 可攜版程式,無須安裝,下載解壓縮後即可使用。

縱使程式具有上述特色,可是它也有不少不足之處,包括:
* 程式最好在 CPU 運算速度較快和記憶體較充裕的電腦執行,相信近幾年出品的電腦,假如具備 Intel Core i5 或運算速度更高的 CPU,具備8 GB 或以上的記憶體,這樣的電腦都可應付,如果在較為低階的電腦執行,轉譯速度會更慢。
* 由於程式佔用電腦 CPU 的資源比較多,會導至電腦產生不少沸熱,所以需要一個良好的散熱環境,而電腦散熱風扇的運轉速度也可能比較高,導致有可能產生教大的噪音。
* 轉譯的速度不夠快,縱使在運算速度較快和記憶體較充裕的電腦進行轉譯,若要有較準確的轉譯結果,一般需要檔案播放時間長度的一倍或以上的時間才轉譯完成,如果在運算速度不夠快和記憶體不夠多的電腦進行轉譯,轉譯速度肯定更慢。
* 由於需要包含不同語音模型的關係,程式比較大,大概需要佔用9 GB 的儲存空間,所以佔用儲存空間比較多,下載程式時花的時間也比較長。
* 程式沒有華麗的視窗界面。
* 在現階段來說,轉譯出來的內容,都不會自動加上標點符號。

若要試用這個程式,可利用網頁瀏覽器造訪
https://drive.google.com/drive/folders/1o1eBtjNbyH9MT9WtdUa6NsGcnGRHMrpi?usp=share_link
將 WhisperTranscribe.zip 下載到電腦,然後將檔案解壓縮。會得出一個名為「WhisperTranscribe」的資料夾,裡面就有執行檔「WhisperTranscribe.exe」,以及其他東東。現在簡述一下使用方法:

1. 準備一個沒有檔案的資料夾,將需要轉譯的影音檔案複製進去。

2. 先開啟「WhisperTranscribe」資料夾內的「WhisperTranscribe.exe」執行檔,代一會後一個主視窗便會出現。

3. 在程式主視窗內按 Tab 鍵到「瀏覽」按鈕,然後按空格鍵,這裡可讓你選擇需要轉譯檔案的資料夾。

4. 選好資料夾後可按 Tab 鍵到選擇語音模型的下拉方塊,再選一個合適的語音模型,建議選「中型」,轉譯準確率大概有80 至90 或以上巴仙,在運算速度較快的電腦來說,轉譯檔案所花的時間,大概是檔案播放時間長度的一倍或以上,例如檔案播放時間長度為10 分鐘,轉譯所花的時間可能需要11 分鐘才完成,如果選「大型」的話,轉譯結果可能會更準確一些,但轉譯檔案所花的時間可能是檔案播放時間長度的三倍或以上。

5. 還有其他選項,可以繼續按 Tab 鍵,可選擇語音語言,還有輸出檔案類型等選項,輸出檔案類型建議選取 .txt 文字檔、.vtt 字幕檔和 .srt 字幕檔。

6. 一切準備就緒後,用者可按「開始」,程式便會開始執行轉譯工作,將資料夾內所有的影音檔案全部轉譯為文字或字幕檔案,轉譯期間會跳出進度視窗,顯示工作進度,使用讀屏的朋友屆時可在進度視窗的唯讀編輯方塊,利用方向鍵讀出不時更新進度的訊息。

7. 程式會記住用者所有已選出的選項,下次執行程式後,如果放置影音檔案的資料夾、說話語言、使用模型和輸出檔案類型等選項沒有改變的話,可以直接按「開始」進行轉譯工作。

8. 程式會利用檔案名稱建立同名資料夾,並將同名影音檔案和輸出檔案都放到資料夾裡面。

9. 在所有轉譯工作都完成後,程式會開啟資料夾並且退出。

10. 如果你的電腦安裝了 PotPlayer 播放器,可以修改 PotPlayer 的一些設定,在 PotPlayer 每次播放有這種字幕的影音檔案的時候,讀屏軟件 NVDA 能讀出字幕。以下 PotPlayer 的設定只需做一次即可,以後無須再造:
10.1. 打開 PotPlayer,在 PotPlayer 視窗按 F5 打開偏好設定。
10.2. 按向下鍵多次到「協助工具 (TTS/UIA)」。
10.3. 案 Tab 鍵多次,直到「使用者介面自動化 (UIA)」,「用於「字幕」輸出時」的核取方塊,然後按空格鍵將它勾選。
10.4. 按 Tab 鍵多次到「確定」按鈕,再按 Enter 鍵即可。

11. 假如已經啟動 NVDA 的話,你可以試一下利用 PotPlayer 播放資料夾內的影音檔,看看 NVDA 能否自動讀出生成的字幕。

以下列出 WhisperTranscribe 主視窗的幾個功能快速鍵:
* Alt+b--按下「瀏覽」按鈕,也就是選擇放有影音檔案的資料夾。
* Alt+o--按下「開啟資料夾」按鈕,也就是開啟資料夾檢視檔案。
* Enter--按下「開始」按鈕,也就是開始進行轉譯工作。
* Escape--按下取消按鈕,也就是取消轉譯並結束程式。

以下列出 WhisperTranscribe 進度視窗的幾個功能快速鍵:
* Alt+h--按下隱藏此視窗」按鈕,也就是隱藏進度視窗,在這個視窗出現時,也可隨時按 Win+Ctrl+h 顯示或隱藏視窗。
* Alt+o--按下「開啟資料夾」按鈕,以檢視資料夾裡面的內容。
* Alt+x--按下「停止並結束」按鈕,也就是停止轉譯工作並且結束程式。

最後需要一提,如果影音檔案的說話語言是廣東話,建議在「語音語言」的下拉方塊選「中文」,程式有可能將語音內容翻譯成書面語。



可按此前往第二部份的內容************************************************************************


 

< 返回上頁