<nav id="20o0y"><tbody id="20o0y"></tbody></nav>
  • <tbody id="20o0y"><tbody id="20o0y"></tbody></tbody>
  • <dd id="20o0y"></dd>

    瑞科翻譯

    創立于2004年

    亞太區語言服務商Top 30

    語料工具

    Corpus Tools
    ABBYY FineReader

    ABBYY FineReader

    ABBYY FineReader是一款專業OCR軟件,可以進行文件識別、自動保留排版格式,后臺批處理識別等功能。用戶可以利用ABBYY FineReader進行對不可編輯文本的掃描,如圖像、PDF等格式的語料,以獲取Microsoft Word等格式的可編輯的文檔。
    天若OCR文字識別

    天若OCR文字識別

    天若OCR文字識別是一款界面簡潔、功能強大的OCR識別軟件,可將圖片中的文本轉換成可編輯文本,將表格識別后轉換成可編輯表格,進行識別翻譯、截圖及截圖標注等,處理圖像或PDF等格式語料極為方便。
    Teleport Ultra

    Teleport Ultra

    Teleport Ultra擁有直觀的界面,可以在一個項目中處理多個服務器,使用正則表達式指定要爬行的包含區域和排除區域,批量獲取網頁數據信息。在語料搜集過程中,我們可以利用Teleport Ultra軟件搜集網站中語料資源,根據軟件向導的提示,經過簡單的操作,便可以迅速獲取大量資料。
    TextForever

    TextForever

    TextForever可以用來進行文本HTML到TXT 的轉換、文件切分、文檔合并、文本提取、TXT 文件分行、HTML 代碼整理等功能。在使用Teleport Ultra軟件提取網頁中的語料后,我們可以使用TextForever軟件對所獲取的語料進行格式處理,搜集所需格式的語料,兩個軟件的搭配使用使得語料搜集過程更加方便快捷。
    Microsoft Word

    Microsoft Word

    微軟Word是微軟公司開發的一款文字處理軟件。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。

    具體來說,利用Ctrl+H快捷鍵調出查找與替換對話框,點擊“更多”,單擊勾選“通配符”,借助通配符快速清洗語料。

    EmEditor

    EmEditor

    EmEditor是一個輕量級、可擴展、易于使用的Windows文本編輯器,適用于Windows系統。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟件中利用正則表達式快速清洗語料,具體操作是導入文本后,點擊“搜索”,單擊“替換”,再勾選“正則表達式”,利用正則表達式清洗語料。

    正則表達式學習參考:

    https://www.runoob.com/regexp/regexp-tutorial.html

    在線正則表達式測試平臺:

    https://tool.oschina.net/regex

    Notepad++

    Notepad++

    Notepad++是一款與EmEditor類似的軟件,Notepad++是Windows操作系統下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術)。同樣,我們也可以借助它,并利用正則表達式清洗語料,操作與EmEditor類似。
    斑斕科技小助手

    斑斕科技小助手

    斑斕科技小助手是一款基于VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在word中使用,功能豐富,提供各種快捷鍵,操作簡單方便,為語料處理提供極大的幫助。
    ABBYY Aligner

    ABBYY Aligner

    ABBYY Aligner 2.0是一個專業的工具對齊并行文本和創建翻譯記憶數據庫,提供了編輯對齊結果的功能,并可以保存為TMX格式,以便在CAT工具中進一步使用,可以提高工作效率。
    Tmxmall

    Tmxmall

    Tmxmall是一款在線語料對齊工具,語料對齊方便用戶調整對齊結果,其自主研發的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。
    AntConc

    AntConc

    AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統,具有索引、索引定位、詞叢、搭配、詞表和關鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。
    ParaConc

    ParaConc

    ParaConc是一款雙語或多語平行語料庫建設與檢索工具,具有語料對齊、平行文本預覽功能、平行文本檢索、檢索行排序、詞頻統計、搭配提取等功能,可以用于語料檢索、對比分析、語言學習和翻譯研究培訓等。