Bitextor è un software libero per la generazione di memorie di traduzione a partire da pagine web multilingue, che sono utilizzati come corpus base. Bitextor è pubblicato sotto licenza GNU GPL v2.

No Title

No Title

No information

L'applicazione scarica tutti i file HTML dalla pagina web indicata dall'utente. Quindi, realizza un pre-processo per convertirli a un formato coerente e adeguato per le tappe successive. Dopodiché Si applica un insieme di euristiche (principalmente basate nella struttura di etichette HTML e nella longitudine delle catene di testo) per fare coppie di file che saranno considerati come candidati a contenere lo stesso testo in differenti idiomi. A partire da questi candidati, si generano le memorie di traduzione in formato TMX mediante la libreria LibTagAligner, che utilizza le etichette HTML e la longitudine dei blocchi di testo (anche) per realizzare l'allineamento.

Lo scopo di questo strumento è quello di facilitare l'ottenimento di corpus multilingue a partire da Internet. Bitextor fu sviluppato, in principio, per facilitare il processo di allenamento di applicazioni di traduzione automatica e, concretamente, quello della piattaforma Apertium.

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

Fonti[modifica | modifica sorgente]



I contenuti della comunità sono disponibili sotto la licenza CC-BY-SA a meno che non sia diversamente specificato.