Salut à toi, Internaute de passage. On dirait que c'est la première fois que tu viens ici, ou alors, ça fait un bail que tu n'es pas venu ;-).

N'hésites pas à t'abonner gratuitement par mail ou via le flux RSS, afin de recevoir automatiquement les nouveaux articles de ce site dès qu'ils sont publiés.

mguesser

Posté par Olivier Ruffin le 23 mars 2007 Ma sélection du Web

mguesser est une librairie extraite du logiciel mnoGoSearch (un moteur de recherche), qui permet de deviner la langue et le type d’encodage d’un texte.
mguesser est implémenté en utilisant la technique “N-Gram-Based Text Categorization”, qui est disponible dans TextCat. Ce programme est développé en C, et optimisé pour détecter très rapidement la langue d’un texte.

Aperçu de mguesser

Voici une capture d'écran (i.e. screenshot) du site mnogosearch .org :

mguesser

Notes similaires

Discussion

Ecrire un commentaire

Commentaires

Vos commentaires apparaissent automatiquement et en intégralité sur ce site. Votre adresse email ne sera pas communiquée au public. Dans certains cas, une validation de ma part est nécessaire avant que votre commentaire soit visible, afin d'éviter le spam: merci pour votre patience.

Tags HTML autorisés: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>