Apache Tika disponible en version 1.0
Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers
Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.
C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).
Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de com...