L'invention et la vulgarisation des grands modèles de langage (tels que GPT-4 d'OpenAI) ont lancé une vague de solutions innovantes capables d'exploiter de grands volumes de données non structurées qui étaient peu pratiques, voire impossibles, à traiter manuellement jusqu'à récemment. Ces applications peuvent inclure la récupération de données (voir le cours ML301 de Don Woodlock pour une excellente introduction à Retrieval Augmented Generation), l'analyse des sentiments, et même des agents d'IA entièrement autonomes, pour n'en nommer que quelques-uns !
Les données non structurées (ou informations non structurées) sont des informations qui soit n'ont pas de modèle de données prédéfini, soit ne sont pas organisées d'une manière prédéfinie. Les informations non structurées sont généralement constituées de texte, mais peuvent également contenir des données telles que des dates, des chiffres et des faits.


.png)