SANAD: Single-Label Arabic News Articles Dataset for Automatic Text Categorization

SANAD: Single-Label Arabic News Articles Dataset for Automatic Text Categorization

SANAD Dataset is a large collection of Arabic news articles that can be used in different Arabic NLP tasks such as Text Classification and Word Embedding. The articles were collected using Python scripts written specifically for three popular news websites: AlKhaleej, AlArabiya and Akhbarona.

🔗 Visit SANAD: Single-Label Arabic News Articles Dataset for Automatic Text Categorization
📁 Informatique🗣️ English📅 April 17, 2026

Description

SANAD Dataset is a large collection of Arabic news articles that can be used in different Arabic NLP tasks such as Text Classification and Word Embedding. The articles were collected using Python scripts written specifically for three popular news websites: AlKhaleej, AlArabiya and Akhbarona.

💬 Our review

Le dataset SANAD est une véritable mine d'or pour ceux qui s'intéressent au traitement automatique de la langue arabe. Il regroupe une grande quantité d'articles de presse provenant de trois sites bien connus : AlKhaleej, AlArabiya et Akhbarona. Cela permet d'avoir une diversité de styles et de sujets, ce qui est essentiel pour des tâches comme la classification de texte ou l'embedding de mots. En revanche, ce n'est pas un site facile à naviguer si tu cherches à comprendre les détails du dataset. Les informations sont plutôt techniques et il peut être difficile de trouver ce que tu cherches. De plus, la plupart des ressources disponibles en ligne sont en anglais, ce qui pourrait poser un problème si tu n'es pas à l'aise avec cette langue. Concernant les prix, c'est complètement gratuit, ce qui est un gros plus pour les chercheurs et les développeurs. En revanche, il n'y a pas d'assistance ou de support direct, donc si tu rencontres des soucis, tu devras probablement te débrouiller tout seul. En somme, SANAD est un bon choix si tu cherches des données en arabe, mais sois prêt à passer du temps à t'y retrouver. Pour ceux qui cherchent d'autres options, des sites comme Kaggle ou Hugging Face offrent également des datasets intéressants, mais peut-être pas spécifiquement en arabe.

📊 Global score

60Good
🌐Availability30/100Faible

2 languages · 0 platform

📄Profile90/100Excellent

Profile completeness

🤖 AI-enriched data

💰 Pricing model🆓 Gratuit· Gratuit
👥 Target audienceChercheurs | Développeurs
🗣️ Languagesfren
🌍 Target countriesMonde
👍

Pros

Accès gratuit

Large collection d'articles

Utilisable pour plusieurs tâches NLP

👎

Cons

Difficulté de navigation

Support limité

🔄 Alternatives to SANAD: Single-Label Arabic News Articles Dataset for Automatic Text Categorization

See all alternatives to SANAD: Single-Label Arabic News Articles Dataset for Automatic Text Categorization