HuggingFaceFW/finepdfs
Liberating 3T of the finest tokens from PDFs
mlforge datasets pull HuggingFaceFW/finepdfs
Dataset details
About HuggingFaceFW/finepdfs
--- license: odc-by taskcategories: - text-generation prettyname: 📄 FinePDFs language: - aai - aak - aau - aaz - aba - abi - abk - abn - abq - abs - abt - abx - aby - abz - aca - acd - ace - acf - ach - acm - acn - acr - acu - ada - ade - adh - adi - adj - adl - ady - adz - aeb - aer - aeu - aey - afr - agd - agg - agm - agn - agr - agt - agu - agw - agx - aha - ahk - aia - aii - aim - ain - ajg - aji - ajz - akb - ake - akh - akp - alj - aln - alp - alq - als - alt - aly - alz - ame - amf - amh - ami - amk - amm - amn - amp - amr - amu - amx - ang - anm - ann - anp - anv - any - aoi - aoj - aom - aoz - apb - apc - ape - apn - apr - apt - apu - apw - apy - apz - arb - are - arg - arl - arn - arp - arq - ars - ary - arz - asg - asm - aso - ast - ata - atb - atd - atg - ati - atj - atq - att - auc - aui - auy - ava - avk - avn - avt - avu - awa - awb - awx - ayo - ayp - ayr - azb - azg - azj - azz - bak - bam - ban - bao - bar - bas - bav - bba - bbb - bbc - bbj - bbk - bbo - bbr - bch - bci - bcl - bco - bcw - bdd - bdh - bdq - bea - bef - bel - bem - ben - beq - bew - bex - bfd - bfo - bgr - bgs - bgt - bgz - bhg - bhl - bho - bhp - bhw - bhz - bib - big - bim - bin - bis - biu - biv - bjn - bjp - bjr - bjv - bkd - bkl - bkq - bku - bkv - bla - blh - blk - blw - blz - bmh - bmk - bmq - bmr - bmu - bmv - bno - bnp - boa - bod - boj - bom - bon - bos - bov - box