Importige andmed PDF-ist Excelisse Power Query kaudu

PDF-failis olevast arvutustabelist Microsoft Exceli lehele andmete ülekandmine on alati lõbus. Eriti kui sul pole kallist tuvastustarkvara nagu FineReader või midagi taolist. Otsene kopeerimine ei too tavaliselt kaasa midagi head, sest. pärast kopeeritud andmete lehele kleepimist "kleepuvad need kokku" ühte veergu. Seega tuleb need tööriista abil hoolikalt eraldada Tekst veergude kaupa vahekaardilt kuupäev (Andmed – tekst veergudesse).

Ja loomulikult on kopeerimine võimalik ainult nende PDF-failide puhul, kus on tekstikiht ehk äsja paberilt PDF-i skannitud dokumendiga see põhimõtteliselt ei toimi.

Aga see pole nii kurb, tõesti 🙂

Kui teil on Office 2013 või 2016, siis paari minutiga on ilma lisaprogrammideta täiesti võimalik andmeid PDF-ist Microsoft Excelisse üle kanda. Word ja Power Query aitavad meid selles.

Näiteks võtame selle PDF-aruande koos hulga teksti, valemite ja tabelitega Euroopa Majanduskomisjoni veebisaidilt:

Importige andmed PDF-ist Excelisse Power Query kaudu

… ja proovige see Excelis välja tõmmata, öelge esimene tabel:

Importige andmed PDF-ist Excelisse Power Query kaudu

Lähme!

Samm 1. Avage PDF Wordis

Millegipärast teavad vähesed, kuid alates 2013. aastast on Microsoft Word õppinud avama ja ära tundma PDF-faile (isegi skannitud, st ilma tekstikihita!). Seda tehakse täiesti standardsel viisil: avage Word, klõpsake Fail – Ava (Fail — Ava) ja määrake PDF-vorming akna paremas alanurgas olevas ripploendis.

Seejärel valige meile vajalik PDF-fail ja klõpsake avatud (Avatud). Word ütleb meile, et see käivitab selle dokumendi OCR-i tekstiks:

Importige andmed PDF-ist Excelisse Power Query kaudu

Oleme nõus ja mõne sekundi pärast näeme, et meie PDF on redigeerimiseks juba Wordis avatud:

Importige andmed PDF-ist Excelisse Power Query kaudu

Loomulikult lendavad dokumendist osaliselt välja kujundus, stiilid, fondid, päised ja jalused jne, kuid see pole meie jaoks oluline – vajame ainult tabelite andmeid. Põhimõtteliselt on selles etapis juba ahvatlev tabel tuvastatud dokumendist lihtsalt Wordi kopeerida ja lihtsalt Excelisse kleepida. Mõnikord see toimib, kuid sagedamini põhjustab see kõikvõimalikke andmemoonutusi – näiteks võivad numbrid muutuda kuupäevadeks või jääda tekstiks, nagu meie puhul, sest. PDF kasutab mitteeraldajaid:

Importige andmed PDF-ist Excelisse Power Query kaudu

Nii et ärgem kärpigem nurki, vaid teeme kõik veidi keerulisemaks, aga õigeks.

2. samm: salvestage dokument veebilehena

Saadud andmete seejärel Excelisse laadimiseks (Power Query kaudu) tuleb meie Wordis olev dokument salvestada veebilehe vormingusse – see vorming on antud juhul omamoodi Wordi ja Exceli ühisosa.

Selleks minge menüüsse Fail – Salvesta nimega (Fail – Salvesta nimega) või vajutage klahvi F12 klaviatuuril ja avanevas aknas valige failitüüp Veebileht ühes failis (Veebileht – üks fail):

Importige andmed PDF-ist Excelisse Power Query kaudu

Pärast salvestamist peaksite hankima mhtml-laiendiga faili (kui näete Exploreris faililaiendeid).

3. etapp. Faili üleslaadimine Excelisse Power Query kaudu

Loodud MHTML-faili saate avada otse Excelis, kuid siis saame esiteks kogu PDF-i sisu korraga koos teksti ja hunniku tarbetute tabelitega ning teiseks kaotame valede andmete tõttu jälle andmeid. eraldajad. Seetõttu impordime Excelisse Power Query lisandmooduli kaudu. See on täiesti tasuta lisandmoodul, millega saate peaaegu igast allikast (failid, kaustad, andmebaasid, ERP-süsteemid) andmeid Excelisse üles laadida ja seejärel saadud andmeid igal võimalikul viisil teisendada, andes neile soovitud kuju.

Kui teil on Excel 2010–2013, saate Power Query alla laadida Microsofti ametlikult veebisaidilt – pärast installimist näete vahekaarti Toite päring. Kui teil on Excel 2016 või uuem, siis ei pea te midagi alla laadima – kõik funktsioonid on Excelisse juba vaikimisi sisse ehitatud ja asuvad vahekaardil kuupäev (Kuupäev) rühmas Laadige alla ja teisendage (Hangi ja teisenda).

Nii et me läheme kas vahelehele kuupäevvõi vahekaardil Toite päring ja vali meeskond Andmete saamiseks or Loo päring – failist – XML-ist. Mitte ainult XML-failide nähtavaks muutmiseks muutke akna paremas alanurgas olevas ripploendis filtrid Kõik failid (Kõik failid) ja määrake meie MHTML-fail:

Importige andmed PDF-ist Excelisse Power Query kaudu

Pange tähele, et importimine ei õnnestu, kuna. Power Query ootab meilt XML-i, kuid tegelikult on meil HTML-vorming. Seetõttu peate järgmises ilmuvas aknas paremklõpsama Power Queryle arusaamatul failil ja määrama selle vormingu:

Importige andmed PDF-ist Excelisse Power Query kaudu

Pärast seda tuvastatakse fail õigesti ja näeme kõigi selles sisalduvate tabelite loendit:

Importige andmed PDF-ist Excelisse Power Query kaudu

Tabelite sisu saate vaadata, klõpsates hiire vasakut nuppu Andmed veeru lahtrite valgel taustal (mitte sõnas Tabel!).

Kui soovitud tabel on määratletud, klõpsake rohelisel sõnal Tabel – ja sa "kukud" selle sisusse:

Importige andmed PDF-ist Excelisse Power Query kaudu

Selle sisu "kammimiseks" tuleb teha mõned lihtsad sammud, nimelt:

  1. kustutage mittevajalikud veerud (paremklõpsake veeru päisel - eemalda)
  2. asendage punktid komadega (valige veerud, paremklõpsake Väärtuste asendamine)
  3. eemaldage päisest võrdusmärgid (valige veerud, paremklõpsake - Väärtuste asendamine)
  4. eemalda ülemine rida (Avaleht – Kustuta read – Kustuta ülemised read)
  5. eemaldage tühjad read (Avaleht – Kustuta read – Kustuta tühjad read)
  6. tõsta esimene rida tabeli päisesse (Avaleht – kasutage pealkirjadena esimest rida)
  7. filtreerige filtri abil mittevajalikud andmed

Kui tabel on viidud normaalkujule, saab selle käsuga lehele maha laadida sulgege ja laadige alla (Sule ja laadi) on Põhiline sakk. Ja me saame sellise ilu, millega saame juba töötada:

Importige andmed PDF-ist Excelisse Power Query kaudu

  • Veeru teisendamine tabeliks Power Query abil
  • Kleepuva teksti jagamine veergudeks

Jäta vastus