Hallo in die Runde!
Um mein persönliches LEGO-Projekt aufzusetzen, möchte ich gerne gewisse Informationen aller LEGO-Sets zwischen 1949 und 2020 untersuchen. Ich weis bereits, dass es gut 16k Sets sind, wobei ich später unvollständige Datensätze nicht berücksichtigen möchte und einfach löschen will. Also habe ich versucht, mit der Brickset/Rebrickable/Brinklink Datenbank herumzuspielen. Soweit es sich mir erschließt, bittet keinen der Datenbanken allen Informationen und ich muss schlussendlich auf alle drei zugreifen. Die Daten, auf die ich vorallem konzentrieren möchte, sind:
Set-Nummer; Set Name; Themengebiet; Unter-Themengebiet; Erscheinungsjahr; Lego-Teile / Lots / Counterparts / Extra Parts / Alternative Parts; Minifigs; Minifigs einzigartig in diesem Set; Designer; UVP in USD; Altersempfehlung; Abmessungen (x y z); Rating; Anzahl der Bewertungen; Mitglieder besitzen dieses Set; Mitglieder wollen dieses Set; Anleitung erhältlich; Sticker vorhanden; verkauft auf lego. com von / bis; part out value; bricklink durchschnittlicher verkaufspreis neu, bricklink durchschnittlicher verkaufspreis die letzten 6 monaten usw.
Sicherlich habe ich noch etwas vergessen, aber im
Groben sind diese mir diese am Wichtigsten.
Ich möchte klarstellen, dass es sich um ein privates Projekt handelt und die Daten nicht für kommerzielle Zwecke verwendet werden. Ich habe versucht, mit eigenen Abfragen auf die Daten zuzugreifen, leider sind nicht alle Daten wie oben erwähnt abrufbar. Leider bin ich mit Begriffen wie API nicht vertraut und hoffe, dass mir hier vielleicht jemand helfen kann. Am liebsten wäre mir eine große Excel Tabelle am Ende, Vielen Dank im Voraus für eine Antwort. Grüsse,
Facko
Mylenium
21.02.2021, 09:07
Als Antwort auf den Beitrag von facko
Editiert von
Mylenium
21.02.2021, 09:42
Da die ausgespuckten Webseiten nicht für jede der Infos ein spezielles Tag generieren oder einen eindeutigen CSS-Stil, wird das mit Sicherheit nicht so einfach. Entsprechend könnte man da nur mit einem aufgeblasenem Skript rumwurzeln, dass eimerweise mit RegEx filtert und versucht anhand bestimmter Zeichenketten und Kontexte die Info zu isolieren und dann muss man noch drei Seiten miteinander vergleichen. Sicher machbar, aber da kann man gut und gerne mal ein paar Wochen dran rumbasteln, bis es funktioniert.
Mylenium
Hallo,
facko hat geschrieben:
Moin,
Mylenium hat geschrieben:
Hallo Werner,
vielen Dank für Deine schnelle Antwort. Ich versuche etwas Licht in das Dunkel zu bringen.
Lok24 hat geschrieben:
Lok24 hat geschrieben:
Hallo,
facko hat geschrieben:
Mylenium
21.02.2021, 10:40
Als Antwort auf den Beitrag von facko
Editiert von
Mylenium
21.02.2021, 10:40
facko hat geschrieben:
Mylenium hat geschrieben: