Mitte diesen Jahres war ich recht begeistert als ich erstmals von der, 'Photosynth' genannten, Technologie von Microsoft zur Synthese von Überlappungspunkten aus Digitalfotografien hörte.
Das Programm analysiert aus einem Pool von Digitalfotos eines bestimmten Ortes (z.B. des Petersplatz in Rom) eine Punktwolke aus Bildarealen, die jeweils ähnliche oder gleiche Merkmale haben (also dasselbe Objekt zeigen).
Genutzt wurde diese Punktwolke allerdings nur um die Digitalfotografien sinnvoll im 3D-Raum anzuordnen. Die Punktwolke selbst war längst nicht dicht genug um eine akkurate 3D-Repräsentation wiederzugeben - eine Ahnung jedoch vermittelte sie schon.
Jedenfalls hat mich diese Technologie sehr zum Träumen angestiftet und ich war wirklich begeistert davon, dass man tatsächlich daran arbeitete 3D-Daten aus Fotos zu generieren. Eine eigentlich nicht ganz neue Technologie, denn fotobasierte 3D-Scanner gibt es schon seit Jahren. Allerdings sind diese höchstens zur Synthese einzelner Objekte geeignet - nicht ganzer Plätze. Und auch das nur umständlich und unpräzise.
Heute Morgen stieß ich dann auf einen weiteren Artikel zum Thema, der die Arbeit einiger Studenten der University of Washington und der TU Darmstadt behandelte. Sie haben den Gedanken der Microsoft-Entwickler einen Schritt weitergeführt und 'echte' 3D-Modelle (nicht mehr nur Punktwolken) aus Fotos generiert, die von der bekannten Fotosharing-Seite 'Flickr' stammen.
Tatsächlich haben sie es geschafft rudimentäre Datensätze der Freiheitsstatue und der Notre Dame de Paris aus Fotos zu entwickeln, die sie 'Flickr' entnommen hatten. Für Beide Modelle wurden Informationen aus ca. 50.000-80.000 Fotos herangezogen.
Die Ergebnisse sind als 3D-Modelle nicht atemberaubend, doch der Weg auf dem die Daten gewonnen wurden ist tatsächlich beeindruckend.
Leider ist man bei der Synthese von 3D-Modellen aus Fotos stark von der Qualität der Fotos selbst und besonders der Größe des Pools abhängig.
Die wesentlichen Parameter sind dabei wohl: Auflösung, Schärfe, Verzerrung, Belichtung.
Da aber auch die Digitalfotografie erst vor wenigen Jahren zur Marktreife gelangt ist, bleibt es abzuwarten.
Aber seht selbst:

Ich finde diese Ergebnisse beeindruckend und bin gleichzeitig entsetzt von den Möglichkeiten, auch wenn die Qualität tatsächlich noch sehr bescheiden ist. Das bemerkenswerte ist eben, dass all diese Informationen frei im Internet verfügbar sind. 'Flickr' hat heute einen Datenpool von über 1 Milliarde Fotografien. Und das obwohl - wie erwähnt - die Digitalfotografie jung und der Consumer-Bereich noch längst nicht gesättigt ist.
Die nächsten Jahre werden zeigen, was aus dieser Technologie zu machen ist.
Hier ein Link zum Artikel:
http://uwnews.washington.edu/ni/article.asp?articleID=37724
Human computing
Eines der wesentlichen Probleme bei der Synthese von Schnittmengen aus einer Masse an Bildern sind sicherlich die Algorithmen zur Erkennung von Bestandteilen.
Sicher ist es bereits jetzt möglich Schnittmengen zu generieren in dem Pixel-Cluster nach den Kriterien der Helligkeit, Farbe und Perspektive verglichen werden.
Andererseits werden auf diesem Weg sicherlich andere implizite Informationen völlig übergangen.
Ebenfalls vor einigen Monaten habe ich ein paar Papers zum Thema Image-Tagging gelesen.
Dabei geht es darum sowohl Bildinhalte (Hund, Haus, Mensch) als auch den jeweiligen Ort der Objekte zu bestimmen. Computeralgorithmen sind bisher kaum geeignet für diese Aufgaben
, da sie sich nur kleiner Datensätze bedienen, die selbst nur wenige Beispiele von 'Hund, Haus, Mensch' enthalten. Alle diese Datensätze müssen von Menschen angelegt werden, die definieren, was und wo 'Hund, Haus, Mensch' ist. Das ist offenbar der einzige Weg, Bildanalysealgorithmen zu 'trainieren'. Da die Algorithmen mit der Dichte an gegebener Information besser werden haben sich Wissenschaftler der Carnegie Mellon University des Internets und seiner User bedient. Sie haben Spiele entwickelt, deren Nebenprodukt Metadaten sind, mit denen Bildanalyse betrieben werden kann (was und wo ist Hund, Haus, Mensch).
Ich kann leider nicht das ganze Spektrum der Forschungsleistung wiedergeben,.. deshalb versuche ich es auf das zu reduzieren, was ich noch in Erinnerung habe.
Eines dieser Spiele nennt sich 'Peekaboom'. Zwei anonyme und zufällig gepaarte Spieler sind beteiligt. Einer der Spieler erhält ein Bild, legt ein Objekt auf dem Bild mit Namen fest und kann mit der Maus Bildbereiche für den anderen Spieler freilegen. Dieser zweite Spieler muss dem freigelegten Bereich einen Begriff zuordnen - also erraten, was zu sehen ist (z.B. Hund).
Ist die Runde beendet und die Begriffe der beiden Spieler stimmen überein, gehen sowohl Ort als auch der entsprechende Begriff für das Objekt aus dem Spiel als Daten hervor.
Dieses Ausnutzen der Fähigkeit des Menschen, Objekte zu erkennen, wird 'human computing' genannt.
Interessant wird dieses Konzept besonders, wenn das Spiel tatsächlichen Anklang findet und genügend vielen Runden von genügend vielen Personen gespielt werden (was offenbar tatsächlich der Fall ist - auch wenn ich nur in diesem Kontext von dem Spiel gehört habe scheint es tatsächlich Menschen zu geben, die einiges ihrer Zeit für 'Peekaboom' opfern.).
Wenn nun dasselbe Bild in 100 Runden mit unterschiedlichen Spielerpaaren gespielt wurde, lassen sich daraus definitiv verwertbare Daten gewinnen. Nicht nur, dass der Bereich in dem sich ein Objekt befindet durch statistische Auswertung präziser definiert werden kann - auch erhält man ein Spektrum von Begriffen für ein einzelnes Objekt. Ein Bild des 'Spiegel' enthielte dann als Metadaten z.B. die Begriffe Spiegel, Zeitschrift, Magazin, Papier und eben den entsprechenden Bildbereich, der mit diesen Begriffen verknüpft ist.
Eine fantastische Sache.
Ich habe Schwierigkeiten hier das Spektrum der Möglichkeiten auszumalen, die dieses Prinzip der Datenerhebung bietet.. aber denkt einmal an die Google-Bildersuche.. Gesichtserkennung.. Google Earth, Youtube, etc.
Ich schätze so bekommt man eine Idee des titanischen Gewichts solcher Technologien für den Informationsmarkt der Zukunft.
Aber vielleicht phantasiere ich auch nur zu sehr.
Hier jedenfalls ein Paper zum Thema 'peekaboom'. Empfehlenswert! :
http://www.cs.cmu.edu/~biglou/Peekaboom.pdf
Das Programm analysiert aus einem Pool von Digitalfotos eines bestimmten Ortes (z.B. des Petersplatz in Rom) eine Punktwolke aus Bildarealen, die jeweils ähnliche oder gleiche Merkmale haben (also dasselbe Objekt zeigen).
Genutzt wurde diese Punktwolke allerdings nur um die Digitalfotografien sinnvoll im 3D-Raum anzuordnen. Die Punktwolke selbst war längst nicht dicht genug um eine akkurate 3D-Repräsentation wiederzugeben - eine Ahnung jedoch vermittelte sie schon.
Jedenfalls hat mich diese Technologie sehr zum Träumen angestiftet und ich war wirklich begeistert davon, dass man tatsächlich daran arbeitete 3D-Daten aus Fotos zu generieren. Eine eigentlich nicht ganz neue Technologie, denn fotobasierte 3D-Scanner gibt es schon seit Jahren. Allerdings sind diese höchstens zur Synthese einzelner Objekte geeignet - nicht ganzer Plätze. Und auch das nur umständlich und unpräzise.
Heute Morgen stieß ich dann auf einen weiteren Artikel zum Thema, der die Arbeit einiger Studenten der University of Washington und der TU Darmstadt behandelte. Sie haben den Gedanken der Microsoft-Entwickler einen Schritt weitergeführt und 'echte' 3D-Modelle (nicht mehr nur Punktwolken) aus Fotos generiert, die von der bekannten Fotosharing-Seite 'Flickr' stammen.
Tatsächlich haben sie es geschafft rudimentäre Datensätze der Freiheitsstatue und der Notre Dame de Paris aus Fotos zu entwickeln, die sie 'Flickr' entnommen hatten. Für Beide Modelle wurden Informationen aus ca. 50.000-80.000 Fotos herangezogen.
Die Ergebnisse sind als 3D-Modelle nicht atemberaubend, doch der Weg auf dem die Daten gewonnen wurden ist tatsächlich beeindruckend.
Leider ist man bei der Synthese von 3D-Modellen aus Fotos stark von der Qualität der Fotos selbst und besonders der Größe des Pools abhängig.
Die wesentlichen Parameter sind dabei wohl: Auflösung, Schärfe, Verzerrung, Belichtung.
Da aber auch die Digitalfotografie erst vor wenigen Jahren zur Marktreife gelangt ist, bleibt es abzuwarten.
Aber seht selbst:

Ich finde diese Ergebnisse beeindruckend und bin gleichzeitig entsetzt von den Möglichkeiten, auch wenn die Qualität tatsächlich noch sehr bescheiden ist. Das bemerkenswerte ist eben, dass all diese Informationen frei im Internet verfügbar sind. 'Flickr' hat heute einen Datenpool von über 1 Milliarde Fotografien. Und das obwohl - wie erwähnt - die Digitalfotografie jung und der Consumer-Bereich noch längst nicht gesättigt ist.
Die nächsten Jahre werden zeigen, was aus dieser Technologie zu machen ist.
Hier ein Link zum Artikel:
http://uwnews.washington.edu/ni/article.asp?articleID=37724
Human computing
Eines der wesentlichen Probleme bei der Synthese von Schnittmengen aus einer Masse an Bildern sind sicherlich die Algorithmen zur Erkennung von Bestandteilen.
Sicher ist es bereits jetzt möglich Schnittmengen zu generieren in dem Pixel-Cluster nach den Kriterien der Helligkeit, Farbe und Perspektive verglichen werden.
Andererseits werden auf diesem Weg sicherlich andere implizite Informationen völlig übergangen.
Ebenfalls vor einigen Monaten habe ich ein paar Papers zum Thema Image-Tagging gelesen.
Dabei geht es darum sowohl Bildinhalte (Hund, Haus, Mensch) als auch den jeweiligen Ort der Objekte zu bestimmen. Computeralgorithmen sind bisher kaum geeignet für diese Aufgaben
, da sie sich nur kleiner Datensätze bedienen, die selbst nur wenige Beispiele von 'Hund, Haus, Mensch' enthalten. Alle diese Datensätze müssen von Menschen angelegt werden, die definieren, was und wo 'Hund, Haus, Mensch' ist. Das ist offenbar der einzige Weg, Bildanalysealgorithmen zu 'trainieren'. Da die Algorithmen mit der Dichte an gegebener Information besser werden haben sich Wissenschaftler der Carnegie Mellon University des Internets und seiner User bedient. Sie haben Spiele entwickelt, deren Nebenprodukt Metadaten sind, mit denen Bildanalyse betrieben werden kann (was und wo ist Hund, Haus, Mensch).
Ich kann leider nicht das ganze Spektrum der Forschungsleistung wiedergeben,.. deshalb versuche ich es auf das zu reduzieren, was ich noch in Erinnerung habe.
Eines dieser Spiele nennt sich 'Peekaboom'. Zwei anonyme und zufällig gepaarte Spieler sind beteiligt. Einer der Spieler erhält ein Bild, legt ein Objekt auf dem Bild mit Namen fest und kann mit der Maus Bildbereiche für den anderen Spieler freilegen. Dieser zweite Spieler muss dem freigelegten Bereich einen Begriff zuordnen - also erraten, was zu sehen ist (z.B. Hund).
Ist die Runde beendet und die Begriffe der beiden Spieler stimmen überein, gehen sowohl Ort als auch der entsprechende Begriff für das Objekt aus dem Spiel als Daten hervor.
Dieses Ausnutzen der Fähigkeit des Menschen, Objekte zu erkennen, wird 'human computing' genannt.
Interessant wird dieses Konzept besonders, wenn das Spiel tatsächlichen Anklang findet und genügend vielen Runden von genügend vielen Personen gespielt werden (was offenbar tatsächlich der Fall ist - auch wenn ich nur in diesem Kontext von dem Spiel gehört habe scheint es tatsächlich Menschen zu geben, die einiges ihrer Zeit für 'Peekaboom' opfern.).
Wenn nun dasselbe Bild in 100 Runden mit unterschiedlichen Spielerpaaren gespielt wurde, lassen sich daraus definitiv verwertbare Daten gewinnen. Nicht nur, dass der Bereich in dem sich ein Objekt befindet durch statistische Auswertung präziser definiert werden kann - auch erhält man ein Spektrum von Begriffen für ein einzelnes Objekt. Ein Bild des 'Spiegel' enthielte dann als Metadaten z.B. die Begriffe Spiegel, Zeitschrift, Magazin, Papier und eben den entsprechenden Bildbereich, der mit diesen Begriffen verknüpft ist.
Eine fantastische Sache.
Ich habe Schwierigkeiten hier das Spektrum der Möglichkeiten auszumalen, die dieses Prinzip der Datenerhebung bietet.. aber denkt einmal an die Google-Bildersuche.. Gesichtserkennung.. Google Earth, Youtube, etc.
Ich schätze so bekommt man eine Idee des titanischen Gewichts solcher Technologien für den Informationsmarkt der Zukunft.
Aber vielleicht phantasiere ich auch nur zu sehr.
Hier jedenfalls ein Paper zum Thema 'peekaboom'. Empfehlenswert! :
http://www.cs.cmu.edu/~biglou/Peekaboom.pdf

0 Comments:
Post a Comment
<< Home